打造金融級智能中臺的數據底座-王志勇_第1頁
打造金融級智能中臺的數據底座-王志勇_第2頁
打造金融級智能中臺的數據底座-王志勇_第3頁
打造金融級智能中臺的數據底座-王志勇_第4頁
打造金融級智能中臺的數據底座-王志勇_第5頁
已閱讀5頁,還剩71頁未讀, 繼續免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

太岳(王志勇)主辦方 的創業團隊,聲稱可以利用1/1000的數據就可以進行深度學習訓練,是否值得投資?·AI浪潮下,工程開發人員的思維方式是否要改變?主辦方主辦方王志勇(太岳),07年加入阿里,先后支持過中國雅虎、口碑、支付寶的業務研發,目前負責螞蟻進入人工智能團隊的主要中臺產品研發,包括搜索平主辦方主辦方2.數據底座的背景分析3.高效:用AI解決AI的問題4.高質:流程與工具并用5.安全:金融的底線6.總結主辦方主辦方Al在螞蟻的應用場景基于深度學習的風險識別與防控智能理財基于金融大數據提供智能理財策略分析和決策建議智能理財基于金融大數據提供智能理財策略分析和決策建議金融大腦金融大腦基于數據隱私加密共享學習的聯合放貸智能保險定價、定損、理基于數據隱私加密共享學習的聯合放貸一站式金融場景機器人智能業務決策和執行助理主辦方主辦方螞蟻AI能力大圖行業&場景行業&場景智能風控智能營銷智能保險智能客服助理智能信貸智能理財金融知識圖譜&NLP金融視覺平臺金融算法(AutoML,圖推理,隱私保護共享學習,運籌優化,無監督學習,在線學習,強化學習,模型可解釋)金融大腦主辦方主辦方螞蟻保險-讓更多人享受有保障的生活相互寶相互寶多收多保多收多保··半年超過5000萬用戶·2500萬小商戶主辦方圖像識別實體抽取實體匹配用戶上傳圖像識別實體抽取實體匹配感知NLP&知識圖譜·反欺詐:識別PS圖片等Geekbang).InfoQGeekbang).InfoQ1.金融智能的應用場景1.金融智能的應用場景2.數據底座的背景分析3.高效:用AI解決AI的問題4.高質:流程與工具并用5.安全:金融的底線6.總結主辦方主辦方模模型數據標注模型部署數據清洗數據標注模型部署研發平臺研發平臺知識圖譜&NLP平臺知識圖譜&NLP平臺工程底座(訓練、評測、發布等)數據底座(存儲、標注、分析等)工程底座(訓練、評測、發布等)底層技術底層技術ASWF、DataOS訓練&算法搜索主辦方為什么數據底座很重要·數據處理貫穿模型迭代的始終·數據和特征決定了機器學習的上限●數據安全是金融行業生命線數據量與準確率之間的關系測試字符數量測試字符數量1002003004005006007008009001000一WindowMemory-Based·訓練安全質量·標注質量·標注效率低主辦方主辦方數據流轉智能標注6.總結主辦方主辦方標注檢查模型預標清洗過濾標注檢查模型預標數據采集數據標注數據采集數據標注規則校驗業務數據支口¥業務場景規則校驗業務數據支口¥業務場景業務校驗數據切分數據轉換數據轉換統一存儲主辦方樣本數據復用為預標注結果沉淀成資產沉淀成資產快照數據主辦方智能標注:模型市場賦能標注算法算法自訓練模型自訓練模型通用模型主動學習數據增強預標注智能輔標視頻類圖像類文本類主辦方主辦方 ·主動學習(ActiveLearning)是一個迭代過橙色:主動學習藍色:隨機 ·分類寶case:約10%的樣本達到所有數據的橙色:主動學習藍色:隨機4040綠色:所有al_scoresamples0al_importance_scorealal_scoresamples0al_importance_scoreal_importance_probsamples*原始樣本交叉熵重要性函數值重要性采樣概率采樣樣本數據增強:解決樣本少或者不均衡的問題2.enlarge1.復制、翻轉、剪切、縮放2.高斯噪聲、高斯模糊…1.復制、翻轉、剪切、縮放2.高斯噪聲、高斯模糊…A:x*N3.3.SMOTE、GAN分別抽取K條計分別抽取K條計總樣本數主辦方主辦方 ●很多業務場景帶來數倍的效率提升;·大部分實現基于前端算法,計劃開源主辦方主辦方⊙口a一步長⊙口a一步長章沖Q+牛畫:社云線條過(基)利多卡因膠漿劑(I治療費材料費BD真空采血器(檢驗)BD真空采血器(檢驗)BD真空采血器(2)(檢化驗費五.亡hh購主松*白0.270.0046.0130.00/100%雙里(乙)1支(甲)1次(甲)1把(甲)1支(甲)1支(甲)1支(甲)1支(丙)1項(丙)1項(甲)1項/11而亞嵌44.0030.00第二聯收據聯識別票項目/規格類數量金欲西藥費(基)利多卡因膠漿劑(I治療費靜脈采血材料費一次性活檢鉗JRQ-Y2316- 0.0.4BD真空采血器(檢驗)主辦方北即北即六福珠寶主辦方播放速度1幀率|30確定]至[1幀[跳轉隱藏所有標記刪除當前幀標記+添加幀標記主辦方主辦方標注說明15/93幀隱藏P當前主辦方主辦方6.總結主辦方主辦方駁回駁回駁回駁回工工作流工具檢查檢查機器人數數據引擎流程引擎分析引擎樣本數據指標數據流程引擎分析引擎主辦方主辦方標注質量總體數據雷題準確率①樣本準確率①題目一致率①樣本數據驗收數據驗收比例驗收不通過數驗收準確率①驗收F1值①6.65%文本|驗收結果匯總|驗收結果匯總驗收時間量驗收比例主辦方標注結果統計-多選題查看更多v聯合結果單項結果制造業制造業|木材加工….:2.63%政務|社保:5.26%其他:10.53%三級行業體系生活服務|其他:10.17%-批發零售日用百….:15.25%教育培訓其他培….:18.42%教育培訓其他培….:11.86%批發零售日用百….:15.79%其他:6.78%制造業|木材加工….:1.69%文娛|廣播、電視….:13.16%教育培訓其他:13.56%賃和商務服務業….:8.47%雙擊查看標注結果詳情文娛|娛樂活動|.….:23.73%體系模型效果報表混淆矩陣①混淆矩陣①真實值預測值毛絨玩具抱枕八音盒花水晶擺件毛絨玩具4000抱枕0000八音盒0000花0000水晶擺件0000竹簡00000PR曲線(按標簽)紙板箱|紙袋紐扣紐扣電池繩子緩沖材料緩沖空氣袋編織袋縫紉機分數閾值④:0.885074.9%0.8召回率①0主辦方2.數據底座的背景分析3.高效:用AI解決AI的問題4.精準:流程與工具并用5.安全:金融的底線6.總結主辦方主辦方加密加密分割水印不落庫時效主辦方主辦方標注員開始標注員開始標注頁Token、標注員密鑰標注展示主辦方·語音、文本、圖片··最小化分割標注任務包1片段1.2標注任務包2片段2.1原始數據數據分割片段2.1標注任務包3片段2.2敏感信息識別片段n.m主辦方主辦方加密標注數據標注數據加密標注數據原數據1加密數據1原數據1加載到內存解碼&合成模型訓練加載到內存加密數據2原數據2原始數據數據分割加密數據2原數據2原數據3加密數據3原數據3磁盤統一存儲主辦方6.總結主辦方主辦方平平臺寬表產品寬表標注平臺數據資產圖像平臺NLP平臺知識圖譜數據多維透視質量多維評估報表監控&預警管控&治理能力組件能力組件模型市場主動學習數據增強數據安全分析引擎統計信息標注&預測結果標注數據歸一標注數據歸一原始數據反饋數據結果結果原始數據反饋數據標注任務信息流程引擎統一存儲統一格式統一分析主辦方主辦方AndroidServerAPIAndroid小程序創建應用ServerA

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論