




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)
文檔簡介
1、MindSpore數(shù)據(jù)框架主要技術(shù)架構(gòu)及關(guān)鍵特性華為2012實驗室陳雷第1頁,共16頁。AI開發(fā)者面臨著各種各樣的數(shù)據(jù)問題和挑戰(zhàn)?Garbage In?Gold Out數(shù)周數(shù)月70%1.訓(xùn)練數(shù)據(jù)準(zhǔn)備開銷,在整個訓(xùn)練過程占比超過70%2.訓(xùn)練數(shù)據(jù)多樣性不足,精度提升慢;3.訓(xùn)練數(shù)據(jù)量大,迭代時間長;4.模型訓(xùn)練過程黑盒,模型結(jié)果可解釋性差,模型調(diào)優(yōu)效率低2第2頁,共16頁。MindSpore數(shù)據(jù)框架,直面AI數(shù)據(jù)問題與挑戰(zhàn),構(gòu)建端到端AI數(shù)據(jù)處理與可視化能力MindSpore 端邊云獨(dú)立的和協(xié)同的統(tǒng)一訓(xùn)練和推理框架提供端到端AI數(shù)據(jù)處理,有效降低數(shù)據(jù)準(zhǔn)備成本,縮短模型訓(xùn)練周期數(shù)據(jù)框架計算框架人機(jī)
2、協(xié)同的半自動標(biāo)注框架:快速搭建數(shù)據(jù)標(biāo)注系統(tǒng),加速訓(xùn)練數(shù)據(jù)準(zhǔn)備AI數(shù)據(jù)可視MindExpression模型精度調(diào)優(yōu)模型性能調(diào)優(yōu)統(tǒng)一高效的自研數(shù)據(jù)格式:自描述可檢索的AI數(shù)據(jù)格式,讓訓(xùn)練數(shù)據(jù)處理更高效自定義可視化插件框架數(shù)據(jù)精煉:訓(xùn)練時間縮短10%,精度不下降A(chǔ)I數(shù)據(jù)處理GraphEngine半自動化標(biāo)注 數(shù)據(jù)精煉訓(xùn)練數(shù)據(jù)高效處理訓(xùn)練過程可視、軟硬件全棧信息可視能力,顯著提升模型調(diào)優(yōu)效率和開發(fā)者體驗。高效AI數(shù)據(jù)格式模型精度調(diào)優(yōu):錯例可視化解釋、模型溯源與比對模型性能調(diào)優(yōu):數(shù)據(jù)集可視、鞍點(diǎn)可視、學(xué)習(xí)率曲線端-邊-云協(xié)同分布式可信架構(gòu)3第3頁,共16頁。1.訓(xùn)練數(shù)據(jù)準(zhǔn)備成本高的主要原因:數(shù)據(jù)標(biāo)注成本
3、高自動駕駛場景2D車輛/行人檢測模型為例百萬級訓(xùn)練數(shù)據(jù)人工標(biāo)注需要數(shù)百人天4第4頁,共16頁。人機(jī)協(xié)同的半自動標(biāo)注,顯著提高標(biāo)注效率,加速訓(xùn)練數(shù)據(jù)準(zhǔn)備人工標(biāo)注99%半自動標(biāo)注數(shù)據(jù)半自動標(biāo)注,典型場景下實現(xiàn)標(biāo)注準(zhǔn)確率99+%,標(biāo)注效率提升4倍5第5頁,共16頁。2.解決訓(xùn)練數(shù)據(jù)讀取性能和多樣性不足問題,需要高效數(shù)據(jù)處理能力模型調(diào)優(yōu)時,現(xiàn)有開源框架不支持組合檢索,獲取特定訓(xùn)練數(shù)據(jù)困難。(如:自動駕駛場景,需要補(bǔ)充 雪天有交通燈的圖片)6第6頁,共16頁。自描述、可檢索的AI數(shù)據(jù)格式,讓訓(xùn)練數(shù)據(jù)處理更高效訓(xùn)練數(shù)據(jù)集的問題與挑戰(zhàn)關(guān)鍵特性1. 無統(tǒng)計,數(shù)據(jù)集理解難2. 無索引,數(shù)據(jù)查詢分析慢提供數(shù)據(jù)統(tǒng)計
4、支持?jǐn)?shù)據(jù)集可視化,數(shù)據(jù)分布和統(tǒng)計直觀可見,分析快3. 海量小文件,讀取性能差0102解決方案:AI數(shù)據(jù)格式提供索引信息支持高效檢索,快速獲取和分析指定類型或組合條件數(shù)據(jù)StatisticsIndex自描述可檢索原始數(shù)據(jù)+標(biāo)注信息數(shù)據(jù)聚合提供數(shù)據(jù)聚合03支持高效訓(xùn)練數(shù)據(jù)讀取 以ImageNet數(shù)據(jù)集為例,基于AI數(shù)據(jù)格式,訓(xùn)練數(shù)據(jù)訪問性能顯著提升Schema元數(shù)據(jù)定義7第7頁,共16頁。3.訓(xùn)練數(shù)據(jù)量大,包含大量低價值數(shù)據(jù),嚴(yán)重影響訓(xùn)練效率迭代訓(xùn)練迭代訓(xùn)練網(wǎng)絡(luò)模型1模型訓(xùn)練訓(xùn)練數(shù)據(jù)D網(wǎng)絡(luò)模型2訓(xùn)練數(shù)據(jù)DXXX模型模型訓(xùn)練模型擇優(yōu).迭代訓(xùn)練網(wǎng)絡(luò)模型n訓(xùn)練數(shù)據(jù)D模型訓(xùn)練同一訓(xùn)練數(shù)據(jù)多種網(wǎng)絡(luò)模型構(gòu)建不
5、同模型,好中選優(yōu)訓(xùn)練數(shù)據(jù)量越來越大,訓(xùn)練時間越來越長,有時需嘗試多種網(wǎng)絡(luò)模型,導(dǎo)致訓(xùn)練時間成倍增長。如何剔除對訓(xùn)練精度影響很小的低價值數(shù)據(jù),加速模型訓(xùn)練成為挑戰(zhàn)。8第8頁,共16頁。數(shù)據(jù)精煉,精準(zhǔn)識別并剔除低價值數(shù)據(jù),讓訓(xùn)練更快速模型訓(xùn)練靜態(tài)數(shù)據(jù)精煉訓(xùn)練數(shù)據(jù)集動態(tài)數(shù)據(jù)精煉精簡后訓(xùn)練數(shù)據(jù)集高影響數(shù)據(jù)低影響數(shù)據(jù)中等影響數(shù)據(jù)模型精度不下降,訓(xùn)練時間減少超過10%(ResNet/Bert)9第9頁,共16頁。4.為什么需要數(shù)據(jù)集可視?“亡羊補(bǔ)牢”成本高,嚴(yán)重影響訓(xùn)練性能以前:事后補(bǔ)救,“亡羊補(bǔ)牢”目標(biāo):提前優(yōu)化,“未雨綢繆”模型結(jié)果差數(shù)據(jù)集可視訓(xùn)練時間30+%手工編寫腳本分析訓(xùn)練數(shù)據(jù)集問題訓(xùn)練數(shù)據(jù)集問
6、題調(diào)整數(shù)據(jù)分布或補(bǔ)充某些類型數(shù)據(jù)調(diào)整數(shù)據(jù)分布或補(bǔ)充某些類型數(shù)據(jù)模型結(jié)果滿足要求模型結(jié)果滿足要求10第10頁,共16頁。數(shù)據(jù)集可視例子:訓(xùn)練集不同數(shù)據(jù)類型分布可視11第11頁,共16頁。模型結(jié)果可解釋性差,無法得到圖片和文本分類錯誤的原因,模型調(diào)優(yōu)難耗時長?預(yù)測類別:實際類型:橙子圖片分類結(jié)果錯誤,但是不知道為什么錯? 無法得知分類依據(jù)的特征面包圈地產(chǎn)交易活躍家裝市場淡季不淡【本報訊】(記者徐強(qiáng))進(jìn)入暑期,由于高溫和濕度的影響,裝修界通常會將這一時期視為“休眠期”,由此出現(xiàn)家裝市場所謂的“淡季”。但記者在近日采訪中發(fā)現(xiàn),深圳家裝市場近段時間并沒出現(xiàn)預(yù)期中的淡季,相反舊房翻新改造、新房裝修布置等各
7、種各樣的裝修工程反而多了起來。很多家裝公司接單的數(shù)量也較前幾個月增長兩成左右。專家分析,這與近期深圳房地產(chǎn)交易活躍,以及新學(xué)期將至,很多家長為方便孩子讀書換房有關(guān)。兩股力量帶旺暑期裝修。記者在百安居泰然店采訪時了解到,進(jìn)入6月份以來,家具和地板等裝修材料預(yù)測類別:房地產(chǎn)實際類型:家居?文本分類結(jié)果錯誤,也不知道為什么錯?因為一樣不知道分類依據(jù)。12第12頁,共16頁。圖片和文本分類錯例可視化解釋,實現(xiàn)模型推理結(jié)果可解釋,有效加速模型調(diào)優(yōu)預(yù)測類別:面包圈實際類型:橙子通過熱力圖方式,展示決定圖片分類結(jié)果的關(guān)鍵特征區(qū)域,從而知道為何錯了。預(yù)測類別:房地產(chǎn)實際類型:家居通過不同背景顏色深度,體現(xiàn)不同
8、關(guān)鍵詞對分類結(jié)果的影響度,明確分類結(jié)果的決策依據(jù)。13第13頁,共16頁。MindSpore數(shù)據(jù)框架,聚焦AI端到端處理,從數(shù)據(jù)維度持續(xù)構(gòu)建關(guān)鍵能力,加速模型訓(xùn)練數(shù)據(jù)框架提供端到端AI數(shù)據(jù)處理,有效降低數(shù)據(jù)準(zhǔn)備成本,縮短模型訓(xùn)練周期AI數(shù)據(jù)可視人機(jī)協(xié)同的半自動標(biāo)注框架:快速搭建數(shù)據(jù)標(biāo)注系統(tǒng),加速訓(xùn)練數(shù)據(jù)準(zhǔn)備模型精度調(diào)優(yōu)模型性能調(diào)優(yōu)統(tǒng)一高效的自研數(shù)據(jù)格式:自描述可檢索的AI數(shù)據(jù)格式,讓訓(xùn)練數(shù)據(jù)處理更高效自定義可視化插件框架數(shù)據(jù)精煉:訓(xùn)練時間縮短10%,精度不下降A(chǔ)I數(shù)據(jù)處理訓(xùn)練過程可視、軟硬件全棧信息可視能力,顯著提升模型調(diào)優(yōu)效率和開發(fā)者體驗。半自動化標(biāo)注數(shù)據(jù)精煉訓(xùn)練數(shù)據(jù)高效處理模型精度調(diào)優(yōu):錯例可視化解釋、模型溯源與比對模型性能調(diào)優(yōu):數(shù)據(jù)集可視、鞍點(diǎn)可視、學(xué)習(xí)率曲線高效AI數(shù)據(jù)格式14第
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025合同違約責(zé)任的新變化與特點(diǎn)
- 2024年2月化糞池作業(yè)現(xiàn)場衛(wèi)生防護(hù)距離測量協(xié)議
- 2025年濾紫外石英玻璃燈管項目建議書
- 幼兒園課程評價的科學(xué)化探索計劃
- 綠色水利工程建設(shè)實踐計劃
- 降低成本的創(chuàng)新思路計劃
- 2024年7月招生代理協(xié)議中的多世界詮釋法律聲明
- 加強(qiáng)市場競爭力的工作策略計劃
- 班主任角色定位與工作方法計劃
- 社交媒體學(xué)校社交媒體社團(tuán)計劃
- 2025年山東能源集團(tuán)高校畢業(yè)生校園招聘筆試參考題庫附帶答案詳解
- 社區(qū)商業(yè)中心公共設(shè)施的規(guī)劃與運(yùn)營管理
- 2024年河南省中職英語對口高考試題
- 政治-山東省濰坊市2025屆高三2月開年診斷調(diào)研監(jiān)測考試試題和答案
- 公司清明節(jié)前安全教育
- 2025年湖北咸寧通城城市發(fā)展建設(shè)投資集團(tuán)有限公司招聘筆試參考題庫附帶答案詳解
- 石油開發(fā)地質(zhì)學(xué)-第5章-圈閉和油氣藏
- 英語語法-時間介詞-練習(xí)題(帶答案)
- 激光清洗機(jī)項目可行性研究報告申請備案
- 2025年山東出版集團(tuán)招聘筆試參考題庫含答案解析
- 2025年濟(jì)南鐵路局招聘筆試參考題庫含答案解析
評論
0/150
提交評論