MindSpore數據框架主要技術架構及關鍵特性(華為陳雷)_第1頁
MindSpore數據框架主要技術架構及關鍵特性(華為陳雷)_第2頁
MindSpore數據框架主要技術架構及關鍵特性(華為陳雷)_第3頁
MindSpore數據框架主要技術架構及關鍵特性(華為陳雷)_第4頁
MindSpore數據框架主要技術架構及關鍵特性(華為陳雷)_第5頁
已閱讀5頁,還剩11頁未讀 繼續免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

MindSpore數據框架主要技術架構及關鍵特性華為2012實驗室陳雷AI開發者面臨著各種各樣的數據問題和挑戰?Garbage

In?Gold

Out數周~數月70%1.訓練數據準備開銷,在整個訓練過程占比超過70%2.訓練數據多樣性不足,精度提升慢;3.訓練數據量大,迭代時間長;4.模型訓練過程黑盒,模型結果可解釋性差,模型調優效率低2MindSpore數據框架,直面AI數據問題與挑戰,構建端到端AI數據處理與可視化能力MindSpore

端邊云獨立的和協同的統一訓練和推理框架提供端到端AI數據處理,有效降低數據準備成本,縮短模型訓練周期數據框架計算框架人機協同的半自動標注框架:快速搭建數據標注系統,加速訓練數據準備AI數據可視MindExpression模型精度調優模型性能調優統一高效的自研數據格式:自描述可檢索的AI數據格式,讓訓練數據處理更高效自定義可視化插件框架數據精煉:訓練時間縮短10%,精度不下降AI數據處理GraphEngine半自動化標注

數據精煉訓練數據高效處理訓練過程可視、軟硬件全棧信息可視能力,顯著提升模型調優效率和開發者體驗。高效AI數據格式模型精度調優:錯例可視化解釋、模型溯源與比對模型性能調優:數據集可視、鞍點可視、學習率曲線端-邊-云協同分布式可信架構31.訓練數據準備成本高的主要原因:數據標注成本高自動駕駛場景2D車輛/行人檢測模型為例百萬級訓練數據人工標注需要數百人天4人機協同的半自動標注,顯著提高標注效率,加速訓練數據準備人工標注99%半自動標注數據半自動標注,典型場景下實現標注準確率99+%,標注效率提升4倍52.解決訓練數據讀取性能和多樣性不足問題,需要高效數據處理能力模型調優時,現有開源框架不支持組合檢索,獲取特定訓練數據困難。(如:自動駕駛場景,需要補充

雪天有交通燈的圖片)6自描述、可檢索的AI數據格式,讓訓練數據處理更高效訓練數據集的問題與挑戰關鍵特性1.

無統計,數據集理解難2.

無索引,數據查詢分析慢提供數據統計支持數據集可視化,數據分布和統計直觀可見,分析快3.

海量小文件,讀取性能差0102解決方案:AI數據格式提供索引信息支持高效檢索,快速獲取和分析指定類型或組合條件數據StatisticsIndex自描述可檢索原始數據+標注信息數據聚合提供數據聚合03支持高效訓練數據讀取?

以ImageNet數據集為例,基于AI數據格式,訓練數據訪問性能顯著提升Schema元數據定義73.訓練數據量大,包含大量低價值數據,嚴重影響訓練效率迭代訓練迭代訓練網絡模型1模型訓練訓練數據D網絡模型2訓練數據DXXX模型模型訓練模型擇優….迭代訓練網絡模型n訓練數據D模型訓練同一訓練數據多種網絡模型構建不同模型,好中選優訓練數據量越來越大,訓練時間越來越長,有時需嘗試多種網絡模型,導致訓練時間成倍增長。如何剔除對訓練精度影響很小的低價值數據,加速模型訓練成為挑戰。8數據精煉,精準識別并剔除低價值數據,讓訓練更快速模型訓練靜態數據精煉訓練數據集動態數據精煉精簡后訓練數據集高影響數據低影響數據中等影響數據模型精度不下降,訓練時間減少超過10%(ResNet/Bert)94.為什么需要數據集可視?“亡羊補牢”成本高,嚴重影響訓練性能以前:事后補救,“亡羊補牢”目標:提前優化,“未雨綢繆”模型結果差數據集可視訓練時間↓30+%手工編寫腳本分析訓練數據集問題訓練數據集問題調整數據分布或補充某些類型數據調整數據分布或補充某些類型數據模型結果滿足要求模型結果滿足要求10數據集可視例子:訓練集不同數據類型分布可視11模型結果可解釋性差,無法得到圖片和文本分類錯誤的原因,模型調優難耗時長?預測類別:實際類型:橙子圖片分類結果錯誤,但是不知道為什么錯?

無法得知分類依據的特征面包圈地產交易活躍家裝市場淡季不淡【本報訊】(記者徐強)進入暑期,由于高溫和濕度的影響,裝修界通常會將這一時期視為“休眠期”,由此出現家裝市場所謂的“淡季”。但記者在近日采訪中發現,深圳家裝市場近段時間并沒出現預期中的淡季,相反舊房翻新改造、新房裝修布置等各種各樣的裝修工程反而多了起來。很多家裝公司接單的數量也較前幾個月增長兩成左右。專家分析,這與近期深圳房地產交易活躍,以及新學期將至,很多家長為方便孩子讀書換房有關。兩股力量帶旺暑期裝修。記者在百安居泰然店采訪時了解到,進入6月份以來,家具和地板等裝修材料預測類別:房地產實際類型:家居?文本分類結果錯誤,也不知道為什么錯?因為一樣不知道分類依據。12圖片和文本分類錯例可視化解釋,實現模型推理結果可解釋,有效加速模型調優預測類別:面包圈實際類型:橙子通過熱力圖方式,展示決定圖片分類結果的關鍵特征區域,從而知道為何錯了。預測類別:房地產實際類型:家居通過不同背景顏色深度,體現不同關鍵詞對分類結果的影響度,明確分類結果的決策依據。13MindSpore數據框架,聚焦AI端到端處理,從數據維度持續構建關鍵能力,加速模型訓練數據框架提供端到端AI數據處理,有效降低數據準備成本,縮短模型訓練周期AI數據可視人機協同的半自動標注框架:快速搭建數據標注系統,加速訓練數據準備模型精度調優模型性能調優統一高效的自研數據格式:自描述可檢索的AI數據格式,讓訓練數據處理更高效自定義可視化插件框架數據精煉:訓練時間縮短10%,精度不下降AI數據處理訓練過程可視、軟硬件全棧信息可視能力,顯著提升模型調優效率和開發者體驗。半自動化標注數據精煉訓練數據高效處理模型精度調優:錯例可視化解釋、模型溯源與比對模型性能調優:數據集可視、鞍點可視、學習率曲線高效AI

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論