




版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
1、技術創新,變革未來面向機器學習的開發環境CodeLab介紹全新數據科學與機器學習開發環境ALL New Data Science and Machine Learning Development Environment數據科學與機器學習平臺,正在成為基礎數據軟件之一Linkedin2017年,機器學習工程師和數據科學家成為美國增速最快的兩個職業。Glassdoor, a popular job site2016, 2017, 2018年,連續三年,數據科學家都是美國 排名第一的最好職業。Google Trends在過去的5年,“數據科學”的搜索量每天都在增大。SAS客戶覆蓋SAS 覆蓋了全球近
2、10萬家客戶,2015年財富全球 500強名單前100家公司中有91家使用了 SAS。Data-Based Business OperationData-Assisted Decision MakingData-Driven Application Development數據庫數據倉庫 與商業智能數據科學 與機器學習新技術的進步,催生下一代產品云計算模式硬件進步大數據與人工智能軟件新的交付模式云計算成為toB新的交付方式,新的交付方式將更加高效、節省 成本,也會促進大量中小企業使用;是顛覆傳統產品和開源產 品的有利時機。Cloud Native優化云原生軟件,可以依賴完備的云計算基礎設施,提供
3、先前產品 難以實現的一些功能,比如彈性伸縮,異地多活,存儲計算分 離等大數據數據總量指數增加,數據驅動的業務模式原來越多機器學習與人工智能先進的模型算法技術層出不窮,不但賦能了前所未有的新業務,也帶動對底層數據處理基礎設施的需求計算能力提升Intel CPU多核和加速指令,Nvidia GPU等各類計算加速芯片內存容量增大從10年前的每服務器4GB-8GB,到現在的256GB-512GB存儲能力增強NVME SSD單機可達10TB-20TB,IOPS高達幾十萬,吞吐高達 每秒10GB網絡能力增強單機網絡從10年前的1Gbps提升到現在的25Gbps-100Gbps第三代數據科學與機器學習平臺替
4、換第一和第二代的機遇誕生于科研 (單機小數據計算)誕生于產業互聯網(云原生+異構計算)基于特定語言: RStudio SAS、Matlab和Anaconda分析師1-10GB基于單機語言更易用 豐富的擴展庫誕生于互聯網(分布式大數據計算)不關注語言: H2O.ai(Java)、 Databricks(Java/Scala)、BML/BDL(C+)開發者 100GB-PB支持大規模分布式數據計算部署、運維和使用復雜度高Python生態為主,比如H2O4GPU、 Rapids.ai數據科學家、數據分析師和應用開發者 100GB-10TB支持異構加速的高性能計算 部署、運維和使用復雜度低產品與生態不
5、完善第一代高級數據分析第二代ML和AI開發平臺第三代數據科學平臺開發語言使用人員 數據量級優勢 劣勢支持數據量級小 單機難協同性能不高一個新的職業人群,必然需要新技術、新裝備、新工具進行武裝BML CodeLab: 端云協同的集成開發環境BML CodeLabBML Service應用、開發者CodeLab主打特色強大的集成開發環境基于JupyterLab開發高性價比的算力資源豐富的云端算力支持強大的集成開發環境Powerful Integrated Development Environment基于JupyterLab1w Star, 2w Commits, 311 Contributors
6、Jupyter Notebook - JupyterLab, Notebook-IDE來自Github 2019開源報告 高性能單機計算引擎易用的API接口提供類似Pandas和SKlearn的API,讓用戶沒有學習成本高性能數據分析利用單機CPU和GPU進行并行混合計算,享有單機使用的便利性和媲美分布式計算的性能超大數據分析利用out-of-core技術(mmap磁盤映射內存、按需加載、多級存儲換入換出等),超越內存數倍的大數據處理高效數據存儲利用Apache Parquet和Apache Arrow的高效磁盤和內存存儲,做到數據零拷貝,提升存儲、分析效率多場景支持支持DataFrame數據
7、分析、SQL數據分析、機器學習、數據可視化等場景的加速高性能單機計算引擎 性能對比* 選取了Kaggle的5個比賽數據,進行改寫測試高性能單機計算引擎 使用介紹集成Monaco Editor - VS Code的編碼體驗虛擬事務文件系統 - VTFS虛擬:連通后端對象存儲和HDFS事務:支持多方文件寫入,保持事務和多版本文件系統:本地通過類似Overlayfs,實現Posix語義任務管理:本地任務與云端任務管理周期調度API調度單次執行擴展性 Native Plugin擴展性 AI小程序高性價比的算力資源High Cost Performance Computing Resources訓練算力
8、云端調度服務 - “算力滴滴”訓練算力調度服務賬戶 計費工作流調度資源池化管理空閑算力可搶占Spot GPU算力生態算力第三方算力池作業調度核心算力GPU、AI加速芯片端云協同計算模式類似物聯網“端-邊-云”,端打通私有化和云強端滿足80%需求端無縫擴展到云免費:用戶可下載免費的庫、鏡像,或云上使用從無到有:增加項目管理、開發插件和解決方案從有到強:可處理數據量和速度比開源提升十倍從零散到集成:豐富的IDE,代碼&UI多交互模式從復雜到極簡:單機擴展到分布式代碼幾無差異端遇到的場景:數據量太大,單機處理不了;生產環境中使用時,需 要企業特性、服務運維、穩定性保障等;需要付費算法、數據、聯合 建模端云切換易:不需要修改單機程序,通過簡單配置無縫擴展到私有化 或公共云擴展到公有 云,性價比 高擴展到私有 化,安全可 控CodeLab DesktopBML創建與綁定資源
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 信陽涉外職業技術學院《職業生涯規劃指導與創新創業(四)》2023-2024學年第一學期期末試卷
- 2025-2030年中國IC卡行業運行態勢及發展規劃研究報告
- 2025-2030年中國ABS行業市場規模分析及投資建議研究報告
- 甘肅省武威市涼州區洪祥鎮重點名校2023-2024學年中考試題猜想數學試卷含解析
- 2025新員工入職安全培訓考試試題加答案解析
- 2024-2025車間安全培訓考試試題7A
- 2025年公司廠級員工安全培訓考試試題及答案 完整
- 2025管理人員安全培訓考試試題答案研優卷
- 2024-2025員工安全培訓考試試題答案基礎題
- 2024-2025企業員工崗前安全培訓考試試題附參考答案(B卷)
- 團結協作青春展新姿
- 防災減災培訓(安全行業講座培訓課件)
- 2024年《BIM技術介紹》課件
- 情景教學法在小學英語課堂中的有效運用研究(開題報告)
- 核心素養視域下小學道德與法治生活化教學策略探究
- 花鍵計算公式DIN5480
- 《荷塘月色》課件+2024-2025學年統編版高中語文必修上冊
- 軟著著作權單位與個人合作開發協議書(2篇)
- 2024年江蘇省南通市中考英語試卷(含答案解析)
- 下學期八年級期中考試家長會課件
- 幼兒園教師資格考試面試2024年下半年試題及解答
評論
0/150
提交評論