




版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
編制委員會編制委員會COMMITTEE編審組成員徐航DIRECTORYDIRECTORY05-0905-0910-13210-1314-18AI14-18AI-Native存儲19-2319-2324-2824-28839-428629-3468大創新工具,構建高質量數據集943-469735-38747-54在AI場景中,CPU扮演著指揮統籌與核心控制的角色,GPU/NPU負責核心AI大模型的并行高性能訓練與推理計算。考慮到算力的供應多樣性與長期可獲得性,以x86和ARM為代表的通用算力和以GPU和NPU為代表的AI算力,將長期協同發展與配合使用,因此需要考慮異構算力的資源管理:集群管理的資源從通常的CPU+內存,變為CPU+內存+AI算力卡等多種異構硬件管理。除了多種型號的AI算力卡、同型號多代AI算力卡、還有整卡與切分卡的統一管理調拓撲感知:大模型分布式訓練過程中,AI算力卡之間或AI服務器之間的帶寬并不完全一致。因此調度時,必須考慮異構資源的拓撲關系,資源爭奪沖突死鎖:傳統容器調度邏輯都是按照單個容器依次調度。而分布式AI訓練容器必須同時運行以進行集合通信,且只能同時調度成功或調度失敗。否則,多個分布式作業在資源調度層面出現爭搶并導致死鎖,所有訓練06AI資源碎片問題:單個訓練/推理作業所需要的AI算力卡數典型值為1、2、4、8、n*8,大于8卡的作業,需運行在完全空閑的節點上。隨著多個任務的異步結束,集群中會出現資源碎片,即便整體上存在足夠的資源,需要多卡AI算力多團隊共享問題:集團內部需要考慮不同部門多個彼此隔離的AI小集群可能導致的整體資源利用率較低的問題,資源池化按需調算力復用:在推理場景,需要實現推理卡的多路任務并行復用,即多個算法共用一張AI卡,以提升算力利用率。071.2多樣性算力調度:全局統籌,提升算力效率華為云多樣性算力調度基于云原生集群管理框架,并融入面向AI場景的Volcano調度框架,實現分布式AI任務調度增強。同時還針對算力資源的利用率提升做了系列創新優化,包括:邏輯子池、隊列優先NPUAI任務實例CPUNPUAI任務實例CPUAI任務實例AI任務實例CPU資源池NPU資源池GPUCPU資源池NPU資源池AI服務器AI服務器AI服務器AI服務器AI服務器節點2節點4節點5節點3節點2節點4節點5傳統的K8s集群管理系統在啟動容器時,會將負載調度至合適的節點。但其調度的維度僅支持“CPU+內存”,無法識別和調度“GPU/NPU”這種異構算力資源。0822圖1.2GPU/NPU異構資源識別和調度因此華為云引入了K8s的Device-plugin調度插件框架,并開發了AI異構算力插件,實時獲取和上報各異構資源池中AI算力的狀態,輔助完成異構算力的混合調度。如常見的推理任務會包含LB負載均衡(通用算力調度)、AI推理多實例(AI算力調度),兩者共同配合完成。分布式AI訓練的組調度在分布式AI訓練中,需要通過容器組調度算法,來避免多個分布式任務因爭搶資源而導致任務死鎖。華為云設計了Volcano調度框架,實現了組統一的作業管理:提供作業的全生命周期管理,支持所有主流的計算框架,如Pytorch、MPI、Horovod、Tensorflow、Spark-op-豐富的高階調度策略:公平調度、任務拓撲調度、基于SLA調度、作業搶占、回填、彈性調細粒度的資源管理:提供作業隊列、隊列資源預留、隊列容量管理、多租戶的動態資源共Master節點3SchedExtender調節-擴展插件容器運行時容器Kubelet異構資源-擴展DevicePlugin4分配“異構資源”5啟動+配置RunTimeMaster節點3SchedExtender調節-擴展插件容器運行時容器Kubelet異構資源-擴展DevicePlugin4分配“異構資源”5啟動+配置RunTimeAI作業調度vNPU調度vNPU調度1/7NPUvNPU算力切分1/2NPU1/4NPU1/7NPUGPUnvlinknv-switchGPUGPUCPU在部分AI推理場景(如視頻推理)中,單NPU卡如果只承載1個AI推理應用,會出現富裕算力的空置浪費。可以將一張NPU卡切分為多張vNPU卡,每個vNPU卡運行單獨的AI推理應用,才能最大程度利用AI算力。在K8s設定的AI資源調度框架中只能為容器綁定整個AI卡資源,無法靈活綁定如1/2、1/4NPU卡資源。因此,華為云開發了增強調度邏輯,在同一個集群中,實現了對NPU整卡和更小顆粒度的vNPU卡的靈活調度,確保為AI任務匹配顆粒度最合適的NPU資源,大幅提升NPU的算力利用率。AppvNPUNPUNPUAppAppAppAppAppvNPUvNPUvNPUvNPUNPUNPUNPUNPU.........圖1.4NPU算力切分調度1.3價值收益x86|ARM|GPU|NPU47%092.1業界難題隨著AI大模型逐步應用到煤礦生產、電力巡檢、工業質檢等工業場景,邊緣實時推理的需求日益凸顯。業界也在思考如何解決規模化部署與運維的效率問題,并構建異常樣本反饋與模型的快速海量邊緣管理:面向工業場景的海量邊緣推理部署需求,傳統人工部署管理的方案,工作量大且上線慢。缺乏自動化、可視化的管理技術,將導致每一次后續模型迭代都需要重復操。模型持續迭代:生產工況或者應用現場情況復雜并多變,部分工業生產環境中缺少足量的異常樣本進行訓練,所以原始模型精度有限,并且隨著使用環境的變化,原始模型精度會下降。因此,模型精度需要不斷地通過異常現場數據來進行迭代訓練,不斷地升級模型,實現綜上,需要創新模型訓練、推理部署、長期迭代的辦法,才能幫助政企行業真正實現AI智能化的2.2云邊協同:海量邊緣管理,模型邊用邊學華為混合云推出云邊協同方案,支持中心訓練、邊通過采集原始生產樣本數據和模型運行中產生的存疑樣本數據,使用工作流高效訓練模型AI中心訓練AI中心訓練AI應用開發①AI模型訓練AI基礎設施中心云邊用邊學邊緣③AI推理AI邊緣③AI推理AI基礎設施③AI推理AI基礎設施AI邊緣推理③AI推理AI基礎設施邊緣推理:模型按需部署到指定邊緣節點,完成推理識別到告警處置的端到端業務閉環,推理和處置結果同步上報至中心云平臺,實現中邊用邊學:邊緣側將AI誤報、新增場景樣本數據反饋至中心側統一分析,重新訓練升級模型,從而構建高效反饋-迭代升級-部署應用設備接入與資源管理:邊緣節點以VPN或云專線方式接入邊緣管理平臺,注冊后管理員可以通過可視化界面,統一對資源進行管理,包邊緣節點的固件版本等。中心云可高效實AI模型部署:中心云將AI場景化工作流訓練好的模型,一鍵式部署到指定邊緣節點。可實現分鐘級模型持續更新,大幅降離線可用性:當邊緣節點與中心的連線中斷后,邊緣業務可正常運行;節點故障或基于云邊協同架構,通過持續異常/錯誤樣快速迭代、持續升級、能適應新的工況和數中心云中心云AI應用平臺(集團端)AI應用平臺(集團端)AI模型AI訓練平臺邊緣節點邊端網邊緣側AI模型推理rtsp邊緣節點邊端網邊緣側AI模型推理rtsp(生產端)攝像機3攝像機3攝像機2攝像機2圖2.2邊用邊學工作流程邊緣回傳:在AI服務推理過程中,通過回傳接口將推理過程中識別的異常/錯誤樣本回傳到中心側AI應樣本標注:中心AI應用平臺對異常/錯誤樣本進行快速復模型迭代:中心AI訓練平臺的工作流,調用標注過的異常/錯誤樣本數據對模型進行再訓練和評估,以2.3價值收益20%AI-Native存儲3.1業界難題隨著AI大模型參數量的增加,訓練集群規模也不斷擴大,存儲成為制約大模型訓練效率提升的關海量小文件加載慢:10億訓練原始數據加載時故障影響大、恢復慢,造成算力空轉:分布式訓練中出現故障時,訓練集群需要從存儲中讀取上一Checkpoint(訓練任務檢查點)重新執行訓練。Checkpoint讀取過程本身會產生大量開銷,當恢復時所有計算節點都來讀取Checkpoint文件,保存和恢復通常會成為瓶頸。目前業界典型的AI服務器年故障率10%至17%,大規模集群訓練單次故障恢復需數小時,其中檢查點的加載耗時占65%。傳統存儲從架構上就已經難以應對超大規模AI集群數據快讀、Checkpoint快存、故障快速恢復的需求,業界亟需面向AI大模型場景更專業的存3.2AI-Native存儲:創新三層架構,數據快存快恢傳統架構華為云AI-Native存儲三層架構算力層算力層算力層算力層NPUCPUNPUNPUNPUNPUNPUAITurboAITurboAITurboNPUCPUNPUNPUNPUNPUNPUAITurboAITurboAITurboAITurboL3加速SFSTurbo客戶端SFSTurbo客戶端L2緩存NPUCPUNPU主機性能層性能層SFSTurbo服務端L1緩存容量層容量層容量層容量層分布式HDD存儲圖3.1華為云AI-Native存儲三層架構AI原始數據集通常存儲在大容量對象存儲上,然后通過單機拷貝到AI服務器的本地盤,傳統的存億訓練原始數據的讀取,無法滿足AI大模型的性華為云AI-Native存儲,基于OBS數據湖、SFSTurbo高性能并行文件系統和AITurbo加速的創新三層架構,系統性地應對大模型訓練場oOBS數據湖:為數據采集、數據預處理、訓練、推理、模型部署全流程提供海量數據的統SFSTurbo高性能并行文件系統:作為OBS訪問的加速層,滿足核心訓練環節海量小文件高AITurbo加速:將AITurboSDK部署到訓練節點,與AI框架配合讓存儲主動感知模型的參數切分、冗余數據策略、訓練任務的故障分類、AI訓練平臺的容器部署與回收等,為大模型訓練和Checkpoint快存快恢加速。SFSTurbo:加速訓練數據集訪問AI訓練數據集通常以KB級的小文件居多,因此在業務訪問數據集文件時,SFSTurbo會將NVMeSSD存儲池中的數據文件緩存到L1服務端分布式內存緩存中,減少AI訓練訪問數據集的通過分布式數據節點的云原生彈性擴縮,將帶寬從GB級提升到TB級,進而充分發揮L1服務端TB級的內存緩存帶寬優勢,實現比NVMeSSD硬盤層更大的吞吐能力。通過分布式元數據節點的云原生彈性擴縮,將IOPS從50萬級提升到千萬級,輕松應對海量億級小文件并發處理。AITurbo:加速訓練檢查點保存和加載AITurboSDK部署到訓練進程中,感知和協同模型參數切分與并行策略、故障分類等,最大程度減少Checkpoint保存耗時和故障恢復加載耗保存階段:如下圖所示,采用兩階段寫的Checkpoint異步持久化方案,最大程度減少耗wrwr階段①寫本地客戶端:各節點將自己的Checkpoint高速同步寫入SFSTurbo客戶端本地內存緩存,階段②Checkpoint去重:將DP(數據并行)維度上Checkpoint相同的多個GPU/NPU作為一組,在組內推舉1個代表節點執行Checkpoint存儲持久化操作,將DP倍數寫操作變為1次,有效降低對存儲數據并行組1(Checkpoint相同)數據并行組2(Checkpoint相同)算力層算力層NPUAITurboNPUAITurboSDKNPUAITurboSDKNPUAITurboSDK組2代表節點NPUAITurboSDKNPUAITurboSDKNPUAITurboSDKSFSTurbo客戶端SFSTurbo客戶端SFSTurbo客戶端SFSTurbo客戶端SFSTurbo客戶端SFSTurbo客戶端SFSTurbo客戶端性能層性能層SFSSFSTurbo服務端內存緩存容量層容量層分布式HDD存儲圖3.2Checkpoint異步持久化方案在恢復階段,AITurboSDK可以感知故障分類,進程級故障:硬件仍然健康的故障場景,主機側客戶端內存緩存中的Checkpoint仍可正常訪問,直接加載Checkpoint進行原地秒級快任務級故障:硬件故障導致個別故障節點隔離甚至是整個集群機器均發生崩潰時,此時將回退到使用遠端SFSTurbo服務端持久化存儲上的Checkpoint。如下圖所示,為避免所有GPU/NPU卡同時加載Checkpoint導致存儲帶寬成為瓶頸,選擇代表節點替代所有節點執行加載Checkpoint操作,然后再利用空閑的計算集群的參數網絡將Checkpoint廣播到組內其余節點上,從而顯著降低大規模訓練集群故障恢復過程對遠端SFSTurbo服務端存儲帶寬的需求,加速Checkpoint恢復過程。算力層性能層組2代表節點算力層性能層組2代表節點NPUAITurboSDKSFSTurbo客戶端SFSTurbo服務端內存緩存SFSTurbo客戶端SFSTurbo客戶端SFSTurbo客戶端SFSTurbo客戶端SFSTurbo客戶端NPUAITurboSDKAITurboSDKAITurboSDKAITurboSDKAITurboSDKNPUNPUNPUNPU圖3.3任務級故障Checkpoint快速加載與廣播3.3價值收益204.1業界難題大模型的訓練過程是計算和通信緊密耦合的,在諸如MLPerf、T5、GLaM等常見模型訓練中,通信開銷占比都達到了40%左右!GPT_1TMeena_500BMLPerf_200BT5_300BGLaM_1T22%25%42%39%42%36%0%25%50%75%100%Source:Google《OverlapCommunicationwithDependentComputationviaDecompositioninLargeDeepLearningModels》隨著AI大模型參數量的增加,參數同步帶來的網絡通信開銷也會同步大幅增加。為了降低通信時間,一方面可以優化計算平臺,比如通過計算和網絡通信時間的重疊;另一方面,采用兼容成熟以太網生態的ROCE(RDMAoverConvergedEthernet)無損網絡,通過單端口200G以上配置但AI大模型訓練的流量特征是流數量少、周期性、大流為主,并行phase間有強同步性要求,通信效率取決于最慢的流。因此,大模型的高效訓練要求參數面網絡無阻塞,保障整網設備之間通信達到滿吞吐。而傳統的ECMP(EqualCost在“少流”、“大流”的AI場景,容易造成鏈路流量不均而網絡擁塞,使得“算等網”,拉低整體訓練效率。因此,要實現大模型的高效訓練,4.2增強AI網絡:算網協同,高吞吐AI智算網絡涉及參數面、樣本面、業務面和管理面網絡,其中參數面網絡要求最高。參數面網絡主要用于AI集群分布式訓練時參數交換,要求網絡具備高吞吐和無阻塞。網絡高吞吐體現在端口端口高吞吐從以前10G/25G到現在的200G/400G,并逐步向未來的800G演進。AI訓練與管理平臺1AI大模型訓練1AI大模型訓練2634578634591數據集及訓練模型導入存儲系統21數據集及訓練模型導入存儲系統2AI平臺下發訓練任務3AI計算節點加載訓練任務鏡像7AI訓練中的CKPT文件寫入存儲系統8完成AI訓練的模型寫入存儲系統9導出訓練好的模型4AI計算節點加載AI模型5AI計算節點讀取訓練數據集6AI訓練過程中完成模型的參數同步圖4.2AI大模型訓練網絡全網高吞吐是指基于全網進行路徑規劃,使AI傳統的ECMP是基于五元組的逐流Hash,在流數少的時候極易出現Hash不均的情況。AI訓練場景特征就是流數少、單流帶寬大,因此傳統的ECMP基本無法使用。ECMP機制導致的流量不均,業界廠商主要從通過繪制全局的流量矩陣,計算出最佳的流量分布,然后自動進行導流。也就是擁有縱觀全技術路線2:包級負載均衡技術將基于路徑的狀態信息,針對包進行動態選路,從而達到流量散列均衡。理論上均衡度最好,但實際在接收端側存在大量亂序問題,嚴面向AI訓練的2種場景,華為云基于ROCE無損場景1:主要針對單AI訓練任務,網絡本身即可實現高吞吐,不需要和AI調度平臺互動。這種場景要求設備的上下行是1:1無收斂的,如圖中的Leaf1,接入的上行是4個端口,下行22行連接不同Leaf的端口配置到不同組中,這樣交換機在轉發時會AI單任務網絡級負載均衡,全網有效吞吐提升到95%以上。Spine1Spine2SpineSpine1Spine2Leaf1Leaf2LeafLeaf1Leaf2AI圖4.3單任務訓練場景場景2:通過AI調度平臺、網絡控制器、設備的統一協同,實現全網流量負載均衡。在支持多任務并行的同時,相比逐流Hash,網絡性能實現大幅提升。3控制器獲取AI任務信息租戶、模型、IPModelArtsModelArtsAI調度平臺2AI任務調度4控制器集中算路(核心算法)5控制器下發路徑1123456123stepstep123圖4.4網絡負載均衡方案(算網協同)AI調度平臺把任務信息通知給網絡控制器,網絡控制器結合已經建立的整網通信關系與拓撲信息,通過全網負載均衡算法,進行整網路徑計算,得到最優路徑并動態下4.3價值收益30%95%23255.1業界難題AI大模型訓練效率提升,是一項復雜的系統工程,最關鍵的是要充分釋放AI硬件能力。華為云基于CANN異構計算框架,讓盤古以及更多第三方大模型也能在華為混合云平臺上高效訓練。但未經調優的模型,可能面臨性能差、開發效率低模型開箱性能差:未經過深度優化的模型通常存在較多小算子,如果每個算子都在加速器上執行輸入-計算-輸出這個過程,會有大量的輸入輸出開銷,造成性能下降。另外,若耗時較高的算子未命中最優執行策略,也會導致算算子開發門檻高:算子開發與傳統應用開發的編程方式存在較大的差異,需要管理多個性質差異很大的存儲實體。在實際運算過程是多個部件并行執行,在邏輯和時序上也需依賴其他部件一起確定。因此每個微觀細節的調整,都會比較明顯影響到算力效率,導致算子開發門檻高,典型場景算子開發周期一般長達1~2人因此,需要采用高效工具和方法論來提升模型性5.2算子加速:融合優化,實現高效算子供應支持業界主流AI框架Jittor計圖AI框架Jittor計圖異思PYTorch異思PYTorchFlashAttention等Transformer網絡加速算子,多模型/多尺寸/多shape全面支持,精度、性能持平業界AscendC支持算子極簡開發CANN自動流水算子深度融合自動流水算子深度融合···AAscendAAscend···26華為圍繞昇騰AI處理器打造了CANN異構計算架構。作為基礎使能軟件,CANN提供豐富的算子庫和AscendC算子編程語言,降低算子開發門檻,幫助開發者實現自定義算子的快速開發與算針對大模型關鍵模塊的算子,設計出昇騰親和的算子融合算法,最大化利用帶寬、顯存和算力資Attention融合優化:Attention是大模型Transformer結構的核心組件,整網耗時占比超過50%,是影響整網性能和資源消耗的關鍵點。在算子優化方面,通過更好的復用右矩陣,減少Cube和Vector在特定配比下的資源消耗。在流水方面,對消息粒度做進一步的拆分,做到更精細的流水控制,減少其他計算組件的等待時間;在資源開銷方面,通過減少Scalar操作、降低通信開銷來進一步壓縮資源MoE-FFN融合:MoE結構將稠密網絡的FFN層擴展成具有相同結構的專家網絡,通過路由或門控網絡決定激活哪些專家進行計算。基于巧妙的數學等價實現MoE-FFN融合,更陣運算用Vector單元進行計算,在進行計算單元運算時提前完成數據的搬運。合理運用L2Cache,通過提升L2的命中率,提升SOC中的綜合帶寬,減輕訪存耗時以實現Mac利用率提y1yyy1yAdd+NormalizeAdd+NormalizeFFN4FFN2FFN3FFN1FFN3Add+NormalizeFFN4FFN2FFN3FFN1FFN3Add+NormalizeFFN2FFN4FFNFFN2FFN4FFN1SwitchingFFNSwitchingFFNLayerp=0.8p=0.65p=0.8RouterRouterRouterRouterAdd+NormalizeAdd+NormalizeAdd+NormalizeAdd+NormalizeSelf-AttentionSelf-AttentionSelf-AttentionSelf-AttentionPositionalembeddingPositionalembeddingPositionalembeddingxx1xx1MoreParameters圖5.3大模型MoE結構示意圖27實現計算和通信的并行流水,應用于模型并行切分場景。將矩陣乘的A和B分別進行切分并分配到不同的NPU上執行乘法運算,最后通過求和的AllReduce操作將結果匯總后再分配到各個節點上。MatMul·ABA1B1MatMulA2B2MatMulNPU1NPU1NPU1NPU1\AllReduce/NPU2NPU2NPU2NPU2圖5.4MatMul與AllReduce算子融合示意AscendC算子編程語言,降低算子開發門檻APIAPI算子tiling策略算子tiling策略圖5.5AscendC算子編程語言能力棧AscendC使用C++語法和一組編程API,實現自動流水同步和Buffer地址管理,并提供CPU昇騰接口抽象:通過在類庫中直接封裝intrin-sic方式提供一組編程API解決了內存地址管算子tiling策略:簡化Buffer的使用,程序員遞,設計API進而簡化了難度。。兩級并行調度:易于理解TPIPE流水編程范式解決流水并行問題,引入Que操作和Buffer操。結構化核函數編程:提供CPU/NPU孿生調試5.3價值收益50%50%2人月2人周288大創新工具,構建高質量數據集306.1業界難題在AI的數據理論中,模型性能是由數據質量和算法設計共同決定的。數據質量直接決定了算法性能的上限,算法本身的設計僅決定了能多大程度接近這個上限。當前,主要有三方面因素,制約數據獲取難:在我國,政府和企業的數據開放率不足7%。行業大模型需要與場景化的數據結合才能更精準,然而這些數據往往散落在企業生產的各個環節中,缺少統一的匯聚和治理;甚至一些關鍵數據還需要從外部獲取,進數據質量差:AI訓練開始前,需要利用工具將海量、多樣化的數據進行集成、清洗、標注,但這個過程往往因為工具零散、人工處理等導致效率和質量低下,僅15%的臟數據就可能導致模型準確率下降高達50%。結果不準確:模型訓練通常用到大量公開的數據集,這些數據集可能存在價值觀問題,需要在訓練時加以校正對齊;針對不同質量和相關度的數據,建立合理的配比模型,避免過擬合因此,要打造高質量的AI大模型,企業必須面向數據量、數據質量和數據價值觀等方向構筑核心6.2全鏈路數據工程:8大創新工具,構建高質量數據集數據獲取數據加工科學利用數據獲取數據加工數據安全內部數據集成數據清洗 數據安全內部數據集成數據清洗數據標注智能配比數據標注智能配比質量評估標準化檢測數據可視質量評估標準化檢測數據可視華為云從數據獲取、加工到利用三個階段開展技術創新,打造大模型數據工程和8大工具,幫助企業構建多維、體系化的語料供給體系,解決數數據獲取:2大工具構建全鏈路體系化的數據獲取能力,包括內部數據集成和外部數據流通,幫助企業擴充多維模型訓練數據源,提高數據加工:通過智能清洗、智能標注和質量評估3個工具,構建數據全流程加工能力,實現圖、文、音、視頻等4類數據10大場景的智能科學利用:基于數據安全合規、智能配比、數據可視等3大工具,建立全生命周期合規、合理、可視的優質數據集,保證模型價值觀和數2大數據獲取工具數據獲取工具旨在讓企業具備體系化數據獲取能力,包括內部數據集成和外部數據流通,從而形內部數據全域集成:數據集成工具提供IT/OT全域數據接入能力,支持結構化、非結構化等各類數據的實時或離線接入。基于批量遷移、增量同步的獨創算法設計,大大簡化數據集成流程,減少50%手工操作。同時也支持對數據集成鏈路、安全入湖和數據同步質量進行實外部數據可信流通:基于隱私計算和區塊鏈技術打造數據膠囊,確保數據可用不可見。同時提供數據訪問日期、訪問次數、使用方式等20+數據訪問策略,過期數據文件能夠自動清除;數據和訪問控制策略捆綁加密保存、安全策略強制執行,并且數據使用過程上鏈審計,內部數據集成外部數據流通內部數據集成策略數據ABEsecuritylevel策略數據ABEsecuritylevel>4...ABEABE圖6.2內外部數據高效獲取3大數據加工工具傳統大數據、數倉和數據庫系統的優勢在于處理結構化數據處理,但在大模型場景下存在大量的文本、圖片、音視頻等非結構化數據,缺少合適的數據清洗、標注和質量評估的工具。為此,華為云打造了3大數據加工工具,幫助企業提升數智能清洗:基于低代碼、可視化能力實現清洗任務編排,面向特定場景,用戶可以通過拖拉拽特定清洗算子實現數據自動化清洗,目前已覆蓋90%以上的企業數據清洗場景。等4大類數據進行預訓練形成智能標注模型算質量評估:質量評估工具供標準化、自動化的數據質量評估功能,具有圖文格式、內容信息、導向合規3大類檢測能力,包含15類指標項47個檢測點,讓數據質量管理前移到數據資產管理資產管理分詞模型過濾去重規則過濾原始語料分詞模型過濾去重規則過濾原始語料標注交互層標注交互層處理層處理層圖6.3智能數據加工333大數據利用工具數據安全:數據安全工具面向事前、事中和事后三階段構建核心能力。事前主動構建正向價值觀、負向數據和全量合規數據集,提供負向數據過濾和正向價值觀引導能力;事中通過正負向數據可視化配比,使模型知道什么是對的,什么錯的,具備正向價值觀、辨別是非能力;事后通過風險管控能力,主動攔截輸入輸智能配比:提供數據質量分析、成分分析、場景配比和智能配比能力,能夠自動推薦合適的數據版本和模型版本的全流程關系可視,雙向圖6.4數據科學利用6.3價值收益50%95%50%95%34367.1業界難題業務數據通常以價值高的結構化數據為主,在預測時主要基于結構化數據結合人工經驗和工業機理,導致預測大模型技術的規模應用仍然存在以數據種類單一,預測精度低:業界通用預測模型僅支持結構化數據結合工藝去預測,缺少關鍵的過程圖文音視頻數據參與預測任務,限制了預測大模型的應用范圍和精度,通常僅能達到60%的精度。數據來源多樣,人工適配工作量大:通常智能化場景多,不同領域對算法的要求千差萬別,傳統方法不具備根據場景自動泛化能力,更無法統一建模,需要人工多次建模和調優適配,開發周期長,導致模型難以批量復制和大規模來整合多樣、多源數據來提升預測精度和規模復7.2統一數據編碼:創新多模數據統一編碼,預測最優解1表格文本數據類型1表格文本XXX23N…XXX23N…N…321時間序列時間序列ValueXXValueXXXXRRXXXXXXRXXTimeXX圖文音視頻RXX圖文音視頻RXRXXXXXXXXXXRXXXXXXXXXXXXXXX+X XX X更多類型征與特征之間通過可學習權重相連構成三元征與特征之間通過可學習權重相連構成三元組。由于結構化數據拓撲結構的模糊性,這里采用可學習的參數表征三元組拓撲結構通過自時序數據:時序數據以時間點作為節點,臨近圖像數據:圖像數據經過切分,連接圖塊與其大模型混合云創新統一數據編碼技術,將不同來源的數據進行統一編碼轉換為三元組,使它們成為獨立的節點,消除不同模態數據之間的差異,再將這些編碼的節點統一按圖的方式組織,形成一個統一的、多樣化、大規模的訓練數據集,讓模型具備處理不同模態數據的能力,使多維訓推數據參與預測過程,提升模型精準度。常見的數統一預訓練大模型架構主要由構建統一三元組結構、對三元組進行遮罩及添加噪聲、訓練預訓練模型三個部分組成,通過重建遮罩的部分數據完成模型的預訓練,該方法實現了多種模態的統一預訓練,通過遮罩三元組的節點或者邊使得預訓練過程同時獲得數據的數值信息和拓撲結構,得在提升精度的同時,因為企業復雜多樣的生產場景對模型的泛化能力也有著較高要求,盤古預測大模型提供針對任意下游任務微調的能力,支持全量微調、LoRA和部分參數的微調,使客戶從傳統AI模型按場景單獨建模,走向通過微調即可快速完成新場景的訓練,使下游任務統一建模,表格文本表格文本XX廠XX廠時間序列時間序列L…編碼層Ln解碼層關系網絡關系網絡圖文音視頻圖文音視頻…………圖7.2統一預測大模型架構7.3價值收益10%10%38408.1業界難題視覺大模型已廣泛應用在城市、政務、礦山、鐵路等領域,成為當前應用最廣泛的AI技術之一。但它也并不完美,尤其是在一些新的場景下,其泛化能力弱,精度差:傳統視覺模型的主要問題是特征提取的語義粒度不完整和可重復性差。這主要是因為傳統訓練方法只關注全局圖像和語義的對齊,而忽略了局部區域和語義之高分辨率圖像處理效率問題:高分辨率的圖像具有更多細節特征信息,影響著視覺模型的精度和泛化性。而在視覺模型訓推過程中,需要將圖像切分為圖塊處理,計算量和圖塊數量平方成正比,考慮到企業有限的計算資源,亟需傳統全局對齊方案精細視覺神經網絡(全圖重建)(全圖重建)(視覺空間壓縮)(視覺空間壓縮)...針對視覺分析中特征提取粒度不完整導致的模型泛化性弱、精度差以及有限算力資源挑戰,大模型混合云創新精細視覺神經網絡,能精準、全面、高效地實現視覺任務的訓練和推理,通過細層級進行對齊預訓練,解決傳統方案忽視局部區域和語義之間的重要對齊關系問題;通過視覺空間壓縮技術,對圖像冗余信息進行壓縮,解決高通過細粒度圖文對齊技術對訓練的圖像數據先進行局部信息提煉,再實現區域特征與圖像特征的對齊,在計算圖像與文本描述之間的對比損失大幅度提高盤古視覺大模型在不同粒度任務上的泛化性和準確性,該技術在圖像分類、檢測、分割等不同粒度視覺任務上實現了技術領先,突破了傳統全局圖像表征與文本關系對齊的局限性,并且有效避免了噪聲的影響,使得80%以上的...ROIAlignROIAlign+tag/labelBbox1tag/labelBbox1Bbox2Image-lossImage-loss...圖8.2細粒度圖文對齊視覺圖像信號通常具有高度的空間冗余信息,通過視覺空間壓縮技術,在保持圖像關鍵信息的前提下,通過選擇性舍棄不太重要的冗余的圖塊信息,降低計算復雜度,顯著加快訓推速度。除此之外,通過無需監督信號的丟棄策略,直接根據圖像本身的相似性來選出冗余的圖像信息,這一策略在預訓練和推理階段均取得了很好的效果,使得采用同一套策略打通了上下游任務。在實際測試中,通過視覺空間壓縮40%的圖像信息,Stage1Stage3StageStage3Stage2圖8.3視覺空間壓縮8.3價值收益40%429.1業界難題大模型訓練任務通常需要連續執行數天甚至數月,出現的任何故障都可能造成訓練中斷,導致算力空轉,需實現故障的快速感知和恢復還要解故障感知不全且感知慢:當前業界方案僅能識別大約70%的常見故障,例如HBM多比特ECC故障、磁盤故障、網絡不通等。然而,對于其他如網絡靜默丟包、網絡擁塞等不常見的故障,往往難以及時發現,需數天時間才能故障恢復僅支持重調度,耗時長:傳統故障恢復方案往往需要通過冷啟動重調度,對作業任務重新調度。如果資源不足,故障作業無法及9.2無感斷點續訓:分鐘級感知恢復,保障長穩運行進程級-原地恢復節點級-備機恢復集群級-作業恢復●盤古大模型AModelArtsMindSpore(NPU)開源AI框架華為云圖9.1無感斷點續訓44針對大模型訓練過程中的故障感知和恢復慢的問題,大模型混合云創新無感斷點續訓技術,具備全棧故障模式庫和三級自愈架構,將故障感知和恢復的時間從小時級降至分鐘級,有效地避免因為故障導致大量算力空置的問題,從而提升大模大模型訓練故障往往涉及服務器、NPU、存儲、交換機、軟件等多個環節,橫跨多個領域。業界通常僅有服務器和軟件2大類300+故障模式庫,華為提供跨領域的全棧模式庫,覆蓋95%常見故障分鐘級感知:結合華為長期服務企業積累的算力、網絡、軟件的運維經驗,梳理包含服務器、NPU、存儲、交換機、軟件(包含操作系統、框架、平臺、大模型)的1000多種典型故障模式庫,讓95%以上的常見故復雜故障跨層跨域聯合感知:通過統一收集和管理計算、網絡、AI框架、AI開發平臺故障,構建故障傳播鏈,快速定位故障源頭,具備全棧可視化視圖,實現跨層跨域的故障感知能圖9.2全棧故障模式庫4大類1000+種全棧故障模式庫.盤古大模型ModelArtsMindSpore4大類1000+種全棧故障模式庫.盤古大模型ModelArtsMindSpore開源AI框架….進程級自愈:針對可自修復的故障,采用進程自愈先掛起作業,修復故障后再原地拉起進程,覆蓋例如HBM多比特ECC、網絡閃斷等70%常見故障。.節點級自愈:針對整機節點級故障,啟用節點點的任務,覆蓋例如NPU故障、內存故障、.集群級自愈:針對未知的故障,采用集群自愈重新拉起集群作業恢復,提供圖編譯緩存、CKPT并行加載等加速技術,讓最復雜的故障Job。正常節點。進程級故障故障節點Job隔離維修JobJobJobJob...Job.uuu.Job..uuu.Job..uuu.圖9.3三級自愈架構9.3價值收益464810.1業界難題大模型廣泛進入政企的生產系統,在提升生產和Prompt攻擊:大模型通常采用自然語言提供問答對話服務作為入口,但是惡意用戶通過特定構造Prompt提示詞,來欺騙模型使其產生錯誤的結果,這種開放域層出不窮的攻擊手段隱私泄露風險:大模型的訓練和推理過程中,會涉及到大量的隱私數據、電子虛擬財產等信息,攻擊者可能會采用各種手段繞過檢測,導致這些數據泄露,且在海量數據下難以甄別,內容合規風險:在數據收集、處理和訓練過程中,存在圖文音多樣性數據樣本不均衡、錯誤價值觀等問題,導致大模型輸出帶有偏見或不鑒偽檢測難:大模型如今已經可以快速生成海量音視頻,其中不乏錯誤的信息。為保證模型可靠性,需要對信息進行回溯和鑒偽,并及時糾正錯誤。但在信息被修改、裁剪、二次創作因此,建立全鏈路安全可信的大模型安全體系勢在必行,在確保大模型為政企業務創造價值的同時,也能夠保障個人隱私、內容合規和信息的本10.2安全護欄:立體檢測,智能攔截90%+30+種95%+90%+30+種95%+毫秒級攔截攻擊隱私數據保護不良內容攔截第道防線**************第道防線**************檢測分類模型復雜語義檢測內容智能審核49華為云Stack在云平臺層面提供1個安全運營中心和物理安全、身份認證、網絡、應用、主機、數據、運維7層安全體系,在此基礎上面向大模型新型攻擊提供安全護欄,是業界首個在中國信通院安全可信評測中達到5級的大模型安全方案,具有Prompt攻擊檢測、隱私檢測脫敏、內容合規檢測、生成式AI鑒偽的大模型安全防護能Prompt攻擊檢測檢測分類模型:基于數萬條安全數據訓練出針對Prompt攻擊的檢測分類AI模型,讓90%+的Prompt提示詞注入攻擊能夠自動檢測攔截過濾,強大的模型泛化性輕松應對開放域中不斷演變的新型Prompt新型攻擊。向量檢索與敏感詞匹配:在大模型運行時,基于檢測分類模型,引入敏感詞匹配與向量檢索能力進行綜合決策。通過向量檢索與敏感詞匹配,快速適配新型攻擊與未知問題,反饋給模通過攻擊檢測防范技術能夠在事前發現并阻止目標劫持、反面誘導、初始肯定等攻擊,實現自動化、智能化檢測,顯著降低Pormpt提示詞注入用戶輸入意圖識別正負向判斷
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025年茶藝師職業技能競賽試卷:茶藝師茶藝茶藝師茶藝茶藝茶藝文化傳承試題
- 《提高經濟統計學中定性數據處理方法的有效性》論文
- 體育旅游中的消費者滿意度提升策略論文
- 《綠豆質量與種植環境的關系研究》論文
- 2025-2030全球及中國洗手液和肥皂行業市場現狀供需分析及市場深度研究發展前景及規劃可行性分析研究報告
- 冰島語中的形容詞比較級研究論文
- 2025-2030全球及中國水性UV涂料體系行業市場現狀供需分析及市場深度研究發展前景及規劃可行性分析研究報告
- 智能體育與健康管理的融合研究論文
- 2025-2030全球及中國下一代移動回程網絡行業市場現狀供需分析及市場深度研究發展前景及規劃可行性分析研究報告
- 2025-2030兒童洗衣液市場發展分析及行業投資戰略研究報告
- GB/T 39766-2021人類生物樣本庫管理規范
- 315食品安全宣傳PPT模板
- GB/T 20145-2006燈和燈系統的光生物安全性
- GB 21519-2008儲水式電熱水器能效限定值及能效等級
- 2023年陜西省學業水平考試物理試真題答案無
- 運輸供應商年度評價表
- 旅游項目融投資概述
- 全旅館業前臺從業人員資格證考試答案解析
- 十二經絡及腧穴課件
- 立式圓筒形儲罐罐底真空試驗記錄
- 公司新員工入職登記表(模板)
評論
0/150
提交評論