




版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
1GB/TXXXXX—XXXX人工智能預訓練模型第1部分:通用要求本文件定義制備或使用預訓練模型的參考架構,描述了相關方及其活動,并規定了預訓練模型的通用技術要求。本文件適用于預訓練模型的研究、制備、開發、部署和應用。2規范性引用文件下列文件中的內容通過文中的規范性引用而構成本文件必不可少的條款。其中,注日期的引用文件,僅該日期對應的版本適用于本文件;不注日期的引用文件,其最新版本(包括所有的修改單)適用于本文件。GB/T41867-2022信息技術人工智能術語3術語和定義GB/T41867—2022界定的以及下列術語和定義適用于本文件。3.1預訓練模型pre-trainedmodel一種在廣泛領域數據集上訓練得到的,供以專門領域數據微調,來滿足場景任務需求的深度學習模注:按訓練數據模態,預訓練模型一般相應體現出對文本、圖像、音頻或視頻等模態任3.2預訓練模型服務pre-trainedmodelservice通過應用預訓練模型為用戶提供價值的方法。[來源:ISO/IEC20000-1:2018,3.2.15,有修改]3.3作業job一個可被測試系統執行的基本測試單元。[來源:ISO/IEC25023:2016,4.3,有修改]3.4任務task2GB/TXXXXX—XXXX被調度的訓練或推理對象。3.5微調fine-tuning為提升人工智能模型的預測精確度,一種先以大型廣泛領域數據集訓練,再以專門領域數據集繼續訓練的附加訓練技術。[來源:GB/T41867:2022,3.2.31,有修改]3.6提示語prompt使用預訓練模型進行微調或下游任務處理時,插入到輸入樣本中的指令或信息對象。3.7提示學習promptlearning在不修改預訓練模型結構和參數的情況下,通過向模型提供含特定任務指示性關鍵詞的提示語,引導預訓練模型在特定任務上應用其已有知識達到更好性能表現。3.8人工智能加速處理器artificialintelligenceacceleratingprocessor具備適配人工智能算法的運算微架構,能夠完成人工智能應用加速運算處理的集成電路元件。[來源:GB/T41867—2022,3.1.5,有修改]4縮略語下列縮略語適用于本文件。FPGA:現場可編程邏輯門陣列(FieldProgrammableGateArray)GPU:圖形處理器(GraphicProcessingUnit)LACP:鏈路聚合控制協議(LinkAggregationControlProtocol)NPU:神經網絡處理器(NeuralNetworkProcessingUnit)TPU:張量處理器(TensorProcessingUnit)UML:統一建模語言(UnifiedModelingLanguage)5概述支撐預訓練模型的生態包括功能視角下的參考架構和用戶視角下各相關方的技術活動。功能視角下的預訓練模型參考架構見圖1,包括資源池、工具、數據資源、模型、行業應用和服務平臺等。其中:——資源池包括計算、存儲、網絡、資源虛擬化及調度等;3GB/TXXXXX—XXXX——工具包括數據工具、模型工具;——數據資源包括通用數據、領域數據、私有數據;——模型包括預訓練模型、定制化模型。其中預訓練模型包括單模態和多模態兩種類型的模型,定制化模型是依據用戶需求對預訓練模型進行微調定制生產環境所需的模型;——行業應用為為各行業場景用戶提供預訓練模型下游任務匹配服務;——服務平臺/組件貫穿各層次提供支持大規模預訓練模型和相關服務的編排、部署、模型推理、運維和管理。圖1功能視角下的預訓練模型參考架構用戶視角下的預訓練模型相關方見圖2,包括基礎設施提供者、數據提供者、模型提供者、應用服務者、應用消費者和管理者。其中:——基礎設施提供者包括硬件資源提供者和軟件資源及工具提供者。硬件資源提供者的活動包括提供計算、存儲、網絡等支撐硬件服務活動。軟件資源及工具提供者的活動包括提供數據處理、計算加速、模型訓練、模型優化、模型驗證等支撐軟件服務活動;——數據提供者進行數據采集、數據準備、數據管理等數據相關服務活動;——模型提供者負責模型設計開發、模型預訓練、模型驗證、模型優化、模型部署等預訓練模型相關服務活動;——應用服務者支持平臺服務、模型定制、模型推理、模型運維和管理等應用服務活動;4GB/TXXXXX—XXXX——應用消費者的活動包括使用模型和相關服務以及提供評估反饋;——管理者對預訓練模型在生態鏈各環節的安全與合規性進行管理,包括監管、審計、測試評估等活動。圖2預訓練模型的利益相關方及其活動6技術要求6.1資源池6.1.1計算資源為模型訓練和推理提供計算和數據處理等能力的實體設備(如CPU、GPU,FPGA,NPU,TPU)或邏輯設備。計算資源符合以下要求:a)應能執行至少1種模態(如文本、圖像、語音)的模型的訓練或推理;b)應支持硬件加速的人工智能計算,配備分布式訓練和推理計算加速庫;1)訓練服務器:——應支持不小于4個100GE網口;——應支持電源模塊、風扇模塊的熱插拔和備份(如2+2冗余,N+1冗余等);2)推理服務器:——內存總帶寬應不小于800GB/s;——應支持不小于2個PCIe擴展槽位;——應支持電源模塊、風扇模塊的熱插拔和備份(如1+1冗余,N+1冗余等);c)服務器集群單位(如機柜)宜配備不小于64個人工智能處理器;d)宜支持基于硬件加速的預處理(如圖像、視頻編解碼);e)應支持鍵值對緩存。6.1.2存儲資源適用于大模型訓練和推理的存儲資源,包含存儲服務器等。存儲資源用于提供數據存儲和模型存儲,符合以下要求:a)應支持數據集的分布式存儲與訪問,并實現冗余備份機制;5GB/TXXXXX—XXXXb)宜支持分布式模型訓練及推理;c)存儲帶寬宜不小于200GB/s,IOPS宜不小于200萬;d)宜支持內存計算;e)宜能以存儲服務器或硬磁盤為單元創建存儲池,存儲池宜能識別、管理固態盤、硬磁盤等不同類型存儲媒體。6.1.3網絡資源適用于大模型訓練和推理的網絡資源,包含集群內交換機和路由器。網絡資源符合以下要求:a)應支持高速網絡通信協議(如100GRoCE等)b)應具備模型自動切分(如基于模型結構);c)轉發包率宜不小于4000Mpps;d)應支持負載均衡;e)應支持可靠性組網方案,如LACP鏈路聚合,M-LAG雙活等;f)宜支持服務器集群內40GE/100GE/200GE/400GE全聯接網絡;g)宜支持物理交換機與邏輯交換機之間的映射,實現鏈路備份,單臺物理交換機故障不影響訓練、推理任務執行。6.1.4資源虛擬化及調度符合GB/T42018—2022中6.2的要求。6.2工具6.2.1數據工具數據采集工具數據工具提供數據采集功能,符合以下要求:a)應確定數據采集的需求、數量、渠道、所采集數據的類別(如文本,語音、圖片和視頻等)和范圍(如話題、內容等);b)應能采集原始數據的類型,包括但不限于文本、視頻、圖像、音頻等;c)應支持從不同格式的原始數據(如TXT、JPEG/JPG、MP4、AVI、WMV等)中提取出模型訓練所需的數據;d)應能記錄采集數據的來源、時間和采集方式;e)應支持結構化、半結構化、非結構化的數據接入;f)應支持多組數據或多個數據集的并行導入;g)宜支持數據質量檢測和初步清洗能力,如數據格式標準化等。數據準備工具數據工具提供數據準備功能,符合以下要求:a)數據標注流程應符合GB/T42755-2023中第6章和第7章的要求;b)應支持數據清洗,包括文本數據的敏感詞與特殊符號過濾、圖像數據重建與去模糊、視頻與音頻數據的特定片段截取等;c)應支持數據重組、數據標簽格式轉換;d)應支持數據檢索、分析等功能;e)應支持數據增強及擴充(如添加擾動產生新數據);6GB/TXXXXX—XXXXf)應支持數據質量檢驗。數據存儲工具數據工具提供使用存儲資源的功能,符合以下要求:a)應支持分布式并行存儲;b)應支持在線彈性擴展,滿足容量需求和性能的線性增長;c)應支持通過控制臺、API、SDK、命令行方式操作存儲資源,能按需求切換;d)應支持標準文件系統接口,如POSIX;e)應支持向量庫儲存。數據管理工具數據工具提供數據管理功能,符合以下要求:a)應支持數據集管理的要素,包含數據集名稱、版本、標注類型、標注標簽、數據量、數據來源、特征版本、創建時間等;b)應支持數據集的創建、查詢、修改、刪除、導入、導出、發布等;c)應支持數據集狀態信息查詢,包含數據集名稱、版本、標注類型、數據量、導入狀態、已標注狀態和版本;d)宜支持數據可視化分析和版本管理。6.2.2模型工具模型設計工具模型設計工具,符合以下要求:a)應支持可視化圖形界面,允許用戶通過拖放、連接元素來創建模型;b)應支持多種類型的模型設計,例如流程圖、UML(統一建模語言)圖、概念圖等;c)應提供預定義的模型元素和模板,使用戶能夠快速構建模型;d)應支持對模型性能進行模擬和分析,以評估其行為和性能;e)宜支持導出模型的多維度信息,如說明文檔,模型代碼等。模型訓練工具模型訓練工具,符合以下要求:a)應支持數據并行,模型并行,混合并行等分布式訓練技術;b)分布式協同訓練集群在訓練過程中出現節點故障(如宕機)時,應支持從斷點繼續并完成訓練任務;c)應能至少使用2種數據源或知識庫,對訓練任務實施集成和遷移;d)應支持或可通過插件方式支持數據可視化、訓練可視化及模型評估可視化;e)應支持基于訓練數據的整體或部分特征,構建預訓練任務;f)應支持模型歷史版本和微調迭代過程中的信息記錄和查詢,信息包含日志,準確率、損失、參數等;g)應支持預訓練模型訓練過程及應用日志的留存及獲取;h)宜提供多種并行策略,包括算子切分、算子自動并行、自定義通信算子等。模型優化工具7GB/TXXXXX—XXXX模型優化工具,符合以下要求:a)應支持模型壓縮(如剪枝、量化、知識蒸餾等),云服務實現時宜提供調用接口;b)支持模型微調,包括:1)應支持的數據類型包含如文本、語音、圖像、視頻等;2)應支持任務類型包含單模態、多模態融合等;3)應提供評價指標體系,包含如準確率、清晰度等;4)宜支持基于用戶反饋的微調(如基于用戶反饋的強化學習)。c)應支持參數有效性學習、混合精度訓練(自動精度混合、手動精度混合)等優化訓練方法,使用的精度如半精度浮點,四分之一精度整型或單精度浮點等;d)宜支持檢索增強生成功能。模型驗證工具模型驗證工具,符合以下要求:a)應支持預訓練模型的功能(如自然語言處理、圖像處理、多模態等)有效性評估;b)應提供自動化測試功能;c)應允許用戶根據需要自定義測試參數和場景;d)應能在測試過程中自動檢測運行異常情況并提供診斷信息;e)宜支持模型性能實時監測和日志記錄。模型部署與推理工具模型部署和推理工具,符合以下要求:a)應支持的部署方式包含在線部署、批量部署、離線部署等;b)應支持本地服務器部署,云端部署,宜支持邊緣側和移動端的模型部署;c)應提供實現機制,支持在滿足一定吞吐量條件下的低延時推理;d)應支持模型推理過程的監控和日志記錄;e)宜支持在至少1種推理加速框架上部署模型;f)宜提供工具鏈,基于自然語言處理模型、視覺模型、多模態模型、科學計算模型,構建下游任6.3數據資源6.3.1通用數據通用數據應具有來源多樣性、高質量、覆蓋面廣、完整性和真實性,宜盡量覆蓋各類應用場景,確保大模型的訓練數據具有高質量和多樣性。6.3.2領域數據領域數據應具備領域特征,宜盡量覆蓋領域中的使用場景。宜提供定制用數據庫,包含開源領域數據,具有專業性標注且在本領域具有多樣性和覆蓋性。6.3.3私有數據私有數據應符合隱私保護法規,確保數據安全性。數據所有者應對數據使用具備控制權,包括訪問權限管理和使用審計。數據需具備高質量和完整性,避免缺失值和異常值,確保數據的準確性和可靠性。6.4模型8GB/TXXXXX—XXXX6.4.1預訓練模型通則預訓練模型,符合以下要求:a)宜支持單模態、部分模態和全模態等訓練方式;b)宜支持多種模態特征提取的方法(如單塔方法、雙塔方法等);c)宜支持的數據類型包含文本、語音、圖像、視頻等;d)宜能提供相應模態的處理接口(如文本生成、圖像理解等);e)宜支持的交互模式和協議,包含同步、異步、批量、流式、事件驅動等;單模態單模態預訓練模型,符合以下要求:a)應提供單模態數據的特征提取;b)應支持模態補全、模態掩碼、模態增廣、模態擴展等任務;c)應具備至少1種單模態理解功能。其中,單模態理解功能可參照GB/TXXXX-XXXX《人工智能預訓練模型第2部分:評測指標與方法》;d)宜支持至少1種單模態生成功能。其中,單模態生成功能可參照GB/TXXXX-XXXX《人工智能預訓練模型第2部分:評測指標與方法》。多模態多模態預訓練模型,符合以下要求:a)應具備至少1種多模態理解功能,如圖文檢索、視覺定位、圖音檢索、文音檢索等;b)應具備至少1種多模態預訓練模型基礎架構,如單塔、多塔架構等;c)宜能提供至少1種多模態生成功能,如文本生成圖片、圖片生成文本、圖片生成視頻、圖片生成語音、文本生成視頻等;d)宜支持對大語言模型的橋接。6.4.2定制化模型基于預訓練模型,定制生產環境所需模型,符合以下要求:a)應支持定制模型的參數量大小、存儲容量、計算資源、網絡資源、性能評價指標等;b)應支持多種預訓練模型微調方法,包含但不限于附錄A;c)應提供模型版本管理功能,包含模型發布、版本回退等;d)應提供并運維預訓練模型庫,實現用戶上傳、微調和使用模型;e)宜支持面向任務推薦定制化方法(如面向金融(銀行、證券、保險)、能源、制造、消費、通信等場景);f)宜支持基于用戶數據和微調數據庫數據混合的模型定制。6.5行業應用對每種預訓練模型(自然語言處理,計算機視覺,多模態等),宜至少匹配1個下游任務。6.6服務平臺/組件預訓練模型服務平臺/組件,符合以下要求:a)應支持預訓練模型插件開發,并提供開發協議以規定插件的規則和接口,如模型接口、輸入輸9GB/TXXXXX—XXXX出數據格式、插件元數據和插件運行狀態碼等要求;b)應支持部署服務升級、回滾;c)應支持根據業務負載情況,對計算資源進行彈性伸縮;d)宜支持預訓練模型灰度發布、A/B測試、模型版本管理;e)預訓練模型組件宜能夠自動檢測和修復問題,減少人工干預;f)宜支持插件運行監控和日志記錄。GB/TXXXXX—XXXX預訓練的方法簡述A.1預訓練自監督算法舉例由于大規模預訓練模型需要龐大的訓練數據規模,因此經常使用無需數據標注的自監督算法。三種常見自監督算法舉例如下:a)掩碼學習是一種通過隨機遮蓋輸入的部分內容,訓練模型以預測被遮蓋的內容的方法,如BERT和BEiT。b)對比學習是一種通過構造正負樣本對,訓練模型以區分它們的方法。如SimCLR和MoCo。c)自回歸學習是一種通過按照順序預測輸入的下一個內容的方法。如GPT和PixelRNN。A.2預訓練常見模型結構舉例由于大規模預訓練模型需要龐大的訓練數據規模,因此經常需要從大量無標注數據中學習有效特征表示的模型結構。三種常見結構舉例如下:a)Transformer是一種基于自注意力機制的網絡結構,可以并行處理序列中的所有位置,從而提高計算效率和模型泛化能力。b)Convnet是一種基于卷積層的網絡結構,可以提取序列中的局部特征,從而適用于圖像、音頻等領域。在處理大規模圖像數據時訓練效率較高,但往往對輸入數據的長度和寬度有限制。c)RNN是一種基于循環層的網絡結構,可以捕捉序列中的時序特征,從而適用于文本、音頻等領域。A.3預訓練模型微調方法類別預訓練模型由于在下游任務之前訓練獲得,不能直接用于下游任
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 靜脈輸液工具的合理選擇 2
- 廣東詩莞市高二數學下學期5月期中試題
- 部編版一年級語文下冊生字筆順期末復習
- 【2】66144+AIGC應用基礎+課程標準
- 岳陽現代服務職業學院《生物醫學導論》2023-2024學年第二學期期末試卷
- 四川省德陽中學2025年高三調研測試(二)物理試題文試題含解析
- 遼寧省大連市達標名校2025屆中考猜題卷(一)語文試題含解析
- 江西婺源茶業職業學院《數字音頻處理技術》2023-2024學年第二學期期末試卷
- 延邊大學《生物醫學工程應用實驗》2023-2024學年第二學期期末試卷
- 四川省成都龍泉第二中學2025屆高三下學期零月考英語試題試卷含解析
- 短期資金拆借合同樣本
- 汽車液壓主動懸架系統的設計與仿真
- 第五講-鑄牢中華民族共同體意識-2024年形勢與政策(講稿)
- 水泵電機年度維修項目方案投標文件(技術方案)
- 數學-天一大聯考2025屆高三四省聯考(陜晉青寧)試題和解析
- 《生物科技》課件
- 2025全國輔警考試題庫及參考答案
- 城建檔案地方立法研究
- GB/T 6075.6-2024機械振動在非旋轉部件上測量評價機器的振動第6部分:功率大于100 kW的往復式機器
- 店面裝修施工方案范文
- 集裝箱裝貨知識培訓課件
評論
0/150
提交評論