具身智能語料庫建設導則_第1頁
具身智能語料庫建設導則_第2頁
具身智能語料庫建設導則_第3頁
具身智能語料庫建設導則_第4頁
具身智能語料庫建設導則_第5頁
已閱讀5頁,還剩17頁未讀 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

Q/LB.□XXXXX-XXXX具身智能語料庫建設導則范圍本文件規(guī)定了建設具身智能模型訓練的泛語言、多模態(tài)語料庫的一般方法。本文件適用于具身智能語料庫的研究、開發(fā)、維護、應用、評估等工作。其它與具身智能語料庫建設相關的工作也可參照使用。規(guī)范性引用文件下列文件中的內容通過文中的規(guī)范性引用而構成本文件必不可少的條款。其中,注日期的引用文件,僅該日期對應的版本適用于本文件;不注日期的引用文件,其最新版本(包括所有的修改單)適用于本文件。GY/T353-2021網絡視聽節(jié)目視頻格式命名及參數(shù)規(guī)范T/SAIAS015—2024《語料庫建設導則》GB/T36073-2018數(shù)據(jù)管理能力成熟度評估模型GB/T4894-2009信息與文獻術語GY/T360-2022廣播電視和網絡視聽節(jié)目內容標識標簽規(guī)范GB/T35273-2020信息安全技術個人信息安全規(guī)范YD/T4245-2023電信網和互聯(lián)網數(shù)據(jù)脫敏技術要求和測試方法GB/T22239-2019信息安全技術網絡安全等級保護基本要求術語和定義下列術語和定義適用于本文件。

數(shù)據(jù)資源dataresources以電子化形式記錄和保存的具備原始性、可機器讀取、可供社會化再利用的數(shù)據(jù)集合。

數(shù)據(jù)表征模式datarepresentationmodes計算機中存儲和表達數(shù)據(jù)的形式或結構。

語料corpus語言材料或語言應用的樣本。

語料庫corpora由依據(jù)一定抽樣方法收集的自然出現(xiàn)的語料所構成的電子數(shù)據(jù)庫。注:是按照一定目的和方法進行選擇并有序排列的數(shù)據(jù)匯集。

模態(tài)modal機器對現(xiàn)實世界信息的感知模式或信息通道,包括數(shù)據(jù)表征模式(例如文本、圖像、語音、視頻、生物和生理信息的數(shù)據(jù)表征)、數(shù)據(jù)采集機制(將每種傳感設備采集到的數(shù)據(jù)視為一種模態(tài)),以及數(shù)據(jù)特征主體(如對特定主體的局部信息進行數(shù)據(jù)化表征)。

敏感信息sensitiveinformation如果公開或者濫用會造成潛在危害的信息。[來源:GB/T4894-2009,.4,有修改]

脫敏de-identification去除可確認個人或組織身份的數(shù)據(jù)與數(shù)據(jù)主體之間聯(lián)系的過程。[來源:ISO/TS25237:2008,3.18]

匿名化數(shù)據(jù)anonymizeddata去除直接涉及數(shù)據(jù)主體的個人或組織數(shù)據(jù)。[來源:GB/T4894-2009,.3,有修改]

主體subject視覺作品中的中心或主要對象,具有代表性、典型性,也是制作者想要傳達的主要信息或情感的載體。

單模態(tài)語料庫mono-modalcorpus收錄音頻、視頻、圖像或文字材料之一種模態(tài)語料的語料庫。多模態(tài)語料庫multi-modalcorpus收錄音頻、視頻、圖像和文字材料等語料,并采用多模態(tài)方式加工、檢索和統(tǒng)計的語料庫。

數(shù)據(jù)片段dataclip以片段形式記錄和保存的具身智能模型訓練使用的數(shù)據(jù)集合,一般時長為10s,由100個數(shù)據(jù)時刻組成。

數(shù)據(jù)時刻datatick在同一時刻中,由各相機視頻幀、雷達數(shù)據(jù)、本體數(shù)據(jù)、軌跡導航數(shù)據(jù)組成的多模態(tài)的集合。

模擬仿真平臺基于計算機的系統(tǒng),用于模擬現(xiàn)實世界或想象中的環(huán)境、條件或系統(tǒng)。

具身智能EmbodiedAI

具身智能系統(tǒng)EmbodiedAISystem基于物理身體進行感知和行動的智能系統(tǒng),其通過智能體與環(huán)境的交互獲取信息、理解問題、做出決策并實現(xiàn)行動,從而產生智能行為和適應性。注:本標準限定的具身智能本體包括泛人形機器人、仿人機器人、智能機器人等。

點云pointcloud以離散、不規(guī)則方式分布在三維空間中的點的集合。縮略語下列縮略語適用于本文件。NSFW不適于工作場所瀏覽(NotSafeForWork,NotSuitableForWork)FOV景深(FieldOfView)SFT有監(jiān)督微調(SupervisedFine-Tuning)具身智能數(shù)據(jù)要求通則具身智能語料庫,是由一系列數(shù)據(jù)集組成,每個數(shù)據(jù)集是由一系列數(shù)據(jù)片段組合而成,每個數(shù)據(jù)片段是由一系列數(shù)據(jù)時刻組成,每個時刻由所有傳感器在同一時刻產生數(shù)據(jù)的集合。數(shù)據(jù)集具身智能語料庫數(shù)據(jù)集,由一系列數(shù)據(jù)片段的形式存儲,由一系列數(shù)據(jù)片段有序或自由組合而成,適用于具身智能模型訓練使用。本文件規(guī)定的數(shù)據(jù)集與數(shù)據(jù)片段關系如圖1所示。圖1數(shù)據(jù)集與數(shù)據(jù)片段關系數(shù)據(jù)片段本文件規(guī)定的數(shù)據(jù)片段由連續(xù)的若干個數(shù)據(jù)時刻組成。本文件所定義的數(shù)據(jù)片段與數(shù)據(jù)時刻的關系如圖2所示。圖2數(shù)據(jù)片段與數(shù)據(jù)時刻的關系數(shù)據(jù)時刻本文件規(guī)定的數(shù)據(jù)時刻內容包含同一時刻的視頻數(shù)據(jù)、雷達數(shù)據(jù)、軌跡導航數(shù)據(jù)以及本體數(shù)據(jù),每一個數(shù)據(jù)時刻是時空同步的。按每秒10幀為例,一個數(shù)據(jù)時刻是在1幀內所有傳感器數(shù)據(jù)的集合,即所有傳感器在100毫秒(ms)內產生數(shù)據(jù)的集合。本文件所定義的數(shù)據(jù)時刻內容包括以下數(shù)據(jù)類型:(a)相機數(shù)據(jù):指的是各相機數(shù)據(jù);(b)雷達數(shù)據(jù):指的是激光雷達數(shù)據(jù)、毫米波雷達數(shù)據(jù)、超聲波等大數(shù)據(jù)等;(c)導航數(shù)據(jù):指的是GPS、地圖數(shù)據(jù)、GNSS數(shù)據(jù)、IMU數(shù)據(jù)等;(d)本體數(shù)據(jù):指的是本體狀態(tài)數(shù)據(jù)、控制命令數(shù)據(jù)、本體動態(tài)數(shù)據(jù)等;(e)標注數(shù)據(jù):文本標注數(shù)據(jù)、圖像標注數(shù)據(jù)、音頻標注數(shù)據(jù)等;(f)合成數(shù)據(jù):指的是通過仿真平臺合成的數(shù)據(jù)。(g)其他數(shù)據(jù):傳感器標定數(shù)據(jù)、文本數(shù)據(jù)、音頻數(shù)據(jù)等;采集數(shù)據(jù)資源要求一般要求作為具身智能語料庫素材的數(shù)據(jù)資源應滿足以下一般要求:(a)數(shù)據(jù)模態(tài):數(shù)據(jù)資源具備多模態(tài)要求,并能涵蓋多模態(tài)傳感數(shù)據(jù);(b)數(shù)據(jù)同步性:數(shù)據(jù)資源應具備同步性,多模態(tài)多傳感器數(shù)據(jù)的開始時間與結束時間是一致的,保持時空同步性;(c)數(shù)據(jù)多樣性:數(shù)據(jù)資源來自多區(qū)域多場景全時空數(shù)據(jù);(d)數(shù)據(jù)規(guī)模:數(shù)據(jù)資源具有足夠的規(guī)模,能支撐模型訓練后有較好的泛化性;(e)數(shù)據(jù)密級:作為承載數(shù)據(jù)資源的最小單位的文件不設置對其內容操作的權限控制;(f)數(shù)據(jù)質量:數(shù)據(jù)資源具有高質量和可靠性,并不含不適宜的內容。數(shù)據(jù)資源要求具身智能數(shù)據(jù)資源包括視頻數(shù)據(jù)、雷達數(shù)據(jù)、音頻數(shù)據(jù)、本體數(shù)據(jù)和軌跡導航數(shù)據(jù),具備多模態(tài)要求,符合以下指標和要求。視頻數(shù)據(jù)視頻表征的數(shù)據(jù),簡稱視頻數(shù)據(jù),是以一系列序列幀的形式存儲,每個幀可以是圖像表征,適用于視頻內容的存儲和處理。本文件所定義的具身智能視頻類型如表1所述。視頻數(shù)據(jù)的指標和要求序號指標或(和)要求說明1視頻類型見表22數(shù)據(jù)資源內容視頻及對應文字說明或視頻介紹,如拍攝地點、時間、設備、照明條件、天氣條件、環(huán)境條件等信息3視頻分辨率宜1080P(1920x1080像素)及以上4視頻幀率25~30幀/秒5單一視頻時間長度10秒及以上6視頻文件格式MP4/AVI/YUV/H264等7視頻驗收標準除清晰外,對視頻素材的隨機抽樣中,應有80%包含主體(不含主體的視頻素材示例,包括但不限于航拍、延時風景攝影等)視頻數(shù)據(jù)來自本體頭部、胸口、左右手臂末端、第三方視角攝像頭的視頻序列,用于物體檢測、語義分割、環(huán)境檢測、場景設施識別等。本文件規(guī)定攝像頭視頻數(shù)據(jù)分類及說明見表2。視頻數(shù)據(jù)分類表序號類型說明1頭部視頻主要指頭部攝像頭采集的視頻數(shù)據(jù)2胸口視頻主要指胸口攝像頭采集的視頻數(shù)據(jù)3左右手臂

末端視頻主要指左右手臂末端攝像頭采集的操作目標近景視頻數(shù)據(jù)4第三方視角視頻主要指從第三方視角采集的視頻數(shù)據(jù)5紅外視頻主要指使用紅外攝像頭拍攝,適用于夜間或光線不足的環(huán)境6立體視頻主要指采用兩個或以上的攝像頭從不同角度拍攝,用于深度感知和3D建模視頻數(shù)據(jù)還包含的天氣條件、照明條件和場景類型等數(shù)據(jù)語義特征,具身智能數(shù)據(jù)語義特征見表3。視頻數(shù)據(jù)語義特征表序號類型說明1天氣主要包括晴朗、多云、陰天、雨天、霧天、雪天、沙塵暴、雷電2時間主要包括白天、夜晚、黎明、黃昏3光照主要包括光線較好、光線較弱、黑暗、過曝/眩光、大面積陰影、反射虛影4場景主要包括工廠、家居、辦公室、醫(yī)院、學校、商超、開放道路等。相機視角與具身智能數(shù)據(jù)集保持一致,多個視角內的目標可追蹤,保持特征一致。雷達數(shù)據(jù)本文件規(guī)定的雷達數(shù)據(jù)包括激光點云數(shù)據(jù)和毫米波數(shù)據(jù)。激光點云表征的數(shù)據(jù),簡稱點云數(shù)據(jù),是一種通過雷達系統(tǒng)獲取的三維空間信息集合,通過發(fā)射激光束并接受反射回來的信號,精確測量物理的距離、形狀和位置,構建三維環(huán)境模型。本文件所定義的激光點云數(shù)據(jù)的指標和要求如表4所述。激光點云數(shù)據(jù)的指標和要求序號指標或(和)要求說明1分辨率宜達到車規(guī)級激光雷達的行業(yè)標準2精度在±2厘米3點云密度宜每平方米90個點及以上,均勻分布4檢測范圍宜30米及以上5幀率宜10Hz及以上6動態(tài)范圍10厘米-100米7數(shù)據(jù)資源說明點云數(shù)據(jù)及對應文字說明或介紹8噪聲水平距離誤差±2-3厘米,角度誤差0.01度到1度,時間同步誤差10微秒9單一點云數(shù)據(jù)大小50MB及以上10文件格式PCD/LAS/XYZ11驗收標準除清晰外,對素材的隨機抽樣中,應點數(shù)足夠,分布均勻,且精度誤差小,噪聲水平低相關激光點云數(shù)據(jù)需滿足以上指標和要求,如出現(xiàn)以下情形,則不適合作為激光點云數(shù)據(jù),詳見表5。不適合作為點云數(shù)據(jù)資源的情形序號情形說明1數(shù)據(jù)不完整主要指缺少關鍵區(qū)域的點,如目標物體、環(huán)境設備2分辨率過低主要是指點云過于稀疏,無法捕捉物體細節(jié)3精度不高主要是指點的位置信息誤差大4噪聲過多主要指包含大量錯誤或異常值5同步性差主要指多傳感器數(shù)據(jù)無法準確同步6動態(tài)范圍小主要指無法覆蓋遠近距離的物體7反射強度不一致主要指反射強度信息不穩(wěn)定或不可靠8光照影響大主要指強光或逆光條件下產生陰影或反射9天氣影響嚴重主要指雨、雪、霧等惡劣天氣條件下的數(shù)據(jù)10遮擋嚴重主要指其他物體遮擋無法獲取完整目標物體視角11數(shù)據(jù)過時主要指與當前環(huán)境變化較大,無法反映當前場景12法律和隱私問題主要是指包含敏感信息,如車牌號、人臉等13冗余數(shù)據(jù)主要指大量重復或非常相似的數(shù)據(jù)毫米波數(shù)據(jù),擅長測量目標的距離和速度,對金屬物理比較敏感,在惡劣環(huán)境下也能較好工作。本文件規(guī)定的毫米波數(shù)據(jù)資源的指標和要求如表6所述。毫米波數(shù)據(jù)的指標和要求序號指標或(和)要求說明1頻率范圍宜76GHz及以上2檢測范圍宜30米及以上3角分辨率±0.5°(長距離)/±1°(中距離)4距離分辨率宜0.1米及以上5速度分辨率宜0.1米/秒6更新率宜20Hz及以上7調制方式FMCW8檢測精度距離:±0.05m,角度:±0.5°,速度:±0.1m/s9文件格式支持CAN/Ethernet等通信協(xié)議10驗收標準除清晰外,對素材的隨機抽樣中,分辨率達標,應有80%包含主體。音頻數(shù)據(jù)聲音表征的數(shù)據(jù),簡稱音頻數(shù)據(jù),是以聲音波形的形式存儲,通常以采樣率和位深來表征聲音信號。本文件所處理音頻數(shù)據(jù)資源(或可再加工音頻數(shù)據(jù)產品)的指標和要求如表7所述。音頻數(shù)據(jù)的指標和要求序號指標或(和)要求標準1語種漢語(普通話、粵語、滬語等)、英語(英國、美國)、阿拉伯語、俄語、日語2主題領域參照《廣播電視和網絡視聽節(jié)目內容標識標簽規(guī)范》(GY/T360-2022)中的“內容類內容特征子類別規(guī)范詞”3數(shù)據(jù)資源內容音頻及對應文字說明或音頻介紹4音頻采樣率不小于44.1KHz5通道數(shù)雙聲道/單聲道(由原始資料特性決定)6單一音頻時間長度60秒及以上7量化精度不低于16位8音頻文件格式WAV9音頻驗收標準對音頻素材的隨機抽樣中,應有95%不存在表8中所述情況相關的音頻技術指標應符合《網絡視聽節(jié)目視頻格式命名及參數(shù)規(guī)范》(GY/T353-2021)的規(guī)定。如果音頻數(shù)據(jù)資源中包含了資源特征性描述的,相關的標識和(或)標簽則應滿足《廣播電視和網絡視聽節(jié)目內容標識標簽規(guī)范》(GY/T360-2022)的要求。音頻數(shù)據(jù)需滿足以上指標和要求,如出現(xiàn)以下情形,則不適合作為音頻數(shù)據(jù),詳見表8。不適合作為音頻數(shù)據(jù)資源的情形序號情形說明1文件噪音不合格整段音頻伴有嚴重的噪音2文件內容不合格音頻文件不包含目標類別的音頻或含有誤導性信息的音頻3其它不合格回音很大、過載嚴重本體數(shù)據(jù)本文件規(guī)定的本體數(shù)據(jù)包括本體狀態(tài)數(shù)據(jù)、控制命令、診斷數(shù)據(jù)、本體動態(tài)數(shù)據(jù)以及傳感器標定數(shù)據(jù)。本文件規(guī)定的本體數(shù)據(jù)資源的指標和要求如表9所述。本體資源指標和要求序號指標或(和)要求說明1類別詳見表142數(shù)據(jù)資源內容本體數(shù)據(jù)及對應文字說明3格式JSON或數(shù)據(jù)庫4驗收標準本體數(shù)據(jù)需準確,包含時間數(shù)據(jù),且與視頻數(shù)據(jù)保持時空一致性本文件規(guī)定的本體信息數(shù)據(jù)資源分類及說明見表10。本體信息數(shù)據(jù)資源分類表序號類型說明1本體狀態(tài)數(shù)據(jù)主要包括啟動/關閉、傳感器健康狀態(tài)2控制命令主要包括轉向、加速、制動、運動3診斷信息主要包括本體故障代碼和診斷信息4本體動態(tài)數(shù)據(jù)主要包括速度、加速度、轉向角度、制動力度、橫向加速度、縱向加速度、輪速、本體位置、傾角、本體各關節(jié)電機功率傳感器標定數(shù)據(jù)在具身智能訓練中能夠誤差校正,坐標系統(tǒng)統(tǒng)一以及確保不同傳感器之間的數(shù)據(jù)關聯(lián)性使傳感器融合,提高具身智能整體性能。本文件規(guī)定的傳感器標定數(shù)據(jù)資源指標和要求如表11所述。傳感器標定數(shù)據(jù)指標和標準序號指標或(和)要求說明1常見信息相機內參、相機外參、激光外參、毫米波外參、INS的內參、INS的外參等2參數(shù)要求參數(shù)需要與對應本體一一綁定,且定期重新標定進行維護3數(shù)據(jù)資源內容傳感器標定數(shù)據(jù)及對應文字說明4格式JSON或采集數(shù)據(jù)包中5驗收標準根據(jù)各傳感器參數(shù),通過采集數(shù)據(jù)進行投影,根據(jù)重疊效果判斷標定準確度軌跡導航數(shù)據(jù)本文件規(guī)定的軌跡導航數(shù)據(jù)包括定位數(shù)據(jù)、軌跡數(shù)據(jù)等。軌跡導航數(shù)據(jù)的指標和要求如表12所述。軌跡導航數(shù)據(jù)資源指標和要求序號指標或(和)要求說明1類別詳見表132數(shù)據(jù)資源內容軌跡導航數(shù)據(jù)及對應文字說明3格式JSON或采集數(shù)據(jù)包4驗收標準定位精度符合傳感器精度標準,包含時間數(shù)據(jù),且與視頻數(shù)據(jù)保持時空一致性本文件規(guī)定的軌跡導航數(shù)據(jù)資源分類見表13。軌跡導航數(shù)據(jù)資源分類序號類型說明1定位數(shù)據(jù)GPS主要包括定位精度、定位連續(xù)性、時間戳同步2IMU主要包括角速度零偏穩(wěn)定性、加速度零偏穩(wěn)定性、時間戳同步3軌跡數(shù)據(jù)軌跡點主要包括位置精度、速度精度、時間戳同步4軌跡預測主要包括預測時間范圍、預測頻率、預測精度(如minADE、minFDE)數(shù)據(jù)信息存儲格式傳感器標定信息格式數(shù)據(jù)采集傳感器標定的信息應包含:(a)傳感器設備序列號及名稱;(b)傳感器的類型及數(shù)量;(c)傳感器采集頻率;(d)傳感器內外參數(shù)。元數(shù)據(jù)格式采集的元數(shù)據(jù)應包含以下信息:——通用數(shù)據(jù): ——時間戳; ——唯一ID;——本體數(shù)據(jù):——類型;——關節(jié)位姿數(shù)據(jù);——相機傳感器數(shù)據(jù):——彩色圖像數(shù)據(jù);——深度圖像數(shù)據(jù);——采樣頻率;——圖像尺寸。——雷達傳感器數(shù)據(jù):——采集范圍;——采集精度;——采樣頻率。——觸覺傳感器數(shù)據(jù):——靈敏度;——分辨率;——響應時間。——音頻傳感器數(shù)據(jù);——力覺傳感器數(shù)據(jù);——嗅覺傳感器數(shù)據(jù);采集環(huán)境信息(如場景布局、地點、設備/道具布置情況等);采集任務描述信息(如文字指令和對話信息)。元數(shù)據(jù)組幀格式元數(shù)據(jù)組幀對齊后應包含:(a)幀索引序列;(b)傳感器數(shù)據(jù)序列;(c)本體數(shù)據(jù)序列。具身智能數(shù)據(jù)采集要求采集條件通則本章規(guī)定了對數(shù)據(jù)資源的采集進行描述的規(guī)范性要求。這些要求將對這些數(shù)據(jù)的采集方的采集介質、采集行為提供指導性意見,以便對數(shù)據(jù)進行統(tǒng)一標準。采集本體標準本節(jié)規(guī)定了采集本體的基本配置要求,這些要求將幫助采集方有效改裝采集本體,保障采集數(shù)據(jù)一致性。本文件規(guī)定的采集本體的相機數(shù)量為常見數(shù)量,即5個FOV相機,具體可根據(jù)實際采集需要加裝。采集樣本硬件要求詳見表14。采集本體硬件要求序號硬件組件關鍵參數(shù)安裝位置1頭部相機1顆FOV30@8MP+,1顆FOV100+@8MP+頭部2胸口相機1顆

FOV100@2.3MP+胸口3左右手臂末端相機2顆

FOV100@2.3MP+左右手4第三方視角相機1顆

FOV195@1.2MP+第三方5存儲系統(tǒng)支持全量滿帶寬數(shù)據(jù)存儲,每臺配備4T固態(tài)移動硬盤與操控系統(tǒng)算力、帶寬不共用采集本體軟件要求詳見表15。采集本體軟件要求序號軟件標準描述1多模態(tài)傳感器同步支持多模態(tài)傳感器時間同步與空間同步2全量滿帶寬數(shù)據(jù)存儲支持全量滿帶寬數(shù)據(jù)存儲3OTA軟件策略更新支持通過OTA進行軟件策略更新合成數(shù)據(jù)通則本文件規(guī)定合成數(shù)據(jù)是一種虛擬的數(shù)據(jù),主要通過基于世界模型的模擬仿真平臺等工具生成的數(shù)據(jù)。合成數(shù)據(jù)要求為了確保仿真合成數(shù)據(jù)的有效性和適用性,必須滿足以下要求:(a)高保真度:仿真環(huán)境應盡量模擬現(xiàn)實世界中的物理和視覺特性,保證數(shù)據(jù)的真實性和準確性。(b)多樣性:合成數(shù)據(jù)應包含不同場景、多種任務和多種傳感器數(shù)據(jù),以確保模型的泛化能力。(c)可重復性:仿真數(shù)據(jù)生成應可重復,允許在相同條件下生成一致的數(shù)據(jù)集。(d)同步性:多傳感器采集的數(shù)據(jù)應嚴格保持時間同步,特別是在多模態(tài)數(shù)據(jù)(如圖像、深度、雷達、IMU)融合時,時間戳精度應足夠高。(e)標準化格式:所有數(shù)據(jù)應符合預定的標準格式,以便于存儲、共享和分析。(f)隨機化控制:為了增強數(shù)據(jù)的魯棒性,合成數(shù)據(jù)應進行隨機化處理,包括視覺隨機化(如光照、材質等)和物理隨機化(如摩擦、重力等),以模擬不同環(huán)境下的變化。合成數(shù)據(jù)生成方式仿真合成數(shù)據(jù)生成包括以下步驟:(a)場景構建:使用3D數(shù)字孿生技術對真實場景進行虛擬化,構建高度逼真的仿真場景。場景的視覺和物理特性應根據(jù)應用場景需求進行細致建模。(b)任務設計:機器人在場景中執(zhí)行多種任務(如抓取、移動、操作等),通過仿真平臺模擬這些任務,并生成對應的動作和感知數(shù)據(jù)。(c)多傳感器采集:通過機器人內部和外部的多種傳感器(如RGB相機、深度傳感器、激光雷達等)同步采集數(shù)據(jù)。確保傳感器數(shù)據(jù)的時間同步性,尤其在多模態(tài)融合時,數(shù)據(jù)采集頻率需保持一致。(d)數(shù)據(jù)隨機化:通過視覺和物理屬性的隨機化,生成多樣化的數(shù)據(jù)集,以增加模型的魯棒性和泛化能力。視覺隨機化涉及材質、光照、視角等,物理隨機化處理摩擦、重力等。(e)數(shù)據(jù)處理與存儲:所有采集的數(shù)據(jù)應經過適當?shù)念A處理,包括去噪、時間同步等步驟,隨后以規(guī)定格式存儲。文件名和目錄結構應明確標識場景、時間和數(shù)據(jù)類型。合成數(shù)據(jù)用途仿真合成數(shù)據(jù)在具身智能系統(tǒng)中的應用場景廣泛,主要包括以下幾個方面:(a)數(shù)據(jù)泛化仿真數(shù)據(jù)通過物品泛化和場景泛化來模擬各種現(xiàn)實環(huán)境中的變化情況。通過引入不同的物體類型、材質、大小、位置以及各種場景屬性(如光照、天氣、地形等),仿真數(shù)據(jù)能夠為模型提供更豐富的訓練樣本,確保模型在實際應用中具備更強的適應性和泛化能力。例如,模型可以在虛擬環(huán)境中學會處理不同形狀和尺寸的物體,從而在真實場景中也能表現(xiàn)良好。(b)極端情況(CornerCase)生成解決現(xiàn)實世界中極端情況(如罕見的物體交互、復雜的光照或極端天氣等)的采集難題。仿真平臺能夠生成大量極端情況數(shù)據(jù),這些情況在真實環(huán)境中難以捕捉,但卻是模型泛化和魯棒性的重要測試場景。通過系統(tǒng)地生成這些難以采集的極端案例,模型能夠更好地處理特殊或意外的情境,從而在多變和復雜的環(huán)境中表現(xiàn)得更加可靠。(c)跨傳感器/本體數(shù)據(jù)遷移仿真合成數(shù)據(jù)的另一個重要用途是跨傳感器和跨本體的數(shù)據(jù)遷移。通過充分利用已有數(shù)據(jù),模型可以在不同的傳感器數(shù)據(jù)之間進行遷移學習,避免重復采集數(shù)據(jù)。例如,通過在仿真環(huán)境中生成的RGB圖像、深度圖像、IMU數(shù)據(jù)等,模型能夠學會在不同傳感器輸入下進行任務操作。這種遷移機制減少了實際傳感器配置下的數(shù)據(jù)采集成本,并且通過多模態(tài)數(shù)據(jù)的融合提升了模型的性能。數(shù)據(jù)資源提交方式數(shù)據(jù)文件標識數(shù)據(jù)(資源)文件應通過文件名稱來進行標識,其命名規(guī)則為:(a)文件名稱=文件名+文件擴展名;(b)命名通常不要含有中?字符和不合法字符等;(c)在后續(xù)使?過程中不能對數(shù)據(jù)集進?重命名,否則會造成數(shù)據(jù)?法回溯的問題,導致數(shù)據(jù)丟失。數(shù)據(jù)資源的提交方式本文件數(shù)據(jù)資源提交方式應滿足《語料庫建設導則》(T/SAIAS015—2024)中數(shù)據(jù)資源提交方式要求。實體存儲介質實體存儲介質方式是指將數(shù)據(jù)資源文件按一定的格式和組織形式(如壓縮)存入實體存儲介質后進行的數(shù)據(jù)交換方式。本文件附錄B提供了這種提交方式的一種參考實現(xiàn)。云盤傳輸云盤傳輸方式是指將數(shù)據(jù)資源文件按一定的格式和組織形式(如壓縮)后通過公有或私有云盤轉儲所實施的數(shù)據(jù)交換方式。本文件附錄C提供了這種提交方式的一種參考實現(xiàn)。直連在線直連在線方式是指數(shù)據(jù)資源供給和接收雙方通過光纖專線點對點進行數(shù)據(jù)傳輸。這一方式具有較高的安全性和可靠性。如選擇該傳輸方式,所需帶寬宜按以下公式進行計算: 文本數(shù)據(jù)(集)所占總文件長度(MB)*8*3600/擬完成傳輸?shù)拈g(s)=所需帶寬(Mb/s) 本文件對采用“直連在線”方式所涉及的數(shù)據(jù)加密方式不作具體規(guī)定。數(shù)據(jù)空間數(shù)據(jù)空間是互相信任的合作伙伴之間的數(shù)據(jù)關系,每一方都對其數(shù)據(jù)的存儲和共享適用相同的高標準和規(guī)則。在數(shù)據(jù)空間中,數(shù)據(jù)不是集中存儲,而是存儲數(shù)據(jù)來源,因此只有在必要時才會(通過語義互操作性)共享數(shù)據(jù)。數(shù)據(jù)空間是數(shù)據(jù)資產化的有效工具體系,本文件將在后續(xù)的版本中提供參考實現(xiàn)。方式的選擇數(shù)據(jù)資源的提交方式應在實體存儲介質(如硬盤)、云盤、直連在線、數(shù)據(jù)空間這四種數(shù)據(jù)資源提交方式中選定一種方式來實施具體的數(shù)字資源交付。具身智能數(shù)據(jù)生產要求資源數(shù)據(jù)的統(tǒng)一性和完整性檢查在用于語料生產的所有資源數(shù)據(jù)存入資源數(shù)據(jù)庫前,應按以下過程檢查其格式的統(tǒng)一性和數(shù)據(jù)的完整性:(a)步驟一:所有資源數(shù)據(jù)應以5.5.2中所規(guī)定各數(shù)據(jù)表征模式的文件格式之一的形式存在。如承載資源數(shù)據(jù)的文件不是對應數(shù)據(jù)表征模式的規(guī)定格式之一的,需采取合適的措施實現(xiàn)資源數(shù)據(jù)文件格式的轉換。(b)步驟二:對每一個文件進行一次打開操作,在確認打開成功后再執(zhí)行下一步;否則,將拋棄該文件。(c)步驟三:將資源數(shù)據(jù)以對象方式存入資源數(shù)據(jù)庫。注:資源數(shù)據(jù)的統(tǒng)一性和完整性檢查的重要性在于,能避免因數(shù)據(jù)解碼失敗而導致訓練崩潰現(xiàn)象的出現(xiàn)。數(shù)據(jù)資源清洗過程主要流程本文件規(guī)定的具身智能數(shù)據(jù)資源清洗過程的主要流程包括數(shù)據(jù)規(guī)范管理、數(shù)據(jù)整理分類、數(shù)據(jù)脫敏、數(shù)據(jù)去噪、數(shù)據(jù)去重、數(shù)據(jù)存儲與備份等。本文件規(guī)定的具身智能語料數(shù)據(jù)資源包括現(xiàn)實世界采集的真實數(shù)據(jù)、合成的虛擬數(shù)據(jù),以及二者相結合的虛實數(shù)據(jù)。數(shù)據(jù)規(guī)范管理“數(shù)據(jù)規(guī)范管理”操作宜包含以下步驟:(a)步驟一:統(tǒng)一命名,所有的數(shù)據(jù)資源需根據(jù)5.5.2中所規(guī)定的文件標識進行統(tǒng)一命名;(b)步驟二:統(tǒng)一格式,所有資源數(shù)據(jù)應以5.5.2中所規(guī)定各數(shù)據(jù)表征模式的文件格式之一的形式存在。數(shù)據(jù)整理分類數(shù)據(jù)整理分類主要是對所有資源數(shù)據(jù)以6.2.2中所規(guī)定各數(shù)據(jù)表征模式進行整理和分類。數(shù)據(jù)脫密脫敏數(shù)據(jù)脫敏主要是對所有數(shù)據(jù)資源進行脫密脫敏處理,宜包含以下步驟:(a)步驟一:將關鍵幀發(fā)到NSFW模型中,模型會返回0或1:0=NOTEQUALNSFW1=NSFW(b)步驟二:將返回值記錄至對應關鍵幀文本中,如標記為0則通過,如標記為1則進入人工復核。數(shù)據(jù)去噪數(shù)據(jù)去噪主要是對所有數(shù)據(jù)資源進行去噪處理,應將?件損壞、圖像不完整、畸變過?且?法處理等無法使用的數(shù)據(jù)去除。數(shù)據(jù)去重數(shù)據(jù)去重主要是對數(shù)據(jù)進行查重處理,應將重復的數(shù)據(jù)刪除。數(shù)據(jù)存儲與備份數(shù)據(jù)存儲與備份主要是數(shù)據(jù)整理完畢后及時對數(shù)據(jù)進行存儲與備份,應遵循一式多份且多個地方存儲。數(shù)據(jù)資源標注過程標注任務制定任務制定主要是制定具身智能數(shù)據(jù)資源標注,應包含任務解決的問題,重點標注的屬性信息,以及標注的注意事項等。數(shù)據(jù)標注基本原則在具身智能使用數(shù)據(jù)資源進行標注時,應按照以下過程檢查數(shù)據(jù)是否遵循基本原則:(a)步驟一:所有數(shù)據(jù)資源應以時間同步和空間同步進行數(shù)據(jù)同步,如不同傳感器(如攝像頭、激光雷達、IMU)的數(shù)據(jù)在時間上是同步的以及不同傳感器的數(shù)據(jù)在空間坐標系中是對齊的;(b)步驟二:目標框宜以矩形框表示;(c)步驟三:標注類別應以標準分類體系統(tǒng)一,如物品、車輛、行人、標志等;(d)步驟四:標注屬性根據(jù)不同的標注類別進行定義,如物品的顏色、行人的前進方向等。定義坐標系具身智能中坐標系定義為四種,分別為雷達坐標系、相機坐標系、本體坐標系及全局坐標系,場用定義和作用如表16所述:具身智能訓練中定義的坐標系類型序號坐標系類型原點位置X軸方向Y軸方向Z軸方向作用1本體坐標系本體后軸中心或前軸中心本體前方本體左側指向天空主要用于獲取本體運動狀態(tài)、相對位置2相機坐標系圖像中心或相機鏡頭中心圖像右側圖像下方指向相機內部主要用于2D圖像處理、目標檢測3全局坐標系定義的固定點,如場景設備北方東方指向天空主要用于本體導航、路徑規(guī)劃4雷達坐標系圖像中心或雷達鏡頭中心圖像右側圖像下方指向雷達內部主要用于三維空間信息收集標注方法關鍵點標注關鍵點標注是指將需要標注的元素按照需求位置進行點位標識,從而實現(xiàn)關鍵點的識別,并由若干關鍵點的集合形成具體應用所需的語義功能標識。標注框標注標注框標注是一種對目標對象進行標注的簡單處理方式。在標注框標注的幫助下,使模型通過訓練能夠檢測或識別出所需的目標對象。例如,在具身智能訓練中,需通過標注框將物品的位置確定下來再進行后續(xù)的動作操作。框標注包括矩形標注、自由矩形標注、3D框標注,四邊形標注和不規(guī)則框標注等。區(qū)域標注區(qū)域標注指是指將圖像分成各具特性的區(qū)域并提取出感興趣部分的過程。區(qū)域標注包括開區(qū)域標注和閉區(qū)間標注。區(qū)域標注需同時滿足均勻性和連通性的條件,其中均勻性指的是該區(qū)域中的所有像素點都滿足灰度、紋理、彩色等特征的某種相似性準則;連通性是指在該區(qū)域內存在的鏈接任意兩點的路徑。與矩形框標注相比,其區(qū)域要求標注更加精確,標注邊緣可以是多邊形甚至是柔性的。屬性標注屬性標注就是用一個或多個標簽標注目標對象的屬性。注:對具體應用而言,可在標注文件的元數(shù)據(jù)部分來申明所用的這些標簽,這些標簽必須是一個封閉的集合。關鍵幀標注關鍵幀標注就是對視頻、點云數(shù)據(jù)中具有關鍵動作意義的幀進行屬性、區(qū)域等內容的文本標注。數(shù)據(jù)安全安全原則語料產品數(shù)據(jù)的提供方應在組織、人員、制度、平臺等方面實施安全策略、執(zhí)行覆蓋資源數(shù)據(jù)和語料產品全生命周期的安全控制措施。安全性評價語料產品的數(shù)據(jù)采集、加工、測試和提供的全過程應進行安全性評價,至少應執(zhí)行以下要求:(a)應采取必要和合適的方法確保所涉及數(shù)據(jù),不涉及各類秘密、隱私等敏感或違法的信息,未受到蓄意偽造、篡改等行為造成的數(shù)據(jù)污染,僅暴露在合同或其它強制性規(guī)定所明確界定的范圍內;(b)涉及個人信息的,應執(zhí)行并滿足GB/T35273-2020的相關規(guī)定。(c)執(zhí)行并滿足《數(shù)據(jù)安全風險評估方法》、《電信網和互聯(lián)網數(shù)據(jù)脫敏技術要求和測試方法》(YD/T4245-2023)等的相關規(guī)定。制度要求語料產品的數(shù)據(jù)采集、加工、測試和提供的全過程應建立至少以下這些制度:(a)數(shù)據(jù)管理規(guī)范:其內容應覆蓋上述語料生產的全過程,明確針對數(shù)據(jù)準備、數(shù)據(jù)處理、數(shù)據(jù)交付等不同階段的數(shù)據(jù)存儲空間和訪問控制,并載明不定期組織內部審查的方案;(b)訪問控制及權限管理制度:實施物理的身份驗證和授權機制,建立完善的監(jiān)控和審計機制。技術要求語料產品的數(shù)據(jù)采集、加工、測試和提供的全過程所涉及信息系統(tǒng)應至少配置以下軟硬組件:(a)數(shù)據(jù)網關;(b)數(shù)據(jù)加密與備份裝置;(c)安全防范和監(jiān)控系統(tǒng);(d)私域數(shù)據(jù)存儲與傳輸系統(tǒng);(e)數(shù)據(jù)資產管理工具;(f)為滿足GB/T22239-2019《信息安全技術網絡安全等級保護基本要求》所需的其它設備或系統(tǒng)。8.5人員要求參與語料產品的數(shù)據(jù)采集、加工、測試和提供的任何人員都應簽署與其職責相對應的保密協(xié)議;這些人員所屬機構應建立獨立、專業(yè)的信息安全團隊。

(資料性)

具身智能大模型方案純文本數(shù)據(jù)用于訓練大模型模型無監(jiān)督預訓練無監(jiān)督預訓練主要是利用大規(guī)模的文本數(shù)據(jù),通過自監(jiān)督的方式讓模型學習文本的結構、語義和上下文關系。最常見的訓練方式是使用自回歸或自編碼模型,例如GPT(生成式預訓練)和BERT(雙向編碼器)。典型任務:語言建模(LM)、掩碼語言建模(MLM)。數(shù)據(jù)類型:一般為通用文本數(shù)據(jù),如網頁、書籍、新聞等。常用公開數(shù)據(jù)集:CommonCrawl:包含大量從互聯(lián)網上爬取的網頁文本數(shù)據(jù),被許多大模型預訓練使用,如GPT-3等。Wikipedia:廣泛用于多種自然語言處理(NLP)任務的高質量文本來源。BooksCorpus:包含來自在線圖書的數(shù)據(jù),提供更豐富的上下文信息。OpenWebText:一個試圖復制OpenAI的WebText數(shù)據(jù)集的開源項目,來源于Reddit高評分的鏈接。ThePile:EleutherAI組織收集的大型開放數(shù)據(jù)集,包含15個子集,例如PubMed、GitHub代碼庫、FreeLaw法律文本、YouTube字幕等。有監(jiān)督微調SFT是在無監(jiān)督預訓練的基礎上,使用標注數(shù)據(jù)集對模型進行微調,進一步提升模型在特定任務上的性能。通常通過少量的任務相關標注數(shù)據(jù)對模型進行針對性的優(yōu)化,使其在特定任務上表現(xiàn)更好。典型任務:問答、情感分析、對話生成等。數(shù)據(jù)類型:帶有標簽的結構化數(shù)據(jù),通常為問答對、對話數(shù)據(jù)、特定領域的數(shù)據(jù)等。常用公開數(shù)據(jù)集:SQuAD(StanfordQuestionAnsweringDataset):用于問答系統(tǒng)的高質量數(shù)據(jù)集,包含大量的問題和答案對。GLUE:包含多個自然語言理解任務的數(shù)據(jù)集,包括文本分類、句子相似性等。MSMARCO:微軟發(fā)布的問答數(shù)據(jù)集,適用于檢索式問答和對話。OpenAI’sWebGPT:基于網絡搜索結果的問答數(shù)據(jù)集。SuperGLUE:GLUE的升級版,包含更具挑戰(zhàn)性的NLP任務。DialogDatasets(e.g.,DailyDialog,Persona-Chat):用于對話生成的標注數(shù)據(jù)集,包括對話語境和應答。視覺大語言模型視覺大語言模型通過整合視覺和語言模態(tài)數(shù)據(jù),實現(xiàn)圖像和文本的聯(lián)合理解和生成。VLM的訓練也通常分為無監(jiān)督預訓練和有監(jiān)督微調(SFT)兩個階段。無監(jiān)督預訓練無監(jiān)督預訓練階段主要通過自監(jiān)督方法,使用大量圖像-文本對數(shù)據(jù),讓模型學習視覺和語言之間的關聯(lián)。例如,圖像-文本對齊、區(qū)域掩碼預測、視覺詞匯建模等。典型任務:圖像-文本對齊(如CLIP的對比學習)、圖像掩碼預測(如MAE、SimMIM)。數(shù)據(jù)類型:大規(guī)模的圖像-文本對數(shù)據(jù)集。常用公開數(shù)據(jù)集:ConceptualCaptions:包含300萬張圖像及其相應的自然語言描述,數(shù)據(jù)來源于網頁,廣泛用于VLM的預訓練。COCOCaptions:MicrosoftCOCO數(shù)據(jù)集的一個版本,包含了33萬張圖像及其描述,每張圖像有5條自然語言描述。VisualGenome:包含10萬張圖像,每張圖像中包含詳細的物體和場景關系信息,有助于模型理解圖像內部關系。Flickr30k:包含3萬張圖像,每張圖像都有多個描述性標注,適用于圖像-文本匹配任務。LAION-400M&LAION-5B:由LAION團隊整理的大規(guī)模開放數(shù)據(jù)集,包含4億或50億圖像-文本對,用于CLIP、StableDiffusion等模型的預訓練。YFCC100M:包含來自Flickr的1億張圖片和視頻,其中許多帶有文本描述。RedCaps:包含1200萬圖像-文本對,來源于Reddit,數(shù)據(jù)涵蓋多個領域,包含豐富的上下文信息。有監(jiān)督微調在無監(jiān)督預訓練的基礎上,VLMs通常需要通過有監(jiān)督數(shù)據(jù)進行微調,以適應特定任務,如圖像描述生成、視覺問答、圖文檢索等。這些任務的目標是提高模型在特定應用領域的表現(xiàn)。典型任務:視覺問答(VQA)、圖像字幕生成、圖文匹配、圖像標注。數(shù)據(jù)類型:標注的任務數(shù)據(jù)集,

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論