




版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
T/CSHB河 北 省 版 權 協 會 團 體 標 準T/CSHB0017—2024生成式人工智能模型訓練合規技術規范GenerativeAImodeltrainingcomplieswithtechnicalspecifications2024-9-10發布 2024-9-10實施河北省版權協會 發布目 錄前言 1范圍 2規范性引用文件 2術語和定義 3合規原則 5數據收集合規要求 5合規性審查 5收集方式 6數據類別 6數據預處理合規要求 9數據預處理總體要求 9數據預處理安全技術要求 10數據標注合規要求 13訓練數據預處理合規要求 14數據加密技術要求 14模型訓練與測試合規要求 15模型訓練 15模型測試 15數據備份與恢復 16內容生成服務合規要求 16使用者盡責義務的告知 16生成內容的審核 16生成內容的標識 16生成內容的異議審查機制 17使用者信息保護 17被侵權人維權支持 17PAGEPAGE10前言本文件按照GB/T1.1-2020《標準化工作導則 第1部分:標準化文件的結構和起草則》的規定起草。(河北人工智能科技有限公司及所有參與起草的單位共同所有,受國家版權法律、法規保護。未經許可,任何組織或個人不得擅自復制、出版、傳播或用于其他商業用途。如有需要,請聯系本文件發布機構或相關單位獲取授權。本文件由配播智算(河北)人工智能科技有限公司提出。本文件由河北省版權協會歸口。(河北)(杭州(北京標準化技(天津(河北企業管理服務有限公司、首科(河北)企業管理咨詢有限公司。本文件適用于指導生成式人工智能進行模型訓練。規范性引用文件(包括所有的修改單)適用于本文件。GB/T4943.1信息技術設備安全第一部分:通用要求GB/T5271.1-20001部分:基本術語GB/T5271.28-2001285271.29-2006295271.31-200631GB/T29246-2023信息安全技術信息安全管理體系概述和詞匯GB/T29490-2023企業知識產權合規管理體系要求GB/T32914-2023信息安全技術網絡安全服務能力要求GB/T32916-2023信息安全技術信息安全控制評估指南GB/T35273-2020信息安全技術個人信息安全規范GB/T35770-2022合規管理體系要求GB/T41479-2022信息安全技術網絡數據處理安全要求GB/T41867-2022信息技術人工智能術語GB/T42018-2022信息技術人工智能平臺計算資源規范GB/T42574-2023信息安全技術個人信息處理中告知和同意的實施指南GB/T42755-2023人工智能面向機器學習的數據標注規程GB/T43269-2023信息安全技術網絡安全應急能力評估準則GB/T43557-2023信息安全技術網絡安全信息報送指南TC260-PG-20202A移動互聯網應用程序(App)收集使用個人信息自評估指南TC260-003生成式人工智能服務安全基本要求術語和定義3.1生成式人工智能generativeartificialintelligence(AIGC)具有文本、圖片、音頻、視頻等內容生成能力的人工智能模型及相關技術。3.2提供者provider以交互界面、可編程接口等形式面向我國境內公眾提供生成式人工智能服務的組織或個人。3.3個人信息personalinformation以電子或者其他方式記錄的與已識別或者可識別的自然人有關的各種信息,不包括匿名化處理后的信息。[來源:GB/T42574-2023,定義3.1]3.4敏感個人信息sensitivepersonalinformation一旦泄露或者非法使用,容易導致自然人的人格尊嚴受到侵害或者人身、財產安全受到危害的個人信息。注:敏感個人信息包括生物識別、宗教信仰、特定身份、醫療健康、金融賬戶、行蹤軌跡等信息,以及不滿14周歲未成年人的個人信息。[來源:GB/T42574-2023,定義3.2]3.5測試數據testdata用于評估最終機器學習模型性能的數據。注:測試數據與訓練數據無交集。[來源:GB/T41867-2022,定義3.2.3]3.6模型訓練modeltraining利用訓練數據,基于機器學習算法,確定或改進機器學習模型參數的過程。[來源:GB/T41867-2022,定義3.2.18]3.7數據標注dataannotation給數據樣本指定目標變量和賦值的過程給數據樣本指定目標變量和賦值的過程。[來源:GB/T41867-2022,定義3.2.29]3.8訓練數據trainingdata用于訓練機器學習模型的輸入數據子集。[來源:GB/T41867-2022,定義3.2.34]3.9告知notice使個人知曉其個人信息處理活動及其有關規則的行為。注:個人信息處理活動包括個人信息的收集、存儲、使用、加工、傳輸、提供、公開、刪除等。3.10同意consent個人對其個人信息進行處理自愿、明確作出授權的行為。注:包括通過積極的行為作出授權(即明示同意),或者通過個人的行為而推定其作出授權。[來源:GB/T35273-2020,3.7,有修改]3.11提供provision注:委托第三方處理個人信息的,不屬于向其他個人信息處理者提供個人信息的行為。3.12人工智能倫理原則ethicalprinciplesofartificialintelligence(人工智能)開展人工智能技術基礎研究和應用實踐時遵循的道德規范或準則。3.13模型公平性modelfairness指模型的預測結果不受到不相關因素的影響,例如性別、種族等。合規原則生成式人工智能數據應用應符合以下合規原則。數據收集合規要求合規性審查數據來源審查c)數據安全性;d)數據使用合規性。內容合法性審查(收集方式直接收集數據間接收集數據數據類別公開數據信息API接口中獲取數據,應遵守目標網站的網絡爬蟲排除協議(Robots協議)等聲明文件要求,避免采用破解密碼、偽造用戶代理(UserAgent)、設置代理網際協議地址(IP地址)等技術手段進行違規爬取。的服務授權聲明。個人數據信息收集個人信息的合法性要求對個人信息控制者的要求包括:不得欺詐、誘騙、強迫個人信息主體提供其個人信息;收集個人信息的最小必要性要求收集個人信息時的授權同意收集年滿14周歲未成年人的個人信息前,應征得未成年人或其監護人的明示同意;不滿14周歲的,應征得其監護人的明示同意;告知與同意的基本原則個人信息處理者在實施告知時需考慮以下基本原則。公開透明:公布處理個人信息的種類、目的、方式、安全措施等處理規則,不采取故意遮擋、隱藏等方式誘導個人略過告知內容;有效傳達:盡可能通過交互式界面、郵件、電話或短信等方式向相關個人進行告知;適時充分:在收集、提供、公開等個人信息處理活動發生之前或同時,對個人進行充分告知;真實明確:告知個人信息的處理種類、目的、方式等規則與實際情況一致,且需結合實際業務功能,不使用籠統、寬泛的表述;清晰易懂:告知文本符合個人的語言習慣,使用通用且無歧義的語言、數字、圖示等。個人信息處理者在取得個人同意時需考慮以下基本原則。告知一致:取得同意的范圍不超出所告知的內容;自主選擇:支持個人通過自行操作的方式作出同意,不使用默認勾選的方式取得同意;避免捆綁:區分產品或服務的業務功能,不采用捆綁方式強迫個人一次性同意多種業務功能可能收集的個人信息或多個處理活動,個人拒絕同意時,不影響與該個人信息無關的業務功能的正常使用。個人信息的展示限制(個人信息控制者宜對需展示的個知識產權保護獲取數據用于模型訓練的,應采取以下手段防止對他人知識產權的侵害。數據預處理合規要求數據預處理總體要求數據識別。分類分級。風險防控。審計追溯。網絡運營者應對數據處理的全生存周期進行記錄,確保數據處理可審計、可追溯。數據預處理安全技術要求通則收集應制定和公開個人信息保護政策并嚴格遵守,個人信息保護政策應符合GB/T35273-20205.5要求;收集個人信息前,應明示個人信息保護政策,并征得個人信息主體同意;存儲網絡運營者應對數據存儲活動采取安全措施,包括:GB/T35273-20206.3b)c)的要求及生物特使用網絡運營者在為用戶提供定向推送或信息合成服務時的要求如下。定向推送及信息合成:第三方應用管理:網絡運營者應對接入或嵌入其產品或服務的第三方應用加強數據安全管理,包括:應通過合同等形式,明確雙方的數據安全保護責任和義務;對審計發現超出雙方約定的行為及時停止接入。加工傳輸網絡運營者在應對數據傳輸活動采取安全措施,包括:提供向他人提供網絡運營者向他人提供數據前,應進行安全影響分析和風險評估,可能危害國家安全、公共安全、經濟安全和社會穩定的,不應向他人提供。要求如下:向他人提供個人信息,應向個人信息主體告知接收方的名稱、聯系方式、處理目的、處理方式個人信息的種類、存儲期限,并取得個人信息主體同意;數據出境:公開網絡運營者利用所掌握的數據資源,公開市場預測、統計等信息時,不應危害國家安全、公共安全、經濟安全和社會穩定。投訴、舉報受理處置3數據標注合規要求標注規則的制定標注規則應根據數據需求方對模型訓練的具體要求制定;標注規則應清晰、具體、全面、細化,對標注人員具有實際操作性;數據標注質量評估數據標注的全流程實施過程中應包含質量評估的環節,具體操作可依據GB/T42755-2023第6.2和第7.1條規定的流程與方法進行實踐。訓練數據預處理合規要求提高訓練數據質量訓練數據的真實性訓練數據的準確性訓練數據的客觀性訓練數據的多樣性訓練數據的安全性為確保訓練數據的安全性,應對訓練數據的來源進行安全評估和核驗。數據加密技術要求為確保重要數據和敏感個人信息在存儲和傳輸當中的安全性,應遵循以下要求。鑰長度,以提供足夠的安全性。模型訓練與測試合規要求模型訓練訓練步驟模型訓練應至少包括預訓練與優化訓練等兩重的訓練環節。預訓練優化訓練模型驗證模型測試制定全面完整嚴格的測試指標體系,以減少幻覺、有害偏見和違法內容的生成;引入人工方式或其他模型進行對抗測試,根據結果反饋實現對模型性能的改進優化;c)效性;d)測試數據的來源應獨立于訓練數據與驗證數據,且應按照同樣標準進行預處理;e)確保模型在經過嚴格測試并核驗完成之后才對公眾提供內容生成服務;f)數據備份與恢復內容生成服務合規要求使用者盡責義務的告知提供者應當與注冊使用其服務的使用者(下稱“使用者”)簽訂服務協議,在服務協議中明確告知使用者如下事項:生成式人工智能服務的基本特點與可能風險;生成內容的審核生成內容的標識提供者利用生成式人工智能技術向使用者提供文本、圖片、音頻、視頻等生成內容時,需依據TC260-PG-20233A第3章的規定,通過水印等方式對生成內容進行明確標識,標識信息至少應包含“由人工智能生成”或“由AI生成”等含義。在由自然人提供服務轉為由人工智能提供服務容易引起混淆時,應通過提示文字或提示語音的方式進行標識。生成內容的異議審查機制
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 重慶房屋買賣合同書
- 國內貨物運輸合同
- 借款不動產抵押擔保合同
- 外貿貨物進口合同
- 保安聘用勞動合同
- 工程設備租賃合同
- 家裝防水施工合同
- 第三方定制家具協議合同
- 租蔬菜攤位協議合同模板
- 掛靠地址合同協議
- 2025年上半年宣城市廣德縣人民法院招考書記員兼任法警易考易錯模擬試題(共500題)試卷后附參考答案
- 2025北京清華附中高三(下)統練一數學(教師版)
- 重慶市南開中學高2025屆高三第七次質量檢測化學試題及答案
- 2025屆云南省曲靖一中高三下學期第三次四校聯考歷史試題試卷含解析
- 華能霞浦核電限公司2025年上半年應屆畢業生招聘易考易錯模擬試題(共500題)試卷后附參考答案
- 醫院保安服務投標方案(技術方案)
- 2025春人教版歷史七年級下冊《第一單元 隋唐時期 繁榮與開放的時代》大單元整體教學設計2022課標
- 2025-2030中國孵化器行業市場發展前瞻及投資戰略研究報告
- 鉑耐藥復發性卵巢癌診治中國專家共識(2025年版)解讀
- 2025-2030中國保健品行業市場發展分析及投資前景預測研究報告
- 經皮球囊擴張椎體后凸成形術(PKP)及病例分享
評論
0/150
提交評論