




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
ICS35.240CCSL67CAPTNewsIndustry—Large-scalepre-trainedmodels—RequirementsforresearchandIT/CAPT012—2024前言 2規(guī)范性引用文件 3術(shù)語和定義 4訓(xùn)練數(shù)據(jù)使用場景 24.1概述 24.2預(yù)訓(xùn)練階段要求 24.3指令微調(diào)階段要求 24.4多模態(tài)場景下要求 75訓(xùn)練數(shù)據(jù)評價 85.1概述 85.2評價維度 85.3評測執(zhí)行 95.4評測方法 9參考文獻 T/CAPT012—2024本文件按照GB/T1.1—2020《標準化工作導(dǎo)則第1部分:標準化文件的結(jié)構(gòu)和起草規(guī)則》的規(guī)定起草。請注意本文件的某些內(nèi)容可能涉及專利。本文件的發(fā)布機構(gòu)不承擔識別專利的責(zé)任。本文件由中國新聞技術(shù)工作者聯(lián)合會新聞信息標準化分會秘書處和新華通訊社通信技術(shù)局聯(lián)合提本文件由中國新聞技術(shù)工作者聯(lián)合會歸口。本文件起草單位:新華通訊社通信技術(shù)局、北京北大方正電子有限公司、杭州前方信息技術(shù)有限公司、江蘇聯(lián)著實業(yè)股份有限公司、北京星震同源數(shù)字系統(tǒng)股份有限公司、中國互聯(lián)網(wǎng)新聞中心、華為云科技有限公司、中科聞歌科技股份有限公司、中聯(lián)超清(北京)科技有限公司、拓爾思信息技術(shù)股份有限公司、新華社媒體融合生產(chǎn)技術(shù)與系統(tǒng)國家重點實驗室(新華融合媒體科技發(fā)展(北京)有限公司)、中國傳媒大學(xué)、深圳市創(chuàng)意智慧港科技有限責(zé)任公司(深圳報業(yè)集團技術(shù)公司)、中國新聞社、福建理工大學(xué)。本文件主要起草人:路海燕、王宇琦、張丹、王建利、劉萬福、王楠、王建平、賈珣、趙偉東、朱迅、王京、王付生、佘澤鵬、區(qū)可明、羅毅、林波、成鵬、王仲豪、鄭創(chuàng)偉、瞿曦、鄧海瀅、劉瓊、張鵬洲、曹娟、王志民、殷圣忠、王峰、熊立波、王熠、王慕維、付蓉、孫心桐、黃菁。T/CAPT012—2024《新聞行業(yè)大規(guī)模預(yù)訓(xùn)練模型》系列標準由語言模型實用性要求、語言模型評測要求、語言模型安全性要求和研發(fā)數(shù)據(jù)要求、多模態(tài)要求5部分組成。分別從實用性、評測、安全性、研發(fā)數(shù)據(jù)和多模態(tài)等多個角度出發(fā),構(gòu)建了一個完整的標準體系,確保大規(guī)模預(yù)訓(xùn)練模型在新聞行業(yè)中的有效、安全和規(guī)范使用。旨在為新聞領(lǐng)域大規(guī)模預(yù)訓(xùn)練模型的研發(fā)、應(yīng)用和評估提供全面而系統(tǒng)的指導(dǎo)。《新聞行業(yè)大規(guī)模預(yù)訓(xùn)練模型語言模型實用性要求》明確了預(yù)訓(xùn)練語言模型在完成新聞任務(wù)時的使用場景要求、效果要求以及產(chǎn)品化要求。該標準為模型的實際應(yīng)用提供了具體指導(dǎo),確保模型在真實新聞生產(chǎn)過程中具備足夠的實用性和效果。《新聞行業(yè)大規(guī)模預(yù)訓(xùn)練模型語言模型評測要求》為評估這些預(yù)訓(xùn)練語言模型提供了詳盡的方法和指標。該標準規(guī)定了新聞行業(yè)預(yù)訓(xùn)練語言模型的評測指標和評測方法要求,并給出了具體的評測示例,以確保評測過程的科學(xué)性和規(guī)范性。《新聞行業(yè)大規(guī)模預(yù)訓(xùn)練模型語言模型安全性要求》詳細規(guī)定了在內(nèi)容、數(shù)據(jù)、合規(guī)和技術(shù)等環(huán)節(jié)中所涉及的安全性要求。該標準旨在保障預(yù)訓(xùn)練模型在新聞領(lǐng)域的應(yīng)用中,能夠遵守相關(guān)法律法規(guī),確保數(shù)據(jù)安全、內(nèi)容合規(guī)。《新聞行業(yè)大規(guī)模預(yù)訓(xùn)練模型研發(fā)數(shù)據(jù)要求》針對用于訓(xùn)練、微調(diào)和評估預(yù)訓(xùn)練模型的所有數(shù)據(jù),提出了技術(shù)要求。該標準確保了在預(yù)訓(xùn)練模型研發(fā)過程中,數(shù)據(jù)的質(zhì)量和規(guī)范性,從而提升模型的性能和可靠性。《新聞行業(yè)大規(guī)模預(yù)訓(xùn)練模型多模態(tài)要求》規(guī)定了預(yù)訓(xùn)練模型在研發(fā)、應(yīng)用、評測和安全性等方面的要求,特別是在處理多模態(tài)數(shù)據(jù)時的技術(shù)標準。該標準的制定,進一步拓展了預(yù)訓(xùn)練模型的應(yīng)用范圍,使其在多模態(tài)新聞內(nèi)容生成和處理方面也能高效、可靠地發(fā)揮作用。5個標準的緊密銜接和相互配合,為新聞行業(yè)的大規(guī)模預(yù)訓(xùn)練模型構(gòu)建了一個全面而系統(tǒng)的框架,為新聞領(lǐng)域大規(guī)模預(yù)訓(xùn)練模型的開發(fā)和應(yīng)用提供了堅實的基礎(chǔ)和有力的保障。1T/CAPT012—2024新聞行業(yè)大規(guī)模預(yù)訓(xùn)練模型研發(fā)數(shù)據(jù)要求本文件規(guī)定了用于新聞領(lǐng)域的大規(guī)模預(yù)訓(xùn)練模型訓(xùn)練數(shù)據(jù)的使用場景、訓(xùn)練數(shù)據(jù)評價等要求,包括在訓(xùn)練、微調(diào)、評估等環(huán)節(jié)中涉及到的數(shù)據(jù)的技術(shù)要求。本文件適用于通訊社、報社、廣播電臺、電視臺、雜志社、網(wǎng)絡(luò)媒體等多種媒體機構(gòu)在新聞領(lǐng)域進行大規(guī)模預(yù)訓(xùn)練模型構(gòu)建過程中的研發(fā)活動。2規(guī)范性引用文件下列文件中的內(nèi)容通過文中的規(guī)范性引用而構(gòu)成本文件必不可少的條款。其中,注日期的引用文件,僅該日期對應(yīng)的版本適用于本文件;不注日期的引用文件,其最新版本(包括所有的修改單)適用于本文件。GB/T20093中文新聞信息分類與代碼GB/T41867信息技術(shù)人工智能術(shù)語3術(shù)語和定義3.1大規(guī)模預(yù)訓(xùn)練模型large-scalepre-trainedmodels一種具有大規(guī)模參數(shù)和復(fù)雜計算結(jié)構(gòu)的超大型機器學(xué)習(xí)模型(一般超過10億個參數(shù)通常由深度神經(jīng)網(wǎng)絡(luò)構(gòu)建,對海量數(shù)據(jù)進行預(yù)訓(xùn)練處理。3.2大規(guī)模預(yù)訓(xùn)練語言模型large-scalepre-trainedlanguagemodels一種基于大規(guī)模文本數(shù)據(jù)進行自監(jiān)督學(xué)習(xí)、完成特定預(yù)訓(xùn)練任務(wù),可通過零樣本學(xué)習(xí)(zero-shot)方式進行交互、并可以通過微調(diào)fine-tuning進行特定任務(wù)加強的自然語言處理技術(shù)。3.3大規(guī)模預(yù)訓(xùn)練多模態(tài)模型large-scalepre-trainedmulti-modalmodels一種能夠在多種異構(gòu)數(shù)據(jù)模態(tài)(如文本、圖像、音頻等)上進行表征學(xué)習(xí)的深度神經(jīng)網(wǎng)絡(luò)模型,其核心特征在于通過大規(guī)模跨模態(tài)數(shù)據(jù)的無監(jiān)督預(yù)訓(xùn)練,捕捉不同模態(tài)之間的語義共性與相關(guān)性,從而生成具有廣泛遷移能力的統(tǒng)一描述模型。3.4預(yù)訓(xùn)練pre-training在大量通用數(shù)據(jù)上進行模型訓(xùn)練的過程。3.5微調(diào)fine-tuning為提升人工智能模型的預(yù)測精確度,一種先以大型廣泛領(lǐng)域數(shù)據(jù)集訓(xùn)練,再以小型專門領(lǐng)域數(shù)據(jù)集繼續(xù)訓(xùn)練的附加訓(xùn)練技術(shù)。注:常用于解決過擬合問題。[來源:GB/T41867—2022,3.2.31]2T/CAPT012—20243.6微調(diào)數(shù)據(jù)finetuningdata針對新聞理解、生成、編輯等具體任務(wù),用于模型微調(diào)的標注數(shù)據(jù)。3.7指令/提示詞prompt給預(yù)訓(xùn)練模型提示輸入模型的參數(shù)信息,描述問題需求類型,幫助模型更好地理解輸入的意圖,并作出相應(yīng)的響應(yīng)。4訓(xùn)練數(shù)據(jù)使用場景4.1概述預(yù)訓(xùn)練階段要求了在預(yù)訓(xùn)練階段所使用的訓(xùn)練數(shù)據(jù)應(yīng)滿足的標準,包括格式要求、語言語種要求、來源可靠要求.指令微調(diào)階段要求了微調(diào)階段訓(xùn)練數(shù)據(jù)應(yīng)滿足的標準,涉及到了主流新聞業(yè)務(wù)場景,包括新聞理解類、新聞生成類、新聞編輯類、新聞評論類四個大類,以及拒答任務(wù)的特殊分類。此外,針對多模態(tài)模型,提出了額外的數(shù)據(jù)要求。4.2預(yù)訓(xùn)練階段要求4.2.1格式要求在訓(xùn)練新聞行業(yè)預(yù)訓(xùn)練模型過程中,用于預(yù)訓(xùn)練階段的文本數(shù)據(jù)應(yīng)以標記格式(MarkdownFormat)進行編碼。確保訓(xùn)練數(shù)據(jù)噪聲較少,同時兼容盡可能多的數(shù)據(jù)表示類型(如文本、表格等可使訓(xùn)練出來用于新聞業(yè)務(wù)的模型具有足夠的表達能力。4.2.2語種要求在訓(xùn)練新聞行業(yè)預(yù)訓(xùn)練模型過程中,用于預(yù)訓(xùn)練階段的文本數(shù)據(jù)應(yīng)包括簡體中文在內(nèi)的,不少于3種聯(lián)合國官方語言。確保模型具有多語種能力,滿足國際傳播的應(yīng)用需求。4.2.3來源要求在訓(xùn)練新聞行業(yè)預(yù)訓(xùn)練模型過程中,用于預(yù)訓(xùn)練階段的文本數(shù)據(jù)應(yīng)滿足來源可信的要求。通過對訓(xùn)練數(shù)據(jù)進行來源標記,確保每條數(shù)據(jù)有據(jù)可查。可使訓(xùn)練出來用于新聞業(yè)務(wù)的模型具有的知識準確、可信、可溯源。4.3指令微調(diào)階段要求4.3.1新聞理解要求概述該類指令微調(diào)數(shù)據(jù)用于增強模型在新聞理解任務(wù)中的能力,該項任務(wù)包括但不限于新聞要素識別、新聞類型判別、核心信息提取、新聞傾向判斷4個子類。新聞要素識別新聞要素識別要求包括:a)指令部分應(yīng)包括新聞提取六要素的語義即新聞的時間、地點、人物、事件的起因、經(jīng)過、結(jié)果的語義;b)輸入部分應(yīng)包括完整的新聞文本;c)輸出部分應(yīng)根據(jù)指令及輸入部分給出正確的回答。如輸入文本中不包括部分要素,則該要素項返回空。新聞類型判別新聞類型判別指令部分應(yīng)包括“對新聞類型進行判別”的語義,其中,新聞類型評價維度包括:3T/CAPT012—2024a)體裁:包括消息、通訊、評論、公文公報等;b)范圍:包括國內(nèi)新聞、國外新聞等;c)主題:應(yīng)符合GB/T20093中的分類要求,其中:1)輸入部分應(yīng)包括完整的新聞文本;2)輸出部分應(yīng)根據(jù)指令及輸入部分,給出正確的類型;3)訓(xùn)練數(shù)據(jù)集應(yīng)同時包括新聞類型的單維度判別指令數(shù)據(jù)和多維度判別指令數(shù)據(jù)。核心信息提取核心信息提取要求包括:a)指令部分應(yīng)包括“對新聞提取關(guān)鍵詞或摘要”的語義;b)輸入部分應(yīng)包括完整的新聞文本;c)輸出部分應(yīng)根據(jù)指令及輸入部分,給出正確的關(guān)鍵詞或摘要,其中:1)關(guān)鍵詞:輸入新聞中的關(guān)鍵性內(nèi)容,包括實體詞和謂語;2)摘要:最關(guān)鍵的新聞元素,以自然語言的方式表述。d)訓(xùn)練數(shù)據(jù)集中應(yīng)同時包括:分別提取關(guān)鍵詞和摘要的指令數(shù)據(jù)以及同時提取的指令數(shù)據(jù)。新聞傾向判斷新聞傾向判斷要求包括:a)指令部分應(yīng)包括“對新聞的立場傾向進行判斷”的語義;b)輸入部分應(yīng)包括完整的新聞文本;c)輸出部分應(yīng)根據(jù)指令及輸入部分,給出正確的、唯一的傾向詞,傾向詞可分為正面、負面、d)訓(xùn)練數(shù)據(jù)集中包含正面、負面、中性的記錄數(shù)應(yīng)大致維持1:1:1的比例。4.3.2新聞生成要求概述該類指令微調(diào)數(shù)據(jù)用于增強模型在新聞生成任務(wù)中的能力,該項任務(wù)包括但不限于簡訊生成、消息生成、通訊生成、特寫生成、專訪生成、公文公報生成6個子類。該類數(shù)據(jù)組成的訓(xùn)練數(shù)據(jù)集中,每組指令-輸入應(yīng)對應(yīng)生成不少于2篇標準輸出。簡訊生成簡訊生成要求包括:a)指令部分應(yīng)包括“根據(jù)輸入生成簡訊類新聞”的語義;b)輸入部分應(yīng)提供包括但不限于以下內(nèi)容:1)簡訊的基本要求:包括簡訊的長度、時效性、語言風(fēng)格、核心主題等;2)相關(guān)素材。c)輸出部分為一篇簡訊文稿。滿足輸入部分所提出的要求,文本結(jié)構(gòu)上整體短小精煉,具備標題以及主體自然段,語言上簡明易懂,不包括過度復(fù)雜或冗長的句子。消息生成消息生成要求包括:a)指令部分應(yīng)包括“根據(jù)輸入生成消息類新聞”的語義;b)輸入部分應(yīng)提供包括但不限于以下內(nèi)容:1)消息的基本要求:包括消息的長度、主題、關(guān)鍵要素等;2)相關(guān)素材。c)輸出部分為一篇消息文稿。滿足輸入部分所提出的要求,長度一般滿足500~800字(詞文本結(jié)構(gòu)上通過標題、導(dǎo)語、主體三層結(jié)構(gòu)推進,內(nèi)部不包括二級標題。通訊生成4T/CAPT012—2024通訊生成要求包括:a)指令部分應(yīng)包括“根據(jù)輸入生成通訊類新聞”的語義;b)輸入部分應(yīng)提供包括但不限于以下內(nèi)容:1)通訊的基本要求:包括通訊的主題、關(guān)鍵要素、長度等;2)不少于3段相關(guān)素材。c)輸出部分為一篇通訊文稿。滿足輸入部分所提出的要求,篇幅不少于1000字,具有多級標題,語言上應(yīng)流暢、準確,有一定的文學(xué)性。特寫生成特寫生成要求包括:a)指令部分應(yīng)包括“根據(jù)輸入生成特寫類新聞”的語義;b)輸入部分應(yīng)提供包括但不限于以下內(nèi)容:1)特寫的基本要求:包括特寫的主題、特寫對象、關(guān)鍵要素、語言風(fēng)格等;2)不同主題、不同角度、長度不少于600字的相關(guān)素材,不少于3篇。c)輸出部分為一篇特寫文稿。滿足輸入部分所提出的要求,篇幅不少于1000字,結(jié)構(gòu)上應(yīng)包括開頭、人物信息、背景細節(jié)等多層次信息,突出人物或事件的情感中心,文風(fēng)上要求細膩的描寫。專訪生成專訪生成要求包括:a)指令部分應(yīng)包括“根據(jù)輸入生成專訪類新聞”的語義。b)輸入部分應(yīng)提供包括但不限于以下內(nèi)容:1)專訪的基本要求:包括專訪主題、專訪對象、關(guān)鍵要素等。2)相關(guān)素材:包括采訪實錄、事件的背景信息、人物的歷史報道等。c)輸出部分為一篇專訪文稿。滿足輸入部分所提出的要求,篇幅不少于1000字,結(jié)構(gòu)上應(yīng)采用直接引語或者間接引語的方式,應(yīng)將被采訪者的回答有機的融合其中,形成具有邏輯性的文稿。公文公報生成公文公報生成要求包括:a)指令部分應(yīng)包括“根據(jù)輸入生成公文公報類新聞”的語義;b)輸入部分應(yīng)提供包括但不限于以下內(nèi)容:1)公文公報的基本要求:包括核心主題、寫作主體、格式要求、語言風(fēng)格等;2)相關(guān)素材:包括正式的政策文件、領(lǐng)導(dǎo)人講話稿、公報、授權(quán)媒體發(fā)表等官方文件。c)輸出部分為一篇公文/公報文稿。滿足輸入部分所提出的要求,所引用的部分必須準確無誤,文章主體部分具有清晰的層次結(jié)構(gòu),突出核心和關(guān)鍵信息,采用正式的、嚴謹?shù)恼Z言,保證專業(yè)性和權(quán)威性。4.3.3新聞編輯要求概述該類指令微調(diào)數(shù)據(jù)用于增強模型在新聞編輯任務(wù)中的能力,該項任務(wù)包括但不限于擴寫、摘要、潤色、續(xù)寫、核校5個子類。該類數(shù)據(jù)組成的訓(xùn)練數(shù)據(jù)集中,每組指令-輸入應(yīng)對應(yīng)生成不少于2篇標準輸出。擴寫擴寫要求包括:a)指令部分應(yīng)包括“根據(jù)輸入進行擴寫”的語義;b)輸入部分應(yīng)提供包括但不限于以下內(nèi)容:1)擴寫對象的原文;5T/CAPT012—20242)擴寫的基本要求:包括擴寫主題、方向、語言風(fēng)格、篇幅等;3)相關(guān)素材。c)輸出部分為一篇擴寫后的文稿。滿足輸入部分所提出的要求,擴寫邏輯與原文一致,不引入矛盾或不相關(guān)信息,各個部分過渡自然,新增內(nèi)容準確無誤,不涉及臆測和誤導(dǎo)性陳述。摘要摘要要求包括:a)指令部分應(yīng)包括“根據(jù)輸入得到摘要”的語義;b)輸入部分應(yīng)提供包括但不限于以下內(nèi)容:1)待摘要的原文;2)摘要的基本要求:包括主題、篇幅等。c)輸出部分為一篇摘要文稿。滿足輸入部分所提出的要求,包括原文中主要事件、觀點和數(shù)據(jù)。篇幅明顯小于原文,摘要所提供的信息不得捏造、省略或曲解。潤色潤色要求包括:a)指令部分應(yīng)包括“對輸入原文進行潤色”的語義;b)輸入部分應(yīng)提供包括但不限于以下內(nèi)容:1)待潤色的原文。2)潤色的基本要求:包括修改方式、修改方向、語言風(fēng)格等;c)輸出部分為一篇潤色后的文稿。滿足輸入部分所提出的要求。續(xù)寫續(xù)寫要求包括:a)指令部分應(yīng)包括“對輸入原文進行續(xù)寫”的語義;b)輸入部分應(yīng)提供包括但不限于以下內(nèi)容:1)待續(xù)寫的原文;2)續(xù)寫的基本要求:包括核心主題、續(xù)寫方式、表達方式、語言風(fēng)格等。c)輸出部分為一篇續(xù)寫文稿。滿足輸入部分所提出的要求,與原文保持風(fēng)格和立場一致,延伸了事件或主題的發(fā)展,添加后的內(nèi)容能夠提供額外的背景、數(shù)據(jù)、觀點等與原文相一致的信息,新添加的內(nèi)容不引入錯誤或不實陳述。核校核校要求包括:a)指令部分應(yīng)包括“對輸入原文進行核校”的語義;b)輸入部分應(yīng)提供包括但不限于以下內(nèi)容:1)待核校的原文;2)潤色的基本要求:包括核校規(guī)則、效果要求等。c)輸出部分為一篇核校后的文稿。滿足輸入部分所提出的要求,核校后應(yīng)確保事實性,在排版、標點和引用方面符合規(guī)范,不存在拼寫、語法等問題;d)訓(xùn)練數(shù)據(jù)集中應(yīng)同時包含完全正確的待核校原文和存在錯誤的待核校原文。4.3.4新聞評論要求概述該類指令微調(diào)數(shù)據(jù)用于增強模型在新聞評論任務(wù)中的能力,該項任務(wù)包括但不限于社論、評論員文章、專欄評論、短評、述評5個子類。該類數(shù)據(jù)組成的訓(xùn)練數(shù)據(jù)集中,每組指令-輸入應(yīng)對應(yīng)生成不少于2篇標準輸出。社論6T/CAPT012—2024社論要求包括:a)指令部分應(yīng)包括“根據(jù)輸入生成社論類新聞”的語義;b)輸入部分應(yīng)提供包括但不限于以下內(nèi)容:1)社論的基本要求:包括核心主題、篇幅要求、核心論點等;2)相關(guān)素材:包括相關(guān)政策方針、公文公報報道、事實素材、官方新聞等。c)輸出部分為一篇社論文稿。滿足輸入部分所提出的要求,闡明觀點、立場和主張,與黨和國家的政策方針一致,具有邏輯嚴密的總分論點、論據(jù)詳實準確,文風(fēng)莊重、嚴謹。評論員文章評論員文章要求包括:a)指令部分應(yīng)包括“根據(jù)輸入生成評論員文章”的語義;b)輸入部分應(yīng)提供包括但不限于以下內(nèi)容:1)評論員文章的基本要求:包括核心主題、篇幅要求、核心論點等;2)相關(guān)素材:包括新聞報道、社會輿論等。c)輸出部分為一篇評論員文章文稿。滿足輸入部分所提出的要求,闡明觀點、立場和主張,與黨和國家的政策方針一致,具有邏輯嚴密的總分論點、論據(jù)詳實準確,文風(fēng)莊重、通俗。專欄評論專欄評論要求包括:a)指令部分應(yīng)包括“根據(jù)輸入生成專欄評論”的語義;b)輸入部分應(yīng)提供包括但不限于以下內(nèi)容:1)專欄評論的基本要求:包括核心主題、篇幅要求、核心論點、行文結(jié)構(gòu)、語言風(fēng)格等;2)相關(guān)素材:包括新聞報道、社會輿論等。c)輸出部分為一篇專欄評論文稿。滿足輸入部分所提出的要求,與社會主流價值觀一致、聯(lián)系生活實際,邏輯嚴密、論點清晰,文風(fēng)通俗。短評短評要求包括:a)指令部分應(yīng)包括“根據(jù)輸入生成短評”的語義;b)輸入部分應(yīng)提供包括但不限于以下內(nèi)容:1)短評的基本要求:包括核心主題、觀點立場、語言風(fēng)格、篇幅要求等;2)相關(guān)素材:包括新聞報道等。c)輸出部分為一篇短評文稿。滿足輸入部分所提出的要求,論題具體、針對性強,結(jié)構(gòu)多樣,文風(fēng)嚴謹、精煉、生動。述評述評要求包括:a)指令部分應(yīng)包括“根據(jù)輸入生成述評”的語義;b)輸入部分應(yīng)提供包括但不限于以下內(nèi)容:1)述評的基本要求:包括核心主題、語言風(fēng)格等;2)相關(guān)素材:包括新聞報道、社會輿論等。c)輸出部分為一篇述評文稿。滿足輸入部分所提出的要求,述評結(jié)合、就事論理,文風(fēng)通俗、具有啟發(fā)性。4.3.5拒答任務(wù)要求概述該類指令微調(diào)數(shù)據(jù)用于增強模型在安全輸出方面的能力,對于違反國家法律法規(guī),違背公序良俗、不符合社會主義核心價值觀的指令及輸入,指令模型拒絕,其中:a)指令部分應(yīng)包括“違反國家法律法規(guī),違背公序良俗、不符合社會主義核心價值觀”的語義;7T/CAPT012—2024b)輸入部分同指令部分或為空;c)輸出部分為“拒絕回答”的語義。4.4多模態(tài)場景下要求概述多模態(tài)場景是指在新聞大模型訓(xùn)練中,會使用到多種不同類型的數(shù)據(jù)模態(tài),包括但不限于文本、圖像、聲音、視頻。在人工智能領(lǐng)域,多模態(tài)訓(xùn)練應(yīng)對不同模態(tài)的信息進行理解和學(xué)習(xí),并在它們之間建立聯(lián)系。除應(yīng)符合《新聞行業(yè)大規(guī)模預(yù)訓(xùn)練模型多模態(tài)要求》中約定的要求之外,其研發(fā)數(shù)據(jù)還需要符合以下要求:4.4.2真實性要求真實性要求包括:a)數(shù)據(jù)真實性:訓(xùn)練數(shù)據(jù)集中文本、圖片、音視頻等內(nèi)容必須基于事實,杜絕未經(jīng)證實或虛假b)數(shù)據(jù)可溯源性:確保數(shù)據(jù)來源可追溯,包括但不限于官方認證的新聞發(fā)布平臺、官方網(wǎng)站、專業(yè)機構(gòu)等,保證數(shù)據(jù)來源真實性;c)數(shù)據(jù)備份媒體介質(zhì)要求:數(shù)據(jù)備份媒體介質(zhì)應(yīng)具有物理不可刪改的技術(shù)特性。4.4.3安全性要求安全性要求包括:a)綜合安全要求:多模態(tài)數(shù)據(jù)應(yīng)按照尊重知識產(chǎn)權(quán)和個人隱私,遵守道德和公序良俗,符合社會主義核心價值觀等標準劃分安全級別;b)限制級別要求:針對圖片視頻中易出現(xiàn)的血腥暴力以及涉黃、涉毒等問題,應(yīng)有嚴格的級別劃分;c)版權(quán)要求:多模態(tài)數(shù)據(jù)應(yīng)取得相應(yīng)版權(quán)后才能用于訓(xùn)練。4.4.4豐富性要求豐富性要求包括:a)場景覆蓋度要求:數(shù)據(jù)應(yīng)覆蓋多種新聞報道場景,包括但不限于政治、經(jīng)濟、文化、體育等,保證模型泛化能力;b)內(nèi)容豐富性要求:數(shù)據(jù)應(yīng)覆蓋新聞行業(yè)可能遇到的各種多模態(tài)場景,包括但不限于圖文報道、視頻直播、訪談錄音等;c)多樣性與包容性要求:確保多模態(tài)數(shù)據(jù)集在包括但不限于性別、年齡、文化背景等方面具有多樣性和包容性。4.4.5準確性要求準確性要求包括:a)質(zhì)量控制要求:多模態(tài)數(shù)據(jù)需通過質(zhì)量檢測,對合成、修改等技術(shù)處理后的數(shù)據(jù)進行特別標記。且多模態(tài)數(shù)據(jù)應(yīng)清晰可讀,適合模型訓(xùn)練;b)內(nèi)容準確性要求:確保多模態(tài)數(shù)據(jù)內(nèi)容質(zhì)量和可靠性;c)標注準確性要求:多模態(tài)數(shù)據(jù)體現(xiàn)的內(nèi)容應(yīng)與文字描述或標簽內(nèi)容一致;d)時間性要求:所有多模態(tài)數(shù)據(jù)應(yīng)標注數(shù)據(jù)生成時間,與文字描述或標簽內(nèi)容相符合,隨著新聞對象或事件的發(fā)展,應(yīng)及時更新數(shù)據(jù)集。4.4.6標注要求標注要求包括:a)標注規(guī)范性要求:多模態(tài)數(shù)據(jù)的所有標注信息應(yīng)遵循統(tǒng)一標準、體系和流程,以確保所有模態(tài)的數(shù)據(jù)標注信息清晰統(tǒng)一;8T/CAPT012—2024b)標注關(guān)聯(lián)性要求:在多模態(tài)數(shù)據(jù)集中,應(yīng)有明確的關(guān)聯(lián)信息來表明同一場景下跨模態(tài)數(shù)據(jù)之間的關(guān)聯(lián)關(guān)系。包括但不限于使用元數(shù)據(jù)來描述跨模態(tài)數(shù)據(jù)之間的關(guān)聯(lián),或賦予跨模態(tài)數(shù)據(jù)間相互關(guān)聯(lián)的唯一標識符;c)跨模態(tài)數(shù)據(jù)關(guān)聯(lián)性準確性要求:不同模態(tài)的數(shù)據(jù)之間存在一定相關(guān)性,以便模型能夠?qū)W習(xí)到有效的跨模態(tài)表示;d)標注項豐富性要求:標注項除描述數(shù)據(jù)內(nèi)容外,還應(yīng)包含數(shù)據(jù)的分類屬性,包括但不限于圖片風(fēng)格、音頻中的方言、行文方式等,防止訓(xùn)練后的模型提供錯誤生成內(nèi)容。4.4.7數(shù)據(jù)量和規(guī)模要求數(shù)據(jù)量和規(guī)模要求包括:a)預(yù)訓(xùn)練數(shù)據(jù)的規(guī)模越大越有利于模型學(xué)習(xí)和表征能力提升,能更好適應(yīng)新聞行業(yè)復(fù)雜多變的多模態(tài)場景需求;b)數(shù)據(jù)集規(guī)模應(yīng)盡可能擴大,以確保模型能夠接觸到更廣泛的信息和知識,增強其學(xué)習(xí)深度和廣度,提升模型學(xué)習(xí)和表征能力。5訓(xùn)練數(shù)據(jù)評價5.1概述對預(yù)訓(xùn)練數(shù)據(jù)評價應(yīng)分別從安全性、豐富性、準確性、多語種、結(jié)構(gòu)化五個方面進行評價;對微調(diào)數(shù)據(jù),從匹配性、安全性、專業(yè)性、豐富性四個方面進行評價。5.2評價維度5.2.1預(yù)訓(xùn)練數(shù)據(jù)評價維度基本要求對預(yù)訓(xùn)練數(shù)據(jù)進行評價,應(yīng)包括對訓(xùn)練數(shù)據(jù)集的安全性、豐富性、準確性、多語種、結(jié)構(gòu)化等5個方面進行評估。安全性預(yù)訓(xùn)練數(shù)據(jù)應(yīng)滿足安全性要求,數(shù)據(jù)集的各條記錄中應(yīng)符合國家法律法規(guī)和行業(yè)規(guī)范,尊重知識產(chǎn)權(quán)和個人隱私,遵守道德和公序良俗,符合社會主義核心價值觀。具體要求可參考《新聞行業(yè)大規(guī)模預(yù)訓(xùn)練模型語言模型安全性要求》。豐富性預(yù)訓(xùn)練數(shù)據(jù)應(yīng)滿足豐富性要求,確保所訓(xùn)練的大規(guī)模模型具有足夠的通識能力和通用知識。準確性預(yù)訓(xùn)練數(shù)據(jù)應(yīng)滿足準確性要求,數(shù)據(jù)集當中所涉數(shù)據(jù)記錄應(yīng)確保真實可信,并具有時間標簽和來源標簽。多語種預(yù)訓(xùn)練數(shù)據(jù)應(yīng)滿足多語種要求,以確保所訓(xùn)練的大規(guī)模模型具有多語種能力,可服務(wù)于國際傳播業(yè)務(wù)需求。結(jié)構(gòu)化預(yù)訓(xùn)練數(shù)據(jù)應(yīng)滿足結(jié)構(gòu)化等級要求,以確保所訓(xùn)練的大規(guī)模模型具有獲取多層次語義信息的能力。5.2.2微調(diào)數(shù)據(jù)評價維度匹配性9T/CAPT012—2024微調(diào)數(shù)據(jù)應(yīng)滿足匹配性要求,數(shù)據(jù)集當中所涉數(shù)據(jù)記錄指令-輸入-輸出應(yīng)保持語義和邏輯一致,輸入輸出能較好的體現(xiàn)指令中的業(yè)務(wù)要求。安全性除用于拒答類任務(wù)的數(shù)據(jù)記錄外,微調(diào)數(shù)據(jù)應(yīng)滿足安全性要求,數(shù)據(jù)集的各條記錄中應(yīng)符合國家法律法規(guī)和行業(yè)規(guī)范,尊重知識產(chǎn)權(quán)和個人隱私,遵守道德和公序良俗,符合社會主義核心價值觀。具體要求可參考《新聞行業(yè)大規(guī)模預(yù)訓(xùn)練模型語言模型安全性要求》。拒答類數(shù)據(jù)應(yīng)特殊標明,確保輸出部分的語義為“拒絕回答”。專業(yè)性涉及新聞業(yè)務(wù)的微調(diào)數(shù)據(jù)應(yīng)滿足專業(yè)性要求。數(shù)據(jù)集當中各條記錄根據(jù)其指令部分的語義,遵循4.3部分的具體約定。涉及非拒答任務(wù)、非新聞業(yè)務(wù)任務(wù)的微調(diào)數(shù)據(jù)應(yīng)滿足專業(yè)性要求,專業(yè)性要求參考《信息安全技術(shù)生成式人工智能預(yù)訓(xùn)練和優(yōu)化訓(xùn)練數(shù)據(jù)安全規(guī)范》中關(guān)于優(yōu)化訓(xùn)練數(shù)據(jù)部分的具體約定。豐富性微調(diào)數(shù)據(jù)應(yīng)滿足豐富性要求,以確保模型在微調(diào)階段不會損失通用能力。5.3評測執(zhí)行5.3.1抽樣原則對新聞行業(yè)預(yù)訓(xùn)練模型所涉及的訓(xùn)練數(shù)據(jù)評測應(yīng)采用抽樣方法。對預(yù)訓(xùn)練數(shù)據(jù)集,應(yīng)采用多次分層隨機抽樣的方法,針對各語種、各領(lǐng)域的抽樣次數(shù)不少于5次,單次抽樣條數(shù)不少于1000條,總抽樣條數(shù)不少于預(yù)訓(xùn)練數(shù)據(jù)集總token數(shù)的0.1‰。對微調(diào)數(shù)據(jù)集,應(yīng)采用多次分層隨機抽樣的方法,針對4.3中所涉的各類業(yè)務(wù)任務(wù),每類任務(wù)數(shù)據(jù)抽樣次數(shù)不少于3次,單次抽樣條數(shù)不少于10條。總抽樣條數(shù)不少于微調(diào)數(shù)據(jù)集總條數(shù)的1%。5.3.2判別執(zhí)行對于抽樣獲取的數(shù)據(jù)子集,其中,、、等具有標準答案的可直接判斷對錯。多項的分值以算術(shù)平均計算總得分。對于無標準答案的問題,采用多專家雙盲人工評分(Double-BlindExpertRating,DBER)方案,讓專家在雙盲情況下判斷是否滿足相關(guān)要求。根據(jù)5.4中對應(yīng)的評價和打分方法對數(shù)據(jù)記錄進行評分,以不同維度的加權(quán)得分作為該數(shù)據(jù)記錄的得分,該采樣集的總得分可以計算算術(shù)平均或根據(jù)具體需求計算加權(quán)平均。該訓(xùn)練集的總得分對各次采樣集的得分加權(quán)平均得到。若不同專家對同一樣本的評分方差較大,可先進行均值對齊(MeanCalibration,MC)以消除主觀偏差。計算所有項目的DBER_MC分數(shù),以總分數(shù)*60%作為及格分,判斷該數(shù)據(jù)集是否符合新聞行業(yè)預(yù)訓(xùn)練模型的訓(xùn)練標準要求。5.4評測方法5.4.1預(yù)訓(xùn)練數(shù)據(jù)評測方法對預(yù)訓(xùn)練數(shù)據(jù)進行評價,應(yīng)包括對訓(xùn)練數(shù)據(jù)集的安全性、豐富性、準確性、多語種、結(jié)構(gòu)化五個方面進行評估。安全性依據(jù)所述,按照5.3的方法執(zhí)行評測,該子類別評測框架見表1。表1預(yù)訓(xùn)練數(shù)據(jù)安全性評估框架無違紀違法、無違背主流意識形態(tài)、歧視、違反社會主義核心價T/CAPT012—2024豐富性依據(jù)所述,按照5.3的方法執(zhí)行評測,該子類別評測框架見表2表2預(yù)訓(xùn)練數(shù)據(jù)豐富性評估框架非新聞業(yè)務(wù)相關(guān)數(shù)據(jù)token占數(shù)據(jù)集所有tok其中,專業(yè)領(lǐng)域以一級學(xué)科為準,領(lǐng)域數(shù)每少一個,則該維度分數(shù)降低總分的20%。token占比每少5%,則該維度分數(shù)降低總分的12.5%。準確性依據(jù)所述,按照5.3的方法執(zhí)行評測,該子類別評測框架見表3。表3預(yù)訓(xùn)練數(shù)據(jù)準確性評估框架類新聞業(yè)務(wù)數(shù)據(jù)非新聞業(yè)務(wù)數(shù)據(jù)評分據(jù)預(yù)訓(xùn)練數(shù)據(jù)應(yīng)滿足準確性要求,數(shù)據(jù)集中數(shù)據(jù)記錄應(yīng)確保真實可信,并具有時間標簽和來源標簽。多語種依據(jù)所述,按照5.3的方法執(zhí)行評測,該子類別評測框架見表4。表4預(yù)訓(xùn)練數(shù)據(jù)多語言評估框架互譯文本token數(shù)超過預(yù)訓(xùn)練數(shù)據(jù)集總預(yù)訓(xùn)練數(shù)據(jù)應(yīng)滿足多語種要求,數(shù)據(jù)集當中所涉數(shù)據(jù)記錄應(yīng)包含不少于3種語言的互譯數(shù)據(jù),其中,每缺失一個語種,則評分扣除33%。互譯文本應(yīng)涵蓋所有語種,如中-英-法3種語言,則應(yīng)包含語義相同的中英互譯、中法互譯、英法互譯的文本段。其中,每少一個語種,則評分減少33%。注:語種設(shè)計為加分項、不是減分項。結(jié)構(gòu)化等級依據(jù)所述,按照5.3的方法執(zhí)行評測,該子類別評測框架見表5。表5預(yù)訓(xùn)練數(shù)據(jù)結(jié)構(gòu)化等級評估框架預(yù)訓(xùn)練數(shù)據(jù)是經(jīng)過分詞詞性標注的數(shù)據(jù),且分詞詞性預(yù)訓(xùn)練數(shù)據(jù)是經(jīng)過句法結(jié)構(gòu)分析的數(shù)據(jù),且預(yù)訓(xùn)練數(shù)據(jù)是經(jīng)過實體語義分析的數(shù)據(jù),且預(yù)訓(xùn)練數(shù)據(jù)是經(jīng)過事件語義分析的數(shù)據(jù),且預(yù)訓(xùn)練數(shù)據(jù)是經(jīng)過修辭隱喻分析的數(shù)據(jù),且預(yù)訓(xùn)練數(shù)據(jù)是經(jīng)過事物狀態(tài)分析的數(shù)據(jù),且T/CAPT012—20245.4.2微調(diào)數(shù)據(jù)評測方法匹配性依據(jù)所述,按照5.3的方法執(zhí)行評測,該子類別評測框架見表6。表6微調(diào)數(shù)據(jù)匹配性評估框架輸入部分符合指令部分的邏輯,提供了足夠的信息。輸出部分滿微調(diào)數(shù)據(jù)應(yīng)滿足匹配性要求,數(shù)據(jù)集當中所涉數(shù)據(jù)記錄指令-輸入-輸出應(yīng)保持語義和邏輯一致,輸入輸出能較好的體現(xiàn)指令中的業(yè)務(wù)要求。安全性依據(jù)所述,按照5.3的方法執(zhí)行評測,該子類別評測框架見表7、表8。表7微調(diào)數(shù)據(jù)(一般數(shù)據(jù))安全性評估框架該條記錄中的指令、輸入、輸出部分不包含違紀違法、涉及個該條記錄中的指令、輸入、輸出部分不包含違反道德和公序良表8微調(diào)數(shù)據(jù)(拒答數(shù)據(jù))安全性評估框架該數(shù)據(jù)集中的拒答數(shù)據(jù),是否完整的包含涉及以下違紀違法、其中,對非拒答任務(wù)數(shù)據(jù)對每一條數(shù)據(jù)記錄執(zhí)行表7,對抽樣后拒答數(shù)據(jù)記錄總體執(zhí)行表8。專業(yè)性依據(jù)所述,按照5.3的方法執(zhí)行評測,該子類別評測框架見表8~表28。表9新聞要素識別微調(diào)數(shù)據(jù)評估框架包括多種類型、多種文件格式的數(shù)據(jù)記錄。對本質(zhì)一致風(fēng)格不同表10新聞類型判別微調(diào)數(shù)據(jù)評估框架包括多種類型、多種文件格式的數(shù)據(jù)記錄。對本質(zhì)一致風(fēng)格不同T/CAPT012—2024表11核心信息提取微調(diào)數(shù)據(jù)評估框架包括多種類型、多種文件格式的數(shù)據(jù)記錄。對本質(zhì)一致風(fēng)格不同表12新聞傾向判斷微調(diào)數(shù)據(jù)評估框架包括多種類型、多種文件格式的數(shù)據(jù)記錄。對本質(zhì)一致風(fēng)格不同表13簡訊生成微調(diào)數(shù)據(jù)評估框架輸入部分要求明確,素材正確清晰。輸出部分抓住核心事實,信息真包括多種類型、多種文件格式的數(shù)據(jù)記錄。對本質(zhì)一致風(fēng)格不同表14消息生成微調(diào)數(shù)據(jù)評估框架包括多種類型、多種文件格式的數(shù)據(jù)記錄。對本質(zhì)一致風(fēng)格不同表15通訊生成微調(diào)數(shù)據(jù)評估框架輸入部分要求明確,素材正確清晰,包括不少于3段相關(guān)包括多種類型、多種文件格式的數(shù)據(jù)記錄。對本質(zhì)一致風(fēng)格不同表16特寫生成微調(diào)數(shù)據(jù)評估框架輸入部分要求明確,素材滿足以下條件:包括不同主題、不相關(guān)素材,不少于3篇,包括不少于3段相關(guān)素材。輸出部分應(yīng)基于T/CAPT012—2024包括多種類型、多種文件格式的數(shù)據(jù)記錄。對本質(zhì)一致風(fēng)格不同表17專訪生成微調(diào)數(shù)據(jù)評估框架輸入部分要求明確,素材滿足以下條件:包括采訪實錄、事件的背景報道等。輸出部分應(yīng)基于真實情況展開描述,符合被采訪者意包括多種類型、多種文件格式的數(shù)據(jù)記錄。對本質(zhì)一致風(fēng)格不同表18公文公報生
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 二零二五版二手房屋買賣合同變更協(xié)議
- 絲網(wǎng)合同標準文本制作
- 新員工試崗協(xié)議書正規(guī)范例二零二五年
- 二零二五電影導(dǎo)演聘用合同
- 商鋪租賃合同匯編二零二五年
- 倉儲返利合同樣本
- 內(nèi)控評價咨詢合同模板二零二五年
- 鄉(xiāng)村少年宮輔導(dǎo)員考核細則
- 二零二五車輛抵押擔保合同
- 2025年空間環(huán)境藝術(shù)設(shè)計項目合作計劃書
- Unit 2 Go for it!Understanding ideas教學(xué)設(shè)計 -2024-2025學(xué)年外研版(2024)七年級英語下冊
- 浙江省金麗衢十二校2025屆高三下學(xué)期二模試題 地理 含解析
- 【+初中語文+】《山地回憶》課件+統(tǒng)編版語文七年級下冊
- 2025-2030中國建筑裝飾行業(yè)十四五發(fā)展分析及投資前景與戰(zhàn)略規(guī)劃研究報告
- (一模)2025年廣東省高三高考模擬測試 (一) 語文試卷語文試卷(含官方答案)
- 管理學(xué)基礎(chǔ)-形考任務(wù)一-國開-參考資料
- 3.3 服務(wù)業(yè)區(qū)位因素及其變化-以霸王茶姬為例【知識精研】同步教學(xué)課件(人教2019必修第二冊)
- 三維網(wǎng)噴播植草施工方案
- 家具設(shè)計與軟裝搭配知到智慧樹章節(jié)測試課后答案2024年秋四川長江職業(yè)學(xué)院
- 2024年員工知識產(chǎn)權(quán)與保密協(xié)議范本:企業(yè)知識產(chǎn)權(quán)保護實務(wù)3篇
- JGJ46-2024 建筑與市政工程施工現(xiàn)場臨時用電安全技術(shù)標準
評論
0/150
提交評論