T-CESA 1150-2021 人工智能芯片應用 面向漢盲翻譯系統的技術要求_第1頁
T-CESA 1150-2021 人工智能芯片應用 面向漢盲翻譯系統的技術要求_第2頁
T-CESA 1150-2021 人工智能芯片應用 面向漢盲翻譯系統的技術要求_第3頁
T-CESA 1150-2021 人工智能芯片應用 面向漢盲翻譯系統的技術要求_第4頁
T-CESA 1150-2021 人工智能芯片應用 面向漢盲翻譯系統的技術要求_第5頁
已閱讀5頁,還剩5頁未讀 繼續免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

ICS35.240CCSL70團體標準Applicationofartificialintelligencechip—Technicalrequirementstosystemof中國電子工業標準化技術協會發布T/CESA1150—2021前言 III 2規范性引用文件 3術語和定義 4總體功能 5輸入和輸出 26服務接口 37功能模塊 58性能指標 5參考文獻 T/CESA1150—2021本文件按照GB/T1.1—2020《標準化工作導則第1部分:標準化文件的結構和起草規則》的規定起請注意本文件的某些內容可能涉及專利。本文件的發布機構不承擔識別這些專利的責任。本文件由中國科學院計算技術研究所提出。本文件由中國電子工業標準化技術協會歸口。本文件起草單位:中國科學院計算技術研究所、中國盲文出版社、中科寒武紀科技股份有限公司、浙江大學。本文件主要起草人:王向東、劉宏、王艷萍、李威、卜佳俊、錢躍良、周瑋琪、胡晨希、惲超、劉俊英、王煒、周晟。T/CESA1150—20211人工智能芯片應用面向漢盲翻譯系統的技術要求本文件規定了在人工智能芯片應用方面,面向漢盲翻譯系統的技術要求,包括輸入/輸出、服務接口、功能模塊設置、性能指標等方面的要求。本文件適用于在智能芯片上進行漢盲翻譯系統的部署、檢驗及應用。2規范性引用文件下列文件中的內容通過文中的規范性引用而構成本文件必不可少的條款。其中,注日期的引用文件,僅該日期對應的版本適用于本文件;不注日期的引用文件,其最新版本(包括所有的修改單)適用于本文件。GB/T15720-2008中國盲文GB/T38640-2020盲用數字出版格式GF0019-2018國家通用盲文方案3術語和定義下列術語和定義適用于本文件。3.1機器學習machinelearning功能單元通過獲取新知識或技能,或通過整理已有的知識或技能來改進其性能的過程。[來源:GB/T5271.31-2006,術語和定義31.01.02]3.2漢盲翻譯Chinese-Brailletranslation將漢字文本轉換為對應的漢語盲文文本。3.3電子盲文electronicBraille以數字形式存儲的盲文內容。2T/CESA1150—2021[GB/T38640-2020,術語和定義3.2]4總體功能4.1核心功能漢盲翻譯系統應至少具備將輸入的漢字文本翻譯為對應的漢語盲文文本的核心功能。基于智能芯片的漢盲翻譯系統宜充分利用智能芯片運行人工智能和機器學習模型,以實現高效的漢盲翻譯。4.2漢語盲文方案漢盲翻譯系統所處理的漢語盲文應符合GB/T15720-2008、GF0019-2018。4.3輸入輸出形式以輸入和輸出的形式來劃分,基于智能芯片的漢盲翻譯系統可以兩種方式提供漢盲翻譯服務:文件翻譯和字符串翻譯。文件翻譯是指輸入一個漢字文本文件,返回一個與之相應的盲文文本文件。字符串翻譯是指輸入一個漢字字符串,返回一個與之相應的盲文字符串。4.4服務方式及接口以提供服務的方式和接口來劃分,基于智能芯片的漢盲翻譯系統可以兩種方式提供漢盲翻譯服務:網絡服務和本地服務。網絡服務是指基于網絡通信接口提供服務。本地服務是指基于本機的進程/線程/模塊間的通信接口提供服務。5輸入和輸出5.1文件翻譯5.1.1輸入文件輸入的文件應支持常用的文本文件格式,包括txt格式、word格式(doc或docx)、pdf格式。對于包含格式和非文本內容的文件格式,如word格式和pdf格式,應至少可提取其中的所有標題和正文文本作為翻譯的輸入。根據需要,輸入文件中的文本應包含所需的非漢字字符,如標點符號、英文字母、阿拉伯數字符號及其它可能用到的符號,而非只由漢字字符構成。5.1.2輸出文件T/CESA1150—20213輸出的文件應符合GB/T38640-2020中電子盲文的格式要求。可采用標準中定義的XML格式,DBO格式或其它符合標準的格式。5.2字符串翻譯5.2.1輸入字符串輸入字符串應采用UTF-8編碼。一般為一個漢語句子。字符數不超過128。根據需要,輸入字符串應包含所需的非漢字字符,如標點符號、英文字母、阿拉伯數字符號及其它可能用到的符號,而非只由漢字字符構成。5.2.2輸出字符串輸出字符串應遵循常用的盲文編碼規范,包括Unicode編碼和ASCII編碼。6服務接口6.1網絡服務網絡服務采用網絡服務接口,可基于socket接口或http服務。6.2本地服務本地服務除可采用運行于本地的網絡接口外,也可采用本地接口。如作為SDK,以函數形式提供接6.3具體服務接口6.3.1應具備的服務接口一個用于向上層應用提供服務的漢盲翻譯系統至少應具備如下的服務接口:任務創建接口、任務狀態查詢接口、翻譯結果獲取接口、翻譯任務取消接口。6.3.2文件翻譯任務創建接口調用此接口創建文件翻譯任務,并在漢盲翻譯服務器或本地進行翻譯。接口的輸入、輸出參數見表1。T/CESA1150—20214表1文件翻譯任務創建接口參數定義參數名描述類型輸入/輸出input_file要翻譯的文件名字符串輸入參數braille_type要翻譯的盲文類型,1為現行盲文,2為通用盲文,3為雙拼盲文整數輸入參數task_id翻譯任務標識符(ID)整數輸出參數6.3.3字符串翻譯任務創建接口調用此接口創建字符串翻譯任務,并在漢盲翻譯服務器或本地進行翻譯。接口的輸入、輸出參數見表2。表2字符串翻譯任務創建接口參數定義參數名描述類型輸入/輸出input_string要翻譯的字符串字符串輸入參數braille_type要翻譯的盲文類型,1為現行盲文,2為通用盲文,3為雙拼盲文整數輸入參數task_id翻譯任務標識符(ID)整數輸出參數6.3.4任務狀態查詢接口調用此接口查詢翻譯任務狀態。此接口適用于文件翻譯和字符串翻譯。接口輸入、輸出參數見表3。表3任務查詢接口參數定義參數名描述類型輸入/輸出task_id要查詢的任務標識符(ID)整數輸入參數task_status任務狀態,Y表示轉換完成,W表示正在執行,N表示任務尚未開始字符串輸出參數6.3.5文件翻譯結果獲取接口調用此接口獲取文件翻譯結果。輸入、輸出參數見表4。表4文件翻譯結果獲取接口參數定義參數名描述類型輸入/輸出task_id要獲取結果的翻譯任務標識符(ID)整數輸入參數result_url翻譯結果文件的URL字符串輸出參數6.3.6字符串翻譯結果獲取接口T/CESA1150—20215調用此接口獲取字符串翻譯結果。輸入、輸出參數見表5。表5字符串翻譯結果獲取接口參數定義參數名描述類型輸入/輸出task_id要獲取結果的翻譯任務標識符(ID)整數輸入參數result_string翻譯結果字符串字符串輸出參數6.3.7翻譯任務取消接口調用此任務取消翻譯任務。此接口適用于文件翻譯和字符串翻譯。輸入、輸出參數見表6。表6翻譯任務取消接口參數定義參數名描述類型輸入/輸出task_id要取消的翻譯任務標識(ID)整數輸入參數state是否成功取消,true為成功,false為失敗輸出參數7功能模塊7.1模塊劃分基于智能芯片的漢盲翻譯系統,應將機器學習模型與程序獨立。基于智能芯片的漢盲翻譯系統,應至少劃分為接口響應模塊、機器學習模型加載模塊、翻譯模塊。接口響應模塊負責響應各種接口請求,接收相應的輸入,調用內部功能實現,并在需要時返回相應輸出。機器學習模型加載模塊負責一次性將外部存儲(硬盤)中的機器學習模型文件加載至內存;翻譯模塊負責使用加載的機器學習模型執行翻譯任務。在模型加載后,執行每次翻譯任務時無需再次加載模型。7.2翻譯模塊采用智能芯片時,翻譯模塊應盡可能采用智能芯片運算。機器學習模型應盡可能加載至智能芯片。8性能指標8.1翻譯準確率指標自動翻譯完成后,將翻譯結果與標準答案進行比對,計算相關的翻譯準確率指標。對于標準答案中的某個盲文詞,當在不考慮讀音的情況下,該盲文詞與翻譯結果中對應的盲文詞一致,即對應相同的漢字串時,認為該盲文詞分詞正確;當該盲文詞與翻譯結果中對應的盲文詞完全一致時,認為該盲文詞完全正確。按下面的兩個式子計算盲文分詞準確率和盲文詞翻譯準確率。盲文分詞準確率=分詞正確的盲文詞數/標準答案中盲文詞總數.(1)T/CESA1150—20216盲文詞翻譯準確率=完全正確的盲文詞數/標準答案中盲文詞總數 對于標準答案中的某個盲文音節,當翻譯結果中的對應音節與之完全相同時,認為該音節讀音標注正確。按下面的式子計算讀音標注準確率。讀音標注準確率=讀音標注正確的音節數/標準答案中的音節總數 8.2時間效率指標翻譯時間:從開始翻譯到結束翻譯的時間。響應時間:從接收到翻譯任務到返回結果的時間。平均每秒翻譯字數:平均每秒翻譯的字數。8.3測試和性能指標要求測試時,應按照具體的漢盲翻譯系統實際應用時的真實場景,包括所處理的漢字文本的領域、主題等,設計測試數據。測試數據應盡可能的多樣化,如來源于不同的書籍或資料。測試數據規模一般應不少于1000句

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論