




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
智慧家庭人工智能語音服務(wù)通用技術(shù)規(guī)范目 次前言 II范圍 1規(guī)范性引用文件 1術(shù)語和定義 1縮略語 2語音服務(wù)的組成及能力等級劃分 3環(huán)境要求 3基本要求 4測試方法 10附錄A(規(guī)范性)語音測試集錄音質(zhì)量要求 15附錄B(規(guī)范性)測試用設(shè)備要求 16I智慧家庭人工智能語音服務(wù)通用技術(shù)規(guī)范范圍本文件適用于智慧家庭人工智能語音服務(wù)的建設(shè)、測試和評價(jià)。規(guī)范性引用文件(包括所有的修改單適用于本文件。GB3096—2008聲環(huán)境質(zhì)量標(biāo)準(zhǔn)GB/T21023—2007中文語音識別系統(tǒng)通用技術(shù)規(guī)范GB/T21024—2007中文語音合成系統(tǒng)通用技術(shù)規(guī)范GB/T22239—2019信息安全技術(shù)網(wǎng)絡(luò)安全等級保護(hù)基本要求GB/T36464.1—2020信息技術(shù)智能語音交互系統(tǒng)第1部分:通用規(guī)范GB/T36464.2—2018信息技術(shù)智能語音交互系統(tǒng)第2部分:智能家居術(shù)語和定義GB/T21023—2007、GB/T21024—2007、GB/T36464.1—2020、GB/T36464.2—2018界定的以及下列術(shù)語和定義適用于本文件。語音服務(wù)voiceservice人機(jī)之間通過自然語言對話來獲取信息的服務(wù)。語音采集voiceacquisition通過傳聲器或麥克風(fēng)陣列等拾音設(shè)備對語音進(jìn)行采集。語音識別speechrecognition將人類的聲音信號轉(zhuǎn)化為文字或指令的過程。[來源:GB/T21023—2007,3.1]語義理解semanticunderstanding使功能單元理解人說話的意圖。[來源:GB/T36464.1—2020,3.11]1語音合成speechsynthesis通過機(jī)械的、電子的方法合成人類語言的過程。[來源:GB/T21024—2007,3.1]端點(diǎn)檢測voiceactivitydetection一種用于分析、判斷連續(xù)音頻流中有效起始點(diǎn)和結(jié)束點(diǎn)的語音處理技術(shù)。[來源:GB/T36464.1—2020,3.22]智能語音終端artificialintelligencevoiceterminal可接收用戶的語音,使得用戶可以獲取在線音視頻等內(nèi)容,或可通過語音進(jìn)行控制的設(shè)備。噪聲noise的聲音信號。[來源:GB/T36464.1—2020,3.27]等效聲級equivalentcontinuousA-weightedsoundpressurelevel個聲級來表示該段時間的噪聲大小。平均意見得分meanopinionscore語音質(zhì)量的一種主觀度量。[來源:GB/T36464.2—2018,3.26]語音喚醒speechwakeup;voicetrigger續(xù)語音識別等其他處理狀態(tài)的過程。[來源:GB/T36464.2—2018,3.13]媒資mediaassets媒體單位生產(chǎn)的文字、圖片、音視頻等數(shù)據(jù)。媒資庫mediapool存儲媒資的數(shù)據(jù)庫。縮略語下列縮略語適用于本文件。PCM:脈沖編碼調(diào)制(PulseCodeModulation)MOS:平均意見得分(MeanOpinionScore)2語音服務(wù)的組成及能力等級劃分語音服務(wù)的組成由語音采集與識別、語義理解、語音合成與播放、語音技能四個部分組成。語音服務(wù)能力等級劃分語音服務(wù)能力根據(jù)成熟度劃分為五個等級,見表1。表1語音服務(wù)能力等級語音服務(wù)能力等級定義主體語音采集與識別語義理解語音合成與播放語音技能Level5語義深度理解與智能互動端點(diǎn)檢測上下文及多場景語義理解與智能終端控制智能翻譯多級互動Level4語義理解與語音互動語義理解自然合成(多語種、多發(fā)音人)應(yīng)用喚醒、欄目喚起、內(nèi)容搜索Level3語音深度識別與自然合成——Level2語音識別與機(jī)器合成語音識別—機(jī)器合成—Level1語音采集與播放語音采集—語音播放—環(huán)境要求自然環(huán)境智能語音終端主要在家庭環(huán)境下使用,在表2所示自然環(huán)境條件下應(yīng)正常工作。表2自然環(huán)境要求溫度℃相對濕度大氣壓力KPa0~4010%~90%無凝結(jié)86~106網(wǎng)絡(luò)環(huán)境智能語音終端或與之相連的智能設(shè)備應(yīng)支持無線或有線網(wǎng)絡(luò)接入互聯(lián)網(wǎng),網(wǎng)絡(luò)接入速度應(yīng)不低于128kbit/s。噪聲環(huán)境智能語音終端主要在家庭環(huán)境下使用,家庭噪聲環(huán)境具體要求按照GB3096—2008第4章中0、1、2類聲環(huán)境功能區(qū)的規(guī)定執(zhí)行。3基本要求語音采集與識別語音采集能力的拾音設(shè)備對語音、連續(xù)語音進(jìn)行單聲道或多聲道的采集。語音采集應(yīng)滿足以下要求:8kHz16kHz,16bitPCMOpusSpeex30s60s注:Opus是有損音頻的一種編碼格式;Speex是一套針對語音音頻的壓縮格式。端點(diǎn)檢測和主觀停止。語音識別應(yīng)滿足以下要求:支持家庭場景下關(guān)鍵詞語音識別能力,如影視、音樂、醫(yī)療、教育等;支持簡單中英文混合識別;支持?jǐn)?shù)字、電話號碼;支持普通話、帶有福建口音的普通話;宜支持福建省內(nèi)主流方言,如閩南語、客家語;3表3語音識別句識別率要求聲環(huán)境功能區(qū)類別環(huán)境噪聲等效聲級dB(A)句識別率%0類晝間50,夜間40≥901類晝間55,夜間45≥852類晝間60,夜間50≥80句識別率計(jì)算方法按公式(1)。
N=×100% (1)Nsi式中:Psr (%);Nsr Nsi 4語義理解應(yīng)滿足以下要求:支持簡稱、別名、代碼、數(shù)字的理解;具有用戶表達(dá)存在錯字、缺字、模糊時的容錯理解能力;支持多輪、全雙工對話的人機(jī)交互方式;4表4語義理解等級表語義理解等級場景語義理解正確率%0類影視,電視直播,節(jié)目回看≥901類音樂,醫(yī)療,購物,教育≥85語義理解正確率計(jì)算方法按公式(2)。
NRss=×100% (2)N式中:Rss ——語義理解正確率,單位為百分?jǐn)?shù)(%);Nss ——操作意圖及語義要素均被正確判斷的次數(shù)N ——用戶輸入被正確識別出文本信息的總次數(shù)語音播放與合成語音播放60dB。語音合成應(yīng)滿足以下要求:支持在線或離線方式合成近似人類的語音;支持普通話和英語,宜支持福建省內(nèi)主流方言,如閩南語、客家語;支持中英文數(shù)字等各種混合音,宜支持多音色合成和個性化合成;MOS4,MOS5。表5MOS量化分值分值主觀測聽效果5非常接近播音員真人發(fā)聲,達(dá)到以假亂真的程度,總體聽感很好,清晰、流暢。4發(fā)音清晰、可懂,總體聽感好、流暢,聽測人愿意接受(半小時左右不覺疲勞),沒有明顯韻律錯誤。3基本可以聽懂,但在語氣節(jié)奏處理上問題較多,音節(jié)之間拼接不流暢感較重,聽測人不太愿意接受,有明顯的疲勞感。2語音吐字不清晰,字詞之間有較為嚴(yán)重的頓挫感,體驗(yàn)性不好,但不影響正常理解。5表5MOS量化分值(續(xù))分值主觀測聽效果1發(fā)音不清晰,機(jī)器音質(zhì),聽不懂,只能表達(dá)斷續(xù)、個別的語音信息,猜測語意都很困難,不能接受。注:參考GB/T36464.1—2020中A.8.3的表A.1,結(jié)合家庭環(huán)境要求,對主觀測聽效果作更詳細(xì)描述。語音喚醒夜間喚醒具備語音喚醒功能的智能語音終端在夜間的喚醒率應(yīng)滿足表6要求。表6夜間不同噪聲環(huán)境下的喚醒率要求聲環(huán)境功能區(qū)類別夜間環(huán)境噪聲等效聲級dB(A)發(fā)聲大小dB喚醒率要求0類40<55不作要求≥553m優(yōu)于95%1類45<60不作要求≥601m優(yōu)于95%3m優(yōu)于90%5m優(yōu)于85%2類50<65不作要求≥653m優(yōu)于85%夜間喚醒率計(jì)算方法按公式(3)。NRnw=×100% (3)Nw式中:Rnw ——夜間喚醒率,單位為百分?jǐn)?shù)(%);Nsw ——成功喚醒次數(shù);Nw ——語音喚醒操作次數(shù)。晝間喚醒具備語音喚醒功能的智能語音終端在晝間的喚醒率應(yīng)滿足表7要求。表7晝間不同噪聲環(huán)境下的喚醒率要求聲環(huán)境功能區(qū)類別晝間環(huán)境噪聲等效聲級dB(A)發(fā)聲大小dB喚醒率要求0類50<65不作要求≥653m優(yōu)于90%6表7晝間不同噪聲環(huán)境下的喚醒率要求(續(xù))聲環(huán)境功能區(qū)類別晝間環(huán)境噪聲等效聲級dB(A)發(fā)聲大小dB喚醒率要求1類55<70不作要求≥701m優(yōu)于90%3m優(yōu)于85%5m優(yōu)于80%2類60<75不作要求≥753m優(yōu)于80%晝間喚醒率計(jì)算方法按公式(4)。NRdw=×100% (4)Nw式中:Rdw Nsw Nw 誤喚醒次數(shù)具備語音喚醒功能的智能語音終端誤喚醒次數(shù)應(yīng)滿足表8要求。表8誤喚醒次數(shù)要求環(huán)境噪音(S)dB(A)12h內(nèi)誤喚醒次數(shù)S≤450次45<S≤55不作要求55<S≤65低于2次S>65不作要求語音技能通用技能響應(yīng)時間應(yīng)時間應(yīng)小于或等于2s。響應(yīng)時間計(jì)算方法按公式(5)。式中:Tack——響應(yīng)時間,單位為秒(s);
=tr—te (5)7tr ——給出結(jié)果時刻;te ——語音輸入結(jié)束的時刻。注1如語音交互系統(tǒng)支持識別結(jié)果分多次返回,te注2如智能語音終端具備語音喚醒功能,tr注3如智能語音終端具備顯示屏幕,tr交互反饋應(yīng)滿足以下要求:支持查詢類技能通過語音播報(bào)加信息展示的形式向用戶反饋;支持媒資檢索類技能通過語音播報(bào)加搜索結(jié)果展示的形式向用戶反饋;支持技能處理遇到異常情況時通過語音或者文本展示的形式向用戶反饋。反饋語設(shè)計(jì)宜滿足以下要求:準(zhǔn)確:實(shí)事求是,清楚明了傳達(dá)信息,避免歧義;簡潔:用最少的話傳達(dá)最重要的信息;自然:口語化不生硬,容易理解,有停頓,符合正常說話節(jié)奏;明晰:明確、具體完成任務(wù),并傳達(dá)理解程度;親和:遇到出錯情況,主動推薦并引導(dǎo)用戶。應(yīng)用喚起單說指令喚起應(yīng)支持按應(yīng)用名稱喚起應(yīng)用。指定句式喚起應(yīng)支持按固定的句式進(jìn)行應(yīng)用的喚起,句式為:前綴詞+應(yīng)用名稱+后綴詞。前綴詞至少包括:打開、啟動、開啟、我要玩、我想玩、我要用。后綴詞至少包括:應(yīng)用、軟件。關(guān)聯(lián)語義喚起配的應(yīng)用喚起。涉屏語音服務(wù)技能媒資管理應(yīng)支持媒資的欄目管理、索引建立、審核、發(fā)布功能。媒資信息應(yīng)滿足以下要求:影視媒資信息包括:名稱、主演、上映時間、類型,宜包括季集、導(dǎo)演、簡介、評分、熱度等信息;游戲媒資信息包括:名稱、類型,宜包括簡介、評分、上架時間、熱度等信息;8應(yīng)用媒資信息包括:名稱、類型,宜包括簡介、評分、上架時間、熱度等信息。媒資檢索標(biāo)簽檢索應(yīng)滿足以下要求:122容錯處理果。關(guān)聯(lián)推薦宜支持基于內(nèi)容及用戶喜好的關(guān)聯(lián)推薦檢索。息。頁面操控頁面基礎(chǔ)操控應(yīng)滿足以下要求:支持通過語音控制,實(shí)現(xiàn)返回上級頁面和退出當(dāng)前應(yīng)用等基本操作;支持通過語音喚起當(dāng)前頁面上所列欄目。搜索頁操控搜索頁應(yīng)支持語音的翻頁及選擇指令,具體指令見表9。表9搜索頁操控指令指令名稱指令英文標(biāo)識指令參數(shù)跳到下一頁NEXT—跳到上一頁P(yáng)REV—跳到指定頁INDEXindex頁號(整數(shù)值型,負(fù)數(shù)表示倒數(shù))選擇SELECTrow:第X行(整數(shù)值型,負(fù)數(shù)表示倒數(shù))index:第X個(整數(shù)值型,負(fù)數(shù)表示倒數(shù))播放頁面操控播放頁面應(yīng)支持語音的播控操作指令,播控操作相關(guān)指令見表10。9表10播放操控指令指令名稱指令英文標(biāo)識指令參數(shù)播放PLAY—暫停PAUSE—繼續(xù)播放RESUME—重頭播放RESTART—跳到指定位置SEEKposition位置(整數(shù)值型,單位:秒)快進(jìn)指定時間FORWARDoffset偏移(整數(shù)值型,單位:秒)后退指定時間BACKWARDoffset偏移(整數(shù)值型,單位:秒)涉屏終端控制應(yīng)支持對帶屏類智能語音終端設(shè)備的基礎(chǔ)控制指令,如音量控制、打開設(shè)置頁面、關(guān)機(jī)。服務(wù)安全基礎(chǔ)服務(wù)安全按照GB/T22239—2019中8.1.2規(guī)定的執(zhí)行。隱私保護(hù)麥克風(fēng)隱私保護(hù)一鍵禁麥。攝像頭隱私保護(hù)擋開關(guān)。測試方法測試準(zhǔn)備測試語料文本測試集應(yīng)滿足以下要求:覆蓋影視、音樂、醫(yī)療、教育等領(lǐng)域;包含智能語音終端的喚醒詞、操控指令、多音字、頻道別名等常用性語句。語音測試集應(yīng)滿足以下要求:10501:1,9~1220~5060~751:4:1;8.1.1.1發(fā)音人以普通話或帶有福建口音的普通話錄制;宜包含福建省內(nèi)主流方言,如閩南語、客家語;A測試用設(shè)備應(yīng)符合附錄B的規(guī)定。測試環(huán)境被測語音交互系統(tǒng)部署被測語音交互系統(tǒng),測試用回放設(shè)備通過對話方式對其進(jìn)行控制和交互。被測系統(tǒng)網(wǎng)絡(luò)環(huán)境應(yīng)滿足6.2的要求,保持穩(wěn)定的連通狀態(tài)。遠(yuǎn)近場拾音距離近場拾音距離為1m,遠(yuǎn)場拾音距離為3m。測試場景求噪音保持穩(wěn)定且不包含命令詞相關(guān)的聲音,具體要求見表11。表11測試場景要求環(huán)境噪音場景測試語音聲壓級(S)dB環(huán)境噪音聲壓級(V)dB(A)夜間2類S≥65V≤50晝間2類S≥75V≤60誤喚醒測試場景60<S≤7560<V≤75測試方法語音采集測試數(shù)據(jù),查看數(shù)據(jù)的編碼格式和采樣率。通過上述測試方法驗(yàn)證是否滿足7.1.1的要求。11端點(diǎn)檢測測試意圖,進(jìn)行多個指令操作。通過上述測試方法驗(yàn)證是否滿足7.1.2的要求。語音識別測試預(yù)期結(jié)果進(jìn)行比對,計(jì)算出句識別率。通過上述測試方法驗(yàn)證是否滿足7.1.3的要求。語義理解測試解正確率。通過上述測試方法驗(yàn)證是否滿足7.2的要求。語音播放測試在晝間20.1m貝值,記錄分貝數(shù)據(jù)。通過上述測試方法驗(yàn)證是否滿足7.3.1的要求。語音合成測試選取10個體驗(yàn)人員,男女各5人,年齡在20~505給出MOS均結(jié)果。通過上述測試方法驗(yàn)證是否滿足7.3.2要求。語音喚醒測試喚醒率測試按8.2.4的測試場景要求,將被測設(shè)備調(diào)至待命狀態(tài),使用測試用回放設(shè)備在遠(yuǎn)場距離播放喚醒語音測試集不少于50條,統(tǒng)計(jì)岀正確響應(yīng)次數(shù),計(jì)算出喚醒正確率。15從前后左右四個方位播放喚醒詞各50次。通過上述測試方法驗(yàn)證是否滿足7.4.1、7.4.2的要求。誤喚醒測試按8.2.4誤喚醒測試場景要求,將測試用回放設(shè)備連續(xù)播放12h,統(tǒng)計(jì)被測設(shè)備給出的響應(yīng)次數(shù)。通過上述測試方法驗(yàn)證是否滿足7.4.3的要求。語音技能測試響應(yīng)時間測試12按8.3.3語音識別測試方法,從拾音設(shè)備拾音結(jié)束到語音交互系統(tǒng)顯示正確的反饋,計(jì)為一個交互響應(yīng)時間。對被測設(shè)備的基本交互時間進(jìn)行統(tǒng)計(jì)、分析,給出在線響應(yīng)時間。通過上述測試方法驗(yàn)證是否滿足7.5.1.1的要求。交互反饋測試在被測設(shè)備支持的業(yè)務(wù)場景范圍內(nèi),選擇不少于5個業(yè)務(wù)場景,由測試人員發(fā)出操控指令,記錄被測設(shè)備交互反饋情況。通過上述測試方法驗(yàn)證是否滿足7.5.1.2和7.5.1.3的要求。應(yīng)用喚起測試測試人員對被測設(shè)備說,“我要玩游戲”、“我要聽音樂”。可以啟動被測設(shè)備上已安裝的游戲、音樂應(yīng)用,即為通過。通過上述測試方法驗(yàn)證是否滿足7.5.2的要求。涉屏語音服務(wù)技能測試媒資管理和媒資檢索測試101個或任意2簽發(fā)出搜索指令,記錄檢索結(jié)果情況。通過上述測試方法驗(yàn)證是否滿足7.6.1、7.6.2.1和7.6.2.2的要求。關(guān)聯(lián)推薦測試戶搜索:“熊出沒狂野大陸”,被測設(shè)備無對應(yīng)媒資時,給出“熊出沒”相關(guān)聯(lián)的影片推薦。通過上述測試方法驗(yàn)證是否滿足7.6.2.3的要求。頁面操控測試通過上述測試方法驗(yàn)證是否滿足7.6.3的要求。涉屏終端控制測試測試人員通過語音進(jìn)行被測設(shè)備的控制,如:增大音量、減小音量、打開設(shè)置頁面、關(guān)機(jī)。通過上述測試方法驗(yàn)證是否滿足7.6.4的要求。服務(wù)安全測試基礎(chǔ)服務(wù)安全要求測試按照GB/T22239—2019中8.1.2的規(guī)定執(zhí)行。13麥克風(fēng)關(guān)閉測試測試人員在離被測設(shè)備正面1m處用喚醒詞
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2024中智國際商務(wù)發(fā)展公司招聘中智國旅總經(jīng)理1人筆試參考題庫附帶答案詳解
- 復(fù)課后校外培訓(xùn)新規(guī)解讀
- 【北京市人社局】2025年北京市人力資源市場薪酬數(shù)據(jù)報(bào)告(一季度)
- 2024北京西城外國語學(xué)校初一(下)期中數(shù)學(xué)試題及答案
- 歷史中的漢字之美
- 綠色材料革新之路
- 立秋文化與教學(xué)融合
- 2025股權(quán)轉(zhuǎn)讓合同協(xié)議范本
- 2025船員雇傭合同模板
- 2025租房協(xié)議范本 合同示例
- 九年級化學(xué)專題復(fù)習(xí)-化學(xué)用語1-名師公開課獲獎?wù)n件百校聯(lián)賽一等獎?wù)n件
- 汽車發(fā)動機(jī)構(gòu)造與維修任務(wù)工單
- 造價(jià)咨詢服務(wù)投標(biāo)文件
- DB11T 1539-2018 商場、超市碳排放管理規(guī)范
- DB11T 1796-2020 文物建筑三維信息采集技術(shù)規(guī)程
- 小學(xué)三年級下冊數(shù)學(xué)(蘇教版)和差倍問題專項(xiàng)訓(xùn)練
- 金屬非金屬地下礦山安全生產(chǎn)標(biāo)準(zhǔn)化定級評分標(biāo)準(zhǔn)(2023版)
- 化工技術(shù)經(jīng)濟(jì)(第五版)課件-第7章-項(xiàng)目可行性研究與決策-
- 安全掃描漏洞管理方案
- 高級煙草制品購銷員(三級)職業(yè)資格鑒定理論考試題及答案
- GA/T 527.2-2024道路交通信號控制方式第2部分:通行狀態(tài)與控制效益評估指標(biāo)及方法
評論
0/150
提交評論