




版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
ICS35.240CCSL70團 體 標 準T/CESA1197—2022人工智能深度合成圖像系統技術規范Artificialintelligence—Technicalspecificationfordeepsyntheticimagesystem2022-06-30發布 2022-06-30實施中國電子工業標準化技術協會 發布T/CESA1197—2022版權保護文件IT/CESA1197—2022目??次前言 III范圍 1規范性引用文件 1術語和定義 1縮略語 2深度合成圖像系統框架 3深度合成圖像系統技術要求 4深度合成圖像系統通用要求 4深度合成2D人像系統要求 12深度合成3D人像系統要求 19深度合成人像防偽檢測性能要求 22深度合成圖像系統測試評價方法 24深度合成圖像系統通用測試 24深度合成2D人像系統測試 28深度合成3D人像系統測試 31深度合成人像防偽檢測方法 33II鏈 鏈T/CESA1197—2022前??言本文件按照GB/T 《標準化工作導則 第1部分標準化文件的結構和起草規則的規定起草。請注意本文件的某些內容可能涉及專利。本文件的發布機構不承擔識別專利的責任。本文件由中國電子技術標準化研究院提出。本文件由中國電子技術標準化研究院、中國電子工業標準化技術協會歸口。(北京(上海III鏈 鏈T/CESA1197—2022人工智能深度合成圖像系統技術規范范圍(含視頻本文件適用于深度合成圖像系統的設計、開發、測試、評估、管理等。規范性引用文件(包括所有的修改單適用于本文件。GB/T5271.29—2000信息技術詞匯第29部分:人工智能語音識別與合成GB/T21023—2007中文語音識別系統通用技術規范GB/T36464.3—2018信息技術智能語音交互系統第3部分:智能客服3 術語和定義GB/T5271.29—2000界定的以及下列術語和定義適用于本文件。3.1深度合成技術 deepsynthesistechnology注:深度合成技術應用場景包括包括語音合成、人臉再現、全身合成、數字虛擬人、虛擬現實等。3.2深度合成圖像系統 deepsyntheticimage system采用AI注:深度合成圖像系統的應用場景包括AI人像、美顏、換臉、影視動畫制作等。3.3圖像生成 imagegeneration從現有數據集生成圖像的過程。1鏈 鏈T/CESA1197—20223.4圖像合成 imagecomposition注:圖像生成和圖形合成的區別,圖像生成負責由無到有,圖像合成負責從有到優。3.5語音合成 speechsynthesis人工語音的生成。[來源:GB/T5271.29—2000,12.01.53]3.6深度合成2D人像 deepsynthesisof2Dportraits基于深度合成技術生成的二維人像,包括圖像、視頻和語音。3.7深度合成3D人像 deepsynthesisof3Dportraits基于深度合成技術生成的三維人像,包括圖像、視頻和語音。4 縮略語下列縮略語適用于本文件。AI:人工智能(Artificial Intelligence)API:應用程序編程接口(ApplicationProgrammingInterface)DS:深度合成(DeepSynthesis)EAO:平均重疊期望(Expectedaverageoverlap)FID:距離得分(FrechetInceptionDistancescore)GAN:對抗式生成網絡(GenerativeAdversarialNetwork)IoU:交并比(IntersectionoverUnion)mAP:平均精確度均值(meanAveragePrecision)MIoU:平均交并比(MeanIntersectionoverUnion)NeRF:神經輻射場(NeuralRadianceFields)NLP:自然語言理解(NatureLanguageProcess)PGAN:漸進式增長生成對抗網絡(ProgressiveGenerativeAdversarialNetwork)PSNR:峰值信噪比(PeakSignal-to-NoiseRatio)SDK:軟件開發工具包(SoftwareDevelopmentKit)SSIM:結構相似性(StructuralSimilarityIndexMeasure)StarGAN:星型生成對抗網絡(StarGenerativeAdversarialNetwork)StyleGAN:風格生成對抗網絡(StyleGenerativeAdversarialNetwork)TTS:從文本到語音(TextToSpeech)VAE(VariationalAuto-Encoder)2D:二維(2-Dimensional)3D:三維(3-Dimensional)2鏈 鏈T/CESA1197—20225 深度合成圖像系統框架深度合成圖像系統框架包括AI能力層、管理層和接入層,見圖1。圖圖1 深度合成圖像系統框架圖1中各層組成模塊如下:AI2D/3DNLP2D/3DTTSNLP(真實性、完整性和原始性。管理層:主要是對深度合成圖像系統的媒體資源和人像進行管理與調度。媒體資源管理平臺:用以提供視頻超分和老片修復等功能;NLPNLP接入層:深度合成系統框架主要以三種方式接入目標系統:API、小程序插件、SDK。API3鏈 鏈T/CESA1197—2022SDK深度合成圖像系統技術要求深度合成圖像系統通用要求功能圖像生成(生成對應圖像,生成的圖像應符合場景要求。圖像合成目標檢測(以方框形式給出目標輪廓及其類型,用以分析該圖像是否能與其他圖像的內容進行融合。目標分割目標分割功能應支持給出圖像中常見物體和特定目標的精細化邊緣(像素級別區分度)及其類型,用以分離特定目標以及處理融合過程中出現的物體間遮擋的情況,使得融合后圖像更加合理。位置跟蹤圖像和諧化圖像和諧化功能應支持調節多個融合部分的亮度、顏色、光線等特征,使得融合后的圖像作為一個整體的觀感更加自然。圖像修復圖像缺陷修復4鏈 鏈T/CESA1197—2022圖像內容缺失補全功能圖像內容缺失補全功能應支持修復圖像部分內容缺失的問題或修復因去除非必要遮擋而造成的圖圖像顏色缺失補全及修復對圖像顏色缺失補全及修復功能要求如下:圖像增強圖像分辨率提升(目標分辨率),并且提升后圖像較提升前具有更豐富的細節信息,在視覺觀感的清晰度上有明顯提升。視頻幀率提升視頻幀率提升功能應支持將視頻幀率提升至原先的數倍,即單位時間內的幀數較提升前有明顯增加,播放時單幀畫面視覺停留時間減少,能提升用戶視覺觀感的流暢度。圖像動態范圍擴大性能圖像生成場景匹配度5鏈 鏈T/CESA1197—2022表1 場景匹配度主觀評分規則評測維度描述 得分54321目標匹配度生成圖像中的物體與場景要求中物體的匹配程度十分匹配比較匹配基本匹配不匹配十分不匹配主題匹配度生成圖像的主題與場景要求中主題的匹配程度十分匹配比較匹配基本匹配不匹配十分不匹配風格匹配度生成圖像的風格與場景要求中風格的匹配程度十分匹配比較匹配基本匹配不匹配十分不匹配視覺自然度表2 視覺自然度主觀評分規則評測維度描述 得分54321整體自然度該圖片整體觀感是否自然十分自然比較自然基本自然不太自然十分不自然局部自然度該圖片局部是否有偽紋理完全沒有偽紋理少紋理偽紋理較多偽紋理很多圖像合成目標檢測性能mAP是在不同召回率下的最高精確率的均值(一般會對各類別分別計算各自的AP)。在包含常用類別及特定類別的自定義數據集上目標檢測平均精確率均值mAP應大于0.5。召回率和精確率定義如下:IOU:真實框與預測框之間交集面積與并集面積的比值;真陽性(TP):正確的檢測,即預測的邊界框中分類正確且邊界框坐標正確的數量,檢測的IOU≥threshold(0.5);是預測出的所有邊界框中除去預測正確的邊界框,剩下的邊界框的數量,檢測的IOU<threshold(一般取0.5);召回率:TP/(TP+FN):模型給出的預測結果最多能覆蓋多少真實目標;精確率:TP/(TP+FP):模型給出的所有預測結果中命中真實目標的比例。實例分割性能MIoU6鏈 鏈T/CESA1197—2022式中:i——真實值;j——預測值;——將i預測為j。在包含常用類別及特定類別的自定義數據集上實例分割MIoU應大于0.5。目標跟蹤EAO考慮一個用于目標追蹤的視頻,其包含幀,待測試的跟蹤器在此序列的開始處初始化,并一直跟蹤至最后一幀。如果跟蹤器在某幀預測的矩形框偏離目標,則追蹤停止。每一幀的準確率定義為:式中:——第t幀的真實框;——跟蹤器對第t幀的預測框。之后進行平均,得到該序列上的準確率 ,在長度為 的多個序列上求平均值 ,這樣就得到了跟蹤器在長度為 序列上的EAO值在自定義視頻數據集上位置跟蹤EAO應大于0.4。和諧化.4.1 融合視覺合理性表3 融合視覺合理性主觀評分規則評測維度描述 得分54321融合合理性該圖片內容融合是否合理十分合理比較合理基本合理不太合理十分不合理.4.2 融合視覺自然度融合視覺自然度指系統融合得到的圖像或視頻讓用戶視覺上感到自然和諧的程度,該指標為主觀性評估指標。考融合視覺自然度主觀評分規則見表4。融合視覺自然度應達到讓用戶感到比較自然的程度。7T/CESA1197—2022表4 融合視覺自然度主觀評分規則評測維度描述 得分54321視頻整體自然度以正常幀率播放融合視頻,判斷視頻自然度十分自然比較自然基本自然不太自然十分不自然圖像整體自然度融合圖片整體觀感是否自然十分自然比較自然基本自然不太自然十分不自然圖像局部自然度融合圖片局部過渡是否自然十分自然比較自然基本自然不太自然十分不自然圖像修復.1.1 PSNR.1.1 PSNR作為待評測圖像,3:PSNR(dB)定義為式4:式中:——圖片可能的最大像素值。以上為針對灰度圖的PNSRRGB三個通道的PSNR。.1.2 SSIM給定一張正常無缺陷圖像x作為參考圖像,與之相對應的有缺陷圖像y作為待評測圖像,SSIM基于x和y之間的三個比較衡量:亮度(luminance)、對比度(contrast)和結構(structure)。,,,一般取為x的均值,為y的均值,為x的方差,為y的方差,為x和y的協方差,為兩個常數,避免除零,為像素值的范圍,為默認值,則8T/CESA1197—2022將設為1,則得到式5:.1.3 視覺缺陷程度.2 圖像內容缺失補全.2.1 量化指標PSNR、SSIM.2 圖像內容缺失補全.2.1 量化指標PSNR、SSIM(如10%~60%)置為全黑,作為內容缺失圖像;將內容缺失圖像送入系統進行圖像內容補全,得到補全后圖像。量化指標計算同.1.1 .1.2 中的量化指標參考圖像選取為內容完整的原圖像,缺陷維度描述 得分54321劃痕對比劃痕參考圖像評估圖像的劃痕程度劃痕十分嚴重劃痕比較嚴重劃痕程度一般輕微劃痕無劃痕噪聲對比噪聲參考圖像評估圖像的噪聲程度噪聲十分嚴重噪聲比較嚴重噪聲程度一般輕微噪聲無噪聲橫紋對比橫紋參考圖像評估圖像的橫紋程度橫紋十分嚴重橫紋比較嚴重橫紋程度一般輕微橫紋無橫紋模糊對比模糊參考圖像評估圖像的模糊程度模糊十分嚴重模糊比較嚴重模糊程度一般輕微模糊圖像清晰待評測圖像選取為經系統修復的補全后圖像。.2.2 視覺自然度2所示。視覺自然度應達到讓用戶感到自然、基本無偽紋理的程度。.3 圖像顏色缺失補全及修.3.1 量化指標FIDFID距離是一種用于評估生成模型(如生成對抗網絡)生成圖片的度量。其衡量生成圖片的分布和真實圖片分布之間的差異性。9T/CESA1197—2022FID計算兩個多維高斯分布之間的平方Wasserstein距離給定顏色缺失補全后的圖像集合經神經網絡提取出來特征的多維高斯分布和真實彩色圖像集合經同一神經網絡得到特征的多維高斯分布,該神經網絡一般是在ImageNet數據集上訓練的Inceptionv3網絡。FID具體計算方式為式5:PSRR、SSIM量化指標PSNR和SSIM的計算同.1.1 PSRR、SSIM量化指標PSNR和SSIM的計算同.1.1 .1.2 中的量化指標其中參考圖像選取有正常顏色的原圖像,待評測圖像選取為經系統補全顏色后的圖像。注:量化指標FID、PSNR和SSIM僅適用于圖像顏色缺失補全功能的測試,不適用于顏色修復功能的測試。顏色視覺合理性表6 顏色視覺合理性主觀評分規則評測維度描述 得分54321顏色語義合理性物體顏色的合理性十分合理比較合理基本合理不太合理十分不合理顏色區域準確度顏色填充區域的準確度十分準確比較準確基本準確不太準確十分不準確.3.4 顏色視覺舒適度表7 顏色視覺舒適度主觀評分規則評測維度描述 得分54321顏色舒適度畫面顏色的整體舒適度十分舒適比較舒適基本舒適不太舒適十分不舒適10T/CESA1197—2022圖像增強圖像分辨率提升.1.1 量化指標PSNR、SSIM(如4k分辨率(如2k分辨率量化指標PSNTR和SSIM的計算同.1.1、.1.2中的量化指標,其中參考圖像選取為高分辨率的原圖像,待評測圖像選取為經系統提升分辨率后的圖像。.1.2 視覺清晰度表8 視覺清晰度有參考主觀評分規則.1.3 視覺自然度表8 視覺清晰度有參考主觀評分規則.1.3 視覺自然度視覺自然度指系統將分辨率提升后讓用戶視覺上感到自然和諧的程度。該指標為主觀性評估指標。評分規則如.2 表2所示。視覺自然度應達到讓用戶感到比較自然的程度。.2 視頻幀率提升性能.2.1 量化指標PSNR、SSIM選取一組高幀率(如120fps)的視頻作為原視頻;將原視頻的幀率進行下采樣,得到的低幀率(如30fps)視頻作為待提升幀率的視頻;將待提升幀率的視頻送入系統進行幀率提升,得到幀率提升后的視頻。評測維度描述 得分54321視覺清晰度該圖片是否清晰十分清晰比較清晰基本清晰不太清晰十分不清晰量化指標PSNR和SSIM的計算同.1.1 .1.2中的量化指標其中參考圖像選取為在原視頻中存在,而待提升幀率視頻中不存在的幀,待評測圖像選取為經系統提升幀率所生成的圖像。視覺流暢度表9 視覺流暢度有參考主觀評分規則評測維度描述 得分54321視覺流暢度該視頻是否流暢十分流暢比較流暢基本流暢比較卡頓十分卡頓視覺自然度11T/CESA1197—20222所示。視覺自然度應達到讓用戶感到比較自然的程度。.3 圖像動態范圍提升.3.1 量化指標PSNR、選取一組高動態范圍(如10bit)的視頻作為原視頻;將原視頻的動態范圍進行下采樣,得到的低(如量化指標PSNR和SSIM的計算同.1.1、.1.2中的量化指標,其中參考圖像選取為原視頻中的圖像,待評測圖像選取為經系統提升動態范圍所生成的對應圖像。.3.2 視覺豐富度觀性評估指標。視覺豐富度應達到讓用戶感到比較豐富的程度。評分規則見表10。表觀性評估指標。視覺豐富度應達到讓用戶感到比較豐富的程度。評分規則見表10。表10 視覺豐富度有參考主觀評分規則2D功能評估維度描述 得分54321細節請對比“細節參考視頻”評估視頻的細節豐富程度細節十分豐富細節比較豐富細節一般細節比較缺少細節十分缺少對比度請對比“對比度參考視頻”評估視頻的對比度對比度十分高對比度較高對比度一般對比度較低對比度十分低色彩豐富度請對比“色彩參考視頻”評估視頻的色彩豐富度色彩十分豐富色彩比較豐富色彩一般豐富色彩比較單調色彩十分單調感知語音識別識別出輸入的語音音頻內容,轉寫成文本。根據使用場景,應具備:注:語音識別:參考語音識別標準GB/T21023-2007。聲紋識別&聲紋確認12T/CESA1197—2022根據輸入的人聲音頻,辨別人的身份,應包括:聲紋識別能力:從注冊的聲紋庫中,識別出輸入的人聲音頻對應的聲紋;聲紋辨別能力:辨別兩段人聲音頻是否屬于同一個人聲。人臉檢測追蹤定位單模態追蹤定位能力:僅根據視頻文件返回說話人在圖像中的位置坐標;多模態追蹤定位能力:根據視頻及音頻陣列,返回說話人在圖像中的位置坐標。面部表情及頭部動作識別面部表情及頭部動作識別手勢識別根據輸入的視頻,返回視頻中人像手勢的動作,手勢范圍根據使用場景定義。認知自然語言理解(單輪)支持按照廠商擬定的業務流程通過單輪對話方式,完成用戶需求或任務。.2 自然語言理解(多輪)表達形象深度合成2D圖像系統的渲染風格包括2D卡通風格和2D寫實風格,形象表達功能應包括:形象合成:支持人像、配飾、背景等圖像合成;形象編輯:支持人臉、軀干等圖像參數編輯;形象定制:支持個性化形象定制。13T/CESA1197—2022語音深度合成2D圖像系統的語音表達功能應包括:語音合成:支持多情感、多語種、多方言、唱歌、變聲等;語音編輯:支持語速、音色、音量、情感、發音等;語音定制:宜支持定制化語音音頻實時轉換。動作深度合成2D圖像系統的動作表達功能應包括:動作驅動方式:支持文本、語音、視頻、動作捕捉設備等多種動作驅動方式;動作驅動范圍:支持披露口型、面部表情、肢體動作等動作驅動范圍。情感2D2D感知語音識別指系統對用戶進行語音識別的性能表現。其性能表現依據系統中語音識別用途的不同,分別按照GB/T21023-2007中的5.2.1、5.2.2、5.2.3進行評估。聲紋識別及聲紋辨別聲紋辨別按照以下指標進行評估:錯誤拒絕率(FalseRejectionRateFRR):若兩個樣本為同類(同一個人),卻被系統誤(非同一個人FRR錯誤接受率(FalseAcceptanceRateFAR(非同一個人),卻被系統(同一個人FAR例;等錯誤率(EqualErrorRate,EER):調整閾值,使得誤拒絕率(FalseRejectionRate,FRR)等于誤接受率(FalseAcceptanceRate,FARFARFRREER;FAR+FRRACC=1–min(FAR+FRR)。人臉檢測人臉檢測的評估分為兩個步驟:IOUIOUIOU0.5IOUF1追蹤定位14T/CESA1197—2022追蹤定位的評估方式參考.3中人臉檢測的評測方式,以視頻中的每一幀作為圖像進行評估。面部表情及頭部動作識別Preisin(Real、F1macro-F1以及micro-F1(Precision)(Recall)定義參見.1,其它指標定義如式7:式中:
……(公式7)macro-F1——分別計算每個類比的precision和recall,以此計算相應的F1,然后再用類別數平均一下F1,即為macro-F1;micro-F1——以樣本為基本單位,直接計算全局的precision和recall。手勢識別F1macro-F1以及micro-F1,詳細定義見.5。認知性能自然語言處理(單輪)意圖識別率:指系統在單輪會話過程中領域意圖槽位的精確識別能力。精確識別:領域/意圖識別正確;參數/槽位識別正確;回復正確。意圖識別率:精確識別正確的測試數量/總的測試數量自然語言理解(多輪)3D人像系統的自然語言理解(多輪)性能依據具體的用途應符合GB/T36464.3—2018中5.6.4的要求。表達形象.1.1 完好性完好性指系統提供圖像的完好程度。若出現下列情況中任意一種或幾種則視為不完好:——存在嚴重的扭曲;——存在嚴重的馬賽克;——其他破損情況。形象舒適度形象舒適度指系統提供的數字圖像形象讓用戶生理上感到舒適的程度。形象舒適度應包括以下信息:形象好感度:3D人像的形象設計應基本滿足主流用戶需求,用戶基本接受;15T/CESA1197—2022形象自然度:形象語音、動作交互自然,整體自然度良好,與目標人設相符;形象使用愿景:形象設計應考慮用戶的使用愿意,用戶基本愿意使用形象所服務的業務。表11 形象舒適度主觀評分表評測維度描述 得分54321好感度你喜歡該形象嗎?十分喜歡比較喜歡一般不太喜歡十分不喜歡自然度該形象是否自然?十分自然比較自然基本自然不太自然十分不自然使用愿景你愿意使用該形象為你服務嗎?非常愿意比較愿意一般不太愿意十分不愿意語音.2.1 發音錯誤假設WN代表文本總字數,EN代表發音錯誤句數,N代表文本總句數,PE代表發音錯誤字數(多種發音錯誤字數之和)。則:——發音字錯率:——發音句錯率:——準確率總分:韻律準確率假設N代表總用例數,CN代表停頓正確用例數。則:——韻律準確率=(CN/N)*100%語音舒適性16T/CESA1197—2022表12 語音舒適性主觀評分規則評測維度描述 得分54321語音語調整體發音是否標準?十分標準比較標準基本標準個別標準十分不標準發音吐字是否清晰?十分清晰比較清晰基本清晰不太清晰十分不清晰斷詞斷句、停頓是否恰當?十分恰當比較恰當基本恰當不太恰當很不恰當語氣語調是否自然?十分自然比較自然基本自然不太自然十分不自然重讀發音是否得當?十分恰當比較恰當基本恰當不太恰當很不恰當語速表達是否恰當?十分恰當比較恰當基本恰當不太恰當很不恰當流暢連貫度語音表達是否流利?十分自然比較自然基本自然不太自然十分不自然情緒飽滿度按照文本語義和內容,情緒表達是否恰當?十分恰當比較恰當基本恰當不太恰當很不恰當擬人舒適度聲音擬人程度是否和真人一樣?完全無法區分比較相似,與真人語音有細微區別基本相似不太一樣完全不一樣聆聽該聲音時,感受是否愉悅?十分愉悅比較愉悅一般不太愉悅十分不愉悅你愿意使用該聲音為你服務嗎?十分愿意比較愿意一般不太愿意十分不愿意動作.3.1 動作契合度動作契合度指系統中數字人動作與當下語境的契合度。數字人動作類型及其契合度體現見表13所示。17T/CESA1197—2022表13 數字人動作類型及契合度體現序號動作類型契合度體現1嘴唇動作(語音或文本自動生成嘴唇動畫參數。口型準確度:單幀時刻嘴形滿足對應音素的幾何形狀。口型匹配度:單幀時刻嘴形契合對應音素的時間節點。(性)。張嘴和吸唇2眉毛與眼皮動作(如);在數字人說話時,眉毛與眼皮動作符合語音的時序韻律特征。1)涉及眉毛與眼皮的基礎表情動作單元包括內眉毛上揚、內眉毛下降和皺眉;2)涉及眼皮的基礎表情動作單元包括上眼瞼上揚、臉頰提升并眼輪外圈收緊、眼輪內圈收緊、閉眼、眨眼和單眼眨眼3眼球動作作為生理需求,眼球能自主地模仿真實人類的眼球旋轉。作為語義表達渠道,眼球動作能自主地反映出內心狀態(比如:情緒或意圖)4頭旋轉動作作為非語義表達渠道,頭的旋轉動作能自主地表達模仿真實人類的生理動作;在數字人說話時,頭的旋轉動作符合語音的時序韻律特征。傾斜、頭右傾斜、頭前傾、頭后仰、頭上下擺動、頭左右擺動、頭上揚再左/右傾5上身肢體動作(包括軀干關節(旋轉)動作、大臂、小臂和手掌)a)作為韻律節奏動作,在數字人說話時,上身肢體動作符合語音的時序韻律特征。b)作為指示功能性動作,數字人能自主地通過上身肢體動作表達人物關系、空間位置、時間順序、抽象概念等的作用。作為符號功能性動作,數字人能自主地通過上身肢體動作比劃出實體的屬性或行為,來描繪對應的實體或動作。一個抽象性的概念。模擬真實人類進行相關生產生活6下身肢體動作(包括大腿、小腿和腳掌)作為平衡功能性動作,數字人能模擬真實人類下半身肌肉對抗地球重力,有效且自然地維持身體的平衡。作為位移功能性動作,數字人能模擬真實人類下半身肢體動作(如:走、跑、跳等方式的情緒狀態(如:不同情緒狀態下,走路/跑步姿態略有區別)7全身動作多模態動作協調一致,全身(包括嘴唇、眉毛與眼皮、眼球、頭旋轉、上身肢體和下身肢體)共同協作完成表達功能或履行某種功能.3.2 動作舒適性18T/CESA1197—20.4 情感.4 情感表15 情感表達主觀評分規則3D功能評測維度描述 得分54321口型自然度口型是否自然?十分自然比較自然基本自然不太自然完全不自然面部表情自然度面部表情是否自然?十分自然比較自然基本自然不太自然十分不自然肢體動作自然度肢體動作是否自然?十分自然比較自然基本自然不太自然十分不自然評測維度描述 得分54321形象匹配度整體情感與形象人設是否匹配?十分匹配比較匹配基本匹配不太匹配十分不匹配語意匹配度整體情感與當前文本或語音是否匹配?十分匹配比較匹配基本匹配不太匹配十分不匹配感知語音識別3D人像系統的語音交互功能應包括:單輪對話:支持按照廠商擬定的業務流程通過單輪對話方式,引導用戶完成任務;多輪對話:支持按照廠商擬定的業務流程通過多輪對話方式,引導用戶完成任務;全雙工語音交互:支持系統與用戶進行全雙工語音交互,模擬人與人自然交流方式;視覺識別3D人像系統宜支持人臉檢測交互功能,其視覺識別功能應包括:主動招攬交互:當檢測到人體時,可主動招攬用戶,獲得關注;19T/CESA1197—2022動作表情配置:可通過語義配置系統形象作出對應的動作,如揮手,鞠躬等;手勢交互:當檢測到特定手勢時,系統可對應語音或動作反饋。認知自然語言理解3D人像系統的自然語言理解功能應包括:內容理解:應支持簡稱、別稱、代碼、數字理解;容錯理解:應支持對典型錯別詞的容錯理解;概念間語義理解:應支持概念間語義理解、部分整體關系理解、地理位置關系理解、因果關系理解、時序關系理解、近義關系理解。表達3D人像系統的渲染風格包括3D3D寫實風格與3D3D人像系統的渲染風格包括3D3D寫實風格與3D3D3D寫實系統為用戶提供近似真人比例的渲染形象。3D超寫實系統為用戶提供嚴格參照真人比例的渲染形象。語音3D人像系統的語音表達功能應包括:語音合成能力:支持多情感、多語種、多方言、唱歌、變聲等語音合成能力;語音編輯能力:支持語速、音色、音量、情感、發音等多項語音編輯能力;語音轉換能力:宜支持定制化語音音頻實時轉換的能力。動作3D人像系統的動作表達功能應包括:動作驅動方式:支持文本、語音、視頻、動作捕捉設備等多種動作驅動方式;動作驅動范圍:支持披露口型、面部表情、肢體動作等動作驅動范圍。情感3D人像系統的情感表達功能應支持面部情感,包括喜,怒,哀,樂等情感表達方式。性能感知語音識別3D人像系統的語音識別性能應依據具體的語音識別用途符合GB/T21023-2007中5.4的要求。視覺識別3D人像系統的人臉檢測性能應符合以下要求:人臉檢出率應不低于90%;人臉誤檢率應不高于5%。注1:人臉檢出率為人臉檢測結果中正確檢測為人臉圖像的數量占人臉圖像總數量的比例。20T/CESA1197—2022注2:人臉誤檢率為人臉檢測結果中非人臉圖像數占檢出圖像總數的比例。認知自然語言理解3D人像系統的自然語言理解性能應符合GB/T36464.3—2018中的要求。表達形象.1.1 完好性3D人像系統中3D人像若出現下列情況中任意一種或幾種則視為不完好。——存在嚴重的變形;——存在沒焊接的點;————存在沒焊接的點;——存在破面;——其他破損情況。.1.2 形象舒適3D人像形象舒適度應包括以下信息:形象好感度:3D形象自然度:形象語音、動作交互自然,整體自然度良好;形象使用愿景:形象設計應考慮用戶的使用愿意,用戶基本愿意使用形象所服務的業務。精細度3D人像精細度應包括以下信息:人物模型的面數;人物面部細節建模情況,如眼球,晶狀體,睫毛,口腔內部結構及毛發等;人物面部布線結構;人物貼圖分辨率;人物身體及服飾綁定層級和復雜度;人物身體、面部及服飾的模型點數;人物身體、面部及服飾的骨骼數量。語音.2.1 發音準確率3D人像系統的文本發音準確率應不低于95%,包括漢字、英文字母、數字等。韻律準確率3D人像系統的韻律準確率應不低于90%,包括但不限于標點停頓、語氣停頓等。語音舒適性21T/CESA1197—2022系統合成語音應讓用戶生理行感到舒適;其中,語音語調應基本標準、表達自然連貫、情緒比較自然。動作.3.1 動作契合系統的動作應與語境基本契合,動作契合度類型和指標見表16。表16 動作契合度類型和指標序號動作類型契合度指標1嘴唇動作(語音或文本自動生成嘴唇動畫參數。作為語義表達渠道,嘴唇動作能自主地根據內心表達需要(比如:情緒或意圖)生成合理的嘴型2眉毛與眼皮動作作為非語義表達渠道,眉毛與眼皮動作能自主地展示模仿真實人類的生理需求(如:眨眼);在系統形象說話時,眉毛與眼皮動作符合語音的時序韻律特征。作為語義表達渠道,眉毛與眼皮動作能自主地展示與內心狀態一致的情緒或意圖3眼球動作作為生理需求,眼球能自主地模仿真實人類的眼球旋轉。作為語義表達渠道,眼球動作能自主地反映出內心狀態(比如:情緒或意圖)4頭部動作a)作為非語義表達渠道,頭的旋轉動作能自主地表達模仿真實人類的生理動作;在數字人說話時,頭的旋轉動作符合語音的時序韻律特征。作為語義表達渠道,頭的旋轉動作能夠自主地表達符合場景需求的語義信息,比如:點頭和搖頭5上身肢體動作a)作為韻律節奏動作,在系統形象說話時,上身肢體動作符合語音的時序韻律特征。b)作為指示功能性動作,系統形象能自主地通過上身肢體動作表達人物關系、空間位置、時間順序、抽象概念等的作用。為,來描繪對應的實體或動作。作為比喻功能性動作, 系統形象能自主地通過上身肢體動作構建一個空間來示一個抽象性的概念。作為操作功能性動作,系統形象能自主地通過上身肢體動作有效且自然地操作物體,模擬真實人類進行相關生產生活6下身肢體動作自然地維持身體的平衡。作為位移功能性動作,系統形象能模擬真實人類下半身肢體動作(如:走、跑、跳等方式的情緒狀態(如:不同情緒狀態下,走路/跑步姿態略有區別).3.2 動作舒適性14。深度合成人像防偽檢測性能要求檢測結果22T/CESA1197—2022真陽性(TP):將合成媒體文件檢測為合成文件的數量;真陰性(TN):將真實媒體文件檢測為真實文件的數量;假陽性(FP):將真實媒體文件檢測為合成文件的數量;假陰性(FN):將合成媒體文件檢測為真實文件的數量。正確率檢測分類正確的圖像文件占全部輸入圖像文件的比例。計算公式為式8:…………………(公式8)錯誤率檢測分類錯誤的圖像文件占全部輸入圖像文件的比例。計算公式為式9:…………………..(公式9)召回率正確檢測出的合成圖像文件占全部正確檢測文件的比例。計算公式為式10:………………….(公式10)精確率正確檢測出的合成圖像文件占全部被檢測分類為合成圖像文件的比例。計算公式為式11:……………….(公式11)合成區域精度預測合成區域與真實合成區域之間的交并比。計算公式為式12:……………………..(公式12)式中:A——預測合成的區域;B——真實合成的區域。平均檢測時間13:
針對輸入的多個媒體文件,統計每個文件的檢測時長,計算平均檢測時間。計算公式為式…………..(13)…………….(14)23T/CESA1197—2022式中:——第i條數據的檢測時間;——i條數據輸入結束的時間點;——i條數據輸出檢測結果的時間點;N——輸入數據的總條數;——測試集上所有數據的平均檢測時間。F1衡量二分類模型精確度的一種指標,是模型精確率和召回率的一種調和平均。計算公式為式15:…………(公式15)式中:式中:precision——準確率;recall——召回率。6.4.9 穩定性7天(云端)/3天(嵌入式)后:物理內存:應平穩無明顯增長;虛擬內存:應平穩無明顯增長;CPU占用:應平穩無明顯增長;句柄數:應平穩無明顯增長;GPU占用:應平穩無明顯增長。7 深度合成圖像系統測試評價方法深度合成圖像系統通用測試圖像生成性能場景匹配度測試方法:主要通過技術測試的方法進行評估。將系統生成后的圖像統一分配給K(K≥15位測試人員,依據.1表1進行主觀打分,最后取均值。評價方法:場景匹配度達到讓用戶感到比較匹配的程度。視覺自然度指系統生成的圖像讓用戶視覺上感到自然和諧的程度。該指標為主觀性評估指標。測試對象:系統生成的圖像內容;測試方法:主要通過技術測試的方法進行評估。將系統生成后的圖像統一分配給K(K≥15)位測試人員,依據.22進行主觀打分,最后取均值。24T/CESA1197—2022評價方法:視覺自然度達到讓用戶感到比較自然的程度。圖像合成性能目標檢測性能MAP測試方法:對數據集進行標注得到其各個類別物體的真實框,通過系統預測得到預測框,按照.1中的方法計算系統的MAP。實例分割性能MIoU測試方法:對數據集進行標注得到其各個類別物體的真實邊緣,通過系統預測得到預測邊緣,按照.2中的方法計算系統的MIoU。位置跟蹤性能目標的跟蹤結果,根據.3中的方法計算系統的EAO值。和諧化性能目標的跟蹤結果,根據.3中的方法計算系統的EAO值。和諧化性能融合視覺合理性測試對象:系統融合不同圖像內容后得到的圖像測試方法:主要通過技術測試的方式進行評估。將系統融合后的圖像統一分配給K(K≥15)位測試人員,依據.4.13進行主觀打分,最后取均值作為融合后圖像的合理性得分。評價方法:視覺合理性達到讓用戶感到比較合理的程度。融合視覺自然度測試對象:系統融合不同圖像內容后得到的圖像測試方法:主要通過技術測試的方式進行評估。將系統融合后的圖像統一分配給K(K≥15)位測試人員,依據.4.24進行主觀打分,最后取均值作為融合后圖像的自然度得分。評價方法:視覺自然度達到讓用戶感到比較自然的程度。7.1.3 圖像修復性能圖像缺陷修復PSNR、SSIM根據..3.1.2提出的計算方式計算PSNR和應高于指標應高于0.7。視覺缺陷程度指系統對圖像修復前后,用戶判斷缺陷的程度。該指標為有參考主觀性評估指標。測試對象:深度合成通用圖像系統對有缺陷圖片修復前后的圖像。(均準備一組不同程度(缺陷程度由弱到強劃分為5檔,最弱為無缺陷,最強為缺陷很嚴重)的缺陷圖像,提供給K(K≥15)位測試人員作為參考圖像。另提供一組有不同程度、不同缺陷的圖像及其對應的通過系25T/CESA1197—2022統修復后的圖像,由測試人員依據.2表5所示評分標準相互獨立地對修復前后的缺陷程度進行有參考主觀打分,最后取平均值作為修復前后的缺陷程度。圖像內容缺失補全性能PSNR、SSIM測試對象:系統修復的補全后圖像。測試評價方法:根據.1.1部分計算PSNR和SSIM指標,PSNR應高于25dB,SSIM應高于0.5。視覺自然度測試對象:系統對內容缺失圖像補全后的圖像測試評價方法:主要通過技術測試的方式進行評估。將系統補全后的圖像統一分配給K(K≥15)位測試人員,依據表2進行主觀打分進行主觀打分,最后取均值。圖像顏色缺失補全及修復性能FID、PSNR、SSIM測試對象:經系統補全顏色后的圖像,其中參考圖像選取為有正常顏色的原圖像。測試方法:根據.1.1部分計算PSNR和SSIM指標,根據.1(a)部分計算FID指標,系統補全顏色后的圖像集與imagenet數據集的FID應低于3,PSNR應高于21dB,SSIM應高于0.5。顏色視覺合理性測試對象:對不合理顏色進行修復前后的圖像測試評價方法:主要通過技術測試的方式進行評估。將系統修復前后的彩色圖片統一分配給K(K≥15)位測試人員,依據.3.3表6進行主觀打分,最后分別取修復前后的均值作為修復前后的得分,修復后得分減去修復前得分即為修復帶來的主觀合理性提升。顏色視覺舒適度測試對象:系統對顏色缺失圖像補全后的圖像。測試方法:主要通過技術測試的方式進行評估。將系統補全顏色后的圖像統一分配給K(K≥15)位測試人員,依據.3.4表7進行主觀打分,最后取均值作為補全后的舒適度得分。測試對象:對不合理顏色進行修復前后的圖像。測試評價方法:將系統修復前后的彩色圖片統一分配給K(K≥15)位測試人員,依據.3表7進行主觀打分,最后分別取修復前后的均值作為修復前后的舒適度得分,修復后得分減去修復前得分即為修復帶來的主觀舒適度提升。圖像增強性能圖像分辨率提升性能PSNR、SSIM測試對象:經系統提升分辨率后的圖像,其中參考圖像選取為高分辨率的原圖像。26T/CESA1197—2022(如4k分辨率(如2k分辨率.1.1計算PSNR和SSIMPSNR應高于應高于0.7。視覺清晰度測試對象:深度合成通用圖像系統提升分辨率前后的圖像。.3 視覺自然度測試對象:系統對圖像進行分辨率提升后的圖像測試評價方法:由測試人員依據.2表2相互獨立地對提升分辨率后的圖像自然度進行有參考主觀打分,最后取平均值作為提升分辨率后的圖像自然度。視頻幀率提升性能PSNR、SSIM(如PSNR應高于29dB,SSIM應高于0.6。視覺流暢度測試對象:深度合成通用圖像系統提升幀率前后的視頻。.3 視覺自然度測試對象:系統對圖像進行分辨率提升后的圖像測試評價方法:由測試人員依據.2表2相互獨立地對提升分辨率后的圖像自然度進行有參考主觀打分,最后取平均值作為提升分辨率后的圖像自然度。視頻幀率提升性能PSNR、SSIM(如PSNR應高于29dB,SSIM應高于0.6。視覺流暢度測試對象:深度合成通用圖像系統提升幀率前后的視頻。(流暢程度由弱到強劃分為多檔,最弱為十分卡頓,最強為十分流暢,此處以5檔為例)的圖像,提供給K(K≥15)位測試人9相互獨立地對提升幀率前后的流暢程度進行有參考主觀打分,最后取平均值作為.3 視覺自然度測試對象:系統對視頻進行幀率提升后的視頻2相互獨立地對提升幀率前后的自然度進行有參27T/CESA1197—2022圖像動態范圍提升性能PSNR、SSIM測試對象:經系統提升動態范圍所生成的對應圖像,其中參考圖像選取為原視頻中的圖像。測試評價方法:選取一組高動態范圍(如10bit)的視頻作為原視頻;將原視頻的動態范圍進行下(如.1.1計算PSNR和SSIMPSNR應高于應高于0.6。視覺豐富度測試對象:深度合成通用圖像系統提升幀率前后的視頻。一組不同程度(程度由弱到強劃分為多檔,最弱為無缺陷,最強為缺陷很嚴重,此處以5檔為例)的高動態范圍視頻,提供給K(K一組不同程度(程度由弱到強劃分為多檔,最弱為無缺陷,最強為缺陷很嚴重,此處以5檔為例)的高動態范圍視頻,提供給K(K≥15)位測試人員作為參考視頻。另提供一組由系統提升動態范圍前后的視頻,由測試人員依據.3.210在HDR顯示器上相互獨立地對動態范圍提升前后的視覺豐富度進2D測試方法概述針對2D真人形象類虛擬數字人應用系統的評估方法包括材料檢查和技術測試兩類測評方法,具體如下:材料檢查:對指標的說明文檔或證明文檔進行查看;技術測試:指使用預定的方法/工具使測評對象產生特定的結果,將運行結果與預期的結果進行比對驗證的過程。感知 語音識別指系統對用戶進行語音識別的性能表現。其性能表現依據系統中語音識別用途的不同,分別按照GB/T21023—2007中的5.2.1、5.2.2、5.2.3進行評估。聲紋識別及聲紋辨別測試方法:.2(兩條音頻屬于同一聲紋(兩條音頻不屬于同一聲紋).2人臉檢測測試方法:建立人臉評測集,取得模型檢測結果,分別計算每張圖片的IOU值,再計算準確率、召回率及F1。28T/CESA1197—2022追蹤定位測試方法:建立視頻或視頻+音頻的評測集,取得模型追蹤定位結果,計算準確率、召回率及F1。面部表情及頭部動作識別測試方法:建立評測集,取得模型識別結果,計算精確率、召回率、F1、macro-F1以及micro-F1。手勢識別測試方法:建立評測集,取得模型識別結果,計算精確率、召回率、F1、macro-F1以及micro-F1。認知自然語言理解(單輪)自然語言理解(多輪)表達形象完好性測試對象:2D真人形象類虛擬數字人應用系統中數字人的形象完好性。.1.1測試對象:2D真人形象類虛擬數字人應用系統中數字人的形象舒適性。評價方法:形象上達到讓用戶生理上感到舒適的程度。語音發音準確率真人形象類虛擬數字人應用系統中數字人的發音準確性。(英文記錄發音錯誤的單詞數注1:普通文本數據是指除了常見字以外,不存在多音字、數字、符號、聲調發音等特殊情況的文本數據。29T/CESA1197—2022注2:特殊文本數據是指存在多音字、數字、符號、聲調發音等特殊情況的文本數據。韻律準確率測試對象:2D真人形象類虛擬數字人應用系統中數字人的韻律準確性。語音舒適性測試方法:主要通過技術測試的方式進行評估,考察數字人形象是否滿足.2.3的要求。將系統生成的視頻統一分配給K(K≥15)位有專業背景知識的測試人員,依據表12進行主觀打分,最后取均值。動作測試方法:主要通過技術測試的方式進行評估,考察數字人形象是否滿足.2.3的要求。將系統生成的視頻統一分配給K(K≥15)位有專業背景知識的測試人員,依據表12進行主觀打分,最后取均值。動作動作契合度指系統中數字人動作與當下語境的契合度。該指標為主觀性評估指標。測試對象:2D真人形象類虛擬數字人應用系統中數字人的動作契合度。測試方法:主要通過技術測試的方式進行評估,考察數字人形象是否滿足.3.1的要求。將系統生成的視頻統一分配給17評分規則對不同動作類型進行主觀打分,最后取均值。評價方法:動作契合度達到讓用戶生理上感到舒適的程度。表17 動作契合度主觀評分規則評測維度描述 得分54321嘴唇動作嘴唇動作是否與語音或文本契合?十分契合比較契合一般不太契合十分不契合眉毛與眼皮動作眉毛與眼皮的動作是否與語音契合?十分契合比較契合一般不太契合十分不契合眼球動作眼球動作是否自然?能夠自然反應語義表達意圖?十分自然比較自然一般不太自然十分不自然頭部動作頭部動作是否自然?能夠自然反應語義表達意圖?十分自然比較自然一般不太自然十分不自然上身肢體動作上身肢體動作能否與語音契合?十分契合比較契合一般不太契合十分不契合下身肢體動作下身肢體動作能否與語音契合?十分契合比較契合一般不太契合十分不契合.2 動作舒適性指系統中的數字人動作讓用戶生理上感到舒適的程度。該指標為主觀性評估指標。30T/CESA1197—2022測試對象:2D真人形象類虛擬數字人應用系統中數字人的動作舒適性。測試方法:主要通過技術測試的方式進行評估,考察數字人形象是否滿足.3.2的要求。將系統生成的視頻統一分配給K(K≥15)位有專業背景知識的測試人員,通過參考表14評分規則對舒適度進行主觀打分,最后取均值。評價方法:動作舒適性達到讓用戶生理上感到舒適的程度。 情感指系統中的數字人面部表情與當前場景的匹配程度。該指標為主觀性評估指標。測試對象:2D真人形象類虛擬數字人應用系統中數字人的情感匹配度。測試方法:主要通過技術測試的方式進行評估,考察數字人形象是否滿足.4的要求。將系統生成的視頻統一分配給K(K≥15)位有專業
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 微信推廣合同協議
- 診所兼職合同協議
- 水電項目合同協議
- 石材勞動合同協議
- 資金補充合同協議
- 影視置景合同協議
- 整棟別墅遷移協議書
- 泳池承包合同協議
- 貼膜服務合同協議
- 游艇設計合同協議
- 人工智能大模型
- 入學教育學習通超星期末考試答案章節答案2024年
- 1輸變電工程施工質量驗收統一表式(線路工程)-2024年版
- 中國鐵路南昌局集團有限公司招聘筆試題庫2024
- 2024年全國鄉村振興職業技能大賽“育嬰”賽項考試題庫(決賽用)
- TSHJX 067-2024 基于TACS的全自動運行線路綜合聯調技術規范
- MMG-23600-特種車輛市場調研報告全球行業規模展望2024-2030 Sample-Zjh
- 中國經濟史教學課件第八章近代農業經濟的發展
- 2024兒童血壓測量規范
- 2024年四川省瀘州市江陽區小升初數學試卷
- 2024年廣東省普通高中學業水平選擇性考試地理試題
評論
0/150
提交評論