中國智能語音行業報告_第1頁
中國智能語音行業報告_第2頁
中國智能語音行業報告_第3頁
中國智能語音行業報告_第4頁
中國智能語音行業報告_第5頁
已閱讀5頁,還剩40頁未讀 繼續免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

1、凝望璀璨星河:中國智能語音行業研究報告2摘要來源:艾瑞自主研究繪制。人類對機器語音識別的探索始于20世紀50年代,迄今已逾70年。2016年,在深度 神經網絡的幫助下,機器語音識別準確率第一次達到人類水平,意味著智能語音技 術落地期到來。不過人們面對“AI”時希望得到自然、類人的交互體驗,這是一個 宏偉的開放性課題,背后涉及的各學科技術仍有不足,還面臨長期的求索方能突破。消費級智能硬件是最早顯示出市場潛力的賽道,市場各方都在瞄準消費級智能交互 終端。而智能終端的背后還有廣闊的生態,包括語音開放平臺、語音操作系統、內 容等等,近年行業正在經歷從單一商業模式向多元化商業模式的變遷,技術輸出的 “厚

2、度”增加,“邊界”擴大,也帶來了技術落地曲線的加速度增加。智能語音企業級和公共級市場主要有平臺化技術輸出和解決方案兩類商業模式,解 決方案業務占比較高。與國外市場以醫療為重頭有所差異,我國市場以智能客服、 公檢法及教育業務份額更高。智能語音為各行業解決了剛需性問題,將促進各行業 業務效率的提升。目前全國約有超過250家企業參與智能語音語義市場。互聯網巨頭、技術提供方、 設備商和行業集成商應分別重視連續性投入支持問題、基礎開發模塊標準化程度提 升與商務團隊配置問題、設備后服務增長問題和軟件研發能力建設問題,迎接人機 交互升級帶來的行業價值鏈擴張。3智能語音相關技術概述1子研究(1/3)消費級市場

3、2子研究(2/3)企業級與公共級市場3子研究(3/3)市場參與者4寫在最后5目錄智能語音的概念智能語音即實現人與機器以語言為紐帶的通信智能語音即實現人與機器以語言為紐帶的通信。人類大腦皮層每天處理的信息中,聲音信息占20%,它是溝通最重要的紐 帶,人機對話將方便人們的工作與生活。完整的人機對話包括聲音信號的前端處理、將聲音轉為文字供機器處理、在機器 生成語言之后,用語音合成技術將文本語言轉化為聲波,從而形成完整的人機語音交互。來源:艾瑞2018年中國人工智能行業研究報告;百度AI。人機對話的實現流程對話輸入與 前端處理ASR語音識別NLU語音理解NLG語言生成TTS語音合成對話輸出010203

4、0408070605DST對話狀態維護Policy動作候選排序信號及語音NLP4智能語音的前情提要(1/3)來源:艾瑞根據公開資料自主研究繪制。外耳中耳:聲音傳遞內耳:聲波轉換聲音收集將聲能轉化成機械能并放大, 把聲波傳送至內耳通過毛細胞將聲波機械能轉化為 生物電信號,經由聽神經傳導聽覺中樞縱跨腦 干、中腦、丘腦 的大腦皮層聽覺中樞:主觀聽覺感受聽覺掩蔽噪聲分離空間聽覺聲源定位、聲源 分離和環境感知判斷聲音起止感知聲音特征與管理“讀”、“寫”、“說”的語言中樞關聯”人們之所以能聽到聲音、現解言語,是依賴于由耳、聽神經、聽覺中樞組成的聽覺通路。其中,聽覺的形成部位是聽覺中樞“”機器的聞音知意本質

5、上是對聲音特征和文本的分類任務,當然通過聲學技術保障拾音效果同樣重要。如果需要機器感知聲音的起止和音色等特征,還需要另外進行信號處理與特征分類任務“機器“聽覺”本質上是對聲音特征和文本的分類任務人的聽覺形成過程是將聲能轉變為機械能、再轉為生物電信號,在聽覺中樞加工、分析的結果,而機器的“聽覺”則經過聲音信號-音頻信號-電信號-特征向量-解碼為文字-理解的過程,本質是對聲音特征和文本的分類任務(將字音分類對應為文字、將文字對應為潛在語義),如果需要機器感知聲音的起止和音色等特征,還需要另外進行信號處理與特征分類任務。人與機器的“聞音知意”麥克風陣列 拾音器接收聲音信號轉化為音頻 信號并放大聲源定

6、位去混響語音增強聲源信號提取/分離將模擬信號轉化為電信號,用向量描述信號的 多維特征(如用MFCC特征刻畫聲音的頻譜、 共振峰等)將特征識別為狀態,組合成音素(聲學模型)根據語言表達的特點,選取音素所對應的正確 的文字,最終完成由向量轉化為文字的過程(語言模型)語音識別語言理解根據文本,通過領域識別模塊識別對 話發生的背景領域,再通過人的意圖 檢測模塊識別出人希望觸發的行為通過槽填充,補全人的意圖,將隱式 的意圖轉化為顯式的指令,為機器提 供一個規范的語義表示5基于簡單的模板 匹配的方法進行 針對特定人的孤 立數字語音識別 出現基于大詞匯量 的連續語音識 別系統開始出 現語音合成的參 數合成法

7、出現,能合成出比較自然的語音隱馬爾科夫模型(HMM)和 高斯混合模型(DMM)應用:語音識別轉向基于概率統計建模的方法神經網絡開始用于語音識 別,但效果不明顯語音合成PSOLA算法被提出,解決了語音段的 拼接問題入式設備應用模板匹配方法主導概率統計建模方法主導深度神經網絡方法主導起步期變革式發展期落地可用期可訓練的語音合成 Hiton提出用深度置方法提出,適合嵌 信網絡初始化神經網絡,掀起了深度 學習浪潮語音識別開始從孤 立詞識別系統向大 詞匯量連續語音識 別系統發展任務上性能顯著提升科大訊飛首個深度神經網絡中 文語音識別系統上線基于DNN的聲紋識別率提升了30%技術變遷技術階段Tacotro

8、n 、語音喚醒 WaveNet上線,采用深度 端到端語音合成微軟DNN(深度神經網絡) 學習技術 成為潮流HMM在大詞匯量連續語音識別 遠場喚醒 端到端的語音識產品化別廣泛應用,準DNN的出現使語音 機器語音識別準確 識別錯誤率第一次率第一次達到人類 大幅度降低(接近水 平 (95%) 90%)智能語音技術發展歷程示意圖(以語音領域模式識別為主)確率進一步提升遠場語音識別和喚醒 進一步發展全雙工語音交互出現智能語音的前情提要(2/3)1950s1970s1980s1990s20062011201620172018注釋:(1)目前端到端的語音合成指打通文本端-聲學端,或聲學端-波形端,直接從文本

9、到波形的端到端尚不能實現;端到端的語音識別也是指打通聲音特征端-文本端,波形-信號處理-聲學模型-語音模型-文本的端到端尚不能實現。端到端的方法有助于訓練效率和效果提升。(2)準確率數據指近場語音識別準確率。深度神經網絡是智能語音技術近年達到落地可用的推動器2011年,微軟研究院提出的基于上下文相關深度神經網絡和隱馬爾可夫模型的聲學模型在大詞匯量連續語音識別任務上獲 得了顯著的性能提升,從此大量研究人員開始轉向深度學習在智能語音領域的研究,2016年,機器語音識別準確率第一次 達到人類水平,意味著智能語音技術的落地期到來。近年,研究方向主要是端到端神經網絡及針對實際應用中的算法優化。準確率可

10、達98%根據實際應 用痛點針對 性優化來源:艾瑞根據Economist、公開資料、專家訪談,整理研究繪制。6智能語音的前情提要(3/3)所涉學科及其研究任務聲學信號聲源定位用于確定聲源方向和距離,主要應用于語音交互設備對聲源進行定位和海洋聲學中的聲源定位/方位估計。主流方法包 括波束形成,超分辨譜估計和TDOA等語音增強當語音信號被各種各樣的噪聲干擾后,深度神經網絡模型利用大量數據,對噪音成分和語音成分進行有效估計,從含 噪聲的語音信號中提取出純凈語音,對于智能語音的完成非常重要去混響弱化混響引起的不同步的語音相互疊加、從而提升語音識別效果。主要方法有基于盲語音增強的方法、基于波束形成的方法、

11、基于逆濾波的方法回聲抵消即自噪聲抑制,去除語音交互設備自己發出的聲音,而只保留用戶的人聲其他方向將機器學習應用進生物聲學、地質探測等模式識別聲紋識別生物識別技術的一種,從應用方向看包括說話人辨認(匹配特定說話人)、確認與聚類(區分不同說話人音頻片段), 需要用到聲學處理和深度神經網絡處理人說話時的短時頻譜、聲源、時序動態、韻律等特征語音喚醒屬于信號處理(SSP)的一部分。在連續語流中實時檢測出說話人特定片段,將設備從休眠狀態激活至運行狀態。實 現方法有基于置信度、基于識別和基于垃圾詞網絡的喚醒;目前主流應用類型有:先喚醒再指令、將喚醒詞和指令一 同說出、將常用用戶指令設置為喚醒詞等。目前遠場的

12、智能硬件設備如機器人、智能音箱可支持3-5米的遠場喚醒語音識別通過將人類語音轉換為計算機可讀的輸入,由特征提取、聲學模型、語言模型組成,包括近場識別、遠場識別,近年 的應用中還涉及切分說話人、全雙工語音等特定聲音檢測通過特征提取與算法訓練,使機器能夠完成對不同人群、不同樂音等特定聲音檢測謊言檢測提取謊言中微顫抖所引起的語譜局部能量變化,將所提取的特征作為神經網絡輸入進行謊言識別自然語言處理自然語言理解將用戶的輸入映射到預先根據不同場景定義的語義槽中,讓機器理解語言的意思。通常包括三個任務:領域檢測、意 圖識別和語義槽填充對話管理考慮歷史對話信息和上下文的語境等信息進行全面地分析,決定系統要采取

13、的相應的動作,如追問、澄清和確認等。主要任務有:對話狀態跟蹤和生成對話策略。實現途徑上,目前有檢索模型、生成模型等。自然語言生成將機器輸出的抽象表達轉換為句法合法、語義準確的自然語言句子語音合成語音合成把文字智能地轉化為自然語音流,也就是輸入是文本 ,輸出是波形 ;近年個性化TTS、帶有情緒的TTS成為熱點來源:艾瑞根據CSDN、中科院聲學研究所、計算機學報、知乎專欄子魚說聲學等公開資料研究繪制。72020年建議重點關注的技術方向(1/3)聲學感知空間環境:解決多智能設備無法配合的困擾隨著智能語音算法基礎性能不斷提升,識別準確率、時延問題已不再是交互體驗的核心痛點,人們希望讓智能設備具備更 多

14、的基本能力,例如能夠感知環境,當同一個房間里有多個智能交互設備或多臺智能交互設備分布在不同的房間時能準確 喚醒,過去通過設備間藍牙通信可以解決由哪臺設備被喚醒與人對話,但無法解決相關的家居控制執行問題。2019年,業 內玩家開始重視將聲學感知空間的能力與交互系統結合起來,實現多智能交互設備的就近喚醒應答,避免多設備重復響應 和執行指令,在這種情形下并不存在某個中心交互設備,因此也被稱為分布式場景。未來,設備之間的隔閡可能被進一步打破,如使任何形態、任何配置的終端設備通過連接協議實現AI能力共享、算力共享(而不僅限于目前用一個設備通過連接協議對其他設備語音控制),就可能使場景內適宜拾音的設備與人

15、交互、適宜功放 的設備配合放音,使多設備的協同達到效率最優。聲學空間特征與環境感知根據房間模型、聲學 場景分類、事件檢測 來優化響應方式空間聲場各型號甚至形態的設 備降噪去混響、環繞 立體聲播放AI能力共享、算力共享 多設備的協同達到效率 最優應用就近喚醒 根據距離、朝向選擇 最適合應答的設備, 控制當前空間的家電同型號多設備立體聲同步播放 區分左右聲道,達 到較好的音樂體驗多房間同時播放精確同步展望聲學空間感知進步、IT架構和連接協議開放智能交互終端分布式場景的應用與展望來源:艾瑞根據小米小愛同學3.0,華為HiAI3.0公開資料自主研究繪制。82020年建議重點關注的技術方向(2/3)全雙

16、工語音:由處理語音消息升級為處理語音流鑒于目前機器的智能語音交互能力是基于分類任務實現的,其智能程度的提升有賴于技能一項一項地填充補足,最終使交 互體驗得到質變。上文介紹了人機對話和語音識別(ASR)的基本實現過程,相比于普通以語音消息作為交互的人機對話, 全雙工則是處理語音流,能夠實時預測人類即將說出的內容,實時生成回應,并控制對話節奏。多家廠商在持續投入全雙 工的研發,全雙工、多輪對話、單輪對話對比如下:全雙工只需一次喚醒,保持進行連續的語音流分析(機器保持聽+想的狀態,即使在它回話的時候也同步在聽和想);多輪對話只需一次喚醒,聽、想、說分離,機器會在它的本句 回話完成后才再次開始聽用戶說

17、話、聽完再分析;單輪對話每一次用戶說話前都需要先喚醒設備。除了基本的對話IQ與EQ外,讓機器實現跨情景流暢切換的全雙工(如內容、導航、查詢、設備控制的跨情景切換)也是重要研究方向,目 前市場上絕大部分機器都只支持單輪對話或多輪對話,真正搭載了完整、成熟全雙工語音能力的產品還很少。全雙工語音的智能之處以微軟小冰為例節奏控制更快響應減少用戶等待焦慮基于生成模型的NLP基于共感模型的對話策略邊聽邊思考連續語音識別基于語言預測的平行處理機制 非對稱的多段式處理機制 節奏控制器內容池的資源調度 多任務協調:特定聲音檢測、聲紋識別、動態音量調節場景理解學會引導對話內容學會“離開”更懂事學會記憶學會傾訴 學

18、會傾聽解鎖交流的藝術單次平均對話輪數(CPS): 23輪來源:根據微軟小冰第六代、第七代產品發布會,艾瑞自主研究繪制。9對話引擎的服務要素2020年建議重點關注的技術方向(3/3)知識庫無結構文本知識日志分析工具實體-關系型知識庫對話管理編程框架知識庫構建工具語言理解結構分析型理解語義匹配型理解端到端型理解對話管理分發式對話管理流程式對話管理異常對話處理與在線學習知識庫鍵-值型知識庫開發工具對話理解開發環境問答與對話技能功能點對話引擎的功能要素對話引擎:支撐問答與對話內容實現的核心對話引擎是支撐人機交互中問答和對話內容實現的核心,廣泛應用于智能客服、智能交互設備、智能車載系統等領域,核 心功能

19、包括語言理解力、對話管理、知識庫和幫助開發者定制開發擴展應用的工具。知識的指導對對話引擎十分重要,其 中知識圖譜及圖譜知識庫構建工具能夠直接從業務文檔抽取知識、建立規則,而不局限于整理好的問答對,這不僅可以幫 助機器找到直接的答案來源,還可以使機器依據元素的屬性與關系理解語義、形成話題推薦等對話策略。對話引擎的能力矩陣以百度UNIT為例豐富的預置技能與資源 多樣化的部署方案SLA與合理的定價完善的培訓與認證體系來源:根據百度UNIT3.0,艾瑞自主研究繪制。10本章小結技術閉環完成度有待提升,面臨長期的求索方能突破智能語音背后涉及的聲學研究、模式識別研究、通用NLP研究及垂直場景的深度語義理解

20、等還未成熟到拼成一個沒有明顯 短板的“木桶”,在交互體驗、使用效果、場景性優化等方面都還有很長的路。與人工智能發展最快的分支計算機視覺相 比,盡管二者都憑借深度學習取得重大突破,并在識別準確率上達到人類水平,但計算機視覺通過人臉識別這一大技術分 支便高完成度地解決1:1或1:N比對問題,快速滲透到了各行各業;智能語音技術要解決的卻遠遠不是1:1或1:N的比對, 而是人們面對“AI”時希望得到的自然、類人、甚至高信息密度的交互體驗,這是一個宏偉的開放性課題,因此盡管智能 語音已取得了一些商業上的成就,但仍面臨長期的求索方能突破。智能語音與計算機視覺的差異智能語 音計算機視覺落地效果技術閉環完成度

21、計算機視覺:以人臉識別為代表的圖像分 類技術主要解決1:1或1:N比對問題,解 決場景問題的技術閉環基本形成智能語音:解決人們面對“AI”時希望得 到的自然、類人、以及一些場景下需要高 信息密度的交互體驗的問題,相關技術還未成熟到拼成一個沒有明顯短板的“木桶”來源:結合艾瑞2017年中國計算機視覺行業研究報告,自主研究繪制。11子研究(1/3)2019年市場超兩千億元消費級智能硬件智能音箱研究單元 語音輸入法消費級市場語音助手及其發展歷程來源:根據公開資料,艾瑞自主研究繪制。20142016國內蟲洞語陸續上線20182019中國智能音箱 銷量突破百萬科大訊飛第二代汽車語音 助理發布,上線語音喚

22、醒 詞、語音交互打斷技術飛、搜狗語 Cortana,可在PC端使音智能助手 用,不再基于存儲式問答,實現了對話科大訊飛前裝智能網聯 車機發布,深度打通車 機和車聯網功能服務誕生期探索期發展期201120122013首個個人手機助理Siri 誕生,音、科大訊 微 軟 推 出 個 人 助 理隨 iPhone 4S發布科大訊飛發布 第一代智能汽 車語音助理, 上線命令詞語 音識別系統2015亞馬遜智能音箱 Echo 搭載Alexa 發布2017智能語音助手賦能多類智能終端,構建全產業生態鏈消費級智能語音交互是人們接觸智能語音最普遍的渠道,從手機語音助手、家庭智能音箱、智能耳機、智能電視、故事機 到智

23、能車載等等,根據艾瑞2020年中國智能物聯網(AIoT)白皮書,2018年消費級AIoT在總AIoT市場中占比68%, 市場規模達到1753億元,作為最早顯示出市場潛力的賽道,無論是硬件設備廠商還是互聯網公司、AI公司都瞄準消費級智 能交互終端。而智能終端的背后還有廣闊的生態,包括面向開發者的語音開放平臺、語音操作系統及音頻內容等等。語音助手是用于終端的語音控制程序,通過智能對話與即時問答的智能交互,讓智能機器助手幫助完成用戶指派的任務。2011 年第一款手機語音助手 Siri 伴隨 iPhone 4S 亮相,各大廠商紛紛入局。從 2017年下半年開始,通過開放語音生態系 統,進行產業內合作,

24、語音助手向家居、車載、可穿戴設備等領域不斷延伸和遷移,構建出全產業生態鏈。語音助手發展歷程小愛音箱累計語音交互 次數破百億,小愛同學 內置于手環、藍牙耳機、 電視、手表等硬件設備Google Assistant 伴 隨 Google Home 發布,實 現語音控制智能家居搜狗、科大訊飛等企業宣布其語音識別準確率達到97%多款搭載語音助 手的藍牙智能耳 機陸續發布13智能音箱智能電視智能機頂盒消費級智能硬件家族來源:艾瑞根據公開資料研究繪制。通過語音助手或語音轉寫能力提供音頻內容與任務處理服務目前帶有智能語音能力的消費級硬件大體可劃分為智能家居、兒童產品、隨身產品、車載設備、商務產品等。部分產品

25、的 交互特性更強,需要通過語音交互為用戶提供音頻內容和某些任務處理操作,例如智能音箱與車載設備可用于控制開關、 收聽FM、導航等;部分產品的功能性更強,例如智能錄音筆的核心功能是為用戶提供語音轉文字服務。2019年中國消費級智能硬件家族兒童機器人智能錄音筆商務錄音轉寫器藍牙語音TWS耳機智能手表智能翻譯機智能故事機智能學習機商務隨身兒童家居車載智能導航手機智能支架智能車載機器人汽車智能辦公本14智能音箱注釋:圖中用戶入口指用于操控智能家居的入口。樣本:N=100,于2018年4月通過艾瑞專家渠道網絡問卷調研獲取。16.7%16.3%15.9%11.4%9.8% 8.9% 8.1%6.9%2.8

26、%1.6% 1.2% 0.4%智能音箱 發展機遇新品類需求來源:調研數據來自艾瑞2018年中國智能家居行業研究報告。15家庭共 有性價格與 功能可 使消費者 接受為語音交互藍圖鋪路,成為智能生活入口近年,智能音箱作為智能生活的“入口” 的地位逐漸被夯實,主要得益于三點:(1)智能生活入口是一個偏重的服務, 因此基于已有較重服務的品類上延伸發展(例如電視、遙控)在產品邏輯上不太通暢,這就給了新興家庭智能終端發展機 會,智能音箱雖然仍定位為“音箱”,但舊瓶新酒,更像是簡易形態的機器人;(2)家庭場景是服務于全部家庭成員的, 個人私有設備不太適宜執行與整個家庭成員交互的功能,而一些可穿戴設備在芯片等

27、硬件配置上仍有不足,因此需要一款 家用設備承載這類場景需求;(3)智能音箱產品價格適中,近年來價格下降趨勢明顯,且隨著遠場語音識別、基于NLP 的對話和問答能力逐漸成熟,功能達到可用。與智能手機相似,智能音箱在初期也采取了大量補貼的策略,加速在市場上 “占位”成為第一要務,便宜的價格使用戶心理預期不會過高,這也為廠商持續優化贏得 “寬容”時間。2018年中國智能家居從業者最看好的用戶入口國內智能音箱卡位家庭流量遷移(1/3)從PC與移動互聯網看流量遷移模型目前移動數據及互聯網業務收入達到固定數據及互聯網業務收入的三倍,說明互聯網流量大量遷移到移動端。智能音箱廠 商則希望在智能音箱從用戶家庭場景

28、流量中分一杯羹,成為家庭場景流量入口。借鑒移動互聯網的經驗,有三個關鍵因素 將促成設備端口的流量增長:終端可得性、接入便利性、應用豐富性。來源:圖中引用數據來自艾瑞Mobile App Index 、CNNIC、工信部公報、互聯網消費調研中心、 中國網絡視聽節目服務協會2019中國網絡視聽發展研究報告,圖表由艾瑞自主終端可得性設備滲透率終端可得性設備活躍度應用豐富性應用數量應用豐富性流量質量接入便利性流量遷移模型及智能音箱成為家庭流量入口的優劣勢分析手機:2012年,3G手機大量出貨,滲透率達到21%,2013年Q1移動移動數據及互聯網業務收入開始超過固定 數據及互聯網業務收入;2018年底,

29、移動數據及互聯網業務收入達到固定數據及互聯網業務收入的三倍,互聯 網流量已大量遷移到移動端。智能音箱:預計到2019年底,中國智能音箱累計出貨量超過7200萬臺,在我國城鎮住房中滲透率達到20%, 且產品價格適中有望推動智能音箱進一步滲透,智能音箱作為家庭接網入口的條件初步具備。手機:2012年,手機上網率首次超過電腦(達到74.5%),93%的手機網民每天通過手機上網;使用手機成 為超高頻場景,2018年12月,手機上網率達到98.6%,手機網民平均每天上網時長達5.69小時。智能音箱:智能音箱主打語音交互,由于用戶體驗尚未取得質變,使用頻率仍然較低,只有少數用戶會每天 使用智能音箱;201

30、8年底,每月會登錄智能音箱App 的用戶數只有智能音箱保有量的15.8%。手機:2012年移動App如雨后春筍般涌現,當年8月僅App Store中國區應用數量就有50.4萬個。截至2018年12月,我國總App在架數量為449萬款,人均App數超40個。智能音箱:目前智能音箱應用數量大約在萬位數,潛在的應用想象力空間還比較空白。手機:相較于PC時代,移動互聯網帶來的短視頻、直播、支付、網文、O2O豐富了人們的生活,讓用戶對手機的使用頻率更高,而這些應用更多的是大流量應用,信息豐富度和用戶吸引力較強。智能音箱:目前以無屏款音箱居多,故用戶應用大多是查詢提醒、有聲內容、家居控制,音頻得到的流量入

31、口時 長也較短,信息量大的服務不易通過語音交互,成為智能音箱應用引流的考驗,抓住時間窗口精準推薦成為勢在 必行的選擇;不過其服務內容能較大程度滿足老人和孩子的需求、吸引他們的關注,成為智能音箱產品的機會。手機:2015年開始的提速降費解決了移動終端上網“管道”的問題,為移動互聯網爆發帶來契機。智能音箱:不僅自身入網便利,且基本兼容所有連接通信協議,隨著家庭場景中智能家居數量增加,智能音 箱作為普及程度和交互性較好的控制設備需求提升。研究繪制。161720.9%32.7%60.1%45.3%71.2% 79.8% 83.4%7.6%19.6%智能手機用戶滲透率(3G-5G用戶數/移動電話用戶數,

32、%)智能音箱家庭滲透率(出貨量/城鎮住房套數,%)260.0410.0390.0470.0520.0460.0390.0380.00.11.621.949.22012 2013 20142015 2016 20172018 2019e2012年,3G手機大量出貨智能音箱的滲透情況在我國城鎮住房中滲透率達到20%預計到2019年底,中國智能音箱累計出貨量超過7200萬臺,在我國城鎮住房中滲透率達到20%,接近2012年智能手機的滲透程度,“終端可得性”條件初步具備,跨過了家庭流量遷移的第一道門檻。來源:艾瑞根據工信部、Canalys、國家統計局數據整理繪制。3/4/5G手機總出貨量(百萬臺)智能

33、音箱出貨量(百萬臺)2019年智能音箱大量出貨,2016年-2019年累計出貨 量超過7200萬臺2012-2019年中國智能手機與智能音箱出貨情況2012-2019年中國智能手機與智能音箱滲透情況注釋:因資料有限,智能音箱家庭滲透率數據是以出貨量而非銷量為依據的,且計算方 式中并沒能剔除我國智能音箱出貨量中銷往海外和鄉村的部分,同時未考慮一戶城鎮住 房擁有多臺智能音箱的情況,僅做參考。來源:艾瑞根據工信部、Canalys、國家統計局數據整理繪制。滲透率20%:終端可得性在流量遷移上的第一道門檻。目前我國智能音箱家庭滲透率約達到20%,接近2012年智能手機的滲透程度,“終端可得性”條件初步具

34、備,跨過了家庭流量遷移的第一道門檻2012 2013 2014 2015 2016 2017 2018 2019e18智能音箱App活躍情況3.83.74.24.53.42.72.72.93.13.13.33.44.2201811 201812 201901 201902 201903 201904 201905 201906 201907 201908 201909 201910 201911中國主要智能音箱App月獨立設備數(百萬臺)注釋:(1)口徑:包括天貓精靈、小度音箱、小度在家、小愛音箱、小雅音箱、叮咚音箱的月獨立設備數。(2)月獨立設備數:該月使用過該App的設備總數,單個設備重復

35、使用不重復統計。來源:根據艾瑞Mobile App Index監測數據,加總處理繪制。僅為當時智能音箱 保有量的15.8%相較于2019年智能音箱設備出貨量大增, 月獨立設備數上升尚 不明顯與智能音箱累計出貨量未成正比智能音箱主打語音交互,由于使用體驗等問題,使用頻率仍然較低,只有少數用戶會每天使用智能音箱進行交互;而智能 音箱App作為未來流量變現的重要一環,其活躍度也不夠樂觀:2018年底,每月會登錄智能音箱App 的用戶只有智能音箱 設備保有數的15.8%,后期由于新奇退去,活躍度在2019年上半年還產生了一定下滑,至2019年底,智能音箱App的活躍 情況相對于大幅增長的出貨量依然未成

36、正比,背后的原因主要是智能音箱應用數量有限、品類較少,潛在的應用想象力空 間還比較空白,同時信息量大的服務不易通過語音交互,也成為智能音箱應用引流的考驗。2018年11月-2019年11月中國主要智能音箱App月獨立設備數195.637.273.9118.020172018銷售額(億元)2019e2020e估算生產成本89.7億元國內智能音箱卡位家庭流量遷移(2/3)來源:艾瑞根據Canalys出貨量、奧維云網銷售量等基礎數據及艾瑞推算模型,自主研究繪制。注釋:(1)此處補貼指年銷售額與年出貨量生產成本間的差距,不涉及廠商贈送會員服 務、對開發者補貼、營銷等帶來的成本,因此數值受產品庫存影響較

37、大。誤差會來自對 智能音箱產品價格折扣率及總銷量中以折扣價銷售數量的誤差;可能的成本分布誤差會 來自產品型號與配置的劃分精細度不足。僅供參考。(2)AI算法成本囊括了企業采用自研技術(無需對外支出成本)的情況,因此實際發生 在市場中的交易量級應少于2.8億元數值。來源:根據專家訪談、市場上主流產品配置統計、不同品類銷售情況,結合推算模型, 艾瑞自主研究繪制。不算營銷、渠道、開發者補貼等,2019年我國智能音箱市場約補貼15.8億元AI算法授權費(麥克風陣列算法以外的部分)在總成本中占比約3.1%16.4億元10.3億元7.2億元26.4億元26.6億元2.8億為什么說國內智能音箱會成為巨頭的市

38、場2019年,盡管我國智能音箱硬件補貼已進入收縮階段,補貼額依然達到15.8億元(產品庫存對該數值有一定影響),中小 玩家難以支撐大量補貼,因此巨頭占據了絕大部分市場。目前智能音箱市場主要由天貓精靈、小度音箱和小度在家、小愛 音箱占據,互聯網基因使它們在智能音箱產品上復制了互聯網玩法補貼攻城、低價策略、互聯網服務運營回血,同時 應用開發者的廣泛聚攏、產品智能化提升的開發都需要強大的資金和資源支持,使智能音箱市場很難存在群雄并起的格局, 智能音箱的流量也相應聚攏在大平臺。而在智能音箱的生產成本中,麥克風陣列仍然是最大的部分。2017-2020年中國智能音箱整機銷售額國內智能音箱卡位家庭流量遷移(

39、3/3)電商購物平臺廣告植入應用推廣IAP分成用戶付費開發者服務版權運營注釋:智能音箱用戶付費以會員費為主。開發者服務指智能音箱平臺方向開發者提供運營支持、云資源、通用軟件功能模塊支持及IoT模組等。IAP分成指用戶進行應用內購買增值服務后,平臺與應用開發商對收入進行分成,此處不對會員費及電商購物產生的分成做重復統計。 來源:艾瑞根據公開資料和專家訪談自主研究繪制。已產生數千萬元量級收入20量級收入已產生數千萬億元智能音箱平臺服務收 入體量電子商務、移動應用 商店、網絡音頻、數 字音樂等四類強相關 互聯網產品通過廣告 植入等商業模式產生 的收入體量流量的變現模式是下一步需要考慮的問題目前終端設

40、備銷售以外的商業化還不是市場主要關注的問題,但已開始有一些嘗試。智能音箱的應用/技能基本是以設備綁 定形式存在,因此品牌設備方本身也是平臺方(可以理解為智能音箱的核心預置應用、應用商店、主頁、操作系統提供 方),這為智能音箱更好地復制互聯網變現模式打下了基礎,電商購物、平臺廣告植入、應用推廣和應用內購買(IAP) 分成、用戶增值服務付費、開發者服務等都是可能的變現方式,其中用戶增值服務和電商購物已開始搶跑。與傳統的互聯 網產品商業模式相比,由于前述智能音箱在活躍度、應用豐富性、流量質量等尚未取得突破,且口播廣告不符合音箱產品 使用邏輯、信息流及原生廣告有待開發,因此廣告形式、應用推廣及IAP形

41、式的變現還存在較大瓶頸。2019年中國智能音箱平臺商業模式探索數十萬億級數百億級百億級數十億數十億數十億數十億語音輸入法來源:艾瑞根據公開資料自主研究繪制。支持個性化語音識別;上線語音變聲功能,可 模仿明星、動漫發送仿真語音消息,實現中日 韓語音隨心譯;支持多種語言輸入、智能預測 與糾錯等功能;搜狗輸入法日均語音請求峰值 最高達到8.3億次。訊飛輸入法可識別23種方言、2種民族語言、4門外語,支持中英免切換輸入、普通話方言免切換輸入、 在線離線免切換輸入、語音實時翻譯、方言語 音翻譯、中英混輸、智能糾錯等功能,支持定 制個性化結果及語音修改后即時學習。能夠實現高精度的方言自由說、中英自由說,

42、支持語音翻譯、智能預測與糾錯等功能、語音 混輸;離線語音識別精準度達到與在線相同水 平,準確率超過98%。語音輸入法 應用功能搜狗輸入法百度輸入法語音輸入主要利用語音識別、AI深度學習等技術,轉寫語音 為文字,實現多種語言/方言語音輸入、混合語音 輸入等,提高語音輸入準確度。語音變聲核心是將語音轉化技術與語音合成系統相結合, 將說話人語音映射到目標語音,從而生成用戶想 要的音色,實現個性化語音變聲。語音翻譯通過語音識別+機器翻譯,在聊天時,可實現 多種方言/語言的實時翻譯,提升溝通效率。智能預測與糾錯利用深度學習算法,智能識別按鍵輸錯情 況,幫助用戶自動糾正錯誤,完成快速精 準輸入,提高長句輸

43、入效率。語音斗圖基于語音識別和語義理解,在聊天過程中, 能夠快速定位相應表情包,增加聊天趣味 性。提升輸入效率,滿足個性化表達需求輸入法是智能語音技術在C端的重要落地場景,語音輸入(多語種支持)、智能糾錯、語音翻譯等功能開始成為標配;語 音變聲、語音斗圖等針對年輕群體的創新功能也相繼推出。智能語音在輸入法上的應用提升了用戶的輸入效率、更好地滿 足了用戶在個性化表達上的需求,為產品本身增加了吸引力,以第三方輸入法的頭部產品搜狗輸入法為例,個性化語音識 別功能上線之后,搜狗輸入法登陸率提升10.1%。輸入法中的智能語音功能21本章小結智能語音技術商業模式的多元化變遷B端品牌商B端技術提供方C端用戶

44、設備付費定制算法開發費平臺開發能力調用付費云端能力授權付費行業正在經歷從單 一商業模式向多元 化商業模式的變遷, 技術輸出的“厚度” 增加,“邊界”擴 大,使技術落地曲線的加速度變大內容技 能推 廣商 品增值查 詢B端品牌商B端技術提供方C端用戶個性化語音助理/個性化能力定制付費云端能力授權付費芯片、陣列軟硬一體化產品方案付費定制算法開發費平臺開發能力調用付費圍繞核心技術組成完整方案,幫助用戶轉化率提升帶來分潤增值服務付費設備與生態服務付費來源:艾瑞自主研究繪制。22復盤消費級市場:商業模式多元化與技術落地曲線的加速度在智能音箱部分我們探討了品牌設備商如何形成多元化的變現模式,對于消費級市場另

45、一大主力參與者語音交互技術 提供方而言,發展空間也遠遠不止下游B端品牌設備商在設備開發過程中支付的技術付費。一方面,技術提供方可以通過 提供芯片、麥克風陣列解決方案、AI算法的全鏈方案,增加技術輸出的“厚度”,同時實現技術與解決方案的研發中基礎 環節與模塊標準化,降低客戶的開發配置門檻;另一方面,強化對應用場景的理解,打磨交互功能和用戶體驗,給實際問 題提供“向前一步”的解決能力,從而獲得C端收費的可能。這兩類發展空間的實現有賴于兩點基礎要素:(1)具備全鏈 條語音交互技術能力;(2)有建立用戶聯系、獲取用戶體驗反饋的場景。子研究(2/3)市場畫像應用場景企業級與公共級市場2019年市場72.

46、8億元248%30%14%16%5%27%9%22%8%13% 4%44%22%17%14%9%38%21%17%7%7%48%企業級與公共級市場畫像平臺化技術輸出和解決方案兩類模式,解決方案業務占比高智能語音消費者業務主要通過硬件出售及相關互聯網增值服務獲利,而企業級和公共級業務則主要有兩類合作模式:一是 技術平臺輸出模式,將通用技術能力封裝為SDK或API,下游客戶或生態中的開發者使用時向技術提供方支付一定費用, 當然為了促進生態的快速發展,一些平臺如華為HiAI、百度語音技術采取面向開發者免費的策略;二是切入傳統行業,提 供解決方案(含核心設備),這種情形下涉及智能語音企業與傳統行業集成

47、商或最終客戶進行定制化、深度合作。49.463.182.1106.023.429.234.540.52019e2020e2021e2022e201833.315.3 解決方案形式業務規模(億元)技術平臺輸出形式業務規模(億元)注釋:(1)統計口徑:未統計金融、社保聲紋識別應用和為智能設備定制產品方案業務。解決方案業務指以項目制交付軟硬件產品和服務,其中設備僅包括核心產品如翻譯機、 專用麥克風、專門服務于語音識別與轉寫的服務器等,不包括同一采購項目中其他終端(如監控設備、電腦)、各類其他服務器與存儲設備、安裝服務。技術平臺輸出形式業 務指通用型、直接調用的服務,不局限于公有云形態。(2)統計方法

48、:采用細分垂直領域市場當年釋放的需求和主要玩家細分子項業務收入兩 種方法,具體細分見右圖。請讀者務必注意數據口徑,尤其在引用數據進行二次計算時。 來源:根據基礎數據(國家統計局、衛健委、最高法公開數據,公開采購信息,科大訊 飛及垂直行業上市公司年報,其他公開資料),結合專家訪談,艾瑞自主搭建模型核算。醫療健康公檢法前裝車載智能助手教育語言服務與泛傳媒AI客服 互聯網語音審核通用智能語音開放平臺注釋:未統計金融、社保聲紋識別應用和為智能設備定制產品方案業務。醫療健康不含家用慢病管理音箱/機器人等設備;教育含在線教育用戶付費中應核算為口語評測功能貢 獻的部分、新高/中考口語人機對話考試系統,不含在

49、線口語教育的整體銷售收入、不含 智慧課堂、學情分析、教育云、校園多媒體;AI客服包括電話質檢和客服機器人,全部客 服業務均歸屬該子項,而不統計入各垂直領域;通用智能語音開放平臺指面向開發者提 供的通用非定制開發技能服務,已計入垂直領域的開放服務不再重復統計。來源:根據基礎數據(國家統計局、衛健委、最高法公開數據,公開采購信息,科大訊 飛及垂直行業相關上市公司年報及其他公開資料),結合專家訪談,艾瑞自主搭建模型 核算。 2019e 解決方案形式業務規模細分結構2019e 技術平臺輸出形式業務規模細分結構2022e 技術平臺輸出形式業務規模細分結構2018-2022年中國智能語音 企業級和公共級市

50、場規模2019&2022年中國智能語音企業級和公共級市場細分結構2022e 解決方案形式業務規模細分結構CAGR:32%25智能語音與醫療健康(1/2)來源:艾瑞根據公開資料自主研究繪制。門診語音錄入病例核心價值在于提升輸入效率和查詢效率醫療領域對于智能語音的需求主要來自電子病歷系統上的語音功能,通過語音輸入的方式生成結構化病例、執行病例檢索, 節約醫師輸入病歷的時間,解決方案一般包括ASR/NLU技術和專用醫療麥克風。在導診機器人、問診小程序、診后隨訪系 統、住院病房管理系統、臨床決策支持系統(CDSS)中也有應用。在落地過程中,需要重視針對醫療專業術語和各科室 專有名詞/符號/用藥等知識進

51、行模型訓練和優化,建立篩選機制以過濾問診無關信息,并進一步增強病例整理的語義標準化與深度結構化能力,以使系統便捷提取病例主癥狀、伴隨癥狀、用藥等重要特征信息。智能語音在醫療健康領域的主要應用輔助其他醫療信息化系統導診機器人、小程序嵌入功能-通過語音或文字交互幫患者掛號,根據癥 狀描述預診斷或推薦科室,科室位置導航診后隨訪-自動電話隨訪患者恢復情況、提醒復 診、自動整理對話內容住院工作站系統-為住院管理場景的醫護人員提供移動 端語音錄入與查詢臨床決策支持系統-提供系統交互接口,支持醫師通過語 音輸入查詢醫學知識和相關的診療案例醫療專業術語庫科室針對性優化降噪、降時延、方言、 無關信息過濾、語義標

52、 準化、深度結構化高覆蓋深研究 通用能力能力要求-通過語音輸入的方式生成結構化 病例、執行病例檢索,高效記錄 醫患溝通,節約醫師時間約30%- 50%。除癥狀外,一些專業術語 如牙位圖、化學式、醫學藥品、 特殊符號等都可口述生成269.79.09.99.710.610.720162017醫療收入(億美元)2018其他收入(億美元)智能語音與醫療健康(2/2)發展速度受限于我國醫療信息化建設現狀Nuance是全球最大的智能語音公司,2018年其在醫療業務上取得9.9億美元收入,占公司總收入的48%。相較而言,我國 智能語音市場中2018年醫療健康僅占0.7%。這主要是由于美國醫療機構以私立為主,

53、對診療服務人性化、醫療信息化關 注度更高;我國醫療信息化發展水平相對落后,三級以下醫院信息化建設經費有限、專項政策引導力度有待提升、數據孤 島普遍存在,因此目前市場處于單點式推進狀態,短期內推進速度比較平穩。不過,智能臨床決策支持系統和電子病歷語 音錄入等應用與醫療信息系統打通集成、分級診療、醫保控費、民生建設等都有直接關系,若相關政策引導加強、醫療數 據標準建立和醫療數據跨機構整合推動加速,則有望復制海外市場的醫療業務體量。按照現狀估計,預計到2022年,我國 電子病歷語音輸入累計覆蓋近1600家三級與二級醫院(付費數,滲透率分別為36%和4.5%),180萬醫生受益。注釋:Nuance的醫

54、療業務起家于為臨床專業人士提供語音導航文件系統和應用程序,目 前還包括臨床文檔改良(CDI)、臨床語音識別、智能影像診斷、實時聽寫、計算機輔助 編碼、醫療質量質量把控、移動云計算、放射科精準報告等業務。來源:艾瑞根據動脈網公開資料整理繪制。0.50.91.21.60.30.50.70.30.40.50.51.22.73.74.86.020182022e2019e2020e2021e智能語音泛應用-智能臨床決策支持系統(億元)智能語音核心應用-其他(億元)智能語音核心應用-導診機器人(億元)智能語音核心應用-電子病歷語音錄入(億元)注釋:智能臨床決策支持系統基于知識圖譜;P端指公共服務端,包括政

55、府和事業單位。 若讀者希望進一步了解醫療影像輔助診斷AI可閱讀艾瑞2019年中國人工智能產業研究 報告醫療健康部分。來源:智能臨床決策支持系統以各主要參與公司的公開披露信息、衛健委公布的電子病 歷系統功能應用水平分級評價高級別醫院情況為基礎,結合專家訪談,艾瑞自主搭建模 型推算。電子病歷語音錄入以衛健委和CHIMA關于EMR的統計數據為基礎,結合專家訪 談,艾瑞自主搭建模型推算。導診機器人由艾瑞根據公開中標信息推算。2016-2018年美國智能語音巨頭Nuance2018-2022年中國智能語音在醫療健康領域 營業收入結構市場規模及細分結構合計:0.448%46%50%占我國智能語音B端/P

56、端市場的5%占我國智能語音B端/P 端市場的1%智能語音與公檢法來源:艾瑞根據科大訊飛、搜狗科技等企業官網,及其他公開資料自主研究繪制。整理應得到更多重視電信網絡反欺詐電信詐騙指編造虛假信息,設 置騙局,大部分電信詐騙是通 過電話進行的,聲紋識別電信 網絡反欺詐系統會自動提取聲 紋并與黑名單做比對,提示重 點人員可疑行為,對語音內容 關鍵詞識別動態預警,提示可疑案件與犯罪意圖虛擬法官通過語音合成和虛擬形象生成,在互聯 網訴訟平臺上,以虛擬AI形象同當事人 進行初步溝通,協助真人法官完成線上 訴訟接待等重復性的基礎工作聲紋研判戰法聲紋鑒定與語音分析系統多由市級及以上 公安單位建設,基層辦案單位則

57、會配備聲 紋采集設備用于刑偵辦案。聲紋鑒定與語 音分析系統能夠進行語音片段檢索、語音 自動檢測分離和聲紋模擬畫像,可協助鑒 定人員自動在音頻數據中檢索出特定的音 素及相似的音素、進行語音自動比對,縮 小偵查范圍,快速確定犯罪嫌疑人身份智能接警窗口報警自助錄入:系統轉寫報警 人敘述的警情信息,并導入筆錄系 統,記錄警情處理結果,提高接警 效率電話警情自動記錄:系統智能提取 對話中出現的報警人姓名、聯系方 式、案件類別等要素信息,生成警 情記錄表單,存儲對話內容警情數據匯總分析服務警務語音語言服務針對公安領域專業詞匯做專門優化,提 供警用語音輸入法和機器翻譯等服務幫助公檢法系統實現便捷辦公和戰法突

58、破智能語音在公檢法領域的主要應用智能庭審采用多語種多方言語音識別、語音合成等技 術,結合針對法律業務的專門優化,實現庭 審紀律自動播報、庭審筆錄自動生成、庭審 筆錄音頻即時回聽及快速檢索等功能。艾瑞預計到2022年,全國累計有70%的法 院將上線智能庭審系統;發展方向上,使機 器在長文字轉寫中提取關鍵信息、做結構化27智能語音與教育來源:艾瑞根據公開資料自主研究繪制。01語音轉錄豐富教學模式通過語音識別實時轉寫教師講課的語音為文字,可在授課視頻嵌入字幕, 并進行關鍵詞和知識點的快速定位,應用于直播課、小班課、互動課堂。語音算法助力課堂質量監測利用靜音檢測、語速檢測,結合計算機視覺等多模態算法,

59、自動化監 測上課互動情況和教學質量。虛擬教師互動教學通過語音合成+VR技術,可 以打造虛擬的名師形象,通 過親切的語音、動作、文字 等方式與學生互動。 0204口語測評涵蓋中文(普通話、古詩詞)測評和英 文測評,可對語音的完整性、韻律節奏 及語義、語法進行評測等綜合打分,有 些產品涉及發音糾正功能,中文測評還 可覆蓋輕音、兒化音等漢語語音特征, 可用于日常口語學習及新中/高考口語 機考。口語機考方面,截至2019年年 底約已累計建設150萬個機位。03應用于教、管、測、考等環節智能教育領域,AI課堂的建設進入快車道,強調兩點:一是解決家校之間、線上線下之間學習資源互通的問題,二是通過 多模態識

60、別收集課堂學情信息并做數據精準分析,因此通過語音轉錄、語音識別等技術實現授課語音轉錄為文字、利用多 模態識別進行課堂質量監測不可或缺。另一方面,在線教育競爭呈白熱化態勢,用技術解決教育資源的復用、增加學習交 互體驗感等訴求也促進了智能語音技術在線上口語測評、虛擬教師等領域的應用。考試賽道方面,北京、上海、江蘇、廣 東等省市近年推行在新中考、新高考英語考試中以機考形式進行口語測試,因此人機對話技術和智能語音評測技術開始應 用于考試場景,以提升口語考試的效率。智能語音在教育領域的主要應用28智能語音與客服AI智能客服應用場景上游中游下游智能營銷云服務和AI公司成為新玩家IaaS云PaaS通訊廠商云

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論