




版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
唇形唇唇唇位于口腔的最前端,分上唇和下唇,兩唇共同圍成口裂,口裂兩端稱口角。唇是言語器官中唯一可以從外部被觀察到的部分,因此在發音過程中唇形的變化被聾啞人用來作為識別對方講話的依據。唇由口輪匝肌組成。輪匝肌又稱為唇內肌,它的作用在于關閉雙唇,發出唇音p、b、m等;唇外肌中上唇肌和顴肌司提升上唇;下唇肌和三角肌管降低下唇,而笑肌和頰肌主繃緊雙唇。口唇解剖圖基本知識基本知識下唇與上齒接近能產生唇齒音f、v。在元音發音中,圓唇的結果能發出圓唇元音。此外,舌尖元音加上圓唇的作用,能發出【?】等圓唇舌尖元音。元音:和唇形的關系,區別特征,圓唇和展唇,共振峰的關系輔音:主要的發音部位之一。國際音標表
唇讀(lip-reading/speech-reading),是指通過觀察說話者的口型變化,“讀出”或“部分讀出”其所說的內容.研究唇讀目的是利用視覺信道信息補充聽覺信道的信息,以提高計算機系統的理解力.
唇讀計算機唇讀計算機唇讀是指通過建立口型模型和分析運動參數,定量地處理唇動信息輔助進行語音識別,或者是直接對序列圖像進行分類和識別,以提高語音識別技術的準確率和魯棒性。
魯棒性就是系統的健壯性。它是在異常和危險情況下系統生存的關鍵。比如說,計算機軟件在輸入錯誤、磁盤故障、網絡過載或有意攻擊情況下,能否不死機、不崩潰,就是該軟件的魯棒性。所謂“魯棒性”,是指控制系統在一定(結構,大小)的參數攝動下,維持某些性能的特性。根據對性能的不同定義,可分為穩定魯棒性和性能魯棒性。以閉環系統的魯棒性作為目標設計得到的固定控制器稱為魯棒控制器。唇讀的識別方法★唇讀識別中較常使用的方法是基于特征向量法
把提取的特征作為向量進行HMM的狀態匹配。這樣做的缺點是狀態不確定,搜索的時間和空間規模較大,很難做到識別的實時性。★另一種方法是基于口型分類法
人在發相同的音時,口型是基本不變的,發相似的音時口型上也存在很大的相似性,所以將漢語發音的變化口型進行聚類是可行的。明確了口型的種類也就明確了發音時的狀態,在這些狀態的基礎上進行唇讀的識別,就可以去掉直接使用特征向量識別時狀態變化的不確定性,縮小狀態空間,提高最佳狀態匹配的收斂速度。交叉學科唇形研究是對語音研究和圖像處理的交叉學科的探索,內容涉及語言學、圖像處理、模式識別、計算機視覺、自然語言理解等多個領域,他的進步可以促進許多學科的進步。國外研究現狀
國際上目前語音學基礎理論研究的前沿正從過去單一的語音學轉向語音學科的整體研究,這種多學科整體研究的集中體現就是“語音多模態(multi-modalofspeech)”研究。由于語音多模態研究的基礎理論成果能夠促進相關信息科學的發展,因而許多國家都將語音多模態研究作為支持的重點,著名的研究機構有瑞典皇家理工學院(KTH)、美國哈斯金斯語音實驗室(Haskins)、加州大學洛杉磯分校語音實驗室(UCLAPhoneticsLab)、日本東京大學言語生理系等,并在英語和日語的言語產生和多模態人機交互方面取得了大量的研究成果。應用語言學就是通過各種現代技術著重解決現實當中的語言問題,是把理論語言學和現代應用技術有機結合的學科,其中人機的語言情感交互研究是近幾年的研究熱點。其研究內容從最早的機器翻譯到現今的多模態之一的視位研究。而唇位研究正是可視化研究的重要組成部分。國外的研究現狀最早的唇讀系統是1984年由(伊利諾伊大學)UIUC大學patajan構建,系統中采用的方法是對每一個詞對應一個特征矢量序列,識別時,將輸入唇讀序列圖中得到特征矢量序列依存與詞庫中的每一個詞模板進行相似度距離測度計算。將相似度最高的作為結果輸出。由于它沒有使用自動時間歸正處理,因此方法有訓練時的語速與識別時語速完全一致這一不可能的苛刻要。后來Mase和Pentland采用了線性時間歸正技術(LTW)改進了效果,Patajan也加入了動態時間歸正算法(DTW)對原系統做了改進。加利福利亞大學UCSC的Michael.M.Cohen博士也是最早從事唇讀模擬和研究的研究者之一,他所在的實驗室PerceptualScienceLab完成了多項唇語模擬的項目,為聾啞人創造了良好的人機交互環境,一種虛擬語言模擬系統為聾啞兒童提供學習和交互的環境。MIT媒體實驗室的學術帶頭人Pentland教授將光流技術引入唇讀特征的提取工作。福羅里達中心大學計算機系的GlennA.Martin也于1992年采用光流技術解決唇讀問題,對光流序列進行了時間歸正,提出了相關匹配算法。
各種唇讀系統比較各種唇讀系統比較
國內言語工程方面比較關注多模態的人機交互研究,包括語音和情感的合成識別等相關方面的研究。做的比較好的有:清華大學電子工程系和計算機系、北京大學言語聽覺研究中心,中科院自動化所、科大訊飛、微軟亞洲研究院等。國內的進展唇讀流程圖像采集檢測與定位特征提取識別方法圖像采集1)正面采集在拍攝獲取發音者的口型圖像序列時,通過在緊靠面部側面放置一面鏡子的方法,同步記錄發音時的正面和側面圖像。但是在實際應用中放置鏡子的方法有時帶來不便。2)不規則人臉對稱模型
獲取人臉圖像時,攝像頭從人臉正面轉過一個角度θ,這樣既能保證一半正面嘴唇輪廓的圖像,又能反映出嘴唇突出度和下腭突出度的投影信息。既有人臉正面圖像中嘴唇的內外輪廓動態變化信息,又包含人臉側面圖像反映出來的嘴唇突在出度和下腭突出度動態變化信息。3)正面、側面采集采用兩個攝像裝置采集圖像,圖像序列間的同步會帶來很大的問題
檢測與定位降低圖像處理的難度,檢測唇的邊緣設計平臺矩形框第一列是表示原始唇區域,第二列表示別分類出的唇區域和非唇區域,第三列代表根據唇模型畫出的唇線邊緣。特征提取基于模型方法混合特征基于像素基于模型1)主動輪廓模型(Snake算法):Snake是一條變形的曲線,主要靠兩個函數來提取特征。2)可變模型:特定的主動輪廓模型特點:數據量小、較為準確基于像素1)直接像素法2)矢量量化3)主成分分析4)基于光流:臉部采集、光的速度看唇動基于像素優點:可以采集到所有的數據缺點:數據量大、運算量大、收到光線的影響混合特征目前有以下的結合方法:1)主成分+snake2)多尺度空間分析3)主動面模型識別方法1)模板匹配2)隱馬爾科夫模型(HMM):通過概率,尋找近似性匹配3)TDNN(延遲神經網絡)德國的斯圖加特大學和美國的CMU合作對唇形研究內容分為四個部分:1)建立語音多模態庫;語音、唇位、采集圖片、語音(資源庫)2)建立唇形處理平臺;矩形框、邊緣、修改3)對語音、唇位參數提取和數據分析,建立統計模型;4)研究不同生理信號之間的關系,進行語音產生各相關層面的理論與方法研究,并建立語音驅動的唇型模型合成。(長遠目標)用參數驅動合成研究內容研究內容(1)建立語音、唇型數據庫模態數據庫包括:音位、單音節(解決協同發音)的語音和視頻信號。1)文本設計:音位、單音節和雙音節文本設計。2)使用兩架攝像機進行信號的同步采集,以保證人臉正面和側面信號被同時采集,最終獲得包含三種單位的語音和唇型參數數據庫。研究內容(2)建立信號處理平臺 生理信號的采集設備一般都不帶有分析功能,需要根據不同的信號類型編寫各自的信號處理和分析程序,包括信號的讀取、剪切、保存、擬定參數的自動提取、數據的自動保存和統計分析等功能。該平臺主要完成內外唇線及唇線參數的設定與自動提取和批量分析等,主要包括以下功能: ①手動框出包含唇的矩形區。 ②利用支持向量機對唇區域和非唇區域進行分類。 ③對分類出的唇區域利用EILAN提出的唇邊緣檢測模型自動標記出唇邊緣,對自動標記錯誤處具有手動修改功能。研究內容(3)對語音、唇型的參數提取和數據分析 根據不同的信號庫和研究目的,選擇適當的參數,設計提取算法,進行數據分析建立統計模型,并進行相關理論領域的探討。 ①語音主要的參數有:時長、基頻(F0)、輔音強頻區、振幅、譜傾斜率、共振峰的音軌、輔音和元音之間共振鋒的過度段、VOT等等。在技術上,提取聲學參數是采用比較經典和成熟的算法,共振峰和帶寬用基音同步協方差(co-variance)LPC提取,基頻用倒譜的方法提取。 ②唇型信號參數:內外唇線、唇寬度、唇高度、唇突度等。唇線特征提取主要是對已經提取的矩形區域進行唇區域和非唇區域的分割,然后對唇區域用已有唇模型分別檢測出唇邊緣。(13個參數) ③總結語音學唇位,根據每一個音的唇型變化(根據關鍵點運動軌跡描述唇線的變化),基于統計學上的歸納和分類,建立唇形數據庫,從而得出唇位的類型。研究內容(4)建立語音驅動的唇位模型 根據統計數據建立語音和唇型之間的關聯模型,建立語音驅動的唇位模型。首先對文本進行國際音標的轉換,使其成為音位序列,然后按音節為單位,聲韻母分別調用各自對應的唇位圖像組進行拼接,可用內插法解決語音和唇位的時間對應。對每一個視頻文件,使用非線性編輯器對采集的圖像進行分幀(每秒24幀),對每一幀建立唇線自動匹
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 車站、機場顯示板企業制定與實施新質生產力戰略研究報告
- 軌道交通應急管理系統行業直播電商戰略研究報告
- 鋼渣砌筑水泥行業直播電商戰略研究報告
- 賤金屬首飾企業制定與實施新質生產力戰略研究報告
- 鉑銅合金企業制定與實施新質生產力戰略研究報告
- 道岔行業跨境出海戰略研究報告
- 高壓容器用厚鋼板企業制定與實施新質生產力戰略研究報告
- 飛機牽引車企業制定與實施新質生產力戰略研究報告
- 馬赫計行業跨境出海戰略研究報告
- 2025年組合套裝打磨工具項目可行性研究報告
- 2025-2030中國煤焦油雜酚油行業市場發展趨勢與前景展望戰略研究報告
- 新版食品安全法培訓課件
- 2025年高考物理專項復習:電磁感應綜合題
- 東湖高新區2023-2024學年下學期期中七年級數學試題(含答案)
- 勞務派遣勞務外包項目方案投標文件(技術方案)
- 定額〔2025〕1號文-關于發布2018版電力建設工程概預算定額2024年度價格水平調整的通知
- 《思想政治教育方法論》考研(第3版)鄭永廷配套考試題庫及答案【含名校真題、典型題】
- 一種基于STM32的智能門鎖系統的設計-畢業論文
- 《種子法》知識考試題庫(含答案)
- 初三化學酸堿鹽的鑒別
- 學校總務采購業務流程圖(共1頁)
評論
0/150
提交評論