數字音頻處理(補充)_第1頁
數字音頻處理(補充)_第2頁
數字音頻處理(補充)_第3頁
數字音頻處理(補充)_第4頁
數字音頻處理(補充)_第5頁
已閱讀5頁,還剩87頁未讀 繼續免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

第2章音頻信號處理2.3.3音頻數據的標準從數據通信的角度,音頻編碼標準主要有三種:在傳輸系統中應用的質量的音頻壓縮編碼技術標準,如PCM(G.711),ADPCM(G.712)。在窄帶綜合效勞數據網傳送中應用的調幅播送質量的音頻壓縮編碼技術標準,如G.722等。在電視傳輸系統、視頻點播系統中應用的音頻編碼標準,如MPEG音頻標準等。2.3.3音頻數據的標準1.質量的音頻壓縮編碼技術標準(1)G.711G.711標準是1972年ITU-T制定的PCM語音標準,采樣頻率為8kHz,每個樣本值用8位二進制編碼,因此輸出的數據率64kb/s.采用非線性量化μ律或A律,將樣本精度為13位的PCM按A律壓擴編碼,14位的PCM按μ律壓擴編碼轉換為8位編碼,其質量相當于12bit線性量化的音質。2.3.3音頻數據的標準(2)G.721

G.721標準是1984年ITU-T制定的,主要目的是用于64kbit/s的A律和μ律PCM與32kbit/s的ADPCM之間的轉換。它基于ADPCM技術,采樣頻率為8kHz,每個樣本與預測值的差值用4位編碼,其編碼速率為32kbit/s。2.3.3音頻數據的標準(3)G.728G.728標準是一個追求低比特率的標準,其速率為16kbit/s,其質量與32kbit/s的G.721標準根本相當。它使用了LD-CELP〔低延時碼本激勵線性預測〕算法。2.3.3音頻數據的標準2.3.3音頻數據的標準2.調幅播送質量的音頻壓縮編碼技術標準調幅播送質量音頻信號的頻率在50Hz~7kHz范圍。在1988年制定了G.722標準。G.722標準是采用16kHz采樣,14bit量化,信號數據速率為224kbit/s,采用子帶編碼方法,將輸入音頻信號經濾波器分成高子帶和低子帶兩個局部,分別進行ADPCM編碼,再混合形成輸出碼流,224kbit/s可以被壓縮成64kbit/s,最后進行數據插入〔最高插入速率達16kbit/s〕。2.3.3音頻數據的標準3.高保真度立體聲音頻壓縮編碼技術標準高保真立體聲音頻信號頻率范圍是50Hz~20kHz,采用44.1kHz采樣頻率,16bit量化進行數字化轉換,其數據速率每聲道705kbit/s.目前,國際上比較成熟的高保真立體聲音頻壓縮標準時“MPEG音頻〞。2.4音樂合成和MIDI概述計算機上合成音樂的產生過程音樂合成器

2.4.1概述數字音頻實際上是一種數字式錄音/重放的過程,它需要很大的數據量。在多媒體系統中,除了用數字音頻的方式之外,還可以用采樣合成的方式產生音樂。音樂合成的方式是根據一定的協議標準,采用音樂符號記錄方法來記錄和解釋樂譜,并合成相應的音樂信號,這也就是MIDI〔MusicalInstrumentDigitalInterface〕方式。2.4.1概述

MIDI是樂器數字接口的縮寫,泛指數字音樂的國際標準,它是音樂與計算機結合的產物。MIDI不是把音樂的波形進行數字化采樣和編碼,而是將數字式電子樂器彈奏過程記錄下來,如按了哪一個鍵、力度多大、時間多長等。當需要播放這首樂曲時,根據記錄的樂譜指令,通過音樂合成器生成音樂聲波,經放大后由揚聲器播出。2.4.1概述音樂合成器生成音樂采用MIDI文件存儲。MIDI文件是用來記錄音樂的一種文件格式,文件后綴是“.mid〞或者“.midi〞。這種文件格式非常特殊,其中記錄的不是音頻數據,而是演奏音樂的指令,不同的指令與不同的樂器對應,就像樂隊演奏交響曲一樣,每一種樂器發出不同的聲音,合在一起組成了聽眾聽到的音樂。2.4.1概述一個MIDI文件包括一個頭塊和假設干個軌跡塊。每個軌跡塊中可以包含假設干個指令,每個指令的根本格式是一樣的,在根本格式的根底上各個指令有所差異,指令可以用來記錄一個聲音、一個系統命令等內容。計算機上合成音樂的產生過程MIDI音樂的產生過程如圖:圖2.12MIDI音樂的產生過程示意圖MIDI指令MIDI樂器MIDI接口合成器揚聲器音序器MIDI文件音頻卡PC機2.4音樂合成和MIDI把MIDI指令送到合成器,由合成器產生相應的聲音。MIDI標準提供了16個通道。按照所用通道數的不同,合成器又可分成根本型和擴展型兩種,如下表所示。合成器類型旋律樂器通道打擊樂器通道基本合成器13~1516擴展合成器1~9102.4音樂合成和MIDIMIDI合成的產生方式有兩種:1.FM(frequencyModulation)合成2.波形表(wavetable)合成。2.4音樂合成和MIDI〔一〕FM合成早期的聲卡采用FM頻率調制的方法復原MIDI中的音符數據。這是因為任何波形函數都可以展開成無限項的傅立葉級數。FM是使高頻振蕩波的頻率按調制信號規律變化的一種調制方式。FM頻率調制合成是通過硬件產生正弦信號,再經處理合成音樂。合成的方式是將波形組合在一起。2.4音樂合成和MIDI〔二〕波形表技術 波表級數就是用PCM格式記錄下某種樂器某個鍵的發音效果,通過調整這個采樣波形的頻率就可以獲得在其它鍵上演奏發出的聲響。對足夠多的樂器波形逐一采樣并排列成一個表格,那么在播放MIDI文件時,就可以從波形表中查到所需樂器對應的波形數據,再按照演奏需要的音符上下調整好頻率參數重放出來。2.4音樂合成和MIDI目前較高級的音頻卡一般都采用波形表合成方式。波形表的原理是在ROM中已存儲各種實際樂器的聲音采樣,當需要合成某種樂器的聲音時,調用相應的實際聲音采樣合成該樂器的樂音。顯然,ROM存儲器的容量越大,合成的效果越好,但價格也越貴。2.5語音識別2.5.1語音識別的重要性2.5.2語音識別的定義、原理和分類2.5.3語音識別的歷史回憶

2.5.1語音識別的重要性1.語音信息處理與語音識別人類利用語言相互交流信息,包括語音和文字兩種表達方式。通過語音相互傳遞信息,這是人類最重要的根本功能之一。隨著信息社會的開展,人與人之間,即使在人與機器之間也每時每刻都需要進行大量的信息交換。計算機模擬人類交流信息的過程:(1)將大腦產生的思想轉換成語言(2)將語言轉換成相應的語音(3)識別表達語言的語音內容(4)理解語音所表達的語言意義自然語言生成自然語言理解語音合成語音識別人與人之間、人與機器之間的語音信息處理過程人與人之間的語音通信(人)行動意圖說話方收聽方○語言形成發音收聽認識·理解傳輸系統(編碼、解碼)空間傳播文本解析語音合成語音識別文章輸入(機器)語音理解計算機處理應答文生成·Ⅰ:第一類人機語音通信問題Ⅱ:第二類人機語音通信問題ⅠⅡ○·2.5.1語音識別的重要性2.語音識別的重要性計算機語音識別是智能計算機系統的重要特征。這一技術的應用將從根本上改變計算機的人機界面,從而對計算機的開展以及推廣應用產生深遠的影響。語音識別是一項具有巨大應用推廣前景的工程(1).基于的語音識別技術,使計算機直接為客戶提供金融證券和旅游等方面的信息查詢及效勞成為可能,進而成為電子上午進展中的重要一環(Voice-Commerce)。(2).語音識別技術作為聲控產業,必將對編輯排版、辦公自動化、工業過程和機器操作的聲控技術起到重大的推進作用。因此可以預言,語音技術必將對工業、金融、商業、文化、教育等諸方面事業產生革命性的影響。2.5.1語音識別的重要性(3).在信息處理領域的應用給計算機發送指令。聽寫系統。信息查詢。網上交談。(4).教育與商務應用語音教學軟件。電子商務。(5).…2.5.1語音識別的重要性主要先進國家都將此工程列為國家級研究工程面對如此廣闊的應用領域,目前國內外眾多公司正積極推動語音識別技術的應用。

微軟:讓計算機能說會聽

IBM:ViaVoice仍居主流

Intel:做語音技術倡導者

微軟:讓計算機能說會聽BillGates在97年世界計算機博覽會(COMDEX)主題演講會上描繪IT事業的開展宏圖時,率先指出:下一代操作系統和應用程序的用戶界面將是語音識別。工業界應對語音識別領域的重大突破做好充分準備,因為那將是一場席卷全球的另一次熱潮。1998年11月5日,微軟中國研究院在北京成立。該中心的任務是重點研究計算機在中文環境下的易用性。

IBM:ViaVoice仍居主流IBM公司潛心研究語音識別技術迄今已達30年之久,投資超過2億美元。IBM公司于1995年在北京成立了中國研究中心,中文語音信息處理成了該中心三大研究領域之一,并于1997年9月4日,在北京推出了中文連續語音識別產品ViaVoice。

Intel:做語音技術倡導者1998年,英特爾公司也宣布致力于推廣語音識別技術,除了在北京舉辦首屆語音技術國際論壇之外,還在北京、上海、成都、廣州等地展開了“基于英特爾框架的語音識別技術〞的宣傳活動。聯合了七家世界著名學術機構〔中科院自動化所、清華大學、香港科技大學、香港中文大學、麻省理工學院、俄勒崗研究院、WATERLLOO大學〕成立了“國際語音技術研究組織〞,致力于計算機語音技術的根底研究,以加速中文語音識別技術的開展。

2.5.2語音識別的定義、原理及分類1.語音識別的定義2.語音識別的根本原理3.語音識別的分類語音識別以語音為研究對象,是語音信號處理的一個重要研究方向,是模式識別的一個分支;語音識別是研究如何采用數字信號處理技術自動提取以及決定語音信號中最根本、最有意義的信息的一門新興的邊緣學科。其目的就是要讓機器具有人的聽覺功能,在人機語音通訊中“聽懂〞人類口述的語言。根據不同的需求,語音識別的識別內容可分為狹義的語音識別和說話人語音識別。1.語音識別的定義語音自動識別的最終目標是要將連貫的語音變換成文字符號系列。而在自然的音語中,每個音素的聲學特性與作為語句元素時完全不同,再加上由于自然發音時,各語音單位是連貫的,具有協同調音效應,同時還具有語調、重音和抑揚頓挫等韻律方面的影響,這使得實現語音到文字符號的識別非常困難。

1.語音識別的定義1.語音識別的定義語音識別所涉及的學科領域:信號處理、物理學〔聲學〕、模式匹配、通信及信息理論、語言語音學、生理學、計算機科學〔研究軟硬件算法以便更有效地實現用于識別系統中的各種方法〕、心理學等。有意義、有內容的信息是構成語音音韻特性、即語音的共性特征之根底,這類特征信息稱為音韻信息。語音信號中有關個人特征的信息、即語音的個性特征,如:音強、節奏、音高等,這類特征信息稱為音律信息。從廣義上講,語音識別也包括了對說話人的識別,其主要內容是提取語音信號中有關個人特征的信息、即語音的個性特征〔如:音律特性等〕,在這里專指有意義、有內容的識別。1.語音識別的定義音韻信息與音律信息一個完整的語音識別系統可大致分為三局部:〔1〕語音特征提取:其目的是從語音波形中提取出隨時間變化的語音特征序列。〔2〕聲學模型與模式匹配〔識別算法〕:聲學模型通常將獲取的語音特征通過學習算法產生。在識別時將輸入的語音特征同聲學模型〔模式〕進行匹配與比較,得到最正確的識別結果。〔3〕語言模型與語言處理:語言模型包括由識別語音命令構成的語法網絡或由統計方法構成的語言模型,語言處理可以進行語法、語義分析。對小詞表語音識別系統,往往不需要語言處理局部。2.語音識別的根本原理聲學模型是識別系統的底層模型,并且是語音識別系統中最關鍵的一局部。聲學模型的目的是提供一種有效的方法計算語音的特征矢量序列和每個發音模板之間的距離。聲學模型的設計和語言發音特點密切相關。聲學模型單元大小〔字發音模型、半音節模型或音素模型〕對語音訓練數據量大小、系統識別率,以及靈活性有較大的影響。必須根據不同語言的特點、識別系統詞匯量的大小決定識別單元的大小。2.語音識別的根本原理語言模型對中、大詞匯量的語音識別系統特別重要。當分類發生錯誤時可以根據語言學模型、語法結構、語義學進行判斷糾正,特別是一些同音字那么必須通過上下文結構才能確定詞義。語言學理論包括語義結構、語法規那么、語言的數學描述模型等有關方面。目前比較成功的語言模型通常是采用統計語法的語言模型與基于規那么語法結構命令語言模型。語法結構可以限定不同詞之間的相互連接關系,減少了識別系統的搜索空間,這有利于提高系統的識別。2.語音識別的根本原理1.預處理包括語音信號采樣、反混疊帶通濾波、去除個體發音差異和設備、環境引起的噪聲影響等,并涉及到語音識別基元的選取和端點檢測問題:2.特征提取局部用于提取語音中反映本質特征的聲學參數,如平均能量、平均跨零率、共振峰等;3.訓練在識別之前進行,通過讓講話者屢次重復語音,從原始語音樣本中去除冗余信息,保存關鍵數據(語音特征參數),再按照一定規那么對數據加以聚類,形成模式庫;制作語音模板,并存放在語音參數庫中。4.模式匹配局部是整個語音識別系統的核心,它是根據一定的準那么〔如某種距離測度〕以及專家知識〔如構詞規那么、語法規那么、語義規那么等〕,計算輸入特征與庫存模式之間的相似度,找出最接近語音特征的模板,判斷出輸入語音的語意信息。2.語音識別的根本原理失真測度(DistortionMeasures):在進行比較時要有個標準,這就是計量語音特征參數矢量之間的“失真測度〞。主要識別框架:基于模式匹配的動態時間規整法(DTW:DynamicTimeWarping)和基于統計模型的隱馬爾柯夫模型法(HMM:HiddenMarkovModel)。語音識別原理框圖·構詞規則·同音字判決·語法語義·背景知識預處理聲學參數分析測度估計失真測度語音庫判決專家知識庫訓練識別結果·反混疊失真濾波器·預加重器·端點檢測·噪聲濾波器·歐氏距離·似然比測度○語音信號輸入2.語音識別的根本原理處理的方法:(1)連續語音流的預處理·波形硬件采樣率確實定、分幀大小與幀移策略確實定;·剔除噪聲的帶通濾波、高頻預加重處理、各種變換策略;·波形的自動切分(依賴于識別基元的選擇方案)。(2)特征參數提取識別語音的過程,實際上是對語音特征參數模式的比較和匹配的過程。語音特征參數的選取對系統識別結果起著重要的作用。因此,必須尋找一個既能充分表達語音特征又能彼此區別的特征參數,這是語音識別中的一個最重要根本問題。語音識別系統常用的特征參數有線性預測系數、倒頻譜系數、平均過零率、能量、短時頻譜、共振峰頻率及帶寬等。2.語音識別的根本原理(3)參數模板存儲在建立識別系統時,首先進行特征參數提取,然后對系統進行訓練和聚類。通過訓練,系統建立并存儲一個該系統需識別字〔或音節〕的參數模板庫。(4)識別判決識別時,待識語音信號經過與訓練時相同的特征參數提取后,與模式模板存儲器中的模式進行匹配計算和比較,并根據一定的規那么進行識別判決,最后輸出識別結果。2.語音識別的根本原理3.語音識別的分類按識別器的類型按識別器對使用者的適應情況按語音詞匯表的大小按識別器的類型孤立單詞識別(IsolatedWordRecognition)識別的單元為字、詞或短語,它們組成識別的詞匯表(Vocabulary),對它們中的每一個通過訓練建立標準模板或模型。連續語音識別(ContinuousSpeechRecognition)連續單詞識別(ConnectedWordRecognition):以比較少的詞匯為對象,能夠完全識別每個詞。識別的詞匯表和標準樣板或模型也是字、詞或短語,但識別時可以是它們中間幾個的連續。連續言語識別與理解(ConversationalSpeechRecognition):以多數詞匯為對象,待識語音是一些完整的句子。雖不能完全準確識別每個單詞,但能夠理解其意義,連續言語識別也稱會話語音識別。理解是在語音識別之后,根據語言學知識來推斷語音的含義內容的。按識別器對使用者的適應情況特定人語音識別(Speaker-Dependent)語音識別的標準模板或模型只適應于某個人,實際上,該模板或模型就是該人通過輸入詞匯表中的每個字、詞或短語的語音建立起來的。其他人使用時,需同樣建立自己的標準模板或模型。非特定人語音識別(Speaker-Independent)語音識別的標準模板或模型適應于指定的某一范疇的說話人〔如說標準普通話〕,標準模板或模型由該范疇的多個人通過訓練而產生。識別時可供參加訓練的發音人〔圈內人〕使用,也可供未參加訓練的同一范疇的發音人〔圈外人〕使用。按語音詞匯表的大小有限詞匯識別按詞匯表中字、詞或短句個數的多少,大致分為:100以下為小詞匯;100-1000為中詞匯;1000以上為大詞匯。無限詞匯識別〔全音節識別〕當識別基元為漢語普通話中對應所有漢字的可讀音節時,那么稱其為全音節語音識別〔音節字表:Lexicon〕。全音節語音識別是實現無限詞匯或中文文本輸入的根底。2.5.3語音識別的回憶1.國外語音識別研究的歷史2.我國語音識別研究的歷史1.國外語音識別研究的歷史〔1〕1952年貝爾研究所Davis等人研究成功了世界上第一個能識別10個英文數字發音的實驗系統。1960年英國的Denes等人研究成功了第一個計算機語音識別系統。大規模的語音識別研究是在進入了70年代以后,在小詞匯量、孤立詞的識別方面取得了實質性的進展。國外70年代所取得的實質性的進展這一時期的語音識別方法根本上是采用傳統的模式識別策略。其中以蘇聯的Velichko和Zagoruyko、日本的迫江和千葉,以及當時在美國的板倉等人的研究工作最具有代表性。-蘇聯的研究為模式識別應用于語音識別這一領域奠定了根底;-日本的研究那么展示了如何利用動態規劃技術在待識語音模式與標準語音模式之間進行非線性時間匹配的方法;-板倉的研究提出了如何將線性預測分析技術(LPC)加以擴展,使之用于語音信號的特征抽取的方法。目前在大詞匯語音識別方面處于領先地位的IBM語音研究小組,就是在70年代開始了它的大詞匯語音識別研究工作的。AT&A的貝爾研究所也開始了一系列有關非特定人語音識別的實驗。這一研究歷經10年,其成果是確立了如何制作用于非特定人語音識別的標準模板的方法。1.國外語音識別研究的歷史〔1〕進入80年代以后,研究的重點逐漸轉向大詞匯量、非特定人連續語音識別。在研究思路上也發生了重大變化,即由傳統的基于標準模板匹配的技術思路開始轉向基于統計模型(HMM)的技術思路。此外,再次提出了將神經網絡技術引入語音識別問題的技術思路。國外80年代所取得的重大進展這一時期所取得的重大進展有:〔1〕隱碼爾柯夫模型(HMM)技術的成熟和不斷完善成為語音識別的主流方法。〔2〕以知識為根底的語音識別的研究日益受到重視。在進行連續語音識別的時候,除了識別聲學信息外,更多地利用各種語言知識,諸如構詞、句法、語義、對話背景方面等的知識來幫助進一步對語音作出識別和理解。同時在語音識別研究領域,還產生了基于統計概率的語言模型。〔3〕人工神經網絡在語音識別中的應用研究的興起。在這些研究中,大局部采用基于反向傳播法〔BP算法〕的多層感知網絡。人工神經網絡具有區分復雜的分類邊界的能力,顯然它十分有助于模式劃分。1.國外語音識別研究的歷史〔1〕進入90年代以后,在語音識別的系統框架方面并沒有什么重大突破。但是,在語音識別技術的應用及產品化方面出現了很大的進展。國外90年代所取得的實質性的進展特別是在語音識別方面,由于其有著廣泛的應用前景,成了當前語音識別應用的一個熱點。另外,面向個人用途的連續語音聽寫機技術也日趨完善。這方面,最具代表性的是IBM的ViaVoice和Dragon公司的DragonDictate系統。這些系統具有說話人自適應能力,新用戶不需要對全部詞匯進行訓練,便可在使用中不斷提高識別率。1.國外語音識別研究的歷史〔2〕DARPA(DefenseAdvancedResearchProjectsAgency)是在70年代由美國國防部遠景研究方案局資助的一項10年方案,其旨在支持語言理解系統的研究開發工作。70年代美國DARPA方案CMU〔卡內基梅龍大學〕、MIT〔麻省理工學院〕、IBM、AT&T等都參與了這一方案的開發工作。該方案執行的結果是1976年推出了HARPY(CMU)系統。雖然,這是有限詞匯和限定領域的識別系統,但改變了原來只利用聲學信息的狀況,開始應用高層次語言學知識〔如構詞、句法、語義、對話背景〕。在這為期10年的階段中盡管所有的研究方案均未能到達預期目標,但它對語音識別和理解研究的開展起了重要的推動作用。通過這一階段的研究使人們認識到語音識別任務的艱巨性,總結出許多有意義的經驗教訓,并且從此對語音識別提出了許多根底性的研究課題。這些課題主要涉及到語音信號和自然語言的多變性和復雜性。語音信號和自然語言的多變性和復雜性(1)連續語音詞與詞之間沒有明顯的停頓,詞與詞之間的分割比較困難;(2)每一個根本的聲學識別基元〔如音素〕受前后音素發音方式的影響〔協同發音〕使特征變得不穩定(3)不同人、不同心理和生理以及在不同的說話環境下說同一詞時,聲學信號特征會發生變化;(4)一個詞的讀音不僅包含了詞義特征,而且還包含了說話人性別、年齡、情緒等大量與詞義無關的信息,而這些信息的別離是不容易的。(5)自然語言的多變性難以借助于一些根本語法規那么進行描述,因而使計算機編程變得困難。1.國外語音識別研究的歷史〔2〕到了80年代,美國國防部遠景研究方案局又資助了一項為期10年的DARPA戰略方案,其中包括噪聲下的語音識別和會話〔口語〕識別系統,識別任務設定為“〔1000單詞〕連續語音數據庫管理〞。到了90年代,這一DARPA方案仍在持續進行中。其研究重點已轉向識別裝置中的自然語言處理局部,識別任務設定為“航空旅行信息檢索〞。

日本也在1981年的第五代計算機方案中提出了有關語音識別輸入-輸出自然語言的宏偉目標,雖然沒能實現預期目標,但是有關語音識別技術的研究有了大幅度的加強和進展。1987年起,日本又擬出新的國家工程---高級人機口語接口和自動翻譯系統。2.我國語音識別研究的歷史我國的語音識別研究起始于1958年,由中國科學院聲學所利用電子管電路識別10個元音。直至1973年才由中國科學院聲學所開始計算機語音識別。由于當時條件的限制,我國的語音識別研究工作一直處于緩慢開展的階段。進入80年代以后,隨著計算機應用技術在我國逐漸普及和應用以及數字信號技術的進一步開展,國內許多單位具備了研究語音技術的根本條件。與此同時,國際上語音識別技術在經過了多年的寂靜之后重又成為研究的熱點,開展迅速。就在這種形式下,國內許多單位紛紛投入到這項研究工作中去。1986年3月我國高科技開展方案(863方案)啟動,語音識別作為智能計算機系統研究的一個重要組成局部而被專門列為研究課題。在863方案的支持下,我國開始了有組織的語音識別技術的研究,并決定了每隔兩年召開一次語音識別的專題會議。從此我國的語音識別技術進入了一個前所未有的開展階段。我國的語音識別技術的開展(1)在北京有中科院聲學所、自動化所、清華大學、北方交通大學等科研機構和高等院校。另外,還有哈爾濱工業大學、中國科技大學、四川大學等也紛紛行動起來。(2)現在,國內有不少語音識別系統已研制成功。這些系統的性能各具特色。-在孤立字大詞匯量語音識別方面,最具代表性的要數92年清華大學電子工程系與中國電子器件公司合作研制成功的THED-919特定人語音識別與理解實時系統。-在連續語音識別方面,91年12月四川大學計算機中心在微機上實現了一個主題受限的特定人連續英語---漢語語音翻譯演示系統。-在非特定人語音識別方面,有清華大學計算機科學與技術系在87年研制的聲控查號系統并投入實際使用。語音合成可以通過再生預存的語音信號和模擬發聲兩種實現途徑。

再生預存的語音信號方式,就是采用了數字存儲技術,預先存入的語音信號,然后將預先存入的單音或詞組拼接成語音。如果預先存入語音單元足夠多,合成時就可以挑選出比較適宜的語音單元,然后拼接合成產生比較符合自然的語句。模擬發聲方式采用數字信號處理的方法。用周期脈沖序列作為聲源,代表聲帶振動或噪聲序列,去鼓勵一個表征聲道諧振特性的時變數字濾波器。通過調整濾波器的參數控制不同的發音,通過調整鼓勵源脈沖序列的周期或強度去改變合成語音的音調、重音等。只要正確控制鼓勵源和濾波器參數。就能夠合成出各種語句來。合成語音的目標應該是可懂、清晰、自然、具有表現力。為了合成出高質量的語言,除了依賴于各種規那么,包括語義學規那么、詞匯規那么、語音學規那么外,還必須對文字的內容有很好的理解。語音合成2.5語音識別文本-語音TTS技術語音識別系統實例-IBMViaVoice漢語語音識別系統的工作原理及其應用

漢語語音聽寫機〔CDM,ChineseDictationMachine〕是非特定人、大詞匯量的連續語流〔或連接詞〕識別系統,其目的是由計算機將人的語流轉化為相應的文本信息。在當今人與計算機交互日益頻繁的條件下,探索高效而自然的交互方式是人們不斷努力的目標。漢語語音聽寫機正是這樣一種十分有潛力的人機交互系統,它可望把人從不自然的信息輸入方式中解放出來,從而大大推進計算機的應用和開展。文本-語音TTS技術TTS的根本概念文語轉換〔Text-to-Speech〕是將文本形式的信息轉換成自然語音的一種技術,其最終目標是力圖使計算機能夠以清晰自然的聲音,以各種各樣的語言,甚至以各種各樣的情緒來朗讀任意的文本。也就是說,要使計算機具有像人一樣、甚至比人更強的說話能力。因而它是一個十分復雜的問題,涉及到語言學、韻律學、語音學、自然語言處理、信號處理、人工智能等諸多的學科。文本-語音TTS技術TTS分為綜合的和連貫的兩種類型。綜合的語音就是通過分析單詞,由計算機確認單詞的發音,然后這些音素就被輸入到一個復雜的模仿人聲音并發聲的算法,這樣就可以讀文本了。通過這種方式,TTS就能讀出任何單詞,甚至自造的詞,但是它發出的聲音不帶任何感情,帶有明顯的機器語音味道。文本-語音TTS技術連貫語音系統分析文本從預先備好的文庫里抽出單詞和詞組的錄音。數字化錄音是連貫的,因為聲音是事先錄制的語音,聽起來很舒服。遺憾的是,如果文本包含沒有錄的詞和短語,TTS就讀不出來了。連貫TTS可以被看成是一種聲音壓縮形式,因為單詞和常用的短語只能錄一次。連貫TTS會節省開發時間并減少錯誤,使軟件增加相應的功能。文本-語音TTS技術TTS系統的組成與工作過程漢語TTS系統有3個主要的組成局部:文本分析模塊、韻律分析模塊、語音生成模塊。TTS的根本工作過程是:輸入的漢字文本經語言學和語音學處理,得到語流的控制參數,然后讀取語音數據庫,再經語音信號處理,輸出連續的語音。文本-語音TTS技術TTS的應用領域文語轉換在各種計算機相關領域中有著廣泛的應用前景。除了人-機交互外,TTS系統在醫療、教育、通信、信息、家電等領域也具有相當廣泛的用途。語音識別系統實例-IBMViaVoice語音識別是把輸入的語音信號經過數字信號處理后得到一組特征參數,然后將這組特征參數與預存的模板進行比較,從而確定說話者所說內容的一門新的聲音識別技術。語音識別系統實例-IBMViaVoice語音識別系統可根據不同的分類方式及依據,分為以下三類:根據對說話人說話方式的要求,可以分為孤立字〔詞〕語音識別系統,連接字語音識別系統以及連續語音識別系統。根據對說話人的依賴程度可以分為特定人和非特定人語音識別系統。語音識別系統實例-IBMViaVoice根據詞匯量大小,可以分為小詞匯量、中等詞匯量、大詞匯量以及無限詞匯量語音識別系統。語音識別技術主要包括特征提取技術、模式匹配準那么及模型訓練技術三個方面。此外,還涉及到語音識別單元的選取。語音識別系統實例-IBMViaVoice在語音識別領域,IBM在世界上一直處于領先地位。迄今為止,共有十三種語言的連續語音識別產品。1997年9月,IBM推出了ViaVoice中文連續語音識別系統,它成功地解決了漢語同音字多、有聲調、口音復雜等難題。在1999年底推出的ViaVoice中文語音識別系統,除了具有非特定人、無限詞匯量、連續語音識別、高識別率、專業文章智能分析、理解等強大的語音功能外,還為上網用戶提供了輕松上網的功能。語音識別系統實例-IBMViaVoiceIBMViaVoice改變了傳統模式,可以用語音向計算機發出命令、錄入漢字、標點符號。ViaVoice的功能是在稱之為“語音中心〞的選項下,通過一個下拉式菜單來實現的。主要包括:聽寫輸入和命令導航。ViaVoice只是一個普及型產品,它可以滿足人們日常的要求。如果再進一步開展ViaVoice所采用的技術,可以以ViaVoice系統為平臺,繼續開展。2.6實例VC++播放聲音的實現實現音頻分析的根底是對音頻文件的解析。盡管音頻文件的存儲格式很多,但根本原理是一致的,因此,本節以wav文件為例,介紹VC++環境中如何實現聲音文件的播放。在VC++中可以根據不同的應用要求,用不同的方法實現聲音的播放。第一種方法可以直接調用聲音播放函數。第二種方法可以把聲音作為資源參加可執行文件中。第三種方法是對聲音播放的高級處理,這種方法在播放之前可以對聲音數據進行處理。2.6實例VC++播放聲音的實現直接調用聲音播放函數如果只需要簡單的播放聲音文件,在VC++中的多媒體動態鏈接庫中提供了一組與音頻設備有關的函數。利用這些函數可以方便地播放聲音。最簡單的播放聲音方法就是直接調用VC++中提供的聲音播放函數:

BOOLsndPlaySound(LPCSTRlpszSound,UINTfuSound)

2.6實例VC++播放聲音的實現或BOOLPlaySound(LPCSTRlpszSound,HMODULEhmod,DWORDfuSound)其中參數lpszSound是需要播放聲音的.WAV文件的路徑和文件名,hmod在這里為NULL,fuSound是播放聲音的標志。例如播放C:\sound\music.wav可以用:sndPlaySound(“c:\\sound\\music.wav〞,SND_ASYNC)或PlaySound("c:\\sound\\music.wav",NULL,SND_ASYNC|SND_NODEFAULT);如果沒有找到music.wav文件,第一種格式將播放系統默認的聲音,第二種格式不會播放系統默認的聲音。2.6實例VC++播放聲音的實現聲音文件作為資源進行播放第一種播放方法是在播放時調用下面的語句:PlaySound(MAKEINTRESOURCE(IDR_WAVE1),AfxGetResourceHandle(),SND_ASYNC|SND_RESOURCE|SND_NODEFAULT|SND_LOOP);

其中MAKEINTRESOURCE()宏將整數資源標識符轉變為字符串,AfxGetResourceHandle()函數返回包含資源的模塊句柄,SND_RESOURCE是必須的標志。

2.6實例VC++播放聲音的實現第二種播放方法是把資源讀入內存后作為內存數據播放。具體步驟如下:〔1〕獲得包含資源的模塊句柄:HMODULEhmod=AfxGetResourceHandle();〔2〕檢索資源塊信息:HRSRChSndResource=FindResource(hmod,MAKEINTRESOURCE(IDR_WAVE1),_T("WAVE"));〔3〕裝載資源數據并加鎖:HGLOBALhGlobalMem=LoadResource(hmod,hSndResource);LPCTSTRlpMemSound=(LPCSTR)LockResource(hGlobalMem);2.6實例VC++播放聲音的實現〔4〕播放聲音文件:sndPlaySound(lpMemSound,SND_MEMORY));〔5〕釋放資源句柄:FreeResource(hGlobalMem);2.6實例VC++播放聲音的實現對聲音處理后播放首先介紹幾個要用到的數據結構。WAVEFORMATEX結構定義了WAV音頻數據文件的格式。WAVEHDR結構定義了波形音頻緩沖區。讀出的數據首先要填充此緩沖區才能送音頻設備播放。WAVEOUTCAPS結構描述了音頻設備的性能。MMCKINFO結構包含了RIFF文件中一個塊的信息。

2.6實例VC++播放聲音的實現下面給出程序源代碼清單,在VC++環境下可直接使用:

源程序清單如下:LPSTRszFileName;//聲音文件名MMCKINFOmmckinfoParent;MMCKINFOmmckinfoSubChunk;DWORDdwFmtSize;HMMIOm_hmmio;//音頻文件句柄2.6實例VC++播放聲音的實現DWORDm_WaveLong;HPSTRlpData;//音頻數據HANDLEm_hData;HANDLEm_hFormat;WAVEFORMATEX*lpFormat;DWORDm_dwDataOffset;DWORDm_dwDataSize;WAVEHDRpWaveOutHdr;WAVEOUTCAPSpwoc;HWAVEOUThWaveOut;2.6實例VC++播放聲音的實現//翻開波形文件if(!(m_hmmio=mmioOpen(szFileName,NULL,MMIO_READ|MMIO_ALLOCBUF))){//FileopenErrorError("Failedtoopenthefile.");//錯誤處理函數returnfalse;}//檢查翻開文件是否是聲音文件mmckinfoParent.fccType=mmioFOURCC('W','A','V','E');if(mmioDescend(m_hmmio,(LPMMCKINFO)&mmckinfoParent,NULL,MMIO_FINDRIFF)){//NOTWAVEFILEANDQUIT}

2.6實例VC++播放聲音的實現//尋找'fmt'塊mmckinfoSubChunk.ckid=mmioFOURCC('f','m','t','');if(mmioDescend(m_hmmio,&mmckinfoSubChunk,&mmckinfoParent,MMIO_FINDCHUNK)){//Can'tfind'fmt'chunk}//獲得'fmt'塊的大小,申請內存dwFmtSize=mmckinfoSubChunk.cksize;m_hFormat=LocalAlloc(LMEM_MOVEABLE,LOWORD(dwFmtSize));if(!m_hFormat){//failedallocmemory}2.6實例VC++播放聲音的實現lpFormat=(WAVEFORMATEX*)LocalLock(m_hFormat);if(!lpFormat){//failedtolockthememory}if((unsignedlong)mmioRead(m_hmmio,(HPSTR)lpFormat,dwFmtSize)!=dwFmtSize){//failedtoreadformatchunk}2.6實例VC++播放聲音的實現//離開'fmt'塊mmioAscend(m_hmmio,&mmckinfoSubChunk,0);//尋找'data'塊mmckinfoSubChunk.ckid=mmioFOURCC('d','a','t','a');if(mmioDescend(m_hmmio,&mmckinfoSubChunk,&mmckinfo

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論