機器人語音識別中英文對照外文翻譯文獻_第1頁
機器人語音識別中英文對照外文翻譯文獻_第2頁
機器人語音識別中英文對照外文翻譯文獻_第3頁
機器人語音識別中英文對照外文翻譯文獻_第4頁
機器人語音識別中英文對照外文翻譯文獻_第5頁
已閱讀5頁,還剩15頁未讀 繼續免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

外文資料翻譯中英文資料外文翻譯譯文:改進型智能機器人的語音識別方法2、語音識別概述最近,由于其重大的理論意義和實用價值,語音識別已經受到越來越多的關注。到現在為止,多數的語音識別是基于傳統的線性系統理論,例如隱馬爾可夫模型和動態時間規整技術。隨著語音識別的深度研究,研究者發現,語音信號是一個復雜的非線性過程,如果語音識別研究想要獲得突破,那么就必須引進非線性系統理論方法。最近,隨著非線性系統理論的發展,如人工神經網絡,混沌與分形,可能應用這些理論到語音識別中。因此,本文的研究是在神經網絡和混沌與分形理論的基礎上介紹了語音識別的過程。語音識別可以劃分為獨立發聲式和非獨立發聲式兩種。非獨立發聲式是指發音模式是由單個人來進行訓練,其對訓練人命令的識別速度很快,但它對與其他人的指令識別速度很慢,或者不能識別。獨立發聲式是指其發音模式是由不同年齡,不同性別,不同地域的人來進行訓練,它能識別一個群體的指令。一般地,由于用戶不需要操作訓練,獨立發聲式系統得到了更廣泛的應用。所以,在獨立發聲式系統中,從語音信號中提取語音特征是語音識別系統的一個基本問題。語音識別包括訓練和識別,我們可以把它看做一種模式化的識別任務。通常地,語音信號可以看作為一段通過隱馬爾可夫模型來表征的時間序列。通過這些特征提外文資料翻譯取,語音信號被轉化為特征向量并把它作為一種意見,在訓練程序中,這些意見將反饋到HMM的模型參數估計中。這些參數包括意見和他們響應狀態所對應的概率密度函數,狀態間的轉移概率,等等。經過參數估計以后,這個已訓練模式就可以應用到識別任務當中。輸入信號將會被確認為造成詞,其精確度是可以評估的。整個過程如圖一所示。IXllFEHrx'ivgniEirNiIKMid小rraiunIXllFEHrx'ivgniEirNiIKMid小rraiun1k.irwiisFiTrHiiiiriKPn-priMfin禺圖1語音識別系統的模塊圖3、理論與方法從語音信號中進行獨立揚聲器的特征提取是語音識別系統中的一個基本問題。解決這個問題的最流行方法是應用線性預測倒譜系數和Mel頻率倒譜系數。這兩種方法都是基于一種假設的線形程序,該假設認為說話者所擁有的語音特性是由于聲道共振造成的。這些信號特征構成了語音信號最基本的光譜結構。然而,在語音信號中,這些非線形信息不容易被當前的特征提取邏輯方法所提取,所以我們使用分型維數來測量非線形語音擾動。本文利用傳統的LPCC和非線性多尺度分形維數特征提取研究并實現語音識別系統。線性預測倒譜系數線性預測系數是一個我們在做語音的線形預分析時得到的參數,它是關于毗鄰語音樣本間特征聯系的參數。線形預分析正式基于以下幾個概念建立起來的,即一個語音樣本可以通過一些以前的樣本的線形組合來快速地估計,根據真實語音樣本在確切的分析框架(短時間內的)和預測樣本之間的差別的最小平方原則,最后會確認出唯一的一組預測系數。LPC可以用來估計語音信號的倒譜。在語音信號的短時倒譜分析中,這是一種特殊的處理方法。信道模型的系統函數可以通過如下的線形預分析來得到:

外文資料翻譯外文資料翻譯H(z)其中p代表線形預測命令,(k=1,2,……,p)代表預測參數,脈沖響應用h(n)來表示,假設h(n)的倒譜是上;「小?。那么(1)式可以擴展為(2)式:一將(1)帶入(2),兩邊同時,(2)變成(3)。一將(1)帶入(2),兩邊同時,(2)變成(3)。4):(5)中計算的倒譜系數叫做LPCC,n代表4):(5)中計算的倒譜系數叫做LPCC,n代表LPCC命令。就獲得了方程(那么小,不,可以通過一來獲得。在我們采集LPCC參數以前,我們應該對語音信號進行預加重,幀處理,加工和終端窗口檢測等,所以,中文命令字“前進”的端點檢測如圖2所示,接下來,斷點檢測后的中文命令字“前進”語音波形和LPCC的參數波形如圖3所示。外文資料翻譯Sjirh|iKhgPfHIll圖2中文命令字“前進”的端點檢測Sjirh|iKhgPfHIll圖2中文命令字“前進”的端點檢測圖3斷點檢測后的中文命令字“前進”語音波形和LPCC的參數波形語音分形維數計算分形維數是一個與分形的規模與數量相關的定值,也是對自我的結構相似性的測量。分形分維測量是[6-7]。從測量的角度來看,分形維數從整數擴展到了分數,打破了一般集拓撲學方面被整數分形維數的限制,分數大多是在歐幾里得幾何外文資料翻譯尺寸的延伸。有許多關于分形維數的定義,例如相似維度,豪斯多夫維度,信息維度,相關維度,容積維度,計盒維度等等,其中,豪斯多夫維度是最古老同時也是最重要的,它的定義如【3】所示:D=JrnrinWs(F)/ln5])其中,M門”表示需要多少個單位,,來覆蓋子集F.lnri/E>端點檢測后,中文命令詞“向前”的語音波形和分形維數波形如圖4所示。圖4端點檢測后,中文命令詞“向前”的語音波形和分形維數波形改進的特征提取方法考慮到LPCC語音信號和分形維數在表達上各自的優點,我們把它們二者混合到信號的特取中,即分形維數表表征語音時間波形圖的自相似性,周期性,隨機性,同時,LPCC特性在高語音質量和高識別速度上做得很好。由于人工神經網絡的非線性,自適應性,強大的自學能力這些明顯的優點,它的優良分類和輸入輸出響應能力都使它非常適合解決語音識別問題。由于人工神經網絡的輸入碼的數量是固定的,因此,現在是進行正規化的特征外文資料翻譯參數輸入到前神經網絡[9],在我們的實驗中,LPCC和每個樣本的分形維數需要分別地通過時間規整化的網絡,LPCC是一個4幀數據(LPCC1,LPCC2,LPCC3,LPCC4,每個參數都是14維的),分形維數被模范化為12維數據,(FDi,FD2,?FDi2,每一個參數都是一維),以便于每個樣本的特征向量有4*14+12*1=68-D維,該命令就是前56個維數是LPCC,剩下的12個維數是分形維數。因而,這樣的一個特征向量可以表征語音信號的線形和非線性特征。自動語音識別的結構和特征自動語音識別是一項尖端技術,它允許一臺計算機,甚至是一臺手持掌上電腦(邁爾斯,2000)來識別那些需要朗讀或者任何錄音設備發音的詞匯。自動語音識別技術的最終目的是讓那些不論詞匯量,背景噪音,說話者變音的人直白地說出的單詞能夠達到100%的準確率(CSLU,2002)。然而,大多數的自動語音識別工程師都承認這樣一個現狀,即對于一個大的語音詞匯單位,當前的準確度水平仍然低于90%。舉一個例子,Dragon,sNaturallySpeaking或者IBM公司,闡述了取決于口音,背景噪音,說話方式的基線識別的準確性僅僅為60%至80%(Ehsani&Knodt,1998)。更多的能超越以上兩個的昂貴的系統有Subarashii(Bernstein,etal.,1999),EduSpeak(Franco,etal.,2001),Phonepass(Hinks,2001),ISLEProject(Menzel,etal.,2001)andRAD(CSLU,2003)。語音識別的準確性將有望改善。在自動語音識別產品中的幾種語音識別方式中,隱馬爾可夫模型(HMM)被認為是最主要的算法,并且被證明在處理大詞匯語音時是最高效的(Ehsani&Knodt,1998)。詳細說明隱馬爾可夫模型如何工作超出了本文的范圍,但可以在任何關于語言處理的文章中找到。其中最好的是Jurafsky&Martin(2000)andHosom,Cole,andFanty(2003)。簡而言之,隱馬爾可夫模型計算輸入接收信號和包含于一個擁有數以百計的本土音素錄音的數據庫的匹配可能性(Hinks,2003,p.5)。也就是說,一臺基于隱馬爾可夫模型的語音識別器可以計算輸入一個發音的音素可以和一個基于概率論相應的模型達到的達到的接近度。高性能就意味著優良的發音,低性能就意味著劣質的發音(Larocca,etal.,1991)。外文資料翻譯雖然語音識別已被普遍用于商業聽寫和獲取特殊需要等目的,近年來,語言學習的市場占有率急劇增加(Aist,1999;Eskenazi,1999;Hinks,2003)。早期的基于自動語音識別的軟件程序采用基于模板的識別系統,其使用動態規劃執行模式匹配或其他時間規范化技術(Dalby&Kewley-Port,1999).這些程序包括TalktoMe(Auralog,1995),theTellMeMoreSeries(Auralog,2000),Triple-PlayPlus(Mackey&Choi,1998),NewDynamicEnglish(DynEd,1997),EnglishDiscoveries(Edusoft,1998),andSeeit,HearIt,SAYIT!(CPI,1997)。這些程序的大多數都不會提供任何反饋給超出簡單說明的發音準確率,這個基于最接近模式匹配說明是由用戶提出書面對話選擇的。學習者不會被告之他們發音的準確率。特別是內里,(2002年)評論例如TalktoMe和TellMeMore等作品中的波形圖,因為他們期待浮華的買家,而不會提供有意義的反饋給用戶。TalktoMe2002年的版本已經包含了更多Hinks(2003)的特性,比如,信任對于學習者來說是非常有用的:★一個視覺信號可以讓學習者把他們的語調同模型揚聲器發出的語調進行對比。★學習者發音的準確度通常以數字7來度量(越高越好)★那些發音失真的詞語會被識別出來并被明顯地標注。外文資料翻譯原文:Improvedspeechrecognitionmethod

forintelligentrobot2、OverviewofspeechrecognitionSpeechrecognitionhasreceivedmoreandmoreattentionrecentlyduetotheimportanttheoreticalmeaningandpracticalvalue[5].Uptonow,mostspeechrecognitionisbasedonconventionallinearsystemtheory,suchasHiddenMarkovModel(HMM)andDynamicTimeWarping(DTW).Withthedeepstudyofspeechrecognition,itisfoundthatspeechsignalisacomplexnonlinearprocess.Ifthestudyofspeechrecognitionwantstobreakthrough,nonlinear-systemtheorymethodmustbeintroducedtoit.Recently,withthedevelopmentofnonlinea-systemtheoriessuchasartificialneuralnetworks(ANN),chaosandfractal,itispossibletoapplythesetheoriestospeechrecognition.Therefore,thestudyofthispaperisbasedonANNandchaosandfractaltheoriesareintroducedtoprocessspeechrecognition.Speechrecognitionisdividedintotwowaysthatarespeakerdependentandspeakerindependent.Speakerdependentreferstothepronunciationmodeltrainedbyasingleperson,theidentificationrateofthetrainingperson?sordersishigh,whileothers,ordersisinlowidentificationrateorcan,tberecognized.Speakerindependentreferstothepronunciationmodel外文資料翻譯trainedbypersonsofdifferentage,sexandregion,itcanidentifyagroupofpersons,orders.Generally,speakerindependentsystemismorewidelyused,sincetheuserisnotrequiredtoconductthetraining.Soextractionofspeakerindependentfeaturesfromthespeechsignalisthefundamentalproblemofspeakerrecognitionsystem.Speechrecognitioncanbeviewedasapatternrecognitiontask,whichincludestrainingandrecognition.Generally,speechsignalcanbeviewedasatimesequenceandcharacterizedbythepowerfulhiddenMarkovmodel(HMM).Throughthefeatureextraction,thespeechsignalistransferredintofeaturevectorsandactasobservations.Inthetrainingprocedure,theseobservationswillfeedtoestimatethemodelparametersofHMM.Theseparametersincludeprobabilitydensityfunctionfortheobservationsandtheircorrespondingstates,transitionprobabilitybetweenthestates,etc.Aftertheparameterestimation,thetrainedmodelscanbeusedforrecognitiontask.Theinputobservationswillberecognizedastheresultedwordsandtheaccuracycanbeevaluated.ThewholeprocessisillustratedinFig.1.Fig.1Blockdiagramofspeechrecognitionsystem外文資料翻譯3TheoryandmethodExtractionofspeakerindependentfeaturesfromthespeechsignalisthefundamentalproblemofspeakerrecognitionsystem.ThestandardmethodologyforsolvingthisproblemusesLinearPredictiveCepstralCoefficients(LPCC)andMel-FrequencyCepstralCo-efficient(MFCC).Boththesemethodsarelinearproceduresbasedontheassumptionthatspeakerfeatureshavepropertiescausedbythevocaltractresonances.Thesefeaturesformthebasicspectralstructureofthespeechsignal.However,thenon-linearinformationinspeechsignalsisnoteasilyextractedbythepresentfeatureextractionmethodologies.Soweusefractaldimensiontomeasurenon2linearspeechturbulence.ThispaperinvestigatesandimplementsspeakeridentificationsystemusingbothtraditionalLPCCandnon-linearmultiscaledfractaldimensionfeatureextraction.3.1LinearPredictiveCepstralCoefficientsLinearpredictioncoefficient(LPC)isaparametersetwhichisobtainedwhenwedolinearpredictionanalysisofspeech.Itisaboutsomecorrelationcharacteristicsbetweenadjacentspeechsamples.Linearpredictionanalysisisbasedonthefollowingbasicconcepts.Thatis,aspeechsamplecanbeestimatedapproximatelybythelinearcombinationofsomepastspeechsamples.Accordingtotheminimalsquaresumprincipleofdifferencebetweenrealspeechsampleincertainanalysisframe

外文資料翻譯short-timeandpredictivesample,theonlygroupofpredictioncoefficientscanbedetermined.LPCcoefficientcanbeusedtoestimatespeechsignalcepstrum.Thisisaspecialprocessingmethodinanalysisofspeechsignalshort-timecepstrum.Systemfunctionofchannelmodelisobtainedbylinearpredictionanalysisasfollow.Whereprepresentslinearpredictionorder,ak,(k=1,2,…,Whereprepresentslinearpredictionorder,ak,(k=1,2,…,p)representspredictioncoefficient,Impulseresponseisrepresentedbyh(n).Supposecepstrumofh(n)isrepresentedby1,then(1)canbeexpandedas(2).II(z)In//II(z)In//(z)Intinduce(1)nw(2)Intinduce(1)nw(2)7

(2)ischangedinio(3)一「JXandderive£onbothsides,EA£hg二n=]Equation(4)isobtained:門-畢二》門-畢二》Ek=. n=.Anh(n)二外文資料翻譯SetcoefficientsofequalpowersequalonbothAsidesof(4)_thush(n)canbeobtainedfirmak.”v0n=11<門WpE2PThecepstrumcoefficientcalculatedinthewayof(5)iscalledLPCC,nrepresentsLPCCorder.WhenweextractLPCCparameterbefore,weshouldcarryonspeechsignalpre-emphasis,framingprocessing,windowingprocessingandendpointsdetectionetc.,sotheendpointdetectionofChinesecommandword“Forward“isshowninFig.2,next,thespeechwaveformofChinesecommandword“Forward“andLPCCparameterwaveformafterEndpointdetectionisshowninFig.3.外文資料翻譯2Q2Q30 40 5() 607U此Frarw*NundwrEndpoiitdetectionofChhesemaudword"lorwardF患3SpeechwavefonnofChiiesecommandword

[rorwaretMandLPCCpanuneter郵itvefomi

afterendpohtdetectioii外文資料翻譯3.2SpeechFractalDimensionComputationFractaldimensionisaquantitativevaluefromthescalerelationonthemeaningoffractal,andalsoameasuringonself-similarityofitsstructure.Thefractalmeasuringisfractaldimension[6-7].Fromtheviewpointofmeasuring,fractaldimensionisextendedfromintegertofraction,breakingthelimitofthegeneraltopologysetdimensionbeingintegerFractaldimension,fractionmostly,isdimensionextensioninEuclideangeometry.Therearemanydefinitionsonfractaldimension,eg.,similardimension,Hausdoffdimension,inforationdimension,correlationdimension,capabilityimension,box-countingdimensionetc.,where,Hausdoffdimensionisoldestandalsomostimportant,foranysets,itisdefinedas[3].D=ipTInV/fi(F)/ln^'J) (6)Where,M£(F)denoteshowmanyunit£neededtocoversubsetF.Inthispaper,theBox-Countingdimension(DB)of,F,isobtainedbypartitioningtheplanewithsquaresgridsofside£,andthenumberofsquaresthatintersecttheplane(N(£))andisdefinedas[8].ThespeechwaveformofChinesecommandword“Forward”andfractaldimensionwaveformafterEndpointdetectionisshowninFig.4.3.3Improvedfeatureextractionsmethod外文資料翻譯ConsideringtherespectiveadvantagesonexpressingspeechsignalofLPCCandfractaldimension,wemixbothtobethefeaturesignal,thatis,fractaldimensiondenotestheself2similarity,periodicityandrandomnessofspeechtimewaveshape,meanwhileLPCCfeatureisgoodforspeechqualityandhighonidentificationrate.lifterendpohtdetectkuilifterendpohtdetectkui20 25劉40 45V)Krrtiitr-AnrrNi'F玷4SpeechwavefumiofChile*conimandword^Forwardhandfractaldinenki)nwaveform國XI IIM#1500 2MM) 15(X1DuetoANN’Snonlinearity,self-adaptability,robustandself-learningsuchobviousadvantages,itsgoodclassificationandinput2outputreflectionabilityaresuitabletoresolvespeechrecognitionproblem.DuetothenumberofANNinputnodesbeingfixed,thereforetimeregularizationiscarriedouttothefeatureparameterbeforeinputtedtotheneuralnetwork[9].Inourexperiments,LPCCandfractaldimensionofeach外文資料翻譯sampleareneedtogetthroughthenetworkoftimeregularizationseparately,LPCCis4-framedata(LPCC1,LPCC2,LPCC3,LPCC4,eachframeparameteris14-D),fractaldimensionisregularizedtobe12-framedata(FD1,FD2,...,FD12,eachframeparameteris1-D),sothatthefeaturevectorofeachsamplehas4*14+1*12=68-D,theorderis,thefirst56dimensionsareLPCC,therest12dimensionsarefractaldimensions.Thus,suchmixedfeatureparametercanshowspeechlinearandnonlinearcharacteristicsaswell.外文資料翻譯ArchitecturesandFeaturesofASRASRisacuttingedgetechnologythatallowsacomputerorevenahand-heldPDA(Myers,2000)toidentifywordsthatarereadaloudorspokenintoanysound-recordingdevice.TheultimatepurposeofASRtechnologyistoallow100%accuracywithallwordsthatareintelligiblyspokenbyanypersonregardlessofvocabularysize,backgroundnoise,orspeakervariables(CSLU,2002).However,mostASRengineersadmitthatthecurrentaccuracylevelforalargevocabularyunitofspeech(e.g.,thesentence)remainslessthan90%.Dragon'sNaturallySpeakingorIBM'sViaVoice,forexample,showabaselinerecognitionaccuracyofonly60%to80%,dependinguponaccent,backgroundnoise,typeofutterance,etc.(Ehsani&Knodt,1998).MoreexpensivesystemsthatarereportedtooutperformthesetwoareSubarashii(Bernstein,etal.,1999),EduSpeak(Franco,etal.,2001),Phonepass(Hinks,2001),ISLEProject(Menzel,etal.,2001)andRAD(CSLU,2003).ASRaccuracyisexpectedtoimprove.AmongseveraltypesofspeechrecognizersusedinASRproducts,bothimplementedandproposed,theHiddenMarkovModel(HMM)isoneofthemostdominantalgorithmsandhasproventobeaneffectivemethodofdealingwithlargeunitsofspeech(Ehsani&Knodt,1998).DetaileddescriptionsofhowtheHHMmodelworksgobeyondthescopeofthispaperandcanbefoundinanytextconcernedwithlanguageprocessing;amongthebestareJurafsky&Martin(2000)andHosom,Cole,andFanty外文資料翻譯(2003).Putsimply,HMMcomputestheprobablematchbetweentheinputitreceivesandphonemescontainedinadatabaseofhundredsofnativespeakerrecordings(Hinks,2003,p.5).Thatis,aspeechrecognizerbasedonHMMcomputeshowcloseth

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論