基于統計的機器翻譯_第1頁
基于統計的機器翻譯_第2頁
基于統計的機器翻譯_第3頁
基于統計的機器翻譯_第4頁
基于統計的機器翻譯_第5頁
已閱讀5頁,還剩6頁未讀 繼續免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

2.Corpus-basedsystem

基于語料庫的機器翻譯系統概念:不同于基于規則的機譯系統由詞典和語法規則庫構成翻譯知識庫,基于語料庫的機譯系統是以語料庫(P121-P122)的應用為核心,由經過劃分并具有標注的語料庫構成知識庫,以統計規律為主。分類:(1)基于統計(Statistics-based)的機器翻譯(2)基于實例(Example-based)的機器翻譯發展時期:20世紀80年代(計算機技術和互聯網技術的迅猛發展)代表人物:香農:香農模式,噪聲信道模型P122機器翻譯之父:1947年Weaver提出的“解碼思想”P123(1)基于統計(Statistics-based)的機器翻譯

統計機器翻譯的基本思想是通過對大量的平行語料進行統計分析,構建統計翻譯模型,進而使用此模型進行翻譯。通俗地說,源語到目的語的翻譯是一個概率統計問題,任何一個目的語句子都有可能是任何一個源語句的譯文,只是概率不同,機器翻譯的任務就是找到概率最大的句子。具體方法是將翻譯看做對原文通過模型轉換為譯文的解碼過程。1、模型問題:就是為機器翻譯建立概率模型,也就是要定義源語到目的語的翻譯概率的計算方法。2、訓練問題:利用語料庫來得到這個模型的所有參數。3、解碼問題:在已知模型和參數的基礎上,對于任何一個輸入的源語言句子,去查找概率最大的譯文。例句:Wedochickenright.1.我們做雞是對的。2.我們做雞正點耶。3.我們就是做雞的,我們有做雞的權利。4.我們只做雞的右半邊。5.我們可以做雞,對吧?6.我們行使了雞的權利。7.我們只做右邊的雞。8.我們讓雞向右看齊。9.我們只做正版的雞!10.只有朝右才是好雞。11.我們有雞的權利!12.只有我們可以做雞!13.我們“正在”做雞好不好?14.向右看,有雞。15.我們讓雞變右撇子。16.我們一定要把雞打成右派!17.我們做的是“右派”的雞!(麥當勞做的是“左派”的雞!)18.我們只做右撇子雞!19.我們干雞的右邊。20.我們把雞搞正!(原來是歪的)21.我們“躲”在雞的右懷里。22.我們做雞,怎么啦?23.雞的左邊留給麥當勞干。24.我們知道怎么做雞。25.我們知道如何做“雞”。26.雞做得對!27.你知道我們正在做雞。28.我們只做正點的雞!29我們烹雞的方式最正確。/我們是烹雞專家。應用:Google的在線翻譯已為人熟知,其背后的技術即為基于統計的機器翻譯方法,基本運行原理是通過搜索大量的雙語網頁內容,將其作為語料庫,然后由計算機自動選取最為常見的詞與詞的對應關系,最后給出翻譯結果。此外,常用的,基于統計法機器翻譯的系統還包括Bing翻譯和百度翻譯等。Bing翻譯是Microsoft提供的一項文段和網頁全文翻譯功能網站,作為Bing服務品牌的一部分。優缺點:翻譯質量的高低主要取決于

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論