計算語言學第11講機器翻譯_第1頁
計算語言學第11講機器翻譯_第2頁
計算語言學第11講機器翻譯_第3頁
計算語言學第11講機器翻譯_第4頁
計算語言學第11講機器翻譯_第5頁
已閱讀5頁,還剩194頁未讀 繼續免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

計算語言學

第11講機器翻譯

劉群

中國科學院計算技術研究所

liuqun@

中國科學院研究生院2010年春季課程講義

內容提要

計算語言學講義(11)機器翻譯2

機器翻譯的歷史

?W.J.Hutchens,latestDevelopmentinMT

Technology:BeginningaNewErainMT

Research.In:ProceedingsofMachine

TranslationSummit-IV,Kobe,Japan,1993.

?馮志偉,自動翻譯,上海知識出版社,1987年。

?馮志偉,自然語言機器翻譯新論,語文出版

社,1994年。

?馮志偉,自然語言的計算機處理,上海外語教

育出版社,1996年。

計算語言學講義(11)機器翻譯3

機器翻譯的歷史

?萌芽期(17世紀-1930年代)

?草創期(1946-1964)

?蕭條期(1964-1960年代后期)

?復蘇期(1970年代初期)

?繁榮期(1970年代后期-1980年代初期)

?平臺期(1980年代后期-1999年)

?再度繁榮期(1999-現在)統計方法!

計算語言學講義(11)機器翻譯4

內容提要

計算語言學講義(11)機器翻譯5

機器翻譯方法概述

?機器翻譯應用系統類型

?機器翻譯方法分類(按轉換層面劃分)

?機器翻譯方法分類(按知識表示劃分)

計算語言學講義(11)機器翻譯6

機器翻譯應用系統類型(1)

?理想的機器翻譯

-全自動高質量,FAHQMT

FullAutomaticHighQualityMachineTranslation

?按人機關系分類

-全自動機器翻譯,FAMT

FullAutomaticMachineTranslation

-人助機譯,HAMT

HumanAssistedMachineTranslation

-機助人譯,CAT

Compute-AidedTranslation

計算語言學講義(11)機器翻譯7

機器翻譯應用系統類型(2)

?按應用方式分類

-信息分發型MTfordissemination

?要求高質量,不要求實時

■采用人機互助,或者受限領域、受限語言等方式

提高翻譯質量

-信息吸收型MTforassimilation

?不要求高質量,要求方便、實時

■翻譯瀏覽器、便攜式翻譯設備

計算語言學講義an機器翻譯8

機器翻譯應用系統類型(3)

?按應用方式分類(續)

-信息交流型MTforinterchange

?不要求高質量,通常要求實時,語言隨意性較大

?語音翻譯、網絡聊天翻譯、電子郵件翻譯

-信息存取型MTforinformationaccess

?將機器翻譯嵌入到其他應用系統中

■跨語言檢索、跨語言信息抽取、跨語言文摘、跨

語言非文本數據庫的檢索……

計算語言學講義(11)機器翻譯9

機器翻譯方法概述

?機器翻譯應用系統類型

?機器翻譯方法分類(按轉換層面劃分)

?機器翻譯方法分類(按知識表示劃分)

計算語言學講義(11)機器翻譯10

機器翻譯方法分類(按轉換層面劃分)

中間語言

源語言目標語言

計算語言學講義(11)機器翻譯11

直接翻譯方法

?通過詞語翻譯、插入、刪除和局部的詞序調整

來實現翻譯,不進行深層次的句法和語義的分

析,但可以采用一些統計方法對詞語和詞類序

列進行分析

?早期機器翻譯系統常用的方法,近期舊M提出

的統計機器翻譯模型也可以認為是采用了這一

范式

-著名的機器翻譯系統Systran早期也是采用這

種方法,后來逐步引入了一些句法和語義分析

計算語言學講義an機器翻譯12

轉換方法(1)

?整個翻譯過程分為“分析”、“轉換”、“生成”三個

階段;

?分析:源語言句子》源語言深層結構

-相關分析:分析時考慮目標語言的特點

-獨立分析:分析過程與目標語言無關

?轉換:源語言深層結構》目標語言深層結構

?生成:目標語言深層結構》目標語言句子

-相關生成:生成時考慮源語言的特點

-獨立生成:生成過程與源語言無關

計算語言學講義(11)機器翻譯13

轉換方法(2)

?理想的轉換方法應該做到獨立分析和獨立生

成,這樣在進行多語言機器翻譯的時候可以大

大減少分析利生成的工作量;

?轉換方法根據深層結構所處的層面可分為:

一句法層轉換:深層結構主要是句法信息

-語義層轉換:深層結構主要是語義信息

?分析深度的權衡

-分析的層次越深,歧義排除就越充分

-分析的層次越深,錯誤率也越高

計算語言學講義(11)機器翻譯14

轉換方法⑶

源文句子譯文句子

源文詞串I詞語轉於―T譯文詞串

源文結構I~~詢構轉換)-X譯文結構

基于轉換方法的翻譯流程

計算語言學講義(11)機器翻譯15

句法層面的轉換方法⑴

她把一束花放在桌上。=>Sheputabunchofflowersonthe

table.

切分/標注

她/r把/p-q-v-n-7m-d束/q花/n-v-a放/v在/p-d-v桌/n_h/f-v。/w

標注排歧

她/r把/p—7m-d束/q花/n放/v在/p-v桌/n上/f-vo/w

計算語言學講義(11)機器翻譯16

句法層面的轉換方法(2)

她/r把/p—7m-d束/q花/n放Jv在/p-v桌/n_h/f-v。/w

計算語言學講義(11)機器翻譯17

句法層面的轉換方法⑶

計算語言學講義(11)機器翻譯18

句法層面的轉換方法⑷

計算語言學講義(11)機器翻譯19

句法層面的轉換方法(5)

20

計算語言學講義a1)機器翻譯

中間語言方法(1)

?利用一種中間語言(interlingua)作為翻譯的

中介表示形式;

?整個翻譯的過程分為“分析”和“生成'兩個階段

?分析:源語言》中間語言

?生成:中間語言》目標語言

?分析過程只與源語言有關,與目標語言無關

-生成過程只與目標語言有關,與源語言無關

計算語言學講義an機器翻譯21

中間語言方法(2)

?中間語言方法的優點在于進行多語

種翻譯的時候,只需要對每種語言

分別開發一個分析模塊和一個生成

模塊,模塊總數為2*n,相比之下,

如果采用轉換方法就需要對每兩種

語言之間都開發一個轉換模塊,模

塊總數為n*(n-1)

計算語言學講義(11)機器翻譯22

中間語言方法(3)

中間語言方法轉換方法

計算語言學講義(11)機器翻譯23

中間語言方法(4)

?中間語言的類型

-自然語言:如英語、漢語

-人工語言:如世界語

-某種知識表示形式:如語義網絡

?以某種知識表示形式作為中間語言的機

器翻譯方法有時也稱為基于知識的機器

翻譯方法

計算語言學講義(11)機器翻譯24

中間語言方法(5)

?MakotoNagao(KyotoUniversity)said:whenthepivot

language[i.e.interlingua]isused,theresultsoftheanalytic

stagemustbeinaformwhichcanbeutilizedbyallofthe

differentlanguagesintowhichtranslationistotakeplace.

Thislevelofsubtletyisapracticalimpossibility."(Machine

Translation,Oxford,1989)

?Patel-Schneider(METALsystem)said:"METALemploysa

modifiedtransferapproachratherthananinterlingua.Ifa

meta-language[aninterlingua]weretobeusedfor

translationpurposes,itwouldneedtoincorporateallpossible

featuresofmanylanguages.Thatwouldnotonlybean

endlesstaskbutprobablyafruitlessoneaswell.Sucha

systemwouldsoonbecomeunmanageableandperhaps

collapseunderitsownweight."(Afour-valuedsemanticsfor

terminologicalreasoning,ArtificialIntelligence,38,1989)

計算語言學講義(11)機器翻譯25

中間語言方法(6)

?基于中間語言方法一般都用于多語言的機器翻譯

系統中;

?從實踐看,基于中間語言的機器翻譯系統還沒有

比較成功的先例,如日本主持的亞洲五國語言機

器翻譯系統,總體上是失敗的;

?在CSTAR多國語語音機器翻譯系統中,曾經采用

了一種中間語言方法,其中間語言是一種語義表

示形式,由于語音翻譯都限制在非常狹窄的領域

中(如機票預定),語義描述可以做到非常精

確,因此采用中間語言方法有一定的合理性。

計算語言學講義(11)機器翻譯26

中間語言示例一語義網絡

英語:Heboughtabookonphysics.

漢語:他買了一本關于物理學的書。

說明:這里#后面表示的是概念,而不是英語詞。

計算語言學講義(11)機器翻譯27

機器翻譯方法概述

?機器翻譯應用系統類型

?機器翻譯方法分類(按轉換層面劃分)

?機器翻譯方法分類(按知識表示劃分)

計算語言學講義(11)機器翻譯28

機器翻譯方法分類(按知識表示劃分)

.基于規則的機器翻譯方法

.基于實例的機器翻譯方法

.基于統計的機器翻譯方法

29

計算語言學講義(11)機器翻譯

內容提要

計算語言學講義(11)機器翻譯30

基于規則的方法⑴

?采用規則作為知識表示形式

-重疊詞規則

-切分規則

-標注規則

-句法分析規則

-語義分析規則

-結構轉換規則(產生譯文句法語義結構)

-詞語轉換規則(譯詞選擇)

-結構生成規則(譯文結構調整)

-詞語生成規則(譯文詞形生成)

計算語言學講義(11)機器翻譯31

基于規則的方法(2)

?優點

一直觀,能夠直接表達語言學家的知識

-規則的顆粒度具有很大的可伸縮性

?大顆粒度的規則具有很強的概括能力

?小顆粒度的規則具有精細的描述能力

-便于處理復雜的結構和進行深層次的理解,

如解決長距離依賴問題

-系統適應性強,不依賴于具體的訓練語料

計算語言學講義(11)機器翻譯32

基于規則的方法(3)

?缺點

-規則主觀因素重,有時與客觀事實有一定差距

-規則的覆蓋性差,特別是細顆粒度的規則很難

總結得比較全面

-規則之間的沖突沒有好的解決辦法(翹翹板現

彖)

-規則一般只局限于某一個具體的系統,規則庫

開發成本太高

-規則庫的調試極其枯燥乏味

計算語言學講義(11)機器翻譯33

基于規則的方法一譯詞選擇

$$開

**{v}V$=[...]

II$.主體=是$主體.語義類二植物

9V<bloom>$=[...]

II$.客體=是$客體.漢字二燈|機|器

)V(!V<turn>D<on>)$=[...]

||$?客體=是$客體.語義類二交通工具

=>V<drive>$=[...]

||OTHERWISE

=>V<open>$=[...]

計算語言學講義(11)機器翻譯34

基于規則的方法一結構轉換

&&{mp7}mp->rimp::$.內部結構=組合定中,…

||%mp.定語.內部結構二單詞,%mp.定語.yx=一,%mp.量詞子類二集體|種

類|容量|時量|度量成形

=>NP(T/r!NP/mp)%T.TNNUM=%NP.NNUM/*這一年*/

||%mp.定語.內部結構二單詞,,%mp.定語.yx=一,%mp.量詞子類=個體

=>T(T/rM<one>)/*這一個哪一個*/

||%「小=這|那,IF%mp.定語.內部結構二單詞,%mp.定語.yx=-FALSE

=>NP(T/r!M/mp)%T.TNNUM=PLUR,$.NNUM=PLUR/*這兩張*/

=>NP(T/r!NP/mp)%T.TNNUM=PLUR,$.NNUM=PLUR

||%「”=~這~那,尸%mp.定語.內部結構二單詞,%mp.定語.yx=—FALSE

=>NP(T/r!M/mp)$.NNUM=%M.NNUM

=>NP(T/r!NP/mp)%T.TNSUB=%NP.NSUBC,...

計算語言學講義(11)機器翻譯35

內容提要

/機器潮譯歷史和現狀④

人機器翻譯方法概述卜

機器翻譯(H)分卜^基于規則的機器翻譯方法

N一基于實例的機器翻譯方工|

J統計機器翻譯方法I't

計算語言學講義(11)機器翻譯36

基于實例的機器翻譯方法

?基于實例的機器翻譯方法

?基于實例的機器翻譯方法的擴展

?基于翻譯記憶的機器翻譯方法

?基于模板(模式)的機器翻譯方法

?語料庫對齊技術

計算語言學講義(11)機器翻譯37

基于語料庫的機器翻譯方法

?機器翻譯的實例方法和統計方法都是基于語料

庫的機器翻譯方法

?優點

-使用語料庫作為翻譯知識來源,無需人工編寫規

貝I」,系統開發成本低,速度快

-從語料庫中學習到的知識比較客觀

-從語料庫中學習到的知識覆蓋性比較好

?缺點

-系統性能依賴于語料庫

-數據稀疏問題嚴重

-語料庫中不容易獲得大顆粒度的高概括性知識

計算語言學講義(11)機器翻譯38

基于實例的機器翻譯(1)

?長尾真(MakotoNagao)在1984年發表了《采用類比原則進行日-英機器翻

譯的一個框架》一文,探討日本人初學英語時翻譯句子的基本過程,長尾

真認為,初學英語的日本人總是記住一些最基本的英語句子以及一些相對

應的日語句子,他們要對比不同的英語句子和相對應的日語句子,并由此

推論出句子的結構。參照這個學習過程,在機器翻譯中,如果我們給出一

些英語句子的實例以及相對應的日語句子,機器翻譯系統來識別和比較這

些實例及其譯文的相似之處和相差之處,從而挑選出正確的譯文。

?長尾真指出,人類并不通過做深層的語言學分析來進行翻譯,人類的翻譯

過程是:首先把輸入的句子正確地分解為一些短語碎片,接著把這些短語

碎片翻譯成其它語言的短語碎片,最后再把這些短語碎片構成完整的句

子,每個短語碎片的翻譯是通過類比的原則來實現的。

?因此,我們應該在計算機中存儲一些實例,并建立由給定的句子找尋類似

例句的機制,這是一種由實例引導推理的機器翻譯方法,也就是基于實例

的機器翻譯。

計算語言學講義(11)機器翻譯39

基于實例的機器翻譯(2)

?在基于實例的機器翻譯系統中,系統的主要知識源是雙語

對照的翻譯實例庫,實例庫主要有兩個字段,一個字段保

存源語言句子,另一個字段保存與之對應的譯文,每輸入

一個源語言的句子時,系統把這個句子同實例庫中的源語

言句子字段進行比較,找出與這個句子最為相似的句子,

并模擬與這個句子相對應的譯文,最后輸出譯文。

?基于實例的機器翻譯系統中,翻譯知識以實例和義類詞典

的形式來表示,易于增加或刪除,系統的維護簡單易行,

如果利用了較大的翻譯實例庫并進行精確的對比,有可能

產生高質量譯文,而且避免了基于規則的那些傳統的機器

翻譯方法必須進行深層語言學分析的難點。在翻譯策略上

是很有吸引力的。

計算語言學講義(11)機器翻譯40

基于實例的機器翻譯(3)

?優點

-直接使用對齊的語料庫作為知識表示形式,

知識庫的擴充非常簡單

-不需要進行深層次的語言分析,也可以產生

高質量的譯文

,缺點

-覆蓋率低,實用的系統需要的語料庫規模極

大(百萬句對以上)

計算語言學講義(11)機器翻譯41

基于實例的機器翻譯系統結構

計算語言學講義(11)機器翻譯42

基于實例的機器翻譯一舉例

要翻譯句子:

(E1)Heboughtabookonphysics.

在語料庫中查到相似英語句子及其漢語譯文是:

(E2)Hewroteabookonhistory.

(C2)他寫了一本關于歷史的書。

比較(E1)和(E2)兩個句子,我們得到變換式:

(T1)replace(wrote,bought)andreplace(history5physics)

將這個變換式中的單詞都換成漢語就變成:

(T2)replace(寫,買)andreplace(歷史,物理)

將(T2)作用于(C2)

(C1)他買了一本關于物理學的書。

計算語言學講義(11)機器翻譯43

基于實例的機器翻譯

需要研究的問題

?正確地進行雙語自動對齊(alignment):在實例庫中要能準確地由源語言例句找到

相應的目標語言例句,在基于實例的機器翻譯系統的具體實現中,不僅要求句子

一級的對齊,而且還要求詞匯一級甚至短語一級的對齊。

-建立有效的實例匹配檢索機制:很多研究者認為,基于實例的機器翻譯的潛力在

于充分利用短語一級的實例碎片,也就是在短語一級進行對齊,但是,利用的實

例碎片越小,碎片的邊界越難于確定,歧義情況越多,從而導致翻譯質量的下

降,為此,要建立一套相似度準則(similaritymetric),以便確定兩個句子或者短

語碎片是否相似。

?根據檢索到的實例生成與源語言句子相對應的譯文:由于基于實例的機器翻譯對

源語言的分析比較粗,生成譯文時往往缺乏必要的信息,為了提高譯文生成的質

量,可以考慮把基于實例的機器翻譯與傳統的基于規則的機器翻譯方法結合起

來,對源語言也進行一定深度的分析。

?開展淺層句法分析(shallowparsing)的研究:淺層句法分析以建立語段(chunk)之

間的依附關系為目標,進行語段的識別,分析語段之間的依附關系。由于分析的

語言單位的顆粒度比較大,歧義就比較少,有利于提高雙語對齊的準確度。

計算語言學講義(11)機器翻譯44

實例庫的匹配⑴

?實例匹配的目的是將輸入句子分解成語料庫中

實例片斷的組合,這是基于實例的機器翻譯的

關鍵問題之一,實例匹配的各種方法有很大的

差異,還沒有那種做法顯示出明顯的優勢;

?實例庫匹配的效率問題:由于實例庫規模較

大,通常需要建立倒排索引;

?實例庫匹配的其他問題:

-實例片斷的分解:

-實例片斷的組合:

計算語言學講義(11)機器翻譯45

實例庫的匹配(2)

?實例片斷的分解

-實例庫中的句子往往太長,直接匹配成功率

太低,為了提高實例的重用性,需要將實例

庫中的句子分解為片斷

-幾種通常的做法:

?按標點符號分解

?任意分解

■通過組塊分析進行分解

計算語言學講義(11)機器翻譯46

實例庫的匹配(3)

?實例片斷的組合

-一個被翻譯的句子,往往可以通過各種不同

的實例片斷進行組合,如何選擇一個最好的

組合?

-簡單的做法:

?最大匹配

?最大概率法:選擇概率乘積最大的片斷組合

-有點像漢語詞語切分問題

計算語言學講義(11)機器翻譯47

片斷譯文的選擇

?由于語料庫中一個片斷可能有多種翻譯

方法,因此存在片斷譯文的選擇問題;

-常用的方法:

-根據片斷上下文進行排歧;

-根據譯文的語言模型選擇概率最大的譯文片

斷組合

計算語言學講義(11)機器翻譯48

基于實例的機器翻譯系統

?MBT1和MBT2系統:由日本京都大學長尾真和佐藤研制。該系統的翻譯目

程分為分解(decomposition)、轉換(transfer)、合成(composition)三

步。在分解階段,系統根據提交的源語言詞匯依存樹檢索實例庫,并利

用檢索到的實例碎片來表示該源語言句子的依存樹,形成源匹配表達

式;在轉換階段,系統利用實例庫中的對齊信息將源匹配表達式轉換成

目標匹配表達式;在合成階段,將目標匹配表達式展開成為目標語言詞

匯依存樹,輸出譯文。

?PANGLOSS系統:由美國卡內基-梅隆大學研制,這是一個多引擎機器翻譯

系統(Multi-engineMachineTranslation)o這個系統的主要引擎是基

于知識的機器翻譯系統,基于實例的機器翻譯系統只是它的一個引擎,

為整個多引擎機器系統提供候選結果。

?ETOC和EBMT系統:由日本口語翻譯通信研究實驗室ATR研制。ETOC系統

能夠檢索出與給定的源語言句子相似的實例,EBMT系統能夠利用實例庫

來消解歧義,這兩個基于實例的機器翻譯系統還不完整。

?我國清華大學計算機系的基于實例的日漢機器翻譯系統。

計算語言學講義(11)機器翻譯49

基于實例的機器翻譯方法

?基于實例的機器翻譯方法

?基于實例的機器翻譯方法的擴展

?基于翻譯記憶的機器翻譯方法

.基于模板(模式)的機器翻譯方法

?語料庫對齊技術

計算語言學講義(11)機器翻譯50

翻譯記憶方法(1)

?翻譯記憶方法(TranslationMemory)是基于實例

方法的特例;

?也可以把基于實例的方法理解為廣義的翻譯記憶

方法;

?翻譯記憶的基本思想:

-把已經翻譯過的句子保存起來

-翻譯新句子時,直接到語料庫中去查找

?如果發現相同的句子,直接輸出譯文

?否則交給人去翻譯,但可以提供相似的句子的參考譯文

計算語言學講義(11)機器翻譯51

翻譯記憶方法(2)

?翻譯記憶方法主要被應用于計算機輔助

翻譯(CAT)軟件中

?翻譯記憶方法的優缺點

一翻譯質量有保證

-隨著使用時間的增加匹配成功率逐步提高

-特別適用于重復率高的文本翻譯,例如公司的產品

說明書的新版本翻譯

-與語言無關,適用于各種語言對

-缺點是匹配成功率不高,特別是剛開始使用時

計算語言學講義an機器翻譯52

翻譯記憶方法(3)

?計算機輔助翻譯(CAT)軟件已經形成了比較成熟的產業

-TRADOS

?號稱占有國際CAT市場的70%

?Microsoft、Siemens、SAP等國際大公司和一些著名的國際組織都是

其用戶

-雅信CAT

?適合中國人的習慣

?產品已比較成熟

-國際組織:LISA(LocalisationIndustryStandardsAssociation)

?面向用戶:專業翻譯人員

?數據交換:LI§A制定了TMX(TranslationMemory

exchange)標準。

計算語言學講義(11)機器翻譯53

翻譯記憶方法(4)

?完整的計算機輔助翻譯軟件除了包括翻譯記憶

功能以外,還應該包括以下功能

-多種文件格式的分解與合成

-術語庫管理功能

-語料庫的句子對齊(歷史資料的重復利用)

-項目管理:

?翻譯任務的分解與合并

?翻譯工作量的估計

-數據共享和數據交換

計算語言學講義(11)機器翻譯54

翻譯記憶方法⑸

計算語言學講義(11)機器翻譯55

基于實例的機器翻譯方法

.基于實例的機器翻譯方法

.基于實例的機器翻譯方法的擴展

?基于翻譯記憶的機器翻譯方法

?基于模板(模式)的機器翻譯方法

?語料庫對齊技術

計算語言學講義(11)機器翻譯56

基于模板(模式)的機器翻譯方法(1)

?基于模板(Template)或者模式(Pattern)的機器翻譯

方法通常也被看做基于實例的機器翻譯方法的一種延伸

?所謂“翻譯模板”或者“翻譯模式”可以認為是一種顆粒度介

于“翻譯規則”和“翻譯實例”之間的翻譯知識表示形式

-翻譯規則:顆粒度大,匹配可能性大,但過于抽象,容易出錯

-翻譯實例:顆粒度小,不易出錯,但過于具體,匹配可能性小

-翻譯模板(模式):介于二者之間,是一種比較合適的知識表示

形式

?一般而言,單語模板(或模式)是一個常量和變量組成

的字符串,翻譯模板(或模式)是兩個對應的單語模板

(或模式),兩個模板之間的變量存在意義對應關系

計算語言學講義(11)機器翻譯57

基于模板(模式)的機器翻譯方法⑵

?模板舉例:

-這個X比Y更Z。

一TheXismoreZthanY.

?模板方法的主要問題

-對模板中變量的約束

-模板抽取

-模板的沖突消解

計算語言學講義(11)機器翻譯58

Pattern-BasedCFGforMT(1)

?KoichiTakeda,Pattern-BasedContext-

FreeGrammarsforMachineTranslation,

Proc,of34thACL,pp.144-151,June

1996

-給出了翻譯模式的一種形式化定義,并

給出了相應的翻譯算法以及算法復雜性

的理論證明

計算語言學講義an機器翻譯59

Pattern-BasedCFGforMT(2)

?每個翻譯模板由一個源語言上下文無關規則和一個目標

語言上下文無關規則(這兩個規則稱為翻譯模板的骨

架),以及對這兩個規則的中心詞約束和鏈接約束構

成;

?中心詞約束:對于上下文無關語法規則中右部(子結點)

的每個非終結符,可以指定其中心詞;對于規則左部

(父結點)的非終結符,可以直接指定其中心詞,也可

以通過使用相同的序號規定其中心詞等于其右部的某個

非終結符的中心詞;

?鏈接約束:源語言骨架和目標語言骨架的非終結符子結

點通過使用相同的序號建立對應關系,具有對應關系的

非終結符互為翻譯。

計算語言學講義(11)機器翻譯60

Pattern-BasedCFGforMT(3)

中心詞約束鏈接約束

中心詞約束鏈接約束

計算語言學講義an機器翻譯61

Pattern-BasedCFGforMT(4)

■翻譯的過程分為三步:

-使用源語言CFG骨架分析輸入句子s

-應用源語言到目標語言的CFG骨架的鏈接約束,生成一個譯文

CFG推導序列

-根據譯文CFG推導序列產生譯文

?模板排序的啟發式原則:

-對于源文CFG骨架相同的模板,有中心詞約束的模板優先于沒有

中心詞約束的模板;

-對于同一跨度上的兩個結點,比較其對應的模板的源文CFG骨

架,非終結符少的模板優先于非終結符多的模板;

-中心詞約束被滿足的結點優先于中心詞約束不被滿足的結點;

-對于一個輸入串而言,分析步驟越短(推導序列越短)越優先。

計算語言學講義(11)機器翻譯62

Pattern-BasedCFGforMT(5)

?模板庫的獲取:假設T是一組翻譯模板,B是

雙語語料庫,vs,t>是一對互為翻譯的句子

一如果T能夠翻譯句子s為t,那么donothing;

-如果T將s譯為t,(不等于t),那么:

?如果T中存在vs,t>的推導Q,但這個推導不是最優

解,那么給Q中的模板進行實例化;

?如果不存在這種推導,那么加入適當的模板,使得推

導成立;

-如果根本無法翻譯s(分析失敗),那么將vsj>

直接加入到模板庫中。

計算語言學講義(11)機器翻譯63

模板的自動提取

?利用一對實例進行泛化

-JaimeG.Carbonell,RalfD.Brown,

GeneralizedExample-BasedMachineTranslation

/Research/GEBMT/

?利用兩對實例進行比較

-H.AltayGuvenir,IlyasCicekli,LearningTranslation

TemplatesfromExamples

InformationSystems,1998

-張健,基于實例的機器翻譯的泛化方法研究,中科院

計算所碩士論文,2001

計算語言學講義(11)機器翻譯64

通過泛化實例得到翻譯模板

?已有實例:

-KarlMarxwasborninTrier,GermanyinMay5,

1818.

-卡爾?馬克思于1818年5月5日出生在德國特里爾城。

?泛化:

-<Person>wasbornin<City>in<Date>

-〈Person,于vDate>出生在vCg

?對齊

一<Person><=><Person>

-<City><=><City>

-<Date><=><City>

計算語言學講義(11)機器翻譯65

通過比較實例得到翻譯模板

-已有兩對翻譯實例:

-我給瑪麗一支筆<=>IgaveMaryapen.

-我給湯姆一本書<=>IgaveTomabook.

?雙側單語句子分別比較,得到:

一我給#X—#Y#ZoIgive#Wa#U.

?查找變量的對應關系:

一#Xa#W

一#Y=(|)

一#Za#U

計算語言學講義(11)機器翻譯66

基于實例的機器翻譯方法

?基于實例的機器翻譯方法

.基于實例的機器翻譯方法的擴展

?基于翻譯記憶的機器翻譯方法

?基于模板(模式)的機器翻譯方法

?語料庫對齊技術

計算語言學講義(11)機器翻譯67

雙語語料庫的對齊

?雙語語料庫(BilingualCorpus)或平行語料庫

(ParallelCorpus),在EBMT中又稱為實例庫

?雙語語料庫對齊的級別

-篇章對齊

一段落對齊

-句子對齊

-詞語對齊

-短語塊對齊

-句法結構對齊

?基于實例的機器翻譯中實例庫必須至少做到句

子級別的對齊

計算語言學講義(11)機器翻譯68

不同對齊級別的差異

?段落對齊和句子對齊

-要求保持順序(允許局部順序的調整)

-只有一個層次

?詞語對齊和短語塊對齊

-不要求保持順序

-只有一個層次

?句法結構對齊

-不要求保持順序

-多層次對齊

計算語言學講義(11)機器翻譯69

句子對齊(1)

漢語英語模式

1995年初我來成都的那IlittlethoughtwhenIarrivedin1:1

天,沒想到會是在一個冬Chengduinthedark,darkdaysof

季的漆黑的日子。winter,earlyin1995,thatIwould

stillbeheremorethanfiveyears

later.

那時我也根本沒有想到會IlittleknewthatIwouldmeetone2:1

在這兒呆上五年,也不知ofChengdu'sdaughters,andlater

道我會遇到一位成都的女marryher,thusacquiringawhole

兒,并且后來還娶她為妻。newfamilywhoembracedmeas

一個完全陌生的家庭接納oneofthem,andthusIbecame

了我,我也因此成為成都partofthisplace.

的一部分。

計算語言學講義(11)機器翻譯70

句子對齊(2)

對于篇章對齊(或者段落對齊)的一對文本(S,T):

S~邑…%,丁一’1…乙

定義其對齊為A={A>..,Ak},其中Aj稱為一個句珠(Bead)

A=(S「T)=(S*+1…,

其中旬=0<c..<〃i<...<ak=m,b0=0<...</?,_]<bi<...<bk=n

整個對齊的概率為:

P(A)=—P(4)

Z=1

計算語言學講義(11)機器翻譯71

基于長度的句子對齊⑴

?基本思想:源語言和目標語言的句子長度存在

一定的比例關系

?用兩個因素來估計一個句珠的概率

-源語言和目標語言中句子的長度

-源語言和目標語言中的句子數(對齊模式)

P(AS)

PQsi77)XP(m§i,加刀)

計算語言學講義(11)機器翻譯72

基于長度的句子對齊(2)

?根據統計,隨機變量X=%/lsi服從正態分布

計算語言學講義(11)機器翻譯73

基于長度的句子對齊(3)

?設通過語料庫統計得到X的期望為c,方差

為V2,那么隨機變量6將服從[0,1]正態分布:

5=土上=丘蟲?Ng)

vvL

?根據正態分布公式可以計算出(直接查表):

時」了)=03)二1一e

計算語言學講義(11)機器翻譯74

基于長度的句子對齊(4)

?對齊模式的概率P(ms,mT)可以通過對語料庫的統計

得到。

?下面是Gale&Church根據UBS語料庫的統計結果:

CategoryFrequencyProb(match)

1-111670.89

1-0or0-1130.0099

2-1or1-21170.089

2-2150.011

13121.00

計算語言學講義(11)機器翻譯75

基于長度的句子對齊(5)

?最優路徑的搜索:采用動態規劃算法

?定義P(i,j)=P(Si…sR…tj)

P(i,j)=max{尸("%,j-y)+Score。一+1…4,%y+i…。)}

%,y

?最優對齊為P(m,n)所對應的路徑

計算語言學講義CH)機器翻譯76

基于長度的句子對齊(6)

?優點

-不依賴于具體的語言;

-速度快;

-效果好

?缺點

-由于沒有考慮詞語信息,有時會產生一些明顯的錯誤

?討論

-長度計算可以采用詞數或者字節數,沒有明顯的優劣

之分

計算語言學講義(11)機器翻譯77

基于詞的句子對齊(1)

?基本思想:互為翻譯的句子對中,含有互為翻

譯的詞語對的概率,大大高于隨機的句子對

?用兩個因素來估計一個句珠的概率

-源語言和目標語言中互譯詞語的個數

-源語言和目標語言中的句子數(對齊模式)

尸(4)=尸⑸工)

xP(y^si,)xP(msi,

計算語言學講義(11)機器翻譯78

基于詞的句子對齊(2)

?優點

-可以充分利用詞語互譯信息,提高正確率

?缺點

-單獨使用時,正確率有時低于基于長度的方法(取

決于詞典的規模質量等)

-時空開銷大

?討論

-對于同源的語言(英語和法語,漢語和日語)可以

利用詞語同源信息而不使用詞典

計算語言學講義(11)機器翻譯79

句子對齊小結

?句子對齊的語料庫是基于語料庫的機器

翻譯的基礎;

?綜合采用基于長度的方法和基于詞匯的

方法可以取得較好的效果;

?句子對齊可以取得很高的正確率,已經

達到實用水平。

計算語言學講義(11)機器翻譯80

詞語對齊(1)

Ipackedhimalittlefoodsothathewouldnotgethungry.

我給他包了點兒食品,免得他挨餓。

?特點:

-保序性不再滿足

-對齊模式復雜:一對多、多對一、多對多都

非常普遍

計算語言學講義(11)機器翻譯81

詞語對齊(2)

?困難:

-翻譯歧義:一個詞出現兩個以上的譯詞

-雙語詞典覆蓋率有限:非常普遍的現象

-位置歧義:出現兩個以上相同的詞

-漢語詞語切分問題

-虛詞問題:虛詞的翻譯非常靈活,或沒有對

譯詞

-意譯問題:根本找不到對譯的詞

計算語言學講義(11)機器翻譯82

詞語對齊(3)

?一般而言,一個單詞對齊的模型可以表

述為兩個模型的乘積:

-詞語相似度模型(wordsimilaritymodel)

一位置扭曲模型(worddistortionmodel)

用公式表示如下:

Score(ei,c*/j)=S(ei,c*/j)xD(i,7)

計算語言學講義(11)機器翻譯83

詞語相似度模型⑴

?T-Score:

丁/、上xTotal-NxN

T-scored,c)=—c。__2e

Totalx-JTotal

Nc:語料庫中單詞c出現的詞數

Ne:語料庫中單詞e出現的詞數

Nec:語料庫中單詞e和單詞c互譯的詞數

Total:語料庫中句子對的數量

計算語言學講義(11)機器翻譯84

詞語相似度模型⑵

戴斯系數(dicecoefficient)

設和S2分別是兩個集合,則這兩個集合的戴

斯系數可以通過如下公式計算

2IS1CS2I

Dice(S^S2)=

IS]I+IS2I

?把漢語詞理解為漢字的集合,戴斯系數就是兩個詞中

相同的漢字占兩個詞漢字總數的比例。考慮到漢字表

意性,這種方法在計算漢語詞相似度時有較好的效果

?計算漢語詞c和英語詞e的相似度:

-先用英語詞e查英漢詞典,得到所有的漢語對譯詞;

-計算所有對譯詞和c的戴斯系數,取其中的最大值。

計算語言學講義(11)機器翻譯85

詞語相似度模型⑶

?互信息(mutualinformation)

通過兩個事件X和Y各自出現的概率為p(X)和

p(Y),他們聯合出現的概率為p(X,Y),這兩

個事件之間共同的互信息量定義為:

P(x)p(y)

/(x,r)=-iog2

P(x,y)

?當兩個事件相互獨立時,互信息量為0;

?當兩個事件傾向于同時出現時,互信息量為正;

?當兩個事件傾向于互相排斥時,互信息量為負;

?利用互信息作詞語相似度計算效果較差。

計算語言學講義an機器翻譯86

詞語相似度模型⑷

?(|)2方法:利用聯立表(contingencytable)

Wt+Wt-

Ws+31,950(a)12,004(b)

Ws-4,793(c)848,330(d)

,(ad-be/

2(P-

(a+b)(a+c)(b+d)(c+d)

?(|)2(phi-square)方法的效果比較好

計算語言學講義(11)機器翻譯87

詞語相似度模型(5)

?對數似然比(LogLikelihoodRatio,LLR)

LLR=logL(Pi,冗,%)+logLip?,Ie?,%)

一log£(p,左i,〃i)—log£(p,左2,%)

其中:logL(p,〃,攵)=攵logp+O—k)log(1-p)

h=/(叱,攻)左2二/(叱,「攻=/(%),幾2=/(「%)

Pi二2(叱1")二2,22=P(叱1「%)=&,2二P(叱)=^^

nxn2nx+n2

對數似然比在使用中比較有效,在訓練語料庫規模較小

時尤為明顯

計算語言學講義(11)機器翻譯88

詞語相似度模型(6)

?概念相似度

利用某種形式的義類詞典(Thesaurus),計

算兩個詞語對應的概念之間的相似度

a

Sim(p2)=-

a+a

其中d是概念PiP2之間的距離,一般用概念層

次體系中兩個結點之間的距離來計算

Q是一個可條件的參數

計算語言學講義(11)機器翻譯89

詞語相似度模型⑺

《同義詞詞林》的概念層次體系

0

虛線用于標識某上層結點到下層結點的路徑

計算語言學講義(11)機器翻譯90

位置扭曲模型

?相對偏移模型

dis(i,j)=min(lL1,1RI)

Sj是源語言優單詞的位置

s

L=1i~邑_]?-?0-JiItj是目標語言單詞Cj的位置

R=l4—N+iI—I。—JiI?跟tj對齊

dlifdis(i,j)=0s「i是Sj左側最近的一個對齊的單詞

d2if=l是與左側最近的一個對齊的單詞

d(5=

d3ifdis(ij)=2%是跟對齊的單詞

d4ifdis{i.j}〉=3Xi是跟Sj+i對齊的單詞

計算語言學講義(11)機器翻譯91

詞語對齊的搜索算法

?貪心法

1.定義對齊評價函數

2.把兩種語言單詞集合的笛卡兒積作為候選集合

3.計算所有候選詞對兒的評價函數

4.找出最好的對齊詞對兒,從候選集合中刪除

5.刪除與剛找出的詞對兒沖突的詞對兒

6,重復以上3?5,直到評分低于某個閾值

?搜索法

計算語言學講義(11)機器翻譯92

詞語對齊小結

?詞語對齊比句子對齊困難得多

?詞語對齊主要使用一個詞語相似度模型

和一個位置扭曲模型

?詞語對齊算法常見的有迭代法和貪心法

?詞語對齊的副產品:雙語詞典抽取

計算語言學講義(11)機器翻譯93

內容提要

計算語言學講義(11)機器翻譯94

統計機器翻譯

?統計機器翻譯的研究熱潮

■經典的統計機器翻譯方法

一基于詞的舊M模型

?最成熟的統計機器翻譯方法

—基于短語的模型

?目前統計機器翻譯研究的熱點

—基于句法的模型

?機器翻譯的自動評價

計算語言學講義an機器翻譯95

統計機器翻譯的研究熱潮

?歷史回顧:一些重要事件回放

?一種新的研究范式

?統計機器翻譯論文發表數量的增長

?近年來國際機器翻譯評測的最好成績

?統計機器翻譯目前的水平

計算語言學講義(11)機器翻譯96

歷史回顧:一些重要事件回放(1)

?1980年代末舊M首次開展統計機器翻譯研究

?1992年舊M首次提出統計機器翻譯的信源信道模型

?1993年舊M提出五種基于詞的統計翻譯模型舊MModel1-5

?1994年舊M發表論文給出了Candide系統與Systran系統在

ARPA評測中的對比測試報告

?1999年JHU夏季研討班重復了舊M的工作并推出了開放源

代碼的工具

■2001年舊M提出了機器翻譯自動評測方法BLEU

?2002年NIST開始舉行每年一度的機器翻譯評測

?2002年第一個采用統計機器翻譯方法的商業公司Language

Weaver成立

計算語言學講義(11)機器翻譯97

歷史回顧:一些重要事件回放(2)

?2002年FranzJosefOch提出統計機器翻譯的對數線性模型

■2003年FranzJosefOch提出對數線性模型的最小錯誤率訓

練方法

?2004年PhilippKoehn推出Pharaoh(法老)標志著基于短

語的統計翻譯方法趨于成熟

?2005年DavidChiang提出層次短語模型并代表UMD在

NIST評測中取得好成績

?2005年Google在NIST評測中大獲全勝,隨后Google推出

基于統計方法的在線翻譯工具,其阿拉伯語-英語的翻譯達

到了用戶完全可接受的水平,目前已經可以支持40多種語

言的互譯

■2006年NIST評測中USC-ISI的串到樹句法模型第一次超過

Google(僅在漢英受限翻譯項目中)

計算語言學講義(11)機器翻譯98

統計機器翻譯:一種新的研究范式

?統計機器翻譯的成功在于采用了一種新的研究

范式(paradigm)

?這種研究范式已在語音識別等領域中被證明是

一種成功的翻譯,但在機器翻譯中是首次使用

?這種范式的特點:

-公開的大規模的訓練數據

-周期性的公開評測和研討

-開放源碼的工具

計算語言學講義(11)機器翻譯99

近年來統計機器翻譯論文發表數量

弓I自FranzJosefOch,StatisticalMachineTranslation:FoundationsandRecentAdvances,

TutorialsonMTSummitX,September13-15,2005,Phuket,Thailand

計算語言學講義(11)機器翻譯100

近年來國際NIST評測最好成績

6

06.

5

6

□2002

m4□2003

0①.□2004

3

CQ□2005

①■2006

2

1

0

漢阿拉伯語一英語

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論