句法(語法)與語義理論及分析_第1頁
句法(語法)與語義理論及分析_第2頁
句法(語法)與語義理論及分析_第3頁
句法(語法)與語義理論及分析_第4頁
句法(語法)與語義理論及分析_第5頁
已閱讀5頁,還剩99頁未讀 繼續免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

1、2022-3-24第6章句法(語法)與語義理論及分析16.1 6.1 句法分析與用作翻譯的理論基礎句法分析與用作翻譯的理論基礎6.2 6.2 其它相關語法介紹其它相關語法介紹 6.3 6.3 語法分析在機器翻譯中的應用語法分析在機器翻譯中的應用6.4 6.4 漢語和英語語法的概述漢語和英語語法的概述6.5 6.5 語義分析語義分析第第 6 章章 句法(語法)與語義理論及分析句法(語法)與語義理論及分析下頁2022-3-24第6章句法(語法)與語義理論及分析26.1 句法分析與用作翻譯的理論基礎句法分析與用作翻譯的理論基礎下頁(1)(1)確定輸入句子的結構句法分析要識別構成句子的各確定輸入句子的

2、結構句法分析要識別構成句子的各個成分以及它們之間的相互關系個成分以及它們之間的相互關系, ,例如確定每個動詞的例如確定每個動詞的主語和賓語主語和賓語, , 以及每個修飾性的詞或短語所修飾的成分以及每個修飾性的詞或短語所修飾的成分. .通常這是通過給每個輸入句子構造一則句法來完成的。通常這是通過給每個輸入句子構造一則句法來完成的。(2)(2)句法結構的規范化句法結構的規范化, ,如果我們把大量的輸入結構映射如果我們把大量的輸入結構映射為數量較少的結構為數量較少的結構, ,那么后繼處理那么后繼處理( (例如語義分析例如語義分析) )就得就得以簡化。以簡化。句法分析有兩個句法分析有兩個主要主要任務任

3、務:2022-3-24第6章句法(語法)與語義理論及分析311句子中常有些成分可以被省略句子中常有些成分可以被省略; ; 所所謂句子結構的規范化就是把這些省略的謂句子結構的規范化就是把這些省略的信息補上。信息補上。22各種轉換可以把結構不同的句子變得各種轉換可以把結構不同的句子變得相同相同, ,例如主動語氣和被動語氣。例如主動語氣和被動語氣。 這樣這樣一類轉換使后繼處理只考慮數量少得多一類轉換使后繼處理只考慮數量少得多的結構的結構。下頁6.1 句法分析與用作翻譯的理論基礎句法分析與用作翻譯的理論基礎2022-3-24第6章句法(語法)與語義理論及分析4 結構規范化是否應由句法分析模塊來完成一直

4、有爭議,結構規范化是否應由句法分析模塊來完成一直有爭議,理論語言學傾向于限制句法分析模塊完成這一任務理論語言學傾向于限制句法分析模塊完成這一任務, , 認為認為這是詞法分析過程不應由句法分析來處理這是詞法分析過程不應由句法分析來處理. .某些計算語言學某些計算語言學家則完全放棄了句法結構的規范化家則完全放棄了句法結構的規范化, ,而讓語義分析模塊直解而讓語義分析模塊直解去處理各式各樣的句子結構。在這一類系統中去處理各式各樣的句子結構。在這一類系統中, ,句法結構的句法結構的規范化實際上被包含在語義分析過程中了。但是這樣做確規范化實際上被包含在語義分析過程中了。但是這樣做確實要求更復雜的語義規則

5、實要求更復雜的語義規則, , 因此在自然語言處理系統中一因此在自然語言處理系統中一般的做法仍然包含這樣一種結構規范化的模塊。般的做法仍然包含這樣一種結構規范化的模塊。下頁6.1 句法分析與用作翻譯的理論基礎句法分析與用作翻譯的理論基礎2022-3-24第6章句法(語法)與語義理論及分析5在一個機器翻譯理解系統中在一個機器翻譯理解系統中, , 句法分析要不要作為一個獨句法分析要不要作為一個獨立的分析階段存在?這個問題同樣有爭議立的分析階段存在?這個問題同樣有爭議, , 因為在現有的因為在現有的系統中系統中, , 不外乎有以下兩種處理方法不外乎有以下兩種處理方法: :(1)(1)先句法后語法先句法

6、后語法: :強調在語言分析過程中存在一個相對獨強調在語言分析過程中存在一個相對獨立的句法分析階段立的句法分析階段, ,結果是句子的一棵句法結構樹。在經結果是句子的一棵句法結構樹。在經過語義分析模塊的處理過語義分析模塊的處理, , 獲得該句子的某種意義表示獲得該句子的某種意義表示. .當當然在句法分析中偶爾也需要利用附加在詞和短語上的某些然在句法分析中偶爾也需要利用附加在詞和短語上的某些必要的語義信息必要的語義信息, ,但它主要依據是句法范疇但它主要依據是句法范疇( (即詞類和短語即詞類和短語標記等標記等) )那樣的形式特征。實踐證明那樣的形式特征。實踐證明, , 這類句法分析的設這類句法分析的

7、設計可以不依賴某個特定的應用領域計可以不依賴某個特定的應用領域, ,因而具有好的可擴展因而具有好的可擴展性和可移植性。這是當前大多數系統采用的分析策略。性和可移植性。這是當前大多數系統采用的分析策略。下頁6.1 句法分析與用作翻譯的理論基礎句法分析與用作翻譯的理論基礎2022-3-24第6章句法(語法)與語義理論及分析6(2)(2)句法句法- -語義一體化語義一體化( (或并行或并行):):這種分析方法不再單獨設置這種分析方法不再單獨設置一個句法分析模塊一個句法分析模塊, , 也不出現句法結構樹這樣一種中間的也不出現句法結構樹這樣一種中間的分析結果。在這類系統中分析結果。在這類系統中, , 句

8、子分析所依據的形式特征與句子分析所依據的形式特征與其說是句法范疇其說是句法范疇, ,還不如說是語義范疇。一體化分析策略的還不如說是語義范疇。一體化分析策略的主要論據是心理學方面的合理性主要論據是心理學方面的合理性, ,即面對那些有語法錯誤或即面對那些有語法錯誤或信息不全的句子信息不全的句子, , 人們往往可以根據語義線索來獲得句子人們往往可以根據語義線索來獲得句子的解釋的解釋, , 對于比較復雜的句子對于比較復雜的句子, , 沒有句法指導沒有句法指導, , 語義分析語義分析往往難以奏效。而且對于忽視句法分析的觀點持批評態度往往難以奏效。而且對于忽視句法分析的觀點持批評態度的人也可以舉出另外一些

9、例子說明重視句法也同樣具有心的人也可以舉出另外一些例子說明重視句法也同樣具有心理學根據理學根據, , 比如人們時常在不知道一個詞的意義時僅僅根比如人們時常在不知道一個詞的意義時僅僅根據句法規則來判明這個詞在句子中的功能。據句法規則來判明這個詞在句子中的功能。下頁6.1 句法分析與用作翻譯的理論基礎句法分析與用作翻譯的理論基礎2022-3-24第6章句法(語法)與語義理論及分析7在一部上下文無關語法中在一部上下文無關語法中, , 每條規則都采用如下形式每條規則都采用如下形式:Ax:Ax其中其中, AN,xV, AN,xV* *, , 即每條產生式的左則必須是一個單獨即每條產生式的左則必須是一個單

10、獨的非終結符。在這種形式體系中的非終結符。在這種形式體系中, ,規則被應用時不依賴于符規則被應用時不依賴于符號號A A所處的上下文所處的上下文, , 因此稱為上下文無關語法。因此稱為上下文無關語法。下例下例:SaSc Sb :SaSc Sb 是上下文無關語法。是上下文無關語法。只要改變一下規則中的符號只要改變一下規則中的符號, , 令令 S(S) Sx S(S) Sx 便可生成成對括號表達式便可生成成對括號表達式:x, (x), :x, (x), (x), (x), (x), (x), (x), (x), 下頁6.1 句法分析與用作翻譯的理論基礎句法分析與用作翻譯的理論基礎2022-3-24第

11、6章句法(語法)與語義理論及分析8 上下文無關語法正是以這種方式解決了正則上下文無關語法正是以這種方式解決了正則語法不可能解決的嵌套結構。語法不可能解決的嵌套結構。 上下文無關語法廣泛應用于程序設計語言和自上下文無關語法廣泛應用于程序設計語言和自然語言描寫中。在專業文獻中然語言描寫中。在專業文獻中, , 時常看到用時常看到用(BNF)(BNF)表達上下文無關語法表達上下文無關語法, , 它同表示短語結構語法的標它同表示短語結構語法的標記略有不同。在記略有不同。在BNFBNF中中, , 用尖括號標明非終結符用尖括號標明非終結符, , 可以用符號可以用符號:=:=代替代替。此外。此外, , 如果有

12、兩條或如果有兩條或更多的產生式具有相同的左側更多的產生式具有相同的左側, ,它們可以作為一條它們可以作為一條單獨的單獨的BNFBNF定義被聚集在一起定義被聚集在一起, , 并用符號并用符號分隔。分隔。 下頁6.1 句法分析與用作翻譯的理論基礎句法分析與用作翻譯的理論基礎2022-3-24第6章句法(語法)與語義理論及分析9因此上例生成成對括號表達式的產生式規則因此上例生成成對括號表達式的產生式規則, , 可可表示為表示為: : :=()x :=()x 除了表達上下文無關語法以外除了表達上下文無關語法以外, ,還時常需要還時常需要表達句子的推導。推導顯示一個特定句子怎樣根表達句子的推導。推導顯示

13、一個特定句子怎樣根據語法規則生成。可以把推到表示為產生式應用據語法規則生成。可以把推到表示為產生式應用的一個程序。的一個程序。下頁6.1 句法分析與用作翻譯的理論基礎句法分析與用作翻譯的理論基礎2022-3-24第6章句法(語法)與語義理論及分析10 舉例舉例: :如果有語法如果有語法 := (1) := (1) :=JoneMary (2) :=JoneMary (2) :=O (3):=O (3) :=eatsdrinks (4) :=eatsdrinks (4) :=winechee (5) :=winechee (5) 可以把句子可以把句子Mary eats cheeseMary ea

14、ts cheese的推導表示如下的推導表示如下: : Mary Mary Mary Mary Mary eats Mary eats Mary eats cheeseMary eats cheese6.1 句法分析與用作翻譯的理論基礎句法分析與用作翻譯的理論基礎下頁2022-3-24第6章句法(語法)與語義理論及分析11 以上下文無關文法為基礎的以上下文無關文法為基礎的, , 一個串到串的一個串到串的映射稱為句法引導的翻譯。映射稱為句法引導的翻譯。 形式上形式上, ,從字母表從字母表上的語言上的語言L1L1到字母表到字母表上的語言上的語言L2L2的翻譯是一個的翻譯是一個在在L1L1L2L2中的

15、關系中的關系T T。 對于在對于在T T中的翻譯對中的翻譯對(x,y), (x,y), 即說輸入串即說輸入串x x被翻譯成輸出串被翻譯成輸出串y y。 注意注意 一個給定一個給定的輸入可能會有任意數量的的輸入可能會有任意數量的, ,互不相同的輸出翻譯。互不相同的輸出翻譯。 6.1 句法分析與用作翻譯的理論基礎句法分析與用作翻譯的理論基礎下頁2022-3-24第6章句法(語法)與語義理論及分析12如果把如果把 翻譯單元翻譯單元 賦給上下文無關文法的每個產賦給上下文無關文法的每個產生式生式, , 就可以得到翻譯系統的形式模型就可以得到翻譯系統的形式模型, ,這個系統這個系統可產生句法引導的翻譯。在

16、一般的上下文無關文可產生句法引導的翻譯。在一般的上下文無關文法中法中, , 一個產生式是形式為一個產生式是形式為AaAa的項的項, , 它表示導它表示導出出+中的句子時中的句子時, , 非終極符非終極符A A可以用可以用a a來代替。為來代替。為實現句法引導的翻譯實現句法引導的翻譯, , 有必要考慮兩個同時出現有必要考慮兩個同時出現的導出。第一個導出得到的導出。第一個導出得到+ + 中的輸入串中的輸入串x, x, 第二第二個導出得到個導出得到x x的翻譯的翻譯, , 也就是在也就是在+ +中的輸出串中的輸出串y y。 6.1 句法分析與用作翻譯的理論基礎句法分析與用作翻譯的理論基礎下頁2022

17、-3-24第6章句法(語法)與語義理論及分析13 為產生第二個導出為產生第二個導出, , 把形式為把形式為AaAa的輸入產生式和形的輸入產生式和形式為式為AA的輸出產生式合并的輸出產生式合并, , 就得到就得到A, A, 的重寫規的重寫規則。則。 A, A, 表示表示, , 在輸入串的導出中在輸入串的導出中, , 非終極符非終極符A A可可以用以用代替代替, , 同時同時, , 在輸出的導出中在輸出的導出中, , 可以用可以用代替代替A, A, 即即, , 對重寫規則對重寫規則A, A, 來說來說, , 是是的翻譯單元。的翻譯單元。上述性質的理論模型為句法引導的翻譯系統上述性質的理論模型為句法

18、引導的翻譯系統. . 簡寫簡寫SDTS, SDTS, 且為一個五元組且為一個五元組J=(N, , J=(N, , , R, S): , R, S): 其中其中, N, N為非終為非終極符的有限集極符的有限集; ; 是有窮的輸入字母表是有窮的輸入字母表; ; 是有窮的輸出是有窮的輸出字母表字母表; R; R是規則的有窮集是規則的有窮集; S; S是在是在N N中中, , 是起始符。是起始符。 R R的元素形式的元素形式A, A, 。 在每個規則中在每個規則中, , 中的某中的某個非終極符在個非終極符在中必須有一個對應的替換串。在中必須有一個對應的替換串。在中的每中的每一個非終極符一個非終極符,

19、, 在在中都有一個與之聯系的中都有一個與之聯系的, , 相對應的非相對應的非終極符。終極符。6.1 句法分析與用作翻譯的理論基礎句法分析與用作翻譯的理論基礎下頁2022-3-24第6章句法(語法)與語義理論及分析14 STDSSTDS的輸入文法是的輸入文法是 Gi=(N, , Pi, S), Gi=(N, , Pi, S), 具有產生式具有產生式 Pi=AA, Pi=AA, 在在R R中中 輸出文法是輸出文法是 Go=(N, Go=(N, , Po, S), , Po, S), 具有產生式具有產生式 Po=AA, Po=AA, 在在R R中中 SDTSSDTS的思路是的思路是, ,用用GiGi

20、求在求在上的導出上的導出, ,同時通過規則同時通過規則, , 用用GoGo求在求在上的導出。僅當上的導出。僅當(x, y)(x, y)是一個翻譯時是一個翻譯時, ,在在L(Gi)L(Gi)中的輸入串中的輸入串x x才能被翻譯成在才能被翻譯成在L(Go) L(Go) 中的輸出串中的輸出串y y。因為。因為在在L(Gi)L(Gi)中的每個句子中的每個句子, , 在在L(Go)L(Go)中至少有一個對應的串。中至少有一個對應的串。6.1 句法分析與用作翻譯的理論基礎句法分析與用作翻譯的理論基礎下頁2022-3-24第6章句法(語法)與語義理論及分析15翻譯集合翻譯集合J J的定義的定義: :(J)=

21、(x, y)x(J)=(x, y)x在在L(Gi)L(Gi)中中, y, y在在L(Go)L(Go)中中, , (x,y)(x,y)是一個翻譯形式是一個翻譯形式 這個翻譯集合這個翻譯集合(J)(J)是是L(Gi)L(Gi)L(Go)L(Go)中的一個關中的一個關系。系。 通常通常, ,對于一個給定的對于一個給定的x, x, 可以有不止一個可以有不止一個y y使得使得(x, y)(x, y)是在是在(J)(J)中中, , 因此翻譯過程是不確因此翻譯過程是不確定的。定的。在句法引導的翻譯中在句法引導的翻譯中, , 把輸入句子翻譯成輸出句把輸入句子翻譯成輸出句子時子時, , 有兩種情況會引起歧義性有

22、兩種情況會引起歧義性: :6.1 句法分析與用作翻譯的理論基礎句法分析與用作翻譯的理論基礎下頁2022-3-24第6章句法(語法)與語義理論及分析16第一種:是上下文無關文法中的歧義性概念的直接推廣。第一種:是上下文無關文法中的歧義性概念的直接推廣。 在在(J)(J)中中, , 如果至少存在一個翻譯形式如果至少存在一個翻譯形式(x, y), (x, y), 使得使得在使用輸入文法時存在兩個或更多個各不相同的在使用輸入文法時存在兩個或更多個各不相同的x x最左導最左導出出, ,而它們產生出相同的輸出串而它們產生出相同的輸出串y,y,那么那么, ,這個這個STDSSTDS是歧義的。是歧義的。這時雖

23、然產生相同的翻譯這時雖然產生相同的翻譯, ,但為產生這個翻譯但為產生這個翻譯, ,所用的基本所用的基本句法可能是不同的句法可能是不同的; ;第二種:輸入串第二種:輸入串x x產生多個輸出串。即產生多個輸出串。即, , 如果在如果在L(Gi)L(Gi)中至中至少存在一個輸入串少存在一個輸入串x,x,使得在使得在(J)(J)中至少存在兩種翻譯形中至少存在兩種翻譯形式式(x, y1),(x, y2),(x, y1),(x, y2),并且并且, y1y2, , y1y2, 那么那么, , 這個這個STDSSTDS在在翻譯時是歧義的。翻譯時是歧義的。 下頁6.1 句法分析與用作翻譯的理論基礎句法分析與用

24、作翻譯的理論基礎2022-3-24第6章句法(語法)與語義理論及分析17如果一個系統中存在兩個不同的行式為如果一個系統中存在兩個不同的行式為A, A, 和和A, A, 的規則的規則, , 則說明這些則說明這些規則反映了語義歧義性。規則反映了語義歧義性。 即即, , 使用輸入文使用輸入文法中的產生式法中的產生式AA時時, , 輸出文法提供了或輸出文法提供了或A, A, 或或AA的選擇性。的選擇性。下頁返回6.1 句法分析與用作翻譯的理論基礎句法分析與用作翻譯的理論基礎2022-3-24第6章句法(語法)與語義理論及分析18定義定義1 1:一個句子是一個符號串一個句子是一個符號串, , 這個串由選

25、自某這個串由選自某種語言詞匯表中的一個或多個符號種語言詞匯表中的一個或多個符號( (詞詞) )組成。組成。定義定義2 2:一種語言是一個句集一種語言是一個句集, , 它包含了屬于這種語它包含了屬于這種語言的全部句子。言的全部句子。定義定義3 3:一部語法是對一個句集的一種有限的形式化一部語法是對一個句集的一種有限的形式化描述。描述。 6 . 2 其它相關語法介紹其它相關語法介紹下頁2022-3-24第6章句法(語法)與語義理論及分析19語法可采用不同形式來定義。如果一種語言只包含語法可采用不同形式來定義。如果一種語言只包含有限句子有限句子, , 那么可以通過逐一枚舉的方式來定義。那么可以通過逐

26、一枚舉的方式來定義。然而大多數有研究價值的語言通常都擁有無限多個然而大多數有研究價值的語言通常都擁有無限多個句子。描述這類語言的方法之一是編一部程序句子。描述這類語言的方法之一是編一部程序, , 然然后讀入一個符號串后讀入一個符號串, , 讓機器判斷是不是一個句子。讓機器判斷是不是一個句子。這樣的程序叫做這種語言的識別器。另一種描述方這樣的程序叫做這種語言的識別器。另一種描述方法是利用一種基于產生式的形式化工具。這種被廣法是利用一種基于產生式的形式化工具。這種被廣泛用來描寫形式語言和自然語言的工具被稱為產生泛用來描寫形式語言和自然語言的工具被稱為產生式語法或短語結構語法。式語法或短語結構語法。

27、下頁6 . 2 其它相關語法介紹其它相關語法介紹2022-3-24第6章句法(語法)與語義理論及分析20 一部短語結構語法一部短語結構語法G G可以用如下的四元組來定義可以用如下的四元組來定義: : G=(T,N,S,P), G=(T,N,S,P), 其中:其中: T T是終結符的集合是終結符的集合, , 終結符是指被定義的那個語言的終結符是指被定義的那個語言的詞詞( (或符號或符號);); N N是非終結符的集合是非終結符的集合, , 這些符號不能出現在最終生成這些符號不能出現在最終生成的句子中的句子中, , 是專門用來描述語法的。顯然是專門用來描述語法的。顯然, T, T和和N N的并的并

28、構成了符號集構成了符號集V, V, 而且而且T T和和N N不相交,因此有不相交,因此有: :V=TNV=TNTN= (TN= (表示空集表示空集) )下頁6 . 2 其它相關語法介紹其它相關語法介紹2022-3-24第6章句法(語法)與語義理論及分析21S S是起始符是起始符, , 它是集合它是集合N N中的一個成員中的一個成員; ; P P是一個產生式規是一個產生式規則集。每條產生式具有如下形式則集。每條產生式具有如下形式: ab: ab其中其中, aV+, bV, aV+, bV* *, , 且且ab;Vab;V* *表式由表式由V V中的符號所構成中的符號所構成的全部符號串的全部符號串

29、( (包括空符號串包括空符號串)的集合的集合,V+,V+表示表示V V* *中除中除以外的一切符號串的集合。以外的一切符號串的集合。 在一部短語結構語法中在一部短語結構語法中, , 基于運算就是把一個符號串基于運算就是把一個符號串重寫為另一個符號串。如果重寫為另一個符號串。如果abab是一條產生式是一條產生式, , 就可以通就可以通過用過用b b來置換來置換a, a, 重寫任何一個包含子串重寫任何一個包含子串a a的符號串的符號串, , 并用并用符號符號 表示對符號串所作的這種運算。所以表示對符號串所作的這種運算。所以, , 如果如果u,vV+,u,vV+, 有:有:uav ubvuav ub

30、v G G下頁6 . 2 其它相關語法介紹其它相關語法介紹2022-3-24第6章句法(語法)與語義理論及分析22就說就說uavuav直接產生直接產生ubv, ubv, 或或ubvubv是由是由uavuav直接推導出來的。直接推導出來的。舉例來說舉例來說, , 如果定義了一部語法如果定義了一部語法G, G, 其中其中S S是起始符是起始符, , 且且N=SN=ST=a,b,c T=a,b,c P=S aSC, P=S aSC, SbSb于是從串于是從串S S開始開始, , 應用第一條產生式可得到串應用第一條產生式可得到串aSc, aSc, 然然后應用第二條產生式得到串后應用第二條產生式得到串a

31、bc: S aSC abc abc: S aSC abc G GG G 或者可以重復應用第一條產生式兩次或者可以重復應用第一條產生式兩次, , 然后再用然后再用第二條產生式第二條產生式, , 得到得到 S aSc aaScc aabcc S aSc aaScc aabcc G G GG G G下頁6 . 2 其它相關語法介紹其它相關語法介紹2022-3-24第6章句法(語法)與語義理論及分析23如果如果S1, S2,Sn S1, S2,Sn 都是符號串都是符號串, , 且且 S1 S2 SnS1 S2 Sn G G GG G G記作記作 * * S1 Sn S1 Sn G G就是說就是說S1S

32、1產生產生Sn, Sn, 或者說或者說SnSn是由是由S1S1推導出來的。因此推導出來的。因此, , 對于上面的簡單語法有對于上面的簡單語法有 * * S abc S abc G G * S aaScc S aaScc 等等。等等。下頁6 . 2 其它相關語法介紹其它相關語法介紹2022-3-24第6章句法(語法)與語義理論及分析24 通過以不同的順序來應用這些產生式通過以不同的順序來應用這些產生式, , 就可以從同一就可以從同一符號產生許多不同的串。由一部短語結構語法定義的語言符號產生許多不同的串。由一部短語結構語法定義的語言就是可以從起始符就是可以從起始符S S 推導出來的全部終結符串的集

33、合。可推導出來的全部終結符串的集合。可見見, , 由上面這部簡單語法所定義的語言是由上面這部簡單語法所定義的語言是 b,abc,aabcc,aaabccc,b,abc,aabcc,aaabccc, 一個程序如果能根據一部特定的語法來確定一個句子一個程序如果能根據一部特定的語法來確定一個句子的推導的推導, , 就稱它為一個句法分析器。就稱它為一個句法分析器。 下頁6 . 2 其它相關語法介紹其它相關語法介紹2022-3-24第6章句法(語法)與語義理論及分析25一般來說一般來說, , 如果把語法如果把語法G G定義的語言記作定義的語言記作L(G), L(G), 則則 L(G)=WWTL(G)=W

34、WT* *, , 且且S WS W 這條定義的意思是這條定義的意思是, , 對于所有符號串對于所有符號串W, W, 如果如果W W是由終結是由終結符所組成的串符所組成的串, , 且用語法且用語法G G可以從起始符可以從起始符S S中推導出中推導出W, W, 那么那么符號串符號串W W的集合就是語法的集合就是語法G G 所生成的語言所生成的語言L(G)L(G)。 換言之換言之, , 一個符號串要屬于一個符號串要屬于L(G)L(G)必須滿足兩個條件必須滿足兩個條件: : (1) (1) 該符號串只包含終結符該符號串只包含終結符; ; (2) (2) 該符號串能根據語法該符號串能根據語法G G從起始

35、符從起始符S S推導出來。推導出來。下頁6 . 2 其它相關語法介紹其它相關語法介紹2022-3-24第6章句法(語法)與語義理論及分析26 理論語言學家在描述句集理論語言學家在描述句集( (即語言即語言) )時時, ,經常使用這兩個經常使用這兩個慨念慨念: :遞歸語言和可遞歸枚舉語言。如果我們能編一個程序遞歸語言和可遞歸枚舉語言。如果我們能編一個程序, , 使之以某種順序逐個的輸出使之以某種順序逐個的輸出( (即枚舉即枚舉) )一種語言的句子一種語言的句子, , 我們我們就說這種語言是可遞歸枚舉的。如果能編寫一個程序就說這種語言是可遞歸枚舉的。如果能編寫一個程序, , 它讀它讀一個符號串后就

36、能判斷這個串是或不是某種語言的一個句子一個符號串后就能判斷這個串是或不是某種語言的一個句子, , 我們就說這種語言是遞歸語言。盡管這兩個定義我們看起來我們就說這種語言是遞歸語言。盡管這兩個定義我們看起來十分相似十分相似, ,但它們卻是不同的。一種語言是可遞歸枚舉的但它們卻是不同的。一種語言是可遞歸枚舉的, , 卻不一定是遞歸的。假設給定某種可遞歸語言并且存在某種卻不一定是遞歸的。假設給定某種可遞歸語言并且存在某種機制來枚舉這種語言的句子。機制來枚舉這種語言的句子。下頁6 . 2 其它相關語法介紹其它相關語法介紹2022-3-24第6章句法(語法)與語義理論及分析27如果現在又給定一個符號串如果

37、現在又給定一個符號串, , 并要求回答這個符號串是并要求回答這個符號串是否是這種語言的句子否是這種語言的句子, , 那么那么, ,把每個句子拿來同這個符把每個句子拿來同這個符號串匹配號串匹配, , 若成功說明這個符號串是這種語言的一個句若成功說明這個符號串是這種語言的一個句子。但失敗并不能肯定這個符號串不是這種語言的句子子。但失敗并不能肯定這個符號串不是這種語言的句子, , 因為下一個生成的句子就可能與這一符號串匹配。這就因為下一個生成的句子就可能與這一符號串匹配。這就說明一種語言是遞歸枚舉的說明一種語言是遞歸枚舉的, , 但卻不一定是遞歸的。但卻不一定是遞歸的。 短語結構語法可用來描述任何一

38、種可遞歸枚舉的語短語結構語法可用來描述任何一種可遞歸枚舉的語言言, ,可以建立一部語法可以建立一部語法, ,但卻不可能靠程序判定一個輸入但卻不可能靠程序判定一個輸入串是不是該語法定義的語言的一個句子。串是不是該語法定義的語言的一個句子。下頁6 . 2 其它相關語法介紹其它相關語法介紹2022-3-24第6章句法(語法)與語義理論及分析28 用計算機處理語言用計算機處理語言, ,進行機器翻譯,就是想編一個程序進行機器翻譯,就是想編一個程序, , 根據一部語法來確定一個輸入的符號串是不是合乎語法的句根據一部語法來確定一個輸入的符號串是不是合乎語法的句子。對于任何無約束的短語結構語法來說子。對于任何

39、無約束的短語結構語法來說, ,要編寫這樣一個要編寫這樣一個程序是不可能的。程序是不可能的。 為此考慮受限短語結構語法為此考慮受限短語結構語法, , 施加某些約束施加某些約束, , 保證生成保證生成的語言是遞歸的的語言是遞歸的, , 并且比較容易編寫有效的程序來分析這些并且比較容易編寫有效的程序來分析這些語言語言, , 容易的程度取決于具體的約束。容易的程度取決于具體的約束。 下頁6 . 2 其它相關語法介紹其它相關語法介紹2022-3-24第6章句法(語法)與語義理論及分析29與我們關系最密切的受限短語結構語法都是喬姆斯基體與我們關系最密切的受限短語結構語法都是喬姆斯基體系的成員。喬姆斯基系的

40、成員。喬姆斯基(N.Chomsky)(N.Chomsky)定義了以下四類語法定義了以下四類語法: : (1) 0(1) 0型語法型語法: : 無約約束短語結構語法無約約束短語結構語法; ;(2) 1(2) 1型語法型語法: : 上下文有關語法上下文有關語法; ;(3) 2(3) 2形語法形語法: : 上下文無關語法上下文無關語法; ; (4) 3(4) 3型語法型語法: : 正則語法正則語法: : 型號愈高所受約束就愈多型號愈高所受約束就愈多, , 生成能力愈弱生成能力愈弱, , 因此能因此能生成的語言集也就愈小。生成的語言集也就愈小。 下頁返回6 . 2 其它相關語法介紹其它相關語法介紹20

41、22-3-24第6章句法(語法)與語義理論及分析30 機器翻譯的研究目的就是讓計算機能夠自動翻譯人類的機器翻譯的研究目的就是讓計算機能夠自動翻譯人類的自然語言,這樣的處理過程應該包括查機器詞典、進行語自然語言,這樣的處理過程應該包括查機器詞典、進行語法分析,參照背景知識進行語義分析等若干步驟,才能比法分析,參照背景知識進行語義分析等若干步驟,才能比較好的把源語言的句子翻譯為目標語言的句子。較好的把源語言的句子翻譯為目標語言的句子。 在機器翻譯的過程中,分析占有特殊重要的地位。分在機器翻譯的過程中,分析占有特殊重要的地位。分析階段人們的劃分雖然并不統一,但各個機器翻譯系統一析階段人們的劃分雖然并

42、不統一,但各個機器翻譯系統一般都有形態分析、語法分析和語義分析這樣三個階段。而般都有形態分析、語法分析和語義分析這樣三個階段。而且它且它 們們 應應 該是必不可少的比較重要的三個階段。該是必不可少的比較重要的三個階段。 下頁6 . 3 語法分析在機器翻譯中的應用語法分析在機器翻譯中的應用2022-3-24第6章句法(語法)與語義理論及分析31 所謂形態分析,是指從輸入的字符串序列分解出單詞。所謂形態分析,是指從輸入的字符串序列分解出單詞。一般認為,英語的各個單詞是間隔開的,形態分析比較一般認為,英語的各個單詞是間隔開的,形態分析比較容易;而漢語句子中的詞是連寫的,詞與詞之間沒有空容易;而漢語句

43、子中的詞是連寫的,詞與詞之間沒有空格,這就給漢語的形態分析增加了大的困難。格,這就給漢語的形態分析增加了大的困難。 所謂語法分析是指已經輸入的單詞序列能不能構成合所謂語法分析是指已經輸入的單詞序列能不能構成合法的句子,這顯然要依賴于所采用的文法規則。法的句子,這顯然要依賴于所采用的文法規則。例如:兔子吃草例如:兔子吃草 草吃兔子草吃兔子 這兩句話符合:這兩句話符合: 下頁6 . 3 語法分析在機器翻譯中的應用語法分析在機器翻譯中的應用2022-3-24第6章句法(語法)與語義理論及分析32當然,如果弄清那個名詞應該是主語,那個名詞應該是賓語當然,如果弄清那個名詞應該是主語,那個名詞應該是賓語這

44、樣的語句分析就可以確定是不是正確。這應該納入語法分這樣的語句分析就可以確定是不是正確。這應該納入語法分析的范疇,有的文獻把這樣的分析列入語義分析的范疇,這析的范疇,有的文獻把這樣的分析列入語義分析的范疇,這樣做語義分析的任務太繁重了。樣做語義分析的任務太繁重了。 所謂語義分析就是要弄清句子中詞的含義所謂語義分析就是要弄清句子中詞的含義 ,解決句子,解決句子中意義的不同或可不可能搭配,引進上下文信息,例如有這中意義的不同或可不可能搭配,引進上下文信息,例如有這么兩句英語:么兩句英語:(1 1) The fish was bought by the cookThe fish was bought

45、by the cook; (2 ) The fish was bought by the river(2 ) The fish was bought by the river; 這兩句的譯文是:魚是廚師買的,魚是從河邊買的。不這兩句的譯文是:魚是廚師買的,魚是從河邊買的。不難理解,這兩句的翻譯與難理解,這兩句的翻譯與“兔子吃草兔子吃草”不同,它不是主語、不同,它不是主語、賓語顛倒,只能靠語義分析解決。賓語顛倒,只能靠語義分析解決。下頁6 . 3 語法分析在機器翻譯中的應用語法分析在機器翻譯中的應用2022-3-24第6章句法(語法)與語義理論及分析33 對機器翻譯系統的分析部分來說,模式匹配對

46、機器翻譯系統的分析部分來說,模式匹配的本質特征就是把輸入的句子作為一個整體看待的本質特征就是把輸入的句子作為一個整體看待并給以相應的解釋,而不去分析句子的單詞或者并給以相應的解釋,而不去分析句子的單詞或者句子的其它更基本的成分的結構關系與語義關系。句子的其它更基本的成分的結構關系與語義關系。具體的辦法是在機器翻譯系統中存儲大量的模式具體的辦法是在機器翻譯系統中存儲大量的模式(句型就是一種模式,作為模式的句型很象學習(句型就是一種模式,作為模式的句型很象學習外語時經常使用的替換練習句型),每個模式都外語時經常使用的替換練習句型),每個模式都對應了一個解釋(或者稱為目標表達式)。對應了一個解釋(或

47、者稱為目標表達式)。下頁6 . 3 語法分析在機器翻譯中的應用語法分析在機器翻譯中的應用2022-3-24第6章句法(語法)與語義理論及分析34 機器翻譯系統將輸入的句子同模式一一機器翻譯系統將輸入的句子同模式一一進行比較,如果匹配,則轉移到相應的解釋進行比較,如果匹配,則轉移到相應的解釋后續部分,再作進一步的處理。實例句型轉后續部分,再作進一步的處理。實例句型轉換的翻譯就是采用的這一方法,那里的模式換的翻譯就是采用的這一方法,那里的模式就是雙語句型結構表達式,匹配就是尋求相就是雙語句型結構表達式,匹配就是尋求相同的句型。同的句型。下頁6 . 3 語法分析在機器翻譯中的應用語法分析在機器翻譯中

48、的應用2022-3-24第6章句法(語法)與語義理論及分析35 由于自然語言本質上是上下文有關的,若由于自然語言本質上是上下文有關的,若用上下文無關語法描述自然語言必然有很多不用上下文無關語法描述自然語言必然有很多不合適的地方。上下文無關語法反映的只是一個合適的地方。上下文無關語法反映的只是一個句子的生成過程。它所生成的句子不可能與另句子的生成過程。它所生成的句子不可能與另外的句子發生關系,而在自然語言中這種關系外的句子發生關系,而在自然語言中這種關系又是客觀存在的。在這種情況下,可以采用轉又是客觀存在的。在這種情況下,可以采用轉換語法。換語法。 下頁6 . 3 語法分析在機器翻譯中的應用語法

49、分析在機器翻譯中的應用2022-3-24第6章句法(語法)與語義理論及分析36轉換語法與上下文無關語法相比,它在說明自然語言的規轉換語法與上下文無關語法相比,它在說明自然語言的規律性方面要好得多;但其缺點是:用計算機實現時,效率律性方面要好得多;但其缺點是:用計算機實現時,效率非常差。主要原因是經過轉換,轉換操作是在深層的樹結非常差。主要原因是經過轉換,轉換操作是在深層的樹結構上進行的,而不是在字符序列上進行的。構上進行的,而不是在字符序列上進行的。 一部轉換語法由一個基礎部件和一個轉換部件組成,一部轉換語法由一個基礎部件和一個轉換部件組成,基礎部件是一部上下文無關語法它產生一組深層結構的樹;

50、基礎部件是一部上下文無關語法它產生一組深層結構的樹;轉換部件是一組樹的重寫規則,把它們應用于一棵深層結轉換部件是一組樹的重寫規則,把它們應用于一棵深層結構樹,便產生一棵或者多顆表層結構樹。表層結構樹的前構樹,便產生一棵或者多顆表層結構樹。表層結構樹的前沿(終結節點序)就是語言的句子。轉換語法的結構是很沿(終結節點序)就是語言的句子。轉換語法的結構是很容易被人看懂的。容易被人看懂的。下頁6 . 3 語法分析在機器翻譯中的應用語法分析在機器翻譯中的應用2022-3-24第6章句法(語法)與語義理論及分析37 轉換語法可以用于句法分析,這就是句法分轉換語法可以用于句法分析,這就是句法分析器。雖然轉換

51、語法所表達的釋義關系簡化了后析器。雖然轉換語法所表達的釋義關系簡化了后繼階段的處理,但是轉換規則是為深層結構設計繼階段的處理,但是轉換規則是為深層結構設計的,若用它來處理表層結構就很復雜。歸納起來,的,若用它來處理表層結構就很復雜。歸納起來,至少有三個基本問題:至少有三個基本問題: (1 1)對于一個給定的句子,它可以生成一組)對于一個給定的句子,它可以生成一組句法樹。這組句法樹應當包括轉換語法要分配給句法樹。這組句法樹應當包括轉換語法要分配給這個句子的全部表層樹;這個句子的全部表層樹; (2 2) 對于不屬于基礎的一棵給定的樹,確對于不屬于基礎的一棵給定的樹,確定生成這棵樹可能使用的轉換規則

52、;定生成這棵樹可能使用的轉換規則; 下頁6 . 3 語法分析在機器翻譯中的應用語法分析在機器翻譯中的應用2022-3-24第6章句法(語法)與語義理論及分析38(3 3)可以有針對性對轉換規則逐條進行判定,)可以有針對性對轉換規則逐條進行判定,如果它的結果就是當前的這棵樹,就不再執行如果它的結果就是當前的這棵樹,就不再執行這一條規則。這一條規則。 如果我們用最直接的方式來處理這些問題,如果我們用最直接的方式來處理這些問題,那么我們可能不得不嘗試許多錯誤的途徑。當那么我們可能不得不嘗試許多錯誤的途徑。當然,對于第一個問題可以用一部上下文無關語然,對于第一個問題可以用一部上下文無關語法來產生轉換語

53、法可能分配給一個句子的全部法來產生轉換語法可能分配給一個句子的全部表層樹,其數量可能很大,這樣的語法又叫做表層樹,其數量可能很大,這樣的語法又叫做覆蓋語法。覆蓋語法。下頁6 . 3 語法分析在機器翻譯中的應用語法分析在機器翻譯中的應用2022-3-24第6章句法(語法)與語義理論及分析39 例如,在英語語句中的大多數詞都擁有不例如,在英語語句中的大多數詞都擁有不止一個詞類,這樣就會使這種止一個詞類,這樣就會使這種“錯誤的錯誤的”表層樹表層樹的繁殖更為嚴重。的繁殖更為嚴重。 對于后兩個問題,可以設計出一組逆向轉換對于后兩個問題,可以設計出一組逆向轉換規則。規則。 綜上所述,它們的處理過程由四個步

54、驟組成:綜上所述,它們的處理過程由四個步驟組成: (1 1)首先,程序可以利用上下文無關的覆)首先,程序可以利用上下文無關的覆蓋語法,通過一個自底向上的句法分析器來一步蓋語法,通過一個自底向上的句法分析器來一步一步分析輸入的句子;一步分析輸入的句子;下頁6 . 3 語法分析在機器翻譯中的應用語法分析在機器翻譯中的應用2022-3-24第6章句法(語法)與語義理論及分析40(2 2)應用逆向轉換規則;)應用逆向轉換規則;(3 3)對步驟()對步驟(1 1)和()和(2 2)所產生的每一顆侯選的)所產生的每一顆侯選的基礎樹,檢查它們是不是事實上能夠由基礎部件基礎樹,檢查它們是不是事實上能夠由基礎部

55、件所生成;所生成;(4 4)對每棵基礎樹和通過步驟()對每棵基礎樹和通過步驟(3 3)的測試的轉)的測試的轉換規則序,應用正向轉換規則以證實原先的句子換規則序,應用正向轉換規則以證實原先的句子確實可以生成。確實可以生成。下頁6 . 3 語法分析在機器翻譯中的應用語法分析在機器翻譯中的應用2022-3-24第6章句法(語法)與語義理論及分析41 第四步中最后檢查是必要的,因為覆蓋語法有可能在第四步中最后檢查是必要的,因為覆蓋語法有可能在逆向轉換過程中導致輸入句子同一個轉換發生虛假的匹配,逆向轉換過程中導致輸入句子同一個轉換發生虛假的匹配,而且逆向轉換不見得包括了正向轉換中的全部約束。而且逆向轉換

56、不見得包括了正向轉換中的全部約束。 事實上,覆蓋語法產生了大量虛假的表層分析,這就事實上,覆蓋語法產生了大量虛假的表層分析,這就對于機器翻譯系統后繼的處理過程造成了很大的壓力。對于機器翻譯系統后繼的處理過程造成了很大的壓力。 也可以采用兩個方法來提高系統的速度:也可以采用兩個方法來提高系統的速度: (1 1)“超樹超樹”:即用一個單獨的結構來表示幾棵語:即用一個單獨的結構來表示幾棵語法樹。寄希望對這些超樹應用逆向轉換規則,以便能同時法樹。寄希望對這些超樹應用逆向轉換規則,以便能同時處理幾種可能的表層結構;處理幾種可能的表層結構;下頁6 . 3 語法分析在機器翻譯中的應用語法分析在機器翻譯中的應

57、用2022-3-24第6章句法(語法)與語義理論及分析42(2 2)拒絕規則:在逆向轉換的過程(可見步驟)拒絕規則:在逆向轉換的過程(可見步驟(2 2)中應用這些拒絕規則來對樹進行必要的測)中應用這些拒絕規則來對樹進行必要的測試,以便可以在句法分析的過程中盡可能早地淘試,以便可以在句法分析的過程中盡可能早地淘汰某些虛假的樹。在拒絕規則中收進了原先只出汰某些虛假的樹。在拒絕規則中收進了原先只出現在正向轉換部件中的某些約束,從而可以刪除現在正向轉換部件中的某些約束,從而可以刪除步驟(步驟(2 2)中的某些樹,這樣,就可以不讓它們繼)中的某些樹,這樣,就可以不讓它們繼續存在到步驟(續存在到步驟(4

58、4)了。)了。下頁6 . 3 語法分析在機器翻譯中的應用語法分析在機器翻譯中的應用返回2022-3-24第6章句法(語法)與語義理論及分析43 漢語語法的特點可以歸納為以下七個方面:漢語語法的特點可以歸納為以下七個方面:(1 1)句子之中缺少形態標志,即每個詞缺少外)句子之中缺少形態標志,即每個詞缺少外部形態標志,所以組詞或者組句不靠形態變化,部形態標志,所以組詞或者組句不靠形態變化,而是靠語序和虛詞。而是靠語序和虛詞。 首先我們來看漢語語法的語序問題首先我們來看漢語語法的語序問題, , 漢語漢語 如果跟拉丁語相比,拉丁語中如果跟拉丁語相比,拉丁語中“老王打小李老王打小李”這樣一句話可以任意安

59、排順序;但在漢語中,這樣一句話可以任意安排順序;但在漢語中,如果把如果把“老王打小李老王打小李”變成變成“小李打老王小李打老王”意意思就相反了,因此可見漢語語序的重要性思就相反了,因此可見漢語語序的重要性。 下頁6. 4 漢語和英語語法的概述漢語和英語語法的概述2022-3-24第6章句法(語法)與語義理論及分析44 其次,漢語的虛詞很豐富,在不影響語義的前提其次,漢語的虛詞很豐富,在不影響語義的前提下,用不用虛詞帶有很大的靈活性,這是西方語言下,用不用虛詞帶有很大的靈活性,這是西方語言所沒有的。所沒有的。 在印歐語這樣的語系里,其主語、賓語一般都在印歐語這樣的語系里,其主語、賓語一般都由名詞

60、來充當,謂語一般則由動詞充當,定語大多由名詞來充當,謂語一般則由動詞充當,定語大多數由形容詞充當;數由形容詞充當; 在漢語中,大家知道,名詞并不在漢語中,大家知道,名詞并不總是都用作主語和賓語,也可以作定語甚至謂語。總是都用作主語和賓語,也可以作定語甚至謂語。下頁6. 4 漢語和英語語法的概述漢語和英語語法的概述2022-3-24第6章句法(語法)與語義理論及分析45例如:例如: 春節到了。(主語)春節到了。(主語) 我在中國過春節我在中國過春節 。(賓語)。(賓語) 春節晚會開得好。春節晚會開得好。 (定語)(定語) 明天春節了。(謂語)明天春節了。(謂語) 在漢語中,它們的語句中被人們認為

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論