基于派生文法的日蒙動詞短語機器翻譯研究.pdf_第1頁
基于派生文法的日蒙動詞短語機器翻譯研究.pdf_第2頁
基于派生文法的日蒙動詞短語機器翻譯研究.pdf_第3頁
基于派生文法的日蒙動詞短語機器翻譯研究.pdf_第4頁
基于派生文法的日蒙動詞短語機器翻譯研究.pdf_第5頁
已閱讀5頁,還剩5頁未讀 繼續免費閱讀

基于派生文法的日蒙動詞短語機器翻譯研究.pdf.pdf 免費下載

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

第2 2 卷第2 期 2 0 0 8 年3 月 中文信息學報 J o U R N A I O FC H I N E S EI N F O R M A T I o NP R O C E S S I N G V 0 1 2 2 N o 2 M a r 2 0 0 8 文章編號 1 0 0 3 一0 0 7 7 2 0 0 8 0 2 0 0 4 7 0 8 基于派生文法的日一蒙動詞短語機器翻譯研究 百順 筑波大學大學院圖書館情報媒體研究科日本筑波市3 0 5 8 5 5 0 摘要 本文探索了源語為日語 目標語為蒙古語的動詞短語機器翻譯系統的實現方式 基于主張日語不活用的 派生文法 重新分析日語附加成分 將耳語的詞干和附加成分轉換到蒙古語的詞干和附加成分之后 運用蒙古語 的語音規則來處理并生成動詞短語 在此基礎上試做了日一蒙動詞短語機器翻譯系統 對3 0 篇日文報道的4 0 3 個動詞短語進行測試 取得了9 5 7 8 的正確率 關鍵詞 人工智能 機器翻譯 派生文法 日語附加成分的分析 語音規則 短語生成 中圖分類號 T P 3 9 1文獻標識碼 A R e s e a r c ho nJ a p a n e s e M o n g o l i a nM a c h i n eT r a n s l a t i o n o fV e r bP h r a s eB a s e do nt h eD e r i v a t i o n a lG r a m m a r B A IS h u n G r a d u a t eS c h o o lo fL i b r a r y I n f o r m a t i o na n dM e d i aS t u d i e s U n i v e r s i t yo fT s u k u b a T s u k u b a3 0 5 8 5 5 0 J a p a n A b s t r a c t T h i sp a p e rd e s c r i b e st h ei m p l e m e n t a t i o no faJ a p a n e s e M o n g o l i a nv e r b a lp h r a s em a c h i n et r a n s l a t i o ns y s t e m o fv e r bp h r o s e s I nt h eJ a p a n e s ed e r i v a t i o n a lg r a m m a r t h e r ei sn oc o n c e p to fC O n j u g a t i o n s aw o r di sa n a l y z e di n t o s t e m sa n ds u f f i x e s A f t e rt r a n s l a t i n gJ a p a n e s es t e m sa n ds u f f i x e si n t oM o n g o l i a ns t e m sa n ds u f f i x e s M o n g o l i a n p h o n e t i cr u l e sa r eu s e dt op r o c e s sa n dg e n e r a t ev e r b a lp h r a s e s W ei m p l e m e n t e daJ a p a n e s e M o n g o l i a nv e r b a lp h r a s e m a c h i n et r a n s l a t i o ns y s t e m W ea l s ot e s t e d4 0 3 v e r bp h r a s e sf r o m3 0 J a p a n e s er e p o r t s a n da c h i e v e da9 5 7 8 a c c u r a c y K e yw o r d s a r t i f i c i a li n t e l l i g e n c e m a c h i n e t r a n s l a t i o n d e r i v a t i o n a lg r a m m a r J a p a n e s es u f f i x e sa n a l y s i s p h o n e t i c r u l e p h r a s eg e n e r a t i o n 1 引言 日一蒙機器翻譯系統尚未問世 對蒙古語文信 息處理來說 從英語以及日語到蒙古語的機器翻譯 的研究是具有非常重要的理論和實踐意義的課題 于是 作者做了以激活日語和蒙古語的類似性 實現 日一蒙機器翻譯系統為目標的一些嘗試性研究 所 謂的短語是由兩個或兩個以上的詞或短語按照一定 的公式構成的 能夠在句子中承擔某種功能的語法單 位 3 在本文中描述的動詞短語是由動詞詞干 包括 動詞性合成詞詞干 上接加附加成分串而構成的 蒙古語屬于黏著型語言 語法體系和日語有很 多相似之處 特別是兩種語言的句法 是幾乎相同 的 因此 對于從日語到蒙古語的翻譯來說 把日語 語句的分析結果直接翻譯為蒙古語 也可以譯出一 定程度的譯文 當然 對日語和蒙古語而言 兩種語 言之間的語音變化 構詞構形和語法等方面也存在 很多不同點 也有必要對詞于和附加成分的翻譯進 行適當的擇詞等處理 在日語方面運用了派生文法 1 理由是 1 日語傳統語法的活用形處理是機器翻譯中的難 點之一 2 派生文法是基于黏著語性質的語法 它是把日語的構詞構形作為詞干上接加附加成分描 收稿日期 2 0 0 7 0 4 1 8 定稿日期 2 0 0 7 0 9 0 7 作者簡介 百順 1 9 6 4 一 男 博士生 主要研究方向為機器翻譯 自然語言處理 萬方數據 4 8 中文信息學報 述的 因此 不需要活用形處理 3 日語派生文法 比傳統語法更為接近蒙古語語法 因此 本文利用 派生文法對日語詞法分析結果中的附加成分重新加 以分析 把E l 語的詞干和附加成分轉換成蒙古語的 詞干和附加成分 運用蒙古語語音規則生成蒙古語 動詞短語 并提出了日一蒙動詞短語機器翻譯系統 的實現手法 2 基于派生文法的日語動詞短語的解析 基于I J 語作為黏著語的性質 派生文法的觀點 認為日語沒有活用性m 引 所謂黏著語 就是其語 法機能由附加成分表現出來的語言的總稱 1 它的 構詞構形是詞干上接加不同附加成分來完成的 派 生文法對日語動詞短語的描述概括起來有下列 特征 2 1 動詞短語的形成 派生文法把日語的獨立詞大體上分為動作動詞 詞干 形狀動詞詞干 實名詞詞干 形狀名詞詞干等 四種 這些分類與E l 語傳統語法中的動詞 形容詞 名詞 形容動詞相對應 派生文法的動詞短語是由動作動詞詞干 一次 詞干 上接加附加成分串構成的 附加成分 大體上 可分為兩種 機能附加成分和派生附加成分 2 2 派生附加成分和機能附加成分 對于派生文法來說 把 害力七 L J 解析為k a k a s e r t l 即詞干k a k 上接加附加成分一a s e 而派生二 次詞干 害力七J k a k a s e 這是動作動詞詞干上接 加附加成分而派生的新的詞干 這種附加成分叫做 派生附加成分L 1 對派生附加成分而言 像一r u 這樣不派生新詞干 的附加成分叫做機能附加成分 1 動作動詞詞干上 接加多個附加成分時 機能附加成分排在最后 2 3 元音詞干和輔音詞干 動詞的不變化部分 即去掉附加成分之后剩下 的部分叫做動詞詞干 以傳統語法的一段動詞r 起 專 L J 食弋 L J 為例 不變化部分 起專j 食代J 是動 詞詞干 這些詞干都以i 或e 來結尾 像這種以元 音結尾的動詞詞干叫做元音詞干 以五段活用動詞 藉滅J 為例 在傳統語法中詞尾變化是 鼯寸Jr 話 三 J 螽叉j 螽七J 螽yJ 從語音學的角度能把這 些活用形考慮為r h a n a s a jr h a n a s i jr h a n a s u jr h a n a s e j r h a n a s O J 其中h a n a s 是不變化部分 像這 種以輔音結尾的動詞詞干叫做輔音詞干 2 4 連接輔音和連接元音 動作動詞詞干上接加附加成分時 必須遵從以 下2 條規則 規則1 輔音結尾的詞干上接加以輔音為首的 附加成分時 附加成分首的輔音要脫落 規則2 元音結尾的詞干上接加以元音為首的 附加成分時 附加成分首的元音要脫落 規則1 這種會脫落的輔音叫做連接輔音 1 例 如 輔音詞干h a n a s 上綴接附加成分r u 時 附加成 分首的輔音r 就會脫落 變成h a n a s u 規則2 這種會脫落的元音叫做連接元音E 1 例 如 元音詞干t a b e 上綴接附加成分i t a 時 附加成 分首的元音i 就會脫落 變成t a b e t a 派生文法中為了表示以上所看到的這些語法現 象 必須由音素單位的羅馬字來表述 2 5 詞千的詞類變化 派生文法所述的是在詞干上接加附加成分時會 產生詞類變化 因此 把詞干后接的附加成分看作 是有限狀態自動機的輸入 其詞類變化為狀態變遷 如圖1 所示的是在派生文法中詞干上接加附加成分 圖1 派生文法的有限狀態自動機模型 萬方數據 2 期百順 基于派生文法的日一蒙動詞短語機器翻譯研究 4 9 時所發生的語法機能變化模型 詞干的語法機能 的變化就是自動機的狀態變遷 這是由于派生附加 成分的特性使詞干的詞類變化所產生的結果 譬 如 圖1 中顯示的是一次詞干的動作動詞詞干上接 加附加成分而出現的狀態變遷 也就是說從一種詞 干變遷到另一種新的詞干的例子 3 用派生文法的動詞短語的翻譯 日語和蒙古語都具有黏著語的性質 所以兩種 語言的動詞短語的形成具有共同的特點 都是詞干 上接加附加成分所形成的 例如 和日語詞干r 食 人J 相對應的蒙古語詞干是r i d e j 表達使役態時 把使役態附加成分r 一 s a s e d 接加在詞干上 就派生 為 食一 s a s e j 同樣 在蒙古語的詞干上接加相對 應的使動態附加成分 g u l j 就派生為r i d e g u l j 同 時也存在一些不同點 例如 由于兩種語言在敬語 方面的表達方式有所不同 表達尊敬的日語附加成 分r 一 r a r e J 和r 一 i m a s J 相對應的蒙古語的附加成 分就不存在 還有 日語使役態附加成分r 一 s a s e J 相對應的蒙古語的使動態附加成分有r G o l g u lJ r 1 G a l g c jr G a g e j 等三組 現階段 本系統只限于 第一組rG o l g u lJ 為了便于處理 以后把rG o l g u l j 等表達同樣的語法意義并且相對立的這種附加 成分記為 G g o u l J 下面把日語動詞短語翻譯 為蒙古語的過程表示為圖2 日語動詞短語 附加成分的羅馬字轉換 派生文法的解析結果 日一蒙轉換 蒙古浯語音規則處理 蒙古語動詞短語 食 芒世亡 0 食 s a s e t a 食 s a s e 一一 i R a i d e G g J o u lb a e i d e g u l b e 8 i d e g u l b e 圖2 基于派生文法的動詞短語翻譯例 4 翻譯過程中存在的難點 日語和蒙古語雖然在句法和構詞方面有很多相 似之處 但也有不同點 例如 否定性動詞短語中的 附加成分的結構不同 還有 日語和蒙古語不能一 一對應的現象 在這種情況下生成的動詞短語就成 為不正確的或不自然的譯文 在本章里 將對這些 問題舉例說明 4 1 同形附加成分的區分 日語在派生文法中存在同形附加成分 但其對 應的蒙古語的附加成分就不同 例如 表達愿望的 附加成分和表達過去式的附加成分都是r 一 i t a j 而且 對同一個表達過去式的附加成分來說 它的連 體形和終止形也是f i t a 3 但其蒙古語的譯文是 不相同的 如圖3 所示 語法機能愿望過去式連體形過去式終I E 形 日語言k i t a i 眷i t 魚a m o n o II 蒙古語 b i q i y e b i q i g s e ny a G o m a 香照 I b i q i b e 圖3同形附加成分相對應的蒙古語附加成分例 以上三種附加成分的形狀都是r 一 i t a j 但其在 蒙古語中 表達愿望的附加成分相對應的附加成分 為r y e j 表達過去式附加成分的連體形為 g s e n A 表達過去式附加成分的終止形為r b ej 因此 要翻 譯日語附加成分r 一 i t a d 時 必須根據其機能和動詞 形 從r y e a r g s e n j 和r b e j 中進行適當的選擇 4 2 杪變名詞和杪變動詞的翻譯問題 在日語里 像 勉強亨弓J 感謝寸弓J 似的 存在 一些名詞上后接r 亨弓J 的詞 這類名詞叫做寸變 名詞 名詞后接r 寸否J 把名詞動詞化的詞 在語 法上叫做妒變動詞 寸變名詞通常指的是表示動作 的名詞 和寸變動詞一起 作為合成詞來使用 日 語里 廿變名詞和廿變動詞的數量很多 在蒙古語中 和r 亨為J 相當的單詞是r h i h u j 譬如 日語的r 勉強J 相對應的動詞是r s o r o l q a j 作 為合成詞來使用的 勉簸寸弓J 要譯成蒙文時 如果 把 勉強j 和r 寸否J 直接翻譯的話 就成為兩個動 詞r s o r o l q a jr h i h u j 這樣的譯文是不正確或不自然 的 其實蒙文里有r s o r o l q a h o j 這樣的譯文 于是 要正確翻譯 勉強J r 中否J 必須使它變為 勉強中 r U A 這樣一個詞干上接加附加成分的形態 4 3 語序的不一致 日語和蒙古語語序雖然有很多相似之處 但也 有不同點 例如 表達否定性動詞短語的過去式時 兩種語言的附加成分的順序就會有不同之處 表達 現在和未來式的時候 蒙古語有必要追加附加成分 這是作者根據派生文法研究出來的有限狀態自動機模型 萬方數據 5 0 中文信息學報 下面以 食八n a k a t t a J 和 食 一c n a i j 兩個動詞短語為 例 看看兩種語言之間的不同點 例1 食 n a k a t t a 日語 動詞詞干否定式附加成分 蒙古語 動詞詞干過去式附加成分 日語 過去式附加成分 蒙古語 否定式附加成分 例2 食弋n a i 日語 動詞詞干 蒙古語 動詞詞干非過去式附加成分 日語 否定式附加成分附加成分 蒙古語 否定式附加成分附加成分 例1 表示 日語附加成分的順序是 否定式附 加成分在前而過去式附加成分在后 蒙古語附加成 分的順序是 過去式附加成分在前而否定性附加成 分在后 例2 表示 日語否定性附加成分直接和詞 干連接 而蒙古語的詞干和否定性附加成分之間必 須要追加非過去式附加成分 有一些日語附加成分 沒有相對應的譯文 譬如本例中的r i J 就是其中的 一個 5 對難點問題的解決 本文不僅要利用語言之間的類似性 而且要進 行句法分析 下面要論述對第四章里提出的疑難問 題的解決方法 5 1 同形附加成分的區分 同形附加成分的區分是要根據句法單位內的附 加成分的黏著前狀態和黏著后狀態來決定的 所謂 的附加成分的黏著前狀態就是黏著什么樣的詞干 所謂附加成分的黏著后狀態就是黏著之后派生什么 樣的二次詞干或者形成動詞形的連用形 連體形 終 止形和命令形的哪一種 譬如對附加成分 i t a j 來說 在表示愿望和表示過去式的場合 雖然黏著前 狀態都是動詞詞干 但是黏著后狀態就不同 前者 的黏著后狀態是形狀動詞詞干 后者是動作動詞連 體形和終止形 這種不同狀態能使同形附加成分有 區分開來的可能性 因此 本系統解決了對同形附 加成分的區分問題 也實現了圖3 中的表示愿望的 i t a j 譯為F y e j 表示過去式附加成分 i t a j 的連 體形譯為F g s e n j 終止形譯為r b e j 5 2 對妙變名詞和杪變動詞的翻譯問題的處理 關于第四章里提出的寸變名詞和寸變動詞翻譯 問題的對策是把同一個句法單位的寸變名詞和廿變 動詞用以下規則來合成一個動作動詞 規則 寸變名詞十廿變動詞一動作動詞 例如 把r 勉強J 和 中弓J 合并為 勉強亨否J 因此 把詞干部分 勉強中j 和附加成分r r U J 分別 譯為r s o r o l q a j 和r h o j 這樣就生成了 s o r o l q a h o j 的很自然的蒙古語譯文 5 3 語序不一致的調整 本文從派生文法的角度把日語句法單位看作是 詞干上接加附加成分串的形式 關于第四章第3 節 里舉的否定性動詞短語的問題 對附加成分的順序 制作了調整規則 運用這些規則對附加成分的順序 進行處理 以下表示的是具體的規則 規則1 動作動詞詞干 否定式附加成分 過去式附加成分一 動作動詞詞干 過去式附加成分 否定式附加成分 規則2 動作動詞詞干 否定式附加成分一 動作動詞詞干 非過去式附加成分 否定式附加成分 運用以上規則解決了在第四章第3 節中舉的例 1 例2 的附加成分的調整問題 把日語的詞干和附 加成分轉換成蒙古語的詞干和附加成分 用語音規 則生成動詞短語 結果是 把r 食弋n a k a t t a j 譯為 r i d e g s e nu g e i j 把 食八n a i j 譯為r i d e h uu g e i j 的很 自然的譯文 6 機器翻譯系統的實現 6 1 系統的構造 本系統由四個部分組成 圖4 也就是詞法句 法分析 基于派生文法的附加成分分析 日語一蒙古 語轉換和蒙古語短語生成等 詞法分析利用了日語詞法分析系統J U M A N 句法分析利用了日語句法分析系統K N P 對于K N P 分析出來的短語進行基于派生文法 的附加成分分析和蒙古語語音規則處理 6 2 基于派生文法的附加成分分析 本模塊是由5 個部分模塊組成 圖5 6 2 1 詞干整理 派生文法基于日語作為黏著語的性質 認為詞 萬方數據 2 期百順 基于派生文法的日一蒙動詞短語機器翻譯研究 5 1 日文 t 詞法 句法分析 l 基于派生語法的附加成分分析 t 日語一蒙古語轉換 I 蒙古語短語生成 t 蒙古文 圖4 日一蒙機器翻譯系統流程圖 詞法和句法 分析結果 i 詞干整理 二二 二 根據活用形抽出 附加成分 二二 二二 假名羅馬字轉換 二二工二 附加成分分析 二二工二 語序調整 二二工二 日語詞干和 附加成分串 活用形附 加成分對 應表 假名羅馬 字轉換表 附加成分 定義表 圖5 附加成分分析模塊 干上接加附加成分而構詞或構形 詞干整理基于這 個觀點 把K N P 分析結果的短語當作一個詞干和 附加成分的連接形式 但是 日語句法分析系統 K N P 分析出來的短語里有可能存在多個獨立詞的 情況 針對這個問題 有必要把這些多個獨立詞 并為一個合成詞來處理 例如 在r 一括魍理中 否j 的短語里包含r 一括J r 翅理J 中為J 等三個 獨立詞 把這三個獨立詞并為一個r 一括熟理寸 為J 的合成詞 合成詞的詞類由最后的獨立詞的 詞類來決定 6 2 2 根據活用形抽出附加成分 派生文法認為 日語不存在活用 也就是說 動 詞 含形容詞 形容動詞 是在詞干上接加附加成分 而構成的 因此存在著構成各種活用形的機能附加 成分 例如 表1 所表示的是構成輔音動詞 舂 J 的活用形的附加成分 根據活用形抽出附加成分的目的是要抽出表1 所表示的那種構成動詞 含形容詞 形容動詞 的活 用形的附加成分 方法是 利用J U M A N 分析出來 表1活用形形成附加成分的例子 活用形 傳統文法 派生文法 附加成分 未然形睿加 k a k aa 基本連用形考謄 k a k iI 基本形害 k a k UU 基本條件形害C 于C 善k a k e b ae b a 意志形害二 jk a k O U0 U 命令形害C 于 k a k ee 表2 活用形附加成分對應表的一部分 活用形一活用形 附加成分 輔音動詞力行一未然形 a 輔音動詞力行一基本形 U 輔音動詞力行一意志形 o U 輔音動詞力行一命令形 e 輔音動詞力行一基本條件形e b a 輔音動詞力行一基本連用形 l 的有活用形的獨立詞 動詞 形容詞 形容動詞 的活 用形和活用形的信息 作了附加成分表 根據這個 表 進行構成活用形的附加成分的抽出 表2 所表 示的是由于活用型和活用形而得出的附加成分表的 一部分 6 2 3 附屬詞的羅馬字轉換 派生文法是以語音學 形態學為中心的文法 把附加成分作為語音單位來考慮 因此必須用羅馬 字來表示 附加成分的羅馬字轉換正是從這個觀點 出發的 因此 作者制作了日語的假名和羅馬字對 應表 根據這個表 對J U M A N 的詞法分析出來的 附加成分進行羅馬字轉換處理 表3 表示的是假名 和羅馬字對應表的一部分 表3 假名和羅馬宇對應表的一部分 假名 世 島扎允 羅馬字 S e r ar et a 6 2 4 附加成分的分析 根據附加成分定義表 對詞干上接加的附加成 分串進行重新分析 派生文法是正規文法 因此可 以作為有限狀態自動機來處理 圖1 根據附加成 分定義表 把自動機的狀態作為詞干種類 輸入為附 加成分 因此 這個表具有使附加成分模型化的意 義 定義表記錄了派生文法中包含的全部附加成 萬方數據 5 2 中文信息學報 分 具體的分析方法是這個自動機接受正規表達式 對附加成分的匹配 附加成分定義表的一部分為表 4 所示 6 2 5 附加成分的順序調整 附加成分順序的調整在第5 章第3 節中說明 過 此處不再贅述 表4 附加成分定義表的一部分 黏著前狀態語法機能黏著后狀態附加成分 動作動詞詞干非完成態肯定動作動詞連體形 r U 動作動詞詞干完成態肯定動作動詞連體形 i t a 動作動詞詞干前望態肯定動作動詞連體形 y o n 動作動詞詞干使役動作動詞詞干 s a s e 動作動詞詞干被動動作動詞詞干 r 8 1 e 形狀動詞詞干非完成態形狀動詞終止形 l 形狀動詞詞干完成態 形狀動詞終止形 k a t t a 6 3 日一蒙轉換模塊 7 實驗評價 利用日一蒙詞干詞典和日一蒙附加成分對照 表 把日語的詞干和附加成分分別譯為蒙古語的詞 干和附加成分 日蒙附加成分對照表包括 派生文法的全部 附加成分和根據翻譯系統的需要而補充的一些附 加成分 在蒙古語附加成分里有很多同音異形附 加成分 因此 蒙古語附加成分的譯文里不只是一 對一 還有一對多的情況 例如 日語屬格助詞 刃j 相對應的蒙古語附加成分是y i n o n u n o u 等五種 6 4 蒙古語生成模塊 運用語音規則把蒙古語詞干和附加成分連接起 來 生成蒙古語短語 蒙古語語音規則是根據蒙古語 語法E z 又從符合自然語言處理的角度制作的 蒙古 語語音規則主要包括元音和諧規則 元音和輔音相連 規則 輔音和諧規則 連接元音書寫規則等 圖6 表 示的是應用語音規則生成蒙古語短語的例子 習語短語食 s a s e t a 附加成分分析食 一 s a s e i t a 日一蒙轉換 i d eE G g F o u lF G g s a e 元音和諧規則 i d eF G g u l G g s e n 輔音和諧規則 元音輔音結合規則 i d e g u lg s e n 連接元音書寫規則 i d e g u l Ug s e n 蒙古語短語生成i d e g u l u g s e n 圖6應用語音規則生成蒙古語短語的例子 在本章里 運用作者試作的翻譯系統進行了動 詞短語的實驗 并做出評價 7 1 對象數據 為了試驗本系統的翻譯精度 在日本每日報 9 的有關農 林 牧 水的3 1 0 個新聞報道中 用機械選 擇了3 0 個新聞報道作為測試數據庫 其余的2 8 0 個新聞報道作為訓練數據庫 而且以測試數據庫作 為對象 用本系統進行了翻譯 對其生成的4 0 3 個不 同動詞短語進行了評價 7 2 評價方法 評價是由作者以外的一位蒙古族人來實施的 在這里 所謂的正確譯文就是作為蒙古語完全正確 的表述 所謂的錯誤譯文就是語法或意義上不正確 的表述 這次評價因為不是整個句子的評價 而是 以短語為單位 并且重點放在附加成分的分析和蒙 古語語音規則的準確率上 所以對詞典里沒有記錄 的單詞 進行了一些適當的補充 7 3 結果和考察 針對測試數據庫3 0 篇新聞報道進行翻譯的 結果生成了4 8 1 個蒙古語動詞短語 其中有一 些重復的 不同動詞短語的數量為4 0 3 個 正確 翻譯的動詞短語有3 8 6 個 獲得了9 5 7 8 的正 確率 表5 萬方數據 2 期 百順 基于派生文法的日一蒙動詞短語機器翻譯研究5 3 表5 正確翻譯率 不同動詞短語數正確翻譯數正確翻譯率 4 0 33 8 69 5 7 8 下面把錯誤譯文的詳細原因表示為表6 表6 錯誤翻譯的原因細目 錯誤翻譯的原因個數錯誤翻譯率 同形附加成分的區分O 廿變名詞和廿變動詞處 0 語序的不一致 O 附加成分分析失敗 10 2 5 語音規則處理 1 33 2 3 多義詞30 7 4 合計 1 7 4 2 2 表6 當中的同形附加成分的區分 廿變名詞和 廿變動詞的處理以及語序的不一致是在第四章里談 到的問題 這次試驗當中同形附加成分的區分問題 出現的次數為1 0 3 次 其中表示愿望的場合是1 次 表示過去式連體形的場合是2 1 次 表示過去式終止 形的場合是8 1 次 由于本系統的特殊處理而全部 翻譯為正確譯文 關于廿變名詞和寸變動詞的處理 8 5 次 和語 序的不一致 1 6 次 問題 由于本系統中采取適當的 對應措施而翻譯的譯文也是全部正確的 關于附加成分的分析是基于派生文法的最關鍵 的環節 在文獻E 5 3 里附加成分分析的失敗占錯誤 翻譯率的8 5 通過附加成分定義規則的強化 這 次試驗中失敗的個數是1 個 不過 這也是在含有 文言文的動詞短語的場合出現的失敗 這次試驗中需要語音規則處理的地方有5 6 9 個 詞干和附加成分 附加成分和附加成分之間的 連接處都需要語音規則的處理 所以 語音規則處 理的個數比動詞短語要多得多 語音規則處理的總 數5 6 9 次中 由語音規則而引起的失敗個數是2 個 由補助動詞的處理而導致的失敗個數是1 1 個 蒙古語語音規則里有一些特殊現象 要對這些 特殊現象進行處理 現在的語音規則還不夠充分 還 需要探討和強化 還有 在本文中是把補助動詞作 為附加成分來處理的 這次試驗中補助動詞語音處 理的失敗次數最多 譬如 本系統把 生彥L L 弓J 翻譯為 u i l e d b u r i l e j ub a i n eJ 這是錯誤譯文 正確譯文應該是r u i l e d b u r i l e j ub a i n ai 這是因為 現系統中日語動詞短語和蒙古語動詞短語都是由詞 干上接加附加成分串構成的 特別是蒙古語的語音 處理是由詞干 一次詞于 的性質決定附加成分的性 質 并且選擇符合一次詞干性質的附加成分 例子 中的一次詞干r u i l e j 是陰性詞干 按元音和諧規 則 一次詞干 陰性 上接加的附加成分都是陰性的 但是 蒙古語的補助動詞r b a i n a 3 是個獨立詞 也 是詞干上后接附加成分構成的 因此 按理說是補 助動詞的詞干r b a i j 決定其后接加的附加成分的性 質 但是 現在的系統是補助動詞詞干上接加的附 加成分也受一次詞干r u i l e j 的制約 所以導致語音 規則處理的失敗 對補助動詞的語音規則處理問題 作為今后的研究課題保留 多義詞處理是整個機器翻譯的難點之一 對于 日一蒙機器翻譯來說 多義詞包括詞干的多義和附 加成分的多義兩種 對附加成分的多義而言 日語 動詞構詞構形附加成分的多義詞不多 其中 在本 文里對某些多義附加成分進行了處理 比如說 在 第五章第1 節里解決的同形附加成分 i t a A 的區 分就是在某種意義上的多義詞處理 是根據詞干和 附加成分的連接前狀態和連接后狀態處理的 在本 文中 對詞干的多義詞還沒有進行處理 譬如 本系 統把 南弓E 謄J 翻譯為 b a i n aq a G 3 這是錯誤譯 文 正確譯文應該是r j a r i mu y e 3 這次試驗當中 出現了向這種不符合原文意思的譯文只3 個 這是 因為 其一 日語和蒙古語有很多相似之處 其二 本系統訓練數據庫和測試數據庫都是關于農 林 牧 水的新聞報道 為了提高本系統的正確翻譯率 對多義詞的處理作為下一個階段的研究目標 8結論 本文以日語到蒙古語的機器翻譯系統的開發為 目標 提出并實現了基于日語派生文法的動詞短語 的翻譯方式 根據試驗結果 證明了動詞短語的高 精度的翻譯是可能的 今后 為了提高動詞短語的正確翻譯率 強化對 補助動詞的處理 研究的重點放在多義詞的處理并 實現具有實用性的日一蒙機器翻譯系統 致謝日本東京大學石川徼也特任教授和筑波 大學長谷部紀元教授對本研究給予了極大的支持和 精心的指導 在此表示衷心的感謝 萬方數據 5 4 中文信息學報 2 0 0 8 艇 參考文獻 1 3 2 3 清瀨羲三鄄剮府 霹本籍文法新榆一派生文法序稅 M 東京 桉楓社 1 9 8 9 演輳爾泰 蒙古諉語法 M 呼和浩特 內蒙蠢人民出 版柱 1 9 9 1 巴達瑪敖德斯爾 面向機器翻譯的漢蒙短語轉換規則 研究 M 呼和浩特 內蒙古教育出版社 2 0 0 5 那矮鳥瑟羯 蓑群 邑迭瑪敖德簸零 關予漢蒙瓿爨蘩 助翻譯系統 J A 乙T A IH A K P O 2 0 0 1 1 1 3 5 4 1 百腰 畏谷都紀元 石j 徽魄 派生文法基哆 日本疆 加島乇y p 黼 力文箭翻袈 A 裔褡妞理學會第 1 2 湖年次大會凳表瀚文集 C 東京 2 0 0 6 5 8 4 5 8 7 小j 泰弘 五7 夕 l 7 7 X 衫澎麓津汪 獠壤 康游 派生文法 上為日本黼形憋索解析 A 情鞭魍 理學會輸文蒜 C 1 9 9 9 4 0 3 1 0 8 1 1 0 9 0 伊 迭瓦 張暴浩等 蒙轟添語富一文字鶼塞費純娥理 J 中文信息攀撮 2 0 0 6 2 0 4 5 6 6 2 聶建云 陳江 利用平行網藤建立中英文統計翻譯模型 中文信息學報 2 0 0 1 1 5 1 1 1 2 C D 一每蠢薪鬻 京京 每囂凝鬻柱 2 0 0 2 辱 毒掣魯辱 導 辱分 學 簪告一毋 彘扣暈魯 靜 暈 骨 帶爭 審 串 母 骺 供 簪 囂 辟鼢始 苷 簪 辱耆n 始 世 乍 簪扣供 簪 暈 母 毋爭學 爭 辱毒 母分掣 售 簪蠹嘣誓 上接第2 7 頁 裘2 結果努耩對阮表 待消解對模激識別出待 正確識別出 準確率 召回率F 值 豹總數目消辯對總數目的待消解對數強 人稱代謠消解 1 2 4 8 75 4 6 2 0 7 4 9 0 7 5 垂 8 l 艇為別名或簡稱的消解 4 22 91 55 1 7 2 3 7 8 4 3 6 8 撩忝我鑲瀵勰 2 5 61 4 24 22 9 S 8 1 8 8 2 3 1 2 本實驗的共指消解 3 7 9 2 6 5 2 0 87 8 4 9 5 4 7 4 6 4 5 參考文獻 王3 2 3 4 5 芏簿晦 摻我潰薅黲蕊零方法秘蜜瑗技零西 孛文信 息學報 2 0 0 2 1 6 6 9 1 7 王厚峰 何婷婷 漢語巾人稱代詞的消解研究 J 計算 稅學援 2 0 0 1 2 4 2 1 3 6 1 4 3 李國匝 羅云飛 采用儻先選擇策略盼中文人稱代譎的 指代消解 J 中文信息學報 2 0 0 5 1 9 4 2 4 3 0 誨敏 王熊忠 馬彥華 漢語中指代問題的研究及討論 口 秀南黼范大學學掇 1 9 9 9 2 4 6 6 3 3 6 3 7 錢偉 郭以昆 周雅倩 吳立德 基于最大熵模濺的英文 名詞短語指代消解 J 計算機研究與發展 2 0 0 3 4 0 6 7 8 9 9 i 3 3 7 1 3 4 3 W e eM e n gS o o n H w e eT o uN gt D a n i e lC h u n gY o n g L i m AM a c h i n eL e a r n i n gA p p r o a c ht oC o r e f e r e n c e R e s o l u t i o no fN o u nP h r a s e s J C o m p u t a t i o n a lL i n g u i s t i c s 2 0 0 1 2 7 4 5 2 1 5 4 4 劉群 統計機器翻譯綜述E J 中文信息學報 2 0 0 3 1 7 4 1 1 2 MV i l a i n JA b e r d e e ne ta l Am o d e l t h e o r e t i cc o r e f e r e n c es c o r i n gs c h e m e A P r o c O ft h e6 t hM e s s a g e U n d e r s t a n d i n gC o n f M u c 6 c 1 9 9 5 4 5 5 2 A B e r g e r v D e l l aP i e t r a 實例模式子 系統在1 559個句子的封閉測試中達到99 的準確率 在1 500個句子的開放測試中達到85 的準確率 配價模式子系統在 3 059個句子的測試中達到了 89 的準確率 4 期刊論文 孫連恒 楊瑩 姚天順 OpenE 一種基于n gram共現的自動機器翻譯評測方法 中文信息學報2004 18 2 在機器翻譯研究領域中 評測工作發揮著重要的作用 它不僅僅是簡單地對各個系統輸出結果進行比較 它還對關鍵技術的發展起到了促進作用 譯文 質量的評測工作長期以來一直以人工的方式進行 隨著機器翻譯研究發展的需要 自動的譯文評測研究已經成為機器翻譯研究中的一個重要課題 本文討論 了基于n gram共現的自動機器翻譯評測框架 介紹了BLEU NIST OpenE三種自動評價方法 并通過實驗詳細分析了三種方法的優缺點 其中的OpenE采用了 本文提出了一種新的片斷信息量計算方法 它有效地利用了一個局部語料庫 參考譯文庫 和全局語料庫 目標語句子庫 實驗結果表明這種方法對于機器 翻譯評價來說是比較有效的 5 學位論文 李劍 英漢機器翻譯中的句型轉換和譯文生成 2005 隨著對外交流的日益廣泛 機器翻譯的研究與實現有著重要的現實意義 同時 機器翻譯的研究對于自然語言理解 人工智能 計算語言學等學科 的研究也起著重要的推動作用 并對促進情報獲取工作發展具有重要的意義 機器翻譯 MT 就是應用計算機實現從一種自然語言文本到另一種自 然語言文本的翻譯 20世紀90年代以來 機器翻譯的方法基本上可分為兩大類 理性主義的基于規則的方法和經驗主義的基于語料庫的方法 本 文以軍隊某部重點科研項目 英漢智能型機器翻譯系統為基礎 設計實現了機器翻譯中的句型轉換和譯文生成等功能 本文首先論述了課題背景與意 義 介紹了機器翻譯的發展與研究現狀及系統概況 然后對英漢兩種語言進行對比研究 論述了英漢語言的特點及差別 并給出相應的消歧策略 接著 重點介紹了句型轉換和譯文生成模塊的設計 實現過程 最后給出系統實驗結果 針對英語中的疑問句等特殊句型 系統采用了利用句型轉換對 其進行處理的新策略 在格語法的基礎上 本文提出了擴展的基于信息的格語法 EICG 并設計實現了基于EICG的句型轉換器 將各種特殊句型轉換為 陳述句語序 翻譯是一個高度智能化的過程 單純的運用某種方法都不能取得比較理想的翻譯效果 因此 本文將經驗主義的方法和傳統的基于 規則的方法相結合 在傳統的規則體系下 引入翻譯模式的支持 兩種方法相互補充 設計實現了用于完成源語言的轉換和生成工作的譯文生成模塊 在基于模式的方法中 基于范例推理的思想 研究了語法信息和語義信息相結合的相似度計算方法 對原有匹配算法進行改進 設計了基于動態規 劃的句子相似度匹配算法及匹配原則 并給出語義相似度計算公式 通過語義相似度計算來保證對模式進行精確匹配 在基于規則的

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論