




版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
多民族語言本體知識庫構建技術文學論文我國是一個統一的多民族國家,55個少數民族中的53個民族都有自己的語言文字。這些語言文字與本民族生存開展息息相關。XX年國務院發表《中國的民族政策與各民族共同繁榮開展》白皮書中指出:“為了使少數民族群眾共享信息化時代的成果,國家采取各種措施促進少數民族語言文字標準化、標準化和信息處理工作的安康開展。”本體(Ontology)[l]是對共享概念的正規、明確的表述。本體始于哲學概念,90年代初被引入人工智能后,作為一種能在語義和知識層面上描述信息系統的概念模型建模工具[2]。基于語義的本體庫是實現跨語言信息檢索、信息抽取、自動翻譯等智能信息處理應用的重要根底,是智能文本信息處理的重要環節。為人們所熟知的本體庫中文《知網》HowNet[3],是一個較為完整的以語言知識為根底的中文本體知識庫。目前,《知網》已成為許多自然語言智能處理系統的根底資源。本體構建需要描述語言共性和個性信息。大量的語言研究說明,不同語言除具有個性差異外,還有共性因素。語言共性研究認為,語言間存在某種共同的普遍規律,稱為“普遍語法”。為蒙、藏、維、哈、朝等民族語言以及漢語、英語構建統一標準的本體庫,對于多民族語言智能信息處理應用將起到積極地推動作用。目前,多民族語言,除漢語外,均缺乏或沒有本體知識庫建立。進行統一標準和接口的多民族語言語義本體知識庫的創立,意義主要表現在:(1)從技術方面看,將促進民族語言信息處理(EthnicLanguageProcessing)技術的開展,探索出一套把被充分研究的語言的處理技術轉移到被較少研究的語言上移植方案,使自然語言處理(NaturalLanguageProcessing)技術的應用更加廣泛。(2)從科技開展方面看,本工程實施為多民族語言的智能信息處理應用提供重要的根底支撐。(3)從社會價值方面看,通過多民族語言信息技術效勞于多民族的信息溝通和交流,將增強民族地區網絡信息平安,有利于促進民族團結、構建多民族和諧社會。本文首先介紹了多民族語義本體庫的構建思路,創立方法,詳細描述多民族語言知識本體庫包含內容。介紹多民族語言共性知識庫中詞匯語義知識的表示和抽取,各民族語言特有語法知識的表示和抽取等技術。20世紀90年代初期,國際計算機界舉行了屢次關于本體的專題研討會,本體成為包括知識工程、自然語言處理和知識表示在內的諸多人工智能研究團體的熱門課題,其主要原因在于本體使人與人、人與機器、機器與機器之間的交流建立在共識知識的根底上。目前中英文自然語言處理領域,已經有很多語義本體的研究成果,其中最突出的是WordNet和HowNet。英文本體WordNet[4]的詞匯包括名詞、動詞、形容詞、副詞和功能詞。每個詞(更確切地說是詞的一條意項)是一個網絡節點。節點之間通過“同義關系”、“反義關系”、“上位關系”、“下位關系”、“局部—整體關系”、“形態關系”等聯系在一起。目前,Word-Net已經分別建立了名詞、動詞、形容詞和副詞的四個相互獨立的語義網絡,包括約十萬多個詞項。中文本體HowNet[3]是提醒概念與概念之間以及概念所具有屬性之間的關系為根本內容的常識知識庫,從1996年研發至今,已有漢語詞項96744條,多家科研單位研發基于HowNet知識表示的信息處理技術。但目前,查新還沒有查到民族語言信息處理研究中,關于語義本體表示層面的相關研究內容。基于語義的本體知識庫在文本處理、信息抽取、基于文本的數據挖掘、自動翻譯中都有廣泛的應用,適宜的本體知識庫將成為文本自動處理中的一個重要環節。總結多民族語言中共有概念的一般表示與各民族語言特有的事物表達方式的規律,發現各民族語言之間的異同;研究和實現基于詞匯語義的、包括漢語、英語、及多種少數民族語言在內的多民族語言語義本體的表示理論與方法,構建統一標準、統一接口的多語言語義概念本體知識庫,將會為多民族語言的智能信息處理應用提供重要的根底支撐,加快民族語言信息處理的進程。本文將多語言知識庫的建立作為研究的重點,為多語言信息處理的關鍵技術和應用研究提供更好的支持。為了實現上述目標,表達各民族語言的語義知識的多語言語義本體庫和各民族語言語法知識庫都是不可缺少的,擬構建的多民族語言知識庫將這兩種知識庫融合在一起。多民族語言本體知識庫與通常單語本體知識庫不同,由于各民族語言間存在著一些共性的概念,如一個漢語詞與其在其他語言中的譯文對應同樣的語義概念,同一概念在不同語言中具有相同的語法功能(比方動詞同時需要施事者和受事者,或動詞可接雙賓語),且其常見搭配詞可以在語義概念上一一對應。因此,多語本體知識庫需要保存各民族語言在語法和語義上的一些共性信息,從而表達各語言的詞匯在語義概念上的對應性,各語義概念在不同語言中語法行為的某種相似性,以及各語義概念之間的關聯。這些共性知識可用于解決翻譯和跨語言檢索中的詞義消歧,提供翻譯模板輔助調序和目標語生成等問題。表示語言共性知識的本體庫使用語義概念作為根本詞條(在本體庫中稱為元素)。在這一過程中,有一個反復迭代、逐步求精的過程,而這種迭代表達在自動建立HowNet語義本體知識庫需要用到一系列不同語言的分詞詞性標注工具的自動分析結果,而使用語義本體知識庫和語義相似度分析可以解決分詞詞性標注過程中的一些歧義消歧現象,提高分詞詞性標注的性能。多語言語義本體知識庫構建模型見圖1。語言本體創立本體結構(OntologyStrueture)是一個四元組0:={C,R,Hc,Rel};其中C(Coneept)表示概念集合,R(Relation)表示關系集合;He表示概念層次,即概念間的分類關系(TaxonomyRelation);Rel表示概念間的非分類關系(Non-taxonomyRelation)。本文以概念和概念的層次分類為根底,適當增加概念之間的聯系與推理,作為多民族語言語義本體的體系結構。本文借鑒《知網》的知識定義,結合在多民族語言信息處理當中的應用,確定本體庫的結構。主要包含以下內容:根本屬性a)語義編碼b)上下位元素c)詞類信息②概念屬性a)義原b)搭配概念③共性語法信息在設計該本體庫結構中,充分考慮了擴展性因素,并將信息處理需要用到的信息盡量并入該本體庫當中,作為元信息以最大化地輔助其他信息處理過程。④語法知識庫各民族語言也具有自己的特性知識,充分利用這些信息對機器翻譯調序、目標語言生成和跨語言信息檢索都有重要意義。這局部語言的特性知識一般表現在語法層面,因此本體知識庫需要另一個局部———各民族語言特有的語法知識庫作為補充。蒙藏維語和漢語語法知識庫結構:詞法信息:詞類,變格,變元等信息,時態、人稱、數等信息;句法信息:句式或次范疇化信息,主謂賓等信息。⑤為了自動建立包含上述多語言共性知識和各民族語言語法知識的知識庫,本課題還需要完成兩個任務:一是為知識庫的每種詞條設計屬性結構,使每種詞條的結構能夠充分表達其對應的知識,并使其易于應用;二是在獲得合理的知識庫結構的根底上,從語料庫中通過統計或規那么的方法學習每一詞條的各種屬性的取值。語義本體概念的詞典擴充語義本體的創立是耗時耗力的艱辛工作,需要語言學家、知識工程師和信息處理人員合作完成。目前的語義本體的創立,有手工創立和自動生成兩種策略。手工創立本體人工工作是主體,最多增加一些本體創立的輔助工具,以方便和加快概念和關系獲取的過程。完全手工創立的本體一般規模較小,無法應付海量的知識源。自動策略一般采用有監視或無監視的機器學習技術從文本語料中自動獲取概念和關系,人工干預程度較低。為了自動構建描述多民族語言共同特點的本體知識庫,我們首先需要一個具有較高準確率和覆蓋率的雙語詞典。對于一個翻譯系統,這樣的詞典也可以有效地提高翻譯的準確性。然而,當前的民族語言和漢語之間的雙語詞典還不能很好地覆蓋語料庫中的文本。其主要原因如下:首先,這些詞典是手工建立或只在一定規模語料之上建立起來的,這些語料并不能很好地覆蓋所有的領域,因此有些詞(比方領域專業術語)不會在詞典中出現;而且當某個詞具有一詞多義現象時,具有領域偏置的詞典可能會漏掉一些解釋。第二,未詞問題,其中有很大一局部是專有名詞,如人名、地名、機構名、時間日期等,這些專有名詞除了時間、日期可以通過規那么進行翻譯,其他詞語在翻譯中往往并無直接的規律可循。還有很多新詞需要收入詞典。解決上述問題的一個方法是在已有詞典和語料的根底上,進行詞典的自動擴充,包括根據上下文對齊關系擴充新詞,以及采用特定方法識別術語和名實體并找到其對應的翻譯等方法。目前,關于自動詞典擴充的研究還不完善,且多民族語言的現有數據缺乏對齊語料、局部語言數據量很小等特點,現有的方法并不符合多民族語言信息處理的現狀。因此需要提出針對多民族語言詞語級信息處理的詞典擴充方案。為了建立一個適用于翻譯的雙語詞典,我們需要對以下問題進行研究:①在現有詞典的根底上,根據上下文的共現信息進行逐步擴充。在詞典擴充的過程中,可能會出現三種情況,第一,對應的雙語端詞語都是新詞;第二,雙語端詞都在詞典中出現,但詞典中不包含兩者的對應關系;第三,雙語端有一端在詞典中出現,另一端是新詞,如一詞多義現象和一詞多譯現象。其中第一、二種情況需要根據雙語上下文共現一致性進行詞典擴充,第三種情況可以利用單語言端上下文共現一致性進行同義詞的挖掘。命名實體和術語的翻譯往往有一定規律可循,例如命名實體等在不同語言表示之間具有讀音的相似性。因此,我們需要研究如何利用讀音等信息從語料中識別知名實體和術語并找到不同語言間的對應翻譯。如蒙古文詞是一個人名,用漢字標音時蒙古文中間的音節(ro)在漢字中沒有,可用近似的漢字來標注,有三種寫法:嘎日迪、嘎爾迪、嘎儒迪,這三種標注都算正確。詞典會隨著新語料的參加而不斷增長,且新詞當中名實體類型出現的頻率最高。詞典不斷增長的問題使得詞典擴充不可能一次性被解決,因此為了解決以上問題,我們將采用一種在線擴充方法,在當前詞典的根底上,不斷地從新語料中抽取新的對應關系參加到詞典中,實現詞典的不斷更新。語義本體是共享概念模型的顯示的形式化標準說
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 餐廳協議書范本
- 領土買賣協議書范本
- 隔離飯費合同協議
- 預約還款合同協議
- 零售店合作合同協議書模板
- 食品設備租賃合同協議
- 預拆遷合同協議
- 集裝站煤炭倉儲合同協議
- 隧道二襯合同協議
- 鋅鋼護欄安裝合同協議
- 2025年導游從業資格知識點合輯
- (三診)成都市2022級高中高三畢業班第三次診斷性檢物理試卷(含答案)
- 四川省成都市蓉城名校聯盟2024-2025學年高一下學期期中考試英語(含答案)
- 建投國電準格爾旗能源有限公司招聘考試真題2024
- 農行反洗錢與制裁合規知識競賽考試題庫大全-上下
- 2025年上半年陜西西安閻良區事業單位招聘高層次及緊缺特殊專業人才9人重點基礎提升(共500題)附帶答案詳解
- 2025年中考數學幾何模型綜合訓練專題16全等三角形模型之婆羅摩笈多模型解讀與提分精練(教師版)
- 《應收款項減值專題》課件
- 農藝師常規知識培訓課件
- 2025-2030年中國管理咨詢行業十三五發展戰略規劃及投資前景預測報告
- 第8課 良師相伴 亦師亦友(課件)-【中職專用】高一思想政治《心理健康與職業生涯》
評論
0/150
提交評論