




免費預覽已結束,剩余4頁可下載查看
下載本文檔
版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
題目:基于知識的智能問答技術(PDF)作者:許坤,馮巖松(北京大學)作者簡介:許坤,北京大學計算機科學技術研究所博士生,研究方向為基于知識庫的智能問答技術,已連續三年在面向結構化知識庫的知識問答評測QALD-4, 5, 6中獲得第一名。馮巖松,北京大學計算機科學與技術研究所講師。2011年畢業于英國愛丁堡大學,獲得信息科學博士學位。主要研究方向包括自然語言處理、信息抽取、智能問答以及機器學習在自然語言處理中的應用;研究小組已連續三年在面向結構化知識庫的知識問答評測QALD中獲得第一名;相關工作已發表在TPAMI、ACL、EMNLP等主流期刊與會議上。作為項目負責人或課題骨干已承擔多項國家自然科學基金及科技部863計劃項目。分別在 2014 和 2015 年獲得 IBM Faculty Award。引言近年來,信息抽取技術的快速發展使得快速構建大規模結構化、半結構化知識庫成為可能。一大批結構化知識庫如雨后春筍般涌現出來,如Google Knolwedge Graph (Freebase)、Yago,DBpedia、微軟ProBase、搜狗知立方及百度等企業內部的知識圖譜等。同時,這些大規模知識庫也被應用于關聯檢索、個性化推薦、知識問答等任務中。相比于傳統基于文本檢索的問答系統,利用知識庫回答自然語言問題可以為用戶提供更精確、簡潔的答案,因此一直受到學術界和工業界的廣泛關注。目前基于知識庫的問答技術可以大致分為兩類。第一類基于語義解析的方法。這類方法通過學習相關語法將自然語言轉問題轉換成可以用來描述語義的形式化語言,如邏輯表達式等。構建這樣的語義解析器需要大量的標注數據,例如,自然語言問題及其對應的語義描述形式。然而,針對Freebase這樣大規模的結構化知識庫,在實際中很難收集到足夠多的高質量訓練數據。另外,語義描述形式與知識庫的結構之間的不匹配也是這類方法普遍遇到的一個問題,例如,在Freebase中并沒有“爸爸”或“媽媽”這樣的謂詞關系,只有“父母”,因此,如果想表示 “A 是 B的母親”這樣的關系,則需明確表示為“” 并且 “”。 另一類知識問答技術是傳統的基于信息檢索的方法。這類方法不會將自然語言問題完全轉換成形式化的語義描述,而是首先利用實體鏈接技術從知識庫中收集候選答案集合,然后構建排序模型對候選答案進行排序。因為不需要完整地解析自然語言問題的語義結構,因此,這類方法構造訓練數據的過程相對簡單,只需收集問題答案對即可。實驗表明,基于檢索的方法對語義簡單的自然語言問題比較有效,但是難以處理語義結構復雜的問題,尤其是包含多個實體和關系的自然語言問題。例如,對于自然語言問題“What mountain is the highest in North America?”,檢索類的方法由于缺乏對highest的正確解析,通常會將所有坐落在北美的山脈返回給用戶。事實上,為了得到正確的答案,問答系統還需要根據山脈高度對候選答案進行排序,并選擇海拔最高的山脈返回給用戶。該過程通常需要人工編寫解析規則對答案進行篩選,費時費力。此外,由于自然語言描述的多樣性,人們也無法事先窮舉所有這樣的規則。 然而事實上,Freebase這樣的結構化知識庫希望存儲關于真實世界的知識條目,而像維基百科頁面這樣的文本百科資源則存儲支持這些事實的文本描述。例如,在維基百科頁面中,我們可以找到一段與候選答案有關的文本Denali (also known as Mount McKinley, its former official name) is the highest mountain peak in North America, with a summit elevation of 20,310 feet (6,190 m) above sea level。很明顯可以看出,這段文本描述可以幫助我們提升 Denali 或者 Mount McKinley 作為正確答案的置信度,并過濾掉候選集中的錯誤答案。正是受到這個發現的啟發,我們提出同時利用結構化知識庫與可信的文本百科資源,如維基百科頁面,來回答知識類自然語言問題。基于多種知識資源的問答技術框架圖1:針對問題who did shaq first play for的流程圖以樣例問題 who did shaq first play for的處理流程為例,圖1展示了融合多種知識資源的問答框架。該問答系統框架主要包含基于結構化知識庫Freebase的問題求解和基于非結構化知識資源Wikipedia文本的淺層推理。 基于結構化知識庫的問題求解基于結構化知識資源的問題求解部分只需給出候選答案集合即可,因此既可采用基于語義解析的方法,也可以直接采用基于檢索的方法來實現。這里我們采用的是基于檢索的方案,主要包括實體鏈接,關系抽取,以及這兩部分的聯合消解三大部分。1) 實體鏈接實體鏈接在知識類問題解析中扮演著十分重要的角色。我們采用詞性POS序列來篩選問題中的所有實體候選,以前面的問題為例,我們可以利用POS序列NN識別出實體shaq。對于識別出來的實體候選,我們使用實體鏈接工具S-MART獲取可以潛在鏈接到Freebase的5個候選實體。具體而言,對給定的實體候選,S-MART首先根據字符串相似度從Freebase中獲取一些候選實體,然后利用統計模型根據知識庫實體與實體候選之間的共現頻率計算出一個得分并排序,最終給出實體鏈接結果。2) 關系抽取關系抽取用于識別問句中的實體與答案(疑問詞)之間的語義關系。我們使用多通道卷積神經網絡來確定自然語言問題中實體與答案之間存在的關系。具體地講,我們使用兩個通道,一個通道捕捉句法信息,另一個通道捕捉上下文信息。每個通道的卷積層接受一個長度不固定的輸入,但是返回一個固定長度的向量(我們使用最大采樣法)。這些固定長度的向量被拼接在一起形成最后softmax分類器的輸入,該分類器的輸出向量維度等于關系類別的總數,每一維的值等于映射到對應知識庫謂詞的置信度。3) 實體和關系的聯合消歧通常情況下的實體鏈接與實體關系抽取都是獨立預測的,因而不可避免的會存在流水線框架下常見的錯誤傳遞現象。因此,我們提出了一種聯合優化模型從實體鏈接和關系抽取的候選結果中選擇一個全局最優的“實體-關系”配置。這個挑選全局最優配置的過程本質上可以被視作一個排序問題,即,“合理”的實體-關系配置在知識庫中應更常見,應該有更高的得分。我們主要依賴從知識庫中抽取的三類特征,即實體特征、關系特征和答案的特別特征。 基于Wikipedia文本描述的淺層推理基于結構化知識庫求解的候選答案集,我們從維基百科文本資源中收集候選答案的支持文本,并訓練答案過濾器對候選答案集進行篩選,以得到更準確的答案。1) 數據預處理具體地講,我們首先從維基百科中找出描述自然語言問題中實體的頁面。我們抽取維基百科頁面的內容,并利用Wikifier識別句子中的維基百科實體,再利用Freebae API將這些實體映射到Freebase中的實體。最后在頁面中尋找包含候選答案的句子當做支持文本。2) 答案過濾模型 我們將淺層推理的過程抽象為一個面向候選答案的二分類任務。在實驗中,我們使用LibSVM來訓練該二分類器。該分類器主要使用的特征是詞級別配對特征,其中第一個部分來自給定的問題,而第二個部分來自維基百科中的支持文本。更形式化地,給定一個問題q = 和一個作為支持文本的句子s = ,其中記q和s中的單詞分別為qi和sj。對每個問題與支持文本對(q,s),我們可以生成詞級別配對特征集合(qi,sj),這些詞對出現的次數作為特征用來訓練分類器。需要指出的是,這里僅嘗試了最簡單的二分類方式,主要目的是檢驗附加文本資源的作用;而使用線性優化、或神經網絡等更精巧的融合方式可能會帶來更明顯的準確率提升。實驗我們使用WebQuestions數據集進行相關實驗。該數據集一共包含5810個自然語言問題以及答案。其中訓練集包含3778個問題(65%),測試集包含2032個問題(35%)。我們使用答案的平均F1值來評測本框架。表1給出了不同方法在WebQuestions數據集上的結果。方法平均F1(Bast et al. 2015)49.4(Berant et al. 2015)49.7(Reddy et al. 2016)50.3(Yih et al.2015)52.5本研究工作Structured44.1Structured + Joint47.1Structured + Unstructured47.0Structured + Joint + Unstructured53.3表1基于關系抽取問答技術在WebQuestions數據集上的結果 為了確定所提出框架中不同模塊的重要性,我們詳細比較了以下幾種模型變種的結果。Structured 該方法只包含基于結構化知識庫Freebase的問題求解。具體地講,我們首先進行實體鏈接,將自然語言問題中包含的實體名詞映射到Freebase中的實體,其中得分最高的實體被當做結果。然后我們進行關系抽取并從候選關系中選擇與實體最匹配的關系當做最終的實體-關系配置。最后,我們使用這個實體-關系配置來預測問題的答案。Structured + Joint 與上面的方法略有不同,這個方法使用聯合消歧的方法去選擇全局最優的實體-關系組合,并進行基于結構化知識庫的問題解答。Structured + Unstructured 這個方法里,我們使用流水線的實體鏈接和關系抽取結果進行基于結構化知識庫的問題求解,進而,利用基于維基百科的淺層推理來篩選答案。Structured + Joint + Unstructured 這是我們所提出的融合多種知識資源的完整的問答框架。我們首先在結構化知識庫Freebase上進行問題求解,即,進行實體鏈接和關系抽取的聯合優化,并在Freebase上獲得候選答案集合;在此基礎上進行基于文本的淺層推理,即,從維基百科中抽取答案支持文本,并對候選答案進行篩選,獲得最終答案。從表1中的結果,我們可以發現實體鏈接和關系抽取的聯合推理結果會優于流水線方法,整體效果提高了3%,并且比大部分語義解析的方法要好。另一方面,與(Yih et al. 2015)利用人工編寫規則的工作相比,融合結構化知識庫與文本知識資源的方法在問答準確率上整體提高了0.8%,這進一步說明了恰當的使用非結構化的文本知識資源可以在很大程度上代替人工編寫規則來輔助回答自然語言問題。本文提出的融合不同知識資源的問題解答框架具有較好的可擴展性,無論在結構化知識庫求解部分,還是多種資源的融合利用方面都可進一步改進,以更大限度的發揮不同資源之間的互補作用,提高知識類問題的解答精度。參考文獻 Hannah Bast, Elmar Haussmann. More Accurate Question Answering on Freebase. CIKM. 2015, 1431-1440 Jonathan Berant, Percy Liang. Imitation Learning of Agenda-based Semantic ParsersJ. Transactions of the Association for Computational Linguistics. 2015, 3:545558 Siva Reddy, Oscar Tckstrm, Michael Collins, Tom Kwiatkowski, Dipanjan Das, Mark Steedman, Mirella Lapata. Transforming Dependency Structures to Logical Forms for Semantic ParsingJ. Transactions of the Association for Computational Linguistics. 2016, 4: 127-140 Kun Xu; Siva Reddy; Yansong Feng; Songfang Huang; Dongyan Zhao Question Answering on Freebase via Relation Extraction and Textual Evidence. ACL 2016, Kun Xu; Yansong Feng; Songfang Huang; Dongyan Zhao, Hybrid Question Answering over Knowledge Base and Free Text, COLING 2016 Yi Yang; Ming-Wei Chang, S-MART: Novel Tree-based Struc
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025-2030中國倍氯米松行業市場發展趨勢與前景展望戰略研究報告
- 2025-2030中國LNG汽車行業發展分析及發展前景與趨勢預測研究報告
- 2025-2030mRNA疫苗行業市場現狀供需分析及重點企業投資評估規劃分析研究報告
- 2025-2030高性能鋼鐵產業市場深度調研及發展趨勢與投資研究報告
- 2025-2030電動車用電動機行業發展分析及前景趨勢與投資研究報告
- 2025-2030洗滌劑行業風險投資發展分析及投資融資策略研究報告
- 2025-2030家裝產業市場深度調研及發展趨勢與投資戰略研究報告
- 2025-2030養豬行業市場發展分析與發展前景及投資戰略研究報告
- 2025-2030休閑健身器材行業市場深度調研及前景趨勢與投資研究報告
- 2025-2030中國閥門驅動裝置行業運行態勢及展規模預測研究報告
- 2024屆清華大學強基計劃數學學科筆試試題(附答案)
- (必會)軍隊文職(數學1)近年考試真題題庫(含答案解析)
- 全國統一規范電子稅務局概況介紹及操作輔導
- 工商企業管理畢業論文范文(4篇)
- 浙江省杭州市(2024年-2025年小學三年級語文)人教版開學考試(上學期)試卷(含答案)
- 【貿易戰背景下華為公司危機應對措施及其啟示18000字(論文)】
- 【網絡謠言型尋釁滋事罪的認定存在的爭議探析8600字(論文)】
- 2024延遲退休政策詳解
- 水泥標準培訓考核2024
- 圖書館運營管理服務投標方案(技術方案)
- IC反應器的設計11
評論
0/150
提交評論