《人工智能及其應用》課件第12章 自然語言處理_第1頁
《人工智能及其應用》課件第12章 自然語言處理_第2頁
《人工智能及其應用》課件第12章 自然語言處理_第3頁
《人工智能及其應用》課件第12章 自然語言處理_第4頁
《人工智能及其應用》課件第12章 自然語言處理_第5頁
已閱讀5頁,還剩30頁未讀, 繼續免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

第12章自然語言處理

LISP語言是AI的數學,不僅對AI的機器實現更有意義,而且是AI理論研究的重要工具?!獪厮诡D12.1語言模型

12.1語言模型

12.1語言模型

12.1.2模型評估

12.1.2模型評估

12.1.3n元單詞模型

從字符模型轉向元單詞模型。單詞模型和字符模型有著相同的機制,主要的區別在于詞匯,構成語料和模型的符號集合,比字符模型更大。

大多數語言只有大約100個字符,有時我們還可以構建更受限的模型,例如,把“A”和“a”視為同一符號,也可以把所有的標點視為同一符號。而對于單詞模型來說,至少有數以萬計的符號,有時甚至上百萬。

符號之所以這樣多,是因為很難說清楚單詞到底是由什么構成的。在英語中,由前后空格分隔的字母序列構成了單詞。12.1.3n元單詞模型n元單詞模型需要處理詞匯表以外的單詞。在字符模型中,我們不必擔心有人會發明字母表中的新字母。

單詞模型中,總是有可能出現訓練語料中沒有的單詞,所以我們需要在語言模型中明確地對其建模。

通過向詞匯表中添加一個新的單詞<UNK>來解決,<UNK>表示未知的單詞。我們可以按照下面的方法對<UNK>進行n元模型評估:遍歷訓練語料,每個單詞的第一次出現都作為未知的單詞,就用<UNK>替換它。

這個單詞后來所有的出現仍保持不變。然后把<UNK>和其他單詞一樣對待,按原來的方法計算語料的n元數值。

當一個未知的單詞在出現在測試集中時,我們將其視為<UK>的來查找概率。有時我們會按照單詞的不同類別,分別使用多個不同的未知單詞符號。例如,所有數字串可以替換為<NUM>,所有電子郵件地址替換成<EMAIL>。12.2文本分類

12.2文本分類

另一種方法是機器學習方法,我們把郵件信息看成是一組特征/值對,分類算法h根據特征向量X進行判斷。我們可以將n元組作為特征,這樣語言模型和機器學習兩種方法就可以融合了。

這一思想用一元模型最容易理解。在詞匯表中的單詞就是特征:“a”、“aardvark”、…,特征的值就是每個單詞在郵件信息中出現的次數。12.2文本分類

一旦我們選定了特征集,我們便能運用我們所知道的任何監督學習技術,比較流行的文本分類方法包括:k-最近鄰(k-nearest-neighbors.)、支持向量機(supportvectormachines)、決策樹(decisiontrees)、樸素貝葉斯(naiveBayes)以及邏輯回歸(logisticregression)。

所有這些方法都已被應用到垃圾郵件檢測中,通常準確率在98%~99%之間。如果精心設計特征集,準確率可以超過99.9%。12.3信息檢索

信息檢索(Informationretrieval)的任務是尋找與用戶的信息需求相關的文檔。萬維網上的搜索引擎就是一個眾所周知的信息檢索系統的例子。

一個信息檢索(即IR)系統具有如下特征:1.文檔集合,每個系統都必須確定其需要處理的文檔,一個段落文本、一頁文本還是多頁文本。2.使用查詢語言描述的查詢,查詢描述了用戶想知道的內容。

查詢語言可以是一個單詞列表,如[AIbook];可以是必須連續出現的單詞短語,如[“AIbook”];也可以包含布爾運算符,如[AIandBook]。12.3信息檢索3.結果集合

該集合是文檔集合的子集,包含了IR系統判斷的與查詢相關的那部分文檔。所謂“相關”,是指對提出查詢的人有用,符合查詢中表達的特定信息需求。4.結果集合的展示

結果集合可以簡單地用有序的文檔標題列表來展示,也可以采取復雜的展示方法,如將結果集合的旋轉彩色圖像映射到一個三維空間中,以作為一種二維表示的補充。12.3.1IR評分函數

評分函數根據文檔和查詢計算并返回一個數值得分,最相關的文檔的得分最高。在BM25函數中,得分是由構成查詢的每個單詞的得分進行線性加權組合而成。有三個因素會影響查詢項的權重:

第一,查詢項在文檔中出現的頻率(也記為TF,表示詞項頻率(termfrequency))。對于查詢[farminginKansas],頻繁提到“farming”的文檔會得到較高分數。

第二,詞項的文檔頻率的倒數,也記為IDF。單詞“in”幾乎出現在每一個文檔中,所以它的文檔頻率較高,因而文檔領率的倒數較低,所以“in”沒有查詢中的“farming”和“Kansas”重要。

第三,文檔的長度。包含上百萬單詞的文檔很可能提到所有查詢中的單詞,但實際上這類文檔不一定真正與詢問相關,而提到所有查詢單詞的短文檔應當是更好的相關文檔候選。12.3.2IR系統評價

傳統上,在評分時有兩個度量指標,召回率(recall)和準確率(precision)。

某個IR系統對某個查詢返回一個結果集合,語料庫由100篇文檔組成,對于該查詢,我們已經知道語料庫中哪些文檔是相關的、哪些是不相關的。每個類別的文檔統計結果如下表所示。12.3.2IR系統評價

12.3.3PageRank算法

網頁排名旨在解決TF評分問題:如果查詢為[IBM],我們如何保證BM的主頁是第一條搜索結果,即使存在其他的網頁更頻繁地出現詞語“IBM”?

其思想是有很多導入鏈接(in-links,指向該頁面的鏈接),所以它的排名應該更高,每一個導入鏈接都可以看成是為所鏈接到的頁面投了一票。

如果我們只計算導入鏈接,就可能會有垃圾網頁制造者創建一個頁面網絡,并把所有網頁都鏈接到他想要的網頁上,從而提高該網頁的得分。12.4.1基于有限狀態自動機的信息抽取

最簡單的信息抽取系統被稱為基于屬性的抽取(attribute-basedextraction)系統,因為它假設整個文本都是關于單一對象的,而系統的任務就是抽取該對象的屬性。

針對每個需要抽取的屬性定義一個模板。模板可以用有限狀態自動機定義,最簡單的例子就是正則表達式(regularexpression或regex)。12.4.1基于有限狀態自動機的信息抽取

關系抽取系統可以由一組級聯有限狀態轉換器(cascadedfinite-statetransducers)構成。

系統由一系列小而有效的有限狀態自動機(FSAs)組成,其中每個自動機接受文本作為輸入,將文本轉換成一種不同的格式,并傳送給下一個自動機。FASTUS由以下5個階段組成:1.符號分析(Tokenization)2.復合詞處理3.基本詞組處理4.復合短語處理5.結構合并12.4.2信息抽取的概率模型

12.4.2信息抽取的概率模型

在抽取中HMM相比FSA有兩大優勢。

第一,HMM是概率模型,因而可以抗噪聲。在正則表達式中,哪怕一個預期的字符丟失,正則表達式的匹配也會失??;

使用HMM可以很好地對丟失的字符或單詞進行退化處理(degradation),我們還可以用概率值表示匹配的程度,而不僅僅是用布爾值來表示匹配成功或失敗。

第二,HMM可以用數據訓練得到,而無需構造模板的繁重工程,因此,模型就能夠方便地適應隨著時間不斷變化的文本。12.4.3基于條件隨機場的信息抽取

12.4.3基于條件隨機場的信息抽取

12.4.3基于條件隨機場的信息抽取

12.5短語結構語法

12.5短語結構語法

12.5短語結構語法

12.5短語結構語法

12.6機器翻譯

12.6機器翻譯

12.6機器翻譯

學習短語概率和扭曲度概率這兩個問題,過程如下:(1)找到平行文本

首先,搜集雙語平行語料庫。例如,Hansard記錄了議會的辯論。加拿大、香港以及其他國家和地區建立了雙語的Hansard,歐盟以11種語言發布其官方文件,而聯合國也發布多種語言版本的文件。

雙語語料也可從網上獲得,一些網站也通過平行的URL發布平行的內容。(2)分割句子

翻譯的單位是句子,因此我們必須把語料分割為句子。句號是很強的句子結尾的標志。

一種確定句號是否表示句子結束的方法,是根據句號附近單詞及其詞性特征訓練一個模型,該方法的準確率可達到98%。12.6機器翻譯

學習短語概率和扭曲度概率這兩個問題,過程如下:(3)句子對齊

對于英語語料中的每個句子,找出漢語料中與之對應的句子。通常,英語句子和漢語句子是1:1對應的,但在有些時候也有變化:某種語言的一個句子可以被分割,從而形成2:1對應,或者兩個句子的順序相互交換,從而導致2:2對應。

當僅考慮句子的長度時(即短句應該和短句對齊),對齊這些句子是可能的(1:1,1:2,2:2等),利一種維特比算法(Viterbialgorithm)的變種可以達到99%的準確度。

如果使用兩種語言的公共標志,比如數字、日期、專有名詞以及我們從雙語詞典中獲得的無歧義的單詞,可以實現更好的對齊效果。12.6機器翻譯

12.7小結

基于n元概率語言模型能夠獲得數量驚人的有關語言的信息。該模型在語言識別拼寫糾錯、體裁分類和命名實體識別等很多任務中有良好的表現。這些語言模型擁有幾百萬種特征,所以特征的選擇和對數據進行預處理減少噪音顯得尤為重要。

文本分類可采用樸素貝葉斯”元模型或者我們之前討論過的分類算法。分類也可以看成是數據壓縮問題。信息檢索系統使用一種簡單的基于詞袋的語言模型,它在處理大規模文本語料時,在召回率和準確率上也有好的表現。在萬維網語料上,鏈接分析算法能夠提升性能。12.7小結

信息抽取系統使用更復雜的模型,模板中包含了有限的語法和語義信息。系統可以采取有限狀態自動機、HMM或條件隨機領域進行構建,并且從示例中進行學習。

構建統計語言系統時,最好是設計

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論