




版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
1、第八章 自然語言處理概述2012年10月15日1概況一點擊此處輸入相關文本內容點擊此處輸入相關文本內容整體概述概況三點擊此處輸入相關文本內容點擊此處輸入相關文本內容概況二點擊此處輸入相關文本內容點擊此處輸入相關文本內容2語言的習得之謎當今的語言學界都承認這樣一個基本事實:“任何一位四、五歲的兒童都能無師自通地很好掌握包含數不清語法規則變化的本民族口頭語言”(只是對于“兒童為何只用幾年時間就能無師自通掌握本民族口頭語言”這樣一個問題,目前語言學界還有各種不同的說法和爭論)。3 古埃及關于語言起源的故事 希臘史學家希羅多圖斯的載有一段埃及的故事: 古埃及的一位國王曾為探究人類最初的語言詞匯到底是什
2、么而采取出人意料的辦法。有一次,一個孩子降生,他就下令讓一個牧人把孩子放到荒郊野外,命令他不許和孩子說任何話,還要一邊放羊,一邊照顧這個孩子,等這個孩子說第一個詞時馬上來報告。一年多以后,孩子說出第一個詞匯bekos。國王立即召集學者研究這個詞的出處,后來發現是弗吉里亞語中面包的意思,國王就認為人類最早開始說的詞就是面包。一次科學實驗 4巴別塔 據圣經創世記第11章記載,是當時人類聯合起來興建,希望能通往天堂的高塔。為了阻止人類的計劃,上帝讓人類說不同的語言,使人類相互之間不能溝通,計劃因此失敗,人類自此各散東西。 5內容提綱8.1 自然語言處理概述8.2 自然語言處理的基本技術8.3 自然語
3、言處理技術路線8.4 實例與系統演示68.1自然語言處理概述基本語言學知識自然語言處理概念自然語言理解研究目標研究內容NLP應用發展歷史7自然語言的概念什么是自然語言語言是人類交際的工具,是人類思維的載體人造語言:編程語言,包括C+, BASIC等 世界語自然語言:形式:口語、書面語、手語語種:漢語、英語、日語、法語語言學是研究語言規律的科學8網絡語言“昨晚,我的JJ帶著他的青蛙BF到我家來吃飯。在飯桌上,JJ的BF一個勁兒地對我媽媽PMP,說她年輕的時候一定是個漂亮MM,那醬紫真是好BT,7456” JJ : 姐姐 醬紫:這樣子 BF : boy friend青蛙:長相不好的男朋友 PMP:
4、拍馬屁MM:妹妹BT:變態7456:氣死我了9語言詞匯語法詞熟語詞法句法詞素構形法構詞法詞組構造法造句法語言詞匯語法詞熟語詞法詞素句法構形法構詞法詞組構造法語言詞匯語法詞熟語詞法詞素造句法句法構形法構詞法詞組構造法語言詞匯語法詞熟語詞法詞素語言的構成10自然語言處理的層次語音分析:從語音流中區分出一個一個聲音單元-音素詞法分析:從句子中切分出單詞、找出詞匯的各個詞素,確定單詞的詞性、詞義等。句法分析:對句子和短語的結構進行分析,找出詞、短語等的相互關系及在句子中的作用等。語義分析:識別一句話所表達的實際意義。語用分析:研究語言所在的外界環境對語言使用所產生的影響。11語義與語用同一詞語在不同的
5、“語境”中具有不同“語義”例如:中國奧運史上十大女杰的精彩“轉身” 病毒 計算機領域:計算機病毒醫學領域:生物學病毒12自然語言處理的概念自然語言處理( Natural Language Processing,NLP )也稱自然語言理解或計算語言學;主要研究如何讓機器進行自然語言信息處理,即人類語言活動中,信息成分的發現、提取、存儲、加工與傳輸。NLP是計算機科學、語言學、人工智能與數學等學科的交叉學科和邊緣學科。計算語言學是從計算角度處理語言將人們對語言的結構規律的認識用精確的、形式化的、可計算的方式(計算模型)加以表示。13中文信息處理中文信息處理的研究內容是利用計算機對漢語的音、形、義等
6、語言文字信息進行的加工和操作,包括:對字、詞、短語、句、篇章的輸入、輸出、識別、轉換、壓縮、存儲、檢索、分析、理解和生成等各方面的處理技術。14自然語言理解的困難自然語言具有多樣性(不同語種、不同地域、不同人群)自然語言具有進化性自然語言的模糊性自然語言的歧義性 處理歧義問題是NLP的核心問題。自然語言處理過程就是各種歧義現象的消解過程。1516機器能夠理解人的語言嗎?很難!什么是理解?結構主義:機器的理解機制與人相同(白盒)問題:人類語言理解機理尚未清楚功能主義:機器的表現與人相同即可(黑盒)圖靈測試如果通過自然語言的問答,一個人無法識別和他對話的是人還是機器,那么就應該承認機器具有智能17
7、給計算機輸入一段自然語言文本,如果計算機能問答(question-answering)機器能正確地回答輸入 文本中的有關問題;文摘生成(summarizing)機器有能力產生輸入文本 的摘要;復述(paraphrase)機器用不同的詞語和語句復述輸入文本;翻譯(translation)機器把一種語言(源語言)翻譯為 另一種語言(目標語言)理解自然語言的準則18自然語言處理的研究目標 弱人工智能目標:建立一個足夠精確的語言數學模型使計算機通過編程來完成自然語言的相關任務。如:聽、讀、寫、說,釋義,翻譯,回答問題等;強人工智能目標:讓用戶能通過自然語言與計算機自由對話;19NLP研究內容應用系統數
8、字圖書館、電子商務、電子政務、遠程教育、語言學習基礎研究分詞、詞性標注、短語切分、句法分析、語義分析、篇章理解等應用技術研究自動問答、機器翻譯、信息檢索、文本挖掘、自動校對、信息抽取資源建設語料庫資源建設語言學知識庫建設語言學家NLP研究者軟件企業20NLP 的應用NLP應用前景據統計,日常工作中80%的信息來源于語言,處理文本的需求在不斷增長文本是人類知識最大的存儲源,并且文本的數量在不停地增長電子郵件、新聞、網頁、科技論文、 用戶抱怨信NLP典型應用智能搜索引擎、自動問答、信息獲取、語義網語音識別,文字識別、輸入法機器翻譯,自動文摘,跨語言檢索文本分類、文本聚類、文本分析(結構、內容、情感
9、)、文本挖掘(主題跟蹤:人物跟蹤,企業跟蹤)、文本過濾212013年973重點支持方向互聯網環境中文信息處理與深度計算的基本理論與方法研究互聯網規模中文深度計算的理論與模型,包括中文信息表示理論與模型、句子與篇章的結構分析和語義理解等方法;研究言語多通道感知機理,包括多言語識別、翻譯、合成與融合、開放式多類型語言知識大規模獲取與組織等方法;研究中文信息所承載中國文化元素的獲取、傳承和呈現等方法;構建大規模中文文本語義體系和語料庫,開發相應軟件系統原型。22文本校對正確的用法錯誤的用法正確的用法錯誤的用法執著 執著其他其它思維 思惟想像想象唯一惟一好像好象唯心惟心侍者恃者 伺者磨煉磨練承事承侍歷
10、事練心歷事煉心降伏降服做主作主調伏調服 做一位智者作一位智者噩夢惡夢叫做叫作攝受攝授23NLP 應用趨勢智能接口功能:把現實世界中的信息送入電子世界主要成果拼音輸入、手寫輸入、語音合成、語音輸入,手機輸入知識處理功能:對于已進入電子世界中的信息進行加工處理獲得知識知識經濟的時代已經到來!知識就是力量知識就是財富百度愛問、百度文庫、新浪愛問、VC知識庫24NLP的歷史20世紀50年代起步機器翻譯、自動文摘50-60年代采用模式匹配的方法60年代衰落70-80年代采用面向受限域的深入理解的方法90年代至今統計方法占主流隨著互聯網的發展而復蘇互聯網為NLP提供了市場需求和試驗數據統計語言模型和機器學
11、習方法推動了NLP近來的主要發展:主要集中于海量網絡信息的處理258.2 NLP的基本技術詞法分析句法分析語義分析26詞法分析詞法分析目的是從句子中切分出單詞,找出詞匯的各個詞素,從中獲得單詞的語言學信息并確定單詞的詞性詞性 : 名詞、動詞、形容詞、介詞等詞的構成 : 動賓, 動補, 偏正, 主謂如: 開學, 生病, 加深, 認清, 原油, 火熱, 頭痛, 人造自動分詞: 漢語處理的難題之一用程序從句子中切分出單詞27自動分詞主要分詞算法: 1.基于詞表的分詞-最大匹配 即“長詞優先”原則,來進行分詞2.基于統計的分詞 分詞的難點歧義字段處理未登入詞處理: 人名識別, 地名識別, 譯名識別,
12、新詞識別28分詞歧義例:南京市長江大橋 南京|市長|江大橋 南京市|長江|大橋 例:我們研究所有東西我們-研究所-有-東西(交叉歧義)我們-研究-所有-東西把手放在桌上把-手-放在-桌上(組合歧義)把手-放在-桌上29分詞的難點之一:未登錄詞新詞名詞:斑竹、大蝦、面瓜、菜鳥、美眉、陶吧、911、白骨精動詞:打的、埋單、買單、給力形容詞:酷、小資、爽命名實體時間、地名、人名、組織機構名商標、公司名、電話號碼、電子郵件地址等等合成詞,簡稱,派生詞三個代表、十六大牛市、熊市微博30語法分析/句法分析S NP VP V NPPPMiss Smith put two books on this dini
13、ng table.目的 : 分析句子結構, 找出詞,短語在句中的相互關系以及各自的作用, 并用層次結構來加以表示31詞義消歧機器翻譯中最難的問題之一是詞義的二義性(歧義性)問題。比如 Bush 一詞可以是美國總統的名字,也可以是灌木叢。一個實用的方法是使用互信息?;バ畔?Mutual Information)是信息論里一種有用的信息度量,它是指兩個事件集合之間的相關性首先從大量文本中找出和總統布什一起出現的互信息最大的一些詞,比如總統、美國、國會、華盛頓等等,當然,再用同樣的方法找出和灌木叢一起出現的互信息最大的詞,比如土壤、植物、野生等等。有了這兩組詞,在翻譯 Bush 時,看看上下文中哪類
14、相關的詞多就可以了。32理解一段文字所需的NLP基本技術文本預處理:文本格式轉換、HTML-TXT 轉換、文件合并噪音信息過濾句子切分:把段落切分成一個個句子分詞;把句子分成一個個單詞詞性標注(Part-of-Speech Tagging):名詞、動詞、形容詞等句法分析:句子的句法結構詞義消歧(Word Sense Disambiguation)語義關系分析;指代消解(Anaphora Resolution);篇章理解;自動摘要生成;338.2 NLP研究技術路線NLP語言模型NLP兩大流派:理性主義和經驗主義NLP兩大技術路線:統計學習方法與人工規則方法;34計算模型NLP語言模型35理性主
15、義語言學家N. Chomsky 認為人類生成合乎文法的語句的能力是生來具有的,為此他提出一種稱為生成句法( Generative Grammar) 的理論;通過一組有限的規則作用于一個有限的詞匯上,從而本能地生成無限的可接受的、合乎文法的句子理性主義試圖去描寫人腦中的語言模型分析模型:基于規則的方法;36人工規則方法處理系統規則語言學語義學認知科學人工智能寫規則自然語言輸入處理結果37中醫古文卷名篇名標注String str = bufReader.readLine(); while (str!= null ) /卷名標注 if (str.startsWith(卷 第) str = #+str
16、;/篇名標注 if (str.startsWith(“篇第) str = *+str;printWriter.println(str); str = bufReader.readLine(); 黃帝內經-素問38規則方法的優點語言學規則是人智慧的結晶,具有很好的描述能力和生成能力;能有效地處理句法分析中的長距離依存關系等困難問題;能夠處理句子中長距離的主語和謂語動詞之間的一致關系;39規則方法的缺點基于規則方法的語言模型一般比較脆弱、魯棒性很差語言是極其復雜的現象人類總結的規則不完備、不一致,規則多了相互沖突,難以對抗復雜的語言現象基于規則的方法難以機器自動學習需要語言學家等參與,勞動強度大,
17、成本昂貴。自然語言是不斷發展變化的,規則方法應變能力弱;40經驗主義行為心理學家B. F. Skinner提出另一種語言理論。這個理論認為人類語言能力的獲得來自于學習,語言是通過不斷地實踐而“約定俗成”的結果。這就是自然語言形成的經驗主義解釋;經驗主義試圖去刻畫真實世界的語言現象統計模型:基于統計的方法“數據驅動”(Data Driven):從數據中學習(Learning From Data) 的方法;從數據中統計語言規律 41統計學習方法學習系統預測系統概率模型統計學習建立模型自然語言輸入自然語言輸入預測42基于統計的研究方法設定一個語言模型,推導出參數值最大熵模型(Maximun Entr
18、opy Modeling)隱馬爾科夫模型(Hidden Markov Model)支持向量機(SVM)貝葉斯算法(Bayes)條件隨機場幾大要素數學基礎統計算法訓練語料43概率統計方法的缺點人的語言運用不是一個隨機的過程,是有規律可循,用統計模型作為語言模型并不精確;建立語料庫的人工成本;與語料庫質量密切相關:數據稀疏問題;數據稀疏:真實世界存在,但在語料庫中出現概率很小;44自然語言處理統計學習人工規則語料庫語言學統計學習方法與人工規則方法的關系混合模型 = 規則+統計458.4 NLP實例與系統演示46一個簡單的英漢機器翻譯實例輸入英文句子:Miss Smith put two books on this dining table.形態分析(Morphological Analysis)MissSmithput (+ed)twobook+sonthisdining table.47句法分析(Sy
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 木質樂器制作工藝傳承考核試卷
- 票務代理行程規劃與咨詢考核試卷
- 電池制造過程中的市場趨勢分析考核試卷
- 木材的天然防腐和抗菌性能考核試卷
- 植物油加工過程中的副產物利用策略考核試卷
- 電視接收設備的智能廣告投放系統考核試卷
- 泵的耐高溫材料與涂層技術考核試卷
- 有機化學原料的可持續采購策略考核試卷
- 廈門城市職業學院《醫學成像原理與圖像處理》2023-2024學年第二學期期末試卷
- 萍鄉衛生職業學院《文化產業項目策劃》2023-2024學年第二學期期末試卷
- 初一泛讀黑布林 《霍利的新朋友》
- 老年綜合評估和老年綜合征PPT通用通用課件
- 超星爾雅學習通《人力資源招聘與選拔》章節測試含答案
- 路面級配砂礫石墊層施工總結報告
- 主提升機司機培訓課件
- 變壓器容量計算表
- 連續油管作業技術(共122頁).ppt
- 互聯網大學生創新創業大賽培訓
- 3號鋼筋加工場桁吊安裝方案
- 部編版(統編)六年級語文下冊文學常識及文化常識(共4頁)
評論
0/150
提交評論