非結構化數據的處理PPT學習教案_第1頁
非結構化數據的處理PPT學習教案_第2頁
非結構化數據的處理PPT學習教案_第3頁
非結構化數據的處理PPT學習教案_第4頁
非結構化數據的處理PPT學習教案_第5頁
已閱讀5頁,還剩26頁未讀 繼續免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

1、會計學1非結構化數據的處理非結構化數據的處理提綱提綱 非結構化數據處理概述 自然語言處理技術概述 自然語言處理的基本技術第1頁/共31頁什么是非結構化數據什么是非結構化數據n相對于結構化數據(即行數據,存儲在數據庫里,可以用二維表結構來邏輯表達實現的數據)而言,不方便用數據庫二維邏輯表來表現的數據即稱為非結構化數據,包括所有格式的辦公文檔、文本、圖片、XML、HTML、各類報表、圖像和音頻/視頻信息等等。第2頁/共31頁絕大部分數據是非結構化數據絕大部分數據是非結構化數據n世界上85%的數據都是非結構化數據,這些數據每年都按指數增長60%。第3頁/共31頁非結構化數據處理的技術非結構化數據處理

2、的技術n非結構化數據處理的主要技術是自然語言處理技術。用來對非結構化數據進行各種層次的理解。自然語言處理技術我要去清華大學,從西直門怎么走?學院路堵不堵?為什么我上個月已退了GPRS,這個月還扣我錢?服務:路線查詢起點:西直門終點:清華大學服務:路況查詢地點:學院路服務:客服投訴業務:GPRS訴求:錯誤扣費第4頁/共31頁提綱提綱 非結構化數據處理概述 自然語言處理技術概述 自然語言處理的基本技術第5頁/共31頁自然語言的概念自然語言的概念 什么是自然語言自然語言 語言是人類交際的工具,是人類思維的載語言是人類交際的工具,是人類思維的載體體 人造語言:編程語言,包括人造語言:編程語言,包括C+

3、, BASIC等等 世界語世界語 自然語言:自然語言: 形式:口語、書面語、手語形式:口語、書面語、手語 語種:漢語、英語、日語、法語語種:漢語、英語、日語、法語 語言學是研究語言規律的科學第6頁/共31頁網絡語言網絡語言“昨晚,我的JJ帶著他的青蛙BF到我家來吃飯。在飯桌上,JJ的BF一個勁兒地對我媽媽PMP,說她年輕的時候一定是個漂亮MM,那醬紫真是好BT,7456” JJ : 姐姐姐姐 醬紫醬紫:這樣子 BF : boy friend青蛙:長相不好的男朋友青蛙:長相不好的男朋友 PMP:拍馬屁拍馬屁MM:妹妹:妹妹BT:變態:變態7456:氣死我了:氣死我了第7頁/共31頁語言的構成語言

4、的構成語言詞匯語法詞熟語詞法句法詞素構形法構詞法詞組構造法造句法語言詞匯語法詞熟語詞法詞素句法構形法構詞法詞組構造法語言詞匯語法詞熟語詞法詞素第8頁/共31頁自然語言處理的層次自然語言處理的層次 語音分析語音分析:從語音流中區分出一個一個聲音:從語音流中區分出一個一個聲音單元單元-音素音素 詞法分析詞法分析:從句子中切分出單詞、找出詞匯:從句子中切分出單詞、找出詞匯的各個詞素,確定單詞的詞性、詞義等。的各個詞素,確定單詞的詞性、詞義等。 句法分析句法分析:對句子和短語的結構進行分析,:對句子和短語的結構進行分析,找出詞、短語等的相互關系及在句子中的作找出詞、短語等的相互關系及在句子中的作用等。

5、用等。 語義分析語義分析:識別一句話所表達的實際意義。:識別一句話所表達的實際意義。 語用分析語用分析:研究語言所在的外界環境對語言:研究語言所在的外界環境對語言使用所產生的影響。使用所產生的影響。第9頁/共31頁語義與語義與語用語用 同一詞語在不同的同一詞語在不同的“語境語境”中具有不同中具有不同“語義語義” 例如:中國奧運史上十大女杰的精彩例如:中國奧運史上十大女杰的精彩“轉身轉身” 病毒病毒 計算機領域:計算機病毒計算機領域:計算機病毒 醫學領域:生物學病毒醫學領域:生物學病毒第10頁/共31頁自然語言處理的概念自然語言處理的概念自然語言處理自然語言處理( Natural Languag

6、e Processing,NLP ) 也稱也稱自然語言理解自然語言理解或或計算語言學計算語言學; 主要研究如何讓機器進行自然語言信息處理,即主要研究如何讓機器進行自然語言信息處理,即人類語言活動中,信息成分的人類語言活動中,信息成分的發現發現、提取提取、存儲存儲、加工加工與與傳輸。傳輸。 NLP是計算機科學、語言學、人工智能與數學等是計算機科學、語言學、人工智能與數學等學科的交叉學科和邊緣學科。學科的交叉學科和邊緣學科。計算語言學是從計算角度處理語言計算語言學是從計算角度處理語言 將人們對語言的結構規律的認識用精確的、形式將人們對語言的結構規律的認識用精確的、形式化的、可計算的方式(計算模型)

7、加以表示。化的、可計算的方式(計算模型)加以表示。第11頁/共31頁自然語言理解的困難自然語言理解的困難自然語言具有多樣性自然語言具有多樣性(不同語種、不同地域、不(不同語種、不同地域、不同人群)同人群)自然語言具有進化性自然語言具有進化性自然語言的模糊性自然語言的模糊性自然語言的歧義性自然語言的歧義性 處理歧義問題是處理歧義問題是NLP的的核心問題核心問題。自然語言處。自然語言處理過程就是各種歧義現象的消解過程。理過程就是各種歧義現象的消解過程。第12頁/共31頁自然語言理解的困難自然語言理解的困難第13頁/共31頁機器能夠理解人的語言嗎機器能夠理解人的語言嗎? 很難!很難!什么是理解?什么

8、是理解? 結構主義:機器的理解機制與人相同(白盒)結構主義:機器的理解機制與人相同(白盒) 問題:人類語言理解機理尚未清楚問題:人類語言理解機理尚未清楚 功能主義:機器的表現與人相同即可(黑盒)功能主義:機器的表現與人相同即可(黑盒) 圖靈測試圖靈測試 如果通過自然語言的問答,一個人無法如果通過自然語言的問答,一個人無法識別和他對話的是人還是機器,那么就識別和他對話的是人還是機器,那么就應該承認機器具有智能應該承認機器具有智能第14頁/共31頁理解自然語言的理解自然語言的準則準則n給計算機輸入一段自然語言文本,如果計算機能給計算機輸入一段自然語言文本,如果計算機能n問答問答(question-

9、answering)(question-answering)機器能正確地回答輸入機器能正確地回答輸入 文本中的有關問題;文本中的有關問題;n文摘生成文摘生成(summarizing)(summarizing)機器有能力產生輸入文本機器有能力產生輸入文本 的摘要;的摘要;n復述復述(paraphrase)(paraphrase)機器用不同的詞語和語句復述輸機器用不同的詞語和語句復述輸入文本;入文本;n翻譯翻譯(translation)(translation)機器把一種語言機器把一種語言( (源語言源語言) )翻譯翻譯為為 另一種語言另一種語言( (目標語言目標語言) )第15頁/共31頁自然語

10、言處理的研究自然語言處理的研究目標目標n弱人工智能目標弱人工智能目標:建立一個足夠精確的語言數:建立一個足夠精確的語言數學模型使計算機通過編程來完成自然語言的相學模型使計算機通過編程來完成自然語言的相關任務。如:聽、讀、寫、說,釋義,翻譯,關任務。如:聽、讀、寫、說,釋義,翻譯,回答問題等回答問題等;n強人工智能目標強人工智能目標:讓用戶能通過自然語言與計:讓用戶能通過自然語言與計算機自由對話;算機自由對話;第16頁/共31頁自然語言處理的自然語言處理的研究內容研究內容應用系統數字圖書館、電子商務、電子政務、遠程教育、語言學習基礎研究分詞、詞性標注、短語切分、句法分析、語義分析、篇章理解等應用

11、技術研究自動問答、機器翻譯、信息檢索、文本挖掘、自動校對、信息抽取資源建設語料庫資源建設語言學知識庫建設語言學家NLP研究者軟件企業第17頁/共31頁自然語言處理自然語言處理的應用的應用NLP應用前景應用前景 據統計,日常工作中據統計,日常工作中80%的信息來源于語言,處的信息來源于語言,處理文本的需求在不斷增長理文本的需求在不斷增長 文本是人類知識最大的存儲源,并且文本的數文本是人類知識最大的存儲源,并且文本的數量在不停地增長量在不停地增長電子郵件、新聞、網頁、科技論文、電子郵件、新聞、網頁、科技論文、 用戶抱怨信用戶抱怨信NLP典型應用典型應用 智能搜索引擎、自動問答、信息獲取、語義網智能

12、搜索引擎、自動問答、信息獲取、語義網 語音識別,文字識別、輸入法語音識別,文字識別、輸入法 機器翻譯,自動文摘,跨語言檢索機器翻譯,自動文摘,跨語言檢索 文本分類、文本聚類、文本分析(結構、內容、文本分類、文本聚類、文本分析(結構、內容、情感)、文本挖掘(主題跟蹤:人物跟蹤,企情感)、文本挖掘(主題跟蹤:人物跟蹤,企業跟蹤業跟蹤)、文本過濾、文本過濾第18頁/共31頁自然語言處理自然語言處理的應用趨勢的應用趨勢智能接口智能接口 功能:功能:把現實世界中的信息送入電子世界把現實世界中的信息送入電子世界 主要成果主要成果拼音輸入、手寫輸入、語音合成、語音輸入,手機輸入拼音輸入、手寫輸入、語音合成、

13、語音輸入,手機輸入知識處理知識處理 功能:功能:對于已進入電子世界中的信息進行加工處理獲得知識對于已進入電子世界中的信息進行加工處理獲得知識 知識經濟的時代已經到來!知識經濟的時代已經到來! 知識就是力量知識就是力量知識就是財富知識就是財富 百度愛問、百度文庫、新浪愛問、百度愛問、百度文庫、新浪愛問、VC知識庫知識庫第19頁/共31頁提綱提綱 非結構化數據處理概述 自然語言處理技術概述 自然語言處理的基本技術第20頁/共31頁自然語言處理自然語言處理的基本技術的基本技術 詞法分析詞法分析 句法分析句法分析 語義分析語義分析第21頁/共31頁詞法分析概述詞法分析概述 詞法分析目的是從句子中切分出

14、單詞,找出詞匯詞法分析目的是從句子中切分出單詞,找出詞匯的各個的各個詞素詞素,從中獲得單詞的語言學信息并確定,從中獲得單詞的語言學信息并確定單詞的單詞的詞性詞性詞性詞性 : 名詞、動詞、形容詞、介詞等名詞、動詞、形容詞、介詞等詞的構成詞的構成 : 動賓動賓, 動補動補, 偏正偏正, 主謂主謂如如: 開學開學, 生病生病, 加深加深, 認清認清, 原油原油, 火熱火熱, 頭痛頭痛, 人造人造自動分詞自動分詞: 漢語處理的難題之一漢語處理的難題之一 用程序從句子中切分出單詞用程序從句子中切分出單詞第22頁/共31頁詞法分析的分詞歧義詞法分析的分詞歧義例:南京市長江大橋例:南京市長江大橋 南京南京|

15、市長市長|江大橋江大橋 南京市南京市|長江長江|大橋大橋 例:我們研究所有東西例:我們研究所有東西 我們我們-研究所研究所-有有-東西東西(交叉歧義)(交叉歧義) 我們我們-研究研究-所有所有-東西東西把手放在桌上把手放在桌上 把把-手手-放在放在-桌上桌上(組合歧義)(組合歧義) 把手把手-放在放在-桌上桌上第23頁/共31頁句法分析概述句法分析概述目的:分析目的:分析句子結構句子結構, , 找出詞找出詞, ,短語在句中的相互短語在句中的相互關系以及各自的作用關系以及各自的作用, , 并用層次結構來加以表示并用層次結構來加以表示S NP VP V NPPPMiss Smith put two

16、 books on this dining table.第24頁/共31頁句法分析過程句法分析過程 一一個句子是由各種不同的句子個句子是由各種不同的句子成分組成的。這些成分可以成分組成的。這些成分可以是單詞、詞組或從句。句子是單詞、詞組或從句。句子成分還可以按其作用分為主成分還可以按其作用分為主語、謂語、賓語、賓語補語語、謂語、賓語、賓語補語、定語、狀語、表語等。這、定語、狀語、表語等。這種關系可用一棵樹來表示,種關系可用一棵樹來表示,如對句子:如對句子: He wrote a book. 可用圖示的樹形結構來表示。可用圖示的樹形結構來表示。 句子句子主語主語謂語謂語動詞動詞賓語賓語Hewro

17、teabook第25頁/共31頁句法分析過程句法分析過程 一一個句子又是由若干個個句子又是由若干個詞類構成的,如名詞詞類構成的,如名詞、動詞、代詞、形容、動詞、代詞、形容詞等。若從句子的詞詞等。若從句子的詞類來考慮,一個句子類來考慮,一個句子也可用一棵樹來表示也可用一棵樹來表示,這種樹稱為句子的,這種樹稱為句子的分析樹,如圖所示:分析樹,如圖所示:句子句子代代 詞詞動詞短語動詞短語動動 詞詞名詞短語名詞短語Hewroteabook第26頁/共31頁語義分析概述語義分析概述 語義分析就是要識別一句話所表達的實際意義。即弄清楚“干什么了”,“誰干的”,“這個行為的原因和結果是什么”以及“這個行為發生的時間、地點及其所用的工具或方法”等。 語義分析僅是在句法范圍內根據詞性信息來分析自然語言中句子的文法結構的,由于它沒有考慮句子本身的含義,也就不能排除像 The paper received the professor. 這種在語法結構上正確,但實際意義上錯誤的句子。第27頁/共31頁語義分析過程語義分析過程John gave the book to SallyGAVE Agent: John Object: the book Source: John Goal: SallyAgent(施事):指行為的施動者;Object(受事):指行為作用的對象;C

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論