人工智能基礎(Python實現)-課件 第7章 自然語言處理與應用_第1頁
人工智能基礎(Python實現)-課件 第7章 自然語言處理與應用_第2頁
人工智能基礎(Python實現)-課件 第7章 自然語言處理與應用_第3頁
人工智能基礎(Python實現)-課件 第7章 自然語言處理與應用_第4頁
人工智能基礎(Python實現)-課件 第7章 自然語言處理與應用_第5頁
已閱讀5頁,還剩67頁未讀 繼續免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

第7章自然語言處理與應用授課教師:李老師智能聊天機器人能夠在任何時間回答用戶的咨詢,提供個性化服務前言智能搜索引擎能夠理解用戶的查詢意圖,提供精準的信息前言自動摘要和文本生成技術則為新聞、出版等行業帶來了革命性的變化前言在教育領域,自然語言處理技術正在幫助教師批改作業,為學生提供個性化的學習建議前言在醫療健康領域,它則用于輔助診斷,通過分析病歷文書來提高診療的準確性前言前言從自然語言處理的基礎概念和發展歷程出發,探究語言學知識對自然語言處理技術的影響01詳細解析文本清洗、分詞等基礎任務,并展示自然語言處理技術在現實世界的廣泛應用02最后展望多模態融合等前沿技術03熟練掌握文本清洗、分詞、詞性標注、命名實體識別和依存句法分析等基礎任務的原理、方法和技術。了解語言學知識如語音、詞匯、語法、語義等對自然語言處理技術的影響。清晰掌握自然語言處理的定義,了解自然語言處理從早期到現代的發展脈絡。熟悉自然語言處理在語言理解、語言生成、機器翻譯、內容審核、個性化推薦和智能問答等領域的具體應用場景和實現方式。030201了解自然語言處理前沿技術的發展。0405學習目標7.1自然語言處理概述基礎語言學基礎7.1.2自然語言中的歧義問題7.1.3自然語言處理的概念及其發展歷程7.1.17.1.1自然語言處理的概念及其發展歷程自然語言處理是計算機科學和人工智能領域中的一個關鍵研究方向,它致力于研究能實現人與計算機之間用自然語言(如英語、中文等)進行有效通信的各種理論和方法,其目標可以歸納為語言理解、語言生成和人機交互。語言理解是使計算機能夠準確理解人類語言的含義,包括詞匯的精確含義、句子的結構以及整個文本的上下文和意圖。語言生成是讓計算機能夠生成自然流暢的人類語言,用于回應、解釋或傳達信息。人機交互是通過自然語言處理技術,實現人與計算機之間的自然、流暢交互,提升用戶體驗和服務效率。自然語言處理領域的研究涉及多個學科,包括計算機科學、語言學、心理學和統計學等。自然語言處理自然語言處理的發展歷程4321以符號學派和隨機學派為代表,主要集中在基礎理論和模式識別等方面。早期探索期(1950-60年代)深度神經網絡,特別是循環神經網絡(RNN)和Transformer架構,帶來了前所未有的模型性能。深度學習時代和大模型時代(2110年代-)理性主義時代(1970-80年代)基于邏輯的范式、基于規則的范式和隨機范式得到了廣泛的研究和應用。經驗主義時代(1990年代-200X)基于機器學習和大量數據的方法開始占據主導地位。語言的發音和聲音特性(1)語音層7.1.2語言學基礎語言的句子結構、句法關系和句子的功能(3)語法層語言的意義和語義關系(4)語義層詞匯的形態、詞義、詞法(2)詞匯層語言的層級結構語音層語音層的研究對于理解語言的聽覺特性、進行語音識別和語音合成等方面具有重要意義。如通過對不同音素的識別和分析,可以更好地理解語音信號中的內容,提高語音識別的準確性;根據不同的音節結構和韻律規則,生成的語音自然流暢,更符合人類聽覺習慣。詞匯層自然語言處理中的詞法分析涉及對詞匯的形態、詞性等進行分析。詞匯層的知識對于準確識別詞的邊界、確定詞性以及進行詞干提取等任務至關重要。例如,通過分析詞的后綴可以判斷其詞性,為后續的語法分析和語義理解提供基礎。語法層語法分析是自然語言處理的關鍵環節,它旨在確定句子的語法結構。語法層的知識為語法分析提供了規則和依據。通過分析句子的主謂賓等結構,可以更好地理解句子的含義。例如,在機器翻譯中,準確的語法分析可以確保翻譯結果的語法正確性。自然語言處理系統有時需要生成句子,語法層的規則可以指導句子的生成過程。遵循語法規則生成的句子更加通順、自然,提高了系統的輸出質量。語義層語義理解是自然語言處理的核心任務之一。語義層的知識有助于系統準確理解文本的意義。通過分析詞匯的語義關系、句子的語義結構等,可以深入理解語言所表達的信息。例如,在問答系統中,準確理解問題的語義是給出正確答案的前提。在信息檢索、文本分類等任務中,需要計算文本之間的語義相似度。語義層的知識可以幫助系統更準確地計算語義相似度。通過分析詞匯的語義特征和句子的語義結構,可以確定文本之間的相似程度。例如,在機器翻譯系統中,最后,進行語音合成(若輸出是語音)。隨后展開詞法分析、語法分析以及語義理解,以確定源語言句子的結構與意義。首先進行語音識別(倘若輸入為語音),接著,依據目標語言的語法和語義規則,生成目標語言的句子。7.1.3自然語言中的歧義問題歧義問題在自然語言處理中一直是一個具有挑戰性的難題,因為它可能導致誤解、錯誤的理解和不準確的信息傳遞。歧義類型語法歧義指代歧義方向性歧義修飾語歧義語音歧義句法結構歧義數量歧義詞匯歧義語義歧義語境歧義解決歧義的方法1基于規則的方法綜合方法基于統計的方法基于深度學習的方法3427.2自然語言處理基礎任務7.2.1文本清洗7.2.2分詞7.2.3詞性標注7.2.4命名實體識別7.2.5依存句法分析7.2.1文本清洗文本清洗的目的就是通過一系列預處理步驟,提高文本數據的質量和一致性,使得處理后的文本更加適合后續的自然語言處理任務。在自然語言處理的實際應用中,文本清洗的效果往往直接影響整個系統的性能。例如,在情感分析任務中,如果文本中存在大量的特殊字符、無關詞匯或拼寫錯誤,那么模型可能無法準確地捕捉到文本中的情感信息,從而導致分析結果的不準確。文本清洗通常包括以下幾個關鍵步驟去除無用字符小寫化處理縮寫和簡寫文本編碼統一文本規范化去除或替換數字去除重復項拼寫校正去除噪聲數據1357924687.2.2分詞在自然語言處理領域,分詞作為基礎步驟,發揮著關鍵作用。它將連續的文本拆分為獨立的單詞、短語或符號,為后續的各項處理任務如詞性標注、句法分析、語義理解等奠定基礎。不同的語言在分詞過程中面臨著各自獨特的規則和挑戰。英文一般以空格作為基本的單詞分隔符。但英文中的縮寫和連字符常常給分詞帶來困擾中文沒有像英文那樣明顯的空格作為單詞邊界的標識,確定詞語的邊界往往需要綜合考慮多個因素。“乒乓球拍賣完了”“乒乓球”“拍賣”“完了”“乒乓球拍”“賣完了”jieba庫中文分詞示例結果importjiebatext="自然語言處理是人工智能的一個分支,涉及計算機科學、人工智能和語言學等領域。"#使用jieba.lcut進行精確模式分詞,結果存儲在列表中word_list=jieba.lcut(text,cut_all=False)#輸出分詞結果print("精確模式:",word_list)精確模式:['自然語言','處理','是','人工智能','的','一個','分支',',','涉及','計算機科學','、','人工智能','和','語言學','等','領域','。']7.2.3詞性標注詞性標注(Part-of-SpeechTagging,POSTagging)指的是將文本中的每個單詞分配一個詞性標簽,如名詞、動詞、形容詞、副詞等。jieba庫中文分詞并詞性標注示例結果importjieba.possegaspsegtext="今天天氣晴朗,我心情愉悅地去公園散步。"words=pseg.cut(text)forword,flaginwords:print(f"{word}({flag})",end=";")今天(t);天氣晴朗(nr);,(x);我(r);心情(n);愉悅(a);地(uv);去(v);公園(n);散步(n);。(x);7.2.4命名實體識別命名實體識別(NamedEntityRecognition,NER)的主要目的是從文本中識別出具有特定意義的實體,如人名、地名、組織機構名、時間表達式、日期、貨幣、百分比等。這些實體對于理解文本的含義和上下文至關重要,因為它們通常包含了文本中最關鍵和最有價值的信息。“李明在會議室匯報工作。”“李明”“會議室”命名實體識別的應用場景信息提取智能問答知識圖譜構建機器翻譯輿情分析搜索引擎優化命名實體識別的簡單例子示例結果importjieba.possegaspsegdefextract_entities(text):entities=[]forword,flaginpseg.cut(text):ifflagin['nr','nrt','n','ns','t']:#使用jieba實際的詞性標簽entities.append(word)returnentitiestext="今天,廣東金融學院—華為技術有限公司全面合作框架協議在深圳舉行簽約儀式。未來,雙方將在人才培養、信息化建設與科研合作等方面開展深度合作。"entities=extract_entities(text)print("可能的命名實體:",entities)可能的命名實體:['今天','廣東','金融','學院','全面','框架','協議','深圳','儀式','未來','雙方','信息化','科研','方面','深度']7.2.5依存句法分析依存句法分析在自然語言處理的多個領域都有廣泛的應用,例如在語言理解、信息抽取、機器翻譯、情感分析和文本生成等方面。通過依存句法分析,可以更好地理解句子的含義,提高自然語言處理任務的準確率。依存句法分析的基本步驟step01step02step03接著,對每個詞進行詞性標注,即確定每個詞在句子中的詞性(如名詞、動詞、形容詞等)。需要對輸入的句子進行分詞處理,即將句子拆分成一系列獨立的詞(或詞素)。基于分詞和詞性標注的結果,進行依存句法分析,構建依存樹。7.3自然語言處理常見應用01語言理解03機器翻譯04內容審核05個性化推薦06智能問答-聊天機器人02語言生成7.3.1語言理解“百度人工智能能力體驗中心→語言理解”頁面1.詞法分析進行分詞、詞性標注和命名實體識別等操作主要應用場景語音指令解析法律術語識別品牌輿情信息提取多輪交互式搜索新聞人物信息提取2.文本糾錯針對公文寫作的場景內容搜索場景將文本糾錯功能嵌入對話系統中在內容寫作平臺中嵌入糾錯模塊結合自然語言處理技術,如拼寫檢查、語法分析、語義理解以及領域知識庫等,識別文本中的多種錯誤類型,包括但不限于拼寫錯誤、語法錯誤、標點符號錯誤、語義錯誤以及特定領域內的術語使用不當等。情感傾向分析,又稱情感分析或情感評分,它用于識別和提取文本中的主觀信息,并對作者或說話者的情感態度進行分類。這種分析可以幫助理解客戶反饋、產品評論、社交媒體帖子等文本數據中的情緒傾向。3.情感傾向分析“這款產品非常好用,我很滿意,強烈推薦給大家。”“這個產品質量太差了,根本不值得購買。”“這款產品的價格是100元。”情感分析通常涉及以下步驟特征提取情感分類模型訓練文本預處理置信度評估0102030405情感傾向分析的主要應用領域社交媒體監控市場研究客戶服務內容推薦政治選舉情感傾向分析功能演示旨在從用戶評論、產品評價、社交媒體帖子等文本中自動識別出用戶表達的具體觀點或評價對象。這些觀點通常與某個實體(如產品、服務、個人等)的屬性或特征相關聯。首先,需要確定文本中用戶正在評價的具體對象或實體。例如,在一條關于手機的評論中,評價對象可能是手機的“屏幕”“電池續航”或“攝像頭”。其次,需要抽取用戶對評價對象所持有的具體觀點或情感傾向。這些觀點可能是正面的(如屏幕很清晰)、負面的(如電池續航太短)或中性的(如外觀一般)。最后,需要將評價對象和相應的觀點關聯起來,形成一個結構化的表示,以便進一步分析和應用。4.評論觀點抽取評論觀點抽取功能演示對話情緒識別是自然語言處理和情感分析領域的一個重要分支,它涉及對人類交流中情感層面的理解和分析,即通過分析對話中的語言、語調、語速、停頓等特征,結合機器學習算法和深度學習模型,來推斷出說話者的情緒狀態,如高興、悲傷、憤怒、驚訝等。5.對話情緒識別對話情緒識別的方法主要包括基于文本的情緒識別多模態情緒識別基于語音的情緒識別對話情緒識別技術的應用客服領域市場調研和輿情監測領域社交媒體平臺心理健康領域對話情緒識別功能演示地址識別技術是通過分析文本內容,能夠從復雜的文本(如快遞單)中精準提取出姓名、電話和地址信息等。在實際應用中,地址識別技術能夠將非結構化的地址文本轉化為結構化的數據,如將“張三,186****4663,廣東省深圳市南山區學府路東百度國際大廈”這樣的文本信息,解析為包含姓名、電話、省份、城市、區縣、街道等詳細信息的結構化數據。此外,地址識別技術還可以融合地圖數據支持,如百度地圖權威數據,以識別并生成標準規范的地址信息,進一步提高了識別的準確率。6.地址識別地址識別功能演示實體分析是通過結合上下文信息,識別文本中的實體,并將其與百科知識庫中的實體對象相關聯。這一過程不僅涉及對實體的識別,還包括對實體概念的分析和實體簡介的生成,旨在深入理解文本中的實體信息。例如對文本“蘋果公司最近發布了新款iPhone”進行實體分析,先識別出“蘋果公司”和“iPhone”為實體;然后將“蘋果公司”鏈接到知識庫中的AppleInc.實體,將“iPhone”鏈接到相應的產品類別;再進行概念分析,確定“蘋果公司”屬于“科技公司”類別,“iPhone”屬于“智能手機”類別;最后,為“蘋果公司”提供簡介,如成立年份、創始人、主要產品等;為“iPhone”提供產品系列、特點、市場表現等信息。在實際應用中,實體分析可應用于文本理解、智能問答系統、知識圖譜構建等多個領域。例如,在智能問答系統中,通過實體分析可以理解用戶問題中的實體,并在知識庫中檢索相關信息,以提供準確的答案。7.實體分析短文本相似度計算是自然語言處理領域的一項核心技能,它用于評估兩個短文本之間的語義接近程度。這項技術通過將文本內容轉化為數值形式的向量,進而比較這些向量之間的相似性。8.短文本相似度sklearn庫計算兩個短文本相似度的示例示例#導入必要的庫importjiebafromsklearn.feature_extraction.textimportTfidfVectorizerfromsklearn.metrics.p人工智能rwiseimportcosine_similarity#定義兩個相似的中文文本text1="自然語言處理是人工智能的一個重要分支。"text2="人工智能領域包含了自然語言處理。"#使用jieba進行中文分詞,并用空格連接分詞結果text1_cut="".join(jieba.cut(text1))text2_cut="".join(jieba.cut(text2))sklearn庫計算兩個短文本相似度的示例示例#使用TfidfVectorizer將文本轉換為TF-IDF特征向量#注意:fit_transform會同時擬合和轉換數據,如果后續有新文本需要轉換,應使用transformvectorizer=TfidfVectorizer()tfidf_matrix=vectorizer.fit_transform([text1_cut,text2_cut])#計算兩個文本的余弦相似度#注意:cosine_similarity函數的輸入是兩個數組,這里通過切片獲取單個樣本的向量cosine_sim=cosine_similarity(tfidf_matrix[:1],tfidf_matrix[1:])#輸出相似度#cosine_sim是一個二維數組,因為輸入是兩個樣本的列表。取第一個元素(即第一個樣本與第二個樣本的相似度)print(f"文本1和文本2的相似度為:{cosine_sim[0][0]}")sklearn庫計算兩個短文本相似度的示例示例text1="自然語言處理是人工智能的一個重要分支。"text2="自然語言處理確實是人工智能的一個重要分支。"運行上述代碼后,得到的運行結果是“文本1和文本2的相似度為:0.380……”將text1和text2換成下面的內容,得到的相似度達到0.867……短文本相似度計算的應用電子商務社交媒體監控方面信息檢索領域學術研究內容推薦客戶服務與支持領域010605020304從文本中自動提取出若干關鍵的詞或短語,這些關鍵詞或短語能夠準確反映文本的主題、話題以及涉及的實體等方面。在個性化推薦場景中,通過對用戶瀏覽的文本進行關鍵詞提取,可以了解用戶的興趣偏好。在話題聚合方面,對大量的文本進行關鍵詞提取后,可以將具有相同或相似關鍵詞的文本歸為一類。電商推薦場景,當用戶撰寫商品評價或搜索商品時,關鍵詞提取技術可以從這些文本中提取出關鍵信息。9.關鍵詞提取文本信息提取技術能夠精準理解用戶輸入的短語或問題,并從中提取出豐富多樣的文本信息,包括但不限于實體、關系、事件論元以及事件描述等。文本信息提取的關鍵技術通常包括實體識別、關系抽取、事件抽取、文本分類、情感分析和觀點抽取等。在媒體領域,文本信息提取技術可以快速分析大量的新聞稿件。金融領域中,該技術可以對金融新聞、公司財報等文本進行分析。提取出涉及的金融機構實體、不同金融產品之間的關系、重大金融事件的詳細描述。在政務領域,文本信息提取能夠處理各類政策文件、政務公告等文本。提取出相關的政府部門實體、政策實施對象之間的關系、政策所針對的事件和具體的政策描述。10.文本信息提取7.3.2語言生成文章標題生成12345文章標簽智能創作新聞摘要文章分類文章標簽是指通過給文章附加關鍵詞或短語的方式,對文章進行分類和歸檔的一種方法。這些標簽能夠準確地描述文章的主題、內容或特點,不僅方便讀者快速檢索和篩選文章,也便于作者掌握自己創作內容的整體情況。在新聞個性化推薦、相似文章聚合、文本內容分析等應用場景中,文章標簽提供了重要的技術支持。1.文章標簽文章分類是指將文章按照內容類型進行自動劃分,以便更好地進行文章聚類、文本內容分析等。2.文章分類通過分析文章的內容,該技術可以提取出關鍵信息、主題關鍵詞和核心觀點。然后,運用自然語言處理算法和語言模型,生成多個富有創意和吸引力的標題。這些標題既能夠準確反映文章的主題,又具有一定的新穎性和獨特性,能夠在眾多標題中脫穎而出。3.文章標題生成新聞摘要是通過自動提取新聞文本中的關鍵信息并生成簡短的摘要來幫助用戶快速了解新聞內容。4.新聞摘要5.智能創作文學創作視覺藝術音樂創作游戲開發機器翻譯是指使用計算機程序將一種自然語言轉換成另一種自然語言的過程。神經機器翻譯是機器翻譯的重大變革,它利用深度學習技術,尤其是Transformer模型,通過自注意力機制處理輸入序列中的關聯信息,有效捕捉長距離依賴關系,從而顯著提升了翻譯的準確性和流暢性。多模態融合技術的興起預示著機器翻譯將突破文本的界限,邁向更加廣闊的應用空間。7.3.3機器翻譯內容審核是指對互聯網上的文本、圖片、視頻等媒體內容進行審查,以確保這些內容不違反法律法規、平臺規則和社會道德標準。7.3.4內容審核個性化推薦是指根據用戶的個性化信息,如興趣愛好、歷史行為、人口統計學信息等,為用戶提供符合其特定需求的信息推薦服務。它旨在解決信息過載問題,幫助用戶快速發現感興趣的內

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論