




版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
讓機器了解語言授課教師:曹艷敏PART01∣自然語言的定義PART02∣自然語言的交流過程PART03∣自然語言的處理PART01自然語言自然地隨文化演化的語言自然語言通常是指一種自然地隨文化演化的語言,是人類交流和思維的主要工具,如圖所示。很多民族都有自己的語言,現在世界上已經查明的語言有五千多種,其中漢語使用人數最多,英語適用范圍最廣定義PART02自然語言交流過程自然語言與他人交流的三個環節回復將我們的想法組織成語言后回復給對方第三步理解通過我們的大腦分析和處理他人說的話第二步聽懂通過耳朵聽到對方的話第一步PART03自然語言處理讓機器聽懂人類語言,并能用自然語言和人類溝通,是人們長期以來的夢想。人工智能技術可以讓機器處理、理解甚至運用人類的語言。自然語言處理聽懂話意味著機器對接受的語音信息進行分析識別,這個過程稱為語音識別;然后需要機器理解人說的話,這個過程叫作自然語言理解;回復話這意味著機器輸出合成人類能聽懂的語音,稱為語音合成。對于機器來說在人與機器交流的過程中,我們希望機器可以像人一樣能理解人說的話。然而,機器在理解人類語言過程中也遇到了一定的困難。語言表達方式案例第一種語言表達方式我要吃飯。第二種語言表達方式我餓了!第三種語言表達方式要去吃飯嗎?第四種語言表達方式一會吃什么?············例如,在生活中,如果想要吃飯,人們采用的語言表達方式會有很多種表達“吃飯”的語言方式有很多種,人們可以準確地理解不同的語言表達方式,但是要讓機器理解,對機器來說是很大的挑戰。在過去,機器要求用戶必須輸入精確的指令,比如,我們說“一會吃什么”“我餓了”,只要這些話里面沒有包含提前設定好的關鍵詞“吃飯”,機器都無法處理。隨著自然語言處理技術的發展,現在的機器已經可以從各種不同的自然語言表達中,區分哪些表達是在說同一件事情。當前自然語言處理研究的發展趨勢如下:第一,傳統的基于句法-語義規則的理性主義方法過于復雜,隨著語料庫建設和語料庫語言學的崛起,大規模真實文本的機器學習處理成為自然語言處理的主要選擇。第二,統計數學方法越來越受到重視,自然語言處理中越來越多地使用機器自動學習的方法來獲取語言知識。第三,淺層處理與深層處理并重,統計與規則方法并重,形成混合式的系統。第四,自然語言處理中越來越重視詞匯的作用,出現了強烈的“詞匯主義”的傾向。詞匯知識庫的建造成為了普遍關注的問題。同詞不同義當前自然語言處理研究的發展趨勢如下:第一,傳統的基于句法-語義規則的理性主義方法過于復雜,隨著語料庫建設和語料庫語言學的崛起,大規模真實文本的機器學習處理成為自然語言處理的主要選擇。第二,統計數學方法越來越受到重視,自然語言處理中越來越多地使用機器自動學習的方法來獲取語言知識。第三,淺層處理與深層處理并重,統計與規則方法并重,形成混合式的系統。第四,自然語言處理中越來越重視詞匯的作用,出現了強烈的“詞匯主義”的傾向。詞匯知識庫的建造成為了普遍關注的問題。同詞不同義Microsoft云計算服務數字孿生游戲增強現實眼鏡混合現實協作平臺XBOX游戲生態16
自然語言是指人類日常使用的語言,比如:中文、英語、日語等。自然語言靈活多變,是人類社會的重要組成部分,但它卻不能被計算機很好地理解。為了實現用自然語言在人與計算機之間進行溝通,自然語言處理誕生了。自然語言處理(NaturalLanguageProcessing,NLP)是一個融合了語言學、計算機科學、數學等學科的領域,它不僅研究語言學,更研究如何讓計算機處理這些語言。它主要分為兩大方向:自然語言理解(NaturallanguageUnderstanding,NLU)和自然語言生成(NaturallanguageGeneration,NLG),前者是聽讀,后者是說寫。
本文將從自然語言處理的歷史與發展講起,進而分析目前深度學習在自然語言處理領域的研究進展,最后討論自然語言處理的未來發展方向。
1950年,計算機科學之父圖靈提出了“圖靈測試”,標志著人工智能領域的開端。而此時,正值蘇美冷戰,美國政府為了更方便地破譯蘇聯相關文件,大力投入機器翻譯的研究,自然語言處理從此興起。從這之后的一段時期內,自然語言處理主要采用基于規則的方法,這種方法依賴于語言學,它通過分析詞法、語法等信息,總結這些信息之間的規則,從而達到翻譯的效果。這種類似于專家系統的方法,泛化性差、不便于優化,最終進展緩慢,未能達到預期效果。
到了20世紀80、90年代,互聯網飛速發展,計算機硬件也有了顯著提升。同時,自然語言處理引入了統計機器學習算法,基于規則的方法逐漸被基于統計的方法所取代。在這一階段,自然語言處理取得了實質性突破,并走向了實際應用。
而從2008年左右開始,隨著深度學習神經網絡在圖像處理、語音識別等領域取得了顯著的成果,它也開始被應用到自然語言處理領域。從最開始的詞嵌入、word2vec,到RNN、GRU、LSTM等神經網絡模型,再到最近的注意力機制、預訓練語言模型等等。伴隨著深度學習的加持,自然語言處理也迎來了突飛猛進。
接下來,我將介紹自然語言處理與深度學習結合后的相關進展。
在自然語言中,詞是最基本的單元。為了讓計算機理解并處理自然語言,我們首先就要對詞進行編碼。由于自然語言中詞的數量是有限的,那就可以對每個詞指定一個唯一序號,比如:英文單詞word的序號可以是1156。而為了方便計算,通常會將序號轉換成統一的向量。簡單做法是對單詞序號進行one-hot編碼,每個單詞都對應一個長度為N(單詞總數)的向量(一維數組),向量中只有該單詞序號對應位置的元素值為1,其它都為0。
雖然使用one-hot編碼構造詞向量十分容易,但并不是一個較好的方法。主要原因是無法很好地表示詞的語義,比如蘋果和橘子是相似單詞(都是水果),但one-hot向量就無法體現這種相似關系。
為了解決上述問題,Google的Mikolov等人于2013年發表了兩篇與word2vec相關的原始論文[1][2]。word2vec將詞表示成一個定長的向量,并通過上下文學習詞的語義信息,使得這些向量能表達詞特征、詞之間關系等語義信息。word2vec包含兩個模型:跳字模型(Skip-gram)[1]和連續詞袋模型(continuousbagofwords,CBOW)[2],它們的作用分別是:通過某個中心詞預測上下文、通過上下文預測某個中心詞。比如,有一句話"Idrinkapplejuice",Skip-gram模型是用apple預測其它詞,CBOW模型則是用其它詞預測出apple。
首先介紹CBOW模型,它是一個三層神經網絡,通過上下文預測中心詞。以某個訓練數據"Idrinkapplejuice"為例,可以把apple作為標簽值先剔除,將"Idrinkjuice"作為輸入,apple作為待預測的中心詞。
Skip-gram模型與CBOW類似,也是一個三層神經網絡模型。不同在于,它是通過中心詞預測上下文,即通過"apple"預測出"Idrinkjuice"。接下來簡單介紹Skip-gram模型中各層:
兩種模型訓練結束后,會取作為詞向量矩陣,第i行就代表詞庫中第i個詞的詞向量。詞向量可用來計算詞之間的相似度(詞向量點乘)。比如,輸入Idrink_juice上下文,預測出中心詞為apple、orange的概率可能都很高,原因就是在中apple和orange對應的詞向量十分相似,即相似度高。詞向量還可以用于機器翻譯、命名實體識別、關系抽取等等。
其實這兩種模型的原型在2003年就已出現[3],而Mikolov在13年的論文中主要是簡化了模型,且提出了負采樣與層序softmax方法,使得訓練更加高效。
詞向量提出的同時,深度學習RNN框架也被應用到NLP中,并結合詞向量取得了巨大成效。但是,RNN網絡也存在一些問題,比如:難以并行化、難以建立長距離和層級化的依賴關系。而這些問題都在2017年發表的論文《AttentionIsAllYouNeed》[4]中得到有效解決。正是在這篇論文中,提出了Transformer模型。Transformer中拋棄了傳統的復雜的CNN和RNN,整個網絡結構完全由注意力機制組成。
Transformer最核心的內容是自注意力機制(Self-Attention),它是注意力機制(Attention)的變體。注意力的作用是從大量信息中篩選出少量重要信息,并聚焦在這些信息上,比如:人在看一幅圖像時,會重點關注較為吸引的部分,而忽略其它信息,這就是注意力的體現。但注意力機制會關注全局信息,即關注輸入數據與輸出數據以及中間產物的相關性。而自注意力機制則減少了對外部其它數據的關注,只關注輸入數據本身,更擅長捕捉數據內部的相關性。
自注意力機制的算法過程如下:
自注意力機制不僅建立了輸入數據中詞與詞之間的關系,還能并行地高效地計算出每個詞的輸出。
Transformer的總體架構如下:
它分為兩部分:編碼器(Encoder)和解碼器(Decoder)。
編碼器的輸入是詞向量加上位置編碼(表明這個詞是在哪個位置),再通過多頭自注意力操作(Multi-HeadAttention)、全連接網絡(FeedForward)兩部分得到輸出。其中,多頭自注意力就是輸入的每個詞對應多組q、k、v,每組之間互不影響,最終每個詞產生多個輸出b值,組成一個向量。編碼器是transformer的核心,它通常會有多層,前一層的輸出會作為下一層的輸入,最后一層的輸出會作為解碼器的一部分輸入。
解碼器包含兩個不同的多頭自注意力操作(MaskedMulti-HeadAttention和Multi-HeadAttention)、全連接網絡(FeedForward)三部分。解碼器會運行多次,每次只輸出一個單詞,直到輸出完整的目標文本。已輸出的部分會組合起來,作為下一次解碼器的輸入。其中,MaskedMulti-HeadAttention是將輸入中未得到的部分遮掩起來,再進行多頭自注意力操作。比如原有5個輸入,但某次只有2個輸入,那么q1和q2只會與k1、k2相乘,。
如果深度學習的應用,讓NLP有了第一次飛躍。那預訓練模型的出現,讓NLP有了第二次的飛躍。預訓練通過自監督學習(不需要標注)從大規模語料數據中學習出一個強大的語言模型,再通過微調遷移到具體任務,最終達成顯著效果。
預訓練模型的優勢如下:
預訓練模型的關鍵技術有三個:
關于預訓練模型的架構,以Bert為例:輸入是詞的one-hot編
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025年中國木材封邊熱熔膠市場調查研究報告
- 新疆工程學院《數學游戲與折紙》2023-2024學年第二學期期末試卷
- 2025年中國料斗秤數據監測報告
- 2025年中國數字單相交流電流表數據監測報告
- 2025-2030年中國一氧化碳行業運行規劃及投資價值研究報告
- 新疆警察學院《地理信息科學專業英語》2023-2024學年第二學期期末試卷
- 肇慶市實驗中學高中歷史二教案:第課中國社會主義經濟建設的曲折發展
- 2025-2030年中國PHA工業行業競爭力發展研究及投資風險預測研究報告
- 新疆師范大學《中醫經典臨床能力跟師實訓(一)》2023-2024學年第二學期期末試卷
- 2025年中國電腦程控全自動壓線機數據監測研究報告
- 保安服務標準及工作流程
- 2024年中考數學幾何模型歸納(全國通用):18 全等與相似模型之十字模型(學生版)
- 外科疾病分級目錄
- 國家級教學成果的培育提煉與申報
- 海南師范大學《高等數學》2020-2021期末試卷B
- 2023年09月黑龍江省大興安嶺地區“黑龍江人才周”校園引才活動引進90名人員筆試歷年難易錯點考題薈萃附帶答案詳解
- 直播傭金直播合同帶貨
- 點凸焊操作工藝規程
- 跳頻通信系統課件
- 兼職駕駛員審批表
- 科學知識點(知識清單)五年級上冊科學粵教版
評論
0/150
提交評論