




版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
人工智能應用基礎授課人:周老師
技術篇項目5?自然語言處理01項目描述05項目拓展02項目分析06項目小結03相關知識07項目練習04項目實施目錄項目描述01文字是我們傳遞信息的基本媒介,在互聯網高度發達的今天,文字形式的信息也以爆炸式的速度增長著。媒體一刻不停地在網絡上發布著最新的新聞,人們隨時隨地通過手機談論著身邊的事情,每時每刻都有大量的文字從各種渠道生產出來。面對海量的文本數據,我們又該用什么樣的人工智能技術對其進行分析與理解,從而節省人類有限的閱讀時間與精力呢?5.1項目描述02項目分析為了使用人工智能技術理解文本內容以及發掘文本的潛在語義,需要建立龐大的語料庫,將文字編碼為機器能“閱讀”的數據格式。當遇到大量的文本信息,諸如博客,新聞,書籍等大文檔,怎么快速的從中理解關鍵信息就是自然語言處理可以發揮作用的地方。全面了解自然語言處理的關鍵技術,需要學習以下內容:1.
文本表示方法2.
文檔分類3.機器翻譯5.2項目分析03相關知識文本表示自然語言處理中的第一個關鍵步驟是將原始文本轉換為計算機可以有效處理的格式。最基本的處理流程包括預處理、分詞、編碼三個步驟。5.3相關知識編碼的過程①預處理:在處理文本之前,文本需要標準化以確保一致性,如刪除標點符號。對于英文來說還需要統一字母大小寫,或者一些縮寫的形式,比如:“I’m”和“Iam”。②分詞:預處理后的文本需要拆分為單詞,也稱為token。例如,句子“我愛北京天安門”,分詞結果為:“我/愛/北京/天安門”,而英文句子的分詞可以根據單詞之間的空格進行拆分。③編碼:由于計算機以數字為依據進行操作,每個token都會轉換為數字表示。最簡單的方法可以為每個token分配一個唯一的數字標識符。“我/正在/學習/人工智能”分配的數字分別為5,22,16,73。除了這個直接轉換為數字的方法,也可以將token轉換成一個多維向量的形式,叫做獨熱編碼(one-hot)5.3相關知識獨熱編碼基本思想是使用一個跟句子長度一樣的向量來表示一個詞,向量中只在該詞出現的位置設置為1,其余全部為0。比如我們的句子一共有4個詞{我,正在,學習,人工智能},那么向量長度則為4,“我”就表示為[1,0,0,0,],“正在”就表示為[0,1,0,0],“學習”就表示為[0,0,1,0],“人工智能”就表示為[0,0,0,1]。5.3相關知識詞嵌入詞嵌入將文本表示為一個詞向量,是一種將詞匯表中的每個單詞映射到一個高維向量的技術。將獨熱編碼改成詞向量后,男人、女人、國王、皇后四個詞語,映射到一個7維的空間中,每個詞語都對應了一個7維的向量。這樣,每個單詞在這個空間內都有一個唯一的、稠密的實數向量作為表示,稱為詞向量。5.3相關知識詞嵌入詞向量可以發掘出詞與詞的類比關系,我們可以在詞向量上做加法和減法,最后得到一些有趣的結果。比如:國王-男人+女人=皇后,國王-皇后=男人-女人。按照這種方法表示出:中國-北京=法國-巴黎,do-did=go–went等等。5.3相關知識詞向量的應用假設小明要做一個性格測試,要從不同維度上給自己在0到100的范圍打分。5.3相關知識詞向量的應用小明認為自己比較外向,給自己在“外向-內向”的維度上在打了20分。這里0分是極度外向,100分是極度內向。然后標準化一下得分,使其保持在-1和1之間,得到的分數是-0.4,這樣小明在“外向-內向”的維度由一個實數-0.4來表示,該維度可看成是描述性格的一個特征。5.3相關知識詞向量的應用按照同樣的方法在第二個特征上打分,先在0~100之間打分,再標準化后得到0.8。現在小明的性格可以由[-0.4,0.8]的二維向量來表示。5.3相關知識詞向量的應用可以根據這個向量在前兩個特征上的得分看對方是否和自己性格相似,這時候的性格只考慮了二個特征維度。5.3相關知識詞向量的應用對性格特征完整打分后轉換成4維向量,每一個維度上的數字就代表性格中某一特征的得分,計算機很容易能計算出這些向量之間的相似程度。如果將它運用到單詞中,就是詞嵌入。5.3相關知識詞向量的應用選擇一些英文單語如:cat,kitten,dog,houses,利用詞嵌入生成多維的詞向量。然后使用降維算法,將詞向量降維至2維,從而在平面上將詞向量繪制出來。在自然語言處理中,詞嵌入把單詞(word)轉換成實數向量(vector),因此大家都也把詞嵌入稱為word2vec,用到的技術最多的也是神經網絡。5.3相關知識詞向量的應用當嵌入“學習”這個詞,可以把“我”,“正在”,“學習”,“人工智能”這幾個上下文單詞一同輸入神經網絡,這樣能夠更好的表現“學習”在語句中的含義與位置。當然,輸入到神經網絡的是這些單詞的編碼,可以是簡單的數字編碼,也可以是獨熱編碼,最終輸出“學習”這個詞的詞向量。5.3相關知識文檔主題分類對于多個單詞組成的句子,我們利用詞嵌入技術將句子中的單詞生成對應的詞向量后,將這些詞向量拼接起來形成表示整個句子的向量。這個向量會比較長,可以再通過一個神經網絡進行轉換,來生成一個維度比較小的句子向量。5.3相關知識文檔主題分類同樣的原理,我們可以用句向量再組合成文檔向量,然后用最終生成的文檔向量來代表整個文檔的嵌入表達。5.3相關知識情感傾向分析將情感傾向分析看作一個分類任務,將情感分為正面、負面和中性三類。英文句子:“Ilikethisphotoverymuch!”。該句子包含七個“元素”,采用詞嵌入的方法將這個七個元素轉換成詞向量(標點符號也可以看作一個單詞),假設每個“詞向量”的維度被設定為5,那么整個句子可以表示成一個7行5列矩陣。5.3相關知識情感傾向分析形成的矩陣在計算機看來跟一張分辨率為7×5的圖像是差不多的,而卷積神經網絡剛好特別擅長圖像分類,于是可以搭建一個卷積神經網絡模型,并用大量標注過的文本數據將模型訓練好,然后對這個矩陣進行分類,分類的結果設置為情感分析的三個類別:正面、負面、中性5.3相關知識機器翻譯用于實現不同語言之間的自動轉換,常見的模型有循環神經網絡(RecurrentNeuralNetwork,RNN)模型和Transformer模型。常見的RNN模型結構,該模型有兩個隱藏層。RNN是專門設計用來處理序列數據的深度學習模型,與傳統的神經網絡不同,RNN具有循環結構5.3相關知識機器翻譯在翻譯一個句子時,比如“知識就是力量”,這是一個文字序列,用RNN翻譯時,會把輸出結構又連接回輸入,這種結構特別適合用來處理序列。我們把RNN的結構展開,查看它的結構。5.3相關知識機器翻譯機器翻譯前,要將句子進行編碼(one-hot,或者是詞向量),可以將編碼這一步也用一個RNN實現,并統一到整個翻譯架構中,形成RNN翻譯框架。5.3相關知識Transformer注意力模型注意力機制的目標是計算當前單詞與整個句子中其它單詞的相關性,經過計算后,假設“知”與“識”的相關性得分為0.8,但是與“就”的相關性得分只為0.2,說明“知”與“識”更相關,通過這種方式就可以得到整個句子中每兩個單詞之間的關系。5.3相關知識Transformer注意力模型計算出“知”與其它所有詞的相關性得分后,根據分數進行加權求和,生成編碼e0,與“知”相關性得分越大的詞,如“識”、“力”,“量”,在編碼e0中所占的比重就越大。5.3相關知識Transformer注意力模型句子經過多次編碼之后,會再通過解碼器進行解碼。解碼器也是基于同樣的注意力機制,并且是多層的。編碼器負責將輸入序列(源語言句子)轉換為一個向量表示(上下文向量),這個表示包含了輸入序列的所有信息。解碼器則根據這個向量逐步生成輸出序列(目標語言句子),從而實現翻譯。5.3相關知識04項目實施打開EasyDL平臺通過網址進入到百度智能云平臺的文本情感傾向分析的主頁面:/product/nlp_apply/sentiment_classify,里面有一個情感分析的演示功能。——“情感傾向分類”5.4項目實施輸入文本在文本框中輸入一段帶有感情色彩的文字,如“人工智能很難學,但是非常有用,我很想學好”,在你輸入文字的過程中,頁面會實時的分析內容,我們可以在文本框下面查看情感傾向結果。——“情感傾向分類”5.4項目實施05項目拓展通過網址進入到百度智能云平臺的地址信息識別的主頁面:/product/nlp_apply/address,里面有一個地址識別的演示功能,可以幫我們抽取文本中的地址信息。輸入一段地址信息,如“湖南省長沙市岳麓區含浦路139號張,然后點擊“開始分析”按鈕,即可在下方結果欄看到抽取的結果5.5項目拓展06項目小結在自然語言處理中,詞嵌入表示是關鍵部分,可用神經網絡模型生成詞向量。在詞向量中,單詞每個維度用一個實數向量來表示。因此,通過向量來代表單詞,可以將單詞置于高維度的空間中,意義相近的單詞在空間中傾向于聚集在一起,共同表達相似的意思。注意力機制是一種模仿人類視覺和認知系統的方法,它允許神經網絡在處理輸入數據時集中注意力于相關的部分。通過引入注意力機制,神經網絡能夠自動地學習并選擇性地關注輸入中的重要信息,提高模型的性能和泛化能力。5.6項目小結07項目練習一、選擇題
1.?將原始文本轉換為計算機可以有效處理的格式,不包括下列哪個過程?(
)
A.?預處理B.?采樣C.?分詞D.?編碼
2.?預處理后的文本需要拆分為單詞,也稱為什么?(
)A.?token
B.?樣本C.?wordD.?分詞3.?詞嵌入技術的主要作用是什么?(
)A.?將單詞轉換為高維向量B.?將句子轉換為圖像C.?統計單詞數量D.?將文本轉換為二進制代碼5.7項目練習一、選擇題
4.?句子由多個單詞組成,可以將句子中單詞的詞向量進行拼接,形成什么?(
)
A.?文檔B.?句子C.?主題D.?句向量
5.?在自然語言處理中,情感分析的主要目的是什么?(
)A.?確定單詞在句子中的位置B.?提取句子
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 鉤頭道釘行業直播電商戰略研究報告
- 硅酸鋁纖維盤根行業直播電商戰略研究報告
- 高性能樹脂行業跨境出海戰略研究報告
- 綠色環保建筑設計企業制定與實施新質生產力戰略研究報告
- 心電圖紙行業跨境出海戰略研究報告
- 非工業用銅絲制網眼銅板行業直播電商戰略研究報告
- 2025年絕緣熱固性粉末涂料項目可行性研究報告
- 2025年純綠光二極管項目可行性研究報告
- 2025年精練劑項目可行性研究報告
- 2025年粉末滑軌項目可行性研究報告
- DB23T 3726-2024 滑雪板維修服務技術規程
- 2024-2030年吸附樹脂行業市場發展分析及發展趨勢與投資前景研究報告
- 管理制度模板:火電廠檢修人員崗位職責(共7篇)
- 手機攝影教程
- 代炒股票分成協議
- 網課智慧樹知道《老年醫學概論(浙江大學)》章節測試答案
- 餐飲管理風險分析及對策建議
- G -B- 16914-2023 燃氣燃燒器具安全技術條件(正式版)
- 代駕免責協議書范本00字
- 2023北京朝陽區高一下學期期末語文試題及答案
- JB-QGL-TX3016AJB-QTL-TX3016A火災報警控制器安裝使用說明書
評論
0/150
提交評論