




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
深度學(xué)習(xí)與自然語(yǔ)言處理Python自然語(yǔ)言處理第十章CONTENT目錄
01詞嵌入算法03循環(huán)神經(jīng)網(wǎng)絡(luò)02訓(xùn)練詞向量實(shí)踐04Seq2Seq模型實(shí)戰(zhàn)課前回顧常見機(jī)器學(xué)習(xí)方法無監(jiān)督學(xué)習(xí)的文本分類文本分類實(shí)戰(zhàn)文本聚類實(shí)戰(zhàn)深度學(xué)習(xí)概述深度學(xué)習(xí)(DeepLearning)方法基于人工神經(jīng)網(wǎng)絡(luò)(ArtificialNeuralNetwork)自動(dòng)學(xué)習(xí)合適的特征與多層次的表達(dá)與輸出
應(yīng)用于信息抽取、詞性標(biāo)注、搜索引擎和推薦系統(tǒng)等方面使用詞向量來表示各個(gè)級(jí)別的元素本章概述
深度學(xué)習(xí)算法:詞嵌入
循環(huán)神經(jīng)網(wǎng)絡(luò)模型
Seq2Seq實(shí)例詞嵌入算法01詞向量Word2vec簡(jiǎn)介詞向量模型CBOW和Skip-gram模型詞嵌入算法
詞嵌入算法:一種模仿動(dòng)物神經(jīng)網(wǎng)絡(luò)行為特征,進(jìn)行分布式并行信息處理的算法數(shù)據(jù)模型依靠系統(tǒng)復(fù)雜程度和調(diào)節(jié)內(nèi)部大量節(jié)點(diǎn)之間相互連接的關(guān)系,從而達(dá)到處理信息的目的其核心為上下文表達(dá)和上下文與目標(biāo)詞匯之間的映射關(guān)系詞向量
詞向量(WordEmbedding)離散表示(One-Hot):把每個(gè)詞表示為一個(gè)長(zhǎng)向量。這個(gè)向量的維度是詞表大小,向量中只有一個(gè)維度的值為1,其余維度為0例:蘋果[0,0,0,1,0,0,0,0,0,……]缺點(diǎn):無法捕獲詞與詞之間的相似性詞向量
分布式表示:將每個(gè)詞映射到K維實(shí)數(shù)向量,并根據(jù)詞之間的距離,作為判斷它們之間的語(yǔ)義相似度的標(biāo)準(zhǔn)word2vec模型優(yōu)點(diǎn):詞之間存在相似關(guān)系詞嵌入算法01詞向量Word2vec簡(jiǎn)介詞向量模型CBOW和Skip-gram模型word2vec簡(jiǎn)介
word2vec:用于訓(xùn)練詞向量的工具神經(jīng)網(wǎng)絡(luò)語(yǔ)言模型(NeuralNetworkLanguageModel,簡(jiǎn)稱NNLM)算法:產(chǎn)生詞向量的相關(guān)模型NNLM模型架構(gòu)word2vec簡(jiǎn)介
word2vec模型01連續(xù)詞袋模型(ContinuousBag-Of-Words,簡(jiǎn)稱CBOW)02Skip-Gramword2vec簡(jiǎn)介
詞袋模型將所有詞語(yǔ)裝進(jìn)一個(gè)袋子里,不考慮其詞法和語(yǔ)序的問題例:JanewantstogotoShenzhen.Bob
wantstogotoShanghai.[Jane,wants,to,go,Shenzhen,Bob,Shanghai][1,1,2,1,1,0,0][0,1,2,1,0,1,1]word2vec簡(jiǎn)介語(yǔ)料選取語(yǔ)料必須充分:詞量足夠大,盡可能多地包含反映詞語(yǔ)之間關(guān)系的句子語(yǔ)料必須準(zhǔn)確:能夠正確反映該語(yǔ)言的語(yǔ)義和語(yǔ)法關(guān)系word2vec簡(jiǎn)介
Skip-gram模型可以跳過某些符號(hào)例:“中國(guó)足球踢得真是太爛了”提取4個(gè)3元詞組為“中國(guó)足球踢得”、“足球踢得真是”、“踢得真是太爛”、“真是太爛了”Skip-gram可以組成“中國(guó)足球太爛”word2vec簡(jiǎn)介
word2vec模型可以將文本內(nèi)容的處理簡(jiǎn)化為K維向量空間中的向量運(yùn)算,并且向量空間中的相似度也可以用來表達(dá)文本的語(yǔ)義相似度word2vec可用于聚類、找同義詞、詞性分析等任務(wù)word2vec簡(jiǎn)介
詞向量的評(píng)價(jià)方式:1將詞向量集成到系統(tǒng)中以提高整個(gè)系統(tǒng)的準(zhǔn)確性2從語(yǔ)言學(xué)的角度分析詞向量,例如句子相似度分析,語(yǔ)義偏移等詞嵌入算法01詞向量Word2vec簡(jiǎn)介詞向量模型CBOW和Skip-gram模型詞向量模型神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu):詞向量模型算法流程:①②③對(duì)于每個(gè)詞,隨機(jī)初始化一個(gè)特征向量;設(shè)計(jì)神經(jīng)網(wǎng)絡(luò);通過數(shù)據(jù)訓(xùn)練神經(jīng)網(wǎng)絡(luò)以獲得合理的特征向量和神經(jīng)網(wǎng)絡(luò)參數(shù)。詞向量模型
詞向量模型
詞向量模型
詞向量模型
詞向量模型
詞向量模型詞嵌入算法01詞向量Word2vec簡(jiǎn)介詞向量模型CBOW和Skip-gram模型CBOW和Skip-gram模型
CBOW(ContinuousBag-Of-WordsModel)和Skip-gram模型:CBOW和Skip-gram模型
CBOW計(jì)算流程:(1)隨機(jī)生成所有單詞的詞向量矩陣,每一行對(duì)應(yīng)一個(gè)單詞的向量;(2)從矩陣中提取某一個(gè)單詞(中心詞)的周邊單詞詞向量;(3)求周邊單詞詞向量的均值向量;(4)在該均值向量上用logisticregression訓(xùn)練,激活函數(shù)用softmax;(5)期望回歸得到的概率向量能與真實(shí)的概率向
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- DB32/T 4334-2022薄殼山核桃郁閉園改造技術(shù)規(guī)程
- DB32/T 4293-2022工業(yè)企業(yè)危險(xiǎn)化學(xué)品安全管理指南
- DB32/T 4234-2022水產(chǎn)品中副溶血性弧菌檢測(cè)實(shí)時(shí)熒光重組酶介導(dǎo)鏈替換核酸擴(kuò)增法
- DB32/T 4160-2021“蘇翠1號(hào)”梨生產(chǎn)技術(shù)規(guī)程
- DB32/T 4040.3-2021政務(wù)大數(shù)據(jù)數(shù)據(jù)元規(guī)范第3部分:綜合人口數(shù)據(jù)元
- DB32/T 3980-2021實(shí)驗(yàn)動(dòng)物機(jī)構(gòu)實(shí)驗(yàn)動(dòng)物生物安全管理規(guī)范
- DB32/T 3910-2020就業(yè)援助服務(wù)規(guī)范
- DB32/T 3781-2020遙感監(jiān)測(cè)小麥苗情及等級(jí)劃分
- DB32/T 3777-2020規(guī)模化豬場(chǎng)豬圓環(huán)病毒病防控技術(shù)規(guī)范
- DB32/T 3757-2020新型冠狀病毒肺炎疫情防控學(xué)校消毒技術(shù)規(guī)范
- 數(shù)字化電力系統(tǒng)轉(zhuǎn)型-洞察闡釋
- 2025中國(guó)甲烷大會(huì):2024-2025全球甲烷控排進(jìn)展報(bào)告
- GB/T 196-2025普通螺紋基本尺寸
- MOOC 中國(guó)電影經(jīng)典影片鑒賞-北京師范大學(xué) 中國(guó)大學(xué)慕課答案
- 醫(yī)院小型壓力蒸汽滅菌器的使用及管理
- 中藥學(xué)電子版教材
- 導(dǎo)數(shù)在經(jīng)濟(jì)中的應(yīng)用課件
- GB∕T 33217-2016 沖壓件毛刺高度
- 六一兒童節(jié)主題通用ppt模板
- 基于“鄂爾多斯婚禮”談民族舞蹈及音樂的傳承發(fā)揚(yáng)
- 公司管理制度:格林美管理手冊(cè)
評(píng)論
0/150
提交評(píng)論