深度學(xué)習(xí)之word2vec課件_第1頁
深度學(xué)習(xí)之word2vec課件_第2頁
深度學(xué)習(xí)之word2vec課件_第3頁
深度學(xué)習(xí)之word2vec課件_第4頁
深度學(xué)習(xí)之word2vec課件_第5頁
已閱讀5頁,還剩17頁未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、深度學(xué)習(xí)之word2vec學(xué)習(xí)、分享與交流報(bào)告人:黃宇鵬1目錄基本概念模型與方法實(shí)戰(zhàn)與應(yīng)用2詞向量自然語言中的詞語在機(jī)器學(xué)習(xí)中表示符號(hào)One-hot Representation例如:“話筒”表示為 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 .“麥克”表示為 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 .實(shí)現(xiàn)時(shí)就可以用0,1,2,3,.來表示詞語進(jìn)行計(jì)算,這樣“話筒”就為3,“麥克”為8.存在兩個(gè)問題維度比較大,尤其是用于 Deep Learning 的一些算法時(shí)詞匯鴻溝:任意兩個(gè)詞之間都是孤立的,不能體現(xiàn)詞和詞之間的關(guān)系3詞向量Distributio

2、nal Representation詞表示為:0.792, 0.177, 0.107, 0.109, 0.542, .,常見維度50或者100解決“詞匯鴻溝”問題可以通過計(jì)算向量之間的距離(歐式距離、余弦距離等)來體現(xiàn)詞與詞的相似性如何訓(xùn)練這樣的詞向量沒有直接的模型可訓(xùn)練得到可通過訓(xùn)練語言模型的同時(shí),得到詞向量4語言模型判斷一句話是不是正常人說出來的,用數(shù)學(xué)符號(hào)描述為給定一個(gè)字符串w1,w2,.,wt,計(jì)算它是自然語言的概率 ,一個(gè)很簡(jiǎn)單的推論是例如,有個(gè)句子大家,喜歡,吃,蘋果P(大家,喜歡,吃,蘋果)=p(大家)p(喜歡|大家)p(吃|大家,喜歡)p(蘋果|大家,喜歡,吃)簡(jiǎn)單表示為計(jì)算

3、問題5語言模型現(xiàn)有模型N-gram模型N-pos模型.Bengio的NNLMC&W 的 SENNAM&H 的 HLBLMikolov 的 RNNLMHuang 的語義強(qiáng)化.6word2vec原理兩種模型,兩種方法模型CBOWSkip-Gram方法Hierarchical SoftmaxNegative SamplingHierarchical SoftmaxNegative Sampling7CBOW模型+Hierarchical Softmax方法CBOW模型INPUT:輸入層PROJECTION:投影層OUTPUT:輸出層w(t):當(dāng)前詞語(向量)w(t-2),w(t-1),w(t+1),

4、w(t+2):當(dāng)前詞語的上下文SUM:上下文的累加和8CBOW模型+Hierarchical Softmax方法(續(xù))9CBOW模型+Hierarchical Softmax方法(續(xù))為什么建哈夫曼樹?非葉子結(jié)點(diǎn)為L(zhǎng)R分類器葉子結(jié)點(diǎn)對(duì)應(yīng)詞典中的一個(gè)詞目標(biāo):10CBOW模型+Hierarchical Softmax方法(續(xù))句子:我,喜歡,觀看,巴西,足球,世界杯w=足球11CBOW模型+Hierarchical Softmax方法(續(xù))正類概率:負(fù)類概率:足球 葉子節(jié)點(diǎn)經(jīng)過4次二分類,每次分類結(jié)果對(duì)應(yīng)的概率為由Context(足球)預(yù)測(cè)足球出現(xiàn)的概率12CBOW模型+Hierarchical

5、Softmax方法(續(xù))對(duì)于詞典中的每個(gè)詞w有, 結(jié)點(diǎn)個(gè)數(shù)其中,或者表示為對(duì)于由S個(gè)句子組成的語料庫(kù)C有取對(duì)數(shù)似然函數(shù)參數(shù)1參數(shù)213CBOW模型+Hierarchical Softmax方法(續(xù))梯度下降法進(jìn)行求解令f(w,j)關(guān)于 和 的梯度分別為更新公式14word2vec實(shí)戰(zhàn)(一)訓(xùn)練數(shù)據(jù)集:經(jīng)過分詞后的新聞數(shù)據(jù),大小184MB查看中國(guó),釣魚島,旅游,蘋果幾個(gè)詞語的相似詞語如下所示15word2vec實(shí)戰(zhàn)(一)向量加減法中國(guó)+北京-日本,中國(guó)+北京-法國(guó),家庭+孩子-學(xué)校16word2vec應(yīng)用(一)機(jī)器翻譯語言詞語的關(guān)系集合被表征為向量集合向量空間內(nèi),不同語言享有許多共性實(shí)現(xiàn)一個(gè)向量

6、空間到另一個(gè)向量空間的映射和轉(zhuǎn)換圖為英語和西班語的五個(gè)詞在向量空間中的位置(已經(jīng)過降維)對(duì)英語和西班語之間的翻譯準(zhǔn)確率高達(dá)90%17word2vec應(yīng)用(三)給廣告主推薦用戶T媒體網(wǎng)站用戶瀏覽網(wǎng)頁的記錄pageH是匹克體育用品公司在T上的官網(wǎng)page2,page3,page5和pageH是比較相似的頁面可給匹克體育用品公司推薦經(jīng)常瀏覽page2,3,5這個(gè)幾個(gè)頁面的用戶進(jìn)行廣告投放18word2vec應(yīng)用(三)相似的頁面計(jì)算過程19word2vec應(yīng)用(三)續(xù)對(duì)ctr預(yù)估模型的幫助新廣告上線存在冷啟動(dòng)問題通過比較相似的廣告的點(diǎn)擊率來預(yù)估這個(gè)廣告的點(diǎn)擊率由上個(gè)例子可得到每個(gè)頁面的向量,然后通過K

7、means進(jìn)行聚類,得到比較相似頁面的簇?向頁面向量添加其它的特征,例如廣告主所屬的行業(yè)和地域等假設(shè)頁面p1的向量是(0.3,-0.5,0.1),加入行業(yè)和地域信息后為(0.3,-0.5,0.1,1,0),1和0分別表示行業(yè)和地域的特征值這樣得到的聚類效果相對(duì)更好20參考文獻(xiàn)1 深度學(xué)習(xí)word2vec筆記之算法篇 2 word2vec 中的數(shù)學(xué)原理詳解(四)基于 Hierarchical Softmax 的模型 3 楊超在知乎上的問答Word2Vec的一些理解4 hisen博客的博文5 深度學(xué)習(xí)word2vec筆記之應(yīng)用篇 6 Deep Learning實(shí)戰(zhàn)之word2vec,網(wǎng)易有道的pd

8、f7 word2vec源碼解析之word2vec.c 8 Hierarchical probabilistic neural network language model. Frederic Morin and Yoshua Bengio.9 Distributed Representations of Words and Phrases and their Compositionality T. Mikolov, I. Sutskever, K. Chen, G. Corrado, and J. Dean.10 A neural probabilistic language model Y. Bengio, R. Ducharme, P. Vincent.11 Linguistic Regularities in Continuous Space Word Representations. Tomas Mikolov,Wen-tau Yih,Geoffrey Zweig.12 Efficient Estimation of Word

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論