




版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
1、推薦系統技術發展趨勢分析技術創新,變革未來智慧IT目 錄010203前沿研究概述DKN模型RippleNet模型總結04推薦系統是一種信息過濾系統,能根據用戶的檔案或者歷史行為記錄,學習出用戶的興趣愛好,預測出用戶對給定物品的評分或偏好。它改變了商家與用戶的溝通方式,加強了和用戶之間的交互性。針對如何構建高效精準的推薦系統的研究意義重大,近年來不少新思想新方法不斷涌現,極大的推動了推薦系統的發展。一般來說,推薦系統的前沿課題一般是圍繞深度學習、知識圖譜、可解釋推薦等幾個方面1. 前沿研究概述推薦系統與深度學習近幾年深度學習技術在各領域取得了巨大的成功。如何將其應用到推薦系統是當前的研究熱點。深
2、度學習在推薦系統現階段的應用主要體現在如下三個層面:深度協同過濾如何擴展矩陣分解結構,引入更多的非線性單元增強其性能。特征間的深度交互特征從不同維度展現了不同的信息,如何獲取高階的特征交互模式提升表征學習能力利用深度學習從復雜內容數據中學習出有效的隱因子特征表示1. 前沿研究概述推薦系統與深度學習深度學習技術在推薦系統中的應用前景很廣闊。下面簡要介紹幾個未來可能的研究方向:效率與擴展性如何將深度學習更高效的應用在超大規模的推薦平臺上,是亟需解決的技術難點。多樣化數據融合用戶和物品的數據包含多個種類,如文本、圖像、視頻、搜索、點擊、收藏。捕捉用戶長短期偏好如何結合情境因素的影響,將用戶的長期偏好
3、與短期需求更緊密、有效地結合起來,也是一個研究熱點。1. 前沿研究概述推薦系統與知識圖譜物品端的知識圖譜極大地擴展了物品的信息,強化了物品之間的聯系,為推薦提供了豐富的參考價值,更能為推薦結果帶來額外的多樣性和可解釋性1. 前沿研究概述推薦系統與知識圖譜和社交網絡相比,知識圖譜是一種異構網絡,因此針對知識圖譜的推薦算法設計要更復雜和精巧。近年來,網絡特征學習(network representation learning)逐漸成為機器學習中的一個熱門的研究方向。基于特征的知識圖譜輔助推薦使用知識圖譜特征學習對其進行處理,從而得到實體和關系的低維稠密向量表示。基于結構的推薦模型直接地使用知識圖譜
4、的結構特征對于知識圖譜中的每一個實體,我們都進行寬度優先搜索來獲取其在知識圖譜中的多跳關聯實體從中得到推薦結果。1. 前沿研究概述推薦系統的可解釋性近期,學者們開始關注推薦是否能夠以用戶容易接受的方式,充分抓住用戶心理,給出適當的例子與用戶溝通。這樣的系統不僅能夠提升系統透明度,還能夠提高用戶對系統的信任和接受程度 、用戶選擇推薦產品的概率以及用戶滿意程度。作為推薦領域被探索得較少的一個方向,可解釋推薦的很多方面值得研究與探索。1. 前沿研究概述目 錄010203前沿研究概述DKN模型RippleNet模型總結04在線新聞推薦系統致力于在龐大的新聞數據中為用戶提供個性化的新聞推薦。一般情況下,
5、新聞語言高度濃縮并且主要由知識實體構成。已有的推薦方法沒有進行外部知識的抽象與學習,不能夠充分的發掘新聞在知識層面的聯系。DKN : Deep Knowledge-Aware Network for News Recommendation是一種結合知識圖譜實與卷積神經網絡的新聞推薦模型2. DKN模型 簡介新聞文章具有高度的時間敏感性,它們的相關性很快就會在短時間內失效。導致傳統的基于ID的協同過濾算法失效。用戶對話題比較敏感,同時有特定的幾個種類。根據多元化閱讀歷史動態的衡量用戶的興趣是新聞推薦系統的關鍵。新聞類文章的語言都是高度濃縮的,包含了大量的知識實體與常識。新聞推薦的特點2. DKN
6、模型 簡介DKN模型中對于使用了CNN提取新聞中句子的特征,用句子所包含詞的詞向量組成的二維矩陣,經過一層卷積操作之后再做一次max-over-time的pooling操作得到句子向量,另外在本文中還使用了不同大小的卷積核得到多組不同的向量。如何提取文本信息2. DKN模型 簡介一個知識圖譜由大量的結點以及節點之間的邊組成,其中節點代表實體,邊代表節點之間的關系,可以看作是許多三元組(頭結點,關系,尾節點)構成的一個集合。針對知識圖譜的網絡嵌入目的是用一個低維稠密的向量來表示節點,保證該向量包含了節點間的相似性關系以及網絡的結構信息。目前已有的很多translation-based的嵌入表示方
7、法。知識圖譜簡介2. DKN模型 簡介將h, r, t 分別是head, tail, relation對應的向量,目前主流的嵌入方式的優化目標如下:TransE:TransH:TransR:TransD:損失函數采用pairwise的方式常用知識圖譜建模方式2. DKN模型 簡介用戶i點擊歷史記錄 t1,t2, t3tn。分別表示被用戶i點擊過得新聞的標題。將每個標題t轉化為一個單詞序列,w1, w2, wn。每個單詞w在知識圖譜中可能會有一個實體e與之對應2. DKN模型 模型描述識別出文本中的知識實體并利用實體鏈接技術與知識圖譜關聯利用新聞文本中的實體與關系就構成了一個原來知識圖譜的一個子
8、圖構建好知識子圖以后,利用知識圖譜嵌入技術得到每個實體的向量根據實體向量得到對應單詞的詞向量知識提取2. DKN模型 模型描述獲得了標題中單詞和對應實體的向量之后,相比于簡單地把所有的向量拼接起來以后輸入給CNN,本文使用的是multi-channel和word-entity-aligned KCNN。具體做法是先把實體的向量,和實體上下文向量映射到一個空間里:其中g(e)可以是線性或非線性變換新聞特征提取2. DKN模型 模型描述使用卷積神經網絡來處理由詞、實體、上下文組成的三通道矩陣2. DKN模型 模型描述新聞特征提取注意力機制獲取到用戶點擊過的每篇新聞的向量表示以后,作者并沒有簡單地作
9、加和來代表該用戶,而是計算候選文檔對于用戶每篇點擊文檔的attention,再做加權求和,計算attention2. DKN模型 模型描述求得權重后再進行加權求和2. DKN模型 模型描述注意力機制本文的數據來自bing新聞的用戶點擊日志,包含用戶id,新聞url,新聞標題,點擊與否(0未點擊,1點擊)。搜集了2016年10月16日到2017年7月11號的數據作為訓練集。2017年7月12號到8月11日的數據作為測試集合。使用的知識圖譜數據是Microsoft Satori。以下是一些基本的統計數據以及分布。數據集規模如下:2. DKN模型 實驗作者使用的評價指標為F1-score和AUC值從
10、表中可以看到,DKN在F1-score和AUC兩個指標上,都超過了作為baseline的LibFM,DeepFM等模型。2. DKN模型 實驗另外,針對DKN不同的配置,作者也做了對比實驗。從表中可以看到,attention機制和知識圖譜對效果的提升是明顯的2. DKN模型 實驗使用實體嵌入向量可以提高幾乎所有baseline的效果,KPCNN,DeepWide,YouTubeNet 使用了實體嵌入表示以后分別有1.1%,1.8%,1.1%的提升。除DMF之外的所有神經網絡推薦模型在AUC上都超過了LibFM的baseline模型,說明深度學習模型確實適合建模新聞數據中的一些非線性的關系本文提
11、出的DKN模型在AUC指標上超過了次好的模型KPCNN,原因主要是(1)DKN使用多通道的詞表示與實體表示來建模標題序列,能更好的建模詞和實體之間的關系。(2)DKN使用attention機制,針對不同的候選新聞賦予user歷史點擊不同的權重,能更好地刻畫用戶的興趣。2. DKN模型 總結目 錄010203前沿研究概述DKN模型RippleNet模型總結04背景介紹附加信息(side information):在推薦系統研究領域,研究者們為了解決數據稀疏(sparsity)和冷啟動(cold start)的問題,一般采取的策略是利用附加信息(side information),例如社交網絡(s
12、ocial network)或者物品本身的屬性,從而提升推薦的性能。可解釋性(interpretable):幾乎所有的深度學習模型都是黑盒模型,缺乏可解釋性,所以就深度學習而言,可解釋性也是如今研究的一大挑戰。知識圖譜(knowledge graph):作為如今的熱門研究實體,可以被用來挖掘豐富的附加信息(side information),并且圖譜中的實體連接關系可以提供一定的可解釋性(interpretable)。3. RippleNet模型 簡介算法選型因為知識圖譜可以提供豐富的附加信息和很好地可解釋性知識圖譜可以很好地解決推薦系統中經常出現的數據稀疏(sparsity)問題和冷啟動(c
13、old start)問題。上圖可以看成是一個局部的知識圖譜,從這個圖譜中可以看出,用戶看過三部電影,這三部電影有不同的屬性,如:題材,演員,導演等,同時不同的屬性又根據某種關系關聯不同的電影,這時,就可以將這三部電影推薦給用戶。具體來說:用戶看了Back to the Future,這部電影導演是Robert,Robert又導演了另一部電影Forrest Gump(阿甘正傳),所以可以認為用戶喜歡Forrest Gump的可能性很高。3. RippleNet模型 簡介模型框架模型的輸入是用戶u和物品v3. RippleNet模型 模型描述模型框架3. RippleNet模型 模型描述模型的輸出
14、是用戶u喜歡物品v的概率模型框架第一步:從知識圖譜中提取三元組,理解為用于協同過濾的附加信息(side information)Q:如何從知識圖譜(knowledge graph)中提取三元組?A:如右圖是一個簡單的示例,就一個用戶u而言,假設該用戶 u 的歷史交互物品為Vu,Vu也是Hop 1中三元組的頭結點(h),從Hv節點出發,它的鄰居節點即三元組的尾節點(t),頭結點和尾節點之間的邊是三元組中的關系(r)。 htr一個三元組3. RippleNet模型 模型描述模型框架Hop數加1相當于從 三元組尾節點( t ) 衍生到它的鄰居節點,這時候由Hop 1的三元組代替Hop 2中的頭結點(
15、h),Hop 2的頭結點(h)的鄰居節點是Hop 2中三元組中的尾節點 ( t ),如果Hop繼續增加,同理可以知道其對應的三元組。3. RippleNet模型 模型描述htr將三元組的頭結點(h)和關系(r)做內積之后,經過softmax函數得到對應的概率值pv在得到三元組的頭結點(h)的概率值p之后,將該概率p乘以對應三元組的尾節點(t),將用戶的所有三元組都進行這樣的計算,得到的結果加權平均,得到用戶u的向量表達,即embedding。第二步:利用從知識圖譜提取的三元組,計算得到每一個Hop對應的用戶embedding3. RippleNet模型 模型描述模型框架第三步:將Hop 1 至
16、 Hop H得到的所有的用戶embedding累加得到最終的用戶embedding3. RippleNet模型 模型描述模型框架第四步:將物品embedding 和 最終的用戶embedding做內積,結果即為預測的概率3. RippleNet模型 模型描述模型框架數據集MovieLens-1M:這是一個被廣泛使用于電影推薦的公開數據集,共計包含一百萬條在Movielens網站上的顯式評分(1 to 5)。Book-Crossing數據集:包含1149780條在Book-Crossing社區上的顯式評分(0 to 10)。Bing-News數據集:包含1025192條隱式反饋,數據是從2016
17、年10月16日到2017年8月11日的服務器日志中收集得到,每條新聞都有一個標題和一個片段。3. RippleNet模型 實驗結果分析上圖可以看出,在Movielens數據集上, RippleNet的精確率(Precision)和召回率(Recall)都優于其他的Baseline模型,F1 Score是Precision和Recall的調和平均值,RippleNet在F1這個評價指標上也優于其他的Baseline模型。3. RippleNet模型 實驗結果分析上圖可以看出,在Book-Crossing數據集上, RippleNet的精確率(Precision)、召回率(Recall)和F1 S
18、core優于其他的Baseline模型。3. RippleNet模型 實驗上圖可以看出,在Bing-News數據集上, RippleNet的精確率(Precision)、召回率(Recall)和F1 Score優于其他的Baseline模型。3. RippleNet模型 實驗結果分析上圖可以看出,RippleNet在三個數據集上都有最優的表現,相比于所有的Baseline模型,RippleNet在三個數據集上AUC分別提升了2.0% 40.6%, 2.5% 17.4%, and 2.6% 22.4%。RippleNet在推薦質量上的優越性說明了使用知識圖譜作為附加信息(side information)的來源是非常有效的。3. RippleNet模型
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 醫藥電商平臺合規管理策略研究2025版
- 啤酒供貨合同協議書模板
- 游樂場合同協議書
- 標識和可追溯性選擇試題及答案
- 如何撤銷合同終止協議書
- 園林更換合同協議書模板
- 分手合同協議書可復制
- 火柴人繪畫考試題及答案
- 初二音樂樂理試題及答案
- 代理合同協議書模板下載
- 林權繼承協議書范本
- 2024年四川省巴中市中考文科綜合試卷(含答案解析)
- 2024年吉林長春市中考地理試卷真題(含答案解析)
- 學校食堂人員工資發放方案范文
- 2023-2024學年人教版八年級下冊數學 期末復習試題
- 專題03 陜西省(A卷)-2022-2023年各地中考英語聽力真題合集(含聽力原文及MP3)
- MOOC 營銷管理-電子科技大學 中國大學慕課答案
- 《城市綜合管廊技術狀況評定標準》
- 2024年黔東南州能源投資有限公司招聘筆試參考題庫附帶答案詳解
- 2024年度-白內障課件PPT
- 中國急性胰腺炎診治指南解讀張志強
評論
0/150
提交評論