協同過濾-基于鄰域的CF_第1頁
協同過濾-基于鄰域的CF_第2頁
協同過濾-基于鄰域的CF_第3頁
協同過濾-基于鄰域的CF_第4頁
協同過濾-基于鄰域的CF_第5頁
已閱讀5頁,還剩33頁未讀 繼續免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

協同過濾

基本思想協同過濾(CollaborativeFiltering,CF):利用集體智慧,借鑒相關人群的觀點進行推薦基本假設:過去興趣相似的用戶在未來的興趣也會相似相似的用戶會產生相似的(歷史)行為數據偏好相似推薦算法分類Top-N推薦vs.評分預測輸入(輸出):隱式的0-1偏好vs.顯式的評分基于鄰域的方法vs.基于模型的方法利用局部(鄰域)信息vs.基于全局信息在內存中存儲(記憶)整個數據集vs.訓練出抽象模型協同過濾基于鄰域(記憶)基于用戶基于項目圖擴散基于模型矩陣分解關聯規則機器學習協同過濾的一般步驟收集數據目標:收集能反映用戶偏好的數據尋找鄰域:相似的用戶(或項目)計算推薦結果:根據鄰域信息計算推薦結果收集數據計算推薦結果尋找鄰域訓練模型顯式反饋:用戶主動地向系統表達其偏好,一般需要用戶在消費完項目后進行額外反饋隱式反饋:隱含用戶對項目偏好的行為數據,是用戶在探索或消費項目過程中正常操作收集用戶行為數據用戶行為類型特征作用評分

顯式整數,取值[0,n]精確的用戶偏好點擊流

隱式一組用戶點擊一定程度上反映用戶的注意力和喜好

頁面停留時間隱式一組時間信息一定程度上反映用戶的注意力和喜好保存書簽

隱式布爾值,取值0或1較精確的用戶偏好標記標簽(Tag)隱式一些詞語可以分析出用戶的情感和興趣

購買

隱式布爾值,取值0或1明確的用戶興趣對比分析:

數量、質量基于用戶的協同過濾:User-CF基于用戶的CF(User-CF)基本思想:基于用戶對項目的歷史偏好找到相鄰(相似)的用戶將鄰居(相似)用戶喜歡的項目推薦給當前用戶假設:與我興趣相似的用戶喜歡的項目,我也會喜歡關鍵:尋找相似用戶用戶相似度度量用戶相似度

用戶/項目項目a項目b項目c項目d項目e用戶A?√?√?用戶B√√√用戶C√√√用戶D√√用戶相似度:示例計算假設:用戶A購買過項目{b,d},用戶B購買過{a,b,c},…

用戶項目列表Ab,dBa,b,cCa,b,dDa,e

興趣度預測

用戶/項目項目a項目b項目c項目d項目e用戶A?√√用戶B√√√用戶C√√√用戶D√√假設:用戶A購買過項目{b,d},用戶B購買過{a,b,c},…目標:為用戶A推薦項目

推薦排序:p(A,a)>p(A,c)>p(A,e)User-CF:計算推薦結果用戶項目列表Ab,dBa,b,cCa,b,dDa,e項目a項目b項目c項目d項目e用戶A?√?√用戶B√√√用戶C√√√用戶D√√

基于User-CF的推薦系統

用戶購買項目Ab,dBa,b,cCa,b,dDa,eABCDA11/42/30B1/411/21/4C2/31/211/4D01/41/41用戶鄰域AB,CBA,CCA,BDB,C歷史行為數據用戶相似度(Jaccard)用戶鄰域(K=2)用戶相似度改進:IUF下面哪一組用戶更相似?用戶A和B都買過《新華字典》用戶C和D都買過《RecommenderSystemsHandbook》逆用戶頻率(InverseUserFrequency)基本思想:懲罰熱門項目兩個用戶對冷門項目有過同樣行為更能說明他們興趣相似計算:懲罰系數:fi

=

log

(n/ni)n表示總用戶數;ni表示對項目i有過正反饋的用戶數

User-CF的缺點難以形成有意義的鄰域集合很多用戶兩兩之間只有很少的共同反饋而僅有的共同反饋的項目,往往是熱門項目(缺乏區分度)隨著用戶行為數據的增加,用戶間相似度可能變化很快離線(offline)算法難以瞬間更新推薦結果

基于項目的協同過濾:Item-CF基于項目的CF(Item-CF)基本思想:基于用戶對項目的反饋(偏好)尋找相似(相關)的項目根據用戶的歷史反饋(偏好)行為,給他推薦相似的項目假設:我過去喜歡某類項目,將來還會喜歡類似(相關)項目關鍵:尋找相似(相關)項目項目相似(相關)度度量項目相似度

假設:用戶A購買過{b,d};用戶B購買過項目{a,b,c};…依此構建用戶-項目倒排表:項目a被用戶B、C、D購買過,…項目相似度:示例計算項目相似度:用戶項目列表Ab,dBa,b,cCa,b,dDa,e項目用戶列表aB,C,DbA,B,CcBdA,CeDJaccardabcdea11/2b1/210c100d010e0001興趣度預測

用戶/項目項目a項目b項目c項目d項目e用戶A?√√用戶B√√√用戶C√√√用戶D√√基于Item-CF的推薦系統

項目相似度(Jaccard)abcdea11/21/31/41/3b1/211/32/30c1/31/3100d1/42/3010e1/30001項目用戶列表aB,C,DbA,B,CcBdA,CeD用戶-項目倒排表項目鄰域(K=3)項目鄰域ab,c,eba,c,dca,bda,bea項目相似度改進

基于鄰域的評分預測評分預測

用戶\項目abcdA533?B3112C3333協同過濾的一般步驟收集數據目標:收集能反映用戶偏好的數據尋找鄰域:相似的用戶(或項目)計算推薦結果:根據鄰域信息計算預測評分收集數據計算推薦結果尋找鄰域訓練模型User-CF:Item-CF:

用戶u有過評分的項目集合用戶u對項目i的評分余弦相似度(用戶)用戶u和v的余弦相似度:用戶u和v都有過評分的項目集合用戶abcdA533?B3112C3333

基于User-CF的評分預測

收集數據計算推薦結果尋找鄰域用戶abcdA533?B3112C3333

用戶u和v都有過評分的項目集合用戶u對項目i的評分用戶u的評分平均值Pearson相似度(用戶)用戶u和v的Pearson相似度:

Pearson相似度(用戶)

用戶abcdA533?B3112C3333預測修正基于用戶的CF基于項目的CF

用戶\項目abcdA533?B3112C3333評分預測:示例

收集數據計算推薦結果尋找鄰域用戶\項目abcdA533?B3112C3333基于二部圖的協同過濾傳統鄰域方法的缺點范圍限制問題:只考慮和用戶有過共同評價(或購買)項目的相鄰用戶計算空間復雜度較大:需在內存中保存整個用戶-項目反饋(評分)集合(矩陣)數據稀疏/冷啟動問題:用戶一般只會評價(或購買)少量項目基于二部圖的協同過濾

用戶項目列表Ab,dBa,b,cCa,b,dDa,e激活擴散假設:用戶反饋過的項目都具有用戶偏好的某種屬性用戶偏好可以在圖中節點間傳遞基本思想:根據用戶偏好的傳遞性來挖掘用戶潛在偏好信息標準的協同過濾:路徑長度=3,UA-Ib-UB-Ic擴展路徑長度,例如:路徑長度=5,

UA-Ib-UB-Ic-UC-Ia用戶/項目abcdA--1--1B--111C1--1--激活擴散:給定目標用戶圖擴散:從目標用戶節點出發,沿圖中邊進行擴散直至達到給定的最大擴散步長確定候選項目集:擴散過程中到達過的所有項目,去除目標用戶有過正反饋的項目項目排序:排序依據:首次到達步數和到達次數如果首次到達步數相同(設為k),則根據k步到達次數做進一步的排序激活擴散:系統角度

步數\用戶ABCD3a,cd,e

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論