《推系統(tǒng) 第2版》 課件 Lec1 推系統(tǒng)-概述、Lec2 協(xié)同過濾-基于鄰域的CF_第1頁
《推系統(tǒng) 第2版》 課件 Lec1 推系統(tǒng)-概述、Lec2 協(xié)同過濾-基于鄰域的CF_第2頁
《推系統(tǒng) 第2版》 課件 Lec1 推系統(tǒng)-概述、Lec2 協(xié)同過濾-基于鄰域的CF_第3頁
《推系統(tǒng) 第2版》 課件 Lec1 推系統(tǒng)-概述、Lec2 協(xié)同過濾-基于鄰域的CF_第4頁
《推系統(tǒng) 第2版》 課件 Lec1 推系統(tǒng)-概述、Lec2 協(xié)同過濾-基于鄰域的CF_第5頁
已閱讀5頁,還剩60頁未讀 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

推薦系統(tǒng)推薦系統(tǒng)動機(為什么要學(xué))利用推薦系統(tǒng)可以解決實際應(yīng)用難題使得平臺、用戶、供應(yīng)商等多方受益內(nèi)容(主要講什么)各種個性化推薦系統(tǒng)的框架與流程常用推薦算法的思想、原理和實現(xiàn)目標(能學(xué)到什么)理解常用推薦算法的原理、思想學(xué)會根據(jù)應(yīng)用和場景選擇或構(gòu)造合適的推薦算法實踐通過推薦系統(tǒng)解決實際應(yīng)用問題信息爆炸:每分鐘…數(shù)據(jù)摩爾定律:全球在2010年進入ZB(萬億GB)時代,數(shù)據(jù)量兩年翻一番/learn/data-never-sleeps-8

信息超載多即是少少即是多推薦系統(tǒng)發(fā)展背景:互聯(lián)網(wǎng)技術(shù)迅猛發(fā)展→信息爆炸→信息超載推薦系統(tǒng):一種主動的信息過濾系統(tǒng)將信息過濾過程由“用戶主動搜索”轉(zhuǎn)變?yōu)椤跋到y(tǒng)主動推送”一種個性化的雙邊匹配系統(tǒng)幫助用戶發(fā)現(xiàn)其所喜好的或需要的小眾、非主流商品幫助商戶將其商品展現(xiàn)在對它們感興趣的用戶面前搜索:滿足用戶的主動需求用戶知道自己要什么用戶知道該如何描述推薦:挖掘并滿足用戶的潛在需求項目(Items)搜索推薦商品、電影、音樂、新聞、工作崗位、…推薦系統(tǒng)發(fā)展背景:互聯(lián)網(wǎng)技術(shù)迅猛發(fā)展→信息爆炸→信息超載互聯(lián)網(wǎng)上的物品普遍存在長尾(longtail)現(xiàn)象推薦系統(tǒng):一種主動的信息過濾系統(tǒng)將信息過濾過程由“用戶主動搜索”轉(zhuǎn)變?yōu)椤跋到y(tǒng)主動推送”一種個性化的雙邊匹配系統(tǒng)幫助用戶發(fā)現(xiàn)其所喜好的或需要的小眾、非主流商品幫助商戶將其商品展現(xiàn)在對它們感興趣的用戶面前亞馬遜銷量的43%:傳統(tǒng)實體店所售書籍亞馬遜銷量的57%:只在亞馬遜上銷售的書籍按銷售量排序的物品種類銷售量銷量小但種類多的產(chǎn)品或服務(wù)由于總量巨大,累積總收益超過主流產(chǎn)品的現(xiàn)象推薦系統(tǒng)發(fā)展背景:互聯(lián)網(wǎng)技術(shù)迅猛發(fā)展→信息爆炸→信息超載互聯(lián)網(wǎng)上的物品普遍存在長尾(longtail)現(xiàn)象推薦系統(tǒng):一種主動的信息過濾系統(tǒng)將信息過濾過程由“用戶主動搜索”轉(zhuǎn)變?yōu)椤跋到y(tǒng)主動推送”一種個性化的雙邊匹配系統(tǒng)幫助用戶發(fā)現(xiàn)其所喜好的或需要的小眾、非主流商品幫助商戶將其商品展現(xiàn)在對它們感興趣的用戶面前推薦系統(tǒng)“Weareleavingtheageofinformationandenteringtheageofrecommendation.”

—ChrisAndersonin“TheLongTail”推薦系統(tǒng)的價值Netflix:2/3的電影觀看時長Amazon:35%的銷售量GoogleNews:38%的新聞點擊量……推薦系統(tǒng)的價值從平臺的角度幫助其提高用戶的滿意度和忠誠度,同時給其帶來豐厚的收益從用戶的角度幫助其解決信息超載問題,提高其決策效率,提升其幸福感從供應(yīng)商的角度幫助其進行精準的商品推銷,提高銷售量,降低營銷成本從行業(yè)的角度幫助其更加多元化、健康的發(fā)展,幫助尾部商家得以生存和發(fā)展推薦系統(tǒng)動機(為什么要學(xué))利用推薦系統(tǒng)可以解決實際應(yīng)用難題使得平臺、用戶、供應(yīng)商等多方受益內(nèi)容(主要講什么)個性化推薦系統(tǒng)的框架與流程常用推薦算法的思想、原理和實現(xiàn)目標(能學(xué)到什么)理解常用推薦算法的原理、思想學(xué)會根據(jù)應(yīng)用和場景選擇或構(gòu)造合適的推薦算法實踐通過推薦系統(tǒng)解決實際應(yīng)用問題推薦系統(tǒng)的發(fā)展歷史1992:Xerox公司開發(fā)出基于協(xié)同過濾的內(nèi)部新聞組文檔推薦系統(tǒng)Tapestry1994:MIT和明尼蘇達大學(xué)推出基于協(xié)同過濾的跨網(wǎng)絡(luò)新聞推薦GroupLens1998:Amazon推出基于項目的協(xié)同過濾算法,實現(xiàn)個性化的線上商品推薦2003:Google開創(chuàng)AdWords盈利模式,根據(jù)用戶搜索關(guān)鍵詞推薦相關(guān)廣告2007:Google為AdWords添加了個性化元素2006~2009:Netflix主辦百萬美金大獎賽,將其電影推薦準確率提高10%

……個性化推薦在音樂、求職等諸多領(lǐng)域得到了成功應(yīng)用,并慢慢成為各種互聯(lián)網(wǎng)應(yīng)用的一種標配“IfIhave3millioncustomersontheWeb,Ishouldhave3millionstoresontheWeb”--JeffBezos,AmazonCEO個性化推薦系統(tǒng)框架個性化推薦映射函數(shù)f:U×I→R輸入:用戶畫像(U):評分、偏好、人口統(tǒng)計學(xué)資料、上下文等項目畫像(I):項目描述(屬性)、內(nèi)容等計算:興趣度或相關(guān)度(R),用于排序輸出:針對每個用戶,給出項目排序列表推薦系統(tǒng)用戶畫像對用戶的特點和興趣進行建模從用戶相關(guān)的各種數(shù)據(jù)中挖掘或抽取出用戶在不同屬性上的標簽例如:年齡、性別、職業(yè)、婚姻狀態(tài)、興趣、未來可能行為等主要過程:標簽體系的建立:層次化結(jié)構(gòu),逐層細分標簽的獲取(賦值):事實標簽:既定事實,可從原始數(shù)據(jù)中直接得到,如:性別模型標簽:用戶潛在特性,通過模型計算得出,如:用戶興趣預(yù)測標簽:對用戶未來行為的預(yù)測,例如:用戶流失預(yù)測偏好品牌偏好主題購買頻率消費水平收入狀況學(xué)歷婚否職業(yè)年齡性別基本屬性消費特征興趣偏好用戶畫像對用戶的特點和興趣進行建模從用戶相關(guān)的各種數(shù)據(jù)中挖掘或抽取出用戶在不同屬性上的標簽例如:年齡、性別、職業(yè)、婚姻狀態(tài)、興趣、未來可能行為等主要過程:標簽體系的建立:層次化結(jié)構(gòu),逐層細分標簽的獲取(賦值):事實標簽:既定事實,可從原始數(shù)據(jù)中直接得到,如:性別模型標簽:用戶潛在特性,通過模型計算得出,如:用戶興趣預(yù)測標簽:對用戶未來行為的預(yù)測,例如:用戶流失預(yù)測項目畫像對項目的特點進行建模從項目相關(guān)的各種數(shù)據(jù)中挖掘和抽取出項目在不同屬性上的標簽實現(xiàn)對項目(例如商品、服務(wù)等)的精準的定位項目畫像的過程和用戶畫像相同標簽體系的建立(需要領(lǐng)域知識)和標簽的獲取(賦值)項目標簽:項目自身內(nèi)容和屬性相關(guān)的標簽和用戶(行為)相關(guān)的一些標簽,例如:目標用戶群推薦系統(tǒng)目標是將用戶和項目進行匹配,因此用戶畫像和項目畫像會相互影響推薦系統(tǒng)動機(為什么要學(xué))利用推薦系統(tǒng)可以解決實際應(yīng)用難題使得平臺、用戶、供應(yīng)商等多方受益內(nèi)容(主要講什么)個性化推薦系統(tǒng)的框架與流程常用推薦算法的思想、原理和實現(xiàn)目標(能學(xué)到什么)理解常用推薦算法的原理、思想學(xué)會根據(jù)應(yīng)用和場景選擇或構(gòu)造合適的推薦算法實踐通過推薦系統(tǒng)解決實際應(yīng)用問題推薦算法分類算法思想基于人口統(tǒng)計學(xué)、基于內(nèi)容、協(xié)同過濾、基于知識、混合推薦應(yīng)用問題評分預(yù)測vs.Top-N推薦目標函數(shù)點級排序?qū)W習vs.對級排序?qū)W習vs.列表級排序?qū)W習用戶參與單邊推薦vs.雙邊匹配數(shù)據(jù)表示矩陣表示vs.特征向量vs.圖模型基于算法思想的分類基于人口統(tǒng)計學(xué)、基于內(nèi)容、協(xié)同過濾、基于知識的推薦基于人口統(tǒng)計學(xué):根據(jù)用戶基本信息推薦相似用戶喜愛的項目基于內(nèi)容:根據(jù)用戶過去喜好的項目推薦相似的項目協(xié)同過濾:根據(jù)用戶行為信息推薦相似用戶喜愛的項目基于關(guān)聯(lián)規(guī)則:啤酒&尿布(數(shù)據(jù)挖掘)基于知識:基于(偏好)約束、本體推理基于算法思想的分類基于人口統(tǒng)計學(xué)、基于內(nèi)容、協(xié)同過濾、基于知識的推薦基于人口統(tǒng)計學(xué):根據(jù)用戶基本信息推薦相似用戶喜愛的項目基于內(nèi)容:根據(jù)用戶過去喜好的項目推薦相似的項目協(xié)同過濾:根據(jù)用戶行為信息推薦相似用戶喜愛的項目基于關(guān)聯(lián)規(guī)則:啤酒&尿布(數(shù)據(jù)挖掘)基于知識:基于(偏好)約束、本體推理基于算法思想的分類基于人口統(tǒng)計學(xué)、基于內(nèi)容、協(xié)同過濾、基于知識的推薦基于人口統(tǒng)計學(xué):根據(jù)用戶基本信息推薦相似用戶喜愛的項目基于內(nèi)容:根據(jù)用戶過去喜好的項目推薦相似的項目協(xié)同過濾:根據(jù)用戶行為信息推薦相似用戶喜愛的項目基于算法思想的分類基于人口統(tǒng)計學(xué)、基于內(nèi)容、協(xié)同過濾、基于知識的推薦基于人口統(tǒng)計學(xué):根據(jù)用戶基本信息推薦相似用戶喜愛的項目基于內(nèi)容:根據(jù)用戶過去喜好的項目推薦相似的項目協(xié)同過濾:根據(jù)用戶行為信息推薦相似用戶喜愛的項目基于知識:根據(jù)用戶的顯式需求和專業(yè)領(lǐng)域知識進行推薦

匹配度度量:(Price:LIB;Size:CIB;RAM:MIB;GPU:0-1匹配)推薦方法優(yōu)點缺點基于人口統(tǒng)計學(xué)不需要歷史數(shù)據(jù)沒有冷啟動問題個性化程度低推薦效果一般基于內(nèi)容結(jié)果直觀,容易解釋新用戶問題推薦結(jié)果缺乏新穎性協(xié)同過濾發(fā)現(xiàn)新的興趣點不需要領(lǐng)域知識個性化、自動化程度高數(shù)據(jù)稀疏問題新用戶問題基于知識沒有冷啟動問題結(jié)果具有可解釋性知識獲取困難混合推薦:通過多種技術(shù)的組合來避免或彌補各自的弱點基于應(yīng)用問題的分類評分預(yù)測目標:根據(jù)用戶歷史評分和其他相關(guān)數(shù)據(jù),預(yù)測用戶對候選項目評分值評價指標:預(yù)測評分和真實評分之間的偏差,例如:均方根誤差

RMSETop-N推薦目標:根據(jù)用戶歷史行為(如:點擊)和其他相關(guān)數(shù)據(jù),預(yù)測用戶對候選項目的感興趣程度,并據(jù)此對項目排序以給出排在最前N個的項目列表評價指標:分類準確度和排序合理性,例如:精確度、召回率、AUC、nDCG等推薦系統(tǒng)動機(為什么要學(xué))利用推薦系統(tǒng)可以解決實際應(yīng)用難題使得平臺、用戶、供應(yīng)商等多方受益內(nèi)容(主要講什么)各種個性化推薦系統(tǒng)的框架與流程常用推薦算法的思想、原理和實現(xiàn)目標(能學(xué)到什么)理解常用推薦算法的原理、思想學(xué)會根據(jù)應(yīng)用和場景選擇或構(gòu)造合適的推薦算法實踐通過推薦系統(tǒng)解決實際應(yīng)用問題協(xié)同過濾基本思想?yún)f(xié)同過濾(CollaborativeFiltering,CF):利用集體智慧,借鑒相關(guān)人群的觀點進行推薦基本假設(shè):過去興趣相似的用戶在未來的興趣也會相似相似的用戶會產(chǎn)生相似的(歷史)行為數(shù)據(jù)偏好相似推薦算法分類Top-N推薦vs.評分預(yù)測輸入(輸出):隱式的0-1偏好vs.顯式的評分基于鄰域的方法vs.基于模型的方法利用局部(鄰域)信息vs.基于全局信息在內(nèi)存中存儲(記憶)整個數(shù)據(jù)集vs.訓(xùn)練出抽象模型協(xié)同過濾基于鄰域(記憶)基于用戶基于項目圖擴散基于模型矩陣分解關(guān)聯(lián)規(guī)則機器學(xué)習協(xié)同過濾的一般步驟收集數(shù)據(jù)目標:收集能反映用戶偏好的數(shù)據(jù)尋找鄰域:相似的用戶(或項目)計算推薦結(jié)果:根據(jù)鄰域信息計算推薦結(jié)果收集數(shù)據(jù)計算推薦結(jié)果尋找鄰域訓(xùn)練模型顯式反饋:用戶主動地向系統(tǒng)表達其偏好,一般需要用戶在消費完項目后進行額外反饋隱式反饋:隱含用戶對項目偏好的行為數(shù)據(jù),是用戶在探索或消費項目過程中正常操作收集用戶行為數(shù)據(jù)用戶行為類型特征作用評分

顯式整數(shù),取值[0,n]精確的用戶偏好點擊流

隱式一組用戶點擊一定程度上反映用戶的注意力和喜好

頁面停留時間隱式一組時間信息一定程度上反映用戶的注意力和喜好保存書簽

隱式布爾值,取值0或1較精確的用戶偏好標記標簽(Tag)隱式一些詞語可以分析出用戶的情感和興趣

購買

隱式布爾值,取值0或1明確的用戶興趣對比分析:

數(shù)量、質(zhì)量基于用戶的協(xié)同過濾:User-CF基于用戶的CF(User-CF)基本思想:基于用戶對項目的歷史偏好找到相鄰(相似)的用戶將鄰居(相似)用戶喜歡的項目推薦給當前用戶假設(shè):與我興趣相似的用戶喜歡的項目,我也會喜歡關(guān)鍵:尋找相似用戶用戶相似度度量用戶相似度

用戶/項目項目a項目b項目c項目d項目e用戶A?√?√?用戶B√√√用戶C√√√用戶D√√用戶相似度:示例計算假設(shè):用戶A購買過項目{b,d},用戶B購買過{a,b,c},…

用戶項目列表Ab,dBa,b,cCa,b,dDa,e

興趣度預(yù)測

用戶/項目項目a項目b項目c項目d項目e用戶A?√√用戶B√√√用戶C√√√用戶D√√假設(shè):用戶A購買過項目{b,d},用戶B購買過{a,b,c},…目標:為用戶A推薦項目

推薦排序:p(A,a)>p(A,c)>p(A,e)User-CF:計算推薦結(jié)果用戶項目列表Ab,dBa,b,cCa,b,dDa,e項目a項目b項目c項目d項目e用戶A?√?√用戶B√√√用戶C√√√用戶D√√

基于User-CF的推薦系統(tǒng)

用戶購買項目Ab,dBa,b,cCa,b,dDa,eABCDA11/42/30B1/411/21/4C2/31/211/4D01/41/41用戶鄰域AB,CBA,CCA,BDB,C歷史行為數(shù)據(jù)用戶相似度(Jaccard)用戶鄰域(K=2)用戶相似度改進:IUF下面哪一組用戶更相似?用戶A和B都買過《新華字典》用戶C和D都買過《RecommenderSystemsHandbook》逆用戶頻率(InverseUserFrequency)基本思想:懲罰熱門項目兩個用戶對冷門項目有過同樣行為更能說明他們興趣相似計算:懲罰系數(shù):fi

=

log

(n/ni)n表示總用戶數(shù);ni表示對項目i有過正反饋的用戶數(shù)

User-CF的缺點難以形成有意義的鄰域集合很多用戶兩兩之間只有很少的共同反饋而僅有的共同反饋的項目,往往是熱門項目(缺乏區(qū)分度)隨著用戶行為數(shù)據(jù)的增加,用戶間相似度可能變化很快離線(offline)算法難以瞬間更新推薦結(jié)果

基于項目的協(xié)同過濾:Item-CF基于項目的CF(Item-CF)基本思想:基于用戶對項目的反饋(偏好)尋找相似(相關(guān))的項目根據(jù)用戶的歷史反饋(偏好)行為,給他推薦相似的項目假設(shè):我過去喜歡某類項目,將來還會喜歡類似(相關(guān))項目關(guān)鍵:尋找相似(相關(guān))項目項目相似(相關(guān))度度量項目相似度

假設(shè):用戶A購買過{b,d};用戶B購買過項目{a,b,c};…依此構(gòu)建用戶-項目倒排表:項目a被用戶B、C、D購買過,…項目相似度:示例計算項目相似度:用戶項目列表Ab,dBa,b,cCa,b,dDa,e項目用戶列表aB,C,DbA,B,CcBdA,CeDJaccardabcdea11/2b1/210c100d010e0001興趣度預(yù)測

用戶/項目項目a項目b項目c項目d項目e用戶A?√√用戶B√√√用戶C√√√用戶D√√基于Item-CF的推薦系統(tǒng)

項目相似度(Jaccard)abcdea11/21/31/41/3b1/211/32/30c1/31/3100d1/42/3010e1/30001項目用戶列表aB,C,DbA,B,CcBdA,CeD用戶-項目倒排表項目鄰域(K=3)項目鄰域ab,c,eba,c,dca,bda,bea項目相似度改進

基于鄰域的評分預(yù)測評分預(yù)測

用戶\項目abcdA533?B3112C3333協(xié)同過濾的一般步驟收集數(shù)據(jù)目標:收集能反映用戶偏好的數(shù)據(jù)尋找鄰域:相似的用戶(或項目)計算推薦結(jié)果:根據(jù)鄰域信息計算預(yù)測評分收集數(shù)據(jù)計算推薦結(jié)果尋找鄰域訓(xùn)練模型User-CF:Item-CF:

用戶u有過評分的項目集合用戶u對項目i的評分余弦相似度(用戶)用戶u和v的余弦相似度:用戶u和v都有過評分的項目集合用戶abcdA533?B3112C3333

基于User-CF的評分預(yù)測

收集數(shù)據(jù)計算推薦結(jié)果尋找鄰域用戶abcdA533?B3112C3333

用戶u和v都有過評分的項目集合用戶u對項目i的評分用戶u的評分平均值Pearson相似度(用戶)用戶u和v的Pearson相似度:

Pearson相似度(用戶)

用戶abcdA533?B3112C3333預(yù)測修正基于用戶的CF基于項目的CF

用戶\項目abcdA533?B3112C3333評分預(yù)測:示例

收集數(shù)據(jù)計算推薦結(jié)果尋找鄰域用戶\項

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論