




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
1、推薦算法推薦算法 基于內(nèi)容的推薦item-based 基于協(xié)同過濾的推薦user-based 基于關(guān)聯(lián)規(guī)則推薦 基于效用推薦 基于知識推薦 組合推薦基于內(nèi)容的推薦它根據(jù)用戶過去喜歡的產(chǎn)品產(chǎn)品(item),為用戶推薦和他過去喜歡的產(chǎn)品相似的產(chǎn)品。推薦的過程一般包括以下三步:1.Item Representation:為每個item抽取出一些特征(也就是item的content了)來表示此item;2.Profile Learning:利用一個用戶過去喜歡(及不喜歡)的item的特征數(shù)據(jù),來學(xué)習出此用戶的喜好特征(profile)【分類】;3.Recommendation Generation:通
2、過比較上一步得到的用戶profile與候選item的特征,為此用戶推薦一組相關(guān)性最大的item。根據(jù)用戶的使用歷史生成一個產(chǎn)品的累積模型,然后計算其他產(chǎn)品和模型的距離來生成推薦。基于內(nèi)容的推薦優(yōu)點是:(1)不需要其它用戶的數(shù)據(jù),沒有冷開始問題和稀疏問題。(2)能為具有特殊興趣愛好的用戶進行推薦。(3)能推薦新的或不是很流行的項目,沒有新項目問題。(4)通過列出推薦項目的內(nèi)容特征,可以解釋為什么推薦那些項目。(5)已有比較好的技術(shù),如關(guān)于分類學(xué)習方面的技術(shù)已相當成熟。缺點是:要求內(nèi)容能容易抽取成有意義的特征,要求特征內(nèi)容有良好的結(jié)構(gòu)性,并且用戶的口味必須能夠用內(nèi)容特征形式來表達,不能顯式地得到其
3、它用戶的判斷情況。基于協(xié)同過濾的推薦 基于用戶的協(xié)同過濾算法:基于一個這樣的假設(shè)“跟你跟你喜好相似的人喜歡的東西你喜好相似的人喜歡的東西你也很有可能喜歡。也很有可能喜歡。”所以基于用戶的協(xié)同過濾主要的任務(wù)就是找出用戶的最近鄰居,從而根據(jù)最近鄰居的喜好做出未知項的評分預(yù)測【用戶之間推薦】。 特點:無法滿足及時推薦的要求基于協(xié)同過濾的推薦優(yōu)點:1)能夠過濾難以進行機器自動內(nèi)容分析的信息,如藝術(shù)品,音樂等。2)共享其他人的經(jīng)驗,避免了內(nèi)容分析的不完全和不精確,并且能夠基于一些復(fù)雜的,難以表述的概念(如信息質(zhì)量、個人品味)進行過濾。3)有推薦新信息的能力。可以發(fā)現(xiàn)內(nèi)容上完全不相似的信息,用戶對推薦信息
4、的內(nèi)容事先是預(yù)料不到的。這也是協(xié)同過濾和基于內(nèi)容的過濾一個較大的差別,基于內(nèi)容的過濾推薦很多都是用戶本來就熟悉的內(nèi)容,而協(xié)同過濾可以發(fā)現(xiàn)用戶潛在的但自己尚未發(fā)現(xiàn)的興趣偏好。4)能夠有效的使用其他相似用戶的反饋信息,較少用戶的反饋量,加快個性化學(xué)習的速度。雖然協(xié)同過濾作為一種典型的推薦技術(shù)有其相當?shù)膽?yīng)用,但協(xié)同過濾仍有許多的問題需要解決。最典型的問題有稀疏問題稀疏問題(Sparsity)和可擴展問題可擴展問題(Scalability)。基于關(guān)聯(lián)規(guī)則推薦 以關(guān)聯(lián)規(guī)則為基礎(chǔ),把已購商品作為規(guī)則頭,規(guī)則體為推薦對象。 算法的第一步關(guān)聯(lián)規(guī)則的發(fā)現(xiàn)最為關(guān)鍵且最耗時,是算法的瓶頸,但可以離線進行。其次,商品
5、名稱的同義性問題也是關(guān)聯(lián)規(guī)則的一個難點。 啤酒和尿布基于效用推薦 基于效用的推薦(Utility-basedRecommendation)是建立在對用戶使用項目的效用情況上計算的,其核心問題是怎么樣為每一個用戶去創(chuàng)建一個效用函數(shù),因此,用戶資料模型很大程度上是由系統(tǒng)所采用的效用函數(shù)決定的。 抽取一個物品的N個方面,然后統(tǒng)計用戶在這N個方面的喜好偏重,生成喜好向量。 又要推薦電腦,煩!基于知識推薦 在某種程度是可以看成是一種推理(推理(Inference)技術(shù))技術(shù),它不是建立在用戶需要和偏好基礎(chǔ)上推薦的。基于知識的方法因它們所用的功能知識不同而有明顯區(qū)別。效用知識(FunctionalKnow
6、ledge)是一種關(guān)于一個項目如何滿足某一項目如何滿足某一特定用戶的知識特定用戶的知識,因此能解釋需要和推薦的關(guān)系,所以用戶資料可以是任何能支持推理的知識結(jié)構(gòu),它可以是用戶已經(jīng)規(guī)范化的查詢,也可以是一個更詳細的用戶需要的表示。組合推薦由于各種推薦方法都有優(yōu)缺點,所以在實際中,組合推薦(HybridRecommendation)經(jīng)常被采用。研究和應(yīng)用最多的是內(nèi)容推薦內(nèi)容推薦和協(xié)同過濾推薦的組合和協(xié)同過濾推薦的組合。最簡單的做法就是分別用基于內(nèi)容的方法和協(xié)同過濾推薦方法去產(chǎn)生一個推薦預(yù)測結(jié)果,然后用某方法組合其結(jié)果。在組合方式上,有研究人員提出了七種組合思路:(1)加權(quán)(Weight):加權(quán)多種推
7、薦技術(shù)結(jié)果。(2)變換(Switch):根據(jù)問題背景和實際情況或要求決定變換采用不同的推薦技術(shù)。(3)混合(Mixed):同時采用多種推薦技術(shù)給出多種推薦結(jié)果為用戶提供參考。(4)特征組合(Featurecombination):組合來自不同推薦數(shù)據(jù)源的特征被另一種推薦算法所采用。(5)層疊(Cascade):先用一種推薦技術(shù)產(chǎn)生一種粗糙的推薦結(jié)果,第二種推薦技術(shù)在此推薦結(jié)果的基礎(chǔ)上進一步作出更精確的推薦。(6)特征擴充(Featureaugmentation):一種技術(shù)產(chǎn)生附加的特征信息嵌入到另一種推薦技術(shù)的特征輸入中。(7)元級別(Meta-level):用一種推薦方法產(chǎn)生的模型作為另一種
8、推薦方法的輸入主要推薦方法的對比推薦方法優(yōu)點缺點基于內(nèi)容推薦推薦結(jié)果直觀,容易解釋;不需要領(lǐng)域知識新用戶問題新用戶問題;復(fù)雜屬性不好處理;要有足夠數(shù)據(jù)構(gòu)造分類器協(xié)同過濾推薦新異興趣發(fā)現(xiàn)、不需要領(lǐng)域知識;隨著時間推移性能提高;推薦個性化、自動化程度高;能處理復(fù)雜的非結(jié)構(gòu)化對象稀疏稀疏問題;可擴展性問題;新用戶問題新用戶問題;質(zhì)量取決于歷史數(shù)據(jù)集;系統(tǒng)開始時推薦質(zhì)量差;基于規(guī)則推薦能發(fā)現(xiàn)新興趣點;不要領(lǐng)域知識規(guī)則抽取難、耗時;產(chǎn)品名同義性問題;個性化程度低;基于效用推薦無冷開始和稀疏問題;對用戶偏好變化敏感;能考慮非產(chǎn)品特性用戶必須輸入效用函數(shù);推薦是靜態(tài)的,靈活性差;屬性重疊問題;用戶喜好分析方
9、法 在用戶興趣向量模型的建立中,主要考慮4個原則: (1)原則)原則1:考慮時間衰減:考慮時間衰減 (2)原則)原則2:考慮不同行為的權(quán)重:考慮不同行為的權(quán)重等等等等查看收藏收聽分享評價 (3)原則)原則3:用戶對物品的興趣會:用戶對物品的興趣會隨時間發(fā)生改變隨時間發(fā)生改變年齡增長:青年-中年生活狀態(tài)變化:學(xué)生-工作社會熱點影響:北京奧運會 (4)原則)原則4:季節(jié)效應(yīng)的影響:季節(jié)效應(yīng)的影響音樂推薦算法 音樂分析方法酷音現(xiàn)有推薦算法 基于上下文的推薦算法【歌手搜索】 根據(jù)用戶使用的商品的標簽和描述進行推薦(名稱、描述、標簽)音樂分析(分類)方法 基于標簽的音樂分析 基于內(nèi)容的音樂分析 基于情感
10、的音樂分析 基于機器學(xué)習的音樂分析基于內(nèi)容的音樂推薦 目前可提取的音樂特征有:Tempo/節(jié)奏、Timbre/音色、Spectralfeatures/光譜特征、Mel-frequencycepstralcoefficients(MFCC/梅爾頻率倒譜系數(shù))、Tonality/音調(diào)、Loudness/響度、Harmony/諧調(diào)、Segmentation/分段、Rhythm/節(jié)奏、Pitch/音高、Chroma/色度、Duration/時長、FFT/快速傅里葉變換主要的音樂特征音樂特征簡介1.Tempo,用于描述音樂的節(jié)奏或者速度。Tempo通常被描述成BPM(Beatsperminute)。2.
11、Timbre,這個特征用來描述聲音的質(zhì)量或者特點。經(jīng)過多年的研宄,目前已經(jīng)有多種方法可用于提取Timbre,其主要作用是區(qū)分音樂中不同的樂器的效果。使用這種特征,即使不同的樂器以同樣的節(jié)奏演奏,也能有效的加以區(qū)分。3.Spectralfeatures5i,用統(tǒng)計的方法描述音樂的能量光譜密度分布,這種描述既包括光譜中心也包括光譜形狀。4.MFCCs(Mel-frequencycepstra丨coefficients),】,用于描述音樂的節(jié)奏和timbre特征。MFCCs己經(jīng)被廣泛的用于MIR團體,是描述音樂內(nèi)容的最有效的方法之一。5.FFTs,把FFTs作為一種音樂特征可能不是特別的恰當,因為它
12、特指一種算法而非音樂特征。FTTS經(jīng)常用于計算離散的傅立葉變換,可以將采樣信號變換成頻域。可以利用FTTs計算音樂的頻率波普,它也是計算其它頻率相關(guān)的音樂特征的一個基礎(chǔ)和重要步驟,如MFCCs和Timbre。6.Tonality54】,表示人的聽覺分辨一個聲音的音調(diào)高低的程度。音調(diào)主要由聲音的頻率決定,同時也與聲音強度有關(guān)。對一定強度的純音,音調(diào)隨頻率的升降而升降;對一定頻率的純音,低頻純音的音調(diào)隨聲強增加而下降,高頻純音的音調(diào)卻隨強度增加而上升。音樂特征簡介7.Loudness,音量又稱響度、音強,是指人耳對所聽到的聲音大小強弱的主觀感受,其客觀評價尺度是聲音的振幅大小。這種感受源自物體振動
13、時所產(chǎn)生的壓力,即聲壓。物體振動通過不同的介質(zhì),將其振動能量傳導(dǎo)開去。人們?yōu)榱藢β曇舻母惺芰炕煽梢员O(jiān)測的指標,就把聲壓分成“級”一聲壓級,以便能客觀的表示聲音的強弱,其單位稱為“分貝”(dB)。8.Rhythm,旋律亦稱曲調(diào),是音樂的基本要素。經(jīng)過藝術(shù)構(gòu)思而形成的若干樂器的有組織、有節(jié)奏的和諧運動。它建立在一定調(diào)式和節(jié)拍的基礎(chǔ)上,按一定的音高、時值和音量構(gòu)成的、具有邏輯因素的單聲部進行的。Rhythm是繼MFCCs之后的又一重要音樂特征。9.雖然這也是描述音樂頻率的一個特征,但它并不是對音樂頻率的簡單描述,因為人的聽覺系統(tǒng)可以感知到整體的音樂節(jié)奏,而不單單是當前某一段音樂的頻率。10.Ha
14、rmony_,兩個以上不同的音按一定的法則同時發(fā)聲而構(gòu)成的音響組合。它包含:和弦,是和聲的基本素材,由三個或三個以上和聲上不同的音,根據(jù)三度疊置或其他方法同時結(jié)合構(gòu)成,這是和聲的縱向結(jié)構(gòu);聲進行,指各和弦的先后連接,這是和聲的橫向運動。和聲有明顯的濃、淡、厚、薄的色彩作用,還有構(gòu)成分句、分樂段和終止樂曲的作用。11.Segmentation,將音樂分解成有意義的多個片段,每個片段可以想象成是一個“聲音事件”。這些片段通常會與獨立的音樂標記相對應(yīng),即一個片段對應(yīng)一個標記,在這種情況下,片段可以認為是基于pitch,timbre和energy的。如果一個片段由一系列的標記組成,那么它可以被看作是基
15、于timbre,pitch,rhythm禾口articulation的。12.Duration,音樂的長度,以秒為單位進行統(tǒng)計。商業(yè)樣例展示 豆瓣音樂 潘多拉豆瓣音樂以下簡要分析豆瓣音樂的實現(xiàn)方式,來闡述音樂推薦的流程。1)豆瓣會計算和每首歌最近似的歌曲集合,使用item-based KNN(最近鄰方法)即可;2)豆瓣會為每個用戶維護一個線性的播放列表,可以基于item-baseKNN+user-basedKNN混合構(gòu)建;3)每當用戶對一首歌曲給出正向反饋(標識“紅心”),系統(tǒng)會取出與這首歌相似的歌曲列表中的幾首,插入用戶當前的播放列表(歌曲的特殊性導(dǎo)致用戶在具體某一時刻,只能體驗具體一首歌曲
16、)。4)如果一個用戶給出負向反饋,系統(tǒng)會從這個列表中刪除那些與這首歌相關(guān)性高的歌曲:建議先基于item-basedKNN刪除;如果用戶再次刪除,需要分析一下是否刪除的都是同一曲風風格的歌曲,如果是則刪除后續(xù)所有該曲風的歌曲;如果用戶繼續(xù)刪除,還需要進一步分析,這些歌曲是否是來自歌手或組合,如果是則刪除所有來源相同的歌曲。顯然,在這里系統(tǒng)要能夠支持實時的數(shù)據(jù)分析與推薦結(jié)果的線上調(diào)整。5)豆瓣實現(xiàn)了自更新模塊,主要依賴于內(nèi)部的自動配置協(xié)議,能夠動態(tài)的配置新算法或者一個算法的參數(shù),同時分配一定比例的用戶給一個新的推薦模塊(也就是動態(tài)AB測試)。在進行評測之后,再自動的進行調(diào)整。這個實現(xiàn)倒也不難,但是工程量有點大。6)時間因素:豆瓣似乎會根據(jù)當前的時間來推薦不同的歌曲,例如在工作時間會傾向于推薦一些較為柔和的歌曲;晚間8點推薦一些比較歡快活波甚至激昂的音樂,接近凌晨則推薦一些音域?qū)拸V的音樂。土豪潘多拉 “音樂基因組計劃音樂基因組計劃”:每一首歌都有400種不同的屬性,聘請一位音樂學(xué)家,使用20分鐘給這首歌的所有可能的屬性打分。 而推薦算法的原理是,如果你表示喜歡一首歌,程序會自動尋找跟這首歌的基因相同的歌曲,并猜你也會喜歡。 潘多拉的獨到之處在于它完全可以根據(jù)
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 遼寧省丹東市五校協(xié)作體2025屆高三12月考-化學(xué)試題(含答案)
- 初中數(shù)學(xué)第四章 三角形單元復(fù)習題2024-2025學(xué)年北師大版七年級數(shù)學(xué)下冊
- 2《合理利用網(wǎng)絡(luò)》表格式公開課一等獎創(chuàng)新教學(xué)設(shè)計-3
- 藏族民間舞蹈的文化特征
- 化工安全作業(yè)票培訓(xùn)講座
- 臨時工勞務(wù)派遣合同模板
- 員工服務(wù)合同協(xié)議書
- 人防工程專業(yè)分包合同
- 2025耕地流轉(zhuǎn)合同范本
- 2025年勞動合同書范本
- 采油工程 試題及答案
- 西醫(yī)臨床基因組學(xué)應(yīng)用試題及答案
- T-CECS120-2021套接緊定式鋼導(dǎo)管施工及驗收規(guī)程
- 2024年湖北省武漢市高考數(shù)學(xué)一調(diào)試卷
- 建筑外窗抗風壓性能計算書
- 年產(chǎn)萬噸酒精發(fā)酵車間設(shè)計
- 生物化學(xué)與分子生物學(xué)人衛(wèi)版教材全集
- 照片里的故事
- 土木工程畢業(yè)設(shè)計框架結(jié)構(gòu)教學(xué)樓計算書
- 整理【越南】環(huán)境保護法
- 河北工業(yè)大學(xué)碩士生指導(dǎo)教師(含新申請者)簡況表.
評論
0/150
提交評論