R語言數據挖掘參考模板_第1頁
R語言數據挖掘參考模板_第2頁
R語言數據挖掘參考模板_第3頁
R語言數據挖掘參考模板_第4頁
R語言數據挖掘參考模板_第5頁
已閱讀5頁,還剩20頁未讀 繼續免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

1、 R語言數據挖掘論文題目:數據挖掘實戰之網站智能推薦服務 指導老師: 張 敏 小組成員: 周犬義 王寧 1 / 25數據挖掘實戰之網站智能推薦服務一、背景與挖掘目標伴隨著計算機技術、通信技術的日益成熟和廣泛應用,互聯網自90年代初開始得到迅猛發展,至今雖然只有短短幾十年的時間,但它已經發展成為現今信息時代人類生活中不可或缺的重要組成部分,并成為全球范圍內傳播信息的主要渠道。隨之而來的是互聯網上信息資源越來越豐富,人們要在浩如煙海的“混亂的”互聯網信息世界中找到自己真正感興趣信息卻存在很大的困難,具體表現在:用戶不知道如何貼切表達真正想要的網上資源的需求,也不知道如何去更準確有效地尋找,即所謂的

2、 “信息迷失”問題;和對收到的或已經下載的大量無關的信息難以消化,即所謂的“信息過載”問題。雖然我們可以借助于搜索引擎來檢索Web上的信息,但仍不能滿足不同背景、不同目的和不同時期的查詢要求,因為大多數搜索引擎缺少主動性,沒有考慮用戶的興趣偏好和用戶的不同,無法有效地解決信息過載和信息迷失的問題。為了適應用戶不斷增長的信息需求,有效地解決信息過載和信息迷失給人們帶來的種種問題,研究人員紛紛從人工智能中尋找突破口。在許多探索性研究中,個性化推薦服務作為一種嶄新的智能信息服務方式,應用前景廣泛,十分引人注目。與搜索引擎不同,推薦系統并不需要用戶提供明確的需求,而是通過分析用戶的歷史行為,根據用戶的

3、行為主動推薦能夠滿足他們興趣和需求的信息。因此,對于用戶而言推薦系統和搜索引擎是兩個互補的工具。搜索引擎滿足有明確目的的用戶需求,而推薦系統能夠幫助用戶發現感興趣的內容。因此,在電子商務領域中推薦技術可以起到以下作用:第一,幫助用戶發現其感興趣的物品,節省用戶時間、提升用戶體驗;第二,提高用戶對電子商務網站的忠誠度,如果推薦系統能夠準確地發現用戶的興趣點,并將合適的資源推薦給用戶,用戶就會對該電子商務網站產生依賴,從而建立穩定的企業忠實顧客群,提高用戶滿意度。本案例研究的對象是泰迪智能科技有限公司的泰迪杯競賽網站,泰迪科技是一家專業從事大數據挖掘應用研發、咨詢和培訓服務的高科技企業。泰迪杯競賽

4、網致力于為用戶提供豐富的泰迪杯競賽信息、數據挖掘培訓咨詢服務,并為參賽者提供了往屆優秀作品作為參考,為高校提供了豐富的教學資源,如:案例教程、教學視頻、教學書籍、建模工具等。隨著網站量增大,其數據信息量也在大幅度增長。用戶在面對大量信息時無法及時從中獲取自己需要的信息,對信息的使用效率越來越低。這種瀏覽大量無關信息的過程,造成了用戶需要花費大量的時間才能找到自己需要的信息。為了能更好地滿足用戶需求,依據其網站海量的數據,研究用戶的興趣偏好,分析用戶的需求和行為,發現用戶的興趣點。引導用戶發現自己的信息需求,將網頁精準地推薦給所需用戶,幫助用戶發現他們感興趣但很難發現的網頁信息。為了能夠更好的滿

5、足用戶需求,依據其網站海量的數據,研究用戶的興趣偏好,分析用戶的需求和行為,發現用戶的興趣點,從而引導用戶發現自己的信息需求。行為記錄原始數據:利用read.csv函數把原始數據導入R語言RStudio中,整理數據進行下一步的處理。當用戶訪問網站頁面時,系統會記錄用戶訪問網站的日志,其訪問的數據記錄了訪問序號、內容id、訪問內容、用戶id、ip等多項屬性的記錄,并針對其中的各個屬性進行說明,如表 2-2 所示。表 2-2 訪問記錄屬性表屬性名稱屬性說明屬性名稱屬性說明id訪問序號browser_type瀏覽器類型content_id內容idbrowser_version瀏覽器版本page_pa

6、th網址platform_type平臺類型username用戶名稱platform_series平臺系列userid用戶idplatform_version平臺版本sessionid一次瀏覽標識data_time訪問時間ipip地址mobile_type手機類型country國家agent代理商area區域uniqueVisitorID唯一瀏覽ID依據所提供的原始數據,確定挖掘目標如下:挖掘目標:1、借助大量用戶的訪問記錄,發現用戶的訪問行為習慣,對不同需求的用戶進行相關服務頁面的推薦;2、根據用戶訪問內容、訪問次數等屬性特征,深入了解用戶對訪問網站的行為和目的及關心的內容二、 推薦系統架構總

7、體流程主要步驟:1. 從系統中獲取用戶訪問網站的原始記錄。2. 以用戶訪問jhtml后綴的網頁為關鍵條件,對數據進行處理。3. 對數據進行多維度分析,用戶訪問時間,用戶訪問內容,流失用戶分析以及用戶分群等分析。4. 對數據進行預處理,包含數據去重,數據刪選,數據分類等處理過程。5. 對比多種推薦算法進行推薦,通過模型評價,得到比較好的智能推薦模型。通過模型對樣本數據進行預測,獲得推薦結果數據抽取:1.網頁類型分析 圖一結論:從去掉.jhtml的網址中針對用戶的瀏覽習慣,對教學資源、競賽、企業合作、新聞合作進行分類提取分析,其中教學資源、競賽、企業合作、新聞合作分別占總數的百分比為29.50%、

8、34.50%、9.70%、25.40%,這樣讓我們更深入地去了解用戶需要什么,進而為下一步的推薦提升一定的需要。2.臟數據探索l 臟數據探索一:在記錄中,存在一部分這樣的用戶,他們沒有點擊具體的網頁(.jhtml形式的),點擊的大部分是目錄網頁,總共有12091條記錄,應刪掉這部分。l 臟數據探索二:對數據中存在部分翻頁網址,大量的用戶基本只會選擇瀏覽了25頁后,如果沒有搜索到想要的內容,直接就放棄此次的搜索,很少會選擇瀏覽完全部內容,因為這部分網頁存在首頁,故對數據處理應刪除翻頁部分。3.點擊次數分析點擊次數用戶數用戶百分比記錄百分比1236939.74 5.36 296416.17 4.3

9、6 34707.88 3.19 43906.54 1.80 52654.44 3.00 62023.39 2.74 71682.81 2.66 7次以上113319.01 80.08 分析:1.瀏覽一次的用戶占所有用戶39%左右,記錄數占5%左右;瀏覽七次以上的用戶占所有用戶的80%左右,其中40%的用戶,為網址提供了大約90%的瀏覽量2.對點擊次數最大值進行分析,其大多是關于“Python數據分析與挖掘實戰圖書配套資料下載”的總共2075次。4.網頁點擊數排名排序網址點擊數1/zytj/index.jhtml2469 教學資源2/yxzp/index.jh

10、tml2123 競賽3/ts/661.jhtml2075 教學資源4/notice/757.jhtml1378 新聞公告5/stpj/index.jhtml1296 競賽6/qk/729.jhtml1072 競賽7/ts/654.jhtml 934 教學資源8/jszz/index.jhtml900 競賽9/ts/785.jhtml 838 教學資源10/ts/578.jhtml 831 教學資源11/xtxm/index.jhtml

11、749 企業合作12/notices/index.jhtml 709 新聞公告13/notice/758.jhtml 661 新聞公告14/sj/638.jhtml648 新聞公告15/ts/index.jhtml645 教學資源16/sj/789.jhtml 569 新聞公告17/sm/736.jhtml 513 競賽18/ts/655.jhtml505 教學資源19/ts/747.jhtml 487 教學資源20/cgal/ind

12、ex.jhtml 467 競賽分析:表中可以看出,點擊次數排名前20名中,“教學資源”類占了大部分,其次是“競賽”類,然后是“新聞公告”類。5.同網頁翻頁的點擊數網址點擊數比率/yxzp//yxzp/index_2.jhtml 2750.130/yxzp/index_3./yxzp/index_4.jhtml 110.005/yxzp/index_5./yxzp/index_6.jhtml50.002tipdm

13、.org/stpj//stpj/index_2./stpj/index_3.jhtml530.041分析:同一網頁中登錄次數最多大部分都是從主頁搜索引擎直接收索到的網頁。可了解到用戶進行同網頁翻頁的比例相對較少,會出現用戶衰減的情況。1、如果網頁需要翻的頁數太多,大量的用戶基本只會選擇瀏覽了2-6頁后,沒有搜索到想要的內容,直接就放棄此次的搜索,很少會選擇瀏覽完全部內容。2、通過搜索入口,直接找到需要的幫助,就不需要對網址進行翻頁處理。3、如果翻頁情況比較小,可以建議設置全頁顯示,知識頁面無此功能6.數

14、據處理流程三、數據預處理1.數據清洗, 針對上述歸納的臟數據類型,對原始數據進行數據清洗。刪除數據類型刪除數據記錄原始數據記錄百分比翻頁1277609912.093%亂碼錯誤網址5609910.0081%網站主頁2527609914.143%無.html 120916099119.8%重復網頁165906099127.2%2.數據選擇, 選擇記錄中.jhtml后綴的記錄,并對其進行手動分類處理。類型總記錄數百分比(27612)說明zytj、yxsp、jmgj、information、tsasdf、dsjkf、jiao、jmg、tts、sjfxs、sjsdf790628.63%教學資源jszz、

15、stpj、yxzp、cgal、firsttipdm、secondtipdm、thirdtipdm、954434.56%競賽fourthtipdm、jingsa、kjxm、qk、sdfasf、sm、tdqyal、xtxm、wjxq、zxns、zzszl314511.38%企業合作news、notice、notices、sj786928.50%新聞合作3.數據集成:教學資源競賽 用戶泰迪公司 瀏覽 網頁企業合作新聞公告四、統計分析選取知識內容中的教學資源類型進行分析網址內容點擊次數/ts/661.jhtmlPython數據分析與挖掘實戰2075圖書配套資料下載/

16、ts/654.jhtmlR語言分析與挖掘實戰圖書配套資料下載934/ts/785.jhtml 賈圓圓數據挖掘競賽平臺838/ts/578.jhtmlMatlab分析與挖掘實戰圖書配套資料下載831/ts/655.jhtmlHadoop分析與挖掘實戰圖書配套資料下載505對其中的點擊次數與網頁進行分析。點擊次數網頁個數(87)網頁百分比記錄數(2075)記錄百分比11011.5%100.48%244.6%80.39%33345%90.43%420757080.46%204898.70%分析:通過教學資源網頁類型網頁點擊排名和網頁個數點擊次數可

17、以看出,人們對數據挖掘類比較感興趣,從網頁點擊個數我們可以看出, 點擊4次以上的網頁個數占了80%左右,瀏覽量卻占了98%,因此我們可以考慮,按點擊行為進行分類,分析構建模型算法。四、模型構建與檢驗由于用戶訪問網站的數據記錄很大,如果對數據不進行分類處理,對所有記錄直接采用推薦系統進行推薦,這樣會存在以下問題:Ø 數據量太大意味著物品數與用戶數很多,在模型構建用戶與物品的稀疏矩陣時,出現設備內存空間不夠的情況,并且模型計算需要消耗大量的時間。Ø 用戶區別很大,不同的用戶關注信息不一樣,因此即使能夠得到推薦結果,其推薦效果也會不好。Ø 分析思路基于項目的協同過濾性能

18、:UserCF適用于用戶較少的場合,否則計算用戶相似度矩陣的代價很大;而ItemCF正好相反,適用于項目數明顯小于用戶數的情況實時性:UserCF用戶有新行為,不一定造成推薦結果的立即變化;ItemCF正好相反,一定會導致推薦結果的實時變化長尾物品豐富,用戶個性化需求強烈的領域推薦理由:與UserCF相比,ItemCF利用用戶的歷史行為給用戶做推薦解釋,更容易讓用戶信服 算法流程:關聯規則是從事務數據庫,關系數據庫和其他信息存儲中大量數據的項集之間發現有趣的、頻繁出現的模式、關聯和相關性。更確切的說,關聯規則通過量化的數字描述物品甲的出現對物品乙的出現有多大的影響。推薦結果1:教學資源網頁類型

19、 (部分如下)用戶點擊網推薦網$8//ts/661.jhtml1."/ts/785.jhtml"2. "/ts/654.jhtml"3. "/ts/655.jhtml"4. "/ts/755.jhtml"5."/ts/578.jhtml"$0/ts/661./ts/

20、785./sm/736./notice/760./notice/757.jhtml1."/jmgj/568.jhtml" 2."/ts/646.jhtml" 3."/jmgj/569.jhtml"4."/jmgj/574.jhtml" 5."/jmgj/575.jhtml".$5/ts

21、/785.jhtml1."/ts/661.jhtml" 2."/ts/786.jhtml" 3."/ts/755.jhtml" 4."/ts/654.jhtml"5."/ts/747.jhtml"結果反饋1模型評價:準確率與召回率(Precision & Recall)Precision 就是檢索出來的條目中(網頁)有多少是準確的。Recall就是所有準確的條目有多少被檢索出來了推薦結果2

22、:競賽網頁類型(部分如下)用戶點擊網推薦網$46/td/723./zxns/716.jhtml"/td/374.jhtml" "/sm/736.jhtml" "/td/465.jhtml" "/td/378.jhtml" "/qk/729.jhtml"$0/ts/661./ts/

23、661./sm/736./notice/760.jhtml"/fourthtipdm/774.jhtml" "/fourthtipdm/778.jhtml" "/fourthtipdm/777.jhtml" "/qk/729.jhtml" "/td/723.jhtml"/sm/736.jhtml"/td/7

24、23.jhtml" "/td/465.jhtml" "/td/374.jhtml" "/td/378.jhtml$94" "/qk/729.jhtml"結果反饋模型檢驗2推薦結果3:企業合作網頁類型(部分如下)用戶點擊網推薦網$46/td/723./zxns/716.jhtml"/zxns/773.jhtml"

25、"/wjxq/724.jhtml" "/wjxq/660.jhtml" "/wjxq/516.jhtml" "/zxns/782.jhtml"$61/xtxm//xtxm/index_2.jhtml"/wjxq/728.jhtml" "/zxns/773.jhtml" "tipdm

26、.org/wjxq/725.jhtml" "/zxns/782.jhtml" "/zxns/716.jhtml"$26/fourthtipdm/779./fourthtipdm/778./secondtipdm/493./zzszl/718./kjxm/552.jhtml"/wjxq/725.jhtml" "ti

27、/wjxq/724.jhtml" "/wjxq/660.jhtml" "/zxns/780.jhtml" "/wjxq/516.jhtml"結果反饋模型檢驗3推薦結果4:新聞公告網頁類型(部分如下)用戶點擊網推薦網$0/ts/661./ts/785./sm/736./notice/760./notice/757

28、./fourthtipdm/775./jmgj/576.jhtml"/notice/765.jhtml" "/notice/787.jhtml" "/notice/769.jhtml" "/notice/758.jhtml" "/notice/743.jhtml"$8/sj/789.jhtml"tipd

29、/notice/758.jhtml" "/notice/757.jhtml" "/notice/661.jhtml" "/notice/758.jhtml" "/notice/561.jhtml"$01/notice/757.jhtml"/notice/758.jhtml" "/notice/769.jhtml"

30、; "/notice/760.jhtml" "/sj/789.jhtml" "/news/465.jhtml" 結果反饋模型檢驗4五、結果分析從推薦結果和模型檢驗上得出,不同的用戶對網址點擊的次數有一定的關聯規則,更確切的說,就是通過量化的數字描述物品甲的出現對物品乙的出現有多大的影響,進而真正的了解用戶,從而對用戶進行推薦。從模型的檢驗上看,我們用了三種檢驗方法,即隨機推薦檢驗、熱點推薦檢驗、IBCF推薦檢驗,從檢驗圖形上可以得出熱點推薦對用戶的召回率和精確度更明顯,即隨著推薦個

31、數的增加,用戶被召回的可能性就越低,而針對這個問題我們更應該深入的去了解用戶,給用戶推薦他們真正想要的結果。 六、模型應用當前,隨著互聯網對人們生活影響的不斷增大,每天有數以億計的用戶行為數據被網站記錄。這些數據以隱性信息的方式反映人們的行為習慣、興趣愛好、性格特征,甚至是政治主張。網民每天都在告訴我們,他們到底需要什么。而這也正反映了用戶的需求,可以說誰能讀出用戶的需求,誰就能更好地迎合用戶,獲取更多的流量,其網站的用戶體驗也就越好。 通過用戶使用網站時留下的數據來讀出用戶需求、習慣、愛好。了解到用戶真正需要什么,所以在對于日后的網頁推薦過程中,建議根據不同類型的網頁運用不同的算法

32、進行推薦,即分類推薦,以達到最好的推薦效果。這不但會更好的為用戶提供網頁推薦服務,而且會加大用戶對該公司網頁的點擊量,并在很大程度上方便用戶查找想要的內容。 附錄:data<- read.csv('C:UsersAdministratorDesktoptipdm.initdata.csv',stringsAsFactors = F) #導入原始數據 #采用匹配的方法找出那些帶有.jhtml或.htm形式的網址nf2<-datagrep('.jhtml|.htm',data,'fullurl'), #去除帶%、網站主頁、亂碼類臟數據網址

33、ind1<-nf2-grep('_d+|/index.jhtml|.*%.*|/sj/6.jhtml',nf2,"fullurl"),info<-ind1 ,c('ip','fullurl') #從去除臟數據的數據中提取出ip、fullurl兩列library('plyr')library('recommenderlab')library('registry') #篩選教學資源類網頁ff<-infogrep('zytj

34、|yxsp|jmgj|information|ts|asdf|dsjkf|jiao|jmg|tts|sjfxs|sjsdf',info,"fullurl"), #篩選競賽類網頁ff1<-infogrep('jszz|stpj|yxzp|cgal|firsttipdm|secondtipdm|thirdtipdm|fourthtipdm|jingsa|kjxm|qk|sdfasf|sm|td',info,"fullurl"), #篩選企業合作類網頁ff2<-infogrep('qyal|xtxm|wjxq|zxn

35、s|zzszl',info,"fullurl"), #篩選新聞公告類網頁ff3<-infogrep('news|notice|notices|sj',info,"fullurl"), info1=ddply(ff, .(ip,fullurl), tail, n = 1) #數據去重web=strsplit(info1,2,"/",fixed = TRUE) #對每個LIST型的數據,將其組合成數據框的格式bine=ldply(web,rbind) #獲取知識列表中婚姻類別的數據以及在原始數據中的位置=binewhich(bine,1=""), item_=s(),require(recommenderlab) #將數據轉換為0-1二元型數據,即模型的輸入數據集inf

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論