




版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
1、R語言關聯規則可視化:擴展包arulesViz的介紹關聯規則挖掘是一種流行的數據挖掘方法,在R語言中為擴展包arules。然而,挖掘關聯規則往往導致非常多的規則,使分析師需要通過查詢所有的規則才能發現有趣的規則。通過手動篩選大量的規則集是費時費力。在本文中,我們基于探索關聯規則的R擴展包arulesViz,提出幾個已知的和新穎的可視化技術。1、簡介算法步驟這里不做詳細介紹,下面是幾個重要的變量的定義:Supp(X=>Y) = P(X) 支持度Conf(X=>Y) = P(Y|X) 置信度Lift(X=>Y) = CONF(X=>Y)/SUPP(Y) = P(X and
2、Y)/(P(X)P(Y) 提升度(Lift)是避免了一些不平衡數據標簽的偏差性, Lift越大,則數據質量較好;Lift越小,則數據越不平衡。2、數據準備和arulesViz的統一接口使用擴展包arulesViz之前,我們首先需要加載它。這個包會自動加載其他所需要的數據包,如arules。如下面的數據集Groceries包含在arules包里面。> library("arulesViz")> data("Groceries")> summary(Groceries)設置支持度為0.001,置信度為0.5,R語句入下:>&
3、#160;rules <- apriori(Groceries, parameter = list(support = 0.001, confidence = 0.5)> rulesset of 5668 rules結果共找出了5668條規則。按照Lift降序排,最大的三條規則如下:> inspect(head(sort(rules, by = "lift"), 3) lhs rhs support confidence lift1 Instant food products, soda => hamburger meat 0.001220132 0
4、.6315789 18.995652 soda, popcorn => salty snack 0.001220132 0.6315789 16.697793 flour, baking powder => sugar 0.001016777 0.5555556 16.408073、散點圖直接用plot畫出散點圖> plot(rules)圖1從圖1可以看到高lift對應低supp。另外一些科學家認為最有意思的規則在supp/conf的邊沿上,如圖1所示。> head(quality(rules) support confidence lift1 0.001118454
5、0.7333333 2.8700092 0.001220132 0.5217391 2.8365423 0.001321810 0.5909091 2.3126114 0.001321810 0.5652174 2.2120625 0.001321810 0.5200000 2.0350976 0.003660397 0.6428571 2.515917如果我們想個性化plot圖中的坐標的特征,將顏色表示conf,lift為縱標軸,如下所示。圖2> plot(rules, measure = c("support", "lift"), shadin
6、g = "confidence")圖2中的y軸是lift,這里可以比較清晰地看出很多的規則都有高lift。圖3> plot(rules, shading = "order", control = list(main = "Two-key plot")圖3中,supp為x軸,conf為y軸,顏色的深淺表示“order”,例如規則里頻繁項的個數。從圖中可以看出,order和supp有著很強的負相關性。這在關聯規則中也是熟知的。散點圖方法提供了互動功能的選擇和縮放,可以使用interactive=TRUE來實現。 圖4> sel
7、 <- plot(rules, measure = c("support", "lift"), shading = "confidence",+ interactive = TRUE)圖4中選擇了lift較高的幾個點,并且使用inspect按鈕,在終端的界面上便顯示了這些規則。4、基于分組矩陣的可視化基于矩陣的可視化中只能有效處理規則數較少的可視化,因為大的規則集通常也有大量LHS/RHS(左邊的集合/右邊的集合)的限制。在這里,我們引入一個新的可視化技術,通過使用聚類方法將規則分組,可提高基于矩陣的可視化。一個直接的方法來聚類
8、頻繁項集,便是定義兩個項集(Xi和Xj )之間的距離。一個比較好的選擇是使用Jaccard distance。有幾種方法,以聚類關聯規則和頻繁項集解決高維和數據稀疏問題。有的建議要觀察包含在頻繁項集中的項的交易的個數。然而,他對從相同頻繁項集產生的聚類規則有著很強的偏向。由頻繁項集的定義,一個頻繁項集的兩個子集都將適用于許多常見的交易。這種偏見會導致大多只是從集合關聯規則重新發現已知的頻繁項集的結構。為了使分組速度加快并且有效地分為K類,這里使用了K-means聚類方法。這個思路是LHS和RHS統計上是相似的則被歸為一類。相對于頻繁項集的其他聚類結果,這種方法得出含有替代品的分組(如“黃油”和
9、“人造黃油”),這些通常是很少一起購買的,但因為他們有著相似的RHS。相同的分組方法也作用于后項。然而,由于挖掘的規則只得出一個RHS的項集,因此這里沒有組合爆炸的問題,但這樣的分組通常也是不需要的。在可視化圖中,LHS是列,RHS是行,lift是圈的顏色深淺,圈的大小是聚合后的支持度。LHS的個數和分組中最重要(頻繁)項集顯示在列的標簽里。lift從左上角到右下角逐漸減少。> plot(rules, method = "grouped")圖5lift從左上角到右下角的顏色逐漸變小。這里有3條規則包含“Instant food products ”,RHS超過2個其他
10、項集的是“hamburger meat”。組的個數默認是20個,我們也可以通過添加control = list(k = 50)來改變組的個數。5、基于圖的可視化基于圖形的可視化技術,利用頂點代表項或者項目集,和邊表示規則中關系的關聯規則。強度通常使用顏色或者邊的寬度來表示。基于圖形的可視化提供了一個規則非常明確的展示,但他們規則越多則往往容易變得混亂,因此比較可行的是使用非常小的規則集。對于下面的圖,我們選擇了10條具有高lift的規則。> subrules2 <- head(sort(rules, by = "lift"), 10)arulesViz包含了一些基于圖形的可視化展示,使用Rgraphviz擴展包的一些接口。默認的版本點代表項目集,表代表規則項集之間的有向邊 。圖6> plot(subrules2, method = "graph")圖7> plot(subrules2, method = "graph", control = list(type = "items")圖7著重于規則是如何由個別項目組成的,并顯示哪些規則共享的項目。arulesVi
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025中煤水文局集團有限公司社會化招聘26人(雄安有崗)筆試參考題庫附帶答案詳解
- 深度描述符表構建-全面剖析
- 新型船舶動力系統研發方向-全面剖析
- 膽源性胰腺炎預后因素分析-全面剖析
- 電商平臺風險防控策略-全面剖析
- 2024年佳木斯同江市事業單位遴選 管理人員和專業技術人員筆試真題
- 熱力產業政策影響研究-全面剖析
- 環境友好型壓縮機設計-全面剖析
- 行業政策影響預測-全面剖析
- 微服務架構下的自動化管理-全面剖析
- 2025至2030中國射頻芯片市場趨勢展望及需求前景研究報告
- 應急急救知識課件
- 文綜中考試卷及答案解析
- 鼠傷寒沙門菌護理查房
- 2024年江蘇省南京市中考物理試卷真題(含答案)
- K30自動生成及計算試驗記錄
- (完整)教育心理學-各章節重點學習筆記
- 建筑行業施工期間意外傷害免責協議
- 民兵國防知識教育教案
- 毒理學研究新技術應用-深度研究
- DB33T 2202-2019 公安警察院校警務化管理規范
評論
0/150
提交評論