數據挖掘工具_第1頁
數據挖掘工具_第2頁
數據挖掘工具_第3頁
數據挖掘工具_第4頁
數據挖掘工具_第5頁
已閱讀5頁,還剩16頁未讀, 繼續免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

R語言在數據挖掘中的運用進行數據挖掘之前數據集成數據集成:將多個數據源中的數據結合起來存放一個一致的數據存儲的過程數據集成包括數據集成和模式集成。例如:在一個企業的兩個數據源中我們分別以cust-id和customer-no來標識用戶,數據集成時,把標識相同的客戶和在一起A.cust-id==B.customer-no用戶標識的定義不同A表:ID=”23442”B表:ID=”SH23442”String(A.cust-id)==String(B.customer-no).Substr(2,length-2)進行數據挖掘之前-數據預處理數據預處理數據預處理原因:①現實世界的數據是“雜亂的”。②數據挖掘需要高質量的數據。如何對數據進行預處理◆數據清理◆數據轉換◆數據的規約數據清理格式標準化異常數據清除錯誤糾正重復數據的清除處理缺失數據處理重復數據處理噪聲數據處理異常數據目標:提高數據質量的四個環節數據轉換分類:常規數據轉換通常通過線性或非線性的數學變換方法等方式將數據轉換成適用于數據挖掘的形式。非常規數據的數據變換根據數據的特性會有較多的形式各異的轉換方式。數據轉換常見轉換方法:為了減少數據復雜度,用高層概念替換底層概念。專注于數據規范化,是數據按比例縮放,落入特定區域。做屬性構選,通過一個或多個屬性的變換計算構造出新的屬性。數據轉換⑴標準差標準化所謂標準差標準化是將各個記錄值減去記錄值的平均值在除以記錄值的標準差X’=(Xij-Xia)/SinXia為平均值,表達式為Xia=1/n∑Xijj=1n設Sij是標準差有:Si=√1/n∑(Xij-Xia)j=1數據轉換(2)極差標準化極差標準化變換是將各個記錄值減去記錄值的平均值,在除以記錄值的極差。X’ij=(Xij-Xia))/(max(Xij)-min(Xij))(3)極差正規化

X’ij=(Xij-min(Xij))/(max(Xij)-min(Xij))將各個記錄值減去記錄值的極小值,在除以記錄值的極差。數據轉換最小—最大規范化處理將所有數據轉化到我們新設定的最小和最大值的區間內。數據的規約更少的數據,提高挖掘效果更高的數據挖掘處理精度簡單的數據挖掘處理結果更少的數據特征刪除列刪除行減少列中的值效果:由于數據規約對原始數據通常都是有損的,盡量不使用規約?;静僮鳎篟語言簡介R語言基本語法結構標準的和基于各種設備的輸入/輸出面向對象編程方式和數學編程方式分布式計算結構引用程序包數學和統計學各種函數包括:基本數學函數,模擬和隨數產生函數基本統計函數和概率分布函數機器語言學習功能信號處理功能統計學建模和測試功能靜態和動態的圖形展示R語言簡介R語言在數據挖掘中的優勢:最廉價(免費)最全面的算法最完美多樣的數據展示最狂熱的愛好者社區R語言的整個語法結構完全來自S語言,突出兩個特點是:函數或編程和向量化計算。背景特點簡介R語言常用的包CORElearn包:程序包集合了多種分類算法和回歸模型例如:樸素貝葉斯,隨機森林,決策樹,回歸分析等。E1071包:綜合了眾多數數據挖掘的包,其中被使用較多的SUM()函數實現支持向量化。Rpart包:提供有效處理稀疏二元數據的數據結構,而且提供函數用Apriori算法和Edat算法來挖掘頻繁項集最大頻繁項集,閉頻繁項集合和關聯規則。Randomforest包:實現隨機森林算法。ROCR包:是專門用于做模型評估的,可以方便的繪出ROC圖。MATLAB(MATtrixLABoratary)矩陣實驗室功能:①MATLAB將數值分析,矩陣計算,科學數據可視化以及非線性動態系統的建模和仿真等諸多強大功能集成在一個易于使用的視窗環境中。②可以輕易地描繪二維和三維圖形。特點:高效的數學表達式表現方式,數值計算及符號計算功能。語言:MATLAB語言是簡化版的類C++語言。其他商用數據挖掘工具SPSSModeler

支持整個數據挖掘流程,包括從數據獲取,轉化,建模,評估到最終部署的全部過程。SASEnterMiner

可利用具有圖形化的模塊將數據挖掘單元組成處理流程圖并依此來組織數據挖掘的過程。IntellgentMinerforData

它是用來數據挖掘包含在數據庫,數據倉庫和數據中心中的隱含信息,幫助用戶利用傳統數據庫或普通文件中的結構化數據進行數據挖掘。開源數據挖掘工具WekaWeka(WaikatoEnvironmentforknowledgeAnalysis)——全名:懷卡托智能分析環境Weka是用Java語言開發和開源的數據挖掘軟件。Weka可以使用的數據挖掘算法:分類算法,聚類算法和并聯算法。Weka在R語言中時,使用RWeka程序包調用Weka中所有算法。開源數據挖掘工具Weka-四個組成部分Explorer,在該環境中,我們可以實現各種數據挖掘算法,并提供可視法結果。Experimenter:用來做算法實驗的環境,在該環境中,用戶可以創建比較,修改和分析算法。KnowledgeFlow:在“知識流”的環境中,用戶可以把不同組件按照一定順序連接起來,組成知識流用以處理和分析數據。SmpleCLI:簡單的命令行界面。一、SPSS軟件簡介軟件簡介SPSS是StatisticalProgramforSocialSciences的簡稱,即社會科學統計程序,由美國SPSS公司1970年代推出,迄今已有近30年的歷史。是國際著名三大社會科學統計軟件包之一(SAS、SPSS、Statis)。SPSS原是為大型計算機開發的,其版本為SPSSx,80年代初,微機開始普及以后,它率先推出了微機版本(版本為SPSS/PC+x.x),占領了微機市場,大大地擴大了自己的用戶量,我們現在使用的是SPSSforWindows12.0版。軟件簡介與以往的SPSSforDOS版本相比,SPSSforWindows顯得更加直觀易用。首先,它采用現今廣為流行的電子表格形式作數據管理器,使用戶變量命名、定義數據格式、數據

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論