第8章為挖掘準備數據_第1頁
第8章為挖掘準備數據_第2頁
第8章為挖掘準備數據_第3頁
第8章為挖掘準備數據_第4頁
第8章為挖掘準備數據_第5頁
已閱讀5頁,還剩28頁未讀, 繼續免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

商務數據挖掘與應用案例分析第8章為數據挖掘準備數據

8.1數據統計特征>>

8.2數據預處理>>

2/32每個公司都會存在有類似于冗余數據、錯誤數據、失效數據以及編碼錯誤數據的情況,只是可能存在于IT隱蔽處秘而不宣。這雖然不是新問題,但是現在這種數據混亂卻在一些知名項目里變得更加突出,如在實施企業資源規劃軟件或供應鏈管理軟件(SCM)時,一位工作于波士頓AMR研究機構的分析師約翰·哈格蒂(JohnHagerty)指出:往往當公司把注意力集中在業務流程而非數據的形式和一致性上時,這種問題就出現了。當這種情況發生后,這個公司的IT部門就不得不重新從公司的各個數據庫中凈化、一致化以及集成化數據,然后再存入數據倉庫。殼牌勘探有限公司(ShellExploration)正在吃這樣的苦頭。這家燃料公司希望整合其企業資源,規劃財務數據和若干容量系統產生的數據,后者是處理該公司發現并開采了多少天然氣和石油的計量信息系統。“每個不同的系統都有自己的一系列編碼,”殼牌勘探有限公司位于蘇格蘭Aberdeen的數據倉庫項目經理SteveMutch解釋說,“如果推翻重來,在這些系統里再重新凈化和集成數據并非良策,可能會占用太多的時間,而且花費昂貴?!盡utch換了一種辦法,他找到了Kalido公司的一個軟件工具。在倫敦用這個工具從各個系統里分析和映射數據,然后把這些數據集成到數據倉庫里。在經過了近7個月的數據分析和數據映射工作后,27個數據源被整合在了一個450GB的數據倉庫中。SteveMutch說,其實合作的策略并不賴,每個子公司也不會因此而失去對自身數據的控制權?,F在,他們更加理解了公司作為一個整體進行信息處理的意義?!耙坏┙⒘诉@種概念,我們就感到了來自高層領導的壓力,要求我們從其他一些應用中集成數據,”他說,“他們自己就可以看到現在能從數據倉庫中得到什么信息,而且看到它的功能是多么強大。”資料來源:JameA.O’Brien.IntroductiontoInformationSystem,12thedition,Copyright@2005bytheMcGrawHillCompanies,Inc.開篇案例——殼牌勘探有限公司數據倉庫的商業價值8.1數據統計特征(1)8.1.1頻數和眾數8.1.2百分位數8.1.3中心度量8.1.4散布程度度量8.1數據統計特性(2)4數據統計又稱為匯總統計,用單個數或數的小集合來捕獲大的數據集的各種屬性特征。通常需要數據的中心趨勢和離散程度特征。中心趨勢度量包括均值(mean)、中位數(median)、眾數(mode)和中列數(midrange);而數據離散程度度量包括四分位數(quartiles)、四分位數極差(InterQuartilesRange,IQR)和方差(variance)等。設一個在上取值的分類屬性x和m對象的取值,值的頻率定義為眾數是集合中出現頻率最高的值。對分類屬性來說,眾數可以看成中心趨勢度量;對于連續屬性來說,眾數通常沒有意義。8.1.1頻率和眾數8.1.2百分位數對于有序數據,有時考慮值集的百分位(percentile)更有意義。給定一個有序的或連續的屬性x和0與100之間的數p,數據集合的第p個百分位數一個x值,使得x的p%的觀測值小于。最常用的百分位數是四分位數(quartile)。第一個四分位數記作Q1,是第25個百分位數;第三個四分位數記作Q3,是第75個百分位數。第一個和第三個四分位數之間的距離是分布的一種簡單度量,它給出被數據的中間一半所覆蓋的范圍。該距離稱為中間四分位數極差,定義為IQR=Q3-Q1。8.1.3中心度量(1)數據集“中心”的最常用、最有效的數值度量是均值和中位數。設x1,x2,…,xm是m個值的集合,則該值集的均值和中位數分別定義為:78.1.3中心度量(2)集合中每個值與一個權值相關聯。權值反映對應值的顯著性、重要性或出現頻率。在這種情況下,使用加權算術均值(weightedarithmeticmean):88.1.3中心度量(3)截斷均值:指定0和100間的百分位數p,丟棄高端和低端(p/2)%的數據,然后用常規方法計算均值,所得的結果即是截斷均值。中位數是p=100%時的截斷均值,而標準均值是對應于p=0%的截斷均值。例:計算{1,2,3,4,5,90}值集的均值,中位數和p=40%的截斷均值.解:均值是17.5,中位數是3.5,p=40%時的截斷均值也是3.598.1.4散布程度度量(1)極差和方差是值集的散布度量,表明屬性值是否散布很寬,或者是否相對集中在單個點(如均值)附近。最簡單的散布度量是極差,即最大值和最小值之差假設屬性x具有m個值,其極差定義為:

range(x)=max(x)-min(x)=x(m)-x(1)方差(variance)定義如下:108.1.4散布程度度量(2)因為方差用到了均值,而均值容易被離群值扭曲,所以方差對離群值很敏感。更加穩健的值集散布估計方法:絕對平均偏差(AbsoluteAverageDeviation,AAD)中位數絕對偏差(MedianAbsoluteDeviation,MAD)四分位數極差(InterquartileRange,IQR)118.2數據預處理(1)8.2.1數據清理8.2.2數據集成8.2.3數據變換8.2.4數據歸約128.2數據預處理(2)數據挖掘的目的是在大量的、潛在有用的數據中挖掘出有用的模式或信息,挖掘的效果直接受到源數據質量的影響。高質量的數據是進行有效挖掘的前提,高質量的決定必須建立在高質量的數據上。138.2數據預處理(3)數據清理填寫空缺數據,平滑噪聲數據,識別、刪除離群點,解決不一致性數據集成集成多個數據庫,數據立方體或文件數據變換規范化和數據泛化特征提取和特征構造數據離散化數據歸約得到數據集的壓縮表示及特征選擇通過概念分層和數據離散化來規約數據,對數值數據特別重要148.2數據預處理(4)15數據清理數據集成數據變換數據歸約臟數據“干凈”數據-2,32,100,59,48-0.02,0.32,1.00,0.59,0.48T1T2…T2000A1A2A3…A126T1T3…T1456A1A3…A115為什么要清理數據?現實世界的數據是“骯臟的”不完整的:有感興趣的屬性缺少屬性值含噪聲的:包含錯誤的或是“孤立點”意義:數據清理的目的就是試圖填充缺失值、去除噪聲并識別離群點168.2.1數據清洗(1)存在缺失值數據并不總是完整的引起空缺值的原因有些信息暫時無法獲取某些屬性并不能用于所有對象有些信息是被遺漏的有些信息(被認為)是不重要的要求統計的時間窗口并非對所有數據都適合178.2.1數據清洗(2)缺失值的處理方法忽略元組:當缺少類標號時通常這樣處理(在分類任務中)。除非同一記錄中有多個屬性缺失值,否則該方法不是很有效。忽略屬性列:如果該屬性的缺失值太多,如超過80%,則在整個數據集中忽略該屬性。數據填充:是用一定的值去填充缺失值,如用其余屬性的平均值或最常見值來進行補充等。人工填寫缺失值:通常情況下,該方法費時費力,并且當數據集很大或缺少很多值時,該方法可能行不通。自動填充缺失值:有三種不同的策略。使用一個全局常量填充缺失值,將缺失的屬性值用同一個常數替換。使用與給定記錄屬同一類的所有樣本的均值或眾數填充缺省值。用可能值來代替缺失值:可以用回歸、基于推理的工具或決策樹歸納確定。188.2.1數據清洗(3)噪聲數據的平滑方法噪聲是測量變量的隨機錯誤或偏差。噪聲是測量誤差的隨機部分,包含錯誤或孤立點值。導致噪聲產生的原因有:數據收集的設備故障

數據錄入過程中人的疏忽數據傳輸過程中的錯誤噪聲數據常用分箱的方法平滑:分箱:分箱方法通過考察“鄰居”(即周圍的值)來平滑有序數據的值。198.2.1數據清洗(4)數據平滑實例一組排序后的數據(單位:元):4,8,15,21,21,24,25,31,34,36劃分為等深的箱箱1:4,8,15箱2:21,21,24箱3:25,31,34,36用箱平均值進行平滑箱1:9,9,9箱2:22,22,22箱3:31.5,31.5,31.5,31.5用箱的邊界進行平滑箱1:4,4,15箱2:21,21,24箱3:25,36,36,36208.2.1數據清洗(5)特殊字段的處理有兩種極端的字段需要特殊處理:取值幾乎相同和幾乎都不同的字段。8.2.1數據清洗(5)8.2.2數據集成將兩個或多個數據源中的數據,存放在一個一致的數據存儲設備中。在數據集成時,有許多問題需要考慮,數據一致性和冗余是兩個重要問題。不同表中可能使用不同名稱來指示同一屬性,正如一個人有多個不同的別名或不同的人擁有相同的名字,這樣將導致數據的不一致或沖突。一個屬性是冗余的,如果它能由另一個表“導出”;屬性或維命名的不一致也可能導致數據集中的冗余。228.2.3數據變換(1)聚集:匯總,數據立方體的構建數據泛化:沿概念分層高上匯總規范化:將數據按比例縮放,使之落入一個小的特定區間(消除量綱的影響)最小-最大規范化Z-score規范化小數定標規范化特征構造通過現有屬性構造新的特征,并添加到數據集中數據離散化23(1)數據泛化概念分層通過使用高層的概念(比如:老年,中年,青年)來替代底層的屬性值(比如:實際的年齡數據值)來規約數據概念分層可以用樹來表示,樹的每一個節點代表一個概念(比如:按地區劃分世界)對于數值屬性,概念分層可以根據數據的分布自動地構造,如用分箱、直方圖分析、聚類分析、基于熵的離散化和自然劃分分段等技術生成數據概念分層。對于分類屬性,有時可能具有很多個不同值。減少大量分類值的一個方法是使用代碼屬性而不是代碼本身。這時領域知識通常會有幫助,如果領域知識不能提供有用的指導,或者這樣的方法會導致很差的性能,則需要使用更為經驗性的方法,僅當分組結果能提高分類準確率或達到某種其它數據挖掘目標時,才將值聚集到一起。8.2.3數據變換(2)(2)規范化最小-最大規范化Z-score規范化小數定標規范化258.2.3數據變換(3)(3)特征構造特征提取(FeatureExtraction):由原始數據創建新的特征集特征構造:由一個或多個原始特征共同構造新的特征提取來自單個屬性的特征在記錄內合并數值轉軸正則時間序列匯總交易記錄基于行為變量268.2.3數據變換(4)(4)離散化通過將屬性域劃分為區間,減少給定連續屬性值的個數。區間標號可以代替實際的數據值。等寬離散化方法、等頻離散化方法、近似等頻離散化方法。278.2.3數據變換(5)8.2.4數據歸約(1)從記錄和維度兩個方面減少數據量維歸約特征變換與特征選擇

維規約的好處如果維度較低,許多數據挖掘算法效果會更好。維歸約使模型涉及更少的特征,因而可以產生更容易理解的模型。使用維歸約可以降低數據挖掘算法的時間和空間復雜度。2829(1)特征選擇概念:從一組已知特征集合中選擇最具代表性的特征子集,使其保留原有數據的大部分信息,即所選特征子集可以像原來的特征全集一樣用來正確區分數據集的每個數據對象。通過特征選擇,一些和任務無關或是冗余的特征被刪除,從而提高數據處理的效率。目的:去除不相關和冗余的特征,降低時間空間復雜度,提高數據質量及數據泛化能力。理想的特征

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論