數據預處理與清理數據_第1頁
數據預處理與清理數據_第2頁
數據預處理與清理數據_第3頁
數據預處理與清理數據_第4頁
數據預處理與清理數據_第5頁
已閱讀5頁,還剩31頁未讀 繼續免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

1、1.3 數據預處理與清理數據第一章 數據挖掘概述1數據預處理與清理數據第1頁 1 為何需要數據預處理? 2 數據清洗 3 數據集成與轉換 4 數據歸約 5 數據離散化2數據預處理與清理數據第2頁1 為何需要數據預處理 ? 在現實社會中,存在著大量“臟”數據不完整性(數據結構設計人員、數據采集設備和數據錄入人員) 缺乏感興趣屬性感興趣屬性缺乏部分屬性值僅僅包含聚合數據,沒有詳細數據噪音數據(采集數據設備、數據錄入人員、數據傳輸)數據中包含錯誤信息存在著部分偏離期望值孤立點不一致性(數據結構設計人員、數據錄入人員)數據結構不一致性Label不一致性數據值不一致性3數據預處理與清理數據第3頁數據挖掘

2、數據源可能是多個相互獨立數據源關系數據庫多維數據庫(Data Cube)文件、文檔數據庫數據轉換為了數據挖掘方便海量數據處理數據歸約(在取得相同或者相同結果前提下)4數據預處理與清理數據第4頁沒有高質量數據,就沒有高質量挖掘結果高質量決議必須基于高質量數據基礎上數據倉庫是在高質量數據上集成5數據預處理與清理數據第5頁數據預處理主要任務數據清理填入缺失數據平滑噪音數據確認和去除孤立點處理不一致性數據集成多個數據庫、Data Cube和文件系統集成數據轉換規范化、聚集等數據歸約在可能取得相同或相同結果前提下,對數據容量進行有效縮減數據離散化對于一個特定連續屬性,尤其是連續數字屬性,能夠把屬性值劃分

3、成若干區間,以區間值來代替實際數據值,以降低屬性值個數.6數據預處理與清理數據第6頁數據預處理形式數據清理數據集成數據轉換數據歸約7數據預處理與清理數據第7頁使用屬性平均值填充空缺數值簡單方便、挖掘結果輕易產生不準確結果使用與給定元組同一個類別全部樣本平均值分類非常主要,尤其是分類指標選擇使用最有可能值給予填充利用回歸、基于推導使用貝葉斯形式化方法工具或者判定樹歸納確定利用屬性之間關系進行推斷,保持了屬性之間聯絡缺失數據處理方法8數據預處理與清理數據第8頁噪音數據噪音數據:一個度量(指標)變量中隨機錯誤或者偏差主要原因數據采集設備錯誤數據錄入問題數據傳輸問題部分技術限制數據轉換中不一致 數據清

4、理中所需要處理其它問題重復統計不完整數據不一致數據9數據預處理與清理數據第9頁噪音數據處理分箱(Binning)方法聚類方法檢測并消除異常點線性回歸對不符合回歸數據進行平滑處理人機結合共同檢測由計算機檢測可疑點,然后由用戶確認10數據預處理與清理數據第10頁分箱方法基本思想:經過考查相鄰數據值,來平滑存放數據值基本步驟首先,對數據進行排序,并分配到含有相同寬度/深度不一樣“箱子”中。其次,經過箱子平均值(Means)、中值(Median)、或者邊界值等來進行平滑處理。/10/1011數據預處理與清理數據第11頁分箱(Binning) 方法舉例對數據進行排序: 4, 8, 9, 15, 21,

5、21, 24, 25, 26, 28, 29, 34對數據進行分割(相同深度) :- Bin 1: 4, 8, 9, 15- Bin 2: 21, 21, 24, 25- Bin 3: 26, 28, 29, 34依據bin中平均值進行離散化:- Bin 1: 9, 9, 9, 9- Bin 2: 23, 23, 23, 23- Bin 3: 29, 29, 29, 2912數據預處理與清理數據第12頁基于聚類分析平滑處理13數據預處理與清理數據第13頁經過線性回歸平滑處理xyy = x + 1X1Y1Y114數據預處理與清理數據第14頁數據集成數據集成概念將多個數據源中數據結合起來存放在一個

6、一致數據存放中數據源包含:多個數據庫、多維數據庫和普通文件數據集成也是數據倉庫建設中一個主要問題數據集成內容模式集成利用數據庫和數據倉庫元數據信息主要工作是識別現實世界中實體定義冗余數據處理檢測和處理數值沖突對于現實世界中同一實體,來自于不一樣數據源屬性值可能不一樣主要原因:不一樣數據表示、度量單位、編碼方式以及語義不一樣15數據預處理與清理數據第15頁模式集成數據類型沖突性別:string(Male、Female)、Char(M、F)、Interger(0、1)日期:Date、DateTime、String數據標簽沖突:處理同名異義、異名同義學生成績、分數度量單位沖突學生成績百分制:100

7、0五分制: A 、B、C、D、E字符表示:優、良、及格、不及格概念不清最近交易額:前一個小時、昨天、本周、本月?聚集沖突:根源在于表結構設計 16數據預處理與清理數據第16頁冗余數據處理從多個數據源中抽取不一樣數據,輕易造成數據冗余不一樣屬性在不一樣數據源中是不一樣命名方式有些屬性能夠從其它屬性中導出, 比如:銷售額單價銷售量有些冗余能夠經過相關分析檢測到 其中:n是元組個數, 和 分別是A和B平均值, 和 分別是A和B標準差 元組級“重復”,也是數據冗余一個主要方面降低冗余數據,能夠大大提升數據挖掘性能17數據預處理與清理數據第17頁數據轉換平滑處理: 從數據中消除噪音數據聚集操作: 對數據

8、進行綜合,類似于Data Cube構建數據概化:構建概念層次數據規范化: 將數據集中到一個較小范圍之中最大-最小規范化z-score(零均值)規范化小數范圍規范化(01規范化)屬性結構結構新屬性并添加到屬性集中,以幫助數據挖掘18數據預處理與清理數據第18頁最大-最小規范化對原始數據進行線性變換保持了原始數據值之間關系當有新輸入,落在原數據區之外,該方法將面臨“越界”錯誤受到孤立點影響可能會比較大19數據預處理與清理數據第19頁z-score(零均值)規范化屬性基于平均值和標準差規范化當屬性最大值和最小值未知,或者孤立點左右了最大最小規范化時,該方法有效0-1規范化(小數定標規范化)經過移動屬

9、性小數點位置進行規范化比如A值為125,那么|A|=125,則j=3,有v=0.125。 Where j is the smallest integer such that Max(| |)120數據預處理與清理數據第20頁屬性結構由給定屬性結構并增添新屬性,以幫助提升精度和對高維數據結構了解屬性結構還能夠幫助平緩使用判定算法分類分裂問題比如:Area=Width Height銷售額單價銷售量/10/1021數據預處理與清理數據第21頁數據歸約提出在數據倉庫中可能保留TB級數據,大數據量數據挖掘,可能需要大量時間來完成整個數據數據挖掘。數據歸約在可能取得相同或相同結果前提下,對數據容量進行有效

10、縮減數據歸約方法數據立方體聚集:聚集操作作用于立方體中數據降低數據維度(維歸約):能夠檢測并刪除不相關、弱相關或者冗余屬性或維數據壓縮:使用編碼機制壓縮數據集數值壓縮:用替換、較小數據表示替換或預計數據/10/1022數據預處理與清理數據第22頁數據壓縮數據壓縮:應用數據編碼或變換,方便得到數據歸約或壓縮表示無損壓縮:原數據能夠由壓縮數據重新結構而不丟失任何信息字符串壓縮是經典無損壓縮現在已經有許多很好方法不過它們只允許有限數據操作有損壓縮:只能重新結構原數據近似表示 影像文件壓縮是經典有損壓縮經典方法:小波變換、主要成份分析23數據預處理與清理數據第23頁數值歸約數值歸約:經過選擇替換、“較

11、小”數據表示形式來降低數據量有參方法假設數據符合一些模型,經過評定模型參數,僅需要存放參數,不需要存放實際數據(孤立點也可能被存放)經典方法:對數線性模型,它預計離散多維概率分布無參方法不存在假想模型經典方法:直方圖、聚類和抽樣24數據預處理與清理數據第24頁直方圖類似于分箱技術,是一個流行數據歸約方式將屬性值劃分為不相交子集,或“桶”桶安放在水平軸上,而桶高度(和面積)是該桶所代表值平均頻率。每個桶只表示單個屬性值,則稱其為“單桶”。通常,“桶”表示給定屬性一個連續空間能夠經過編程,動態修改部分參數,進行合理結構。count51015202530123456789101-1011-2021-

12、30510152025132515PricePricecount/10/1025數據預處理與清理數據第25頁數據離散化和概念層次屬性值分類枚舉型有序無序連續型:如 Real類型數據離散化對于一個特定連續屬性,能夠把屬性值劃分成若干區間,以區間值來代替實際數據值,以降低屬性值個數。概念層次利用高層概念(如兒童、青年、中年、老年等)來代替低層實際數據值(實際年紀),以降低屬性值個數。26數據預處理與清理數據第26頁數值數據離散化和概念分層建立方法分箱(Binning)直方圖分析聚類分析方法依據自然分類進行分割/10/1027數據預處理與清理數據第27頁分箱方法:一個簡單離散化技術相同寬度 (距離)

13、數據分割將數據分成N等份,各個等份數據之間含有相同距離假如 A 和 B 分別為屬性值中最大值和最小值,那么各個數據等份之間距離為:W = (B-A)/N.異常點將會飾演很主要角色傾斜數據不能很好處理相同深度 (頻率)數據分割將數據分成N等份,各個等份含有相同數據個數。含有很好可伸縮性適合于數據分類情況28數據預處理與清理數據第28頁離散化:直方圖方法將數據分割到若干個桶之中,用桶中平均值(或求和等)來表示各個桶。能夠經過編程,動態修改部分參數,進行合理結構。count51015202530123456789101-1011-2021-30510152025132515PricePricecou

14、nt/10/1029數據預處理與清理數據第29頁離散化:聚類分析方法將數據按照“類內最大相同度,類間最小相同度標準”對數據進行有效聚類利用聚類中心點來表示該類所包含對象數據聚類將非常有效,不過必須確保數據中沒有噪音數據30數據預處理與清理數據第30頁本節結論數據預處理不論對于數據倉庫和數據挖掘都是非常主要一個步驟數據預處理包含數據清理數據集成數據歸約和特征選取數據離散化數據預處理包括面廣,現已建立了一系列方法,不過當前依然是一個非常活躍研究領域/10/1031數據預處理與清理數據第31頁介紹:可視化數據挖掘可視化: 使用計算機圖形學創建可視化圖像,幫助用戶了解復雜,大規模數據可視化數據挖掘: 使用可視化技術,從大規模數據集中發覺隱含,有用知識過程可視化目標提供對大規模數據集定性了解查看數據中模式,趨勢,結構,不規則性,關系等幫助尋找感興趣區域,為深入定量分析提供適當參數為計算機得出結果提供可視化證實/10/1032數據預處理與清理數據第32頁可視化與數據挖掘結合數據可視化數據挖掘結果可視化數據挖掘過程可視化交互式可視化數據挖掘/10/1033數據預處理與清理數據第33頁數據挖掘過程可視化將數據挖掘各種處理過程用可視化方式展現給用戶,

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論