




版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
數據預處理為什么需要數據預處理?數據清洗數據集成與轉換數據歸約數據離散化與概念層次的構建本章小結2/4/20231為什么需要數據預處理?在現實社會中,存在著大量的“臟”數據不完整性(數據結構的設計人員、數據采集設備和數據錄入人員)
缺少感興趣的屬性感興趣的屬性缺少部分屬性值僅僅包含聚合數據,沒有詳細數據噪音數據(采集數據的設備、數據錄入人員、數據傳輸)數據中包含錯誤的信息存在著部分偏離期望值的孤立點不一致性(數據結構的設計人員、數據錄入人員)數據結構的不一致性Label的不一致性數據值的不一致性2/4/20232為什么需要數據預處理?數據挖掘的數據源可能是多個互相獨立的數據源關系數據庫多維數據庫(DataCube)文件、文檔數據庫數據轉換為了數據挖掘的方便海量數據的處理數據歸約(在獲得相同或者相似結果的前提下)2/4/20233為什么需要數據預處理?沒有高質量的數據,就沒有高質量的挖掘結果高質量的決策必須基于高質量的數據基礎上數據倉庫是在高質量數據上的集成2/4/20234數據預處理的主要任務數據清理填入缺失數據平滑噪音數據確認和去除孤立點解決不一致性數據集成多個數據庫、DataCube和文件系統的集成數據轉換規范化、聚集等數據歸約在可能獲得相同或相似結果的前提下,對數據的容量進行有效的縮減數據離散化對于一個特定的連續屬性,尤其是連續的數字屬性,可以把屬性值劃分成若干區間,以區間值來代替實際數據值,以減少屬性值的個數.2/4/20235數據預處理的形式數據清理數據集成數據轉換數據歸約2/4/20236主要內容為什么需要數據預處理?數據清洗
數據集成與轉換數據歸約數據離散化與概念層次的構建本章小結2/4/20237數據清洗主要任務補充缺失數據識別孤立點,平滑噪音數據處理不一致的數據2/4/20238缺失數據的處理部分數據通常是不可用的在許多元組中部分屬性值為空。如:在客戶表中的客戶收入為空。導致數據缺失的原因數據采集設備的故障由于與其它信息的數據存在不一致性,因此數據項被刪除由于不理解或者不知道而未能輸入在當時數據輸入的時候,該數據項不重要而忽略數據傳輸過程中引入的錯誤缺失數據通常需要經過合理的推斷予以添加2/4/20239缺失數據的處理方法忽略該記錄(元組)通常在進行分類、描述、聚類等挖掘,但是元組缺失類標識時該種方法通常不是最佳的,尤其是缺失數據比例比較大的時候手工填入空缺的值枯燥、費時,可操作性差,不推薦使用使用一個全局的常量填充空缺數值給定一個固定的屬性值如:未知、不祥、Unknown、Null等簡單,但是沒有意義2/4/202310使用屬性的平均值填充空缺數值簡單方便、挖掘結果容易產生不精確的結果使用與給定元組同一個類別的所有樣本的平均值分類非常重要,尤其是分類指標的選擇使用最有可能的值予以填充利用回歸、基于推導的使用貝葉斯形式化的方法的工具或者判定樹歸納確定利用屬性之間的關系進行推斷,保持了屬性之間的聯系缺失數據的處理方法(續)2/4/202311噪音數據噪音數據:一個度量(指標)變量中的隨機錯誤或者偏差主要原因數據采集設備的錯誤數據錄入問題數據傳輸問題部分技術的限制數據轉換中的不一致數據清理中所需要處理的其它問題重復的記錄不完整的數據不一致的數據2/4/202312噪音數據的處理分箱(Binning)的方法聚類方法檢測并消除異常點線性回歸對不符合回歸的數據進行平滑處理人機結合共同檢測由計算機檢測可疑的點,然后由用戶確認2/4/202313處理噪音數據:分箱方法分箱(Binning)方法:基本思想:通過考察相鄰數據的值,來平滑存儲數據的值基本步驟:首先,對數據進行排序,并分配到具有相同寬度/深度的不同的“箱子”中其次,通過箱子的平均值(Means)、中值(Median)、或者邊界值等來進行平滑處理2/4/202314分箱(Binning)方法舉例對數據進行排序:4,8,9,15,21,21,24,25,26,28,29,34對數據進行分割(相同深度):-Bin1:4,8,9,15-Bin2:21,21,24,25-Bin3:26,28,29,34根據bin中的平均值進行離散化:-Bin1:9,9,9,9-Bin2:23,23,23,23-Bin3:29,29,29,292/4/202315基于聚類分析的平滑處理2/4/202316通過線性回歸的平滑處理xyy=x+1X1Y1Y1’2/4/202317主要內容為什么需要數據預處理數據清洗數據集成與轉換數據歸約數據離散化與概念層次的構建本章小結2/4/202318數據集成數據集成的概念將多個數據源中的數據結合起來存放在一個一致的數據存儲中數據源包括:多個數據庫、多維數據庫和一般的文件數據集成也是數據倉庫建設中的一個重要問題數據集成的內容模式集成利用數據庫和數據倉庫的元數據信息主要工作是識別現實世界中的實體定義冗余數據的處理檢測和解決數值沖突對于現實世界中的同一實體,來自于不同數據源的屬性值可能不同主要原因:不同的數據表示、度量單位、編碼方式以及語義的不同2/4/202319數據集成數據集成的概念將多個數據源中的數據結合起來存放在一個一致的數據存儲中數據源包括:多個數據庫、多維數據庫和一般的文件數據集成也是數據倉庫建設中的一個重要問題數據集成的內容模式集成利用數據庫和數據倉庫的元數據信息主要工作是識別現實世界中的實體定義冗余數據的處理檢測和解決數值沖突對于現實世界中的同一實體,來自于不同數據源的屬性值可能不同主要原因:不同的數據表示、度量單位、編碼方式以及語義的不同2/4/202320模式集成數據類型沖突性別:string(Male、Female)、Char(M、F)、Interger(0、1)日期:Date、DateTime、String數據標簽沖突:解決同名異義、異名同義學生成績、分數度量單位沖突學生成績百分制:100~0五分制:A、B、C、D、E字符表示:優、良、及格、不及格概念不清最近交易額:前一個小時、昨天、本周、本月?聚集沖突:根源在于表結構的設計
2/4/202321冗余數據的處理從多個數據源中抽取不同的數據,容易導致數據的冗余不同的屬性在不同的數據源中是不同的命名方式有些屬性可以從其它屬性中導出,例如:銷售額=單價×銷售量有些冗余可以通過相關分析檢測到其中:n是元組的個數,和分別是A和B的平均值,和分別是A和B的標準差元組級的“重復”,也是數據冗余的一個重要方面減少冗余數據,可以大大提高數據挖掘的性能2/4/202322數據轉換平滑處理:從數據中消除噪音數據聚集操作:對數據進行綜合,類似于DataCube的構建數據概化:構建概念層次數據規范化:將數據集中到一個較小的范圍之中最大-最小規范化z-score(零-均值)規范化小數范圍規范化(0–1規范化)屬性構造構造新的屬性并添加到屬性集中,以幫助數據挖掘2/4/202323數據轉換:規范化最大-最小規范化對原始數據進行線性變換保持了原始數據值之間的關系當有新的輸入,落在原數據區之外,該方法將面臨“越界”錯誤受到孤立點的影響可能會比較大2/4/202324數據轉換:規范化(續)z-score(零-均值)規范化屬性基于平均值和標準差規范化當屬性的最大值和最小值未知,或者孤立點左右了最大-最小規范化時,該方法有效0-1規范化(小數定標規范化)通過移動屬性的小數點位置進行規范化例如A的值為125,那么|A|=125,則j=3,有v=0.125。WherejisthesmallestintegersuchthatMax(||)<12/4/202325屬性構造由給定的屬性構造并增添新的屬性,以幫助提高精度和對高維數據結構的理解屬性結構還可以幫助平緩使用判定算法分類的分裂問題例如:Area=Width×Height銷售額=單價×銷售量2/4/202326主要內容為什么需要數據預處理?數據清洗數據集成與轉換數據歸約數據離散化與概念層次的構建本章小結2/4/202327主要內容為什么需要數據預處理?數據清洗數據集成與轉換數據歸約數據離散化與概念層次的構建本章小結2/4/202328數據歸約的提出在數據倉庫中可能保存TB級的數據,大數據量的數據挖掘,可能需要大量的時間來完成整個數據的數據挖掘。數據歸約在可能獲得相同或相似結果的前提下,對數據的容量進行有效的縮減數據歸約的方法數據立方體聚集:聚集操作作用于立方體中的數據減少數據維度(維歸約):可以檢測并刪除不相關、弱相關或者冗余的屬性或維數據壓縮:使用編碼機制壓縮數據集數值壓縮:用替代的、較小的數據表示替換或估計數據2/4/202329DataCube的聚集“基點方體”“頂點方體”DataCube中的多個層次的聚集進一步縮減所要處理的數據量當響應OLAP查詢或者數據挖掘時,應當使用與給定任務相關的“最小方體”2/4/202330維歸約(特征提取)維歸約:通過刪除不相關的屬性(或維)減少數據量特征選取(屬性子集的選取):選取最小的特征屬性集合,得到的數據挖掘結果與所有特征參加的數據挖掘結果相近或完全一致特征提取,對于d個屬性來說,具有2d個可能的子集2/4/202331維歸約的主要方法利用啟發式的方法來減少數據維度(隨著維度的增長數據量將呈指數級別增長):逐步向前選擇:維數逐步增多的方法(每次增添“最好”的屬性)逐步向后選擇:維數逐步減少的方法(每次刪除“最差”的屬性)兩者組合的方法判定樹歸納方法(ID3,C4.5)2/4/202332基于判定樹歸納的方法Initialattributeset:{A1,A2,A3,A4,A5,A6}A4?A1?A6?Class1Class2Class1Class2>Reducedattributeset:{A1,A4,A6}YYYNNN2/4/202333數據壓縮數據壓縮:應用數據編碼或變換,以便得到數據的歸約或壓縮表示無損壓縮:原數據可以由壓縮數據重新構造而不丟失任何信息字符串壓縮是典型的無損壓縮現在已經有許多很好的方法但是它們只允許有限的數據操作有損壓縮:只能重新構造原數據的近似表示影像文件的壓縮是典型的有損壓縮典型的方法:小波變換、主要成分分析2/4/202334數值歸約數值歸約:通過選擇替代的、“較小”的數據表示形式來減少數據量有參的方法假設數據符合某些模型,通過評估模型參數,僅需要存儲參數,不需要存儲實際數據(孤立點也可能被存放)典型方法:對數線性模型,它估計離散的多維概率分布無參的方法不存在假想的模型典型方法:直方圖、聚類和抽樣2/4/202335直方圖類似于分箱技術,是一種流行的數據歸約方式將屬性值劃分為不相交的子集,或“桶”桶安放在水平軸上,而桶的高度(和面積)是該桶所代表的值的平均頻率。每個桶只表示單個屬性值,則稱其為“單桶”。通常,“桶”表示給定屬性的一個連續空間可以通過編程,動態修改部分參數,進行合理構造。count51015202530123456789101-1011-2021-30510152025132515PricePricecount2/4/202336主要內容為什么需要數據預處理?數據清洗數據集成與轉換數據歸約數據離散化與概念層次的構建本章小結2/4/202337數據離散化和概念層次屬性值分類枚舉型有序的無序的連續型:如Real類型數據離散化對于一個特定的連續屬性,可以把屬性值劃分成若干區間,以區間值來代替實際數據值,以減少屬性值的個數。概念層次利用高層的概念(如兒童、青年、中年、老年等)來代替低層的實際數據值(實際年齡),以減少屬性值的個數。2/4/202338數值數據的離散化和概念分層建立的方法分箱(Binning)直方圖分析聚類分析的方法根據自然分類進行分割2/4/202339分箱方法:一種簡單的離散化技術相同寬度(距離)數據分割將數據分成N等份,各個等份數據之間具有相同的距離如果A和B分別為屬性值中的最大值和最小值,那么各個數據等份之間的距離為:W=(B-A)/N.異常點將會扮演很重要的角色傾斜的數據不能很好的解決相同深度(頻率)數據分割將數據分成N等份,各個等份具有相同的數據個數。具有較好的可伸縮性適合于數據分類的情況2/4/202340離散化:直方圖方法將數據分割到若干個桶之中,用桶中的平均值(或求和等)來表示各個桶。可以通過編程,動態修改部分參數,進行合理構造。count51015202530123456789101-1011-2021-30510152025132515PricePricecount2/4/202341離散化:聚類分析方法將數據按照“類內最大相似度,類間最小相似度的原則”對數據進行有效聚類利用聚類的中心點來表示該類所包含的對象數據聚類將非常有效,但是必須保證數據中沒有噪音數據2/4/202342按照自然分類進行數據分割利用3-4-5法則對數字型數據分類,將數據分成若干個“自然”的區間:如果在所有數字的最高位覆蓋3,6,7或9個不同的值,則將數據分成3段。3(1,1,1)6(2,2,2)7(2,3,2)9(3,3,3)如果在所有數字的最高位覆蓋2,4,8個不同的值,則將數據分成4段。如果在所有數字的最高位覆蓋1,5,10個不同的值,則將數據分成5段。2/4/2023433-4-5法則舉例例1:包含數據:101、110、203、222、305、315方法:最高位包含3個值(1、2、3)分成[100,200),[200,300),[300,400)三段例2:包含數據:101、110、103、422、
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 追責權利協議書
- 男士離婚協議書
- 美妝學徒協議書
- 廣告帶制作合同協議書
- 小產權買賣合同協議書
- 舊改房買賣合同協議書
- 蘋果充電協議書
- 空調經銷協議書
- 房屋翻改造合同協議書
- 合建自建房合同協議書
- 2025-2030中國無人機行業市場發展分析及前景預測與投資研究報告
- 銀行資產負債管理的重要性試題及答案
- 培訓課件 -2024安全生產月安全生產知識手冊
- 天津市武清區高中學2025屆高三3月份第一次模擬考試化學試卷含解析
- (2025)全國交管12123學法減分測試題庫及答案(帶圖版)
- 人教版數學八年級下冊期末復習試卷
- 高等數學(慕課版)教案 教學設計-5.4 定積分的應用;5.5 反常積分
- 車載感知與融合算法-深度研究
- 乙狀結腸癌相關知識
- 《鼴鼠的月亮河》閱讀測試題及答案
- 醫學生青年紅色筑夢之旅項目計劃書
評論
0/150
提交評論