




版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
數據挖掘中的預處理Contents數據挖掘過程概述01數據準備02數據預處理03數據挖掘的對象(1)關系型數據庫、事務型數據庫、面向對象的數據庫;(2)數據倉庫/多維數據庫;(3)空間數據(如地圖信息)(4)工程數據(如建筑、集成電路的信息)(5)文本和多媒體數據(如文本、圖象、音頻、視頻數據)(6)時間相關的數據(如歷史數據或股票交換數據)(7)萬維網(如半結構化的HTML,結構化的XML以及其他網絡信息)數據挖掘的步驟(1)數據清理(消除噪音或不一致數據,補缺);(2)數據集成(多種數據源可以組合在一起);(3)數據選擇(從數據庫中提取相關的數據);(4)數據變換(變換成適合挖掘的形式);(5)數據挖掘(使用智能方法提取數據模式);(6)模式評估(識別提供知識的真正有趣模式);(7)知識表示(可視化和知識表示技術)。Contents數據挖掘過程概述01數據準備02數據預處理03數據準備現實世界的數據是不完整的(有些感興趣的屬性缺少屬性值,或僅包含聚集數據),含噪音的(包含錯誤,或存在偏離期望的異常值),不一致的(例如,用于商品分類的部門編碼存在差異)。需要數據清理、數據集成、數據選擇、數據變換等技術對數據進行處理。
數據準備——維歸約/特征提取決策樹歸約(1)決策樹歸約構造一個類似于流程圖的結構:其每個非葉子結點表示一個屬性上的測試,每個分枝對應于測試的一個輸出;每個葉子結點表示一個決策類。(2)在每個結點,算法選擇“當前對分類最有幫助”的屬性,出現在樹中的屬性形成歸約后的屬性子集。數據準備——維歸約/特征提取粗糙集歸約(1)粗糙集理論在數學意義上描述了知識的不確定性,它的特點是把用于分類的知識嵌入集合內,使分類與知識聯系在一起。(2)知識的粒度、不可分辨關系、上近似、下近似、邊界等概念見下圖。數據準備——維歸約/特征提取粗糙集歸約(3)令Q代表屬性的集合。q∈Q是一個屬性,如果IND(Q?q)=IND(Q),則q在S中不是獨立的;否則稱q在S中是獨立的。(4)若集合滿足IND(R)=IND(Q)且R中的每一個屬性都是獨立的,則R被稱為Q的一個“約簡”,記作R=RED(Q)。(5)約簡可以通過刪除冗余的(不獨立的)屬性而獲得,約簡包含的屬性即為“對分類有幫助”的屬性。數據準備——數據變換歸一化與模糊化有限區間的歸一化:無限區間的歸一化:模糊隸屬度:數據準備——數據變換核函數(1)核函數的基本思想是將在低維特征向量線性不可分的數據映射到線性可分的高維特征空間中去。(2)映射可以是顯式的,也可以是隱式的。顯式映射即找到一個映射關系f,使高維空間的特征向量f(x)可以被直接計算出來。(3)隱式映射,即引入一個核函數進行整體處理,就避免了對的直接求f(x)的計算困難。核函數即某高維特征空間中向量的內積,是核矩陣中的一個元素。(4)并不是所有的實值函數f(x)都可以作為空間映射的核函數,只有f(x)是某一特征空間的內積時,即符合Mercer條件,它才能成為核函數。數據準備——數據變換核函數多項式函數:
高斯(RBF)函數:
多層感知機函數:低維空間向量映射到高維空間向量舉例:
數據準備——數據壓縮離散化離散化的用途:(1)適應某些僅接受離散值的算法;(2)減小數據的尺度。離散化的方法包括幾下幾種。(1)等距分割;(2)聚類分割;(3)直方圖分割;(4)基于熵的分割;(5)基于自然屬性的分割。數據準備——數據壓縮回歸回歸和對數線性模型可以用來近似給定的數據。在線性回歸中,用一條直線來模擬數據的生成規則。多元回歸是線性回歸的擴展,涉及多個預測變量。在多項式回歸中,通過對變量進行變換,可以將非線性模型轉換成線性的,然后用最小平方和法求解。數據準備——數據壓縮回歸利用線性回歸可以為連續取值的函數建模。廣義線性模型則可以用于對離散取值變量進行回歸建模。在廣義線性模型中,因變量Y的變化速率是Y均值的一個函數;這一點與線性回歸不同。常見的廣義線性模型有:對數回歸和泊松回歸。對數回歸模型是利用一些事件發生的概率作為自變量所建立的線性回歸模型。泊松回歸模型主要是描述數據出現次數的模型,因為它們常常表現為泊松分布。數據準備——數據壓縮主成分分析(PCA)PCA算法搜索c個最能代表數據的k-維正交向量;這里c
k。這樣,原來的數據投影到一個較小的空間,導致數據壓縮。步驟如下:(1)對輸入數據歸一化,使得每個屬性都落入相同的區間。(2)PCA計算c個規范正交向量,作為歸一化輸入數據的基。這些是單位向量,每一個都垂直于另一個:稱為主成分。輸入數據是主要成分的線性組合。(3)對主成分按“意義”或強度降序排列,選擇部分主成分充當數據的一組新坐標軸。
數據準備——數據壓縮離散小波變換(DWT)離散小波變換是一種線性信號處理技術。該技術方法可以將一個數據向量轉換為另一個數據向量(為小波相關系數);且兩個向量具有相同長度。可以舍棄轉換后的數據向量中的一些小波相關系數。保留所有大于用戶指定閾值的小波系數,而將其它小波系數置為0,以幫助提高數據處理的運算效率。這一技術方法可以在保留數據主要特征情況下除去數據中的噪聲,因此該方法可以有效地進行數據清洗。給定一組小波相關系數,利用離散小波變換的逆運算還可以近似恢復原來的數據。Contents數據挖掘過程概述01數據準備02數據預處理03數據預處理什么是數據預處理?數據挖掘的前提:真實世界中的數據來源復雜、體積巨大,往往難以避免地存在缺失、噪聲、不一致等問題。為了提高數據挖掘的質量,產生了數據預處理技術。數據和特征決定了機器學習的上限,而所選模型和算法只是去逼近這個上限。數據預處理為什么做數據預處理?通過特征提取,我們能得到未經處理的特征,這時的特征可能有以下問題:不屬于同一量綱:即特征的規格不一樣,不能夠放在一起比較。信息冗余:對于某些定量特征,其包含的有效信息為區間劃分,例如學習成績,假若只關心“及格”或不“及格”,那么需要將定量的考分,轉換成“1”和“0”表示及格和未及格定性特征不能直接使用:某些機器學習算法和模型只能接受定量特征的輸入,那么需要將定性特征轉換為定量特征。存在缺失值:缺失值需要補充。信息利用率低:不同的機器學習算法和模型對數據中信息的利用是不同的。當數據的維數過高時還會存在所謂的“維數災難(Curseofdimensionality)”問題,過高的維度不僅增加了計算量,反而可能會降低算法的效果。數據預處理常見數據預處理方法數據清洗處理數據的某些紀錄值缺失,平滑數據中的噪聲、發現異常值,改正不一致等。數據融合將不同來源的、異質的數據融合到一起。良好的數據融合可以減少數據中的冗余和不一致性,進而提升后續步驟的精度和速度。數據轉換通過平滑聚集,數據概化,規范化等方式將數據轉換成適用于數據挖掘的形式。數據降維將高維度數據化為低維度數據,仍保持原數據的大部分信息,使數據挖掘結果與降維前結果相同或幾乎相同。數據預處理——數據清洗缺失值處理缺失值在實際數據中是不可避免的問題,對于不同的數據場景應該采取不同的策略,首先應該判斷缺失值的分布情況:如果缺失值極少且這個維度信息不重要,一般刪除它們對于整體數據情況影響不大;如果缺失值較多或這個維度的信息還很重要的時候,直接刪除會對后面的算法跑的結果造成不好的影響。數據預處理——數據清洗缺失值處理我們常用的方法有以下幾種:直接刪除——適合缺失值數量較小,并且是隨機出現的,刪除它們對整體數據影響不大的情況;使用一個全局常量填充——譬如將缺失值用“Unknown”等填充,但是效果不一定好,因為算法可能會把它識別為一個新的類別,一般很少用;使用均值或中位數代替:
優點:不會減少樣本信息,處理簡單。缺點:當缺失數據不是隨機數據時會產生偏差,對于正常分布的數據
可以使用均值代替,如果數據是傾斜的,使用中位數可能更好。數據預處理——數據清洗缺失值處理插補法
1)隨機插補法——從總體中隨機抽取某個樣本代替缺失樣本
2)多重插補法——通過變量之間的關系對缺失數據進行預測,例如利用蒙特卡洛方法
生成多個完整的數據集,在對這些數據集進行分析,最后對分析結果進行匯總處理
3)熱平臺插補——指在非缺失數據集中找到一個與缺失值所在樣本相似的樣本(匹配
樣本)利用其中的觀測值對缺失值進行插補。
4)拉格朗日差值法和牛頓插值法建模法——可以用回歸、使用貝葉斯形式化方法的基于推理的工具或決策樹歸納確定。例如,利用數據集中其他數據的屬性,可以構造一棵判定樹,來預測缺失值的值。
以上方法各有優缺點,具體情況要根據實際數據分分布情況、傾斜程度、缺失值所占比例等等來選擇方法。一般而言,建模法是比較常用的方法,它根據已有的值來預測缺失值,準確率更高。數據預處理——數據清洗異常值處理異常值我們通常也稱為“離群點”(outlier),即在樣本空間中,與其他樣本點的一般行為或特征不一致的點。一般可能有如下產生原因:計算的誤差或者操作的錯誤所致,比如:某人的年齡
-999
歲,這就是明顯由誤操作所導致的離群點;數據本身的可變性或彈性所致,比如:一個公司中
CEO
的工資肯定是明顯高于其他普通員工的工資,于是
CEO
變成為了由于數據本身可變性所導致的離群點。注意:離群點不一定是無用數據,它也許正是用戶感興趣的,比如在欺詐檢測領域,那些與正常數據行為不一致的離群點,往往預示著欺詐行為,因此成為執法者所關注的。數據預處理——數據清洗異常值處理常見異常值檢測方法:基于統計分布的離群點檢測
這類檢測方法假設樣本空間中所有數據符合某個分布或者數據模型,然后根據模型采用不和諧校驗(discordancytest)識別離群點。例如:1)3?原則如果數據服從正態分布,在3?原則下,異常值為一組測定值中與平均值的偏差超過3倍標準差的值。如果數據服從正態分布,距離平均值3?之外的值出現的概率為P(|x-u|>3?)<=0.003,屬于極個別的小概率事件。如果數據不服從正態分布,也可以用遠離平均值的多少倍標準差來描述。2)箱型圖分析
箱型圖提供了識別異常值的一個標準:如果一個值小于QL-1.5IQR或大于QU-1.5IQR的值,則被稱為異常值。QL為下四分位數,表示全部觀察值中有四分之一的數據取值比它小;QU為上四分位數,表示全部觀察值中有四分之一的數據取值比它大;IQR為四分位數間距,是上四分位數QU與下四分位數QL的差值,包含了全部觀察值的一半。箱型圖判斷異常值的方法以四分位數和四分位距為基礎,四分位數具有魯棒性:25%的數據可以變得任意遠并且不會干擾四分位數,所以異常值不能對這個標準施加影響。因此箱型圖識別異常值比較客觀,在識別異常值時有一定的優越性。數據預處理——數據清洗異常值處理常見異常值檢測方法:基于距離的離群點檢測通常可以在對象之間定義鄰近性度量,異常對象是那些遠離其他對象的對象。如果樣本空間D中至少有N個樣本點與對象O的距離大于dmin,那么稱對象O是以{至少N個樣本點}和dmin為參數的基于距離的離群點。優點:簡單;缺點:基于鄰近度量的方法需要O(m^2)時間,大數據集不適用;該方法對參數的選擇也是敏感的,不同的距離度量其結果也不一樣;不能處理具有不同密度區域的數據集,因為它使用全局閾值,不能考慮這
種密度的變化。數據預處理——數據清洗異常值處理常見異常值檢測方法:基于密度的局部離群點檢測當一個點的局部密度顯著低于它的大部分近鄰時才將其分類為離群點。適合非均勻分布的數據。不同于基于距離的方法,基于密度的離群點檢測不將離群點看做一種二元性質,即不簡單用YesorNo來斷定一個點是否是離群點,而是用一個權值來評估它的離群度。它是局部的,意思是該程度依賴于對象相對于其領域的孤立情況。這種方法可以同時檢測出全局離群點和局部離群點。優點:給出了對象是離群點的定量度量,并且即使數據具有不同的區域也能夠很好的處理;缺點:基于距離的方法一樣,具有O(m^2)的時間時間復雜度,對于低維數據使用特定的數據結構可
以
達到O(mlogm);參數選擇困難。仍然需要選擇這些離群度的上下界。數據預處理——數據清洗異常值處理處理方法:刪除異常值——明顯看出是異常且數量較少可以直接刪除不處理——如果算法對異常值不敏感則可以不處理,但如果算法對異常值敏感,則最好不要用,如基于距離計算的一些算法,包括kmeans,knn之類的。平均值替代——損失信息小,簡單高效。視為缺失值——可以按照處理缺失值的方法來處理數據預處理——數據清洗數據去重數據重復在實際生活中很常見,在一些數據挖掘模型中,這些冗余的數據加大了數據分析的難度和處理速度,因此需要對數據去重。常見方法:遍歷數據搜索,復雜度高,僅適用于數據規模較小的情形。哈希表示,生成數據指紋,簡單高效,適用于大規模數據,代表算法:1)Bitmap:位圖法2)SimHash:相似哈希3)布隆過濾器數據預處理——數據清洗數據去噪噪聲,是被測量變量的隨機誤差或方差。我們在上文中提到過異常點(離群點),那么離群點和噪音是不是一回事呢?觀測量(Measurement)=真實數據(TrueData)+噪聲(Noise)離群點(Outlier)屬于觀測量,既有可能是真實數據產生的,也有可能是噪聲帶來的,但是總的來說是和大部分觀測量之間有明顯不同的觀測值。噪聲包括錯誤值或偏離期望的孤立點值,但也不能說噪聲點包含離群點,雖然大部分數據挖掘方法都將離群點視為噪聲或異常而丟棄。然而,在一些應用(例如:欺詐檢測),會針對離群點做離群點分析或異常挖掘。而且有些點在局部是屬于離群點,但從全局看是正常的。數據預處理——數據清洗數據去噪常見數據去噪方法分箱法分箱方法通過考察數據的“近鄰”(即周圍的值)來光滑有序數據值。這些有序的值被分布到一些“桶”或箱中。由于分箱方法考察近鄰的值,因此它進行局部光滑。1)用箱均值光滑:箱中每一個值被箱中的平均值替換。2)用箱中位數平滑:箱中的每一個值被箱中的中位數替換。3)用箱邊界平滑:箱中的最大和最小值同樣被視為邊界。箱中的每一個值被最近的邊界值替換。一般而言,寬度越大,光滑效果越明顯。箱也可以是等寬的,其中每個箱值的區間范圍是個常量。分箱也可以作為一種離散化技術使用。回歸法可以用一個函數擬合數據來光滑數據。線性回歸涉及找出擬合兩個屬性(或變量)的“最佳”直線,使得一個屬性能夠預測另一個。多線性回歸是線性回歸的擴展,它涉及多于兩個屬性,并且數據擬合到一個多維面。使用回歸,找出適合數據的數學方程式,能夠幫助消除噪聲。數據預處理——數據融合數據融合就是將不同來源的、異質的數據融合到一起。良好的數據融合可以減少數據中的冗余(redundacies)和不一致性(inconsistence),進而提升后續步驟的精度和速度。數據融合包括如下幾個步驟:實體識別問題(EntityIdentificationProblem)實體識別中最主要的問題匹配不同的數據源中指向現實世界相同實體的紀錄。比如分析有不同銷售員紀錄的17年和18年兩年的銷售數據,由于不同的銷售員有不同的紀錄習慣,顧客的名字紀錄方式并不一樣,一個銷售員喜歡紀錄全名(例如WardellStephenCurryII),另外一個銷售員喜歡將中間名省略(WardellSCurryII),雖然WardellStephenCurryII和WardellSCurryII是現實世界中是同一名顧客,但計算機會識別為兩位不同的顧客,解決這個問題就需要EntityIdentification。一個常用的EntityIndentificationProblem的解決算法是LSH算法。冗余和相關性分析當能夠從樣本的一個或多個屬性推導出另外的屬性的時候,那么數據中就存在冗余。檢測冗余的一種方法是相關性分析——給定要進行檢測的兩個屬性,相關性分析可以給出一個屬性隱含(imply)另外一個屬性的程度。對于標稱型(Nominal)數據,可以使用χ2檢驗,而對于數值數據,可以根據方差和相關系數來分析。當相關系數是正的時候表示屬性A和屬性B正相關,當相關系數是負的時候屬性A和屬性B負相關,注意,相關關系并不等同于因果關系。數據預處理——數據轉換在對數據進行統計分析時,要求數據必須滿足一定的條件,數據轉換就是將數據從一種表示形式變為另一種表現形式的過程。常見的數據轉換方法大致可分為如下幾類:離散化二值化歸一化標準化正則化特征編碼數據預處理——數據轉換離散化有些數據挖掘算法,特別是某些分類算法,要求數據是分類屬性形式。例如,發現關聯模式的算法要求數據是二元屬性形式。這樣,常常需要將連續屬性變換成分類屬性(離散化,discretization),并且連續和離散屬性可能都需要變換成一個或多個二元屬性。此外,如果一個分類屬性具有大量不同值(類別),或者某些值出現不頻繁,則對于某些數據挖掘任務,通過合并某些值減少類別的數目可能是有益的。相比于連續屬性值,離散屬性值有一下優點:①通過離散化數據將被簡化并且減少;②離散特征更容易被理解,使用和解釋;③離散化使學習更加準確,快速;④使用離散特征獲得的結果(如decisiontrees,inductionrules)更加緊湊,簡短,準確,結果更容易進行檢查,比較,使用和重復使用;⑤很多分類學習算法只能處理離散數據。常見離散化方法:1)無監督:分箱法(等寬/等頻)、直觀劃分等2)有監督:1R方法、基于卡方的離散方法、基于熵的離散方法等數據預處理——數據轉換二值化特征二值化是把數值特征轉化成布爾值的過程,其核心在于設定一個閾值,大于閾值的賦值為1,小于等于閾值的賦值為0。這個方法對符合多變量伯努利分布的輸入數據進行預測概率參數很有效。數據預處理——數據轉換歸一化歸一化是一種簡化計算的方式,即將有量綱的表達式,經過變換,化為無量綱的表達式,成為標量。它可將數據縮放至給定的最小值與最大值之間,通常是0與1之間。歸一化常見兩種方式:最小最大值歸一化,將數據歸一化到[0,1]區間絕對值最大歸一化,將數據歸一化到[-1,1]區間數據預處理——數據轉換標準化不同的特征有不同的取值范圍,如線性模型,特征的取值范圍會對最終的結果產生較大的影響,取值范圍不一致會導致模型會更偏向取值范圍較大的特征。標準化通常是為了消除不同屬性或樣本間的不齊性,使同一樣本內的不同屬性間或同一屬性在不同樣本內的方差減小。另外數據的標準化也會加快數據的收斂速度。例如:Z-score標準化:數據預處理——數據轉換正則化通常是為給數據加入某種限制,使其滿足某一特性,常見的:L1正則化(稀疏性):L2正則化(平滑性):數據預處理——數據轉換特征編碼我們經常會遇到一些類別特征,這些特征不是離散型的數值,而是這樣的:[“男性”,“女性”],[“來自歐洲”,“來自美國”,“來自亞洲”],[“使用Firefox瀏覽器”,“使用Chrome瀏覽器”,“使用Safari瀏覽器”,“使用IE瀏覽器”]等等。這種類型的特征可以被編碼為整型(int),如[“男性”,“來自美國”,“使用IE瀏覽器”]可以表示成[0,1,3],[“女性”,“來自亞洲”,“使用Chrome瀏覽器”]可以表示成[1,2,1]。這些整數式的表示不能直接作為機器學習模型的參數,因為我們需要的是連續型的輸入,而且我們通常是有序的翻譯這些特征,而不是所有的特征都是有序化的(譬如瀏覽器就是按人工排的序列)。將這些類別特征轉化成機器學習模型的參數,可以使用的方法是:使用one-of-K或者one-hot編碼(獨熱編碼OneHotEncoding)。它可以把每一個有m種類別的特征轉化成m中二值特征。注意:除了上述所提及的6種數據轉換方法,我們可以根據模型需求和數據特性,自定義轉換方法。數據預處理——數據降維維數災難指在涉及到向量的計算的問題中,隨著維數的增加,計算量呈指數倍增長的一種現象。維度災難最直接的后果就是過擬合現象,而發生該現象最根本的原因是:維度增加時,有限的樣本空間
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 老年肺部感染護理
- 森林火災警示教育
- 簽訂未成年監護人責任合同全指南
- 新進人員院感培訓
- 兩人合資公司設立合同模板
- 蔬菜供應合同樣本
- 化工儀表模擬考試題+參考答案
- 電機學模擬題及參考答案
- 運動生理學模考試題+參考答案
- 學前班數學口算試題
- 標準入庫授權委托書
- 雅駿新能源汽車廢舊動力蓄電池梯次應用項目環境影響報告
- 克雅氏病課件
- 馬原第四章資本主義的本質及規律
- 做自己:大學生職業生涯發展智慧樹知到答案章節測試2023年哈爾濱工程大學
- 中國核工業集團794礦4.6有害氣體中毒事故分析
- 新音樂初放 學堂樂歌說課課件
- 對外漢語教學法智慧樹知到答案章節測試2023年西北師范大學
- 樂泰膠用戶手冊
- 社會工作行政教案
- 通力電梯ctp-10.65s2a kce控制系統
評論
0/150
提交評論