數(shù)據(jù)挖掘2第二章數(shù)據(jù)預(yù)處理_第1頁
數(shù)據(jù)挖掘2第二章數(shù)據(jù)預(yù)處理_第2頁
數(shù)據(jù)挖掘2第二章數(shù)據(jù)預(yù)處理_第3頁
數(shù)據(jù)挖掘2第二章數(shù)據(jù)預(yù)處理_第4頁
數(shù)據(jù)挖掘2第二章數(shù)據(jù)預(yù)處理_第5頁
已閱讀5頁,還剩63頁未讀 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

主要內(nèi)容ECUST--JingZhang1為什么要對數(shù)據(jù)預(yù)處理?描述性數(shù)據(jù)匯總數(shù)據(jù)清理數(shù)據(jù)集成和變換數(shù)據(jù)歸約離散化和概念分層生成小結(jié)為什么要數(shù)據(jù)預(yù)處理?ECUST--JingZhang2真實世界的數(shù)據(jù)是“臟的”不完整:有些感興趣的屬性缺少屬性值,或者僅僅具備聚集數(shù)據(jù),而非具體數(shù)據(jù)噪聲:包含錯誤或者存在偏離期望值的離群值不一致性:在代碼或者名稱上存在差異沒有高質(zhì)量的數(shù)據(jù),也就沒有高質(zhì)量的挖掘結(jié)果!高質(zhì)量的決策必須依賴于高質(zhì)量的數(shù)據(jù)數(shù)據(jù)倉庫也需要高質(zhì)量的數(shù)據(jù)如何衡量數(shù)據(jù)的質(zhì)量?ECUST--JingZhang3如何衡量數(shù)據(jù)的質(zhì)量?準確性(Accuracy)完整性(Completeness)一致性(Consistency)時效性(Timeliness)可信性(Believability)可解釋性(Interpretability)數(shù)據(jù)預(yù)處理中的主要任務(wù)4數(shù)據(jù)清理(Datacleaning)填充缺失值,平滑噪聲數(shù)據(jù),鑒別或者移除離群點,糾正不一致性問題數(shù)據(jù)集成(Dataintegration)從多個數(shù)據(jù)庫,數(shù)據(jù)立方體(cube)或者文件中集成數(shù)據(jù)變換(Datatransformation)規(guī)范化和聚集數(shù)據(jù)歸約(Datareduction)減少數(shù)據(jù)的字段數(shù)目,但是仍然產(chǎn)生相同或者近似的分析結(jié)果數(shù)據(jù)離散化(Datadiscretization)數(shù)據(jù)歸約的一部分,對于從數(shù)值數(shù)據(jù)自動產(chǎn)生概念分層非常有用數(shù)據(jù)預(yù)處理的形式ECUST--JingZhang5數(shù)據(jù)預(yù)處理ECUST--JingZhang6為什么要對數(shù)據(jù)預(yù)處理?描述性數(shù)據(jù)匯總數(shù)據(jù)清理數(shù)據(jù)集成和變換數(shù)據(jù)歸約離散化和概念分層生成小結(jié)描述性數(shù)據(jù)匯總描述性數(shù)據(jù)匯總獲得數(shù)據(jù)的總體印象識別數(shù)據(jù)的典型性質(zhì),凸顯噪聲或離群點度量中心趨勢度量均值(mean)中位數(shù)(median)眾數(shù)(mode)中列數(shù)(midrange)離中心趨勢度量四分位數(shù)(quartiles)四分位數(shù)極差(interquartilerange,IQR)方差(variance)7度量數(shù)據(jù)的中心趨勢均值(Mean)

:代數(shù)度量加權(quán)算術(shù)平均(Weightedarithmeticmean):截斷均值(Trimmedmean):去除極端值注:分布式度量:是一種通過如下方法計算度量:將數(shù)據(jù)集劃分成較小的子集,計算每個子集的度量,然后合并計算結(jié)果,得到原(整個)數(shù)據(jù)集的度量值。如sum(),count()代數(shù)數(shù)量:可以通過應(yīng)用一個代數(shù)函數(shù)于一個或多個分布度量計算的度量。如mean()度量數(shù)據(jù)的中心趨勢中位數(shù)(Median):整體度量如果總數(shù)為奇數(shù),則為中間那個數(shù);如果為偶數(shù),則為中間兩個值的平均值對于已經(jīng)按照某值劃分的組數(shù)據(jù),可以利用插值計算中位數(shù)的近似值:L1是中位數(shù)區(qū)間的下界,N是整個數(shù)據(jù)集的值的個數(shù),是低于中位數(shù)區(qū)間的所有區(qū)間的頻率和,是中位數(shù)區(qū)間的頻率,width是中位數(shù)區(qū)間的寬度。(34)9度量數(shù)據(jù)的中心趨勢眾數(shù)(Mode):整體度量數(shù)據(jù)集中出現(xiàn)頻率最高的值單峰Unimodal,雙峰bimodal,三峰trimodal對于適度傾斜(非對稱)的單峰頻率曲線,有如下經(jīng)驗關(guān)系:中列數(shù)(Midrange):代數(shù)度量數(shù)據(jù)集的最大和最小值的平均值ECUST--JingZhang1004February2023DataMining:ConceptsandTechniques11

對稱數(shù)據(jù)vs.傾斜數(shù)據(jù)對稱與正傾斜和負傾斜數(shù)據(jù)的中位數(shù)、均值和眾數(shù)positivelyskewednegativelyskewedsymmetric12度量數(shù)據(jù)的離散程度極差(range),四分位數(shù)(Quartiles),離群點(outliers)和盒圖(boxplots)Range(極差):max()-min()Quartiles(四分位數(shù)):Q1(25thpercentile),Q3(75thpercentile)Inter-quartilerange(中間四分位數(shù)極差):IQR=Q3–

Q1Fivenumbersummary(五數(shù)概括):min,Q1,median,

Q3,maxBoxplot(盒圖):盒的端點是四分位數(shù);中位數(shù)用盒內(nèi)的線標記;僅當(dāng)最小最大觀測值超過四分位數(shù)不到1.5xIQR時,盒外的兩條線延伸到最小和最大觀測值,否則,胡須出現(xiàn)在四分位數(shù)的1.5xIQR之內(nèi)的最極端的觀測值處終止;離群點單獨表示。Outlier(離群值):通常為高于/低于1.5xIQR的值。13

盒圖分析Five-numbersummaryofadistributionMinimum,Q1,Median,Q3,MaximumBoxplotDataisrepresentedwithaboxTheendsoftheboxareatthefirstandthirdquartiles,i.e.,theheightoftheboxisIQRThemedianismarkedbyalinewithintheboxWhiskers:twolinesoutsidetheboxextendedtoMinimumandMaximumOutliers:pointsbeyondaspecifiedoutlierthreshold,plottedindividually度量數(shù)據(jù)的離散程度方差(Variance)和標準差(standarddeviation)Variance:(algebraic,scalablecomputation)Standarddeviation

σ

isthesquarerootofvarianceσ2作為發(fā)散性度量,標準差的基本性質(zhì)如下σ是關(guān)于均值的發(fā)散,僅當(dāng)選擇均值作為中心度量時使用。僅當(dāng)不存在發(fā)散時,即當(dāng)所有的觀測值具有相同值時,σ=0,否則σ>0。ECUST--JingZhang14數(shù)據(jù)預(yù)處理ECUST--JingZhang15為什么要對數(shù)據(jù)預(yù)處理?描述性數(shù)據(jù)匯總數(shù)據(jù)清理數(shù)據(jù)集成和變換數(shù)據(jù)歸約離散化和概念分層生成小結(jié)數(shù)據(jù)清理ECUST--JingZhang16數(shù)據(jù)清理任務(wù)填充空缺值平滑噪聲數(shù)據(jù)糾正不一致的數(shù)據(jù)空缺值17數(shù)據(jù)不總是可用的很多記錄的許多屬性難以獲取,比如:在銷售數(shù)據(jù)中客戶的收入情況很難掌握。數(shù)據(jù)缺省的原因裝備的故障由于和其他數(shù)據(jù)不一致而被刪除了由于理解錯誤而未被錄入某些數(shù)據(jù)在錄入的時候并不認為是重要的,因此沒錄入沒有注冊歷史或者數(shù)據(jù)改變了…….空缺的數(shù)據(jù)可能需要被推斷出來空缺值18忽略該記錄:當(dāng)類標號缺少時通常這樣做(假定挖掘任務(wù)涉及分類或者描述)。除非元組有多個屬性缺少值,否則該方法不是很有效。當(dāng)每個屬性缺少值的百分比變化很大時,它的性能非常差。人工填寫空缺值:一般地說,該方法很費時,并且當(dāng)數(shù)據(jù)集很大、缺少很多值時,該方法可能行不通。使用一個全局的常量填寫空缺值,例如“unknown”,但是這可能會引入一個新類型?!使用屬性的中心度量(如均值、中位數(shù))填充空缺值使用與給定元組屬同一類的所有樣本的屬性均值或中位數(shù):例如,若將顧客按credit_risk分類,使用具有相同信用度的顧客的平均收入替換income中的空缺值使用最可能的值去填充空缺值:基于推導(dǎo)的使用貝葉斯公式或者決策樹噪聲數(shù)據(jù)ECUST--JingZhang19噪聲(noise):

是一個測量變量中的隨機錯誤或偏差不正確的屬性值可能導(dǎo)致數(shù)據(jù)轉(zhuǎn)換問題技術(shù)限制命名轉(zhuǎn)換過程的不一致性其他需要數(shù)據(jù)清理的數(shù)據(jù)問題重復(fù)記錄不完整數(shù)據(jù)不一致數(shù)據(jù)如何處理噪聲數(shù)據(jù)?ECUST--JingZhang20分箱(binning)首先,把數(shù)據(jù)排序,把排序后數(shù)據(jù)分到等深的箱中接著,用按箱平均值、中心值、邊界值等平滑技術(shù)平滑化數(shù)據(jù)聚類檢測和移除離群點回歸利用回歸函數(shù)填充數(shù)據(jù),從而平滑化數(shù)據(jù)簡單離散化方法:分箱ECUST--JingZhang21等寬劃分將整個區(qū)域劃分成N個相同大小的間隔若A和B是這個屬性的最小值和最大值,則各個間隔的寬度為:W=(B-A)/N.等寬分箱法是最直接的分箱方法但是離群點可能會影響表示傾斜的數(shù)據(jù)并不能夠很好地被處理等深劃分將整個區(qū)域劃分為N個間隔,各個間隔中所包含的樣本數(shù)目大致相同具有較好的數(shù)據(jù)擴展性數(shù)據(jù)平滑的分箱方法22

price的排序后數(shù)據(jù)(美元):4,8,15,21,21,24,25,28,34劃分為(等深的)箱:-箱1:4,8,15-箱2:21,21,24-箱3:25,28,34用箱平均值平滑:-箱1:9,9,9-箱2:22,22,22-箱3:29,29,29用箱邊界值平滑:-箱1:4,4,15-箱2:21,21,24-箱3:25,25,34聚類分析ECUST--JingZhang23回歸ECUST--JingZhang24數(shù)據(jù)預(yù)處理ECUST--JingZhang25為什么要對數(shù)據(jù)預(yù)處理?描述性數(shù)據(jù)匯總數(shù)據(jù)清理數(shù)據(jù)集成和變換數(shù)據(jù)歸約離散化和概念分層生成小結(jié)數(shù)據(jù)集成26數(shù)據(jù)集成將多個數(shù)據(jù)源中的數(shù)據(jù)結(jié)合起來存放在一個一致的數(shù)據(jù)存儲(如數(shù)據(jù)倉庫)中模式集成從不同的數(shù)據(jù)源集成元數(shù)據(jù)實體識別問題:來自多個信息源的現(xiàn)實世界的實體如何才能“匹配”?例如,A.cust-idB.cust-number數(shù)據(jù)沖突的檢測與處理對于現(xiàn)實世界的同一實體,來自不同數(shù)據(jù)源的屬性值可能不同可能原因:不同的表示方式,不同的度量標準,例如公制單位和英制單位處理數(shù)據(jù)集成中的冗余數(shù)據(jù)當(dāng)多個數(shù)據(jù)庫的數(shù)據(jù)集成時,會產(chǎn)生冗余數(shù)據(jù)在不同數(shù)據(jù)庫中,相同的屬性可能具備不同的名稱一個屬性可能由另外一張表的多個字段推導(dǎo)出,例如:年收入有些冗余可以被相關(guān)分析檢測到對多數(shù)據(jù)源中的數(shù)據(jù)進行仔細的數(shù)據(jù)集成,可以減少/避免冗余和矛盾,并且能提高挖掘的速度和質(zhì)量ECUST--JingZhang2728相關(guān)分析(數(shù)值數(shù)據(jù))相關(guān)系數(shù)(Correlationcoefficient)(alsocalledPearson’sproductmomentcoefficient)其中n是元組個數(shù),

分別是p和q的平均值,σp是

σq分別是p和q的標準差,Σ(pq)是pq叉積的和(即,對于每個元組,A的值乘以該元組B的值)。如果rp,q>0,p與q正相關(guān),值越大,相關(guān)性越強.rp,q=0:相互獨立;rp,q<0:負相關(guān)。29相關(guān)分析(離散數(shù)據(jù))Χ2(chi-square)testΧ2

值越大,兩個變量越相關(guān)實際值與期望值差別越大,則其對Χ2

值貢獻越大。相關(guān)性不包含因果性例如:醫(yī)院是的數(shù)量與偷車賊的數(shù)量是相關(guān)的,實際上它們都與另一個變量相關(guān):人口數(shù)量數(shù)據(jù)變換ECUST--JingZhang30平滑:去掉數(shù)據(jù)中的噪聲聚集:對數(shù)據(jù)進行匯總和聚集離散化:數(shù)值屬性的原始值用區(qū)間標簽或概念標簽替換規(guī)范化:將屬性數(shù)據(jù)按比例縮放,使之落入一個小的特定區(qū)間屬性構(gòu)造:由給定的屬性構(gòu)造新的屬性,并添加到屬性集中由標稱數(shù)據(jù)產(chǎn)生概念分層:用高層次概念替換低層次“原始”數(shù)據(jù)。數(shù)據(jù)變換:規(guī)范化31最小-最大規(guī)范化將A的值v映射到區(qū)間[new_minA,new_maxA]中的v’z-score規(guī)范化屬性A的值基于A的平均值和標準差規(guī)范化,A的值v被規(guī)范化為v’。小數(shù)定標規(guī)范化通過移動屬性A的小數(shù)點的位置進行規(guī)范化。小數(shù)點的移動位數(shù)依賴于A的最大絕對值。A的值v被規(guī)范化為v’。其中,j

是使得Max(||)<1的最小整數(shù)。數(shù)據(jù)預(yù)處理ECUST--JingZhang32為什么要對數(shù)據(jù)預(yù)處理?描述性數(shù)據(jù)匯總數(shù)據(jù)清理數(shù)據(jù)集成和變換數(shù)據(jù)歸約離散化和概念分層生成小結(jié)數(shù)據(jù)歸約策略

ECUST--JingZhang33數(shù)據(jù)倉庫可以存儲數(shù)千兆字節(jié)的數(shù)據(jù):在海量數(shù)據(jù)上進行復(fù)雜數(shù)據(jù)分析和數(shù)據(jù)挖掘需要很長時間數(shù)據(jù)歸約數(shù)據(jù)歸約技術(shù)可以用來得到數(shù)據(jù)集的規(guī)約表示,它在規(guī)模上要小得多,但能產(chǎn)生同樣(或幾乎同樣的)的分析結(jié)果數(shù)據(jù)歸約策略維規(guī)約:減少所考慮的隨機變量或?qū)傩缘膫€數(shù)數(shù)量規(guī)約:用替代的、較小的數(shù)據(jù)表示形式替換原數(shù)據(jù)數(shù)據(jù)壓縮:使用變換以得到元數(shù)據(jù)的規(guī)約或壓縮表示。數(shù)據(jù)立方體聚集ECUST--JingZhang34數(shù)據(jù)立方體的最低層為基本方體,最高層為頂點方體,中間層為方體。對應(yīng)于感興趣實體的聚集數(shù)據(jù)數(shù)據(jù)立方體中聚集的多層次進一步減少了要處理數(shù)據(jù)的大小有關(guān)聚集信息的查詢,如果可能的話,應(yīng)當(dāng)使用數(shù)據(jù)立方體回答屬性子集選擇定義:通過刪除不相關(guān)或者冗余的屬性(或維)減少數(shù)據(jù)集目標:找出最小屬性集,使得數(shù)據(jù)類的概率分布盡可能接近原數(shù)據(jù)集的概率分布優(yōu)點:減少了出現(xiàn)在發(fā)現(xiàn)模式上的屬性的數(shù)目,使得模式更易于理解啟發(fā)式方法:逐步向前選擇(空集開始,每次添一最優(yōu)屬性)逐步向后刪除(滿集開始,每次刪一最差屬性)向前選擇和向后刪除的結(jié)合決策樹歸納ECUST--JingZhang35ECUST--JingZhang36決策樹歸納初始屬性集合:{A1,A2,A3,A4,A5,A6}A4?A1?A6?Class1Class2Class1Class2>歸約后的屬性集合:{A1,A4,A6}如何判斷屬性的重要性?ECUST--JingZhang37很多方法,例如:informationgain(ID3)gainratio(C4.5)giniindex2contingencytablestatisticsuncertaintycoefficient維歸約(數(shù)據(jù)壓縮)ECUST--JingZhang38數(shù)據(jù)壓縮分類無損壓縮有損壓縮串壓縮典型的無損壓縮已有廣泛的理論和協(xié)調(diào)的算法但是只允許有限的數(shù)據(jù)操作音頻/圖像壓縮典型的有損壓縮,逐步加細有時可以只重構(gòu)信號的小片斷,而無需重構(gòu)整個信號數(shù)據(jù)壓縮39OriginalDataCompressedDatalosslessOriginalDataApproximatedlossy小波變換40離散小波變換(DWT):一種線性信號處理技術(shù)近似壓縮技術(shù):僅僅保存一小部分最強的小波系數(shù)類似于離散傅立葉變換(DFT),但是DWT是更好的有損壓縮,空間局部性相當(dāng)好方法:輸入數(shù)據(jù)向量的長度L必須是2的整數(shù)冪(必要時可在數(shù)據(jù)向量后加0)每個變換涉及兩個應(yīng)用函數(shù)。第一個使用數(shù)據(jù)平滑,第二個進行加權(quán)差分,產(chǎn)生數(shù)據(jù)的細節(jié)特征兩個函數(shù)作用于輸入數(shù)據(jù)對,產(chǎn)生兩個長度為L/2的數(shù)據(jù)集。一般地,他們分別代表輸入數(shù)據(jù)平滑后的低頻和高頻內(nèi)容兩個函數(shù)遞歸地作用于前面循環(huán)得到的數(shù)據(jù)集,直到結(jié)果集的長度為2由以上迭代得到的數(shù)據(jù)集中選擇值,指定其為數(shù)據(jù)變換的小波系數(shù)。小波變換的優(yōu)點小波空間局部性好,有利于保留局部細節(jié)

對噪音和數(shù)據(jù)的輸入順序不敏感計算復(fù)雜度為O(N),具有較高的計算效率小波變換可以用于高維數(shù)據(jù)小波變換的有損壓縮比當(dāng)前的商業(yè)標準JPEG壓縮好小波變換有許多實際應(yīng)用,包括:指紋圖像壓縮,計算機視覺,時間序列數(shù)據(jù)分析和數(shù)據(jù)清理。ECUST--JingZhang41主成分分析ECUST--JingZhang42假定待壓縮的數(shù)據(jù)由N個元組或者數(shù)據(jù)向量組成,取自k個維。主成分分析(PCA)搜索c(且c<=k)個最能夠代表數(shù)據(jù)的k-維正交向量。元數(shù)據(jù)集被歸約到一個由c個主要成分上的N個數(shù)據(jù)向量構(gòu)成的空間上(維歸約)每一個數(shù)據(jù)矢量都是c個主要成分矢量的線性組合僅僅針對數(shù)值型數(shù)據(jù)對高維數(shù)據(jù)較為有效與小波變換比,PCA能較好地處理稀疏數(shù)據(jù),而小波變換更適合高維數(shù)據(jù)。主成份分析ECUST--JingZhang43基本過程對輸入數(shù)據(jù)規(guī)范化,使得每個屬性都落入相同的區(qū)間。PCA計算c個規(guī)范正交向量,作為規(guī)范化輸入數(shù)據(jù)的基。這些向量被稱為主成份,輸入數(shù)據(jù)是主成份的線性組合。對主成分按“重要性”或強度降序排列。通過去掉較弱的成分來壓縮數(shù)據(jù)。ECUST--JingZhang44X1X2Y1Y2主成分分析數(shù)值規(guī)約ECUST--JingZhang45數(shù)值規(guī)約技術(shù)通過選擇替代的、’較小的‘?dāng)?shù)據(jù)表示形式來減少數(shù)據(jù)量。參數(shù)方法和非參數(shù)方法參數(shù)方法假設(shè)數(shù)據(jù)適合一些模型,評估模型參數(shù),使得只需存放模型參數(shù),而不是實際數(shù)據(jù)(離群點也可能被存放)如對數(shù)線性模型:估計離散的多維概率分布。非參數(shù)方法不必假設(shè)模型主要包括:直方圖,聚類和選樣。回歸和對數(shù)線性模型線性回歸:對數(shù)據(jù)建模,使之適合一條直線兩個參數(shù),α和β確定這條直線,能夠利用手頭的數(shù)據(jù)進行估計通常使用最小平方法來確定直線方程的系數(shù)多元回歸是線性回歸的擴充,相應(yīng)變量是多維特征向量的線性函數(shù)。Y=b0+b1X1+b2X2.對數(shù)線性模型:近似離散的多維概率分布回歸和對數(shù)線性模型都可用于稀疏數(shù)據(jù)。對于高維數(shù)據(jù),回歸可能是計算密集的,而對數(shù)線性模型則可以表現(xiàn)出很好的可伸縮性。ECUST--JingZhang46直方圖一種流行的數(shù)據(jù)歸約技術(shù)把數(shù)據(jù)分成不同的桶,存儲每個桶的平均值劃分規(guī)則等寬等頻(等深)V最優(yōu):具有最小方差的直方圖。直方圖的方差是每個桶代表的原來值的加權(quán)和,其中權(quán)等于桶中值的個數(shù)。MaxDiff:桶的邊界是具有β-1個最大差的對,其中β是用戶指定的桶數(shù)ECUST--JingZhang47聚類ECUST--JingZhang48把數(shù)據(jù)集劃分成聚類,使得類內(nèi)數(shù)據(jù)相似,類間數(shù)據(jù)不相似,從而只存儲聚類的表示如果數(shù)據(jù)是聚集的,聚類技術(shù)將十分有效,而當(dāng)數(shù)據(jù)有噪聲時將失去它的有效性可以層次聚類且被存儲在多維索引樹結(jié)構(gòu)中抽樣ECUST--JingZhang49用數(shù)據(jù)的較小隨機樣本(子集)表示大的數(shù)據(jù)集。選擇數(shù)據(jù)的代表子集簡單隨機取樣在有傾斜數(shù)據(jù)時可能會執(zhí)行得比較差抽樣方法簡單選擇n個樣本,不回放(SRSWOR)簡單選擇n個樣本,回放(SRSWR)聚類抽樣分層抽樣把數(shù)據(jù)庫D劃分為互不相交的部分,稱作“層”,則通過對每一層的簡單隨機取樣就可以得到D的分層選樣當(dāng)數(shù)據(jù)傾斜時,可以幫助確保樣本的代表性抽樣的復(fù)雜性子線性于數(shù)據(jù)的大小。ECUST--JingZhang50抽樣(Sampling)SRSWORSRSWR原始數(shù)據(jù)SRSWOR:簡單選取n個樣本,不回放SRSWR:簡單選取n個樣本,回放聚類抽樣ECUST--JingZhang51原始數(shù)據(jù)聚類抽樣數(shù)據(jù)預(yù)處理ECUST--JingZhang52為什么要對數(shù)據(jù)預(yù)處理?描述性數(shù)據(jù)匯總數(shù)據(jù)清理數(shù)據(jù)集成和變換數(shù)據(jù)歸約離散化和概念分層生成小結(jié)離散化ECUST--JingZhang53屬性的三種類型:標稱屬性—來自無序集中的值序數(shù)屬性—來自有序集的值連續(xù)屬性—實數(shù)離散化:把連續(xù)的屬性值區(qū)間劃分成多個區(qū)間一些分類算法只接受分類屬性通過離散化壓縮數(shù)據(jù)大小為進一步分析作準備離散化和概念分層ECUST--JingZhang54離散化

通過將一個連續(xù)型的屬性劃分成少數(shù)幾個間隔范圍,從而降低取值的數(shù)目。間隔的標簽被用于表示該字段的真實值。概念分層將低級的概念(例如以數(shù)值形式表示年齡字段)轉(zhuǎn)化為更高級別的概念(例如,以青年,中年,老年表示年齡字段)。針對數(shù)值型數(shù)據(jù)的離散化和概念層次化ECUST--JingZhang55分箱(前面已講過)直方圖分析基于熵的離散化基于Χ2(chi-square)分析的區(qū)間合并聚類分析根據(jù)直觀劃分離散化直方圖ECUST--JingZhang56一個常用的非監(jiān)督數(shù)據(jù)規(guī)約技術(shù)將數(shù)據(jù)劃分成多個桶(buckets),并且以平均值(總和)表示每個桶能夠通過動態(tài)規(guī)劃的方法優(yōu)化生成基于熵的離散化利用熵的值遞歸地劃分數(shù)值屬性A的值,產(chǎn)生分層的離散化。給定一個樣本集S,基于熵對A離散化的方法如下:A的每個值可以認為是一個潛在的區(qū)間邊界或閾值T。給定S,所選擇的閾值時這樣的值,它使其后劃分得到的信息增益最大。信息增益是:其中,s1和s2分別對應(yīng)于s中滿足條件A<T和A》T的樣本。對于給定集合,它的熵函數(shù)Ent根據(jù)集合中樣本的類分布來計算。例如,給定m個類,Si的熵為:(pi是類i在Si中的概率)確定閾值的過程遞歸的用于所得到的每個劃分,直到滿足某個終止條件,如:實驗證明基于熵的離散化可以壓縮數(shù)據(jù)量,提高分類的準確性57基于Χ2(chi-square)分析的區(qū)間合并基本思想對于精確的離散化,相對類頻率在一個區(qū)間內(nèi)應(yīng)當(dāng)相當(dāng)一致。如果兩個鄰近的區(qū)間具有非常類似的類分布,則這兩個區(qū)間可以合并。否則,它們應(yīng)該保持分開過程把數(shù)值屬性A的每個不同值看做一個區(qū)間對每對相鄰區(qū)間進行Χ2檢驗把具有最小Χ2值的相鄰區(qū)間合并在一起以上各步遞歸進行,直到滿足預(yù)先定義的終止標準ECUST--JingZhang58聚類ECUST--JingZhang59將數(shù)據(jù)集合劃分為多個簇,然后僅僅以簇代表數(shù)據(jù)如果數(shù)據(jù)本身可以分為多個簇,則較為有效每一個簇可以進一步分成若干子簇,形成較低的概念層。簇可以聚集在一起,以形成分層結(jié)構(gòu)中較高的概念層標稱數(shù)據(jù)的概念分層生成ECUST--JingZhang60由用戶或?qū)<以谀J郊夛@示地說明屬性的部分序通過顯式數(shù)據(jù)分組說明分層結(jié)構(gòu)的一部分說明屬性集,但不說明他們的偏序只說明部分屬性集屬性集的說明ECUST--JingZhang61概念分層可以根據(jù)給定屬性集中每一個屬性的不同屬性值的個數(shù)自動生成。具有最多不同屬性值的屬性放在分層中的最低層數(shù)據(jù)預(yù)處理ECUST--JingZhang62為什么要對數(shù)據(jù)預(yù)處理?描述性數(shù)據(jù)匯總數(shù)據(jù)清理數(shù)據(jù)集成和變換數(shù)據(jù)歸約離散化和概念分層生成小結(jié)小結(jié)ECUST--JingZhang63數(shù)據(jù)預(yù)處理對于數(shù)據(jù)倉庫和數(shù)據(jù)挖掘都是一個重要的問題數(shù)據(jù)預(yù)處理包括數(shù)據(jù)清理和數(shù)據(jù)集成數(shù)據(jù)歸約和特征選擇離散化和概念分層盡管已經(jīng)提出了一些數(shù)據(jù)預(yù)處理的方法,數(shù)據(jù)預(yù)處理仍然是一個活躍研究領(lǐng)域推薦參考文獻ECUST--JingZhang64R.Agrawal,J.Han,andH.Mannila,ReadingsinDataMining:ADatabasePerspective,MorganKaufmann(inpreparation)U.M.Fayyad,G.Piatetsky-Shapiro,P.Smyth,andR.Uthurusamy.AdvancesinKnowledgeDiscoveryandDataMining.AAAI/MITPress,1996U.Fayyad,G.Grinstein,andA.Wierse,InformationVisualizationinDataMiningandKnowledgeDiscovery,MorganKaufmann,2001J.HanandM.Kamber.DataMining:ConceptsandTechniques.MorganKaufmann,2001D.J.

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論