




版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1、數(shù)據(jù)清洗和數(shù)據(jù)預(yù)處理熵值歸一化方法抽樣方法 掃地機(jī) / wenku1教學(xué)目標(biāo)認(rèn)識(shí)數(shù)據(jù)挖掘前數(shù)據(jù)進(jìn)行適當(dāng)處理的必要性掌握常用數(shù)據(jù)預(yù)處理的方法。 教學(xué)要求知識(shí)要點(diǎn)能力要求相關(guān)知識(shí)點(diǎn)數(shù)據(jù)預(yù)處理的原因(1) 了解原始數(shù)據(jù)存在的主要問(wèn)題(2) 明白數(shù)據(jù)預(yù)處理的作用和工作任務(wù)(1) 數(shù)據(jù)的一致性問(wèn)題(2)數(shù)據(jù)的噪聲問(wèn)題(3)原始數(shù)據(jù)的不完整和高維度問(wèn)題數(shù)據(jù)預(yù)處理的方法(1) 掌握數(shù)據(jù)清洗的主要任務(wù)與常用方法(2) 掌握數(shù)據(jù)集成的主要內(nèi)容和常用方法(3) 掌握數(shù)據(jù)變換的主要內(nèi)容和常用方法(4)掌握數(shù)據(jù)歸約的主要內(nèi)容和常用方法(1) 數(shù)據(jù)清洗(2) 數(shù)據(jù)集成(3) 數(shù)據(jù)變換(4) 數(shù)據(jù)歸約為什么要預(yù)處理數(shù)據(jù)?
2、現(xiàn)實(shí)世界的數(shù)據(jù)是“骯臟的” 不完整的含噪聲的不一致的沒有高質(zhì)量的數(shù)據(jù),就沒有高質(zhì)量的挖掘結(jié)果高質(zhì)量的決策必須依賴高質(zhì)量的數(shù)據(jù)數(shù)據(jù)倉(cāng)庫(kù)需要對(duì)高質(zhì)量的數(shù)據(jù)進(jìn)行一致地集成原始數(shù)據(jù)中存在的問(wèn)題1.不一致數(shù)據(jù)內(nèi)涵出現(xiàn)不一致情況2.重復(fù)3.不完整感興趣的屬性沒有值4.含噪聲數(shù)據(jù)中存在著錯(cuò)誤、或異常(偏離期望值)的數(shù)據(jù)5.高維度 數(shù)據(jù)預(yù)處理的方法1.數(shù)據(jù)清洗去掉噪聲和無(wú)關(guān)數(shù)據(jù) 2.數(shù)據(jù)集成將多個(gè)數(shù)據(jù)源中的數(shù)據(jù)結(jié)合起來(lái)存放在一個(gè)一致的數(shù)據(jù)存儲(chǔ)中3.數(shù)據(jù)變換把原始數(shù)據(jù)轉(zhuǎn)換成為適合數(shù)據(jù)挖掘的形式 4.數(shù)據(jù)歸約主要方法包括:數(shù)據(jù)立方體聚集,維歸約,數(shù)據(jù)壓縮,數(shù)值歸約,離散化和概念分層等 數(shù)據(jù)清洗數(shù)據(jù)選取參考原則:1
3、.盡可能賦予屬性名和屬性值明確的含義2.統(tǒng)一多數(shù)據(jù)源的屬性值編碼3.去除惟一屬性4.去除重復(fù)屬性5.去除可忽略字段6.合理選擇關(guān)聯(lián)字段進(jìn)一步處理:通過(guò)填補(bǔ)遺漏數(shù)據(jù)、消除異常數(shù)據(jù)、平滑噪聲數(shù)據(jù),以及糾正不一致的數(shù)據(jù),去掉數(shù)據(jù)中的噪音、填充空值、丟失值和處理不一致數(shù)據(jù) 數(shù)據(jù)清洗處理空缺值數(shù)據(jù)并不總是完整的在分析一個(gè)商場(chǎng)銷售數(shù)據(jù)時(shí),發(fā)現(xiàn)有多個(gè)記錄中的屬性 值為空,如:顧客的收入屬性對(duì)于為空的屬性值引起空缺值的原因設(shè)備異常與其他已有數(shù)據(jù)不一致而被刪除因?yàn)檎`解而沒有被輸入的數(shù)據(jù)在輸入時(shí),有些數(shù)據(jù)應(yīng)為得不到重視而沒有被輸入對(duì)數(shù)據(jù)的改變沒有進(jìn)行日志記載數(shù)據(jù)清洗處理空缺值空缺值要經(jīng)過(guò)推斷而補(bǔ)上1.忽略該記錄2
4、.去掉屬性 3.手工填寫空缺值4.使用默認(rèn)值5.使用屬性平均值6.使用同類樣本平均值 7.預(yù)測(cè)最可能的值數(shù)據(jù)清洗噪聲數(shù)據(jù)的處理噪聲:在測(cè)量一個(gè)變量時(shí)可能出現(xiàn)的測(cè)量值相對(duì)于真實(shí)值的偏差或者錯(cuò)誤。噪聲數(shù)據(jù)的處理分箱分箱:把待處理的數(shù)據(jù)按照一定的規(guī)則放進(jìn)一些箱子中,考察每一個(gè)箱子中的數(shù)據(jù),采用某種方法分別對(duì)各個(gè)箱子中的數(shù)據(jù)進(jìn)行處理。箱子:按照屬性值劃分的子區(qū)間,如果一個(gè)屬性值處于某個(gè)子區(qū)間范圍內(nèi),就稱把該屬性值放進(jìn)這個(gè)子區(qū)間代表的“箱子”里。分箱技術(shù)需要確定的主要問(wèn)題:分箱方法,即如何分箱數(shù)據(jù)平滑方法,即如何對(duì)每個(gè)箱子中的數(shù)據(jù)進(jìn)行平滑處理噪聲數(shù)據(jù)的處理分箱分箱的方法:分箱前對(duì)記錄集按目標(biāo)屬性值的大小
5、進(jìn)行排序。等深分箱法 等寬分箱法 用戶自定義區(qū)間 最小熵例:客戶收入屬性income排序后的值(人民幣元):800 1000 1200 1500 1500 1800 2000 2300 2500 2800 3000 3500 4000 4500 4800 5000噪聲數(shù)據(jù)的處理分箱等深分箱法(統(tǒng)一權(quán)重 )按記錄行數(shù)分箱,每箱具有相同的記錄數(shù),每箱記錄數(shù)稱為箱的權(quán)重,也稱箱子的深度。設(shè)定權(quán)重(箱子深度)為4,上述例子分箱后的結(jié)果如下。箱1:800 1000 1200 1500箱2:1500 1800 2000 2300 箱3:2500 2800 3000 3500箱4:4000 4500 480
6、0 5000噪聲數(shù)據(jù)的處理分箱等寬分箱法(統(tǒng)一區(qū)間)在整個(gè)屬性值的區(qū)間上平均分布,即每個(gè)箱的區(qū)間范圍是一個(gè)常量,稱為箱子寬度。設(shè)定區(qū)間范圍(箱子寬度)為1000元人民幣,分箱后箱1:800 1000 1200 1500 1500 1800箱2:2000 2300 2500 2800 3000箱3:3500 4000 4500箱4:4800 5000 噪聲數(shù)據(jù)的處理分箱最小熵使在各區(qū)間分組內(nèi)的記錄具有最小的熵。 信息是信號(hào)、符號(hào)或消息所表示的內(nèi)容,用以消除對(duì)客觀事物認(rèn)識(shí)的不確定性信息量的直觀定義:信息量的大小取決于信息內(nèi)容消除人們認(rèn)識(shí)的“不確定程度”,所消除的不確定程度越大,則所包含的信息量就越
7、大。 熵信息的度量(利用概率來(lái)度量)A到1000人的學(xué)校去找B。傳達(dá)室人告訴他,“B是信息管理系”,而管理系有100人。他獲得的信息是100/10000.1,也就是將可能性空間縮小到原來(lái)的1/10.用概率來(lái)表示:log(1/10)=log10又有人告訴他:B在信息管理與信息系統(tǒng)教研室(10人),則第2個(gè)信息的確定性又縮小到原來(lái)的100/1000*10/100=10/1000,其信息量為-log100/1000 + (-log10/1000) = -log10/1000 =log100只要可能性范圍縮小了,獲得的信息量總是正的。如果為0,獲得的信息為。如果為負(fù),反而擴(kuò)大了其可能性范圍。熵信息的度
8、量信息量大小的單位用比特來(lái)衡量。1比特的信息量是指含有兩個(gè)獨(dú)立均等概率狀態(tài)的事件所具有的不確定性能被全部消除所需要的信息。信息量:H(x)=- P(Xi)log2P(Xi) i=1,2,3,n 其中Xi表示第i個(gè)狀態(tài)(共n個(gè)狀態(tài));P(Xi)代表出現(xiàn)第i個(gè)狀態(tài)時(shí)的概率;H(x)為消除不確定性所需的信息量,單位為比特(bit)。例如:幣下落可能有正反兩種狀態(tài),出現(xiàn)這兩種狀態(tài)的概率都是1/2,即:則,H(x)=-P(X1)log2P(X1)+P(X2)log2P(X2)=-(-0.5-0.5) =1比特。同理可得,投擲均勻正六面體骰子的H(X)2.6比特。 例子硬幣下落:硬幣下落可能有正反兩種狀態(tài)
9、,出現(xiàn)這兩種狀態(tài)的概率都是1/2。如果需要消除其不確定性,則就需要信息量:H(x)=-P(X1)log2P(X1)+P(X2)log2P(X2) =-(-0.5-0.5) =1比特為1比特的信息。例2:張三到4000人的企業(yè)去找李四。當(dāng)企業(yè)人事部門告訴張三:“李四是第四車間的”,而第四車間有1000人,如果第四車間的人告訴張三,李四在第三班,第三班共有125位員工,計(jì)算張三所獲得的信息量?噪聲數(shù)據(jù)的處理分箱用戶自定義區(qū)間 用戶根據(jù)需要自定義區(qū)間。用戶自定義:如將客戶收入劃分為1000元以下、10002000、20003000、30004000和4000元以上幾組,分箱后箱1:800 箱2:10
10、00 1200 1500 1500 1800 2000 箱3:2300 2500 2800 3000 箱4:3500 4000 箱5:4500 4800 5000 噪聲數(shù)據(jù)的處理平滑處理分箱后對(duì)數(shù)據(jù)進(jìn)行平滑處理3種進(jìn)行數(shù)據(jù)平滑方法: 按平均值平滑 對(duì)同一箱值中的數(shù)據(jù)求平均值,用平均值替代該箱子中的所有數(shù)據(jù)。 按邊界值平滑 用距離較小的邊界值替代箱中每一數(shù)據(jù)。 按中值平滑 取箱子的中值,用來(lái)替代箱子中的所有數(shù)據(jù)。 噪聲數(shù)據(jù)的處理聚類簇:一組數(shù)據(jù)對(duì)象集合。同一簇內(nèi)的所有對(duì)象具有相似性,不同簇間對(duì)象具有較大差異性。聚類:將物理的或抽象對(duì)象的集合分組為由不同簇,找出并清除那些落在簇之外的值(孤立點(diǎn)),
11、這些孤立點(diǎn)被視為噪聲。通過(guò)聚類分析發(fā)現(xiàn)異常數(shù)據(jù):相似或相鄰近的數(shù)據(jù)聚合在一起形成了各個(gè)聚類集合,而那些位于這些聚類集合之外的數(shù)據(jù)對(duì)象,自然而然就被認(rèn)為是異常數(shù)據(jù)。特點(diǎn):直接形成簇并對(duì)簇進(jìn)行描述,不需要任何先驗(yàn)知識(shí)。噪聲數(shù)據(jù)的處理聚類噪聲數(shù)據(jù)的處理回歸回歸:發(fā)現(xiàn)兩個(gè)相關(guān)的變量之間的變化模式,通過(guò)使數(shù)據(jù)適合一個(gè)函數(shù)來(lái)平滑數(shù)據(jù),即利用擬合函數(shù)對(duì)數(shù)據(jù)進(jìn)行平滑。方法:線性回歸(簡(jiǎn)單回歸):利用直線建模,將一個(gè)變量看作另一個(gè)變量的線性函數(shù)。如:Y=aX+b,其中a、b稱為回歸系數(shù),可用最小二乘法求得a、b系數(shù)。非線性回歸 噪聲數(shù)據(jù)的處理回歸xyy = x + 1X1Y2Y1數(shù)據(jù)集成數(shù)據(jù)集成:將多個(gè)數(shù)據(jù)源中
12、的數(shù)據(jù)整合到一個(gè)一致的存儲(chǔ)中1.模式匹配2.數(shù)據(jù)冗余3.數(shù)據(jù)值沖突數(shù)據(jù)集成模式匹配整合不同數(shù)據(jù)源中的元數(shù)據(jù)。實(shí)體識(shí)別問(wèn)題:匹配來(lái)自不同數(shù)據(jù)源的現(xiàn)實(shí)世界的實(shí)體,比如:A.cust-id=B.customer_no 。數(shù)據(jù)集成數(shù)據(jù)冗余同一屬性在不同的數(shù)據(jù)庫(kù)中會(huì)有不同的字段名。一個(gè)屬性可以由另外一個(gè)表導(dǎo)出。如:一個(gè)顧客數(shù)據(jù)表中的平均月收入屬性,它可以根據(jù)月收入屬性計(jì)算出來(lái)。有些冗余可以被相關(guān)分析檢測(cè)到數(shù)據(jù)集成數(shù)據(jù)值沖突對(duì)于一個(gè)現(xiàn)實(shí)世界實(shí)體,其來(lái)自不同數(shù)據(jù)源的屬性值或許不同。產(chǎn)生的原因:表示的差異、比例尺度不同、或編碼的差異等。例如:重量屬性在一個(gè)系統(tǒng)中采用公制,而在另一個(gè)系統(tǒng)中卻采用英制。同樣價(jià)格屬
13、性不同地點(diǎn)采用不同貨幣單位。數(shù)據(jù)變換平滑去除噪聲,將連續(xù)的數(shù)據(jù)離散化,增加粒度分箱聚類回歸數(shù)據(jù)變換聚集對(duì)數(shù)據(jù)進(jìn)行匯總avg(), count(), sum(), min(), max()例如:每天銷售額(數(shù)據(jù))可以進(jìn)行合計(jì)操作以獲得每月或每年的總額。可以用來(lái)構(gòu)造數(shù)據(jù)立方體數(shù)據(jù)變換數(shù)據(jù)概化用更抽象(更高層次)的概念來(lái)取代低層次或數(shù)據(jù)層的數(shù)據(jù)對(duì)象例如:街道屬性,就可以泛化到更高層次的概念,諸如:城市、國(guó)家。同樣對(duì)于數(shù)值型的屬性,如年齡屬性,就可以映射到更高層次概念,如:年輕、中年和老年。數(shù)據(jù)變換規(guī)范化將數(shù)據(jù)按比例進(jìn)行縮放,使之落入一個(gè)特定的區(qū)域,以消除數(shù)值型屬性因大小不一而造成挖掘結(jié)果的偏差。如將
14、工資收入屬性值映射到-1.0,1.0范圍內(nèi)。方法:(1)最小-最大規(guī)范化(2)零-均值規(guī)范化(z-score規(guī)范化)(3)小數(shù)定標(biāo)規(guī)范化最小-最大規(guī)范化已知屬性的取值范圍,將原取值區(qū)間old_min,old_max映射到new_min,new_max保留了原來(lái)數(shù)據(jù)中存在的關(guān)系。但若將來(lái)遇到超過(guò)目前屬性old_min,old_max取值范圍的數(shù)值,將會(huì)引起系統(tǒng)出錯(cuò)最小-最大規(guī)范化零-均值規(guī)范化(z-score規(guī)范化)根據(jù)屬性A的均值和偏差來(lái)對(duì)A進(jìn)行規(guī)格化,常用于屬性最大值與最小值未知;或使用最大最小規(guī)格化方法時(shí)會(huì)出現(xiàn)異常數(shù)據(jù)的情況。零-均值規(guī)范化(z-score規(guī)范化)小數(shù)定標(biāo)規(guī)范化通過(guò)移動(dòng)屬性
15、A值的小數(shù)位置,將屬性A的值映射到0,1之間,用小數(shù)的科學(xué)表示法來(lái)達(dá)到規(guī)格化的目的。移動(dòng)的小數(shù)位數(shù)取決于屬性A絕對(duì)值的最大值。小數(shù)定標(biāo)規(guī)范化數(shù)據(jù)變換屬性構(gòu)造利用已有屬性集構(gòu)造出新的屬性,并加入到現(xiàn)有屬性集合中以幫助挖掘更深層次的模式知識(shí),提高挖掘結(jié)果準(zhǔn)確性。例如:根據(jù)寬、高屬性,可以構(gòu)造一個(gè)新屬性:面積。數(shù)據(jù)歸約(數(shù)據(jù)消減) 對(duì)大規(guī)模數(shù)據(jù)庫(kù)內(nèi)容進(jìn)行復(fù)雜的數(shù)據(jù)分析通常需要耗費(fèi)大量的時(shí)間。數(shù)據(jù)歸約(消減)技術(shù)用于幫助從原有龐大數(shù)據(jù)集中獲得一個(gè)精簡(jiǎn)的數(shù)據(jù)集合,并使這一精簡(jiǎn)數(shù)據(jù)集保持原有數(shù)據(jù)集的完整性,這樣在精簡(jiǎn)數(shù)據(jù)集上進(jìn)行數(shù)據(jù)挖掘顯然效率更高,并且挖掘出來(lái)的結(jié)果與使用原有數(shù)據(jù)集所獲得結(jié)果基本相同。數(shù)
16、據(jù)歸約標(biāo)準(zhǔn)用于數(shù)據(jù)歸約的時(shí)間不應(yīng)當(dāng)超過(guò)或“抵消”在歸約后的數(shù)據(jù)上挖掘節(jié)省的時(shí)間歸約得到的數(shù)據(jù)比原數(shù)據(jù)小得多,但可以產(chǎn)生相同或幾乎相同的分析結(jié)果數(shù)據(jù)歸約的方法1.數(shù)據(jù)立方體聚集:2.維歸約3.數(shù)據(jù)壓縮4.數(shù)值歸約5.離散化和概念分層生成數(shù)據(jù)歸約數(shù)據(jù)立方體聚集 數(shù)據(jù)立方體基本概念:數(shù)據(jù)立方體是數(shù)據(jù)的多維建模和表示,由維和事實(shí)組成。維屬性事實(shí)數(shù)據(jù)數(shù)據(jù)立方體聚集定義將n維數(shù)據(jù)立方體聚集為n-1維的數(shù)據(jù)立方體。數(shù)據(jù)歸約數(shù)據(jù)立方體聚集數(shù)據(jù)歸約數(shù)據(jù)立方體聚集聚集后的銷售數(shù)據(jù)立方體 下圖數(shù)據(jù)是某商場(chǎng)20002002年每季度的銷售數(shù)據(jù),對(duì)這種數(shù)據(jù)進(jìn)行聚集,使結(jié)果數(shù)據(jù)匯總每年的總銷售額,而不是每季度的總銷售額。聚
17、集后數(shù)據(jù)量明顯減少,但沒有丟失分析任務(wù)所需的信息。對(duì)年度內(nèi)的各季度數(shù)據(jù)進(jìn)行sum(求和)聚集數(shù)據(jù)歸約數(shù)據(jù)立方體聚集下圖所示數(shù)據(jù)立方體用于某銷售企業(yè)每類商品在各分公司年銷售多維數(shù)據(jù)分析。每個(gè)單元存放一個(gè)聚集值,對(duì)應(yīng)于多維空間的一個(gè)數(shù)據(jù)點(diǎn)。每個(gè)屬性可能存在概念分層,允許在多個(gè)抽象層進(jìn)行數(shù)據(jù)分析。 2001年 568 750 150 50 四川河南湖北上海分公司 辦公用品 電話 計(jì)算機(jī) 打印機(jī) 2000年 2002年 商品類型分公司西南華中華東四川河南湖北上海數(shù)據(jù)歸約數(shù)據(jù)立方體聚集數(shù)據(jù)歸約維歸約維歸約去掉無(wú)關(guān)的屬性,減少數(shù)據(jù)挖掘處理的數(shù)據(jù)量。例如:挖掘顧客是否會(huì)在商場(chǎng)購(gòu)買Mp3 播放機(jī)的分類規(guī)則時(shí),
18、顧客的電話號(hào)碼很可能與挖掘任務(wù)無(wú)關(guān),應(yīng)該可以去掉。目標(biāo):尋找出最小的屬性子集并確保新數(shù)據(jù)子集的概率分布盡可能接近原來(lái)數(shù)據(jù)集的概率分布。維歸約選擇相關(guān)屬性子集1.逐步向前選擇從一個(gè)空屬性集(作為屬性子集初始值)開始,每次從原來(lái)屬性集合中選擇一個(gè)當(dāng)前最優(yōu)的屬性添加到當(dāng)前屬性子集中。直到無(wú)法選擇出最優(yōu)屬性或滿足一定閾值約束為止。2.逐步向后刪除 從一個(gè)全屬性集(作為屬性子集初始值)開始,每次從當(dāng)前屬性子集中選擇一個(gè)當(dāng)前最差的屬性并將其從當(dāng)前屬性子集中消去。直到無(wú)法選擇出最差屬性為止或滿足一定閾值約束為止。3.向前選擇和向后刪除結(jié)合4.判定樹(決策樹)歸納利用決策樹的歸納方法對(duì)初始數(shù)據(jù)進(jìn)行分類歸納學(xué)習(xí)
19、,獲得一個(gè)初始決策樹,所有沒有出現(xiàn)這個(gè)決策樹上的屬性均認(rèn)為是無(wú)關(guān)屬性,因此將這些屬性從初始屬性集合刪除掉,就可以獲得一個(gè)較優(yōu)的屬性子集。5.基于統(tǒng)計(jì)分析的歸約 數(shù)據(jù)歸約數(shù)據(jù)壓縮數(shù)據(jù)壓縮用數(shù)據(jù)編碼或者變換,得到原始數(shù)據(jù)的壓縮表示。在數(shù)據(jù)挖掘領(lǐng)域通常使用的兩種數(shù)據(jù)壓縮方法均是有損的:主成分分析法(PCA)假定待壓縮的數(shù)據(jù)由N個(gè)取自k個(gè)維的元組或數(shù)據(jù)向量組成。主要成分分析并搜索得到c個(gè)最能代表數(shù)據(jù)的k維正交向量,這里 ck。這樣就可以把原數(shù)據(jù)投影到一個(gè)較小的空間,實(shí)現(xiàn)數(shù)據(jù)壓縮小波轉(zhuǎn)換數(shù)據(jù)歸約數(shù)據(jù)壓縮壓縮算法分類:無(wú)損(loseless)壓縮:可以不丟失任何信息地還原壓縮數(shù)據(jù)。例如:字符串壓縮有廣泛的
20、理論基礎(chǔ)和精妙的算法有損(lossy)壓縮:只能重新構(gòu)造原數(shù)據(jù)的近似表示。例如:音頻/視頻壓縮有時(shí)可以在不解壓整體數(shù)據(jù)的情況下,重構(gòu)某個(gè)片斷數(shù)據(jù)歸約數(shù)值歸約數(shù)值歸約用較小的數(shù)據(jù)表示數(shù)據(jù),或采用較短的數(shù)據(jù)單位,或者用數(shù)據(jù)模型代表數(shù)據(jù),減少數(shù)據(jù)量。常用的方法直方圖用聚類數(shù)據(jù)表示實(shí)際數(shù)據(jù)抽樣(采樣)4.參數(shù)回歸法利用分箱方法對(duì)數(shù)據(jù)分布情況進(jìn)行近似數(shù)值歸約直方圖(“頻率值”對(duì)應(yīng)關(guān)系圖)數(shù)值歸約用聚類數(shù)據(jù)表示實(shí)際數(shù)據(jù)優(yōu)點(diǎn):獲取樣本的時(shí)間僅與樣本規(guī)模成正比方法:不放回簡(jiǎn)單隨機(jī)抽樣放回簡(jiǎn)單隨機(jī)抽樣聚類抽樣:先聚類,再抽樣分層抽樣:先分層,再抽樣數(shù)值歸約抽樣(采樣)不放回簡(jiǎn)單隨機(jī)抽樣放回簡(jiǎn)單隨機(jī)抽樣聚類抽樣分
21、層抽樣數(shù)值歸約參數(shù)回歸法通常采用一個(gè)模型來(lái)評(píng)估數(shù)據(jù),該方法只需要存放參數(shù),而不是實(shí)際數(shù)據(jù)。能大大簡(jiǎn)少數(shù)據(jù)量,但只對(duì)數(shù)值型數(shù)據(jù)有效。方法:線性回歸非線性回歸 數(shù)據(jù)歸約離散化與概念分層生成三種類型的屬性值:名稱型e.g. 無(wú)序集合中的值序數(shù)e.g. 有序集合中的值連續(xù)值e.g. 實(shí)數(shù)離散化技術(shù)以通過(guò)將屬性(連續(xù)取值)域值范圍分為若干區(qū)間,來(lái)幫助消減一個(gè)連續(xù)(取值)屬性的取值個(gè)數(shù)。概念分層概念分層定義了一組由低層概念集到高層概念集的映射。它允許在各種抽象級(jí)別上處理數(shù)據(jù),從而在多個(gè)抽象層上發(fā)現(xiàn)知識(shí)。用較高層次的概念替換低層次(如年齡的數(shù)值)的概念,以此來(lái)減少取值個(gè)數(shù)。雖然一些細(xì)節(jié)在數(shù)據(jù)泛化過(guò)程中消失了
22、,但這樣所獲得的泛化數(shù)據(jù)或許會(huì)更易于理解、更有意義。在消減后的數(shù)據(jù)集上進(jìn)行數(shù)據(jù)挖掘顯然效率更高。概念分層結(jié)構(gòu)可以用樹來(lái)表示,樹的每個(gè)節(jié)點(diǎn)代表一個(gè)概念。 數(shù)據(jù)歸約概念分層生成數(shù)值數(shù)據(jù)的概念分層生成方法a.分箱屬性的值可以通過(guò)將其分配到各分箱中而將其離散化。利用每個(gè)分箱的均值和中數(shù)替換每個(gè)分箱中的值(利用均值或中數(shù)進(jìn)行平滑)。循環(huán)應(yīng)用這些操作處理每次操作結(jié)果,就可以獲得一個(gè)概念層次樹。b.直方圖循環(huán)應(yīng)用直方圖分析方法處理每次劃分結(jié)果,從而最終自動(dòng)獲得多層次概念樹,而當(dāng)達(dá)到用戶指定層次水平后劃分結(jié)束。最小間隔大小也可以幫助控制循環(huán)過(guò)程,其中包括指定一個(gè)劃分的最小寬度或每一個(gè)層次每一劃分中數(shù)值個(gè)數(shù)等。
23、c.聚類聚類算法可以將數(shù)據(jù)集劃分為若干類或組。每個(gè)類構(gòu)成了概念層次樹的一個(gè)節(jié)點(diǎn);每個(gè)類還可以進(jìn)一步分解為若干子類,從而構(gòu)成更低水平的層次。當(dāng)然類也可以合并起來(lái)構(gòu)成更高層次的概念水平。d.基于熵的離散化數(shù)值數(shù)據(jù)的概念分層生成方法e.自然劃分分段將數(shù)值區(qū)域劃分為相對(duì)一致的、易于閱讀的、看上去更直觀或自然的區(qū)間。聚類分析產(chǎn)生概念分層可能會(huì)將一個(gè)工資區(qū)間劃分為:51263.98, 60872.34通常數(shù)據(jù)分析人員希望看到劃分的形式為50000,60000劃分方法:3-4-5規(guī)則如果一個(gè)區(qū)間最高有效位上包含3,6,7或9個(gè)不同的值,就將該區(qū)間劃分為3個(gè)等寬子區(qū)間;(72,3,2)如果一個(gè)區(qū)間最高有效位上包含2,4,或8個(gè)不同的值,就將該
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 保險(xiǎn)公司2025年度工作方案
- 病歷書寫規(guī)范模板
- 疼痛病人的護(hù)理
- 金融市場(chǎng)全產(chǎn)品分類介紹
- 江蘇財(cái)會(huì)職業(yè)學(xué)院《棒球》2023-2024學(xué)年第二學(xué)期期末試卷
- 溫州肯恩大學(xué)《化工類專業(yè)導(dǎo)論》2023-2024學(xué)年第二學(xué)期期末試卷
- 2025年寧夏平羅縣學(xué)業(yè)水平考試物理試題模擬卷(九)含解析
- 道路斷面知識(shí)培訓(xùn)課件
- 2025屆山西省太原市重點(diǎn)中學(xué)考前模擬考試試卷含解析
- 2025屆浙江省岱山縣大衢中學(xué)高三下學(xué)期質(zhì)調(diào)(一)語(yǔ)文試題含解析
- 2025年中國(guó)短圓柱滾子軸承市場(chǎng)調(diào)查研究報(bào)告
- 教師的情緒管理課件
- 湖北省十一校2024-2025學(xué)年高三第二次聯(lián)考數(shù)學(xué)試卷(解析版)
- 《手工制作》課件-幼兒園掛飾
- 【初中地理】西亞+課件-2024-2025學(xué)年人教版地理七年級(jí)下冊(cè)
- 鼓勵(lì)員工發(fā)現(xiàn)安全隱患的獎(jiǎng)勵(lì)制度
- MOOC 數(shù)字邏輯電路實(shí)驗(yàn)-東南大學(xué) 中國(guó)大學(xué)慕課答案
- 國(guó)家開放大學(xué)《人文英語(yǔ)4》邊學(xué)邊練參考答案
- 入團(tuán)志愿書(2016版本)(可編輯打印標(biāo)準(zhǔn)A4) (1)
- RationalDMIS客戶培訓(xùn)手冊(cè)
- 小升初個(gè)人簡(jiǎn)歷表
評(píng)論
0/150
提交評(píng)論