第18章RapidMiner異常檢測_第1頁
第18章RapidMiner異常檢測_第2頁
第18章RapidMiner異常檢測_第3頁
第18章RapidMiner異常檢測_第4頁
第18章RapidMiner異常檢測_第5頁
已閱讀5頁,還剩11頁未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

1、RapidMiner數(shù)據(jù)分析與挖掘?qū)崙?zhàn)第 18章1RapidMiner數(shù)據(jù)分析與挖掘?qū)崙?zhàn)第 18章第18章異常檢測1.1離群點(diǎn)檢測就餐飲企業(yè)而言,經(jīng)常會碰到這樣的問題:1)如何根據(jù)客戶的消費(fèi)記錄檢測是否為異常刷卡消費(fèi)?2)如何檢測是否有異常訂單?這一類異常問題可以通過離群點(diǎn)檢測解決。離群點(diǎn)檢測是數(shù)據(jù)挖掘中重要的一部分,它的任務(wù)是發(fā)現(xiàn)與大部分其他對象顯著不同的對象。大部分?jǐn)?shù)據(jù)挖掘方法都將這種差異信息視為噪聲而丟棄,然而在一些應(yīng)用中, 罕見的數(shù)據(jù)可能蘊(yùn)含著更大的研究價值。在數(shù)據(jù)的散布圖中,如圖 18-1離群點(diǎn)遠(yuǎn)離其它數(shù)據(jù)點(diǎn)。因?yàn)殡x群點(diǎn)的屬性值明顯偏離 期望的或常見的屬性值,所以離群點(diǎn)檢測也稱偏差檢

2、測。圖18-1離群點(diǎn)檢測示意圖離群點(diǎn)檢測已經(jīng)被廣泛應(yīng)用于電信和信用卡的詐騙檢測、貸款審批、電子商務(wù)中、網(wǎng)絡(luò)入侵、天氣預(yù)報等領(lǐng)域,如可以利用離群點(diǎn)檢測分析運(yùn)動員的統(tǒng)計數(shù)據(jù),以發(fā)現(xiàn)異常的運(yùn)動員。(1)離群點(diǎn)的成因離群點(diǎn)的主要成因有:數(shù)據(jù)來源于不同的類、自然變異、數(shù)據(jù)測量和收集誤差。(2)離群點(diǎn)的類型對離群點(diǎn)的大致分類見表18-1 :表18-1離群點(diǎn)的大致分類分類標(biāo)準(zhǔn)分類名稱分類描述從數(shù)據(jù)范圍全局離群點(diǎn)和局部離群點(diǎn)從整體來看,某些對象沒有離群特征,但是從局部來看,卻顯示了一定的離群性。:如圖18-1 : C是全局離群點(diǎn),D是局部離群 點(diǎn)。從數(shù)據(jù)類型數(shù)值型離群點(diǎn)和分類型離群點(diǎn)這是以數(shù)據(jù)集的屬性類型進(jìn)行

3、劃分的。屬性的個數(shù)一維離群點(diǎn)和多維離群點(diǎn)一個對象可能有一個或多個屬性。DB圖18-1全局離群點(diǎn)和局部離群點(diǎn)1.1.1離群點(diǎn)檢測方法常用離群點(diǎn)檢測方法見表 18-2。表18-2常用離群點(diǎn)檢測方法離群點(diǎn)檢測方法方法描述方法評估大部分的基于統(tǒng)計的離群點(diǎn)檢基于統(tǒng)計模型的離群點(diǎn)檢測方法基于統(tǒng)計測方法是構(gòu)建一個概率分布模型,的前提是必須知道數(shù)據(jù)集服從什么分并計算對象符合該模型的概率,把布;對于高維數(shù)據(jù),檢驗(yàn)效果可能很差。具有低概率的對象視為離群點(diǎn)。基于鄰近度通常可以在數(shù)據(jù)對象之間定義 鄰近性度量,把遠(yuǎn)離大部分點(diǎn)的對 象視為離群點(diǎn)。簡單,二維或二維的數(shù)據(jù)可以做散 點(diǎn)圖觀察;大數(shù)據(jù)集不適用;對參數(shù)選擇敏感;具

4、有全局閾值,不能處理具有 不同密度區(qū)域的數(shù)據(jù)集。基于密度考慮數(shù)據(jù)集可能存在不同密度 區(qū)域這一事實(shí),從基于密度的觀點(diǎn) 分析,離群點(diǎn)是在低密度區(qū)域中的 對象。一個對象的離群點(diǎn)得分是該 對象周圍密度的逆。給出了對象是離群點(diǎn)的定量度量, 并且即使數(shù)據(jù)具有不同的區(qū)域也能夠 很好的處理;大數(shù)據(jù)集不適用;參數(shù)選 擇是困難的。基于聚類一種是利用聚類檢測離群點(diǎn)的 方法是丟棄遠(yuǎn)離其他簇的小簇;另 一種更系統(tǒng)的方法,首先聚類所有 對象,然后評估對象屬于簇的程度(離群點(diǎn)得分)。基于聚類技術(shù)來發(fā)現(xiàn)離群點(diǎn)可能是高度有效的;聚類算法產(chǎn)生的簇的質(zhì)量對該算法產(chǎn)生的離群點(diǎn)的質(zhì)量影響非常大。基于統(tǒng)計模型的離群點(diǎn)檢測方法需要滿足統(tǒng)計

5、學(xué)原理,如果分布已知,則檢驗(yàn)可能非常有效。基于鄰近度的離群點(diǎn)檢測方法比統(tǒng)計學(xué)方法更一般、更容易使用,因?yàn)榇_定數(shù)據(jù)集有意義的鄰近度量比確定它的統(tǒng)計分布更容易。基于密度的離群點(diǎn)檢測與基于鄰近度的離群點(diǎn)檢測密切相關(guān),因?yàn)槊芏瘸S绵徑榷x:一種是定義密度為到K個最鄰近的平均距離的倒數(shù),如果該距離小,則密度高;另一種是使用DBSCAN聚類算法,一個對象周圍的密度等于該對象指定距離 d內(nèi)對象的個數(shù)。本節(jié)重點(diǎn)介紹基于統(tǒng)計模型和聚類的離群點(diǎn)檢測方法。1.1.2基于模型的離群點(diǎn)檢測方法通過估計概率分布的參數(shù)來建立一個數(shù)據(jù)模型,如果一個數(shù)據(jù)對象不能很好地跟該模型擬合,即如果它很可能不服從該分布,則它是一個離群點(diǎn)

6、。(1)一元正態(tài)分布中的的離群點(diǎn)檢測正態(tài)分布是統(tǒng)計學(xué)中最常用的分布之一。若隨機(jī)變量 錯誤!未找到引用源。 的密度函數(shù)x i=. J e 2- x R,則稱x從 正態(tài)分布,簡稱x服從正態(tài)分布 N二,其中參數(shù)和二分別為均值和標(biāo)準(zhǔn)差。圖18-3顯示N 0,1的密度函數(shù):圖18-3 N 0,1的概率密度函數(shù)N 0,1的數(shù)據(jù)對象出現(xiàn)在該分布的兩邊尾部的機(jī)會很小,因此可以用它作為檢測數(shù)據(jù) 對象是否是離群點(diǎn)的基礎(chǔ)。數(shù)據(jù)對象落在三倍標(biāo)準(zhǔn)差中心區(qū)域之外的概率僅有0.0027。(2)混合模型的離群點(diǎn)檢測這里首先介紹下混合模型。混合是一種特殊的統(tǒng)計模型,它使用若干統(tǒng)計分布對數(shù)據(jù)建模。每一個分布對應(yīng)一個簇, 而每個分

7、布的參數(shù)提供對應(yīng)簇的描述,通常用中心和發(fā)散描述。混合模型將數(shù)據(jù)看作從不同的概率分布得到的觀測值的集合。概率分布可以是任何分布,但是通常是多元正態(tài)的,因?yàn)檫@種類型的分布不難理解,容易從數(shù)學(xué)上進(jìn)行處理,并且已經(jīng)證明在許多情況下都能產(chǎn)生好的結(jié)果。這種類型的分布可以對橢圓簇建模。總的講,混合模型數(shù)據(jù)產(chǎn)生過程為:給定幾個類型相同但參數(shù)不同的分布,隨機(jī)地選取一個分布并由它產(chǎn)生一個對象。重復(fù)該過程m次,其中m是對象的個數(shù)。具體地講,假定有 K個分布和m個對象 =,x2,| |l ,xm。設(shè)第j個分布的參數(shù)為3 ,并設(shè)厶是所有參數(shù)的集合,即二二12,川,亠。則P xl是第i個對象來自 第j個分布的概率。選取第

8、 j個分布產(chǎn)生一個對象的概率由權(quán)值 Wj 1 - j - K給定,其中K權(quán)值(概率)受限于其和為 1的約束,即V Wj =1。于是,對象x的概率由以下公式給出:j 4KP x|2 八 WjPj x|j( 18-1)j4如果對象以獨(dú)立的方式產(chǎn)生,則整個對象集的概率是每個個體對象xi的概率的乘積,公式如下:mm KP I:八 P XilWjPj x|: j( 18-2)7i4 j4對于混合模型,每個分布描述一個不同的組, 即一個不同的簇。通過使用統(tǒng)計方法,可 以由數(shù)據(jù)估計這些分布的參數(shù), 從而描述這些分布(簇)。也可以識別哪個對象屬于哪個簇。 然而,混合模型只是給出具體對象屬于特定簇的概率。聚類時

9、,混合模型方法假定數(shù)據(jù)來自混合概率分布,并且每個簇可以用這些分布之一識別。同樣,對于離群點(diǎn)檢測,數(shù)據(jù)用兩個分布的混合模型建模,一個分布為正常數(shù)據(jù),而另 一個為離群點(diǎn)。聚類和離群點(diǎn)檢測的目標(biāo)都是估計分布的參數(shù),以最大化數(shù)據(jù)的總似然。這里提供一種離群點(diǎn)檢測常用的簡單的方法: 先將所有數(shù)據(jù)對象放入正常數(shù)據(jù)集, 這時 離群點(diǎn)集為空集;再用一個迭代過程將數(shù)據(jù)對象從正常數(shù)據(jù)集轉(zhuǎn)移到離群點(diǎn)集,只要該轉(zhuǎn)移能提高數(shù)據(jù)的總似然。具體操作如下:假設(shè)數(shù)據(jù)集U包含來自兩個概率分布的數(shù)據(jù)對象:M是大多數(shù)(正常)數(shù)據(jù)對象的分布,而N是離群點(diǎn)對象的分布。數(shù)據(jù)的總概率分布可以記作:U xj:xjfN x 其中,x是一個數(shù)據(jù)對象

10、;'二三【0,1丨,給出離群點(diǎn)的期望比例。分布 M由數(shù)據(jù)估計得到,而分布 N通常取均勻分布。設(shè) Mt和Nt分別為時刻t正常數(shù)據(jù)和離群點(diǎn)對象的集合。初始t = 0,M0 =D,而N0定呂K根據(jù)混合模型中公式 P(x|A) = :Z WjP(x|Gj )推導(dǎo),在整個數(shù)據(jù)集的似然和對數(shù)似j#然可分別由下面兩式給出:Lt(U) = PU(Xi)=1(1 丸nPMi(X)MN"rPNi(Xi)(18-3)X 卻Ixi 田 i;、XiNi丿ln Lt(U)= Mt ln(1巧+瓦 In Pm: (X )+|叫卩n+ 遲 In R/xj ( 18-4)Xi 刖 iXi m i其中PD、PM

11、t、PNt分別是D、Mt、Nt的概率分布函數(shù)。因?yàn)檎?shù)據(jù)對象的數(shù)量比離群點(diǎn)對象的數(shù)量大的很多,因此當(dāng)一個數(shù)據(jù)對象移動到離群點(diǎn)集后,正常數(shù)據(jù)對象的分布變化不大。在這種情況下,每個正常數(shù)據(jù)對象的正常數(shù)據(jù)對象的總似然的貢獻(xiàn)保持不變。此外,如果假定離群點(diǎn)服從均勻分布,則移動到離群點(diǎn)集的每一個數(shù)據(jù)對象對離群點(diǎn)的似然貢獻(xiàn)一個固定的量。這樣,當(dāng)一個數(shù)據(jù)對象移動到離群點(diǎn)集時,數(shù)據(jù)總似然的改變粗略地等于該數(shù)據(jù)對象在均勻分布下的概率(用入加權(quán))減去該數(shù)據(jù)對象在正常數(shù)據(jù)點(diǎn)的分布下的概率(用1-%加權(quán))。從而,離群點(diǎn)由這樣一些數(shù)據(jù)對象組成,這樣數(shù)據(jù)對象在均勻分布下的概率比正常數(shù)據(jù)對象分布下的概率高。在某些情況下是很

12、難建立模型的。如:因?yàn)閿?shù)據(jù)的統(tǒng)計分布未知或沒有訓(xùn)練數(shù)據(jù)可用。在這種情況下,可以考慮另外其他不需要建立模型的檢測方法。1.1.3基于聚類的離群點(diǎn)檢測方法聚類分析用于發(fā)現(xiàn)局部強(qiáng)相關(guān)的對象組, 而異常檢測用來發(fā)現(xiàn)不與其他對象強(qiáng)相關(guān)的對 象。因此聚類分析非常自然地可以用于離群點(diǎn)檢測。本節(jié)主要介紹兩種基于聚類的離群點(diǎn)檢測方法。(1)丟棄遠(yuǎn)離其他簇的小簇一種利用聚類檢測離群點(diǎn)的方法是丟棄遠(yuǎn)離其他簇的小簇。通常,該過程可以簡化為丟棄小于某個最小閾值的所有簇。這個方法可以和其他任何聚類技術(shù)一起使用, 但是需要最小簇大小和小簇與其他簇之間 距離的閾值。而且這種方案對簇個數(shù)的選擇高度敏感, 使用這個方案很難將離群

13、點(diǎn)得分附加 到對象上。圖18-中,聚類簇數(shù)K=2,可以直觀地看出其中一個包含5個對象的小簇遠(yuǎn)離大部分對象,可以視為離群點(diǎn)。圖18-4 K-Means算法的聚類圖(2)基于原型的聚類另一種更系統(tǒng)的方法,首先聚類所有對象,然后評估對象屬于簇的程度(離群點(diǎn)得分)。 在這種方法中,可以用對象到它的簇中心的距離來度量屬于簇的程度。特別地,如果刪除一個對象導(dǎo)致該目標(biāo)的顯著改進(jìn),則可將該對象視為離群點(diǎn)。例如,在K均值算法中,刪除遠(yuǎn)離其相關(guān)簇中心的對象能夠顯著地改進(jìn)該簇的誤差平方和(SSE)。對于基于原型的聚類,評估對象屬于簇的程度(離群點(diǎn)得分)主要有兩種方法:一是度量對象到簇原型的距離,并用它作為該對象的離

14、群點(diǎn)得分;二是考慮到簇具有不同的密度, 可以度量簇到原型的相對距離,相對距離是點(diǎn)到質(zhì)心的距離與簇中所有點(diǎn)到質(zhì)心的距離的中位數(shù)之比。如圖18-5,如果選擇聚類簇數(shù) K=3,則對象A、B、C應(yīng)分別屬于距離它們最近的簇,但相對于簇內(nèi)的其他對象,這三個點(diǎn)又分別遠(yuǎn)離各自的簇,所以有理由懷疑對象A、B、C是離群點(diǎn)。 C圖18-5基于距離的離群點(diǎn)檢測診斷步驟如下:1)進(jìn)行聚類。選擇聚類算法(如 K-Means算法),將樣本集聚為 K簇,并找到各簇的質(zhì)心。2)計算各對象到它的最近質(zhì)心的距離。3)計算各對象到它的最近質(zhì)心的相對距離。4)與給定的閾值作比較。如果某對象距離大于該閾值,就認(rèn)為該對象是離群點(diǎn)。基于聚類

15、的離群點(diǎn)檢測的改進(jìn):1)離群點(diǎn)對初始聚類的影響:通過聚類檢測離群點(diǎn)時,離群點(diǎn)會影響聚類結(jié)果。為了處理該問題,可以使用如下方法:對象聚類,刪除離群點(diǎn),對象再次聚類(這個不能保證產(chǎn)生最優(yōu)結(jié)果)。2)還有一種更復(fù)雜的方法:取一組不能很好的擬合任何簇的特殊對象,這組對象代表潛在的離群點(diǎn)。隨著聚類過程的進(jìn)展,簇在變化。不再強(qiáng)屬于任何簇的對象被添加到潛在的離群點(diǎn)集合;而當(dāng)前在該集合中的對象被測試,如果它現(xiàn)在強(qiáng)屬于一個簇, 就可以將它從潛在的離群點(diǎn)集合中移除。聚類過程結(jié)束時還留在該集合中的點(diǎn)被分類為離群點(diǎn)(這種方法也不能保證產(chǎn)生最優(yōu)解,甚至不比前面的簡單算法好,在使 用相對距離計算離群點(diǎn)得分時,這個問題特別

16、嚴(yán)重)。對象是否被認(rèn)為是離群點(diǎn)可能依賴于簇的個數(shù)(如k很大時的噪聲簇)。該問題也沒有簡單的答案。一種策略是對于不同的簇個數(shù)重復(fù)該分析。另一種方法是找出大量小簇, 其想 法是:1) 較小的簇傾向于更加凝聚;2) 如果存在大量小簇時一個對象是離群點(diǎn),則它多半是一個真正的離群點(diǎn)。不利的一面是一組離群點(diǎn)可能形成小簇從而逃避檢測。"Detect Outlier(Distances) ”基于距離的離群點(diǎn)檢測,參數(shù)設(shè)置中可設(shè)定要檢測的離群點(diǎn)的個數(shù),如圖18.5ProcessRoot 卜uOOtGenerate DataDetect Outlier 就也.res圖18.5 RapidMiner自帶的

17、離群點(diǎn)檢測流程第三方離群點(diǎn)檢測插件帶有功能更強(qiáng)的離群點(diǎn)檢測功能,例如“One-Class LIBSVM AnomalyScore”為半監(jiān)督的離群點(diǎn)檢測操作符。1.2離群點(diǎn)檢測實(shí)例下面,我們自己生成一個數(shù)據(jù),來看看離群點(diǎn)檢測的功能。第一步:生成隨機(jī)數(shù)據(jù)調(diào)用"Gen erate Data”生成數(shù)據(jù)操作符,能幫助我們自動創(chuàng)建一些測試數(shù)據(jù),創(chuàng)建參數(shù)設(shè)置如圖18.6屋 GeneratA Datalarg&tfijnctiDngaussian mixtura cluislers*numbEr examples1000number of attributes2atlribLJles low

18、er bound-10.0atlribules upper bound1D.0蟲& local random seedlocal random seed3587datamanagem&nt18.6生成隨機(jī)數(shù)據(jù)參數(shù)設(shè)置調(diào)用“ Map”映射操作符,設(shè)置參數(shù)如圖18.7,將所有的數(shù)據(jù)類型都轉(zhuǎn)換為normal類型。Parameters睡Mapattribute filter typesingleaattributelabelTainvert selectio nG include special attributesGvalue map pi ngs"2 Edit List

19、(0).areplace what*areplace bynormala4 consider regtiiar expressionsaadd default mappinga圖18.7映射操作符參數(shù)設(shè)置再次調(diào)用“ Gen erate Data ”生成數(shù)據(jù)操作符,參數(shù)設(shè)置如圖18.8,添加離群點(diǎn)Paramere rs5 Qeneraie Data (2 (Qeneraie Datatarget ftjndiDfirandom dote classification10number of attributes2|attribules lower bound-10.0attributes uppe

20、r bound10.0number examples13RapidMiner數(shù)據(jù)分析與挖掘?qū)崙?zhàn)第 18章#RapidMiner數(shù)據(jù)分析與挖掘?qū)崙?zhàn)第 18章use local random seeddoublie_arT3¥datamanagement圖18.8添加離群點(diǎn)參數(shù)設(shè)置同樣,添加Map操作符,參數(shù)設(shè)置如圖18.9#RapidMiner數(shù)據(jù)分析與挖掘?qū)崙?zhàn)第 18章#RapidMiner數(shù)據(jù)分析與挖掘?qū)崙?zhàn)第 18章ParametersMap (2) (Map)attribule filter typeattribute#RapidMiner數(shù)據(jù)分析與挖掘?qū)崙?zhàn)第 18章#RapidMiner數(shù)據(jù)分析與挖掘?qū)崙?zhàn)第 18章invert selectioninclude special attributeswIue mappingsreplace wr atrep

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論