




版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
分類分析基礎分類算法目錄2基于分類的異常檢測3高級分類方法4基本概念11基本概念一般情況下,用元組(x,y)表示每條記錄(或稱為樣例、實例),其中,x表示屬性的集合,而y是目標屬性(也可稱為分類屬性),即樣例的類標號。屬性值可以包含連續特征,屬性主要是離散的,而類標號必須由離散屬性構成。分類(Classification)任務就是通過學習得到一個目標函數(TargetFunction)f,把每個屬性集x映射的到一個預先定義的類標號y。目標函數也稱分類模型(ClassificationModel)。分類是一種有監督的學習過程,即訓練集中記錄的類別是已知的,分類過程即是將每一條記錄歸到對應的類別之中。分類的目的是確定一個記錄為某一個已知的類別。分類模型可以用于以下目的:描述建模。是描述真實世界事件和它們之間關系的數學過程。預測建模。是使用數據挖掘和概率方法預測結果的過程,每個模型由多個可能影響結果的預測變量組成。1基本概念1.訓練階段,使用具有類標號的訓練數據集,通過分析由屬性描述的數據庫元組來建立分類模型。
2.測試階段,使用測試數據集來評估模型的分類準確率,如果認為可以接受,就可以用該模型對其他數據元組進行分類。一般來說,測試階段的代價遠低于訓練階段。分類的基本過程,一般通過兩步實現分類首先從數據中選出已經分好類的訓練集,在該訓練集上運用數據挖掘的技術,建立分類模型,對沒有分類的數據進行分類。2基礎分類算法基礎分類方法主要包括:決策樹歸納、貝葉斯分類、邏輯回歸、基于規則的分類、基于最近鄰的分類等。這些方法都使用學習算法(LearningAlgorithm)來確定分類模型,這種模型能夠很好地擬合輸入數據中的類標號和目標屬性集的聯系。通過學習算法確定的分類模型不僅要很好地擬合輸入數據,而且要對未知樣本的類標號進行準確的預測。分類算法分為二分類算法和多分類算法。二分類算法表示分類標簽只有兩個分類,具有代表性的有支持向量機和梯度提升決策樹等。多分類算法表示分類標簽多于兩個分類,比較常見的有邏輯回歸、樸素貝葉斯、決策樹等。2基礎分類算法決策樹方法最早產生于20世紀60年代,其中CART(ClassificationandRegressionTree)算法是決策樹最經典和最主要的算法。CART算法的基本思想是一種二分遞歸分割方法,在計算過程中充分利用二叉樹,在一定的分割規則下將當前樣本集分割為兩個子樣本集,使得生成的決策樹的每個非葉節點都有兩個分裂,這個過程又在子樣本集上重復進行,直至無法再分成葉節點為止。決策樹是由決策結點、分支和葉子組成的,沿決策樹從上到下遍歷的過程中,在每個結點都會遇到一個測試,每個結點上的測試輸出導致不同的分支,最后到達一個葉子結點,這個過程就是利用決策樹進行分類的過程。決策樹2基礎分類算法決策樹的構建過程分為以下3個部分:1.屬性選擇:是指從訓練數據集中的眾多屬性中選擇一個屬性作為當前節點的決策標準,如何選擇屬性有著很多不同量化評估標準,從而衍生出不同的決策樹算法2.決策樹生成:根據選擇的特征評估標準,從上至下遞歸地生成子節點,直到數據集不可再分則停止決策樹的生長。3.剪枝:決策樹容易過擬合,一般需要通過剪枝,縮小樹結構規模、緩解過擬合。2基礎分類算法
屬性選擇常用的方法是使用基于熵的方法來識別最能夠提供信息的屬性。熵方法基于兩個基礎的度量來選擇最能提供信息的屬性2基礎分類算法
決策樹2基礎分類算法設S是n個樣本的集合。假設分類的類別有m個,定義m個不同子集Ci(i=1,2,…m),Si是子集Ci中的樣本數,Pi表示樣本Si占總體n的比例。選A作為分支屬性帶來的信息增益:其中,I()為對現有樣本默認分類的期望信息(不選擇任何屬性):E()為通過選擇A屬性后重新劃分的樣本子集的熵:v為A屬性不同取值的總個數,
按A屬性的第j個取值標準進行重新劃分的樣本子集為2基礎分類算法第2步計算條件屬性的熵——條件經驗熵
2-2計算收入的條件熵和信息增益2-3計算學生的條件熵和信息增益2-4計算信譽的條件熵和信息增益第3步選擇節點:選擇信息增益最大的屬性(年齡)繼續重復以上步驟,取“年齡”為根屬性,引出一個分支,樣本按此劃分。對引出的每一個分支樣本再用此分類方法進行分類,再引出分支。
2基礎分類算法第1步計算決策屬性的熵——樣本經驗熵第2步計算條件屬性的熵——條件經驗熵
2.1計算年齡的條件熵和信息增益G(年齡信息增益)=0.9537-0.6877=0.26602.2依次計算收入層次、學生、信用等級、是否購買電腦等屬性的條件熵和信息增益第3步計算條件屬性的熵——條件經驗熵2基礎分類算法樸素貝葉斯分類
2基礎分類算法樸素貝葉斯分類P(類別|特征)=P(特征|類別)*P(類別|)/P(特征)2基礎分類算法K最近鄰(k-NearestNeighbors,KNN)算法是一種分類算法,核心思想是如果一個樣本在特征空間中的k個最相鄰的樣本中的大多數屬于某一個類別,則該樣本也屬于這個類別,并具有這個類別上樣本的特性。最近鄰分類器KNN算法基本步驟:①構建一個已分好類的數據集②計算一個新樣本與數據集中所有數據的距離③按照距離大小進行遞增排序④選取距離最小的k個樣本⑤確定前k個樣本所在類別出現的頻率,并輸出出現頻率最高的類別2基礎分類算法最近鄰分類器當k取3的時候,我們可以看出距離最近的三個,分別是紅色、紅色、藍色,因此得到目標點為紅色。要確定綠點屬于哪個顏色(紅色或者藍色),要做的就是選出距離目標點距離最近的k個點,看這k個點的大多數顏色是什么顏色。1)計算測試數據與各個訓練數據之間的距離;2)按照距離的遞增關系進行排序;3)選取距離最小的K個點;4)確定前K個點所在類別的出現頻率;5)返回前K個點中出現頻率最高的類別作為測試數據的預測分類;2基礎分類算法logistic回歸
線性回歸模型假設因變量Y是定量(quantitative)的,但在很多實際問題中,因變量卻是定性的(qualitative)。所謂定性變量,是指這些量的取值并非有數量上的變化,而只有性質上的差異。定性變量也稱為分類(categorical)變量,預測一個觀測的定性響應值的過程也稱為分類(classification)。大部分的分類問題都是先從預測定性變量取不同類別的概率開始,進而將分類問題作為概率估計的一個結果,所以從這個角度看,分類問題與回歸問題有許多類似之處。根據定性因變量取值的特點,我們又可將其分為二元變量(binaryvariable)和多分類變量(multinomialvariable)。二元變量的取值一般為1和0,當取值為1時表示某件事情的發生,取值為0則表示不發生。對于二元因變量,我們可考慮用Logistic模型來處理。2基礎分類算法logistic回歸
2基礎分類算法logistic回歸
Logistic函數當x趨近于無窮大時,g(x)趨近于1;當x趨近于無窮小時,g(x)趨近于0。Logistic函數的圖形如下2基礎分類算法分類器評價指標
假設我們的分類目標只有兩類,正例或陽性(positive)、負例或陰性(negative)則分類結果包括:(1)TruePositives(TP):被正確地劃分為正例的個數,即實際為正例且被分類器劃分為正例的實例數(樣本數);(2)FalsePositives(FP):被錯誤地劃分為正例的個數,即實際為負例但被分類器劃分為正例的實例數;(3)FalseNegatives(FN):被錯誤地劃分為負例的個數,即實際為正例但被分類器劃分為負例的實例數;(4)TrueNegatives(TN):被正確地劃分為負例的個數,即實際為負例且被分類器劃分為負例的實例數;預測結果可能出現四種情況:如果一個點屬于陰性(-)并被預測到陰性(-)中,即為真陰性值(TrueNegative,TN);如果一個點屬于陽性(+)但被預測到陰性(-)中,稱為假陰性值(FalseNegative,FN);如果一個點屬于陽性(+)并且被預測到陽性中,即為真陽性值(TruePositive,TP);如果一個點屬于陰性(-)但被預測到陽性(+)中,稱為假陽性值(FalsePositive,FP)。2基礎分類算法分類器評價指標
陰性(-)陽性(+)預測分類-+總計真實分類-真陰性值(TN)假陽性值(FP)N+假陰性值(FN)真陽性值(TP)P總計N*P*混淆矩陣2基礎分類算法分類器評價指標
(1)正確率(accuracy)正確率是我們最常見的評價指標,accuracy=(TP+TN)/(P+N),就是被分對的樣本數除以所有的樣本數,通常來說,正確率越高,分類器越好;(2)精度(precision)精度是精確性的度量,表示被分為正例的示例中實際為正例的比例,precision=TP/(TP+FP);
precisionisameasureofhowmanyerrorswemakeinclassifyingsamplesasbeingofclassA(3)錯誤率(errorrate)錯誤率則與正確率相反,描述被分類器錯分的比例,errorrate=(FP+FN)/(P+N),對某一個實例來說,分對與分錯是互斥事件,所以accuracy=1–errorrate;(4)靈敏度(sensitive)sensitive=TP/P,表示的是所有正例中被分對的比例,衡量了分類器對正例的識別能力;2基礎分類算法分類器評價指標
(5)特效度(specificity)specificity=TN/N,表示的是所有負例中被分對的比例,衡量了分類器對負例的識別能力;(6)召回率(recall)召回率是覆蓋面的度量,度量有多個正例被分為正例,recall=TP/(TP+FN)=TP/P=sensitive,可以看到召回率與靈敏度是一樣的。3基于分類的異常檢測基于樸素貝葉斯的網站虛假賬號異常檢測對網站運營來說,不真實賬號、使用虛假身份是一個普遍存在的問題,如果通過純人工檢測,需要耗費大量的人力,效率也十分低下,如能引入基于異常的自動檢測機制,將大大提升工作效率。我們家假設C=0表示真實賬號,C=1表示不真實賬號。下面我們基于樸素貝葉斯異常值分類對一個登錄賬號是否是真實賬號做分類:①確定特征屬性及劃分
這一步要找出可以幫助我們區分真實賬號與不真實賬號的特征屬性,在實際應用中,特征屬性的數量是很多的,但這里為了簡單起見,這里用少量的特征屬性以及較粗的劃分。我們選擇三個特征屬性:a1表示日志密度:日志數量/注冊天數,a2表示好友密度:好友數量/注冊天數,a3:是否使用真實頭像。下面給出劃分:a1:{a1<=0.05,0.05<a1<0.2,a1>=0.2},a2:{a2<=0.1,0.1<a2<0.8,a2>=0.8},a3:{a3=0(不是),a3=1(是)}。3基于分類的異常檢測基于樸素貝葉斯的網站虛假賬號異常檢測②.獲取訓練樣本這里使用運維人員曾經人工檢測過的1萬個賬號作為訓練樣本。③.計算訓練樣本中每個類別的頻率
用訓練樣本中真實賬號和不真實賬號數量分別除以一萬,得到:P(C=0)=8900/10000=0.89P(C=1)=110/10000=0.113基于分類的異常檢測基于樸素貝葉斯的網站虛假賬號異常檢測④.計算每個類別條件下各個特征屬性劃分的頻率P(a1<=0.05|C=0)=0.3P(0.05<a1<0.2|C=0)=0.5P(a1>=0.2|C=0)=0.2P(a1<=0.05|C=1)=0.8P(0.05<a1<0.2|C=1)=0.1P(a1>=0.2|C=1)=0.1P(a2<=0.1|C=0)=0.1P(0.1<a2<0.8|C=0)=0.7P(a2>=0.8|C=0)=0.2P(a2<=0.1|C=1)=0.7P(0.1<a2<0.8|C=1)=0.2P(a2>=0.8|C=1)=0.1P(a3=0|C=0)=0.2P(<a3=1|C=0)=0.8P(a3=0|C=1)=0.9P(a3=1|C=1)=0.13基于分類的異常檢測基于樸素貝葉斯的網站虛假賬號異常檢測⑤.使用分類器進行鑒別
下面我們使用上面訓練得到的分類器鑒別一個賬號,這個賬號使用非真實頭像,日志數量與注冊天數的比率為0.1,好友數與注冊天數的比率為0.2。P(C=0)*P(x|C=0)=P(C=0)*P(0.05<a1<0.2|C=0)*P(0.1<a2<0.8|C=0)*P(a3=0|C=0)=0.89*0.5*0.7*0.2=0.0623P(C=1)*P(x|C=1)=P(C=1)*P(0.05<a1<0.2|C=1)P(0.1<a2<0.8|C=1)=P(a3=0|C=1)=0.11*0.1*0.2*0.9=0.00198
由上述分析可知!這個賬號為真實賬號類別的概率0.0623大于為不真實賬號的概率0.00198,因此雖然這個賬號沒有使用真實頭像,但是通過分類器的鑒別其可被歸類為真實賬號。這個例子展示了當特征屬性充分多時,樸素貝葉斯分類具有對個別屬性的抗干擾性。貝葉斯網絡(BayesBeliefnetwork),又稱貝葉斯網絡、信念網絡、概率網絡,是一個有向無環圖(DirectedAcyclicGraph,DAG)它,是一種概率圖模型,根據概率圖的拓撲結構,考察一組隨機變量{X1,X2,X3......Xn}即其n組的條件概率分布的性質,其中有向無環圖中節點表示隨機變量,連接兩個節點之間的箭頭便開始兩個隨機變量之間的因果關系即變量間的條件概率。4高級分類算法貝葉斯信念網絡
后向傳播是一種神經網絡學習算法。神經網絡作為一種先進的人工智能技術,神經網絡是受人腦組織的生理學啟發而創立的。由一系列互相聯系的、相同的單元(神經元)組成。神經網絡相互間的聯系可以在不同的神經元之間傳遞增強或抑制信號,增強或抑制是通過調整神經元相互間聯系的權重系數實現。4高級分類算法后向傳播神經網絡
支持向量機(SupportVectorMachine,SVM)是一種機器學
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 中國醫用復合膜項目投資計劃書
- 創業計劃書范文西餐
- 建材展廳商業計劃書
- 2025年電力項目評估報告
- 2025年中國硝酸磷肥項目投資計劃書
- 機動車尾氣環保檢測項目可行性研究報告申請報告
- 溫州鮮品食用菌項目商業計劃書
- 烤肉爐項目立項報告模板
- 數字化銀行零售業務營銷策略在金融消費升級背景下的應用報告
- 中藥新藥研發現代化路徑解析:2025年市場前景與風險分析報告
- 護士進修匯報護理專業發展趨勢分析
- KISSSOFT操作與齒輪設計培訓教程
- 廣東省廣州市越秀區2024年中考二模語文試卷附答案
- 城鄉規劃原理題目及答案
- 25道中國建筑商務合約經理崗位常見面試問題含HR常問問題考察點及參考回答
- JGT116-2012 聚碳酸酯(PC)中空板
- DBJ-43T507-2019湖南省建筑物移動通信基礎設施建設標準
- 《華為國際化之路》課件
- 高空作業安全責任協議書防盜網
- 關于地下室滲漏水問題的總結及堵漏措施
- (完整版)聚乙烯課件
評論
0/150
提交評論