




版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
第十一章R的模式甄別:診斷異常數據學習目標理論方面,掌握模式甄別的分析思路,主要診斷方法的特點,適用性和應用場景。實踐方面,掌握R各種模式甄別方法的實現、應用以及結果解讀,能夠正確運用模式甄別方法探索實際數據中的異常值。什么是模式模式,簡言之,就是數據中的異常值。發現數據中的模式極為必要,且有眾多應用場景,其中最常見的是欺詐偵測。例如:依據海量歷史數據,發現信用卡刷卡金額、手機通話量的非常規增加例如:診斷醫療保險欺詐和虛報瞞報行為模式甄別方法對不同的模式甄別問題應采用不同的甄別方法。模式甄別涉及兩種情況第一,甄別歷史上尚未出現過的模式數據特點:只有相關的屬性特征變量,沒有是否為模式的標簽變量。模式通常表現出嚴重偏離數據全體,與“正常”數據有明顯的“不同”模式甄別方法對不同的模式甄別問題應采用不同的甄別方法。模式甄別涉及兩種情況第二,甄別歷史上曾經出現過的模式數據特點:既有相關的屬性特征變量,部分樣本在是否為模式的標簽變量上有明確的取值解決該類問題的思路忽略標簽變量找到特征變量與標簽變量取值間的規律性非平衡數據集問題模式甄別結果及評價以怎樣的標準確定“平衡點”或最低分數線評價標準決策精度:d/(b+d),正確甄別的比例回溯精度:也稱召回率或查全率:d/(c+d),正確甄別的觀測個數占實際模式個數的比例模式甄別的無監督偵測方法分析過程不涉及標簽變量,不在標簽變量監督下進行,稱為無監督偵測。判斷觀測是否嚴重偏離數據全體從概率角度從特征空間的距離角度從特征空間的密度角度依概率偵測模式依概率偵測模式:從概率角度出發,將統計學中的離群點視為可能的模式需已知或假定概率分布示例依距離偵測模式:DB方法屬性特征空間中,模式觀測點通常遠離正常觀測點DB方法計算特征空間中兩兩觀測點間的距離若與觀測xp的距離大于閾值D的觀測個數大于pN,(0<p<1,N為樣本量),那么觀測xp可被視為模式觀測DB方法的兩個可調參數閾值D和比例pDB方法示例依密度偵測模式:LOF方法LOF方法基于局部密度,在指定鄰居個數MinPts的條件下,考察觀測xp其局部鄰域的分離程度,作為觀測xp的模式風險評分觀測xp的k-距離觀測xp的k-距離鄰域觀測xp與觀測xo的k-可達距離計算觀測xp的局部可達密度依密度偵測模式:LOF方法觀測xp的局部離群因子LOF得分相關R函數lofactor(data=數據矩陣,k=MinPts)示例模式甄別的有監督偵測方法模式甄別涉及模式標簽變量的取值,且在標簽變量監督下進行,稱為有監督偵測樸素貝葉斯分類法根據最大后驗概率原則,輸出變量應預測為k個后驗概率中最大概率值對應的類別相關R函數NaiveBayes(x=輸入變量矩陣或數據框,grouping=輸出變量,fL=0)模式甄別的有監督偵測方法Logistic回歸:認為觀測屬于模式的概率與特征變量之間存在如下非線性關系相關R函數glm(R公式,data=數據框名,family=binomial(link="logit"))predict(object=glm函數結果對象名,newdata=新數據輸入變量矩陣或數據框,type="response")非平衡數據集的SMOTE處理非平衡數據集:指數據集中某一類或者某些類的樣本量遠遠大于其它類。多數類稱為正類,少數類稱為負類不平衡率是測度非平衡數據集不平衡程度的重要指標解決非平衡數據集分類問題的方法基于數據層面的方法基于算法層面的方法非平衡數據集的SMOTE處理基于算法層面的方法:通過數據重抽樣,改變非平衡數據集的分布,旨在提高后續分類模型的分類性能隨機過抽樣:隨機復制負類樣本,即對負類做多次有放回的隨機抽樣,達到增加少數類樣本的目的隨機欠抽樣:隨機去掉正類樣本,即全抽負類樣本,在此基礎上抽取與之相當的正類樣本,以降低數據的不平衡程度隨機過抽樣和欠抽樣方法自身存在局限性,相關的改進算法較多非平衡數據集的SMOTE處理SMOTE算法:通過一定規則隨機制造新的負類樣本點基本假設:相距較近的負類之間的樣本仍是負類在相距較近的負類間插入負類的“人造合成”觀測需指定兩個參數合成率:m%(m>100),對觀測點Xi人造合成m/100個觀測近鄰個數k:找到距觀測點Xi最近的k個負類近鄰觀測點非平衡數據集的SMOTE處理SMOTE算法步驟從負類觀測點Xi的k個負類近鄰中隨機挑選一個近鄰Yij(j=1,2,…,k),合成一個新的負類觀測點Pj(j=1,2,…,m)重復該步驟m次,得到Xi的m個合成觀測對每個負類觀測都做同樣的處理還可對正類觀測做欠抽樣處理相關R函數SMOTE(R公式,data=數據框名,perc.over=200,k=k,perc.under=200)模式甄別的半監督偵測方法僅依據較少的已知標簽變量值,找到特征變量與標簽變量取值間的規律性。利用這種規律對預測新樣本是否為模式觀測,是模式甄別半監督偵測的核心目標半監督分類:自訓練分類模型視數據集D中的完整觀測為一個數據子集,記為Di基于Di建立一個分類模型,記為Mi利用Mi對數據集中的其他觀測進行預測將預測置信度較高的前若干個觀測合并到Di中重復多次,Di包含的觀測數量不斷增多,Mi參數依Di不斷調整,直到無法得到更大的Di。此時的Mi為最終的分類預測模型模式
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 穩固家庭忠誠義務履行書
- 《嚴重心律失常》課件
- 復用器械清洗流程標準化管理
- 《溶液的性質》課件
- 酒店安全培訓體系與實施規范
- 《國際貿易專業術語》課件
- 天臺抽蓄500千伏送出工程報告書
- 樂高幼兒課件教案
- 開發培訓交流會
- 《李芳人物畫B》課件
- 2025年數獨考試試題及答案
- 2025年福建福州電子信息集團有限公司招聘筆試參考題庫含答案解析
- 未成年人學校保護規定的國際比較研究
- 電力基礎知識題庫單選題100道及答案
- 化工工藝學知到智慧樹章節測試課后答案2024年秋廣州大學
- 2025新人教版初中七年級數學下冊新教材《第十一章 不等式與不等式組》大單元整體教學設計2022課標
- 安全注射知識培訓
- 康復醫學治療技術(士)復習題及答案
- 2024年中國扁平吊裝帶市場調查研究報告
- 《公路橋梁體外預應力加固技術規程》
- 第14課《第一次世界大戰》中職高一下學期高教版(2023)世界歷史全一冊
評論
0/150
提交評論