新華保險-理賠反欺詐預警識別平臺項目POC分析報告_第1頁
新華保險-理賠反欺詐預警識別平臺項目POC分析報告_第2頁
新華保險-理賠反欺詐預警識別平臺項目POC分析報告_第3頁
新華保險-理賠反欺詐預警識別平臺項目POC分析報告_第4頁
新華保險-理賠反欺詐預警識別平臺項目POC分析報告_第5頁
已閱讀5頁,還剩18頁未讀 繼續免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

新華保險理賠反欺詐預警識別平臺項目POC分析報告初稿嚴格保密1八月20141 整體整體規劃與分析思路12 樣本數據描述分析53 低風險案件識別模型114 后續工作19頁碼章節標題目錄整體整體規劃與分析思路章節11新華保險理賠反欺詐預警識別平臺項目POC分析報告?理賠數據低風險識別分析工作計劃(7.24-7.31)工作方法1.1項目整體規劃

2ExecutiveSummary新華保險理賠反欺詐預警識別平臺項目POC分析報告?理賠數據低風險識別分析總體目標:有效識別和抓取低風險案件通過業務規則鑒定低風險案件新華現狀通過數據挖掘平臺找出低風險案件特征PwC方法理賠案件簡易案件非自動審核自動審核低風險案件D1D2D3D4D5D6獲取數據及主題分析數據探索和模型建立模型結果檢驗與解釋撰寫項目分析報告業務規則和挖掘模型的交互價值驗證章節1–整體整體規劃與分析思路1.2整體分析思路

3ExecutiveSummary新華保險理賠反欺詐預警識別平臺項目POC分析報告?理賠數據低風險識別分析定義分析主題現有規則分析現有案件及來源建立分析數據市集建立預測模型低風險案件定義字段診斷12345模型評估6業務解釋7

針對新華2014年1月到5月的簡易小額自動案件(低風險案件)數據,從賠案出險人對應的既往賠付數據、保單數據、保全數據、續期數據樣本,進行低風險案件的模型識別,并對2014年6月賠案進行低風險模型識別,整體風險思路如下:

分析業務規則案件的差異性分析整理數據分析寬表數據探索及挖掘評價指標及模型比較規則解釋及分析章節1–整體整體規劃與分析思路保戶信息保單保全理賠案件理賠信息

1.3POC所用到的表與字段概覽簡單帳金額責任外金額意外細節拒付信息報案日期出險日期保單生效日保額總理賠次數繳費次數險種名稱繳費金額保全生效日期保全業務類型出險機構治療情況申請人關系性別生日數據類型共六張表:97個變量理賠類型4新華保險理賠反欺詐預警識別平臺項目POC分析報告?理賠數據低風險識別分析ExecutiveSummary章節1–整體整體規劃與分析思路5新華保險理賠反欺詐預警識別平臺項目POC分析報告?理賠數據低風險識別分析章節2樣本數據描述分析2.1數據探索分析

新華保險理賠反欺詐預警識別平臺項目POC分析報告?理賠數據低風險識別分析規則發現低風險案件在案件類型集中度過濾出疾病醫療和意外醫療案件風險標記同一賠案號下有唯一低風險標記對賠案號去重數據關聯將理賠與保單、保全、續期等表相關聯,并構建30多個衍生變量。理賠數據過濾篩選低風險案件關注:疾病醫療和意外醫療中訓練樣本篩選數量變化1007067673164498只針對疾病醫療和意外醫療的理賠案件進行低風險識別,同一賠案號下的風險值唯一.在一個賠案下,構建衍生變量如:每個賠案下的保單數,最大賬單金額,平均的意外到保單生效時間間隔等。6章節2–樣本數據描述分析2.1數據探索分析其他:附加(2014)B款意外醫療

附加吉瑞重癥監護津貼

附加醫療

吉瑞綜合意外傷害保險

康健華安醫療保險

康健吉順定期防癌

康健榮尊定期防癌險種與目標變量之間的相關性分析各個險種上的低風險占比不一樣。險種有可能成為影響變量。所有分析案件中,低風險的占比平均值為37.3%,其中有三個險種高于平均值,主要是:附加意外傷害醫療 附加意外醫療 住院費用(2007)圖中展示,2014年1月-2014年6月期間,各險種的分布比較穩定,故險種不存在的季節性因素的影響,從而使得評分結果的表現趨穩。

各險種在2014年1月-6月分布7新華保險理賠反欺詐預警識別平臺項目POC分析報告?理賠數據低風險識別分析章節2–樣本數據描述分析2.1數據探索分析

8新華保險理賠反欺詐預警識別平臺項目POC分析報告?理賠數據低風險識別分析最大賬單金額與目標變量的相關分析低分險高分險從單因子的方差分析上,賬單金額在高低風險上有顯著差異。同時,從最大賬單金額的盒型圖分布看出,高低風險上,都有賬單金額的異常值。比如最大賬單金額達到780000,遠遠超過平均值8203.在統計意義上,最大賬單金額的差異性是否顯著的方差分析對不同的高低風險,最大賬單金額的均值差異分析章節2–樣本數據描述分析2.1數據探索分析

9新華保險理賠反欺詐預警識別平臺項目POC分析報告?理賠數據低風險識別分析由于理賠時效性,保單有效性等特征,從理賠流程看,需要具備時間檢驗的一致性:保單生效日期<=意外發生日期<=出險日期<=報案日期<=立案日期本次理賠數據探索結果分析:時間不一致的異常特征分析:意外發生日期VS保單生效日期意外發生日期晚于保單生效日期的占比在1.54%,雖然這個比重比較高,但和業務人員溝通,在理賠周期內,客戶有跨年的情況,保單的生效日期會變成新一年的生效日,造成數據錯誤。出險日期VS意外發生日期比如對于賠案號90010063671,出險日期與意外發生日期相差了一年,但是查看數據發現事故描述中與意外發生日期一致,所以可以判定此項錄入出險日期數據有問題。報案日期VS出險日期比如對于賠案號90002701819(低風險案件,但是報案時間是2014年1月,而出險日期為2014年2月,可以根據此異常值對這個賠案進行在調查。

章節2–樣本數據描述分析2.2變量基本統計分析

為提取更多的變量,從現有數據中,提取衍生變量,增加變量的利用率,提升建模結果。

10新華保險理賠反欺詐預警識別平臺項目POC分析報告?理賠數據低風險識別分析出險年齡、理賠次數、保單生效到意外的時間間隔的偏度小,也就是數據值分布集中,波動性較小;其余的變量,波動性較大,在選擇分析模型時,需要作變量轉換,減少異常值造成模型不穩定。結論變量的基本統計分析,以下只取部分連續字段的衍生變量的基本統計分布:章節2–樣本數據描述分析低風險案件識別模型章節311新華保險理賠反欺詐預警識別平臺項目POC分析報告?理賠數據低風險識別分析3.1建模流程建立預測模型預測模型抽樣探索修正模型評估定義變量及數據字段抽樣-訓練數據及驗證數據檢視數據完整性/遺漏值檢視數據的分布及離群值數據轉置處理變量選擇變數集群決策樹模型邏輯回歸模型神經網絡模型模型組合其他方法模型穩定性評估模型選擇產生預測風險分數樣本抽取數據可視化關聯分析數據轉換變量選擇聚類神經網絡決策樹回歸模型支持向量機模型評估低風險案件識別12新華保險理賠反欺詐預警識別平臺項目POC分析報告?理賠數據低風險識別分析ExecutiveSummary章節3–低風險案件識別模型數據分析顯著性分析相關性檢驗建立模型模型驗證保單業務員體檢院所個人資料…ConstantFactorX1FactorX2FactorX3…風險分數3640459013新華保險理賠反欺詐預警識別平臺項目POC分析報告?理賠數據低風險識別分析ExecutiveSummary個人因素醫院因素時間因素業務人員因素理賠事故專業經驗分析系統業務員據賠率疾病據賠率事故日距離生效日客戶理賠歷史醫院據賠率章節3–低風險案件識別模型3.2低風險識別模型結果

14ExecutiveSummary新華保險理賠反欺詐預警識別平臺項目POC分析報告?理賠數據低風險識別分析訓練集(70%)預測分類高風險低風險實際分類高風險

24,398

3,906低風險

626

16,217驗證集(30%)預測分類高風險低風險實際分類高風險

10,424

1,707低風險

287

6,933對于低風險的理賠案件的識別過程中,訓練集和驗證集的預測準確率都達到90%,該模型預測率高且穩定。而且實際低風險的案件,被模型正確捕捉到96.3%,覆蓋率高。同時低風險漏報率,在測試集還是驗證集上,都不到1.5%的比率。如果將來有更多的識別變量,如治療醫院的資質情況,是否在定點醫院治療信息的等字段收集,低風險的案件識別率將會大大提升。模型評估分析樣本覆蓋率命中率正確率訓練集96.3%80.6%90.0%驗證集96.0%80.2%89.7%以誤分類率最低作為模型評價指標,對多個模型優化比較,最終決策樹模型無論在訓練集還是驗證集上都是效果最優且穩定。章節3–低風險案件識別模型3.3低風險識別模型解讀

15ExecutiveSummary新華保險理賠反欺詐預警識別平臺項目POC分析報告?理賠數據低風險識別分析1.數據挖掘所選用的重要變量,是從120多個變量里,根據自變量對目標變量的相關性分析,從各個輸入輸入變量的最大R方,進行比較篩選。2.極其重要的變量:主要關注在出險類別,保單生效時間到意外發生的時間間隔,賬單金額,出險原因代碼。這些都客觀反映了低風險的最顯著特性;非常重要和一般重要的變量,主要是歷史繳付次數、二級機構、保項、保全等客戶繳費歷史行為和案件特征信息。這客觀體現了低風險案件的理賠金額少快賠付的顯著特征。3.重要變量的選取,只是說明了該指標對低風險案件有重要影響。但是否正相關,在哪個取值范圍內影響?具體的規則和閾值,都需要數據挖掘的去探索,這也是其價值所在。變量重要性0.10.3章節3–低風險案件識別模型3.3低風險識別模型解讀

16ExecutiveSummary新華保險理賠反欺詐預警識別平臺項目POC分析報告?理賠數據低風險識別分析以最大賬單金額為區分點的某個決策樹上,以(是否大于5492.51)為規則,區分效果最好!以出險原因代碼為區分點的某個決策樹上,以(是否1:意外出險)為規則,區分效果最好!通過構建決策樹、邏輯回歸、神經網絡、支持向量機等多種模型,通過誤分類率最低為最優模型評估指標,進行模型模型比較,找到最優模型為決策樹模型。對于輸入變量分布偏度很大,有較多異常值;且本次低風險的目標定義是基于業務規則制定,所以決策樹從規則出發推導模型的特點,效果最好,而且應用性最直接。1:意外出險2:疾病出險章節3–低風險案件識別模型3.4低風險識別模型應用17ExecutiveSummary新華保險理賠反欺詐預警識別平臺項目POC分析報告?理賠數據低風險識別分析1.利用模型的規則,和業務規則進行比較。看共同性,差異性。為后續業務自動規則配置起到互補作用。2.對新案件進行評分,并區分出高低風險案件。低風險識別模型是理賠作業的關鍵首要步驟,也會影響后續的欺詐可疑案件識別效果。理賠作業及分析流程低風險的異常監控高風險的欺詐診斷章節3–低風險案件識別模型3.4低風險識別模型的補充分析18ExecutiveSummary章節3–低風險案件識別模型理賠時效在高低風險上案件上有顯著差異,且理賠時效作為低風險案件監控指標,以達到快賠的目標。

高風險案件低風險案件1.理賠時效分析---低風險案件有理賠周期短的特點。2.低風險案件異常分析---通過聚類等模式識別,找出歷史低風險案件中異常群體。對低風險案件聚類,共23個類別,其中有一類約占3.7%的賠案有異常。賠付金與保額的占比在每一種類的分布特征新華保險理賠反欺詐預警識別平臺項目POC分析報告?理賠數據低風險識別分析類別后續工作章節419新華保險理賠反欺詐預警識別平臺項目POC分析報告?理賠數據低風險識別分析后續階段工作

目前的預測模型由于數據質量低以及指標數量不夠的問題,一些關鍵指標的數據無法取得,而且受POC時間所限,使得模型的解釋能力無法再提升,預測準確率已到達到極限近90%,為了有效提高模型的效果和預測準確率,我們建議新華保險在后續的業務中,可以進行相關的主題分析:

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論