分布式計算、云計算與大數據 第2版 課件 第11章 保險大數據分析案例_第1頁
分布式計算、云計算與大數據 第2版 課件 第11章 保險大數據分析案例_第2頁
分布式計算、云計算與大數據 第2版 課件 第11章 保險大數據分析案例_第3頁
分布式計算、云計算與大數據 第2版 課件 第11章 保險大數據分析案例_第4頁
分布式計算、云計算與大數據 第2版 課件 第11章 保險大數據分析案例_第5頁
已閱讀5頁,還剩51頁未讀 繼續免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

第11章保險大數據分析案例提綱案例背景與需求概述設計方案環境準備實現方法不足與擴展背景介紹迅猛發展的大數據已滲透到各行各業,傳統的保險業也毫不例外。其已經積累并正不斷積累著數據,數據對保險公司具有至關重要的意義。大數據在保險行業的應用主要包括兩個視角:

通過新技術解決及有問題

新數據的創新型運用,新型數據與傳統數據的結合保險公司對大數據時代的應對方式成為未來發展的關鍵因素基本需求大型保險公司的三個業務場景:基于用戶的家譜信息挖掘基于歷史銷售數據的用戶推薦基于歷史銷售策略的回歸檢驗基于用戶的家譜信息挖掘場景一背景隨著保險業的逐步發展,人們對購買保險的意愿逐步升高,保險購買的潛在群體正在快速擴大,如何能夠更精準了解用戶的購買意向成為了十分迫切的需求。保險的購買行為往往呈現出家庭性質,對家庭關系的挖掘可以通過保單上或投保人與受益人的關系進行。基于用戶的家譜信息挖掘場景一目標通過技術的手段對公司所有的交易數據進行處理,挖掘出用戶的家庭關系,保存起來供其他業務使用。通過家譜信息,銷售員便可以精準地推薦產品給其家庭里面的其他人,達到了精準營銷的目的。基于用戶的家譜信息挖掘基于歷史銷售數據的用戶推薦場景二背景保險公司在拓展新客戶通常采取撒網式的方法,讓保險業務員依靠自身的能力逐個拜訪客戶,方法低效保險公司對于用戶精準分類方面的需求非常迫切,希望能夠通過過往交易數據,發現出下一個季度中某一個產品最可能購買的用戶群,保險銷售員在銷售該產品的時候能夠集中精力優先向這一類客戶推薦。基于歷史銷售數據的用戶推薦場景二目標對于某一種特定的產品,對算法分類出來的客戶,以購買概率的大小排序,然后分為若干個優先級的客戶,保險銷售員按照優先級的先后順序推銷保險產品。用戶精準篩選案例圖基于歷史銷售策略的回歸檢驗場景三背景保險公司在銷售某款產品的時候,根據用戶的若干特征做優先級推薦銷售策略。這些特征具體對銷售的結果影響如何,在傳統BI系統下依據統計的方法很難得出相關的結論,只能通過宏觀的銷售額來大致確定銷售策略是否有效。基于歷史銷售策略的回歸檢驗場景三目標通過大數據分析的手段得出每個特征對購買結果的影響程度,檢驗以往的推銷策略是否有效,從而在下一年的銷售當中促進保險的銷售額。本案例的3個功能目標(3個算法)1.根據銷售數據中投保人與受益人的關系信息,基于GraphX進行家譜信息的挖掘;2.根據某保險產品的歷史銷售數據,基于分片的隨機森林算法進行用戶推薦,并按用戶購買該產品的概率大小進行排序;3.根據歷史銷售數據的用戶特征數據,基于FP-Growth關聯規則挖掘算法進行回歸檢驗,比較各特征對銷售結果的影響。提綱案例背景與需求概述設計方案環境準備實現方法不足與擴展基于GraphX的并行家譜挖掘算法為什么使用圖算法?傳統的家譜挖掘算法,需要自上而下多次掃描所有的數據,十分消耗系統資源,甚至很容易出現極端情況使得挖掘結果出現異常,使用圖算法則能夠有效地提高效率。基于GraphX的并行家譜挖掘算法算法簡介基于GraphX的并行家譜挖掘算法算法執行步驟1.利用數據存儲圖2.通過圖計算出所有連通分量基于GraphX的并行家譜挖掘算法步驟一:存儲圖存儲圖需要點集和邊集,點集可以使用用戶映射表,邊集則可以使用用戶關系表。點集和邊集存儲圖的過程如右圖所示基于GraphX的并行家譜挖掘算法

使用深度優先算法對圖進行搜索,算法的流程如右圖所示步驟二:計算連通分量基于分片技術的隨機森林算法為什么不用其他算法?待訓練的維度相互之間存在不獨立的現象樸素貝葉斯分類數據分布不均勻且每個特征都存在著嚴重的不均衡性SVM和決策樹算法基于分片技術的隨機森林算法為什么使用隨機森林算法?隨機森林算法由若干棵決策樹構成,每一棵決策樹都能對正確目標給出合理、獨立且互不相同的估計,這些數的集體平均預測應該比任一個體的預測更接近正確答案。基于分片技術的隨機森林算法不平衡分類問題,如何分配數據?對數據進行分片處理,在這個問題中,多數類指“未購買”,少數類指“購買”,將多數類平均分成若干個子集,每個子集都和少數類合并為一個新的訓練集,每個訓練集獨立構建分類器基于分片技術的隨機森林算法針對不平衡問題的評判準則?針對不平衡分類問題,學術界提出了眾多新的評價準則,主要有:召回率recall、準確率precision、F-value等。對于這里的基于分片技術的隨機森林算法,我們使用F-value值來評判算法的效果。基于分片技術的隨機森林算法F-value公式

(4-3)

(4-2)

(4-1)基于分片技術的隨機森林算法建模流程圖基于內存計算的FP-Growth關聯規則挖掘算法為什么不用貝葉斯公式?1.計算繁瑣,對每個特征都需要計算一次2.貝葉斯公式只能通過人為指定特征的方法計算3.計算繁瑣,對每個特征都需要計算一次基于內存計算的FP-Growth關聯規則挖掘算法關聯規則分析其常見算法有:FP-Growth算法Apriori算法思想簡單,實現方便,得到了廣泛的應用。但是該算法需要多次掃描數據庫并產生大量中間結果,應用面比較窄分而治之,將數據做切分后,分配到各個部分中,每個部分都將其項集壓縮到一個頻繁項集樹(FP-tree)中,然后從樹的子節點以深度優先的方法挖掘出頻繁項集。只需要掃描數據庫兩遍,在時間和空間性能上都比Apriori算法優異許多基于內存計算的FP-Growth關聯規則挖掘算法建模過程1.構建數據全集D,每行都包括用戶身份證號,特征集合。2.挖掘頻繁項集,設定支持度為s,挖掘出現次數大于s的子集。3.挖掘關聯規則,設定置信度c,挖掘置信程度大于c的規則,并通過計算提升度(lift)系數來評判關聯規則的相關性。提綱案例背景與需求概述設計方案環境準備實現方法不足與擴展環境準備操作系統/軟件名稱版本號Windows10Java1.8.0_74Scala2.11.8IntelliJIDEA2016.3Maven3.3.9Spark2.0.0提綱案例背景與需求概述設計方案環境準備實現方法不足與擴展實現方法4.1基于GraphX的并行家譜挖掘—數據準備本節用到的數據集為dataSet.csv,源數據的格式及字段的含義可參考右圖實現方法4.1基于GraphX的并行家譜挖掘—代碼步驟構建點集和邊集構造圖與計算連通分量進行家譜挖掘,并保存挖掘結果實現方法4.1基于GraphX的并行家譜挖掘—程序運行及結果分析結果數據集的每行代表一個家庭,第一個數字代表家庭的編號,List為該家庭所有關系的集合,依據家庭中每個連通子分量的值,即可構建出家庭的圖譜。實現方法4.2基于分片技術的隨機森林模型用戶推薦—數據準備dataSet0.csvdataSet1.csv沒有購買某一保險產品的用戶的數據集購買了某一保險產品的用戶的數據集實現方法4.2基于分片技術的隨機森林模型用戶推薦—代碼步驟1.將數據打包成LabeledPoint格式2.對數據集作分片處理3.模型訓練4.結果預測5.計算評判參數6.保存用戶的分類情況實現方法4.2基于分片技術的隨機森林模型用戶推薦—結果分析“TestError”為每個分片中隨機森林的預測錯誤率。“avgerror”為所有分片的平均錯誤率“total”表示分析數據的總量“totalpredict”表示通過模型預測為“購買”的總數“totalcorrect”為與真實購買情況比對后預測正確的總數,“precision”為準確率,“recall”為召回率“F1”為F-value值。實現方法4.2基于分片技術的隨機森林模型用戶推薦—結果分析實現方法4.2基于分片技術的隨機森林模型用戶推薦—結果分析實現方法4.2基于分片技術的隨機森林模型用戶推薦—結果分析實現方法4.2基于分片技術的隨機森林模型用戶推薦—結果分析部分用戶推薦結果分片數為6的隨機森林模型認為id為27422的客戶100%購買該保險產品而id為84507的客戶則有83.33%的可能性購買該產品業務員應該優先選擇向id為27422的客戶推銷該款保險產品。實現方法4.3基于FP-Growth關聯規則挖掘算法的回歸檢驗—數據準備樣例源數據實現方法4.3基于FP-Growth關聯規則挖掘算法的回歸檢驗—代碼步驟1.構建數據總集D2.挖掘頻繁項集3.挖掘關聯規則實現方法4.3基于FP-Growth關聯規則挖掘算法的回歸檢驗—程序運行及結果分析部分運行結果其中第一個數值為關聯規則的置信度,第二個數值為lift系數。實現方法4.3基于FP-Growth關聯規則挖掘算法的回歸檢驗—程序運行及結果分析實現方法4.3基于FP-Growth關聯規則挖掘算法的回歸檢驗—程序運行及結果分析實現方法4.3基于FP-Growth關聯規則挖掘算法的回歸檢驗—程序運行及結果分析實現方法4.3基于FP-Growth關聯規則挖掘算法的回歸檢驗—程序運行及結果分析實現方法4.4結果可視化—環境準備(1)Myeclipse:項目開發使用的IDE,可使用同類型的其他IDE,比如Eclipse。,(2)Tomcat:常用的輕量級WEB應用服務器。(3)JavaJDK1.7:java運行環境,當前JavaJDK最新版本為1.8,但由于我們提供的可視化項目使用的Spring框架版本為3.2,與Java1.8存在兼容性問題,請務必注意,若讀者想要基于Java1.8運行本項目,請改用Spring4框架。(4)Mysql:數據庫。(5)Navicat:數據庫管理工具,大大提高開發效率。實現方法4.4結果可視化—家譜展示右圖為以該用戶為中心的家譜信息。將鼠標放置在邊上可顯示其相互之間的關系實現方法4.4結果可視化—用戶推薦展示實現方法4.4結果可視化—回歸檢驗展示實現方法4.4結果可視化—回歸檢驗展示實現方法4.4結果可視化—回歸檢驗展示提綱案例背景與需求概述設計方案環境準備實現方法不足與擴展不足與擴展(1)未在Linux環境下進行整個案例的實現,以集群環境運行Spark,并配合HDFS等大數據組件進行實驗

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論