基于大數據 AI機器學習的反詐模型研究_第1頁
基于大數據 AI機器學習的反詐模型研究_第2頁
基于大數據 AI機器學習的反詐模型研究_第3頁
基于大數據 AI機器學習的反詐模型研究_第4頁
基于大數據 AI機器學習的反詐模型研究_第5頁
已閱讀5頁,還剩7頁未讀 繼續免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

基于大數據+AI機器學習的反詐模型研究人工智能安全AISecurity基于大數據+AI機器學習的反詐模型研究陸文紅,劉劍(中國聯通黑龍江省分公司,黑龍江哈爾濱150001)LuWenhong,LiuJian(ChinaUnicomHeilongjiangBranch,Harbin150001,China)摘要:首先闡述了課題研究的背景,從電話反詐需求出發,提出了基于大數據+AI機器學習模式建立反詐模型的思路,搭建反詐態勢感知大數據平臺。接著介紹了隨機森林、支持向量機、樸素貝葉斯、梯度提升決策樹等機器學習算法,詳細描述了重要功能接口,介紹了數據源采集處理,通過自定義規則與時俱進更新反詐模型,實現反詐趨勢實時監控、涉詐號碼關停、溯源分析等功能。最后對平臺部署進行了測試驗證。關鍵詞:文章編號:1007-3043(2022)09-0059-05開放科學(資源服務)標識碼(OSID):anlectionandprocessing,updatestheanti-fraudmodelthroughcustomrules,andrealizesthereal-timemonitoringofanti-stestKeywords:s引用格式:陸文紅,劉劍.基于大數據+AI機器學習的反詐模型研究[J].郵電設計技術,2022(9):59-64.0前言近年來,電信詐騙嚴重影響了人民群眾獲得感、幸福感、安全感。國家高度重視電信詐騙治理工作,運營商作為電信詐騙整個鏈條中的一個環節,亦投入大量人力物力、技術資金等開展電信詐騙專項治理。運營商如何利用技術手段進行反詐,一直以來都是研究重點。最初電信詐騙特征并不復雜,通過一些簡單的行為分析與內容檢測就可以達到不錯的反詐效果。收稿日期:2022-07-29隨著詐騙分子與反詐人員技術對抗不斷升級,電信詐騙在通信網側的行蹤已經越來越隱蔽,技術手段越來越先進,因此,反詐工作亟需提升技術水平和能力,運用決策樹、隨機森林、貝葉斯分類器等典型的機器學來綜合判別詐騙電話,進而對詐騙電話進行關停、溯源和關聯分析。1電話反詐需求分析1.1電話反詐現狀隨著通信技術的發展和互聯網的普及,詐騙分子郵電設計技術/2022/0959人工智能安全AISecurity基于大數據+AI機器學習的反詐模型研究頻繁利用電信網和互聯網對廣大人民群眾實施非接觸式詐騙,并逐步呈現智能化、職業化的特點。詐騙分子利用電話、改號軟件、短信、惡意程序(包括仿冒和相關部委關注的重點。1.2電話反詐治理難點在通信過程中,終端會因為開關機、路由區更新、呼叫業務、短消息業務觸發鑒權向量消息,被叫和短消息業務會觸發尋呼消息,針對用戶漫入漫出詐騙特征分析的主要方法是通過正常用戶的行為建立基線,發現非正常終端的通聯關系。但是,電話反詐存在詐騙場景多變、舉報樣本不純、數據不均衡、數據表現不一致等治理難點。2整體解決方案2.1平臺整體架構如圖1所示,從整體架構上,平臺主要由5個部分構成:應用展示層/系統管理/監控部分、數據源、機器各層功能如下。a)應用展示層。提供綜合展現、系統首頁、檢出號碼列表、失信號碼溯源、信息查詢等展示全網涉詐電話的狀態,通過一鍵處置對涉詐電話進行關停,提高處置效率。b)數據源。通過各類接口技術,如FTP、SFTP、XML、API、JDBC等進行各類數據的收集。c)機器建模層。通過特征篩選技術、機器學習技術對模型進行訓練,對訓練后的模型效果進行評估,評估通過的模型正式上線運行,后續通過自動+人工的方式不斷對模型進行迭代升級來反詐新的詐騙場景。d)數據接入層。對收集的數據進行規范化處理后壓縮入庫,通過大數據技術對入庫數據進行抽取、建模準備數據環境。e)接口。通過運營商現有平臺實現短信接口、關停監控接口、集團接口等功能對接,實現多環節功能自動完成。2.2反詐業務流程大數據采集數據源包括移動網Mc接口XDR話單和信令話單(O域話單)以及計費話單(B域話單)。為了確保分析數據的準確性,需要對數據進行加工處理,包括數據清洗、數據轉換、數據關聯,不規則應用展示應用展示數據源機器建模層數據接入層接口用戶視圖12321數據機器學習建模反詐態勢感知平臺數據處理大數據平臺關停監控接口集團接口數據壓縮數據入庫自定義規則集團公安數據…數據采集模型分析模型優化多域匯聚短信接口數據存儲(HDFS)…圖1整體架構圖602022/09/DTPT設計基于大數據+AI機器學習的反詐模型研究設計人工智能安全AISecurity數據需要進行數據補齊,滿足數據的完整性和一致性。通過數據預處理組件可實現按照一定的規則,對已采集的數據進行清洗,對無用的數據進行過濾。將不合理或不滿足數據結構要求的數據,進行字段取構要求。大數據處理層主要是對接大數據全域數據匯聚處理與數據存儲等功能。2.2.3詐騙電話數據處理流程詐騙電話數據包括詐騙電話、鷹眼數據、省分數據和IQ指標,從數據采集開始,將數據送到反欺詐引,最后送到Portal分布2.3算法及流程介紹國際國內詐騙事件分析算法主要采用適用性優良、精確度高、理論基礎佳、學術成果前沿的機器學習算法對通信行為模式進行挖掘和準確識別,如邏輯回歸、隨機森林、支持向量機、樸素貝葉斯、梯度提升決策樹等。本文為了解決詐騙場景多變、舉報樣本不純、數據不均衡、數據表現不一致等治理難點,使用了上述機器學習算法的組合算法,引入公安涉案數據、用戶舉報數據增加正樣本數量。同時使用LightGBM框架,訓練決策樹時使用直方圖算法,采用leaf-wise生長策略,每次從當前所有葉子中找到分裂增益最大(一般也是數據量最大)的一個葉子,然后分裂,如此循環,但此過程會生長出比較深的決策樹,產生過擬合。因此LightGBM在leaf-wise之上增加了一個最大深度的限制,在保證高效率的同時防止過擬合。從直方圖獲得分裂收益,選取最佳分裂特征、分裂閾值,根據最佳分裂特征、分裂閾值將樣本切分。通過直方圖做差,繼續選取最佳分裂葉子、分裂特征、分裂閾值,切分樣本,直到達到葉子數目限制或者所有葉子不能分割。本文選擇LightGBM是因為它支持高效率的并行訓練,并且具有更快的訓練速度、更低的內存消耗、更高的準確率、支持分布式、可以快速處理海量數據等優點。關于梯度提升樹算法的流程如下。c數據采集數據采集反欺詐引擎分布式解析引擎存儲Portal分布式應用前端服務詐騙數據指標同步大數據服務詐騙電話數據總部鷹眼數據解析省分數據解析語音詳單總部模型檢出數據省分模型檢出數據IQ指標解析全量IQ數據庫IQ指標MySQL數據庫反欺詐解析反欺詐引擎語音詳單數據字段注冊中心系統管理關圖2詐騙電話數據處理流程圖2/0961AISecurity基于大數據+AI機器學習的反詐模型研究b)對迭代輪數t=1,2,?T,進行以下操作。 歸樹,得到第t顆回歸樹,其對應的葉子節點區域為Rtj,j=1,2,?J。其中J是回歸樹t的葉子節點個數。 (c)對葉子節點區域j=1,2,?J,計算最佳擬合值cc (d)更新強學習器。c)得到強學習器表達式。2.4模型效果及創新點件,結合現階段詐騙涉案特征集,開展生產環境實踐。正樣本:根據公安提供的警情涉案數據和用戶舉報數據,提取本場景的詐騙號碼,選取其被報案日的歷史前7天及當天數據,將經初篩剩余的號碼作為初樣本過少,樣本不均衡,采取過采樣,將正樣本復制為3數據,通過初篩的號碼查詢網絡標簽,將去除詐騙標簽剩余的樣本作為負樣本,經過初篩及過濾標簽,最終負樣5805個。將數據分為訓練集和測試集,進行5折的交叉驗證,最終的混淆矩陣如下。a)5折訓練集混淆矩陣展示。如表1所示,其準b)測試集混淆矩陣展示。如表2所示,其AUC為表15折訓練集混淆矩陣展示字段名預測騙子預測正常用戶實際騙子6實際正常用戶4表2測試集混淆矩陣展示字段名預測騙子預測正常用戶實際騙子0實際正常用戶1測試集上ROC曲線及AUC值如圖3所示。TPRTPRAUC=0.99990.20.00.4F0.20.00.4FPR0.8圖3測試集上ROC曲線及AUC值模型創新點有2個,一是在正樣本較少的情況下,正負樣本極度不均衡,通過初篩對負樣本進行隨機欠采樣(ROS),很好地解決了樣本不均衡帶來的問題;二是對模型的精準度要求很高的同時,對覆蓋也有高要求,放寬了初篩的條件,讓更多的數據能進入模型,迭代特征集合選取現階段最優的特征集合。3系統功能介紹3.1外部接口功能系統已具備標準的B域基礎數據接口,并采用SFTP進行加密傳輸,保證了數據的機密性。系統與集團鷹眼數據接口采用API接口方式,獲取鷹眼系統的I他系統直接操作數據庫,降低系統數據庫由于誤操作帶來的風險。3.2自定義規則及監控功能系統從用戶信息、狀態信息、通話信息、漫游信欺詐工作人員可根據經驗,靈活配置使用自定義的監控規則,預測新的不良號碼。同時,還可新增支持更多指標閾值設置,支持指標的與或非邏輯、概率函數運算等。業務實現處理流程見圖4,具體說明如下。622022/09/DTPT基于大數據+AI機器學習的反詐模型研究人工智能安全AISecurity自定義規則與監控數據源B域話單指標 (24項)B域話單指標 (24項)Q (32項)平臺指標 (4項)OO域信令指標 (12項)數據接收與提取指標數據提取(多服務器并行處理)平臺提取指標存儲與存取自定義規則任自定義規則任務調度指標數據大數據存儲中心規則展示自定自定義規則不良號碼攔截處置匹配指標結果結不良號碼攔截處置匹配指標結果結束生產系統關停監控規則圖4業務實現流程a)指標展示。展示相關的指標項,設置指標的范圍以及監控周期。b)規則的校驗和添加。規則添加時,使用昨日指標數據校驗當前規則設置是否合適,合適則添加,不合適直接返回提示信息。c)規則任務的拆分。將添加的規則,拆分成可以執行的任務。d)規則匹配與結果數據的存儲。從數據存儲中心獲取匹配的指標數據,并將結果數據存儲至本地數據庫。e)關停。關停不良號碼。4數據輸出及結果驗證4.1數據輸出根據上述規則輸出模型數據,包括GOIP、漫游通用模型、仿冒公檢法、仿冒領導熟人等每月輸出檢出表3月數據輸出時間GOIP漫游通用模型仿冒公檢法仿冒領導熟人總數2022年1月59177197582022年2月42126424532022年3月806972022年4月871754.2核驗方法針對2022年3月份業務部門反饋的模型結果進行核驗還不足以驗證系統模型檢出異常號碼的準確性,所以本文引入集團鷹眼詐騙模型分布情況與平臺檢出結果進行對比,如表4所示。命中率最高的模型規則為仿冒領導熟人,其命中率達到100%,命中率最低的模型規則為基于lac的GOIP模型(B域)的模型規則,其命中率為4%。表4數據檢出驗證詐騙模型規則檢出量命中數命中率/%仿冒公檢法詐騙922932漫游通用模型6042于lac的GOIP模型(B域)788354仿冒領導熟人5模型部署及應用本文提出的基于大數據+AI機器學習模式創新建立的反詐模型已應用于黑龍江反詐態勢感知大數據平臺。運營商反詐人員通過反詐監控獲取整體反詐情況,如圖5所示,該平臺可以直觀的呈現各類月度趨勢及當日走勢,實現反詐集中運營與監控。6結束語面對當前不斷翻新的詐騙手段,變化多端的通信欺詐行為,運營商的管控任務艱巨。本文通過反詐態勢感知大數據平臺,針對常見的詐騙話務行為進行分析,借助反欺詐業務模型及機器學習模型的迭代調郵電設計技術/2022/0963丆丆丆丆丆丆丆丆丆丆丆丆作者簡介:丆丆丆丆丆丆丆丆丆丆丆丆作者簡介:AISecurity基于大數據+AI機器學習的反詐模型研究黑黑龍江反詐態勢感知大數據平臺圖5黑龍江反詐態勢感知大數據平臺優,建立針對詐騙電話的事前風險預防、事中風險阻斷、事后風險處理的全流程閉環反詐管控體系,降低了詐騙號碼誤判率,有效減少反詐人員工作量,提高勞動生產率,在實際應用中取得了良好的效果。此外,在反欺詐防控過程中,因為算法精度可能存在部分用戶號碼偏差。因此,未來可在以下2個方面進一步提高反欺詐模型的精度:一是不斷迭代新模型+社會工程學來適應各種欺詐場景;二是嘗試通過貝葉參考文獻: [1]張一乾.電信反欺詐相關技術研究[D].北京:北京郵電大學,2014. J.信息通信技術,2015,9(6):50-56,72. [3]韓利強.垃圾短信與騷擾電話攔截技術[J].通訊世界,2017(1):66-67. [4]姚偉.業務系統異常行為檢測[J].郵電設計技術,2016(1):70-73. [5]石強.反欺詐中的用戶手機號數據研究[J].智能計算機與應用, [6]孫世奇,張治邦,宋丹.

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論