《基于云計算的短信垃圾過濾系統(tǒng)研究【5200字】》_第1頁
《基于云計算的短信垃圾過濾系統(tǒng)研究【5200字】》_第2頁
《基于云計算的短信垃圾過濾系統(tǒng)研究【5200字】》_第3頁
《基于云計算的短信垃圾過濾系統(tǒng)研究【5200字】》_第4頁
《基于云計算的短信垃圾過濾系統(tǒng)研究【5200字】》_第5頁
已閱讀5頁,還剩4頁未讀 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

基于云計算的短信垃圾過濾系統(tǒng)研究目錄TOC\o"1-3"\h\u145901kNN算法 2245312云計算概述 2118442.1云計算的定義 2101932.2云計算特點 2172723短信垃圾過濾系統(tǒng) 3293883.1手機系統(tǒng)設計 3195573.2云端系統(tǒng)架構 3321383.3亟待完成工作 446683.4MapReduce技術 5301973.5k條短信選取規(guī)則 6222253.6分類計算規(guī)則 6317044實驗與結果分析評價 6130274.1實驗數(shù)據 6257444.2實驗環(huán)境的搭建 6121754.3實驗結果 7166904.4實驗過程及分析 7154455結束語 725335參考文獻 7手機普及率的提高和短信通信費的低廉,使得手機用戶經常收到諸如廣告、不良鏈接、詐騙等形形色色的垃圾短信,給生活帶來了諸多不便.垃圾短信的治理已經得到國家和社會的支持,并成立了各種模型的垃圾短信舉報中心,據12321調查統(tǒng)計,2012年下半年用戶平均每周收到垃圾短信數(shù)量為1O.7條.本文利用計算機技術中的文本分類算法實現(xiàn)短信分類,當前的垃圾短信過濾技術多數(shù)在客戶端實施,由于客戶端移動設備處理能力有限,客戶對短信的實時性要求高,如何高效、快速的分類短信,是課題研究的重點.云計算技術_2是近年來發(fā)展較快的計算機綜合技術之一,它將大量的處理任務放在云端,降低客戶端成本.筆者已經在單機上使用kNN算法實現(xiàn)短信分類,使得分類的最高識別率達到9O以上,由于kNN算法需進行大量的比較運算,在單機運行時,單位時間內的處理速度較慢,本文采用云計算技術,將短信的分類識別放在云端,以提高處理速度和減少客戶端的運行成本,取得了較好的效果,當比較庫數(shù)量為9000條短信、云端計算機為5臺時,每秒可處理短信數(shù)600條,是單機處理的4倍,平均識別率達到85以上.1kNN算法k近鄰算法應用在短信分類時的算法思路:有條已標識類別的短信樣本(比對庫),1條待測類別的短信樣本,先計算待測樣本與比對庫中”條短信的相似度,再根據選取規(guī)則從比對庫中挑出k條相似度最高的短信樣本,最后根據分類計算規(guī)則確定待測短信的類別.忌NN算法分類短信的基本步驟如下:1)從短信集中提取所有特征項集合(特征集),特征集中包含特征項名、詞頻和所屬類別信息;2)將比對庫短信進行預處理,并根據特征集將短信表示成可計算的樣式;3)將待測短信進行預處理,根據特征集將待測短信表示成可計算的樣式,并計算其與比對庫中條短信的相似度,選出k條并確定其類別。2云計算概述2.1云計算的定義云計算(CloudComputing)是一種在分布式、并行和網格計算等技術基礎上發(fā)展而來的新型計算模式口],自2007年提出概念后,各種基于云計算的產品應運而生.云計算的定義有廣義和狹義之分,筆者綜合考量,認為所有外部可使用的、透明的資源和服務均可視為云計算.2.2云計算特點云計算以動態(tài)的服務計算為主要技術特征,以靈活的“服務合約”為核心商業(yè)特征,是信息技術領域正在發(fā)生的重大變革。在短信的概念視圖中,每條短信看似由行組成,但實際存儲是按列保存的,概念視圖中的空值屬性在實際存儲時會被忽略,當請求操作空屬性時會返回null值.SIIIS—Original列簇和sms—Fc列簇的存儲結構。3短信垃圾過濾系統(tǒng)隨著移動通信技術的飛速發(fā)展和手機普及率的迅速提高,手機短信越來越受到眾多人士的青睞。短信業(yè)務之所以成為人們的一種重要通信和交流方式,是由于其本身的諸多優(yōu)點例如短小、迅速、簡便、價格低廉等,直接影響著每個人的日常生活。短信的廣泛應用也帶來了不少問題,比如垃圾短信泛濫成災,不僅極大的影響了人們的正常生活和通信,而且使許多人的經濟受到了損失,因此研究垃圾短信過濾具有重要的意義。開發(fā)完善的垃圾短信過濾系統(tǒng)一直是電信運營商和學術界研究的重點。隨著手機用戶數(shù)量的增長,垃圾短信數(shù)量也呈現(xiàn)出爆炸增長的勢頭,使得廣大消費者長時間飽受垃圾短信的騷擾。垃圾短信不僅占用了有限的網絡資源,造成運營商投入更多的人力、物力資源對其進行處理,而且以欺詐為目的的短信使很多用戶損失大量財產。目前用戶投訴總量的30%以上都是針對垃圾短信,因此電信運營商有義不容辭的責任抑制垃圾短信蔓延。中國移動、中國聯(lián)通和中國電信公司推出了過濾垃圾短信專用客戶端。主要做法是根據發(fā)送號碼特征及語義特征自動過濾垃圾信息,將要過濾的號碼加入短信黑名單。而針對號碼特征及語義特征過濾受到手機的存儲和運算能力的限制,還需要進一步的改善。即使使用傳統(tǒng)的服務器來分析并將發(fā)送源號碼屏蔽,也由于垃圾短信數(shù)據量呈現(xiàn)指數(shù)級增長。3.1手機系統(tǒng)設計手機終端裝有過濾垃圾短信軟件,首先通過此軟件對短信進行分詞,分詞完成之后與垃圾詞庫里的詞進行比對得出短信的性質(是垃圾短信還是非垃圾短信),如果是垃圾短信,則用戶可以將此短信上報到“云”端。手機終端的功能模塊,手機終端的功能包括:(1)過濾:手機終端可以根據黑名單、省市、號碼段、時間段進行過濾。能夠下載云端的垃圾詞庫。(2)實時舉報:系統(tǒng)判斷為垃圾過后立即上報。通話記錄顯示來電地區(qū)、響鈴時間、來電時間等信息,用戶可根據此判斷是否響一聲來電,點擊一下按鈕即可上報。短信也可以很方便的上報。3.2云端系統(tǒng)架構云端主要有規(guī)則挖掘引擎,攔截分析系統(tǒng),管理平臺,通信接口群等組成。“云”端首先利用分詞算法對短信進行分詞處理,然后利用貝葉斯算法判斷短信的性質,最后攔截分析系統(tǒng)依據一定規(guī)則對上報的數(shù)據進行分析和判斷,通過FTrP的方式將發(fā)送垃圾短信的源號碼發(fā)送到移動側,由移動相關系統(tǒng)來關閉這批號碼的短信功能。同時更新垃圾詞庫,根據用戶的需求來下發(fā)相應的垃圾詞庫到手機終端。云端系統(tǒng)的處理流程為:手機終端用戶通過上行接口將垃圾短信暫存到JMS中,上報數(shù)據分析器從JMS中提取數(shù)據對其進行分析(判斷是否為垃圾短信),如果是垃圾短信,則賦予發(fā)送垃圾短信的源號碼一定的積分,否則不賦予垃圾積分,并將分析結果存到業(yè)務數(shù)據庫中,下行接口定時給手機終端用戶發(fā)送提醒短信,以防用戶上當受騙,數(shù)據分析引擎每天定時查看發(fā)送垃圾短信源號碼的積分,依據某種規(guī)則對其號碼進行分析判斷是否達到被攔截的條件,并將分析結果傳送給移動側,報表模塊定時從業(yè)務數(shù)據庫中提取屬于某個時間段的垃圾短信并生成報表數(shù)據,同時將結果存到報表數(shù)據庫中,以供報表平臺展示,外部數(shù)據傳輸將報表數(shù)據庫中的數(shù)據和業(yè)務數(shù)據庫中的短信內容傳到移動側,由移動側系統(tǒng)采取下一步措施;管理模板由管理人員定義系統(tǒng)的相關參數(shù)(例如JMS隊列長度等)及攔截閥值規(guī)則。本文在基于Apache開源組織的分布式計算開源框架Hadoop的基礎已經初步實現(xiàn)從大量的短信數(shù)據中分析垃圾短信的內容特征以及垃圾短信發(fā)送號碼。3.3亟待完成工作3.3.1分詞算法的效率在垃圾短信過濾系統(tǒng)中非常重要。進一步確認使用動態(tài)規(guī)劃法后效率的提高程度。3.3.2由于目前下發(fā)到手機終端的垃圾詞庫需要人為的干預,通過貝葉斯算法自動產生垃圾詞下發(fā)到終端。3.3.3法律整治建議徹底治理垃圾短信除了技術方面外還需要多管齊下:歐美國家在治理垃圾短信方面,已積累了很多成功的經驗,值得我們學習和借鑒。3.3.4在我國,目前與電信行業(yè)相關的法律法規(guī)有《中華人民共和國電信條例》和《中華人民共和國互聯(lián)網信息服務管理辦法》,而這些法律法規(guī)都不是專門性的。所以需要盡快的制定有針對性的法律法規(guī)能從根本上治理垃圾短信。3.3.5要盡快落實SIM卡實名制。SIM卡實名制被認為是解決垃圾、不良短信的一種長效和有效的機制,可以真正的從源頭上實現(xiàn)對短信的可管理、可監(jiān)督。這種機制已在很過國家通過實踐證明,利用手機垃圾短信違法犯罪的現(xiàn)象明顯比沒有實施SIM卡實名制的數(shù)量少很多。3.3.6建立完善的監(jiān)管機制。相關部門需要建立處理垃圾短信的用戶的投訴處理平臺,以方便用戶快捷的投訴,使運營商能夠即時的處理用戶的投訴來達到遏制利用垃圾短信違法犯罪目的。3.4MapReduce技術MapReduce是一種編程模型引,受函數(shù)式語言中的map和reduce函數(shù)的啟發(fā),基于“分而治之”的管理理念,類似于進程和線程編程,適用于內部低耦合且高并行型的海量數(shù)據的分析處理程序.MapReduce技術將待解決任務先通過Map函數(shù)(任務分解)映射成(key,value)((鍵,值))對的形式,再將分解后的子任務分配給大量的計算機節(jié)點處理,產生中間<key,value)對,然后通過Reduce(化簡)對中間<key,value>對進行合并,最后將任務匯整輸出.本文將MapReduce技術應用在短信預處理和短信分類2個階段.短信預處理階段主要有中文分詞、去停用詞、計算各關鍵字詞頻、生成關鍵字的詞頻文件、合并文件、比對庫表示6個任務,根據上述描述,Map過程應用在中文分詞和去停用詞階段,Reduce過程應用在生成關鍵字在短信類別中的詞頻文件和合并文件階段,把相同的(類別,關鍵字,詞頻)鍵值對合并,在合并過程中,以“類別I關鍵字”為主鍵,將相同項后的詞頻相加后合并,生成關鍵字在短信類別中的詞頻文件,在合并文件階段,仍以“類別j關鍵字”為主鍵,以該關鍵字詞頻與總詞頻數(shù)的比率作為詞頻存儲在最終特征集文件中,得到短信特征集后,對比對庫中的條短信進行表示,表示后的結果存放在sms表中短信分類采用kNN算法,判斷待測短信類別時需將待測短信和比對庫中的所有短信(札條)逐一比較,找到相似度最高的前k條短信,然后根據前k條短信所屬類別采用某種計算方法,確定待測短信所屬類別,分類階段也需將待測短信經過中文分詞、去停用詞、短信表示、相似度比較、選取k條短信、確定所屬類別6個階段,實驗時測試短信數(shù)量較大,因此Map過程應用在中文分詞、去停用詞、短信表示、相似度比較4個階段,Reduce過程應用在選取忌條短信和確定所屬類別階段.3.5k條短信選取規(guī)則kNN算法分類短信時根據選取到的最條短信來確定待測短信的類別,選取k條短信時最簡單的算法是將相似度最高的k條信息選出,本文為了增加正常短信通過率(因為正常短信被過濾的代價高于垃圾短信),預選取1.5倍的條短信,按相似度降序排列,分類系統(tǒng)設置一個概率差,當序號在序號k之前(包括尼)的垃圾短信的相似度與k之后的正常短信相似度之差滿足概率差時,兩條短信交換,反復執(zhí)行該操作即可得到符合選取規(guī)則的志條短信集.經實驗驗證,當概率差取1.5時,分類效果最好.3.6分類計算規(guī)則一條短信選好后,根據正常短信和垃圾短信的數(shù)量確定待測短信的類別,最簡單的方法是以數(shù)量多的類別作為待測類別,為增大正常短信通過率,實驗采取的分類計算規(guī)則為:當正常短信數(shù)量大于垃圾短信數(shù)量時,待測短信判定為正常短信;當垃圾短信數(shù)量與正常短信數(shù)量之差小于某個數(shù)量差時,待測短信判定為正常短信,否則為垃圾短信.數(shù)量差和比對庫數(shù)量n以及忌值均相關,取值大小對實驗結果影響較大,取值過大會使得垃圾短信的誤判率上升,4.4.1節(jié)確定了不同實驗環(huán)境下該參數(shù)的取值.4實驗與結果分析評價4.1實驗數(shù)據云計算的優(yōu)勢在短信規(guī)模較大時才可以體現(xiàn)出來,為了搜集足量的短信,筆者使用網絡搜索、學生提供、個人手機、聊天記錄等方式共搜集到短信樣本2.6萬條,去蕪存菁后余下2.11萬條,其中正常短信1.9萬條,垃圾短信0.21萬條,同時甄選出3100條(其中510條垃圾短信和2590條正常短信)并分成數(shù)量不同、用途不同的4組,具體如表6所示.4.2實驗環(huán)境的搭建利用筆者所在單位實驗室的硬件資源,選用5臺PC機,其中1臺作為NameNode、master和jobTracker,另外4臺都作為DataNode、slave、taskTracker、HBase服務器,5臺PC機的IP地址在同一網段內,均安裝配置Hadoop和HBasec“].4.3實驗結果評價標準①查準率:待測短信集中判定正確數(shù)與判定出的實際數(shù)之比;②查全率:待測短信集中分類正確的短信數(shù)與應有的短信數(shù)之比;③F—Score值:2*查準率*查全率/(查準率+查全率);④數(shù)量比:云計算測試與單機測試每秒內所處理短信數(shù)量比,比值越大,效果越好,云計算的優(yōu)勢主要體現(xiàn)在單位時間所處理數(shù)量上,因此該評價指標作為實驗的主要評價指標.4.4實驗過程及分析4.4.1實驗參數(shù)n值為比對庫數(shù)量,k值為選取的鄰居數(shù)量,數(shù)量差為分類計算規(guī)則中的參數(shù),這3個參數(shù)對實驗結果影響較大,在搭建的實驗環(huán)境下,最優(yōu)參數(shù)結果如表7所示,后續(xù)實驗沒說明參數(shù)與表7一致,實驗結果的數(shù)量比為4.垃圾短信在某時期內具有相同的特性,實驗精選近期收到的房地產類垃圾短信200條,將其添加到比對庫中,使得比對庫信息提高到10300條,即值為10300,取k為50,再用該200條短信進行測試,共識別出垃圾短信187條,識別率提高到93.5,可見kNN算法也適合反饋實驗.5結束語云計算技術已經在數(shù)據處理中取得了一定的成績,但離普及應用仍有一定的距離,采用云計算的核心技術,解決垃圾短信分類占用客戶端設備處理能力的問題,將分類放在云端處理,使得垃圾短信的處理速度得到了提高,短信識別率最高達到93.5,這為垃圾短信的治理工作做出了一定的貢獻。參考文獻陳功平,沈明玉,王紅,等.基于內容的短信分類技術_J].華東理工大學學報:自然科學版,2011,37(6):77O一774.ShufenZhang,ShuaiZhang,XuebinChen,eta1.AnalysisandresearchofcloudcomputingsystemInstance[c]//NWWashington,DCUSA:IEEE2010SecondInternationalConferenceonFutureNetworks.IEEEComputerSociety,2010:88-92.JeongHY,ParkJH.Anefficientcloudstoragemodelforcloudcomputingenvironment[C]//RuixuanLi,JiannongCao,JulienBourgeois.AdvancesinGridandPervasiveCompu—ring.Berlin,Heidelberg:Springer-Verlag,2012:370—376.馮登國,張敏,張妍.等.云計算安全研究[J].軟件學報,2011,22(1):7183.CusumanoM.CloudcomputingandSaSasnewcomputingplatforms[J].CommunicationsoftheACM,2010,53(4):27—29.GunarathneT,WuT—I,QiuJ,eta1.Mapreduceinthecloudsforscience[c]//IEEE:CloudComputingTechnologyandScience(CloudCorn),2010IEEESecondInternationalConferenceon.NWWashington,DCUSA:IEEEComputerSociety,2010:565—572.DhokJ,MaheshwariN,VarmaV.Learmngbasedoppor—tunisticadmissioncontrolalgorithmforMapReduceasaservice[C]//PadmanabhuniS,AggarwalSK,BellurU.I

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論