數(shù)據(jù)挖掘和惡意軟件檢測_第1頁
數(shù)據(jù)挖掘和惡意軟件檢測_第2頁
數(shù)據(jù)挖掘和惡意軟件檢測_第3頁
數(shù)據(jù)挖掘和惡意軟件檢測_第4頁
數(shù)據(jù)挖掘和惡意軟件檢測_第5頁
已閱讀5頁,還剩6頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

PAGE4數(shù)據(jù)挖掘和惡意軟件檢測黃宗文,167215392016-11-20摘要: 由于計算機(jī)網(wǎng)絡(luò)的發(fā)展以及惡意程序編碼水平的提高,傳統(tǒng)的惡意程序檢測技術(shù)的不足已經(jīng)越來越明顯,很難滿足人們對信息安全的需求?;谛袨榈膼阂獬绦驒z測技術(shù)是利用惡意程序的特有行為特征來檢測程序惡意性的方法,它能很好地檢測未知惡意程序。這種惡意程序檢測技術(shù)可以很好地適應(yīng)惡意程序逐漸呈現(xiàn)的新特點,無疑具有巨大的優(yōu)越性和廣闊的發(fā)展空間,應(yīng)該在今后相當(dāng)長時間內(nèi)代表著惡意程序檢測技術(shù)的發(fā)展趨勢。本文介紹了基于靜態(tài)分析的惡意軟件檢測,和基于動態(tài)行為分析的惡意軟件檢測,并各自介紹了它們的優(yōu)劣。關(guān)鍵字:數(shù)據(jù)挖掘;惡意軟件檢測;特征提取;靜態(tài)分析;動態(tài)行為分析;分類DataminingandmalwaredetectionAbstract:Withthedevelopmentofcomputernetworkandimprovementofmalwareprogramming,traditionalmalwaredetectionmethodsseemobviouslyinadequate,failingtosatisfytheneedofpeopleforinformationsecurity.Themalwaredetectionbasedonbehaviorisamethodwhichachievesdetectionthroughmakinguseofthepeculiarbehaviorfeaturesofmalware.Itdoeswellindetectingtheunknownmalware.Thismalwaredetectiontechniquecouldbeadjustedtotheemergingnewfeaturesofmalware,whichhasgreatsuperiorityandbroadspacefordevelopmentundoubtedly.Consequently,itcouldbethedevelopmenttendencyofmalwaredetectioninalongtime.Thisarticledescribesmalwaredetectionbasedofstaticanalysis,andmalwaredetectionbasedondynamicbehavioranalysis,anddescribestheirprosandcons.Keywords:Datamining;Malwaredetection;Featureextraction;Staticanalysis;Dynamicbehavioranalysis;Classification隨著社會信息化程度的不斷提高,工業(yè)、國防、教育、金融等社會各行各業(yè)的信息越來越依賴于計算機(jī)和互聯(lián)網(wǎng)。然而頻繁發(fā)生的網(wǎng)絡(luò)安全事件給人們敲了安全警鐘。計算機(jī)與網(wǎng)絡(luò)安全問題正成為人類信息化所面臨的巨大挑戰(zhàn),直接威脅著個人、企業(yè)和國家的利益。而目前計算機(jī)與網(wǎng)絡(luò)安全的主要威脅隱患之一就是惡意程序。近年來,隨著編程技術(shù)的普及,惡意程序制作的門檻逐步降低,惡意程序的制作呈現(xiàn)機(jī)械化、模塊化和專業(yè)化特征。在惡意程序灰色產(chǎn)業(yè)鏈帶來的巨大利益的驅(qū)使下,惡意程序產(chǎn)業(yè)正朝著規(guī)模化發(fā)展。惡意程序的爆炸式增長,在使企業(yè)及用戶遭受到巨大的經(jīng)濟(jì)損失的同時,也給惡意程序分析人員帶來了巨大的工作壓力。傳統(tǒng)的惡意程序分析技術(shù)已經(jīng)遠(yuǎn)遠(yuǎn)不能滿足新的安全需求。一方面,基于特征碼的惡意程序分析技術(shù),需要對每一個惡意程序的特征碼進(jìn)行提取,對于目前每天有成千上萬的惡意程序產(chǎn)生的情況,提取特征碼的工作量是巨大的且效率不高。另一方面,用戶端需要定期的升級最新的病毒庫,隨著新惡意程序的爆炸式增長,病毒特征庫的容量也要大幅增長,長此以往會拖累檢測分析系統(tǒng)的速度。因此如何對新的惡意程序樣本快速地進(jìn)行檢測和分類,已成為越來越多的專業(yè)計算機(jī)安全廠商所關(guān)注的焦點。1惡意軟件和檢測的現(xiàn)狀近年來,隨著編程技術(shù)的普及,惡意程序制作的門檻逐步降低,惡意程序的制作呈現(xiàn)機(jī)械化、模塊化和專業(yè)化特征。在惡意程序灰色產(chǎn)業(yè)鏈帶來的巨大利益的驅(qū)使下,惡意程序產(chǎn)業(yè)正朝著規(guī)?;l(fā)展。從2008年開始惡意程序大規(guī)模爆發(fā),每年新增木馬病毒等惡意程序數(shù)量級從數(shù)十萬級躍升至千萬級。圖12003年至2010年間惡意軟件的數(shù)量增加Fig1Increasedvolumeofmalwarefrom2003to2010自從惡意程序出現(xiàn)以來,惡意程序的檢測技術(shù)一直是計算機(jī)安全領(lǐng)域關(guān)注的焦點。根據(jù)惡意程序分析工具技術(shù)模塊不同,惡意程序檢測方法通常分為靜態(tài)和動態(tài)方法。在靜態(tài)方法領(lǐng)域,2001年,在文件二進(jìn)制特征檢測的基礎(chǔ)上首次提出了基于數(shù)據(jù)挖掘的惡意程序檢測方法[[[]]MatthewG.Schultz,EleazarEskin,ErezZadok.DataMiningMethodsforDetectionofNewMaliciousExecutables[C].IEEEComputerSociety,2001:38-49.];之后,借鑒入侵檢測、惡意程序檢測與分類系統(tǒng)設(shè)計與實現(xiàn)中的常用方法,越來越多的研究集中在利用數(shù)據(jù)挖掘方法對惡意程序二進(jìn)制文件信息進(jìn)行學(xué)習(xí)建模,然后將學(xué)習(xí)到的模型用于未知惡意程序的檢測。MihaiChristodorescu在惡意程序靜態(tài)分析[[[]][[]]MatthewG.Schultz,EleazarEskin,ErezZadok.DataMiningMethodsforDetectionofNewMaliciousExecutables[C].IEEEComputerSociety,2001:38-49.[[]]UsukhbayarBaldangombo,NyamjavJambaljav.AStaticMalwareDetectionSystemUsingDataMiningMethods[J].InternationalJournalofArtificialIntelligence&Applications,Vol.4,No.4,July2013.2004年,J.Xu等人在一次國際會議上的會議論文[[[]]J.Y.Xu,A.H.Sung,P.Chavez,andS.Mukkamala.PolymorphicMaliciousExecutableScannerbyAPISequenceAnalysis[J].FourthInternationalConferenceonHybridIntelligentSystems,2004:42-45.]中提出應(yīng)用程序的API調(diào)用序列大致反映了程序行為。因為應(yīng)用程序通過API調(diào)用獲取系統(tǒng)服務(wù)和訪問系統(tǒng)資源,所以分析API調(diào)用可以間接地反映程序的行為。J.Xu等人基于此做了大量行為分析實驗后提出了一種新的惡意程序檢測方法:通過對比已知惡意程序和未知可疑程序的API調(diào)用序列,并對兩類API調(diào)用序列做相似化度量分析,從而確定未知可疑程序的惡意程度。之后,R.Koike等人利用上述方法開發(fā)了一套可以自動檢測未知惡意程序行為的系統(tǒng)[[[]]R.Koike,N.Nakaya,andY.Koi.DevelopmentofSystemfortheAutomaticGenerationofUnknownVirusExterminationSoftware[J].inInternationalSymposiumonApplicationsandtheInternet,2007:84-88.]。由德國的曼海姆大學(xué)分布式系統(tǒng)實驗室開發(fā)的CWSandbox是惡意程序行為檢測技術(shù)發(fā)展過程中一個具有里程碑意義的產(chǎn)品,它不僅具有行為捕獲能力,而且可以生成檢測報告。CWSandbox引入了虛擬機(jī)技術(shù),讓可疑程序在虛擬環(huán)境中運行,從而避免了可疑程序可能造成的潛在危害。并且它采用了APIhook技術(shù)提取程序運行過程中API調(diào)用序列。CWSandBox論文有一個重要貢獻(xiàn),它清楚的用實驗比較了用戶態(tài)和內(nèi)核態(tài)APIhook的優(yōu)缺點。內(nèi)核SSDThook具有很高的檢測率,不易被反檢測技術(shù)偵測到;用戶態(tài)hook實現(xiàn)簡單,具有較強(qiáng)的通用性和穩(wěn)定性。CWSandBox采用了用戶態(tài)inlinehook的方式的來采集程序行為特征。CWSandBox實驗得知絕大多數(shù)惡意程序為了實現(xiàn)大量傳播都是直接調(diào)用的標(biāo)準(zhǔn)WindowsAPI,因此采用用后臺inlinehook的方式不會影響系統(tǒng)檢測率。Anubis是一款基于開源模擬器QEMU的優(yōu)秀的惡意程序行為監(jiān)控系統(tǒng),TTAnalyze是其前身。該系統(tǒng)采用了與CWSandbox截然不同的技術(shù)原理,在QEMU的虛擬機(jī)監(jiān)控層攔截API調(diào)用。該系統(tǒng)有全自動化,無需修改被監(jiān)控程序源代碼,使用全系統(tǒng)模擬器難以被惡意程序分檢測等優(yōu)點。但是Anubis和CWSandBox僅僅是根據(jù)系統(tǒng)采集到的API數(shù)據(jù)生成程序行為報告提供給分析人員參考,并沒有對采集到的行為進(jìn)行深度挖掘。2009年胡永濤等人發(fā)表的《Win32環(huán)境下惡意代碼行為分析實驗及思考》[[[]]胡永濤,姚靜晶,王國豐.Win32環(huán)境下惡意代碼行為分析實驗及思考[C].第六屆中國信息與通信安全學(xué)術(shù)會議,2009.]文章中,全面總結(jié)了Windows平臺上[[]]J.Y.Xu,A.H.Sung,P.Chavez,andS.Mukkamala.PolymorphicMaliciousExecutableScannerbyAPISequenceAnalysis[J].FourthInternationalConferenceonHybridIntelligentSystems,2004:42-45.[[]]R.Koike,N.Nakaya,andY.Koi.DevelopmentofSystemfortheAutomaticGenerationofUnknownVirusExterminationSoftware[J].inInternationalSymposiumonApplicationsandtheInternet,2007:84-88.[[]]胡永濤,姚靜晶,王國豐.Win32環(huán)境下惡意代碼行為分析實驗及思考[C].第六屆中國信息與通信安全學(xué)術(shù)會議,2009.2惡意軟件惡意軟件是指在目標(biāo)計算機(jī)上運行的,執(zhí)行一系列攻擊者蓄意安排的攻擊操作,可以破壞程序和數(shù)據(jù)完整性、可用性和計算系統(tǒng)機(jī)密性的程序代碼和指令集合,傳統(tǒng)惡意軟件包括木馬、病毒、蠕蟲和后門程序等。2.1病毒計算機(jī)病毒的理論早在1949年被提出。最早的科學(xué)定義出現(xiàn)在FrederickCohen的博士論文“計算機(jī)病毒實驗”中,他將計算機(jī)病毒定義為一種形式化的數(shù)學(xué)模型。簡單的說,計算機(jī)病毒就是一種可以通過修改別的程序,將自身復(fù)制進(jìn)其中,使其感染,以達(dá)到傳染目的的計算機(jī)程序[[[]]P.Szor,TheArtofComputerVirusResearchandDefense[M].AddisonWeslyforSymantecPress,2005]。計算機(jī)病毒傳染的特性和生物病毒類似,因此,它被命名為“computervirus”。計算機(jī)病毒的最重要特性就是傳播性[[[]]P.Szor,TheArtofComputerVirusResearchandDefense[M].AddisonWeslyforSymantecPress,2005[[]]王曉勇.計算機(jī)惡意代碼傳播及防御技術(shù)研究[D].西南大學(xué),2007年5月.2.2木馬特洛伊木馬的名字起源于古希臘傳說中的特洛伊戰(zhàn)爭。它是這樣的一種惡意軟件:除了良性程序所具有的基本功能外,還有一些不易被發(fā)覺的破壞作用。通常它都偽裝成一般的無害的程序,并欺騙用戶去執(zhí)行它,從而進(jìn)行一些隱蔽的破壞行為,比如可以在被感染的機(jī)器上打開網(wǎng)絡(luò)端口,使木馬的創(chuàng)建者遠(yuǎn)程執(zhí)行命令。和病毒,蠕蟲不同的是,木馬不會進(jìn)行自我復(fù)制傳播。它不需要修改或感染其他程序軟件,而是安裝一個獨立的可執(zhí)行程序[[[]][[]]R.A.Grimes,Maliciousmobilecode:virusprotectionforWindows[M].Sebastopol,CA,USA:O’Reilly&Associates,Inc.,2001.2.3蠕蟲蠕蟲是一種能夠自我復(fù)制傳播,并能夠通過網(wǎng)絡(luò)連接將其自身拷貝感染到其他計算機(jī)上的程序。蠕蟲進(jìn)入計算機(jī)后,一旦被激活,就會像計算機(jī)病毒那樣開始工作,并尋找更多的計算機(jī)來進(jìn)行感染,并且利用其它被感染的計算機(jī),不斷進(jìn)行擴(kuò)散。除了傳播之外,它還會進(jìn)行一些破壞活動,對計算機(jī)植入木馬程序或者執(zhí)行一些分裂性或者破壞性的活動。蠕蟲可以進(jìn)行網(wǎng)絡(luò)傳播,借助的工具包括電子郵件,遠(yuǎn)程執(zhí)行,遠(yuǎn)程登錄等等。另外,它與計算機(jī)病毒有一些相似之處,都分為潛伏,傳播,觸發(fā),執(zhí)行幾個階段。而與其不同的就是它具備通過網(wǎng)絡(luò)傳播的能力。2.4后門后門是這樣一種惡意軟件,它允許攻擊者繞過正常的系統(tǒng)安全防護(hù)機(jī)制,通過非授權(quán)或者不經(jīng)過系統(tǒng)登錄,就能夠獲取對系統(tǒng)的遠(yuǎn)程連接或者控制權(quán)限。攻擊者在系統(tǒng)上安裝后門程序,主要是為了控制系統(tǒng),為進(jìn)一步的攻擊提供更加便捷的連接操作。2.5RootkitRootkit是這樣一種惡意軟件,它被安裝在系統(tǒng)中,并且可以使攻擊者以管理員或root權(quán)限訪問系統(tǒng)[[[]]雙世勇.WindowsRootkit檢測方法研究[D].解放軍信息工程大學(xué),2005年4月.]。由于管理員權(quán)限可以使用操作系統(tǒng)中的任何功能和服務(wù),因此它可以使攻擊者完全控制整個系統(tǒng)。并且rootkit對主機(jī)的訪問或修改操作都以極為隱蔽的方式進(jìn)行。Rootkit能夠通過修改操作系統(tǒng)來隱藏自己,也可以隱藏自己對操作系統(tǒng)進(jìn)行的修改,或是擦除自己訪問系統(tǒng)留下的痕跡。用戶無法發(fā)現(xiàn)rootkit的存在,也不知道系統(tǒng)被訪問或修改過了。根據(jù)重啟操作系統(tǒng)后是否還能繼續(xù)工作進(jìn)行分類,rootkit分為持續(xù)的rootkit和基于內(nèi)存的rootkit。前者在系統(tǒng)每一次啟動都會被激活;后者沒有持續(xù)性,系統(tǒng)重啟后就會失效。根據(jù)執(zhí)行模式,rootkit又可被分為用戶模式[[]]雙世勇.WindowsRootkit檢測方法研究[D].解放軍信息工程大學(xué),2005年4月.2.6僵尸網(wǎng)絡(luò)Bots的名字起源于robot。一旦bots感染了某一臺計算機(jī),這臺計算機(jī)就被稱為網(wǎng)絡(luò)僵尸。Bots在被感染計算機(jī)上將進(jìn)行潛伏,而不做任何動作,直到它收到Bots操縱者發(fā)出的某種命令。Bots操縱者是同個僵尸網(wǎng)絡(luò)中,所有僵尸都連接到一個遠(yuǎn)程的web服務(wù)器,如FTP服務(wù)器或IRC服務(wù)器,它可以對這些網(wǎng)絡(luò)僵尸發(fā)出遠(yuǎn)程指令。還有一些僵尸網(wǎng)絡(luò)采用P-2-P的方式工作。僵尸網(wǎng)絡(luò)往往被用于發(fā)起大規(guī)模的DDoS攻擊,散發(fā)垃圾郵件,或者直接盜取被感染機(jī)器的敏感信息。商用或軍用的僵尸網(wǎng)絡(luò)會產(chǎn)生更大的威脅,因此出現(xiàn)了黑客出租bots的盈利方式。當(dāng)前僵尸網(wǎng)絡(luò)已經(jīng)成為網(wǎng)絡(luò)安全領(lǐng)域最具挑戰(zhàn)性的問題之一。由于它數(shù)量巨大而且分布廣泛而無序,給監(jiān)控和防護(hù)帶來了很大難度。2.7間諜軟件、廣告軟件Spyware[[[]]雷程煒.間諜軟件的隱藏機(jī)制及其檢測技術(shù)[D][[]]雷程煒.間諜軟件的隱藏機(jī)制及其檢測技術(shù)[D].電子科技大學(xué),2007年4月.3惡意軟件檢測惡意軟件的檢測是惡意軟件研究領(lǐng)域的重點問題,在惡意檢測之前進(jìn)行的行為分析只是一個過程和手段,其目的是為了使惡意軟件判定的效果更好。在行為分析中,我們已經(jīng)從惡意軟件中提取中信息,并對它建模。在判定過程中,通常的做法是進(jìn)行特征模型的匹配。比如,對已有的惡意軟件集合建立特征庫。在對未知軟件進(jìn)行行為分析后,將分析到的特征模型和特征庫中的特征模型一一匹配,如果匹配成功,則判定此軟件為惡意軟件。圖2惡意軟件檢測流程Fig2Malwaredetectionprocess3.1基于靜態(tài)特征的檢測傳統(tǒng)殺毒軟件進(jìn)行病毒檢測的過程。首先在行為分析時分析程序的二進(jìn)制序列或者內(nèi)存鏡像,并從中提取特征碼,它往往是一段特定的惡意二進(jìn)制序列,這個惡意序列很少在非惡意程序中出現(xiàn)。通常,這個特定的序列是由反病毒專家人工提取的。也使用一些在靜態(tài)分析時自動提取特征碼的方法進(jìn)行提取。在進(jìn)行惡意判定時,我們用這個特定的二進(jìn)制序列和已有的二進(jìn)制序列特征庫進(jìn)行串匹配或者正則表達(dá)式匹配,如果匹配成功,則判定此程序為惡意程序,否則判定為非惡意程序。圖3傳統(tǒng)惡意軟件檢測流程Fig3Traditionalmalwaredetectionprocess樣本分為惡意軟件樣本和正常文件樣本,如果應(yīng)用在反病毒產(chǎn)品中,應(yīng)獲取足夠多的具有代表性的訓(xùn)練樣本,考慮到只是驗證方法的可行性,我們從經(jīng)過殺毒軟件檢測無病毒的XP系統(tǒng)windows目錄和ProgramFiles目下獲取了正常PE文件,從VXHeavensVirus網(wǎng)站下載了惡意軟件。靜態(tài)的信息是指從程序的源代碼,程序的二進(jìn)制執(zhí)行文件,或者是程序的反匯編碼中獲取程序信息。靜態(tài)信息獲取的缺點在于靜態(tài)信息通常是冗余的。惡意軟件制作者為了增加惡意軟件檢測的難度,會在程序源代碼中加入很多垃圾信息,使其中的有效信息提取變得更加困難,所以我們在特征提取的時候,我們使用決策樹算法,把特征選擇算法本身作為組成部分嵌入到學(xué)習(xí)算法中。去掉冗余的特征,留下比較有代表性的PEheader20個特征和DLL30個特征。表1PE標(biāo)題的排名最靠前的20個特征的列表Tab1Listofthetopranked20featuresofthePEheader表2通過調(diào)用頻率列出排名最靠前的30個DLL名稱Tab2Listofthetopranked30DLLnamesbycallingfrequency我們使用的數(shù)據(jù)集是從VXHeavensVirus獲得的236756惡意軟件和10592個windows良性可執(zhí)行軟件組成共247348個軟件的數(shù)據(jù)集。采用SVM,J48,NB分類器,10倍交叉驗證所得的結(jié)果。表3各單項及組合特征的系統(tǒng)性能列表Tab3ListofthesystemperformancebyindividualandcombinedfeaturesDR(DetectionRate)=QUOTETPTP+FN×100%FPR(FalsePositiveRate)=QUOTEFPTN+FP×100%OA(OverallAccuracy)=QUOTETP+TNTP+TN+FP+FN×100%TP真正類,F(xiàn)P假正類,TN真負(fù)類,F(xiàn)N假負(fù)類。表格中顯示的結(jié)果,決策樹分類器效果最佳。3.2基于動態(tài)行為特征的檢測作者在行為分析[[[]]李劍.惡意軟件行為分析及變種檢測技術(shù)研究[D].杭州電子科技大學(xué),2009年11月[[]]李劍.惡意軟件行為分析及變種檢測技術(shù)研究[D].杭州電子科技大學(xué),2009年11月.圖4基于行為分析的惡意軟件檢測流程Fig4Malwaredetectionprocessbasedonbehavioranalysis圖5基于軟件虛擬化的行為分析系統(tǒng)架構(gòu)Fig5BehavioralAnalysisSystemArchitectureBasedonSoftwareVirtualization動態(tài)的程序信息獲取[[[]]M.ZubairShafiq,S.MominaTabish,FauzanMirza,MuddassarFarooq.PE-Miner:RealtimeMiningof‘StructuralInformation’toDetectZero-DayMaliciousPortableExecutables[J].InformationSecurityResearchGroup,5thFebruary,2009.]是指在程序運行時,捕獲程序的運行狀態(tài)所獲得的程序信息。這些運行狀態(tài)包括程序的CPU執(zhí)行指令序列,系統(tǒng)調(diào)用(systemcall),應(yīng)用程序接口(API[[]]M.ZubairShafiq,S.MominaTabish,FauzanMirza,MuddassarFarooq.PE-Miner:RealtimeMiningof‘StructuralInformation’toDetectZero-DayMaliciousPortableExecutables

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論