




版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領
文檔簡介
1、KDD是數(shù)據(jù)挖掘與知識發(fā)現(xiàn)(DataMiningandKnowledgeDiscovery)的簡稱,KDDCUP是由ACM(AssociationforComputingMachiner)的 SIGKDD(SpecialInterestGrouponKnowledgeDiscoveryandDataMining)組織的年度競賽。競賽主頁在 HYPERLINK o KDDCUP t _blank 這里。下面是歷屆KDDCUP的題目: HYPERLINK KDD-Cup , Breast cancer HYPERLINK KDD-Cup , Consumer recommendations HYP
2、ERLINK KDD-Cup , Pulmonary embolisms detection from image data HYPERLINK KDD-Cup , Internet user search query categorization HYPERLINK KDD-Cup , Particle physics; plus Protein homology prediction HYPERLINK KDD-Cup , Network mining and usage log analysis HYPERLINK KDD-Cup , BioMed document; plus Gene
3、 role classification HYPERLINK KDD-Cup , Molecular bioactivity; plus Protein locale prediction. HYPERLINK KDD-Cup , Online retailer website clickstream analysis HYPERLINK KDD-Cup 1999, Computer network intrusion detection HYPERLINK KDD-Cup 1998, Direct marketing for profit optimization HYPERLINK KDD
4、-Cup 1997, Direct marketing for lift curve optimization”KDDCUP99dataset”就是KDD競賽在1999年舉辦時采用的數(shù)據(jù)集。從 HYPERLINK o KDD CUP 1999 DATA t _blank 這里下載KDD99數(shù)據(jù)集。1998年美國國防部高檔規(guī)劃署(DARPA)在MIT林肯實驗室進行了一項入侵檢測評估項目。林肯實驗室建立了模擬美國空軍局域網(wǎng)的一種網(wǎng)絡環(huán)境,收集了9周時間的 TCPdump(*) 網(wǎng)絡連接和系統(tǒng)審計數(shù)據(jù),仿真多種顧客類型、多種不同的網(wǎng)絡流量和襲擊手段,使它就像一種真實的網(wǎng)絡環(huán)境。這些TCPdump采集
5、的原始數(shù)據(jù)被分為兩個部分:7周時間的訓練數(shù)據(jù) (*) 大概涉及5,000,000多種網(wǎng)絡連接記錄,剩余的2周時間的測試數(shù)據(jù)大概涉及2,000,000個網(wǎng)絡連接記錄。一種網(wǎng)絡連接定義為在某個時間內(nèi)從開始到結束的TCP數(shù)據(jù)包序列,并且在這段時間內(nèi),數(shù)據(jù)在預定義的合同下(如TCP、UDP)從源IP地址到目的IP地址的傳遞。每個網(wǎng)絡連接被標記為正常(normal)或異常(attack),異常類型被細分為4大類共39種襲擊類型,其中22種襲擊類型出目前訓練集中,另有17種未知襲擊類型出目前測試集中。4種異常類型分別是:DOS,denial-of-service.回絕服務襲擊,例如ping-of-deat
6、h,synflood,smurf等;R2L,unauthorizedaccessfromaremotemachinetoalocalmachine.來自遠程主機的未授權訪問,例如guessingpassword;U2R,unauthorizedaccesstolocalsuperuserprivilegesbyalocalunpivilegeduser.未授權的本地超級顧客特權訪問,例如bufferoverflowattacks;PROBING,surveillanceandprobing,端口監(jiān)視或掃描,例如port-scan,ping-sweep等。隨后來自哥倫比亞大學的SalStolfo
7、 專家和來自北卡羅萊納州立大學的 WenkeLee專家采用數(shù)據(jù)挖掘等技術對以上的數(shù)據(jù)集進行特性分析和數(shù)據(jù)預解決,形成了一種新的數(shù)據(jù)集。該數(shù)據(jù)集用于1999年舉辦的KDDCUP競賽中,成為出名的KDD99數(shù)據(jù)集。雖然年代有些長遠,但KDD99數(shù)據(jù)集仍然是網(wǎng)絡入侵檢測領域的事實Benckmark,為基于計算智能的網(wǎng)絡入侵檢測研究奠定基本。數(shù)據(jù)特性描述KDD99數(shù)據(jù)集中每個連接(*)用41個特性來描述:2, tcp, smtp, SF, 1684, 363, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 1, 0.00, 0.00, 0.00,
8、 0.00, 1.00, 0.00, 0.00, 104, 66, 0.63, 0.03, 0.01, 0.00, 0.00, 0.00, 0.00, 0.00, normal.0, tcp, private, REJ, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 38, 1, 0.00, 0.00, 1.00, 1.00, 0.03, 0.55, 0.00, 208, 1, 0.00, 0.11, 0.18, 0.00, 0.01, 0.00, 0.42, 1.00, portsweep.0, tcp, smtp, SF, 78
9、7, 329, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 1, 0.00, 0.00, 0.00, 0.00, 1.00, 0.00, 0.00, 76, 117, 0.49, 0.08, 0.01, 0.02, 0.00, 0.00, 0.00, 0.00, normal.上面是數(shù)據(jù)集中的3條記錄,以CSV格式寫成,加上最后的標記(label),一共有42項,其中前41項特性分為4大類,下面按順序解釋各個特性的含義:1.TCP連接基本特性(共9種)基本連接特性涉及了某些連接的基本屬性,如持續(xù)時間,合同類型,傳送的字節(jié)數(shù)等。(1)du
10、ration.連接持續(xù)時間,以秒為單位,持續(xù)類型。范疇是 0, 58329 。它的定義是從TCP連接以3次握手建立算起,到FIN/ACK連接結束為止的時間;若為UDP合同類型,則將每個UDP數(shù)據(jù)包作為一條連接。數(shù)據(jù)集中浮現(xiàn)大量的duration=0的狀況,是由于該條連接的持續(xù)時間局限性1秒。(2)protocol_type.合同類型,離散類型,共有3種:TCP,UDP,ICMP。(3)service.目的主機的網(wǎng)絡服務類型,離散類型,共有70種。aol, auth, bgp, courier, csnet_ns, ctf, daytime, discard, domain, domain_u,
11、 echo, eco_i, ecr_i, efs, exec, finger, ftp, ftp_data, gopher, harvest, hostnames, http, http_2784, http_443, http_8001, imap4, IRC, iso_tsap, klogin, kshell, ldap, link, login, mtp, name, netbios_dgm, netbios_ns, netbios_ssn, netstat, nnsp, nntp, ntp_u, other, pm_dump, pop_2, pop_3, printer, privat
12、e, red_i, remote_job, rje, shell, smtp, sql_net, ssh, sunrpc, supdup, systat, telnet, tftp_u, tim_i, time, urh_i, urp_i, uucp, uucp_path, vmnet, whois, X11, Z39_50。(4)flag.連接正常或錯誤的狀態(tài),離散類型,共11種。OTH, REJ, RSTO, RSTOS0, RSTR, S0, S1, S2, S3, SF, SH。它表達該連接與否按照合同規(guī)定開始或完畢。例如SF表達連接正常建立并終結;S0表達只接到了SYN祈求數(shù)據(jù)包,而
13、沒有背面的SYN/ACK。其中SF表達正常,其她10種都是error。(5)src_bytes.從源主機到目的主機的數(shù)據(jù)的字節(jié)數(shù),持續(xù)類型,范疇是0,。(6)dst_bytes.從目的主機到源主機的數(shù)據(jù)的字節(jié)數(shù),持續(xù)類型,范疇是0.。(7)land.若連接來自/送達同一種主機/端口則為1,否則為0,離散類型,0或1。(8)wrong_fragment.錯誤分段的數(shù)量,持續(xù)類型,范疇是0,3。(9)urgent.加急包的個數(shù),持續(xù)類型,范疇是0,14。2.TCP連接的內(nèi)容特性(共13種)對于U2R和R2L之類的襲擊,由于它們不像DoS襲擊那樣在數(shù)據(jù)記錄中具有頻繁序列模式,而一般都是嵌入在數(shù)據(jù)包的
14、數(shù)據(jù)負載里面,單一的數(shù)據(jù)包和正常連接沒有什么區(qū)別。為了檢測此類襲擊,Wenke Lee等從數(shù)據(jù)內(nèi)容里面抽取了部分也許反映入侵行為的內(nèi)容特性,如登錄失敗的次數(shù)等。(10)hot.訪問系統(tǒng)敏感文獻和目錄的次數(shù),持續(xù),范疇是 0, 101。例如訪問系統(tǒng)目錄,建立或執(zhí)行程序等。(11)num_failed_logins.登錄嘗試失敗的次數(shù)。持續(xù),0, 5。(12)logged_in.成功登錄則為1,否則為0,離散,0或1。(13)num_promised條件(*)浮現(xiàn)的次數(shù),持續(xù),0, 7479。(14)root_shell.若獲得root shell 則為1,否則為0,離散,0或1。root_she
15、ll是指獲得超級顧客權限。(15)su_attempted.若浮現(xiàn)”su root” 命令則為1,否則為0,離散,0或1。(16)num_root.root顧客訪問次數(shù),持續(xù),0, 7468。(17)num_file_creations.文獻創(chuàng)立操作的次數(shù),持續(xù),0, 100。(18)num_shells.使用shell命令的次數(shù),持續(xù),0, 5。(19)num_access_files.訪問控制文獻的次數(shù),持續(xù),0, 9。例如對 /etc/passwd 或 .rhosts 文獻的訪問。(20)num_outbound_cmds.一種FTP會話中出站連接的次數(shù),持續(xù),0。數(shù)據(jù)集中這一特性浮現(xiàn)次
16、數(shù)為0。(21)is_hot_login.登錄與否屬于“hot”列表(*),是為1,否則為0,離散,0或1。例如超級顧客或管理員登錄。(22)is_guest_login.若是guest 登錄則為1,否則為0,離散,0或1。3. 基于時間的網(wǎng)絡流量記錄特性 (共9種,2331)由于網(wǎng)絡襲擊事件在時間上有很強的關聯(lián)性,因此記錄出目前連接記錄與之前一段時間內(nèi)的連接記錄之間存在的某些聯(lián)系,可以更好的反映連接之間的關系。此類特性又分為兩種集合:一種是 “same host”特性,只觀測在過去兩秒內(nèi)與目前連接有相似目的主機的連接,例如相似的連接數(shù),在這些相似連接與目前連接有相似的服務的連接等等;另一種是
17、 “same service”特性,只觀測過去兩秒內(nèi)與目前連接有相似服務的連接,例如這樣的連接有多少個,其中有多少浮現(xiàn)SYN錯誤或者REJ錯誤。(23)count.過去兩秒內(nèi),與目前連接具有相似的目的主機的連接數(shù),持續(xù),0, 511。(24)srv_count.過去兩秒內(nèi),與目前連接具有相似服務的連接數(shù),持續(xù),0, 511。(25)serror_rate.過去兩秒內(nèi),在與目前連接具有相似目的主機的連接中,浮現(xiàn)“SYN” 錯誤的連接的比例,持續(xù),0.00, 1.00。(26)srv_serror_rate.過去兩秒內(nèi),在與目前連接具有相似服務的連接中,浮現(xiàn)“SYN” 錯誤的連接的比例,持續(xù),0.
18、00, 1.00。(27)rerror_rate.過去兩秒內(nèi),在與目前連接具有相似目的主機的連接中,浮現(xiàn)“REJ” 錯誤的連接的比例,持續(xù),0.00, 1.00。(28)srv_rerror_rate.過去兩秒內(nèi),在與目前連接具有相似服務的連接中,浮現(xiàn)“REJ” 錯誤的連接的比例,持續(xù),0.00, 1.00。(29)same_srv_rate.過去兩秒內(nèi),在與目前連接具有相似目的主機的連接中,與目前連接具有相似服務的連接的比例,持續(xù),0.00, 1.00。(30)diff_srv_rate.過去兩秒內(nèi),在與目前連接具有相似目的主機的連接中,與目前連接具有不同服務的連接的比例,持續(xù),0.00,
19、1.00。(31)srv_diff_host_rate.過去兩秒內(nèi),在與目前連接具有相似服務的連接中,與目前連接具有不同目的主機的連接的比例,持續(xù),0.00, 1.00。注:這一大類特性中,23、25、27、29、30這5個特性是 “same host” 特性,前提都是與目前連接具有相似目的主機的連接;24、26、28、31這4個特性是 “same service” 特性,前提都是與目前連接具有相似服務的連接。4. 基于主機的網(wǎng)絡流量記錄特性 (共10種,3241)基于時間的流量記錄只是在過去兩秒的范疇內(nèi)記錄與目前連接之間的關系,而在實際入侵中,有些 Probing襲擊使用慢速襲擊模式來掃描主
20、機或端口,當它們掃描的頻率不小于2秒的時候,基于時間的記錄措施就無法從數(shù)據(jù)中找到關聯(lián)。因此Wenke Lee等按照目的主機進行分類,使用一種具有100個連接的時間窗,記錄目前連接之前100個連接記錄中與目前連接具有相似目的主機的記錄信息。(32)dst_host_count.前100個連接中,與目前連接具有相似目的主機的連接數(shù),持續(xù),0, 255。(33)dst_host_srv_count.前100個連接中,與目前連接具有相似目的主機相似服務的連接數(shù),持續(xù),0, 255。(34)dst_host_same_srv_rate.前100個連接中,與目前連接具有相似目的主機相似服務的連接所占的比例
21、,持續(xù),0.00, 1.00。(35)dst_host_diff_srv_rate.前100個連接中,與目前連接具有相似目的主機不同服務的連接所占的比例,持續(xù),0.00, 1.00。(36)dst_host_same_src_port_rate.前100個連接中,與目前連接具有相似目的主機相似源端口的連接所占的比例,持續(xù),0.00, 1.00。(37)dst_host_srv_diff_host_rate.前100個連接中,與目前連接具有相似目的主機相似服務的連接中,與目前連接具有不同源主機的連接所占的比例,持續(xù),0.00, 1.00。(38)dst_host_serror_rate.前100
22、個連接中,與目前連接具有相似目的主機的連接中,浮現(xiàn)SYN錯誤的連接所占的比例,持續(xù),0.00, 1.00。(39)dst_host_srv_serror_rate.前100個連接中,與目前連接具有相似目的主機相似服務的連接中,浮現(xiàn)SYN錯誤的連接所占的比例,持續(xù),0.00, 1.00。(40)dst_host_rerror_rate.前100個連接中,與目前連接具有相似目的主機的連接中,浮現(xiàn)REJ錯誤的連接所占的比例,持續(xù),0.00, 1.00。(41)dst_host_srv_rerror_rate.前100個連接中,與目前連接具有相似目的主機相似服務的連接中,浮現(xiàn)REJ錯誤的連接所占的比例
23、,持續(xù),0.00, 1.00。樣本分析前面提到KDD99數(shù)據(jù)集是由DARPA98數(shù)據(jù)集通過數(shù)據(jù)挖掘和預解決后得到的。但KDD99與DARPA98并不是一一相應的,WendeLee等人在解決原始連接數(shù)據(jù)時將部分反復數(shù)據(jù)清除,例如進行DoS襲擊時產(chǎn)生大量相似的連接記錄,就只取襲擊過程中5分鐘內(nèi)的連接記錄作為該襲擊類型的數(shù)據(jù)集。同步,也會隨機抽取正常(normal)數(shù)據(jù)連接作為正常數(shù)據(jù)集。KDD99數(shù)據(jù)集總共由500萬條記錄構成,它還提供一種10%的訓練子集和測試子集,它的樣本類別分布表如下:標簽類別訓練集(10%)測試集(Corrected)39種襲擊0NORMAL97278605931PROBE
24、41074166ipsweep1247306mscan/1053nmap23184portsweep1040354saint/736satan158916332DOS391458229853apache2/794back22031098land219mailbomb/5000neptune10720158001pod26487processtable/759smurf280790164091teardrop97912udpstorm/23U2R52228buffer_overflow3022httptunnel/158loadmodule92perl32ps/16rootkit1013sqla
25、ttack/2xterm/134R2L112616189ftp_write83guess_passwd534367imap121multihop718named/17phf42sendmail/17snmpgetattack/7741snmpguess/2406spy2/warezclient1020/warezmaster201602worm/2xlock/9xsnoop/41. 訓練集和測試集分別為KDD99數(shù)據(jù)集中的10%訓練樣本和corrected 的測試樣本;2. “/”表達該種襲擊類型只在測試集(或訓練集)中浮現(xiàn),而未在訓練集(或測試集)中浮現(xiàn);如上表,同DARPA98同樣,KDD
26、99將襲擊類型分為4類,然后又細分為39小類,每一類代表一種襲擊類型,類型名被標記在訓練數(shù)據(jù)集每一行記錄的最后一項。從表中可以看出,訓練集中共浮現(xiàn)了22個襲擊類型,而剩余的17種只在測試集中浮現(xiàn),這樣設計的目的是檢查分類器模型的泛化能力,對未知襲擊類型的檢測能力是評價入侵檢測系統(tǒng)好壞的重要指標。應用和評價KDD 99數(shù)據(jù)集的應用建立KDD99數(shù)據(jù)集的目的就是為入侵檢測系統(tǒng)提供統(tǒng)一的性能評價基準,它的應用一般局限在學術范疇內(nèi),用來檢查入侵檢測算法的好壞。入侵檢測的措施從主線上講就是設計一種分類器,能將數(shù)據(jù)流中的正常與異常數(shù)據(jù)辨別出來,從而實現(xiàn)對襲擊行為的報警。一般的,我們將數(shù)據(jù)集中的的10%訓練
27、集來訓練分類器,然后用corrected測試集測試分類器性能,這個分類器可以是基于貝葉斯的、決策樹的、神經(jīng)網(wǎng)絡的或者是支持向量機的。有關分類器的設計,請自行google有關文獻。特性選擇是KDD99數(shù)據(jù)集的另一種重要應用。KDD99數(shù)據(jù)集中,每個連接有41個特性,對于一種分類器來說,要從這樣多特性中提取規(guī)則是費時且不精確的,這體目前某些無關或冗余的特性往往會減少分類器模型的檢測精度和速度。并且對于從原始的tcpdump數(shù)據(jù)中提取特性這一過程,也將是困難和費時的,這對于在線入侵檢測系統(tǒng)是致命的。因此清除冗余特性或不重要特性,對于提高分類器訓練速度和檢測精度來說,是必要的。要闡明的是對于不同的分類器來說,最優(yōu)的特性子集可以是不同的。有關特性選擇,后來寫一篇文章具體簡介下。KDD 99數(shù)據(jù)集的評價 HYPERLINK o KDD CUP 99數(shù)據(jù)集之背景知識 t _blank 前面說過,KDD 99數(shù)據(jù)集是入侵檢測領域的事實Benchmark,為基于計算智能的網(wǎng)絡入侵檢測研究奠定了基本,從那后來諸多學
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 電鑄原材料銷售合同協(xié)議
- 疆旅行合同協(xié)議
- 電氣設備維修合同協(xié)議
- 電梯個人安裝協(xié)議書模板
- 特定廣告機銷售合同協(xié)議
- 現(xiàn)澆隔層電子合同協(xié)議
- 電梯改造施工合同協(xié)議
- 玻璃襯紙采購合同協(xié)議
- 電站托管運維合同協(xié)議
- 珠寶公司加工合同協(xié)議
- 街電合同范例
- 植被恢復合同模板
- 《財務報表探析案例:格蘭仕財務報表探析(定量論文)6500字》
- 2024年6月第2套英語四級真題
- 包裝標準規(guī)范要求
- 2024年湖北省武漢市中考數(shù)學試題含答案
- 手術室急危重患者的搶救與配合
- xx鄉(xiāng)衛(wèi)生院執(zhí)行“三重一大”制度實施方案
- 新進(轉崗)職工三級安全教育培訓表
- GB/T 44347-2024鄉(xiāng)村綠化技術規(guī)程
- (修訂版)糧油質(zhì)量檢驗員理論考試復習題庫-下多選、判斷題
評論
0/150
提交評論