




版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
1、基于貝葉斯技術的垃圾郵件處理研究易 均 ,李暉 ,王歆(江西省科學院 ,江西 南昌 330029 )摘要: 本論文首先對垃圾郵件進行了簡要的描述,并敘述了反垃圾郵件技術的研究現狀,介紹貝葉斯 過濾技術的工作原理及技術原理,最后給出貝葉斯技術研究的發展方向。關鍵詞: 貝葉斯技術;反垃圾郵件1、前言隨著因特網應用的快速發展, 電子郵件也逐步成為因特網的最大一個應用之 一,給我們生活帶來很大的方便, 而且電子郵件的發展也代表了我國進入信息業 高速發展的階段。 但是也同時產生了一個新的問題, 即大量的垃圾郵件出現。 如 何把電子郵件中的垃圾郵件過濾掉, 已經成為電子郵件用戶此刻最關心的一大問 題,這也
2、就是所謂的“反垃圾郵件”問題。反垃圾郵件是具有相當難度的事情,垃圾郵件每天都在增加和變化。據 Radicati 估計 2007 年,垃圾郵件的比例將達到 70。現在的垃圾郵件發送者變 得更加狡猾, 采用靜態反垃圾郵件技術很難防范。 垃圾郵件發送者只要簡單的研 究一下現在采用了哪些靜態反垃圾郵件, 然后相應的改變一下郵件的內容或發送 方式,就可以逃避檢查了, 因此,必須采用一種新的技術來克服靜態反垃圾郵件 的弱點,這種技術應該對垃圾郵件發送者的各種伎倆了如指掌, 還要能適應不同 用戶對于反垃圾郵件的個性化需求。這種技術就是貝葉斯過濾技術。2、垃圾郵件概述以及反垃圾郵件技術的研究現狀2.1 、垃圾
3、郵件的概述我國至今對垃圾郵件的定義有很多種,包括如下幾種:收件人沒有提出要 求或者同意接收的廣告、 及其各種形式的宣傳品等宣傳性的電子郵件; 在郵件 中,隱藏了發件人身份、地址、標題等信息的電子郵件:含有虛假的發件人的 身份、地址等信息源的電子郵件;收件人無法拒收或者無法刪除的電子郵件。 目前,垃圾郵件的定義被擴大了,除了上述對垃圾郵件定義外,病毒、反動、色 情等等無用的郵件,也被包括在垃圾郵件的定義中2.2 、反垃圾郵件技術的研究現狀目前影響較大的主流反垃圾郵件技術有以下二種:協議改進類的方法,重新構建 SMTP協議,加入安全認證機制。針對垃圾 郵件問題對SMTP協議進行改進和完善是許多研究
4、人員關注的重點問題所在。因 為就SMTP協議改進而言面臨著很多棘手之處,因此目前新協議沒有得到廣泛的 使用,相信未來隨著網絡結構的進一步發展, 在這方面的研究成果會成為解決垃 圾郵件問題的有力措施。在當今的郵件系統中載入其它處理程序來阻斷垃圾郵件, 其中包含了垃圾 郵件過濾技術、 郵件服務器的安全管理技術兩部分內容。 對過濾技術的應用主要 集中在利用 IP 或者域名“黑名單”進行郵件過濾或中斷;基于數據挖掘技術進 行的過濾垃圾郵件, 利用文本分類與統計算法進行垃圾郵件檢測。 比較有代表性 的包括結合DNS的實時黑名單過濾、貝葉斯過濾器等,其中貝葉斯過濾器以較高 的準確率在垃圾郵件過濾技術中占據
5、了很重要的地位。3、貝葉斯過濾技術3.1 、貝葉斯過濾技術的工作原理根據貝葉斯理論, 根據已經發生的時間可以預測未來事件發生的可能性。 將 該理論運用到反垃圾郵件上: 若已知某些字詞經常出現在垃圾郵件中, 卻很少出 現在合法郵件中, 當一封郵件含有這些字詞時, 那么他是垃圾郵件的可能性就很 大。創建基于字詞符號的貝葉斯數據庫 用戶首先需要對貝葉斯進行培訓, 即將郵件分類為垃圾郵件 (用戶不想要的) 和 正常郵件(用戶想要的) ,貝葉斯將提取這些郵件樣本中主題和信體中的獨立字 串,包括字詞(word)和符號(token )(如$,IP地址,域名等),并建立相 應的數據庫。創建貝葉斯概率庫 統計出
6、每個字串在垃圾郵件中出現的概率以及在正常郵件中出現的概率, 然后根 據公式計算出郵件中含某字串則為垃圾郵件的概率。例如:在 3000 封垃圾郵件 樣本中 "mortgage" (抵押) 出現了 400次,而在 300封正常郵件中這個詞出現了 5次,那么其對應的垃圾概率為 0.8889 (400/3000 /5/300+400/3000 )。創建個性化的貝葉斯庫由于每個單位對所收到的郵件偏好是不同的, 例如,某個金融類單位在正常 郵件中可能經常用到"mortgage"這個詞,如果使用靜態的關鍵詞過濾,就可能產 生很多誤判。如果采用貝葉斯過濾,在對貝葉斯進行
7、培訓的時候,將該單位的合 法郵件(自然,很多都包含了 "mortgage"這個詞)分類為正常郵件。這樣,垃圾 郵件的識別率將更高,同時也使得誤判率變得很低。貝葉斯過濾算法的主要思想是在已知的大量垃圾郵件中,郵件中包含一些 特征串(token),這些特征串可以簡單的理解為一個完整的單詞,但實際上它不 僅僅限于單詞,它們一般出現在郵件中的頻率特別高,而在一些合法郵件中,另一些特征串出現的頻率也很高。一般而言,對于同一個特征串出現在垃圾郵件和 合法郵件中的概率是不同的。因此,對于出現的每一個特征串,都會生成一個“垃 圾郵件指示性概率” (spam ratio)。所以我們就可以判斷
8、文本消息的整體“垃圾 郵件概率”。在垃圾郵件的處理中,對token的定義方法有很多種,如字母、數字、破折 號、撇號、美元號等,還有在收件人,發件人和主題等這些欄中出現的token作為相應的標記。根據一些劃分方法從郵件中提取標識時, 得到標識的數量比較 大時,這樣處理工作帶來了較大的計算開銷, 使整個處理過程的效率下降。另外, 有些標識,例如a、the、of、for等,這些詞出現的頻率雖然很高,但它們在 一封郵件中頻繁出現我們并不能說明這封郵件是垃圾郵件還是合法郵件。因此, 必須對標識進行必要的細化處理,找出這些非用詞放入一個表中,保留其他的標 識為以后工作使用。3.2、貝葉斯方法過濾垃圾郵件的
9、基本技術原理收集大量的垃圾郵件和非垃圾郵件,建立垃圾郵件集和非垃圾郵件集。提取郵件主題和郵件體中的獨立字串作為TOKEN串,并統計提取它的TOKE串出現的次數,即字頻。每一個郵件集對應一個哈希表,設hashtable_good對應非垃圾郵件集而hashtable_bac對應垃圾郵件集。表中存儲TOKE串到字頻的映射關系。計算每個哈希表中TOKEN串出現的概率P=(某TOKEN串的字頻)/ (對 應哈希表的長度)。綜合考慮hashtable_good和hashtable_bad推斷出當新來的郵件中出現某 個TOKENI時,該新郵件為垃圾郵件的概率。數學表達式為:A 事件-郵件為垃圾郵件;It,t
10、n代表TOKEN串,則P(A/tJ表示在郵件中出現TOKEN串ti時,該郵件為垃圾郵件的概率。設:R(ti) = (ti在 hashtable _ good中的值)P2(tJ =(tj在 hashtable _ bad 中的值)貝U P(A/ti)-R(ti)+P2(ti)建立新的哈希表 hashtable_probability存儲TOKEN!ti到P(A/ti)的映射。此時垃圾郵件集和非垃圾郵件集的學習過程結束。根據建立的hashtable_probability估計一圭寸新到的郵件為垃圾郵件的可能性。當新到一封郵件時,按照步驟 2生成TOKEN串。查詢hashtable_probabil
11、ity得到該TOKEN串的鍵值。假設由該郵件共得到 N個 TOKEN串, t|,t2 ,tn, hashtable_probability 中對應的值為R,F2,R , P(A/tt2,tn)表示在郵件中同時出現多個TOKEN串tnt2tn時,該郵件為垃圾郵件的概率。由復合概率公式得:P(A/t!,t2/ tn)1 2-R訃2汀巳+( P戶(1卩2戶(1 巳)當P(A/tt2)超過預定閾值時,就可以判斷郵件為垃圾郵件。3.3、貝葉斯過濾的優點貝葉斯過濾技術對郵件的所有內容進行分析,不僅僅是其中的某個關鍵詞,而且他能判別郵件是垃圾郵件還是正常郵件。例如:包含 “free ”“ cash” “發票
12、”字樣的郵件不一定是垃圾郵件,如果采用關鍵字過濾技術,顯然難以達到理想的效果。 而貝葉斯呢,即考慮了這些詞在垃圾郵件中出 現的概率又考慮了它在正常郵件中的概率,綜合考慮這些因素才做出判斷。可以說,貝葉斯具有一定的智能,它對郵件中的關鍵詞匯能綜合的進行評判,可以把 握“好”與“壞”之間的平衡。顯然,這種技術遠遠高于非1即0的靜態過濾技 術。貝葉斯過濾技術具備自適應功能一一通過學習新的垃圾郵件及正常郵件 樣本,貝葉斯將能對抗最新的垃圾郵件。并且對變體字有奇效。比如,垃圾郵件 發送者開始使用 "f-r-e-e" 來代替“ free ”這樣能夠繞過關鍵字檢查,除非 "f-
13、r-e-e" 被加到新的關鍵字中。 對貝葉斯而言, 當它發現郵件中含有 "f-r -e-e" 時,由于正常郵件中從來沒有發現這個詞, 因此他是垃圾郵件的可能性將急劇增 加, "f-r-e-e" 這個新詞無疑成了垃圾郵件的指示器。在比如,垃圾郵件中用 5e 代替se,貝葉斯也推算出他是垃圾郵件的可能性也急劇增加。貝葉斯過濾技術更加個性化。 他能學習并理解用戶對郵件的偏好。 如前所 述, mortgage '抵押一詞對軟件單位而言意味者垃圾, 但對金融類單位則意味 著好郵件。貝葉斯能根據用戶的這種偏好進行處理。貝葉斯過濾技術支持多語種或者說
14、與編碼無關。 對于貝葉斯而言, 他分析 的是字串,無論他是字、詞、符號、還是別的什么,當然更與語言無關。貝葉斯過濾器很難被欺騙。 垃圾郵件發送高手通常通過減少垃圾詞匯 (如 free 、viagra 、發票)或者在信中多摻一些好的詞匯(如合同、文件)來繞過檢 查一般的郵件內容檢查, 但由于貝葉斯具有的個性化色彩, 要想成功的繞過貝葉 斯的檢查, 他就不得不對每個收件人的偏好進行研究, 這簡直是“不可能完成的 任務”。垃圾郵件發送者無法容忍的。 若采用變化字, 則如前所述貝葉斯判斷其 為垃圾郵件的可能性反而增加。4、結束貝葉斯網絡具有悠久的歷史, 很久以前貝葉斯就提出了基于統計方法的貝葉 斯網絡的概念。 貝葉斯網絡為因果信息提供了一種自然直觀的表達方式。 貝葉斯 網絡具有概率推理能力強、語義清晰、易于理解等特點。近年來,研究熱點在推 理的各種方法和從數據中進行貝葉斯網絡學習的各種方法, 并且它對于網絡模型 的構建和智能推理的應用均具有重要的意義。參考文獻1 王理冬,汪光陽,程澤凱,朱孝宇,貝葉斯網絡的發展與展望J.安徽工業大學學報 200
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 染整行業綠色制造與環保法規執行考核試卷
- 玻璃纖維增強塑料在建筑外墻材料的應用考核試卷
- 人事行政培訓人力資源戰略考核試卷
- 木質裝飾材料選購技巧考核試卷
- 皮革制品保養市場前景分析考核試卷
- 醫院建筑安全與設施維護知識考核試卷
- 柑橘種植園生態環境保護考核試卷
- 生態保護與生態智慧城市建設考核試卷
- 財務報銷票據粘貼規范
- 《上下前后左右》位置課件
- 2025年4月自考13887經濟學原理中級押題及答案
- 2025廣東廣州市花都區恒悅房地產開發有限公司招聘項目用工人員16人筆試參考題庫附帶答案詳解
- 琴行規章制度
- 小學校長在月度教師會議總結發言:教學、管理、成長全回顧
- 國企人力筆試題庫及答案
- 公司事故隱患內部報告獎勵制度
- 如何通過合理膳食安排促進嬰幼兒成長發育
- JJF(紡織) 061-2024 圓盤取樣器校準規范
- 智能健康養老服務人才培養創新與實踐探索
- 2025年宣傳策劃類面試題及答案
- 人教版(2024)七年級下冊生物期中復習必背知識點提綱
評論
0/150
提交評論