基于貝葉斯網絡的垃圾郵件自動識別_第1頁
基于貝葉斯網絡的垃圾郵件自動識別_第2頁
基于貝葉斯網絡的垃圾郵件自動識別_第3頁
基于貝葉斯網絡的垃圾郵件自動識別_第4頁
基于貝葉斯網絡的垃圾郵件自動識別_第5頁
已閱讀5頁,還剩8頁未讀 繼續免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

1、20研究與開發基于貝葉斯網絡的垃圾郵件自動識別李斌(廣州醫學院第二附屬醫院信息科 , 廣州510260關鍵詞 :垃圾郵件 ; 反垃圾郵件 ; 貝葉斯智能分析 ; 樸素貝葉斯分類器收稿日期 :2010-04-19修稿日期 :2010-05-19作者簡介 :李斌 (1980-, 男 , 廣東高州人 , 碩士 , 工程師 , 研究方向為軟件工程及信息化建設在分析反垃圾郵件技術發展現狀的基礎上 , 提出一種基于貝葉斯智能分析的垃圾郵件識別方法 , 利用郵件中的詞串作為構建貝葉斯網絡的特征參數對網絡進行訓練 , 并用訓練好的 貝葉斯網絡對郵件進行識別 。 實驗結果表明文中提出的方法有良好的自學習能力及自

2、適應 性 , 具有較強的實用性 。摘要 :0引 言自互聯網普及以來 , 電子郵件逐漸成為人們生活中便捷的通信手段之一 。 然而 , 隨之產生的垃圾郵件如 瘟疫一樣蔓延 , 造成極大的危害 :占用大量的網絡帶 寬 , 導致郵件服務器擁塞 , 降低整個網絡的運行效率 ; 侵占收件人信箱空間 , 耗費收件人的時間 、 精力和金 錢 ; 易被黑客利用 , 成為攻擊工具 ; 竊探用戶的網上行 蹤 , 侵犯收件人的隱私權 ; 嚴重影響 ISP 的服務形象 , 使 服 務 商 的 主 機 名 有 可 能 被 列 入 國 際 垃 圾 郵 件 數 據 庫 , 從而導致該主機不能訪問國際網絡 ; 妖言惑眾 、 騙

3、 人錢財 , 傳播不良內容的垃圾郵件 , 對現實社會造成了 危害 。 垃圾郵件危害之大 、 影響之深已使反垃圾郵件行 動刻不容緩 , 因此 , 對反垃圾郵件技術的研究已經成為 影響互聯網發展的重要課題之一 。1反垃圾郵件技術發展現狀正常郵件和垃圾郵件存在著明顯的特征差異 , 可以通過識別垃圾郵件特征來阻斷垃圾郵件的傳播 ; 另 外 , 用于郵件傳遞的 SMTP 協議存在安全缺陷 , 對其進 行改進 , 亦可實現垃圾郵件的阻斷 ; 此外 , 隨著近年來 模式識別領域與人工智能領域的高速發展 , 涌現出一 大批優秀的研究成果 , 可以把這些研究成果應用到反 垃圾郵件技術中 , 更好地解決垃圾郵件問

4、題 。 從技術實 現角度來看 , 反垃圾郵件技術主要分為基于特征過濾 、基于改進的 SMTP 協議 、 應用知識系統三大類 。(1 基于特征過濾技術亦稱為郵件過濾技術 2。 從 過濾的依據劃分 , 可以分為基于 IP 地址過濾 、 基于 信 封過濾 、 基于信頭過濾 、 基于內容過濾和基于垃圾郵件 行為過濾 。(2 基于改進的 SMTP 協議反垃圾郵件技術 2。 在 設計簡單郵件傳輸協議 (SMTP時并沒有過多地考慮安 全性的問題 , 導致了傳統的 SMTP 通信機制對使用者沒 有 身 份 認 證 的 功 能 。 為 了 抵 御 垃 圾 郵 件 , 需 要 改 進SMTP 協議 , 加入安全認

5、證機制 。(3 應用知識系統的反垃圾郵件技術 45。 知識系統 是指能夠通過樣本學習 , 自動調整系統對新的樣本的 適應能力的系統 。 它具有一系列良好的特性 :通過知識 的補充來適應更多的樣本空間 ; 根據樣本的變化自平 衡調整學習方向 ; 學習經過知識系統處理的結果 , 進而 克服知識分布的不均衡 ; 同時還可以吸取其他知識系 統的經驗結果 , 補充知識分布的缺陷 。國內外常用的反垃圾郵件技術 , 都是基于黑名單 、 規則庫 、 關鍵字的原理工作的 , 但由于每天新垃圾郵件 數量巨大 , 這種反垃圾解決方案定制性差 , 只能事后防 備 , 固定規則易失效 , 操作復雜 , 且面臨著動態 I

6、P 跟蹤 難 、 過濾率低 、 誤判率高 、 網絡流量大 、 資源消耗大 、 規 則維護工作量大的技術瓶頸 。基于改進的 SMTP 協議的反垃圾郵件技術的出現研究與開發是因應現行主流的內容過濾技術在效能與成效上不符 合 ISP 龐大郵件流量的需求 ; 然而此類技術應用需發 信和收信雙方的服務商都必須使用這項技術 , 且合作 的企業需達一定數量才能成功地發揮作用 , 因此該類 技術仍需完整考慮研發技術的完整性及兼容性 , 才能 確實提供穩定實用的防御設備 。近 幾 年 新 興 起 的 應 用 知 識 系 統 的 反 垃 圾 郵 件 技 術 68, 由于現存知識系統存在著自身固有的復雜性 , 同

7、時它的理論依據和實驗方法還不夠完善 , 故多停留在 實驗室階段 , 未能得到廣大網絡用戶的使用和檢驗 。 對垃圾郵件的攔截和阻隔的基本原理是讓計算機 匹配垃圾郵件的模式達到對垃圾郵件的識別 , 反垃圾 郵件是一種模式識別行為 。 隨著模式識別領域和人工 智能領域不斷涌現出優秀的研究成果 , 利用這兩個領 域的優秀成果設計反垃圾郵件技術 , 搭建性能優秀的 反垃圾郵件系統 911, 實現垃圾郵件的過濾 , 阻 斷垃圾 郵件的傳播 , 是目前反垃圾郵件技術的發展趨勢 。 模式 識別有結構模式識別和統計模式識別 , 結構模式識別 只適合結構特征比較明確的地方 。 垃圾郵件大多屬于 人為干擾 , 其結

8、構特征變化多端 , 因而不適合采用結構 模式識別的方法 。 統計模式識別是以貝葉斯分類為主 要內容的識別方法 , 主要內容是分類器的設計及其評 價函數以及模式空間的非線性映射 。 基于貝葉斯分類 器的分析算法可以根據用戶認為的模式進行統計計算 , 具有學習漸進的功能 , 是一種自適應的 、 具有智能統計 的方法 。2基于貝葉斯分類器的垃圾郵件識別2.1貝葉斯智能分析貝葉斯智能分析方法是一種有監督學習方法 , 它 以貝葉斯數學定理為理論基礎 , 是一種在已知先驗概 率與條件概率情況下進行分類識別的模式識別方法 , 通常稱貝葉斯分類器 。 樸素貝葉斯分類器是貝葉斯分 類器的一種 , 它假設一個屬性

9、對給定類的影響獨立于 其他屬性 , 即條件獨立性假設 , 這使得計算復雜度大大 降低 。 事實上 , 屬性變量之間的依賴性可能存在 , 但即 使在這樣的情況下 , 樸素貝葉斯學習方法仍然有效 。 設特征向量 X 1, X 2, X n 它們既可以是離散的也可 以是 連續的 , C i (i 1, 2, M 是類變量 , 構 成 樸 素 貝 葉斯網絡 。 樸素貝葉斯分類器假定特征向量的各分量 間相對于決策變量是相對獨立的 。 對于特征向量為 X = x 1, x 2, x d T 的測試樣本 , 它屬于第 C i 類的條件概率 為 :P (C i |X =P (X|Ci P (C i /P (X

10、 =P (C P (X di =1儀 P (x i |Ci (1 根據公式 (1, 要判斷一個待識別模式的類別 , 可以 通過計算 P C k |X概率來完成 , 它表示出該模式空間與 特征向量空間的匹配情況 , 而決定該模式屬于第 C k 類 的概率 。 可通過先驗概率 P C k 和條件概率 P X|Ck 來 得到后驗概率 P C k |X。 假定 x i 表示第 i 個特征項 , 由樸 素貝葉斯網絡的條件獨立性假設 , 有 :P X|Ck =P x 1, x 2, x n |C k =ni =1儀 P x i |Ck (2 由公式 (1 知 P (C i |X ni =1儀 P x i

11、|Ck 。 因此 , 通過訓 練集獲得 P x i |Ck (i =1, 2, N 的估計值 , 對給定的特 征向量 X =x 1, x 2, x d T 求 :P =argMAXCni =1儀 P x i |Ck (3P 對應的 C 值便是 X =x 1, x 2, x d T 所屬的類 。 雖 然樸素貝葉斯分類器是基于獨立性假設 , 在違背這種 假定的條件下簡單貝葉斯也表現出相當的健壯性和高 效性 , 這就使得樸素貝葉斯分類器應用的范圍比預想 的要大得多 , 樸素貝葉斯分類法的性能通常也遠遠勝 過更復雜的分類法 。 樸素貝葉斯分類器以其結構簡單 , 性能良好 , 成為最優分類器之一 , 它

12、已成功地應用到分 類 、 聚類問題中 , 尤其在文本分類中有廣泛的應用 。 通 過分析垃圾郵件樣本集中各種特征因素的概率情況 , 提取特征參數構建一個貝葉斯網絡 , 分析待處理郵件 的特征因素的情況 , 判斷該郵件的合法性進而達到自 動識別的效果 。2.2特征提取郵件是一個文本 , 郵件頭是一個地址為主體的結 構不一定完整句子 , 文件體是以句子組成的一段文章 。 詞是句子的組成部分或者基本元素 (把字也看成詞 。 因 此 , 其特征是以詞為特征的表達形式 。 特征的提取過程 是自然語言理解中的中文分詞處理 。 特征提取算法如 下 :(1 收集大量的垃圾郵件和非垃圾郵件 , 建立垃圾 郵件集和

13、非垃圾郵件集 , 并分析垃圾郵件的成因 。趥 趹2010.0620研究與開發(2 利用中文分詞算法提取垃圾郵件主題和郵件 體中的獨立字串例如 “ ABC32”、“ ¥ 234”、“ 我是垃圾郵 件 ” 等作為 TOKEN 串 , 即特征詞 , 并統計特征詞 x i 出 現的次數 詞頻 f i , 對垃圾郵件集和非垃圾郵件集都 進行統計 。(3 建立特征詞的哈希散列表 , 并存儲特征詞 x i 到 詞頻 f i 的映射 :x i 圮 f i 。 針對垃圾郵件集和非垃圾郵件集 分別建立 SPAM_HASH和 NOTSPAM_HASH兩張表 。2.3貝葉斯網絡的訓練與測試從郵件樣本集中選出一部分郵件

14、作為訓練樣本集 和測試集 , 將訓練樣本集中提取到的特征屬性作為參 數對貝葉斯網絡進行訓練 。 訓練過程是由訓練集數據 獲得先驗概率 P (C k , P (x i |C k 的過程 。 具體計算如下 :(1 假定 N k 表示訓練樣本集中屬于第 C k 類的郵件 總 數 , N 表 示 訓 練 樣 本 集 中 的 郵 件 總 數 , 先 驗 概 率 P (C k 為 :P (C k =N k(4(2 假定 x i 表示訓練樣本集屬于第 C k 類的第 i 個特 征項 ; N x i表示 x i 在屬于第 C k 類的訓練樣本集中出現的次數 ; N x 表示屬于第 C k 類的訓練樣本集中全體

15、特征項X =x 1, x 2, x d T 出現的次數之和 , 則條件概率密度函 數為 :P (x i |C k =NxiX(5(3 由于垃圾郵件識別是一個兩類識別問題 , 為方 便計算 , 可把公式 (3 簡化為 :P =Ni =1儀 P x i|C1N i =1儀 P x i|C1+Ni =1儀 P x i|C2S TH (6其中 , N i =1儀 P x i |C2=Ni =1儀 (1-P x i |C1; C 1表示垃圾郵件類 , C 2表示非垃圾郵件類 , S TH 表示預定義閾值 , 可由 訓練過程獲得 。 將其他的郵件樣本集作為測試集 , 由條件概率密 度函數求得某封郵件對應的

16、概率密度 , 由公式 (4 求得 給定參數條件下所屬類的概率 , 根據公式 (6 便可識別 該封郵件是否為垃圾郵件 。算法實現舉例 :假設由一封郵件共得到 N 個特征詞 x 1, x 2, , x N ,在垃圾郵件訓練樣本集中對應的出現概率為 P (x 1, P (x 2, P (x N , 令 P (SPAM |x 1, x 2, x N 表示在郵件中 同時出現多個特征詞 x 1, x 2, x N 時 , 該郵件為垃圾郵 件的概率 。由公式 (4 可得 :P (SPAM |x 1, x 2, x N =Ni =1儀 P (x ii =1儀 P (x i+i =1儀 (1-P (x i當 P

17、 (SPAM |x 1, x 2, x N 超過預定閾值 S TH 時 , 就可 以判斷該郵件為垃圾郵件 。3實驗結果實驗中采用垃圾郵件召回率 (SR,S pam R ecall 和垃圾郵件垃圾郵件正確率 (SP,S pam P recision 來作為測 試的標準 。 其中SR 的計算公式為 :SR=N S S S L (7SP 的計算公式為 :SP=N N S S +N L S(8SR 測度系統阻塞的垃圾郵件百分比 , 即全體測試 郵件樣本通過反垃圾郵件系統后沒有被攔截的垃圾郵 件數目 。 SP 測度阻塞的郵件里垃圾郵件的數量 。 N S S 是 垃圾郵件被判定為垃圾郵件的數量 , N L

18、 S 是合法郵件 被判定為垃圾郵件的數量 , N S L 是垃圾郵件被判定為 合法郵件的數量 , N L 是合法郵件的數目 , N S 是垃圾郵 件的數目 。實 驗 中 采 用 了 自 收 集 的 中 文 郵 件 集 ; 郵 件 總 數3000封 , 訓練樣本集 2000封 , 測試樣本集 1000封 。 在 測試樣本集中 , 合法郵件 250封 , 垃圾郵件 750封 。 實驗 用 Visual C+6.0編程 , 在 PC (CPU 賽揚 2.66G, 內存 512M 上實現 。 實驗結果如下 :表 1根據實驗結果可知 , 基于貝葉斯智能分析的垃圾 郵件分類算法對垃圾郵件成功攔截率高 、

19、誤判率低 , 具 有良好的自學習能力和自適應性 , 是一種實用性較強 的方法 。2010.06研究與開發Automation Recognition of Spam Based on Bayes NetworkLI Bin(Information Section, Second Affiliated Hospital of Guangzhou Medical College , Guangzhou 510260Keywords:Spam; Anti-Spam; Bayes Intelligent Analysis; Naive Bayes ClassifierProposes a method

20、 for automation recognition of spam based on Bayes intelligent analysisthrough analyzing of developmental status about anti-spam technology. Uses the word of e-mail acting as parameter of Bayes network to train Bayes network, and then performs recognizing of spam by Byes network which has been train

21、ed before. The experimental result improves that the method possess self-learning ability and nice adaptability, and it also has strong practicability.Abstract:4結 語基于貝葉斯分類器設計垃圾郵件分類算法 , 充分利用了模式識別理論的優秀研究成果 , 具有自學習 、 自 適應功能 , 從而有效阻止垃圾郵件 。 具有良好反圾郵件 技術的必然由單一基于靜態規則技術向著基于模式識 別領域和人工智能領域先進研究成果把多種技術有機 結合起來的方向

22、進行轉變 , 研究重點也會從單項 、 單點 的技術研究逐漸轉移到多技術體系融合 、 協作式的反 垃圾郵件技術體系的研究上來 12。 垃圾郵件是全球性 的問題 , 且已經成為一種社會現象 13。 要想找到一個健 壯的 、 長期有效的垃圾郵件解決途徑 , 需把多方力量結 合起來 , 立足于開放的互聯網標準 , 以先進的技術手段 為基礎 , 以完善的管理制度和法律法規為依托 , 對社會 各主體的郵件活動進行規范 , 在全球范圍內建立協作 式的反垃圾郵件體系 。參考文獻1中 國 反 垃 圾 郵 件 中 心 . 2005年 中 國 第 一 次 反 垃 圾 郵 件 狀況調查報告 , 2005, 4.302

23、張兢 , 候旭東 . 基于 樸素 貝 葉 斯和 支 持 向量 機 的 短信 智 能分析系統設計 . 重慶理工大學學報 , 2010(013陳 姿 羽 . 基 于 貝 葉 斯 網 絡 的 缺 失 臨 床 數 據 集 分 類 技 術 研究 . 南方醫科大學 , 2009, 10.134周念念 , 冉蜀陽 , 曾劍宇 , 鐘響 . 基于人工免疫的反垃圾郵件系統模型 . 計算機應用 , 2005, 25(11:25635陳廣良 , 劉鵬 , 汪濤 . 用網格技術反垃圾郵件 , 2005, 13:19216胡可 , 張家樹 . 基于人工免疫系統的反垃圾郵件過濾機制 .計算機應用 , 2005.25(11:256025697陳蔚 然 , 董守 斌 . 基 于 生 物 序 列 模

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論