




下載本文檔
版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
web數據的領域相關性研究
0實驗結果與分析根據最新的研究,網絡已連接到數十億個靜態頁面,但網絡的某些內容無法直接訪問。這部分頁面僅當用戶填充表單并提交查詢后才可以訪問。這部分頁面被稱為是HiddenWeb或者DeepWeb為了定位DeepWeb數據源,對一個比較好的定位機制的需求也迫在眉睫。文獻[6]中提出的使用機器學習中C4.5決策樹的方法來實現Web上查詢接口的判別,其主要分兩個步驟:首先是查詢接口特征的自動生成,其次是以這些特征為依據,利用C4.5算法得到一棵決策樹,通過這棵決策樹來進行查詢接口的判定。實驗結果表明:從Web中隨機查詢的數據集準確性達到了87%,顯然還有很大的提升空間,其實還有一些有用的信息可以利用,如HTML表單中,控制組件之間的文檔內容,控制組件的數量和布局,頁面中的頻繁詞匯等等。文獻[7]提出了一種利用樸素貝葉斯分類算法的自動判定網頁表單是否是DeepWeb查詢接口的方法,文章提取了HTML表單標簽的屬性值和控件類型以及控制標簽之間的詞匯信息等作為貝葉斯分類的特征集,實驗結果表明在查詢接口的查全率和查準率方面都有提高,但是忽略了整個頁面的信息和數據源的領域相關性。文獻[8]使用強化學習來建立一個聚焦爬蟲,其對于分散的概念比較有效,并且其設計是用來搜索非HiddenWeb數據庫的內容。文獻[9]提出了一種使用強化學習的基于Agent的HiddenWeb爬蟲(ALAC)來實現DeepWeb數據源的判別。本文描述了一種多分類器來實現對DeepWeb數據源的分類和判別的方法,首先使用聚焦表單的爬蟲實現對頁面表單的抓取,然后利用樸素貝葉斯分類器對文檔頁面領域性分類的優勢,對于抓取到的表單頁面進行領域相關性分類,獲取所需的領域信息,過濾非領域相關性的頁面信息,最后依據C4.5決策樹分類器對于查詢接口判別錯誤率低的特點,對抓取到的領域表單頁面進行查詢接口的判別。1web網絡實名數據源分類的目標是在聚焦爬蟲檢索到的異構的表單中只選擇領域相關和作為查詢接口的表單。過程如下:給定一個Web表單的集合F和網絡數據庫領域D,這里F是通過聚焦爬蟲自動搜集到的。目標是從集合F中選出那些僅作為D中某一特定領域的可查詢的表單,過濾掉與特定領域不相關的可查詢表單和非查詢功能表單。定義1查接口分類與判別方法HTML表示的網頁中包含有大量復雜的信息,可以從中獲取大量有用的信息集合。網頁特征的選擇對于網頁分類的速度和精度都至關重要。因此,如何有效地選擇合適的網頁特征對網頁進行描述,是進行網頁表單分類和判別的首要問題。傳統的查詢接口分類與判別方法,如決策樹和貝葉斯,其原理是對于提取到的表單頁面,使用單一分類器分析表單文本與結構特征來實現查詢接口的分類和判別,這樣用于分類的特征就局限到表單內的特征,而忽略了整個頁面的文本信息,而且單一分類器只對于某一功能有優勢(貝葉斯對于接口分類有優勢,決策樹對于判定查詢接口有較小的出錯率)。故這里提出了一種分層的思想,即使用不同分類器分別對DeepWeb數據源進行分類和判定。在這里,關注于提取整個頁面的文本信息(用于表單網頁的分類)和表單包含的全部信息(作為查詢接口判別的特征)。本文通過三個基本組件來實現上面的功能:基于表單的聚焦爬蟲(FFC)、表單頁面分類器(FPC)和表單分類器(FC)。圖1顯示了其結構框架。專注于爬行動物工作的原則單頁頁面分割器單元格柵2數據源的分類和決定2.1葉斯分類器特征標準化表單頁面分類可作為文本分類技術的一種擴展,但表單網頁的特征比較復雜,網頁格式靈活,而且同一格式的網頁也存在多個標準,因此對其分類相比較于文檔分類要難于處理,這里引入了樸素貝葉斯文檔分類器。根據貝葉斯學習框架對于文檔分類的處理過程,這里首先對特征進行標準化以提高分類的準確性。假設文檔數據是通過參數模型產生的,使用訓練數據來計算模型參數的最大后延估計。根據這個估計,來對新的測試文檔所生成的模型使用貝葉斯規則計算其所屬類別的后延概率來對其進行分類。分類過程就是將文檔歸類到有最大概率的類別里面。貝葉斯分類器使用文檔頻率和詞頻對文檔類別參數化。每個類別c通過訓練集合來學習到P(c算法1樸素貝葉斯分類器學習算法其中,Examples為一組頁面及其目標值,C為所有可能的目標值的集合。此函數作用是學習概率項P(w1網絡文本處理(1)anchor提取液(1)HTML去噪,刪除HTML標簽;(2)AnchorText提取,提取文檔的In-link和Out-linkAnchorText;(3)中文分詞。(2)特征提取詞優化項(1)禁用詞表,預定義禁用詞表,將禁用詞表中出現的詞從文檔的特征向量中刪去;(2)詞性選擇,基于ICTCLAS的分詞結果,只特定詞性標注的詞作為特征項;(3)信息增益,對數據集進行特征降維,壓縮特征空間;(4)存放處理結果到DOC文檔中。(3)所有單詞和其他信息都收集在exampes處理之后的文檔中V←將處理后的文本信息出現的所有詞和記號的集合。2貝葉斯分類算法的對待分析根據上面貝葉斯文本分類器對于文檔分類的知識分可知:對C中的每個目標值c(1)doc其中d對V中每個詞w(1)N(w算法2貝葉斯分類算法對待分析頁面進行預處理,處理結果存入文檔Doc中,文檔Doc返回其估計的目標值。a1)positions←在Doc中的所有詞的位置,它包含能在V中找到的記號;2)返回v對于給定的大量的訓練文檔,樸素貝葉斯分類器在文本文檔分類方面表現良好2.2利用文件提取特征在2.1節中,使用樸素貝葉斯對包含表單的頁面進行領域分類,提取出感興趣的頁面,然后對固定領域的表單進行查詢接口的判定。HTML表單包含有復雜的結構,通過它可以得到一個特征豐富的集合。事實上,表單結構化的特征就可以作為判斷此表單是否是查詢接口的一個指示器。此部分描述了一個自動產生HTML表單特征的方法作為有效進行查詢接口探測的標準。圖2顯示了統計得來的一些數據信息。由圖2知:可查詢的表單有比較多的SelectionList和CheckBox,而非查詢表單有比較多的TextBox。其它的一些結構信息也被用來作為C4.5決策樹的特征,如:hidden標簽的個數,Radio標簽的個數,Submit標簽的個數,Password標簽的個數,TextBox的個數,Submit的方法,還有一個很有用的是“查詢”“搜索”此類別的關鍵字。事實上,表單中查詢關鍵字和提交按鈕的出現在特征集中擁有最高的權值。上面提到的特征信息都是可以從Web表單中自動提取的,不需要手工的預處理。在文獻[6]提出使用決策樹來對查詢表單進行分類,此分類器使用的特征是其自動從表單提取出來的。因為此策略同時也考慮到表單標簽內部的文本信息,使得策略最后要考慮的特征個數多于550個。而這里只用到了17個特征,這樣極大地壓縮了分類的特征空間。這里用機器學習中的C4.5決策樹算法進行判定。因為它有比較小的錯誤率,而且可以根據產生的特征類型對算法進行修改,更重要的是此算法會生成一個規則樹,可以描述成簡單的分類規則:IF條件成立,THEN判斷是/否查詢接口。而規則樹的生成過程就是將分類能力最好的屬性作為樹的根節點進行測試,然后為根節點屬性的每個可能值產生一個分支,并把訓練樣例排列到適當的分支之下。然后重復整個過程,用各個分支節點關聯的訓練樣例來選取在該點被測試的最佳屬性。一旦規則樹生成后,查詢接口的判定問題就簡化為規則樹的條件邏輯問題。3策樹分類器或貝葉斯分類器比較為了驗證使用多分類器進行查詢接口分類和判定的有效性,實驗中從對于表單的網絡爬蟲隨機抓取的網頁中抽取大量的網頁表單,然后手工對其進行分類,選取了65個DeepWeb查詢接口和130個非查詢接口組成的訓練集,140個Deepweb查詢接口和160個非查詢接口組成的測試集,測試其與單一使用C4.5決策樹分類器或貝葉斯分類器比較結果如圖3所示。實驗表明,和單一使用C4.5決策樹或貝葉斯分類器相比,此方法在精度和召回率方面都有所改善,特別是精度。召回率實驗結果中,多分類器和C4.5決策樹和單一貝葉斯方法相比效果雖有改進但不是很明顯,它是使用貝葉斯分類器對頁面進行分類時產生的誤差引起,在圖書領域有顯著增強。分析原因,圖書頁面中含有豐富的文本信息,經過分詞處理,與圖書相關的關鍵詞的出現以及詞頻,使得在使用樸素貝葉斯分類時,能更準確的將其進行分類;精度實驗結果與C4.5和貝葉斯方法相比有較大提高,工作、圖書、租賃領域,其精度都在90%以上,特別是工作領域其精度達94.4%。分析原因是,對于同一領域的頁面表單,HTML表單的結構和特征有大的相似性,其中用到的CheckBox和SelectList比較多,TextBox比較少,而且對于特殊的領域,為了方便用戶進行查詢,網絡查詢接口提供給用戶的選擇控件的功能是一致的,這樣多分類器中的決策樹分類器更能將查詢接口從中正確判別出來。4領域分類結果分析隨著DeepWeb數據庫數量和其蘊含數據量的增長,對DeepWeb數據的集成越來越成為研究領域關注的問題,而DeepWeb數據源的分類和判別是進行DeepWeb數據集成的基礎,其二者的結合不僅保證了更高的準確性和效率,而且更有其實際應用意義。本文在研究以往判別查詢接口方法的基礎上,針對其提取特征方式不同和精度低以及忽略領域相關性的問題,提出了一種結合多分類器的方式來對DeepWeb數據源進行分類和判別。實驗結果比較于使用單一決策樹分類器,在召回率和精度方面都有提高。以后的工作是對此種方法中的領域分類結果進行分析,分析出不同領域的查詢接口的特征,縮小貝葉斯分類器在進行網頁分類的錯誤率,根據提取不同領域的特征信息來提高查詢接口的召回率和精度。可查詢表單作為網絡數據庫的查詢接口,通常是以HTML中的表單的形式表示,當用戶提交要查詢的信息時,網絡數據庫會返回其查詢結果的那些表單。非查詢表單主要包括兩部分的信息。其一,只是作為信息的提交功能,雖與網絡數據庫進行交互,但是不會返回查詢結果的表單;其二,作為搜索引擎或者元搜索引擎的表單,雖然返回查詢結果,但結果一般是非結構化或者半結構化鏈接信息。首先給定一個主題相關頁面作為種子,然后寬度搜索其中靜態連接,將鏈接到的包含HTML表單的頁面抓取下來。在爬蟲的抓取過程中,本文用到了一種有效的爬蟲終止策略:1)當爬蟲檢索到一個給定的表單個數的時候,爬蟲就離
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 纖維生產項目管理與成本控制考核試卷
- 派遣工績效考核考核試卷
- 毛皮制品加工安全生產培訓考核試卷
- 內蒙古包頭市第二中學2025年初三下學期2月份月考生物試題含解析
- 網絡安全技術實踐教程(微課版)-教案 Linux操作系統安全加固
- 山東體育學院《學前教育研究方法與應用》2023-2024學年第二學期期末試卷
- 十堰市鄖縣2025屆五年級數學第二學期期末聯考模擬試題含答案
- 山西工商學院《中國文化英語教程》2023-2024學年第一學期期末試卷
- 寧夏石嘴山市名校2025屆初三第一次模擬(期末)考試生物試題試卷含解析
- 江西省鷹潭市貴溪市2024-2025學年初三下學期回頭考試數學試題含解析
- 內蒙古自治區部分學校2024-2025學年高三下學期二模地理試題(原卷版+解析版)
- 教研項目合同協議
- JJF 2231-2025感應式磁傳感器校準規范
- 云南省昆明地區2025屆小升初模擬數學測試卷含解析
- 委托設計框架合同協議
- 風險化學品事故應急預案
- 第3課 中華文明的起源(教學設計)七年級歷史上冊同步高效課堂(統編版2024)
- 【浙江卷地理試題+答案】浙江省高考科目考試2025年4月紹興市適應性試卷(紹興二模)
- 2024年高校輔導員筆試重點試題及答案
- 農藝師行業標準與職業道德探討試題及答案
- 人工智能在情緒調節與積極心理學中的應用-全面剖析
評論
0/150
提交評論