開源網絡爬蟲在垂直搜索引擎應用_第1頁
開源網絡爬蟲在垂直搜索引擎應用_第2頁
開源網絡爬蟲在垂直搜索引擎應用_第3頁
開源網絡爬蟲在垂直搜索引擎應用_第4頁
開源網絡爬蟲在垂直搜索引擎應用_第5頁
已閱讀5頁,還剩3頁未讀 繼續免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

1、開源網絡爬蟲在垂直搜索引擎應用開源網絡爬蟲在垂直搜索引擎應用引言在信息化時代,針對通用搜索引擎信息量大、查詢準度和深度兼差等缺點,垂直搜索引擎已進入了用戶認可和使用周期。垂直搜索是針對某一個行業的專業搜索引擎,是對網頁庫中的某類專門的信息進展一次整合,定向分字段抽取出需要的數據進展處理后再以某種形式返回給用戶1。相比通用搜索引擎那么顯得更加專注、詳細和深化。目前,垂直搜索引擎多用于行業信息獲取和特色語料庫建立等方面,且已卓見現實深遠成效。網絡爬蟲是一個自動提取和自動下載網頁的程序,可為搜索引擎從互聯網上下載網頁,并根據既定的抓取目的,有選擇地訪問互聯網上的網頁與相關的鏈接,獲取所需要的信息。按

2、照功能用處,網絡爬蟲分為通用爬蟲和聚焦爬蟲,這是搜索引擎一個核心組成部分。1聚焦爬蟲的工作原理及關鍵技術分析1.1聚焦爬蟲的工作原理聚焦爬蟲是專門為查詢某一主題而設計的網頁采集工具,并不追求大范圍覆蓋,而是將目的預定為抓取與某一特定主題內容相關的網頁本文由搜集整理,如此即為面向主題的用戶查詢準備數據資源。垂直搜索引擎可利用其實現對網頁主題信息的挖掘以及發現,聚焦爬蟲的工作原理是:1爬蟲從一個或假設干起始網頁URL鏈接開場工作;2通過特定的主題相關性算法判斷并過濾掉與主題無關的鏈接;3將有用鏈接參加待抓取的URL隊列;4根據一定的搜索策略從待抓取URL隊列中選擇下一步要抓取的網頁URL;重復以上

3、步驟,直至滿足退出條件時停頓2。1.2聚焦爬蟲的幾個關鍵技術根據聚焦爬蟲的工作原理,在設計聚焦爬蟲時,需要考慮問題可做如下闡述。開發聚焦爬蟲時,應考慮對于抓取目的的定義與描繪,終究是帶有目的網頁特征的網頁級信息,還是針對目的網頁上的構造化數據。前者因其具有構造化的數據信息特征,在爬蟲抓取信息后,還需從構造化的網頁中抽取相關信息;而對于后者,爬蟲那么直接解析eb頁面,提取并加工相關的構造化數據信息,該類爬蟲便于定制自適應于特定網頁模板的結果網站。開發聚焦爬蟲時,常見的URL搜索策略主要包括深度優先搜索策略、廣度優先搜索策略、最正確優先搜索策略等3。在此給出對應策略的規那么分析如下。1深度優先搜索

4、策略該搜索策略采用了后進先出的隊列方式,從起始URL出發,不停搜索網頁的下一級頁面直至最后無URL鏈接的網頁頁面完畢;爬蟲再回到起始URL地址,繼續探尋URL的其它URL鏈接,直到不再有URL可搜索為止,當所有頁面都完畢時,URL列表即按照倒敘的方式將搜索的URL隊列送入爬蟲待抓取隊列。2廣度優先搜索策略該搜索策略采用了先進先出的隊列方式,從起始URL出發,在搜索了初始eb的所有URL鏈接后,再繼續搜索下一層URL鏈接,直至所有URL搜索完畢。URL列表將按照其進入隊列的順序送入爬蟲待抓取隊列。3最正確優先搜索策略該搜索策略采用了一種部分優先搜索算法,從起始URL出發,按照一定的分析算法,對頁

5、面候選的URL進展預測,預測目的網頁的相似度或主題相關性,當相關性到達一定的閾值后,URL列表那么按照相關數值上下順序送入爬蟲待抓取隊列。聚焦爬蟲在對網頁eb的URL進展擴展時,還需要對網頁內容進展分析和信息的提取,用以確定該獲取URL頁面是否與采集的主題相關。目前常用的網頁的分析算法包括:基于網絡拓撲、基于網頁內容和基于領域概念的分析算法4。下面給出這三類算法的原理實現。1基于網絡拓撲關系的分析算法基于網絡拓撲關系的分析算法就是可以通過的網頁頁面或數據,對與其有直接或間接鏈接關系的對象作出評價的實現過程。該算法又分為網頁粒度、網站粒度和網頁塊粒度三種。著名的PageRank和HITS算法就是

6、基于網絡拓撲關系的典型代表。2基于網頁內容的分析算法基于網頁內容的分析算法指的是利用網頁內容文本、數據等資源特征進展的網頁評價。該方法已從最初的文本檢索方法,向網頁數據抽娶數據挖掘和自然語言等多領域方向開展。3基于領域概念的分析算法基于領域概念的分析算法那么是將領域本體分解為由不同的概念、實體及其之間的關系,包括與之對應的詞匯項組成。網頁中的關鍵詞在通過與領域本體對應的詞典分別轉換之后,將進展計數和加權,由此得出與所選領域的相關度。2幾種開源網絡爬蟲性能比擬目前,互聯網上推出有許多的開源網絡爬蟲,易于開發和擴展的主要包括Nuth、Larbin、Heritrix等,下面即針對這三類爬蟲進展實用性

7、內容介紹5:1Heritrix是Java開發的開源eb爬蟲系統,是InternetArhive的一個爬蟲工程。這是開源、可擴展、eb范圍內并帶有存檔性質的網絡爬蟲。該系統允許用戶選擇擴展各個組件,進而實現自定的抓取邏輯。Heritrix默認提供的組件可以完成通用爬蟲的功能,用戶即可根據實際需求定制相應模塊,也可實現聚焦爬蟲的功能。2Larbin是一種由+開發的開源網絡爬蟲,larbin可以跟蹤頁面的URL進展擴展的抓取,從而為搜索引擎提供廣泛的數據來源。該程序由法國人SbastienAilleret獨立開發,只是2022年后,Labin已退出了更新。3Nuth是Apahe的子工程之一,且是Lu

8、ene下的子工程,重點是其中自己提供了搜索引擎所需的全部工具,當然,Nuth只獲取并保存可索引的內容,卻無法保持抓取網頁原貌。在此,研究可得三種開源網絡爬蟲的功能特點和使用范圍比擬,詳細如表1所示。表1三種開源爬蟲功能特點的和使用范圍Tab.1Funtinharateristisanduserangefthreetypesfpensureralers名稱使用平臺開發語言效率鏡像保存分布抓取功能單一優點缺點Heritrixinds/LinuxJava中是否是高可擴展性,性能穩定,對抓取的控制性功能齊全。對中文支持較差,容錯性機制差。LarbinLinux+高是否是爬蟲性能好,穩定性強。沒有刪除功

9、能,排重可能誤判。Nuthinds/LinuxJava低否是否爬蟲和Luene及Hadp的結合很好,便于開發搜索引擎。系統不穩定。通過如上內容分析,可以得出以下結論:1從功能方面來說,Heritrix與Larbin的功能類似,都是一個純粹的網絡爬蟲,提供網站的鏡像下載。Nuth那么是一個網絡搜索引擎框架,爬取網頁只是其功能的一部分。2從分布式處理來說,Nuth支持分布式處理,而其它兩個尚不支持。3從爬取的網頁存儲方式來說,Heritrix和Larbin都是將爬取所獲內容保存為原始類型的內容。而Nuth是將內容保存到其特定格式中去。4對于爬取所獲內容的處理來說,Heritrix和Larbin都是

10、將爬取后的結果內容不經處理直接保存為原始內容。而Nuth卻將對文本進展包括鏈接分析、正文提娶建立索引等深層處理。5從爬取的效率來說,Larbin效率較高,因為其實現語言是+并且功能相對單一,但是該程序缺乏必要的更新效勞。在進展了有關軟件的擴展性、鏡像保存方式及軟件更新等方面因素的綜合分析比對后,本文將擇取并利用Heritrix開源軟件來實現聚焦爬蟲的設計。3基于Heritrix軟件聚焦爬蟲的設計3.1開源Heritrix軟件工作原理Heritrix開源軟件采集網頁的方法是采取深度優先搜索策略,遍歷網站的每一個URI,分析并生本錢地文件及相應的日志信息等,Heritrix軟件抓取的是與原網頁一致

11、的、完好的深度復制,包括圖像以及其他非文本內容,抓取后并存儲相關的內容。在網頁采集過程中,Heritrix軟件不對頁面上內容進展修改,爬行一樣的URL不進展交換。Heritrix軟件通過eb用戶界面啟動、監控、調整、允許彈性地定義要獲取的URL。Heritrix軟件包含核心模塊和插件模塊。核心模塊可以配置但不能覆蓋,插入模塊配置是否加載,也可以由第三方模塊取代。3.2開源Heritrix軟件關鍵模塊的改良修改Heritrix的Extratr解析器時,可采用正那么表達式的方式擴展待抓取的網頁。例1對所有不含有要抓取的構造化信息頁面的URL、又不含有可以集中提取前者URL的種子型URL,都不作處理

12、。2從可以集中提取含構造化信息頁面URL的種子型URL如地方新聞目錄URL,提取全部的含構造化信息頁面的URL如地方信息列表URL。3從含構造化信息頁面的URL提取所需的構造化信息,并加以記錄。FrntierSheduler是一個PstPressr,其作用是將Extratr所分析得出的鏈接參加到Frntier中,以待繼續處理,聚焦爬蟲實現關鍵詞對主題的判斷算法就在該模塊中構建并執行。主題相關度判斷的關鍵代碼如下:publividGetuntStringpath,andidateURIaUritryhilej=lenunt+;j=index+t+1;ElseBreak;3.3Heritrix聚焦

13、爬蟲接口的設計Heritrix網絡爬蟲是一個通用的網頁采集工具,需要對Heritrix抓取和分析網頁的行為進展一定的控制,修改Extratr和Frntiersheduler模塊后,需要對其各個功能接口進展操作調試,由此保證聚焦爬蟲功能的全面實現。下面即對重要功能接口進展必要介紹。1應用接口在設計聚焦爬蟲時,應定制一個應用接口模塊以供用戶使用,詳細將負責與Heritrix軟件關聯,以提供啟、停爬蟲、獲取網址、采集關鍵詞等功能實現。2數據庫查詢和修改接口在設計聚焦爬蟲時,應設計相應的數據庫接口,負責下載并發現與主題相關的網頁信息、再保存到數據庫的表中。存儲的字段包括:網頁URL,本地存儲相對途徑,下載時間,HTTP頭中抽取的網頁編碼,關鍵詞id等。3去重接口因為Herit

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論