



下載本文檔
版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
1、基于Heritrix和Sphinx的購物比擬搜索引擎研究基于Heritrix和Sphinx的購物比擬搜索引擎研究隨著網絡商品的極大豐富和分類的細化,搜索引擎已成為購物信息的重要來源。比擬購物搜索引擎是一種基于專業化的垂直搜索引擎,通過對電子商務網站或者局部實體店的商品信息進展采集和整理,向消費者提供特定準確的商品信息及相關輔助設施,減少信息不對稱,優化購置決策;同時,幫助商家降低推廣本錢獲得針對性極高的目的用戶,是將來網絡購物搜索的開展趨勢。然而,目前國內的比擬購物引擎普遍追求大而全,在細化用戶需求和購物體驗上較為欠缺。商品信息比擬側重價格方面,對影響購物體驗的其他因素,諸如商家信譽、折扣降價
2、、用戶評價、退換條款等較少涉及。本文提出采用Heritrix和Sphinx技術搭建購物搜索引擎,將國內大型B2網站作為爬取信息來源,運用聚焦爬蟲技術將目的定為抓取與用戶某一特定體驗主題內容相關的網頁,以期更好的細分消費者人群,有針對性地滿足用戶體驗。一、Heritrix和Sphinx技術特點1.1Heritrix工作原理Heritrix是一款基于java語言開發的開源網絡爬蟲,用于對網上的資源進展歸檔,建立網絡數字圖書館,目前已經建立了400TB的數據。Heritrix爬蟲每次只對一張網頁的內容深度復制,包括獲取圖像以及其它非文本內容,抓取并存儲相關的內容。詳細篩爬過程中,爬蟲先從隊列中取出下
3、一個URL,通過HTTP協議將對應的網頁爬取下來,然后解析內容,并且提取出包含的URL,將其中新發現的URL追加到隊列中。最后將網頁存放到本地磁盤的網頁庫中。爬取過程在積累到一定數量網頁時即可終止,或者在隊列為空的時候終止。1.2Sphinx工作原理Sphinx是一個基于SQL的全文檢索引擎,本系統所采用的是基于Sphinx研發并獨立發布的reseek,是一款專攻中文搜索和信息處理的中文全文檢索/搜索軟件,它適用于行業/垂直搜索、論壇/站內搜索、數據庫搜索本文由論文聯盟.LL.搜集整理、文檔/文獻檢索、信息檢索、數據挖掘等應用場景。Sphinxreseek整個系統主要由索引建立和維護程序索引程
4、序indexer、查詢效勞程序后臺效勞程序searhd、輔助工具程序searh,spelldup等三大局部組成。二、比擬購物搜索引擎系統構建2.1系統架構系統整體架構由四局部組成:1由Heritrix擴展而來的爬蟲系統,負責從互聯網抓取商品相關的信息。2ySQL數據庫,存儲由Heritrix抓取的數據。3Sphinx全文索引效勞器,負責對商品建立全文索引。4Tat效勞器,負責向客戶端提供搜索效勞。詳細系統整體架構圖如圖1。在初始化階段,Heritrix任務需事先通過配置和測試,確認后可由Linux系統通過rn來自動調度。根據用戶輸入的商品信息,網絡爬蟲的每個抓取任務只負責單個購物網站數據的抓取
5、,但每個任務的線程數量可由實際情況進展調整。篩爬啟動和完畢時間通過Bash腳本來監控,每隔一定的時間去檢測相應的進程是否已經完畢,假如某個抓取任務完畢,那么設定好下一次啟動的時間間隔。在本文構建的模型中采用ySQL數據庫存儲篩爬的信息,但直接從ySQL數據庫生成全文索引讀取比擬費時,因此采用基于SQL的全文檢索引擎Sphinx結合ySQL,以主索引+增量索引的形式,大局部的搜索都集中在Sphinx全文索引中,少量數據可能需要直接訪問ySQL數據庫,這樣可以使應用程序更容易實現專業化的全文檢索。詳細運行過程中通過rn設定方案任務,每隔一定的時間,Sphinx會從ySQL數據庫生成增量索引,然后執
6、行主索引和增量索引的合并,并且在后臺操作過程中,一直可以向客戶提供搜索效勞。2.2數據存儲模型的建立目前各種購物平臺和測評網站給出的商品信息異常復雜,每個網站的頁面都有自身特定的格式,一樣商品在不同網站上也不盡一樣,尤其是不同類型的商品在屬性上差異極大,因此,需要建立統一的數據模型存儲數據,也即通過多張表可以描繪各種類型商品的根本屬性,而不需要針對每種商品建立不同的存儲表。本設計中構建了商品表、商品別名表、品牌表、信息采集表、信息采集元數據表、商品途徑表、網站表、店鋪表和商品類別表等一系列數據模型。以商品信息表為例,如表2-1所示。表2-1商品表dity字段名定義類型特性說明idbigintu
7、nsigned自增、主鍵商品idnaevarhar255非空、全文索引商品的名字brand_idbigintunsigned外鍵品牌idinstane_idvarhar50非空ISBN,ISR,型號等is_uniquebl非空是否唯一datetiedatetie非空創立時間instane_id可以是型號、貨號、ISBN、ISR等用來區分商品的編號。大局部商品都會有型號instane_id,因此只要有一樣品牌且型號一樣,就可以肯定是同一種商品。brand_id指向brand,指品牌如TL,也可指出版社或消費廠商。商品的名字需要用Sphinx建立全文索引。2.3信息提取流程通過設置起始網站,然后根
8、據需要提取并更新網頁上的商品信息,在信息提取過程中通過判別程序進展斷定,對已存在商品添加商品別名,不存在的商品添加商品信息,最后更新店鋪信息。2.3.1商品信息提取判別提取產品的信息包括商品名稱、市場價、最高價、促銷價、促銷描繪、銷量描繪、評價、URL、店鋪、類別、屬性,其中對ISBN或ISR、品牌和型號屬性要特殊處理,由于不同商家在添加商品信息時可能會有文字上的差異,提取時要結合Sphinx建立的全文搜索引擎仔細設計匹配規那么。假如商品屬性中有ISBN,那么可以肯定是圖書,假如有ISR字樣,那么肯定為唱片。這兩種編寫都具有全球唯一性,因此可以設定商品表中的is_unique字段為真,判斷時以
9、此編號為準。在沒有全球唯一編號的情況下,大局部商品可通過品牌+型號的方式來判斷是否為同一商品。其中型號可能有別名,如貨號等。其余情況,以商品名字來判斷,由于不同商家會往商品名稱里參加很多其他信息,通過名字來判斷同一商品可靠性較低。2.3.2商品信息更新流程商品信息更新分為店鋪信息更新和類別更新兩個局部。店鋪更新是在商品添加成功以后來處理的,一般每個商品都會有默認ntext購物網站,個別商品可通過網頁找到對應店家,此時就適用更新店鋪流程,更新店鋪最終是為了讓此次采集時的上下文環境更加明確,以便將來對采集數據進展分類處理。類別更新針對局部能從商品信息頁面中獲取的網站而言,為可選功能。三、模型構建理論本文基于Heritrix和Sphinx技術搭建的購物搜索引擎在理論中把淘寶網、天貓網、卓越亞馬遜、當當網作為重點爬取對象,能實現針對這些主要購物網一般商品的搜索。搜索結果頁面如圖2所示。商品比擬結果頁面如圖3所示。四、總結本系統通過Linux系統的腳本管理技術,將Heritrix網絡爬蟲技術、Sph
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 交通設施采購項目售后服務與應急響應協議
- 生態旅游園區場地轉租管理協議
- 公司之間罰款協議書
- 委托經營協議管理協議書
- 委托生產合同解除協議書
- 修車合同協議書范本模板
- 自愿外出打工協議書
- 跳傘生死協議書
- 積分禮品采購協議書
- 勞動合同變更關系協議書
- 酒店籌開期操作手冊(業主代表小組適用)
- 城市生活垃圾衛生填埋場運行管理培訓
- 2023年《早》舒淇早期古裝掰全照原創
- 部編版六年級語文下冊根據語境寫詞語(小升初歸類練習)
- 人工智能之知識庫
- 張哲華鑫仔小品《警察和我》臺詞劇本手稿
- 中等職業學校英語課程標準(2020年版)(word精排版)
- 畢業生就業推薦表word模板
- 南京市特種設備安全監督檢驗研究院公開招考5名編外工作人員模擬檢測試卷【共1000題含答案解析】
- 2023年八年級生物學業水平考試復習試卷
- YY/T 1685-2020氣動脈沖振蕩排痰設備
評論
0/150
提交評論