




已閱讀5頁,還剩7頁未讀, 繼續免費閱讀
版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
使用爬蟲實現雙向爬取什么是雙向爬取應用案例什么是雙向爬取/01雙向爬取是指以下這種情況,要對某個生活分類信息的網站進行數據爬取,譬如要爬取租房信息欄目,在該欄目的索引頁看到如下頁面。什么是雙向爬取
此時要爬取該索引頁中的每個條目的詳細信息(縱向爬取)。然后在分頁器里跳轉到下一頁(橫向爬?。?,再爬取第二頁中的每個條目的詳細信息,如此循環,直至最后一個條目。水平方向–指從一個索引頁到另一個索引頁。
垂直方向–指從一個索引頁到條目詳情頁。什么是雙向爬取應用案例/02首先,運行命令:$scrapycrawlmanual-sCLOSESPIDER_ITEMCOUNT=10,它的輸出如下:應用案例縱向爬取過程中,在索引頁的每一個條目的詳情頁都分別發送了一個請求,如果對爬取效率要求很高的話,那就得換一個思路了。很多時候在索引頁中對每一個條目都做了簡介,雖然信息并沒有詳情頁那么全,但如果追求很高的爬取效率,那么就不能逐個訪問條目的詳情頁,而是直接從索引頁中獲取條目的信息。所以,要平衡好效率與信息質量之間的矛盾。應用案例然后觀察索引頁,發現每個條目的節點都使用了itemptype=”/Product”來標記,于是直接從這些節點中獲取條目信息。應用案例最后使用scrapyshell工具來再次分析索引頁,下圖中的每一個Selector都指向了一個條目,這些Selector也是可以用xpath來解析的,現在就要循環解析著30個Selector,從中
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 七級考試題及答案
- 石油化工行業典型事故案例
- 文檔超強英語四六級課件
- 2025年稀土高速工具鋼項目建議書
- 現代外賣配送騎手職業素養與責任承諾合同
- 美容美發行業人才招聘與培訓服務合同
- 網絡零售智能電子價簽租賃及售后服務協議
- 頂級商業街區十年租賃期物業全面管理合同
- 胎黃中醫護理
- 抖音火花話題挑戰賽選手賽事保障與支持協議
- 2025年鐵路集裝箱市場前景分析
- 2024-2025中國商旅管理白皮書
- 船舶維修合同協議書
- 《比亞迪品牌歷史課件》課件
- 小學心理健康家長會課件
- 2025年4月自考00160審計學答案含評分參考
- 購買木地板合同協議
- 嚴重開放性肢體創傷早期救治專家共識解讀
- 2025年公共安全管理考試試題及答案
- 速賣通開店考試最權威答案
- 輸液導管相關靜脈血栓形成中國專家共識 課件
評論
0/150
提交評論