




已閱讀5頁,還剩7頁未讀, 繼續免費閱讀
版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
使用爬蟲實現雙向爬取什么是雙向爬取應用案例什么是雙向爬取/01雙向爬取是指以下這種情況,要對某個生活分類信息的網站進行數據爬取,譬如要爬取租房信息欄目,在該欄目的索引頁看到如下頁面。什么是雙向爬取
此時要爬取該索引頁中的每個條目的詳細信息(縱向爬取)。然后在分頁器里跳轉到下一頁(橫向爬取),再爬取第二頁中的每個條目的詳細信息,如此循環,直至最后一個條目。水平方向–指從一個索引頁到另一個索引頁。
垂直方向–指從一個索引頁到條目詳情頁。什么是雙向爬取應用案例/02首先,運行命令:$scrapycrawlmanual-sCLOSESPIDER_ITEMCOUNT=10,它的輸出如下:應用案例縱向爬取過程中,在索引頁的每一個條目的詳情頁都分別發送了一個請求,如果對爬取效率要求很高的話,那就得換一個思路了。很多時候在索引頁中對每一個條目都做了簡介,雖然信息并沒有詳情頁那么全,但如果追求很高的爬取效率,那么就不能逐個訪問條目的詳情頁,而是直接從索引頁中獲取條目的信息。所以,要平衡好效率與信息質量之間的矛盾。應用案例然后觀察索引頁,發現每個條目的節點都使用了itemptype=”/Product”來標記,于是直接從這些節點中獲取條目信息。應用案例最后使用scrapyshell工具來再次分析索引頁,下圖中的每一個Selector都指向了一個條目,這些Selector也是可以用xpath來解析的,現在就要循環解析著30個Selector,從中
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025年初級會計師《初級會計實務》黃金密訓卷三
- 勞動合同協議書幾號
- 電池維修合同協議書模板
- 場所清潔消毒記錄表
- 埠村煤礦電廠章丘城區供熱首站操作規程
- 承接合同轉讓協議書
- 財務分析中邏輯思維的層面探討試題及答案
- 技術干股合同協議書模板
- 合同公司變更協議書范本
- 經濟法中相關法律問題探討試題及答案
- 五人制足球規則(教學)
- 學校食堂“三同三公開”制度實施方案
- 危化品駕駛員押運員安全培訓
- 2025年福建福州地鐵集團有限公司招聘筆試參考題庫含答案解析
- 人工智能在新聞媒體領域的應用
- 【MOOC】儒家倫理-南京大學 中國大學慕課MOOC答案
- 銀保部三年規劃
- 2024治安調解協議書樣式
- 零工市場(驛站)運營管理 投標方案(技術方案)
- 小學二年級數學找規律練習題及答案
- 智研咨詢重磅發布:2024年中國航運行業供需態勢、市場現狀及發展前景預測報告
評論
0/150
提交評論