《Python程序設計》課件-項目八 獲取豆瓣讀書Top250網站信息 爬取豆瓣讀書Top250網站數據_第1頁
《Python程序設計》課件-項目八 獲取豆瓣讀書Top250網站信息 爬取豆瓣讀書Top250網站數據_第2頁
《Python程序設計》課件-項目八 獲取豆瓣讀書Top250網站信息 爬取豆瓣讀書Top250網站數據_第3頁
《Python程序設計》課件-項目八 獲取豆瓣讀書Top250網站信息 爬取豆瓣讀書Top250網站數據_第4頁
《Python程序設計》課件-項目八 獲取豆瓣讀書Top250網站信息 爬取豆瓣讀書Top250網站數據_第5頁
已閱讀5頁,還剩15頁未讀 繼續免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

Python程序設計與應用爬取豆瓣讀書Top250網站數據房曉東主講教師爬取豆瓣讀書Top250網站數據怎么準確高效率地保存250本書的詳細信息呢?使用網絡爬蟲爬取豆瓣讀書Top250網站單個頁面數據爬取豆瓣讀書Top250網站數據Python學習目標什么是requests模塊requests模塊爬取網頁requests模塊爬取百度網站首頁和爬取豆瓣讀書Top250網站單個頁面數據Python學習目標網頁內容爬取不完整或未獲取響應內容的原因HTTP消息格式解決網頁內容爬取不完整問題爬取豆瓣讀書Top250網站數據爬取網頁數據requests爬取網頁信息的第三方模塊方便向網站發送HTTP請求響應結果requests模塊在使用之前要先安裝爬取豆瓣讀書Top250網站數據函數功能說明requests.request()構造一個請求,支撐以下各方法的基礎方法equests.get()獲取HTML網頁的主要方法,對應于HTTP的GET請求方式requests.post()向HTML網頁提交POST請求的方法,對應于HTTP的POST請求方式如何模擬瀏覽器向網站發送HTTP請求,獲取響應呢?requests模塊提供很多發送HTTP請求的函數requests模塊還提供了Response類對象用于動態地響應客戶端的請求、控制發送給用戶的信息,并動態地生成響應,包括狀態碼、網頁的內容。爬取豆瓣讀書Top250網站數據屬性說明Status_codeHTTP請求的返回狀態,200表示連接成功,404表示失敗textHTTP響應內容的字符串形式,即URL對應的頁面內容encoding從HTTP請求頭中猜測的響應內容編碼方式apparent_encoding從內容中分析出的響應編碼的方式(備選編碼方式)contentHTTP響應內容的二進制形式Response類的常用屬性運行結果可以看到響應狀態碼為200,表示已成功處理請求,但在響應內容中的中文內容是亂碼,這是為什么呢?爬取豆瓣讀書Top250網站數據造成中文亂碼的原因獲取內容的編碼方式和實際編碼方式不匹配PyCharm【Ctrl+F】快捷鍵搜索欄導入requests豆瓣讀書Top250網站首頁網址保存到url發送GET請求爬取豆瓣讀書Top250網站首頁HTTP狀態碼418是一個非標準的HTTP狀態碼Python爬取豆瓣讀書Top250網站數據程序運行結果中可看到響應狀態碼為418,為什么響應內容為空呢?服務器返回418狀態碼時,服務器認為這是一個爬蟲的請求修改請求頭信息添加代理IP延長請求間隔時間完整爬取網頁內容網站反爬蟲策略設置驗證碼限制IP訪問頻率爬取豆瓣讀書Top250網站數據網頁內容爬取不完整或未獲取響應內容是因為網站反爬蟲策略導致的。請求信息HTTP請求消息與HTTP響應消息的格式由請求行、請求頭、空行和請求參數四部分組成爬取豆瓣讀書Top250網站數據瀏覽器會向服務器發起HTTP請求,也會接收服務器返回的HTTP響應。請求信息響應消息HTTP請求消息與HTTP響應消息的格式由請求行、請求頭、空行和請求參數四部分組成爬取豆瓣讀書Top250網站數據瀏覽器會向服務器發起HTTP請求,也會接收服務器返回的HTTP響應。由狀態行、響應報頭、空行和響應正文組成GoogleChrome瀏覽器【F12】開發者工具“網絡”面板服務器headers中的User-Agent判斷訪問者通過什么工具發送請求Python允許用戶修改User-Agent來模擬瀏覽器訪問,通過攜帶請求頭發送請求的方法,解決網頁爬取不完整問題。語法格式:headers參數接收字典形式的請求頭。請求頭字段名作為key,字段對應的值作為value。爬取豆瓣讀書Top250網站數據了解了什么是requests模塊能使用requests模塊爬取百度網站首頁和爬取豆瓣讀書Top250網站單個頁面數據爬取豆瓣讀書Top250網站數據如何使用requests模塊爬取網頁爬取豆瓣讀書Top250網站數據課程小結了解網頁內容爬取不完整或未獲取響應內容的原因HTTP消息格式解決網頁內容爬取不完整問題,解決爬取豆瓣讀書Top250

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論