




版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
趣學Python爬蟲用Request獲取數據本課目錄INDEX一個網絡爬蟲的基本構成網絡請求(GET/POST)靜態爬蟲和動態爬蟲Requests構建請求關于cookie和session一個網絡爬蟲的基本構成一個完整的網絡爬蟲就是三個大的組成部分找篩本講我們就來探討如何找存網絡請求(GET/POST)要做爬蟲第一步就要先找數據,
那么我們在哪里找數據?#互聯網!那就要遵守互聯網的訪問數據的流程和規則#互聯網
https://常規用戶瀏覽器爬蟲程序requests模塊發起請求用戶響應數據互聯網請求類型GET/POST后續處理如:數據保存(持久化)->數據分析網絡請求(GET/POST)到底什么是GET
和POST請求無論是什么請求這都是在訪問網頁或者訪問互聯網資源的一種規則,類似我們老司機上高速,不能超過限速一樣GETGET請求類似直接轉達某個信息,信息不加密POSTPOST請求是先牽線,然后再傳信息,信息加密小明大明1.小明找到大明然后附帶要對他說的內容一起發送聊天GET請求的參數(信息),是放在請求的URL里的,換句話說叫明文小明大明聊天小明要先告知大明我要找你聊天小明再發送信息POST請求的參數(信息),是加密后再傳送案例:我們一般對頁面的訪問通常是通過GET請求案例:我們登陸過程一般是POST請求(用戶名/密碼)靜態爬蟲和動態爬蟲構建一個爬蟲的步驟(GET/POST)STEP-1 構建請求頭header={'User-Agent':
'Mozill……..}STEP-2STEP-3類似一張名片告訴服務器你是誰構建請求參數(可有可無)params=
{"wd":
"萬門大學",}類似點菜,點了以后你希望廚師做的酸一點兒或咸一點,當然了你也可以保持標配向目標網站/鏈接發起請求(訪問)url=‘https:///s’Host
請求的域名User-Agent
瀏覽器端瀏覽器型號和版本Accept
可接受的內容類型Accept-Language
語言Accept-Encoding
可接受的壓縮類型
gzip,deflateAccept-Charset
可接受的內容編碼
UTF-8,*res=requests.get(url=url,headers=header,
params=params)萬事具備只欠東風靜態爬蟲和動態爬蟲構建一個爬蟲的步驟(GET/POST)res=
requests.get(url=url,params=params,headers=header,)我們先解析一下
get函數的構造被訪問目標地址,一定要以http://或https://開頭可以訪問域名如
也可以是IP地址如params是一個字典結構的參數,這個參數是給到服務器,告訴它你是否有特殊訴求當然這里是看服務器是否有需要你提供headers是請求頭,對爬蟲來說這是一個偽裝,即告訴服務器我是“人”res返回的數據有三種接收方式res.text -
文本方式res.content–
字節碼/二進制方式res.json(
)
–
json對象方式json方式注意,返回數據必須要滿足json格式靜態爬蟲和動態爬蟲構建一個爬蟲的步驟(GET/POST)res我們先解析一下
get函數的構造=requests.post(url=url,data=data,headers=header,
)被訪問目標地址,一定要以http://或https://開頭可以訪問域名如
也可以是IP地址如data是一個字典結構的參數,這個參數是給到服務器,告訴它你是否有特殊訴求當然這里是看服務器是否有需要你提供,特別注意!
post里是dataheaders是請求頭,對爬蟲來說這是一個偽裝,即告訴服務器我是“人”res返回的數據有三種接收方式res.text -
文本方式res.content–
字節碼/二進制方式res.json(
)
–
json對象方式json方式注意,返回數據必須要滿足json格式關于cookie和session大家有沒有發現瀏覽網頁的時候,如果你登陸過一次系統后,
你關閉電腦再回來訪問,它還是登陸狀態未登陸登陸操作已登陸WHY?關于cookie和session正正寧夫培培會話1會話2會話3服務器與每個用戶(瀏覽器)建立一個專屬的“通道”這里叫會話萬門大學服務器關于cookie和session萬門大學服務器正正寧夫培培會話1會話2會話3a=
1b=
2a和b都是對象源自于int類延伸理解這里的服務器就是類這里的會話就是對象關于cookie和session萬門大學服務器正正寧夫培培會話1會話2會話3網頁向服務器發起請求(http/https),本身是沒有狀態的。什么是狀態?這里的狀態就是你是誰、來自哪里、你有啥需求等等。為了解決這個問題就有了cookie和session兩個機制去識別用戶cookie保存在瀏覽器session保存在服務器關于cookie和session為什么我們要了解這個機制,是因為我們要應對一種爬蟲場景即:爬取的數據在登陸以后才能獲取大家肯定會問,
那我可否在瀏覽器登陸后再爬取呢?會話1會話2不行!這個是標準的掩耳盜鈴模式因為服務器判定為兩個會話靜態爬蟲和動態爬蟲POST登陸爬蟲構建STEP-1構建請求頭STEP-2建立請求參數,登陸至少涉及到用戶名和密碼STEP-3建立一個保存session/cookie的容器sess=
requests.Session()STEP-4使用sess這個容器發起常規請求,以便獲取session和cookie,為下一步請求(登陸后)做好準備res=sess.post(url=url,data=data,
headers=header)使用這個容器里的session/
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 四年級數學上冊 1 大數的認識第6課時 求億以內數的近似數教學設計 新人教版
- 浙江省衢州市仲尼中學高二體育與健康《乒乓球》教學設計2 新人教版
- 音樂動物說話教案配套
- 生產內衣公司品質培訓大綱
- 小學統編版(2024)第五單元 閱讀教案
- 生產車間5S管理培訓教材
- 陜西省石泉縣七年級地理上冊 1.3 地圖的閱讀同課異構教學設計1 (新版)新人教版
- 面包磚路面施工項目合同
- 萬科物業安全培訓
- 三方辦公空間租賃合同范本
- 2024版房屋市政工程生產安全重大事故隱患判定標準內容解讀
- 個體工商戶代持協議書(2篇)
- 2024年國網公司企業文化與職業道德試考試題庫(含答案)
- 語文新課標“整本書閱讀”深度解讀及案例
- 基于激光導航的履帶自走式機器人控制系統研究的開題報告
- 護坡施工方案施工方案
- 2024年湖北省武漢市中考數學試題含答案
- 手術室急危重患者的搶救與配合
- 河南省2024年中考道德與法治真題試卷(含答案)
- 人教版高一體育羽毛球大單元(正手發高遠球技術)教案
- 公司工資表模板
評論
0/150
提交評論