




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領
文檔簡介
網(wǎng)站反爬策略分析了解網(wǎng)站反爬的原因以及如何識別與懲治一、為什么要反爬
二、如何識別爬蟲
三、如何懲治爬蟲
四、反爬策略分析網(wǎng)站為什么要反爬?出于保護自身網(wǎng)站有價值的數(shù)據(jù)來源保護自身網(wǎng)站服務器資源的目的識別出爬蟲程序限制惡意訪問請求1、為什么要反爬通過請求信息識別Header:當大規(guī)模請求服務端時,如果相同header出現(xiàn)的次數(shù)過多,則會被服務端認定為爬蟲程序。
Cookie:例如:在第一次請求時寫入某個cookie,在第二次請求時攜帶,如果第爬蟲程序繞過第一次請求,在爬取頁面時所攜帶的cookie則是不正確的。特定請求參數(shù):通過頁面js計算一個參數(shù),在請求時攜帶該參數(shù),如果未攜帶該參數(shù)則認定該請求為機器行為。2、如何識別爬蟲基于用戶行為識別單位時間的單個客戶端的請求頻率,在請求第一次請求服務端時為該客戶端做一個標記,比如賬賬號,客戶端指紋等其他信息,來監(jiān)測客戶端的訪問頻率鼠標移動軌跡的監(jiān)測,機器程序不能夠很好的模擬人的行為,所以針對鼠標的移動軌跡監(jiān)測可以更好的識別該客戶端是否為機器行為頻繁/定期更換反爬措施爬蟲技術(shù)也在不斷地進行更新,多以反爬措施以及規(guī)則應進行更替3、如何識別爬蟲網(wǎng)站一旦識別出某個請求是爬蟲,通常會采取以下措施:直接拒絕爬蟲請求1.4XX2.2XX+空數(shù)據(jù)返回驗證碼驗證,驗證不通過,則拒絕訪問或再次返回驗證不拒絕爬蟲,但是返回比較真實的微數(shù)據(jù)和真實數(shù)據(jù)混在一起4、如何懲治爬蟲首先,用現(xiàn)有程序爬取頁面,如能爬取,則一般是訪問頻率受限制如爬蟲程序直接不能進行爬取,查看請求參數(shù),是否與抓包參數(shù)一致如參數(shù)不一致,進行參數(shù)的驗證,先修改為與請求參數(shù)一致,再進行查看在獲取反爬策略之后,進行爬蟲程序的編寫在爬蟲程序中,要盡可能的模擬人工操作5、反爬策略分析
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025年探索融合共生的美好-可持續(xù)旅游洞察與實踐白皮書-VISA
- 專題二十生命的思考(教學設計)-2024年七年級上冊道德與法治部編版
- 班本課程實施培訓
- 高鐵機務段檢修工培訓大綱
- 九年級數(shù)學上冊 第二章 一元二次方程6 應用一元二次方程第1課時 利用一元二次方程解決幾何問題教學設計 (新版)北師大版
- 三年級道德與法治下冊 第四單元 我們的根在這里 11 最親家鄉(xiāng)人教學設計 蘇教版
- 初中政治 (道德與法治)人教部編版八年級上冊我與社會教案
- 人教部編版七年級上冊走近老師第一課時教案
- 七年級生物上冊 1.2.1探索生命的器教學設計 (新版)蘇教版
- 防疫志愿者培訓教材
- 人工挖孔樁施工監(jiān)測監(jiān)控措施
- 高三英語教研組建設(課堂PPT)
- 我國中學導師制的歷程、現(xiàn)狀及問題分析
- 中國民主同盟入盟申請表(樣表)
- 安全帶檢測報告(共8頁)
- 公司erp項目激勵制度
- Excel函數(shù)和公式練習
- 國際石油合同講座1018
- 某核電項目機械貫穿件安裝施工管理技術(shù)研究
- 基于單片機的接觸器控制器設計
- 50t汽車吊性能表
評論
0/150
提交評論