網(wǎng)站反爬策略分析_第1頁
網(wǎng)站反爬策略分析_第2頁
網(wǎng)站反爬策略分析_第3頁
網(wǎng)站反爬策略分析_第4頁
網(wǎng)站反爬策略分析_第5頁
已閱讀5頁,還剩5頁未讀 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領

文檔簡介

網(wǎng)站反爬策略分析了解網(wǎng)站反爬的原因以及如何識別與懲治一、為什么要反爬

二、如何識別爬蟲

三、如何懲治爬蟲

四、反爬策略分析網(wǎng)站為什么要反爬?出于保護自身網(wǎng)站有價值的數(shù)據(jù)來源保護自身網(wǎng)站服務器資源的目的識別出爬蟲程序限制惡意訪問請求1、為什么要反爬通過請求信息識別Header:當大規(guī)模請求服務端時,如果相同header出現(xiàn)的次數(shù)過多,則會被服務端認定為爬蟲程序。

Cookie:例如:在第一次請求時寫入某個cookie,在第二次請求時攜帶,如果第爬蟲程序繞過第一次請求,在爬取頁面時所攜帶的cookie則是不正確的。特定請求參數(shù):通過頁面js計算一個參數(shù),在請求時攜帶該參數(shù),如果未攜帶該參數(shù)則認定該請求為機器行為。2、如何識別爬蟲基于用戶行為識別單位時間的單個客戶端的請求頻率,在請求第一次請求服務端時為該客戶端做一個標記,比如賬賬號,客戶端指紋等其他信息,來監(jiān)測客戶端的訪問頻率鼠標移動軌跡的監(jiān)測,機器程序不能夠很好的模擬人的行為,所以針對鼠標的移動軌跡監(jiān)測可以更好的識別該客戶端是否為機器行為頻繁/定期更換反爬措施爬蟲技術(shù)也在不斷地進行更新,多以反爬措施以及規(guī)則應進行更替3、如何識別爬蟲網(wǎng)站一旦識別出某個請求是爬蟲,通常會采取以下措施:直接拒絕爬蟲請求1.4XX2.2XX+空數(shù)據(jù)返回驗證碼驗證,驗證不通過,則拒絕訪問或再次返回驗證不拒絕爬蟲,但是返回比較真實的微數(shù)據(jù)和真實數(shù)據(jù)混在一起4、如何懲治爬蟲首先,用現(xiàn)有程序爬取頁面,如能爬取,則一般是訪問頻率受限制如爬蟲程序直接不能進行爬取,查看請求參數(shù),是否與抓包參數(shù)一致如參數(shù)不一致,進行參數(shù)的驗證,先修改為與請求參數(shù)一致,再進行查看在獲取反爬策略之后,進行爬蟲程序的編寫在爬蟲程序中,要盡可能的模擬人工操作5、反爬策略分析

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論