《西普python安全腳本實驗》用anonBrowser抓取Web頁面_第1頁
《西普python安全腳本實驗》用anonBrowser抓取Web頁面_第2頁
《西普python安全腳本實驗》用anonBrowser抓取Web頁面_第3頁
《西普python安全腳本實驗》用anonBrowser抓取Web頁面_第4頁
《西普python安全腳本實驗》用anonBrowser抓取Web頁面_第5頁
已閱讀5頁,還剩4頁未讀 繼續免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

用anonBrowser抓取Web頁面實驗指導

實驗十一用anonBrowser抓取Web頁面【實驗介紹】1.概述Mechanize庫中的主要類Browser允許我們對瀏覽器中的任何內容進行操作,我們使用該庫來瀏覽網站、指定代理服務器、更改user-agentCookielib庫中含有幾個不同的能用來處理cookie的容器,此處使用的是一個能把各個不同的cookie保存到磁盤的容器,該功能允許用戶在收到cookie之后不必把它返回給網站并可以查看其中的內容。2.實驗目標了解anonBrowser類的編寫方法,學會使用anonBrowser類+BeautifulSoup解析href鏈接以及映射圖片。本實驗主要要求學生掌握以下幾個方面:(1)了解Mechanize庫的基本知識;(2)了解anonBrowser類的編寫方法;(3)掌握anonBrowser類+BeautifulSoup解析href鏈接以及映射圖片。3.實驗環境Windows操作系統;python3.x。【實驗步驟】1.打開Windows操作系統首先,我們需要進入Windows操作系統,界面圖如下:2.驗證Python(1)按住快捷鍵“Win+R”打開運行窗口,輸入cmd,進入命令行窗口。(2)在命令行窗口輸入:python命令,驗證是否存在。3.腳本設計思路(1)首先,我們了解Mechanize庫。使用該庫瀏覽互聯網,并采取同樣的步驟在正常的瀏覽網頁時建立匿名和從web瀏覽器中清楚cookie。(2)其次,我們封裝代碼為python類。如果將這些添加到一個類里面將很有用,這些功能可以歸結為一個瀏覽器對象簡單的調用,而不是導入我們的函數到某個文件使用笨拙的語法調用。我們這么做可以擴展Browser類,我們的新Browser類將會有我們已經創建過的函數,以及初始化的附加功能。這將有利于提高代碼的可讀性,并封裝所有的功能在Browser類中直接處理。(3)最后,我們用anonBrowser類+BeautifulSoup解析Href鏈接。為了從目標網站解析鏈接,我們有兩個選擇:(1)利用正則表達式來搜索和替換HTML代碼。(2)使用強大的第三方庫BeautifulSoup,可以在下面網站下載安裝:/software/BeautifulSoup/。4.編寫準備(1)下載Mechanize庫。(2)編寫anonBrowser類。(3)準備好自己需要解析的網址,(我們這里使用的網址是/)。5.編寫Python腳本(1)開始著手編寫Python腳本。打開Pycharm工具,界面圖如下:(2)我們創建一個類,名為anonBrowser。我們的新類有一個默認的user-agents列表,接受列表添加進去,以及用戶想使用的代理服務器列表。它還具有我們先前創建的三個功能,可以單獨也可以同時使用匿名函數。最后,anonymize提供等待60秒的選項,增加在服務器日志請求訪問之間的時間。同時也不改變提供的信息,該額外的步驟減小了被識別為相同的源地址的機會。增加時間和模糊的通過安全是一個道理,但是額外的措施是有幫助的,時間通常不是一個問題。另一個程序可以以相同的方式使用這個新類。文件anonBrowser.py包含新類,如果想在導入調用是看到它,我們必須將它保存在腳本的目錄。完整代碼截圖:(3)用BeautifulSoup解析Href鏈接。為了從目標網站解析鏈接,我們有兩個選擇:(1)利用正則表達式來搜索和替換HTML代碼。(2)使用強大的第三方庫BeautifulSoup,可以在下面網站下載安裝:/software/BeautifulSoup/。BeautifulSoup的創造者構建了這個極好的庫來處理和解析HTML代碼和XML。首先,我們看看怎樣使用兩種方法找到鏈接,然后解釋為什么大多數情況下BeautifulSoup是很好的選擇。完整代碼截圖:運行結果截圖:

實驗報告一、實驗報告Mechanize庫中的主要類Browser允許我們對瀏覽器中的任何內容進行操作,我們使用該庫來瀏覽網站、指定代理服務器、更改user-agentCookielib庫中含有幾個不同的能用來處理cookie的容器,此處使用的是一個能把各個不同的cookie保存到磁盤的容器,該功能允許用戶在收到cookie之后不必把它返回給網站并可以查看其中的內容。1、實驗目的了解anonBrowser類的編寫方法,學會使用anonBrowser類+BeautifulSoup解析href鏈接以及映射圖片。本實驗主要要求學生掌握以下幾個方面:(1)了解Mechanize庫的基本知識;(2)了解anonBrowser類的編寫方法;(3)掌握anonBrowser類+BeautifulSoup解析href鏈接以及映射圖片。2、實驗環境Windows10操作系統;Python3.x;PyCharm編譯器。3、實驗準備了解Mechanize庫的概念;了解BeautifulSoup庫的概念。4、實驗過程(1)首先,我們了解Mechanize庫。使用該庫瀏覽互聯網,并采取同樣的步驟在正常的瀏覽網頁時建立匿名和從web瀏覽器中清楚cookie。(2)其次,我們封裝代碼為python類。如果將這些添加到一個類里面將很有用,這些功能可以歸結為一個瀏覽器對象簡單的調用,而不是導入我們的函數到某個文件使用笨拙的語法調用。我們這么做可以擴展Browser類,我們的新Browser類將會有我們已經創建過的函數,以及初始化的附加功能。這將有利于提高代碼的可讀性,并封裝所有的功能在Browser類中直接處理。(3)最后,我們用anonBrowser類+BeautifulSoup解析Href鏈接。為了從目標網站解析鏈接,我們有兩個選擇:(1)利用正則表達式來搜索和替換HTML代碼

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論