Python網(wǎng)絡(luò)爬蟲技術(shù)項(xiàng)目教程 練習(xí)題_第1頁
Python網(wǎng)絡(luò)爬蟲技術(shù)項(xiàng)目教程 練習(xí)題_第2頁
Python網(wǎng)絡(luò)爬蟲技術(shù)項(xiàng)目教程 練習(xí)題_第3頁
Python網(wǎng)絡(luò)爬蟲技術(shù)項(xiàng)目教程 練習(xí)題_第4頁
Python網(wǎng)絡(luò)爬蟲技術(shù)項(xiàng)目教程 練習(xí)題_第5頁
已閱讀5頁,還剩1頁未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

第一章爬取靜態(tài)網(wǎng)頁一、選擇題1.下列哪個是Request的安裝命令?A.pipinstallRequests B.yuminstallRequestsC.piplist D.rpmRequests2.下列哪個屬于Request的請求?A.RookieB.TestC.PostD.Session3.以下關(guān)于BeautifulSoupfind方法說法正確的是()A.BeautifulSoup是一個可以從HTML或XML文件中提取數(shù)據(jù)的Python庫B.BeautifulSoup是一個C++庫C.BeautifulSoup是支持C語言調(diào)用D.BeautifulSoup是支持Java語言調(diào)用4.以下選項(xiàng)中不是Python數(shù)據(jù)分析的第三方庫的是()A.numpyB.scipyC.pandasD.requests5.對Scrapy描述正確的是()A.一個Scrapy項(xiàng)目只能創(chuàng)建一個爬蟲B.一個Scrapy項(xiàng)目只能使用一管道C.爬蟲與管道之間傳遞數(shù)據(jù)不使用item子類D.爬蟲與管道之間傳遞數(shù)據(jù)使用item子類簡答題1.請簡述Requests的基本功能2.Cookies的定義?3.簡述從Response對象(r)中可以獲取到的內(nèi)容4.簡述一下BeautifulSoup的作用5.簡述Scrapy架構(gòu)中包含的組件第二章爬取動態(tài)網(wǎng)頁一、選擇題1.下列關(guān)于scrapy爬蟲的表述有誤的是()A.Scrapy可用XPath表達(dá)式分析頁面結(jié)構(gòu) B.Scrapy可以用于數(shù)據(jù)挖掘、監(jiān)測和自動化測試C.Scrapy源碼中默認(rèn)callback函數(shù)的函數(shù)名就是parse D.Scrapy使用了Twisted同步網(wǎng)絡(luò)庫來處理網(wǎng)絡(luò)通訊2.下列關(guān)于JSON支持是的數(shù)據(jù)結(jié)構(gòu),哪項(xiàng)是不正確的是?()A.名/值對集合:這一數(shù)據(jù)結(jié)構(gòu)由不同的鍵值對組成。B.無序的對象結(jié)構(gòu):多個名稱/值構(gòu)成的封裝體,類似字典表。C.有序的對象結(jié)構(gòu):規(guī)整的文本文檔、Execl等D.有序的值列表:包括數(shù)組,列表,向量或序列等等。3.下列哪個不屬于JSON的數(shù)據(jù)類型()A.NumberB.StringC.CharD.Value4.下列關(guān)于loads轉(zhuǎn)化JSON數(shù)據(jù)轉(zhuǎn)換為Python對象,錯誤的是()A.object–dictB.array–stringC.number(int)–int、longD.true--True5.下列對WebDriver=組件,說法錯的是:A.API:應(yīng)用程序編程接口。這是一組用來操作WebDriver的“命令”。B.庫:一個代碼模塊,它只包含api和實(shí)現(xiàn)這些api所需的代碼。C.驅(qū)動程序:負(fù)責(zé)控制實(shí)際的瀏覽器。大多數(shù)驅(qū)動程序是由瀏覽器廠商自己創(chuàng)建的。驅(qū)動程序通常不是是與瀏覽器一起在系統(tǒng)上運(yùn)行的可執(zhí)行模塊,而是在執(zhí)行測試套件的系統(tǒng)上。D.框架:用于支持WebDriver套件的附加庫。二、簡答題1.簡述JSON對象的書寫方式2.簡述JSON的基本概念3.PhantomJS的特點(diǎn)4.簡述Selenium框架的作用5.簡述WebDriver的定位策略第三章爬取APP數(shù)據(jù)一、選擇題1.以下哪一個功能面板不屬于Fiddler的主界面面板() A.工具面板B.監(jiān)控面板C.通訊面板D.狀態(tài)面板2.以下哪一個是Windows查看IP地址的命令() A.ipconfigB.ifconfigC.ipaddrD.ipaddrroute3.對Http請求方式描述正確的是() A.POST請求可以傳遞大于2M的數(shù)據(jù)B.GET請求可以傳遞大于2M的數(shù)據(jù)C.POST請求可以傳遞沒有限制D.GET請求可以傳遞沒有限制4.以下關(guān)于http協(xié)議響應(yīng)行中狀態(tài)碼說法正確的是() A.200表示正常B.403表示請求資源未找到C.404表示請求資源無權(quán)訪問D.500請求方法不正確5.捕獲通過HTTPS發(fā)送的數(shù)據(jù),需要啟用HTTPS流量解密。配置項(xiàng)位于() A.Tools>Options>GeneralB.Tools>Options>HTTPSC.Tools>Options>AppearanceD.Tools>Options>Tools二、簡答題1.簡述Fiddler的功能2.Fiddler的主界面監(jiān)控面板中,Web會話性能統(tǒng)計(jì)信息可以直接在監(jiān)控面板中的什么窗口查看?3.Fiddler的主界面監(jiān)控面板中,Web網(wǎng)絡(luò)會話內(nèi)容可以直接在監(jiān)控面板中的什么窗口查看?4.查看一個或多個Web會話的傳輸時間線的瀑布圖可以直接在監(jiān)控面板中的什么窗口查看?5.簡述Fiddler的主界面面板第四章反爬蟲策略以及解決辦法一、選擇題1.以下哪一種是教材中未提及的反爬蟲策略?() A.Headers; B.Cookies; C.Proxies; D.Socket;2.Headers的()自動保存并設(shè)置鏈路? A.User-Agent B.Referer C.get D.url3.在爬取有些網(wǎng)頁是要求登錄之后的才能爬取,所以要和服務(wù)器一直保持登錄狀態(tài),有時的策略不都指定cookies,而是會使用()來完成 A.requestsB.post請求C.headerD.session4.哪個方法不適合應(yīng)對服務(wù)器封禁IP()? A.使用靜態(tài)IP B.做更完善的設(shè)置,避免瀏覽器識別并封禁IPC.使用代理IPD.設(shè)置好訪問時間間隔,避免服務(wù)器壓力過大5.Pytesseract具有的函數(shù)中,其中最常用,也最直接識別驗(yàn)證碼的函數(shù)是:? A.get_languages B.image_to_boxes C.image_to_string D.image_to_alto_xml二、簡答題1.簡述三種反爬蟲策略以及其反爬策略內(nèi)容2.簡單介紹Tesseract,并列舉出Pytesseract的函數(shù)第五章反爬策略優(yōu)化一、選擇題1.以下哪一個不屬于Redis的value數(shù)據(jù)類型A.StringB.ListC.DictD.Hash2.以下關(guān)于RedisKeys命令組的基本命令描述錯誤的是() A.DUMPkey-----廢除key所對應(yīng)的鍵值對 B.EXISTSkey[key...]-----查詢一個key是否存在 C.EXPIREkeyseconds-----設(shè)置一個key的過期的秒數(shù) D.DE

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論