《Python網(wǎng)絡爬蟲基礎教程》 課件-第1章 認識網(wǎng)絡爬蟲_第1頁
《Python網(wǎng)絡爬蟲基礎教程》 課件-第1章 認識網(wǎng)絡爬蟲_第2頁
《Python網(wǎng)絡爬蟲基礎教程》 課件-第1章 認識網(wǎng)絡爬蟲_第3頁
《Python網(wǎng)絡爬蟲基礎教程》 課件-第1章 認識網(wǎng)絡爬蟲_第4頁
《Python網(wǎng)絡爬蟲基礎教程》 課件-第1章 認識網(wǎng)絡爬蟲_第5頁
已閱讀5頁,還剩51頁未讀 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領

文檔簡介

第1章認識網(wǎng)絡爬蟲《Python網(wǎng)絡爬蟲基礎教程》學習目標/Target熟悉網(wǎng)絡爬蟲的概念及分類,能夠歸納通用網(wǎng)絡爬蟲和聚焦網(wǎng)絡爬蟲的區(qū)別了解網(wǎng)絡爬蟲的應用場景,能夠列舉至少3個網(wǎng)絡爬蟲的應用場景熟悉網(wǎng)絡爬蟲的Robots協(xié)議,能夠說明robots.txt文件中每個選項的含義熟悉防網(wǎng)絡爬蟲的應對策略,能夠列舉至少3個應對防網(wǎng)絡爬蟲的策略學習目標/Target掌握網(wǎng)絡爬蟲的工作原理,能夠定義通用網(wǎng)絡爬蟲和聚焦網(wǎng)絡爬蟲的工作原理熟悉網(wǎng)絡爬蟲的工作流程,能夠歸納網(wǎng)絡爬蟲抓取網(wǎng)頁的完整流程了解網(wǎng)絡爬蟲的實現(xiàn)技術,能夠說出使用Python實現(xiàn)網(wǎng)絡爬蟲有哪些優(yōu)勢熟悉網(wǎng)絡爬蟲的實現(xiàn)流程,能夠歸納使用Python實現(xiàn)網(wǎng)絡爬蟲的流程章節(jié)概述/Summary隨著網(wǎng)絡的蓬勃發(fā)展,萬維網(wǎng)成為大量信息的載體,如何有效提取并利用這些信息成為一個巨大的挑戰(zhàn)。網(wǎng)絡爬蟲作為一種自動采集數(shù)據(jù)技術,憑借自身強大的自動提取網(wǎng)頁數(shù)據(jù)的能力,成為當下互聯(lián)網(wǎng)高效、靈活地收集數(shù)據(jù)的解決方案之一。本章主要對網(wǎng)絡爬蟲的基礎知識進行詳細地講解。目錄/Contents1.11.21.3什么是網(wǎng)絡爬蟲網(wǎng)絡爬蟲的應用場景網(wǎng)絡爬蟲合法性探究1.41.5網(wǎng)絡爬蟲的工作原理和流程網(wǎng)絡爬蟲實現(xiàn)技術探究什么是網(wǎng)絡爬蟲1.1熟悉網(wǎng)絡爬蟲的概念及分類,能夠歸納通用網(wǎng)絡爬蟲和聚焦網(wǎng)絡爬蟲的區(qū)別學習目標1.1什么是網(wǎng)絡爬蟲1.1什么是網(wǎng)絡爬蟲網(wǎng)絡爬蟲(WebCrawler)又稱網(wǎng)絡蜘蛛、網(wǎng)絡機器人,它是一種按照一定規(guī)則,自動瀏覽萬維網(wǎng)的程序或腳本。通俗地講,網(wǎng)絡爬蟲就是一個模擬真人瀏覽萬維網(wǎng)行為的程序,這個程序可以代替真人自動請求萬維網(wǎng),并接收從萬維網(wǎng)返回的數(shù)據(jù)。與真人瀏覽萬維網(wǎng)相比,網(wǎng)絡爬蟲能夠瀏覽的信息量更大,效率也更高。

網(wǎng)絡爬蟲概念1.1什么是網(wǎng)絡爬蟲網(wǎng)絡爬蟲歷經(jīng)幾十年的發(fā)展,技術變得更加多樣化,并結合不同的需求衍生出類型眾多的網(wǎng)絡爬蟲。網(wǎng)絡爬蟲按照系統(tǒng)結構和實現(xiàn)技術大致可以分為4種類型,分別是通用網(wǎng)絡爬蟲、聚焦網(wǎng)絡爬蟲、增量式網(wǎng)絡爬蟲、深層網(wǎng)絡爬蟲。

網(wǎng)絡爬蟲分類聚焦網(wǎng)絡爬蟲通用網(wǎng)絡爬蟲增量式網(wǎng)絡爬蟲深層網(wǎng)絡爬蟲1.1什么是網(wǎng)絡爬蟲通用網(wǎng)絡爬蟲(GeneralPurposeWebCrawler)又稱全網(wǎng)爬蟲(ScalableWebCrawler),是指訪問全互聯(lián)網(wǎng)資源的網(wǎng)絡爬蟲。通用網(wǎng)絡爬蟲是“互聯(lián)網(wǎng)時代”早期出現(xiàn)的傳統(tǒng)網(wǎng)絡爬蟲,它是搜索引擎(如百度、谷歌、雅虎等)抓取系統(tǒng)的重要組成部分,主要用于將互聯(lián)網(wǎng)中的網(wǎng)頁下載到本地,形成一個互聯(lián)網(wǎng)內(nèi)容的鏡像備份。通用網(wǎng)絡爬蟲

網(wǎng)絡爬蟲分類1.1什么是網(wǎng)絡爬蟲聚焦網(wǎng)絡爬蟲(FocusedCrawler)又稱主題網(wǎng)絡爬蟲(TopicalCrawler),是指有選擇性地訪問那些與預定主題相關網(wǎng)頁的網(wǎng)絡爬蟲,它根據(jù)預先定義好的目標,有選擇性地訪問與目標主題相關的網(wǎng)頁,獲取所需要的數(shù)據(jù)。與通用網(wǎng)絡爬蟲相比,聚焦網(wǎng)絡爬蟲只需要訪問與預定主題相關的網(wǎng)頁,這不僅減少了訪問和保存的頁面數(shù)量,而且提高了網(wǎng)頁的更新速度,可見,聚焦網(wǎng)絡爬蟲在一定程度度節(jié)省了網(wǎng)絡資源,能滿足一些特定人群采集特定領域數(shù)據(jù)的需求。

網(wǎng)絡爬蟲分類聚焦網(wǎng)絡爬蟲1.1什么是網(wǎng)絡爬蟲增量式網(wǎng)絡爬蟲(IncrementalWebCrawler)是指對已下載的網(wǎng)頁采取增量式更新,只抓取新產(chǎn)生或者已經(jīng)發(fā)生變化的網(wǎng)頁的網(wǎng)絡爬蟲。增量式網(wǎng)絡爬蟲只會抓取新產(chǎn)生的或內(nèi)容變化的網(wǎng)頁,并不會重新抓取內(nèi)容未發(fā)生變化的網(wǎng)頁,這樣可以有效地減少網(wǎng)頁的下載量,減少訪問時間和存儲空間的耗費,但是增加了網(wǎng)頁抓取算法的復雜度和實現(xiàn)難度。

網(wǎng)絡爬蟲分類增量式網(wǎng)絡爬蟲1.1什么是網(wǎng)絡爬蟲深層網(wǎng)絡爬蟲(DeepWebCrawler)是指抓取深層網(wǎng)頁的網(wǎng)絡爬蟲,它要抓取的網(wǎng)頁層次比較深,需要通過一定的附加策略才能夠自動抓取,實現(xiàn)難度較大。

網(wǎng)絡爬蟲分類深層網(wǎng)絡爬蟲網(wǎng)頁按存在方式可以分為表層網(wǎng)頁(SurfaceWeb)和深層網(wǎng)頁(DeepWeb),關于這兩類網(wǎng)頁的介紹如下。多學一招表層網(wǎng)頁是指傳統(tǒng)搜索引擎可以索引的頁面,主要以超鏈接可以到達的靜態(tài)網(wǎng)頁構成的網(wǎng)頁。深層網(wǎng)頁是指大部分內(nèi)容無法通過靜態(tài)鏈接獲取的,只能通過用戶提交一些關鍵詞才能獲取的網(wǎng)頁,如用戶注冊后內(nèi)容才可見的網(wǎng)頁。表層網(wǎng)頁與深層網(wǎng)頁網(wǎng)絡爬蟲的應用場景1.2了解網(wǎng)絡爬蟲的應用場景,能夠列舉至少3個網(wǎng)絡爬蟲的應用場景學習目標1.2網(wǎng)絡爬蟲的應用場景隨著互聯(lián)網(wǎng)信息的“爆炸”,網(wǎng)絡爬蟲漸漸為人們所熟知,并被應用到了社會生活的眾多領域。作為一種自動采集網(wǎng)頁數(shù)據(jù)的技術,很多人其實并不清楚網(wǎng)絡爬蟲具體能應用到什么場景。事實上,大多數(shù)依賴數(shù)據(jù)支撐的應用場景都離不開網(wǎng)絡爬蟲,包括搜索引擎、輿情分析與監(jiān)測、聚合平臺、出行類軟件等。1.2網(wǎng)絡爬蟲的應用場景輿情分析與監(jiān)測搜索引擎聚合平臺出行類軟件

網(wǎng)絡爬蟲的應用場景搜索引擎是通用網(wǎng)絡爬蟲最重要的應用場景之一,它會將網(wǎng)絡爬蟲作為最基礎的部分——互聯(lián)網(wǎng)信息的采集器,讓網(wǎng)絡爬蟲自動到互聯(lián)網(wǎng)中抓取數(shù)據(jù)。例如,谷歌、百度、必應等搜索引擎都是利用網(wǎng)絡爬蟲技術從互聯(lián)網(wǎng)上采集海量的數(shù)據(jù)。1.2網(wǎng)絡爬蟲的應用場景搜索引擎

網(wǎng)絡爬蟲的應用場景政府或企業(yè)通過網(wǎng)絡爬蟲技術自動采集論壇評論、在線博客、新聞媒體或微博等網(wǎng)站中的海量數(shù)據(jù),采用數(shù)據(jù)挖掘的相關方法(如詞頻統(tǒng)計、文本情感計算、主題識別等)發(fā)掘輿情熱點,跟蹤目標話題,并根據(jù)一定的標準采取相應的輿情控制與引導措施。例如,百度熱點排行榜、微博熱搜排行榜。1.2網(wǎng)絡爬蟲的應用場景

網(wǎng)絡爬蟲的應用場景輿情分析與檢測如今出現(xiàn)的很多聚合平臺,如返利網(wǎng)、慢慢買等,也是網(wǎng)絡爬蟲技術的常見的應用場景,這些平臺就是運用網(wǎng)絡爬蟲技術對一些電商平臺上的商品信息進行采集,將所有的商品信息放到自己的平臺上展示,并提供橫向數(shù)據(jù)的比較,幫助用戶尋找實惠的商品價格。例如,用戶在慢慢買平臺搜索華為智能手表后,平臺上展示了很多款華為智能手表的價格分析及價格走勢等信息。1.2網(wǎng)絡爬蟲的應用場景

網(wǎng)絡爬蟲的應用場景聚合平臺出行類軟件,比如飛豬、攜程、去哪兒等,也是網(wǎng)絡爬蟲應用比較多的場景。這類應用運用網(wǎng)絡爬蟲技術,不斷地訪問交通出行的官方售票網(wǎng)站刷新余票,一旦發(fā)現(xiàn)有新的余票便會通知用戶付款買票。不過,官方售票網(wǎng)站并不歡迎網(wǎng)絡爬蟲的這種行為,因為高頻率地訪問網(wǎng)頁極易造成網(wǎng)站出現(xiàn)癱瘓的情況。1.2網(wǎng)絡爬蟲的應用場景

網(wǎng)絡爬蟲的應用場景出行類軟件網(wǎng)絡爬蟲合法性探究1.3網(wǎng)絡爬蟲在訪問網(wǎng)站時,需要遵循“有禮貌”的原則,這樣才能與更多的網(wǎng)站建立友好關系。即便如此,網(wǎng)絡爬蟲的爬行行為仍會給網(wǎng)站增加不小的壓力,嚴重時甚至可能會影響網(wǎng)站的正常訪問。為了約束網(wǎng)絡爬蟲的惡意行為,網(wǎng)站內(nèi)部加入了一些防爬蟲措施來阻止網(wǎng)絡爬蟲。與此同時,網(wǎng)絡爬蟲也研究了防爬蟲措施的應對策略。1.3網(wǎng)絡爬蟲合法性探究熟悉網(wǎng)絡爬蟲的Robots協(xié)議,能夠說明robots.txt文件中每個選項的含義學習目標1.3.1Robots協(xié)議Robots協(xié)議又稱爬蟲協(xié)議,它是國際互聯(lián)網(wǎng)界通行的道德規(guī)范,用于保護網(wǎng)站數(shù)據(jù)和敏感信息,確保網(wǎng)站用戶的個人信息和隱私不受侵犯。為了讓網(wǎng)絡爬蟲了解網(wǎng)站的訪問范圍,網(wǎng)站管理員通常會在網(wǎng)站的根目錄下放置一個符合Robots協(xié)議的robots.txt文件,通過這個文件告知網(wǎng)絡爬蟲在抓取該網(wǎng)站時存在哪些限制,哪些網(wǎng)頁是允許被抓取的,哪些網(wǎng)頁是禁止被抓取的。

Robots協(xié)議1.3.1Robots協(xié)議當網(wǎng)絡爬蟲訪問網(wǎng)站時,應先檢查該網(wǎng)站的根目錄下是否存在robots.txt文件。若robots.txt文件不存在,則網(wǎng)絡爬蟲會訪問該網(wǎng)站上所有被口令保護的頁面;若robots.txt文件存在,則網(wǎng)絡爬蟲會按照該文件的內(nèi)容確定訪問網(wǎng)站的范圍。

robots.txt文件1.3.1Robots協(xié)議robots.txt文件中的內(nèi)容有著一套通用的寫作規(guī)范。下面以豆瓣網(wǎng)站根目錄下的robots.txt文件為例,分析robots.txt文件的語法規(guī)則。

robots.txt文件1.3.1Robots協(xié)議

豆瓣網(wǎng)站robots.txt文件1.3.1Robots協(xié)議User-agent:

*Disallow:/subject_search...Disallow:/share/Allow:/ads.txtSitemap:/sitemap_index.xmlSitemap:/sitemap_updated_index.xml#Crawl-delay:5User-agent:WandoujiaSpiderDisallow:/User-agent:Mediapartners-Google...

robots.txt文件選項說明1.3.1Robots協(xié)議User-agent:用于指定網(wǎng)絡爬蟲的名稱。若該選項的值為“*”,則說明robots.txt文件對任何網(wǎng)絡爬蟲均有效。帶有“*”號的User-agent選項只能出現(xiàn)一次。例如,示例的第一條語句User-agent:*。Disallow:用于指定網(wǎng)絡爬蟲禁止訪問的目錄。若Disallow選項的內(nèi)容為空,說明網(wǎng)站的任何內(nèi)容都是被允許訪問的。在robots.txt文件中,至少要有一個包含Disallow選項的語句。例如,Disallow:/subject_search禁止網(wǎng)絡爬蟲訪問目錄/subject_search。

robots.txt文件選項說明1.3.1Robots協(xié)議Allow:用于指定網(wǎng)絡爬蟲允許訪問的目錄。例如,Allow:/ads.txt表示允許網(wǎng)絡爬蟲訪問目錄/ads.txt。Sitemap:用于告知網(wǎng)絡爬蟲網(wǎng)站地圖的路徑。例如,Sitemap:/sitemap_index.xml和/sitemap_updated_index.xml這兩個路徑都是網(wǎng)站地圖,主要說明網(wǎng)站更新時間、更新頻率、網(wǎng)址重要程度等信息。1.3.1Robots協(xié)議Robots協(xié)議只是一個網(wǎng)站與網(wǎng)絡爬蟲之間達成的“君子”協(xié)議,它并不是計算機中的防火墻,沒有實際的約束力。如果把網(wǎng)站比作私人花園,那么robots.txt文件便是私人花園門口的告示牌,這個告示牌上寫有是否可以進入花園,以及進入花園后應該遵守的規(guī)則,但告示牌并不是高高的圍欄,它只對遵守協(xié)議的“君子”有用,對于違背協(xié)議的人而言并沒有太大的作用。盡管Robots協(xié)議沒有一定的強制約束力,但網(wǎng)絡爬蟲仍然要遵守協(xié)議,違背協(xié)議可能會存在一定的法律風險。熟悉防網(wǎng)絡爬蟲的應對策略,能夠列舉至少3個應對防網(wǎng)絡爬蟲的策略學習目標1.3.2防爬蟲應對策略1.3.2防爬蟲應對策略網(wǎng)絡爬蟲會采取一些應對策略繼續(xù)訪問網(wǎng)站,常見的應對策略包括添加User-Agent字段、降低訪問頻率、設置代理服務、識別驗證碼。添加User-Agent字段降低訪問頻率設置代理服務器識別驗證碼瀏覽器在訪問網(wǎng)站時會攜帶固定的User-Agent(用戶代理,用于描述瀏覽器的類型及版本、操作系統(tǒng)及版本、瀏覽器插件、瀏覽器語言等信息),向網(wǎng)站表明自己的真實身份。網(wǎng)絡爬蟲每次訪問網(wǎng)站時可以模仿瀏覽器的上述行為,也就是在請求網(wǎng)頁時攜帶User-Agent,將自己偽裝成一個瀏覽器,如此便可以繞過網(wǎng)站的檢測,避免出現(xiàn)被網(wǎng)站服務器直接拒絕訪問的情況。1.3.2防爬蟲應對策略添加User-Agent字段降低訪問頻率設置代理服務器識別驗證碼如果同一賬戶在較短的時間內(nèi)多次訪問了網(wǎng)頁,那么網(wǎng)站運維人員會推斷此種訪問行為可能是網(wǎng)絡爬蟲的行為,并將該賬戶加入到黑名單禁止訪問網(wǎng)站。為防止網(wǎng)站運維人員從訪問量上推斷出網(wǎng)絡爬蟲的身份,可以降低網(wǎng)絡爬蟲訪問網(wǎng)站的頻率。不過,這種方式會降低網(wǎng)絡爬蟲的爬行效率,為了彌補這個不足,我們可以適當?shù)卣{(diào)整一些操作,如讓網(wǎng)絡爬蟲每抓取一次頁面數(shù)據(jù)就休息幾秒鐘,或者限制每天抓取的頁面數(shù)據(jù)的數(shù)量。1.3.2防爬蟲應對策略添加User-Agent字段降低訪問頻率設置代理服務器識別驗證碼網(wǎng)絡爬蟲在訪問網(wǎng)站時,若反復使用同一IP地址進行訪問,則極易被網(wǎng)站認出網(wǎng)絡爬蟲的身份后進行屏蔽、阻止、封禁等。此時可以在網(wǎng)絡爬蟲和Web服務器之間設置代理服務器。有了代理服務器之后,網(wǎng)絡爬蟲會先將請求發(fā)送給代理服務器,代理服務器再轉(zhuǎn)發(fā)給服務器,這時服務器記錄的是代理服務器的IP地址,而不是網(wǎng)絡爬蟲的IP地址。1.3.2防爬蟲應對策略添加User-Agent字段降低訪問頻率設置代理服務器識別驗證碼有些網(wǎng)站在檢測到某個客戶端的IP地址訪問次數(shù)過于頻繁時,會要求該客戶端進行登錄驗證,并隨機提供一個驗證碼。為了應對這種突發(fā)情況,網(wǎng)絡爬蟲除了要輸入正確的賬戶密碼之外,還要像人類一樣通過滑動或點擊行為識別驗證碼,如此才能繼續(xù)訪問網(wǎng)站。由于驗證碼的種類較多,不同的驗證碼需要采用不同的技術進行識別,具有一定的技術難度。1.3.2防爬蟲應對策略網(wǎng)絡爬蟲的工作原理和流程1.4掌握網(wǎng)絡爬蟲的工作原理,能夠定義通用爬蟲和聚焦爬蟲的工作原理學習目標1.4.1網(wǎng)絡爬蟲的工作原理通用網(wǎng)絡爬蟲和聚焦網(wǎng)絡爬蟲是如何工作的?1.4.1網(wǎng)絡爬蟲的工作原理通用網(wǎng)絡爬蟲的采集目標是整個互聯(lián)網(wǎng)上的所有網(wǎng)頁,它會從一個或多個初始URL開始,獲取初始URL對應的網(wǎng)頁數(shù)據(jù),并不斷從該網(wǎng)頁數(shù)據(jù)中抽取新的URL放到隊列中,直至滿足一定的條件后停止。

通用網(wǎng)絡爬蟲的工作原理1.4.1網(wǎng)絡爬蟲的工作原理1.4.1網(wǎng)絡爬蟲的工作原理(1)獲取初始URL。既可以由用戶指定,也可以由待采集的初始網(wǎng)頁指定。(2)抓取頁面,并獲得新URL。根據(jù)初始URL抓取對應的網(wǎng)頁,之后將該網(wǎng)頁存儲到原始網(wǎng)頁數(shù)據(jù)庫中,并且在抓取網(wǎng)頁的同時對網(wǎng)頁內(nèi)容進行解析,并從中提取出新URL。(3)將新URL放入URL隊列。有了新URL之后,我們需要將新URL放入URL隊列中。(4)讀取新URL。從URL隊列中讀取新URL,并根據(jù)該URL獲取對應網(wǎng)頁數(shù)據(jù),同時從新網(wǎng)頁中抽取新的URL。(5)是否滿足停止條件。若網(wǎng)絡爬蟲滿足設置的停止條件,則停止采集;若網(wǎng)絡爬蟲沒有滿足設置的停止條件,則繼續(xù)根據(jù)新URL抓取對應的網(wǎng)頁,并重復步驟(2)~(5)。聚焦網(wǎng)絡爬蟲面向有特殊需求的人群,它會根據(jù)預先設定的主題順著某個垂直領域進行抓取,而不是漫無目的地隨意抓取。與通用網(wǎng)絡爬蟲相比,聚焦網(wǎng)絡爬蟲會根據(jù)一定的網(wǎng)頁分析算法對網(wǎng)頁進行篩選,保留與主題有關的網(wǎng)頁鏈接,舍棄與主題無關的網(wǎng)頁鏈接,其目的性更強。

聚焦網(wǎng)絡爬蟲的工作原理1.4.1網(wǎng)絡爬蟲的工作原理1.4.1網(wǎng)絡爬蟲的工作原理(1)根據(jù)需求確定好聚焦網(wǎng)絡爬蟲的采集目標,以及進行相關的描述。(2)獲取初始URL。(3)根據(jù)初始URL抓取頁面,并獲得新URL。(4)從新URL中過濾掉與采集目標無關的URL。(5)將過濾后的URL放到URL隊列中。(6)根據(jù)一定的抓取策略,從URL隊列中確定URL優(yōu)先級,并確定下一步要抓取的URL。(7)從下一步要抓取的URL中讀取新URL,以準備根據(jù)新URL抓取下一個網(wǎng)頁。(8)若聚焦網(wǎng)絡爬蟲滿足設置的停止條件,或沒有可獲取的URL時,停止采集;若網(wǎng)絡爬蟲沒有滿足設置的停止條件,則繼續(xù)根據(jù)新URL抓取對應的網(wǎng)頁,并重復步驟(3)~(8)。熟悉網(wǎng)絡爬蟲的工作流程,能夠歸納網(wǎng)絡爬蟲抓取網(wǎng)頁的完整流程學習目標1.4.2網(wǎng)絡爬蟲抓取網(wǎng)頁的流程(1)選擇一些網(wǎng)頁,將這些網(wǎng)頁的鏈接作為種子URL放入待抓取URL隊列中。(2)從待抓取URL隊列中依次讀取URL。(3)通過DNS解析URL,把URL地址轉(zhuǎn)換為網(wǎng)站服務器所對應的IP地址。(4)將IP地址和網(wǎng)頁相對路徑名稱交給網(wǎng)頁下載器,網(wǎng)頁下載器負責網(wǎng)頁內(nèi)容的下載。(5)網(wǎng)頁下載器將相應網(wǎng)頁的內(nèi)容下載到本地。(6)將下載到本地的網(wǎng)頁存儲到頁面庫中,同時將使用過的URL放入到已抓取的URL隊列中,避免重復抓取。(7)對于剛下載的網(wǎng)頁中抽取出所包含的URL信息。(8)在已抓取URL隊列中檢查抽取的URL是否被下載過。如果它還未被下載過,則將這個URL放入待抓取URL隊列中。如此重復(2)~(8),直到待抓取URL隊列為空。1.4.2網(wǎng)絡爬蟲抓取網(wǎng)頁的流程網(wǎng)絡爬蟲實現(xiàn)技術探究1.5了解網(wǎng)絡爬蟲的實現(xiàn)技術,能夠說出使用Python實現(xiàn)網(wǎng)絡爬蟲有哪些優(yōu)勢學習目標1.5網(wǎng)絡爬蟲實現(xiàn)技術探究為滿足用戶快速從網(wǎng)頁上采集數(shù)據(jù)的需求,市面上出現(xiàn)了一些可視化界面的網(wǎng)絡爬蟲工具,比如八爪魚采集器、火車頭采集器等。除了直接使用這些現(xiàn)成的工具之外,我們也可以開發(fā)一個自己的網(wǎng)絡爬蟲。目前,開發(fā)網(wǎng)絡爬蟲的語言主要有PHP、Go、C++、Java、Python共5種。

網(wǎng)絡爬蟲的實現(xiàn)技術1.5.1網(wǎng)絡爬蟲的實現(xiàn)技術

網(wǎng)絡爬蟲的實現(xiàn)技術1.5.1網(wǎng)絡爬蟲的實現(xiàn)技術PHPPHP語言的優(yōu)點是語法簡潔,容易上手,擁有豐富的網(wǎng)絡爬蟲功能模塊;缺點是對多線程的支持不太友好,需要借助擴展實現(xiàn)多線程技術,并發(fā)處理的能力相對較弱。GoC+Go語言的優(yōu)點是高并發(fā)能力強、開發(fā)效率高、豐富的標準庫,通過Go語言開發(fā)的網(wǎng)絡爬蟲程序性能更好;缺點是普及性不高。C++語言的優(yōu)點是運行速度快、性能強;缺點是學習成本高、代碼成型速度慢。網(wǎng)絡爬蟲的實現(xiàn)技術

網(wǎng)絡爬蟲的實現(xiàn)技術1.5.1網(wǎng)絡爬蟲的實現(xiàn)

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論