搜索引擎爬蟲外文翻譯文獻_第1頁
搜索引擎爬蟲外文翻譯文獻_第2頁
搜索引擎爬蟲外文翻譯文獻_第3頁
搜索引擎爬蟲外文翻譯文獻_第4頁
搜索引擎爬蟲外文翻譯文獻_第5頁
已閱讀5頁,還剩9頁未讀 繼續免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

搜索引擎爬蟲外文翻譯文獻搜索引擎爬蟲外文翻譯文獻(文檔含中英文對照即英文原文和中文翻譯)譯文:探索搜索引擎爬蟲隨著網絡難以想象的急劇擴張,從Web中提取知識逐漸成為一種受歡迎的途徑。這是由于網絡的便利和豐富的信息。通常需要使用基于網絡爬行的搜索引擎來找到我們需要的網頁。本文描述了搜索引擎的基本工作任務。概述了搜索引擎與網絡爬蟲之間的聯系。關鍵詞:爬行,集中爬行,網絡爬蟲導言在網絡上WWW是一種服務,駐留在鏈接到互聯網的電腦上,并允許最終用戶訪問是用標準的接口軟件的計算機中的存儲數據。萬維網是獲取訪問網絡信息的宇宙,是人類知識的體現。搜索引擎是一個計算機程序,它能夠從網上搜索并掃描特定的關鍵字,尤其是商業服務,返回的它們發現的資料清單,抓取搜索引擎數據庫的信息主要通過接收想要發表自己作品的作家的清單或者通過“網絡爬蟲”、“蜘蛛”或“機器人”漫游互聯網捕捉他們訪問過的頁面的相關鏈接和信息。網絡爬蟲是一個能夠自動獲取萬維網的信息程序。網頁檢索是一個重要的研究課題。爬蟲是軟件組件,它訪問網絡中的樹結構,按照一定的策略,搜索并收集當地庫中檢索對象。本文的其余部分組織如下:第二節中,我們解釋了Web爬蟲背景細節。在第3節中,我們討論爬蟲的類型,在第4節中我們將介紹網絡爬蟲的工作原理。在第5節,我們搭建兩個網絡爬蟲的先進技術。在第6節我們討論如何挑選更有趣的問題。調查網絡爬蟲網絡爬蟲幾乎同網絡本身一樣古老。第一個網絡爬蟲,馬修格雷瀏覽者,寫于1993年春天,大約正好與首次發布的OCSAMosaic網絡同時發布。在最初的兩次萬維網會議上發表了許多關于網絡爬蟲的文章。然而,在當時,網絡i現在要小到三到四個數量級,所以這些系統沒有處理好當今網絡中一次爬網固有的縮放問題。顯然,所有常用的搜索引擎使用的爬網程序必須擴展到網絡的實質性部分。但是,由于搜索引擎是一項競爭性質的業務,這些抓取的設計并沒有公開描述。有兩個明顯的例外:股溝履帶式和網絡檔案履帶式。不幸的是,說明這些文獻中的爬蟲程序是太簡潔以至于能夠進行重復。原谷歌爬蟲(在斯坦福大學開發的)組件包括五個功能不同的運行流程。服務器進程讀取一個URL出來然后通過履帶式轉發到多個進程。每個履帶進程運行在不同的機器,是單線程的,使用異步I/O采用并行的模式從最多300個網站來抓取數據。爬蟲傳輸下載的頁面到一個能進行網頁壓縮和存儲的存儲服務器進程。然后這些頁面由一個索引進程進行解讀,從HTML頁面中提取鏈接并將他們保存到不同的磁盤文件中。一個URL解析器進程讀取鏈接文件,并將相對的網址進行存儲,并保存了完整的URL到磁盤文件然后就可以進行讀取了。通常情況下,因為三到四個爬蟲程序被使用,所有整個系統需要四到八個完整的系統。在谷歌將網絡爬蟲轉變為一個商業成果之后,在斯坦福大學仍然在進行這方面的研究。斯坦福WebBase項目組已實施一個高性能的分布式爬蟲,具有每秒可以下載50到100個文件的能力。Cho等人又發展了文件更新頻率的模型以報告爬行下載集合的增量。互聯網檔案館還利用多臺計算機來檢索網頁。每個爬蟲程序被分配到64個站點進行檢索,并沒有網站被分配到一個以上的爬蟲。每個單線程爬蟲程序讀取到其指定網站網址列表的種子從磁盤到每個站點的隊列,然后用異步I/O來從這些隊列同時抓取網頁。一旦一個頁面下載完畢,爬蟲提取包含在其中的鏈接。如果一個鏈接提到它被包含在頁面中的網站,它被添加到適當的站點排隊;否則被記錄在磁盤。每隔一段時間,合并成一個批處理程序的具體地點的種子設置這些記錄“跨網站”的網址,過濾掉進程中的重復項。WebFountian爬蟲程序分享了魔卡托結構的幾個特點:它是分布式的,連續,有禮貌,可配置的。不幸的是,寫這篇文章,WebFountain是在其發展的早期階段,并尚未公布其性能數據。搜索引擎基本類型基于爬蟲的搜索引擎基于爬蟲的搜索引擎自動創建自己的清單。計算機程序“蜘蛛”建立他們沒有通過人的選擇。他們不是通過學術分類進行組織,而是通過計算機算法把所有的網頁排列出來。這種類型的搜索引擎往往是巨大的,常常能取得了大齡的信息,它允許復雜的搜索范圍內搜索以前的搜索的結果,使你能夠改進搜索結果。這種類型的搜素引擎包含了網頁中所有的鏈接。所以人們可以通過匹配的單詞找到他們想要的網頁。B.人力頁面目錄這是通過人類選擇建造的,即他們依賴人類創建列表。他們以主題類別和科目類別做網頁的分類。人力驅動的目錄,永遠不會包含他們網頁所有鏈接的。他們是小于大多數搜索引擎的。C.混合搜索引擎一種混合搜索引擎以傳統的文字為導向,如谷歌搜索引擎,如雅虎目錄搜索為基礎的搜索引擎,其中每個方案比較操作的元數據集不同,當其元數據的主要資料來自一個網絡爬蟲或分類分析所有互聯網文字和用戶的搜索查詢。與此相反,混合搜索引擎可能有一個或多個元數據集,例如,包括來自客戶端的網絡元數據,將所得的情境模型中的客戶端上下文元數據倆認識這兩個機構。爬蟲的工作原理網絡爬蟲是搜索引擎必不可少的組成部分:運行一個網絡爬蟲是一個極具挑戰的任務。有技術和可靠性問題,更重要的是有社會問題。爬蟲是最脆弱的應用程序,因為它涉及到交互的幾百幾千個Web服務器和各種域名服務器,這些都超出了系統的控制。網頁檢索速度不僅由一個人的自己互聯網連接速度有關,同時也受到了要抓取的網站的速度。特別是如果一個是從多個服務器抓取的網站,總爬行時間可以大大減少,如果許多下載是并行完成。雖然有眾多的網絡爬蟲應用程序,他們在核心內容上基本上是相同的。以下是應用程序網絡爬蟲的工作過程:下載網頁通過下載的頁面解析和檢索所有的聯系對于每一個環節檢索,重復這個過程。網絡爬蟲可用于通過對完整的網站的局域網進行抓取。可以指定一個啟動程序爬蟲跟隨在HTML頁中找到所有鏈接。這通常導致更多的鏈接,這之后將再次跟隨,等等。一個網站可以被視為一個樹狀結構看,根本是啟動程序,在這根的HTML頁的所有鏈接是根子鏈接。隨后循環獲得更多的鏈接。一個網頁服務器提供若干網址清單給爬蟲。網絡爬蟲開始通過解析一個指定的網頁,標注該網頁指向其他網站頁面的超文本鏈接。然后他們分析這些網頁之間新的聯系,等等循環。網絡爬蟲軟件不實際移動到各地不同的互聯網上的電腦,而是像電腦病毒一樣通過智能代理進行。每個爬蟲每次大概打開大約300個鏈接。這是索引網頁必須的足夠快的速度。一個爬蟲互留在一個機器。爬蟲只是簡單的將HTTP請求的文件發送到互聯網的其他機器,就像一個網上瀏覽器的鏈接,當用戶點擊。所有的爬蟲事實上是自動化追尋鏈接的過程。網頁檢索可視為一個隊列處理的項目。當檢索器訪問一個網頁,它提取到其他網頁的鏈接。因此,爬蟲置身于這些網址的一個隊列的末尾,并繼續爬行到下一個頁面,然后它從隊列前面刪除。資源約束爬行消耗資源:下載頁面的帶寬,支持私人數據結構存儲的內存,來評價和選擇網址的CPU,以及存儲文本和鏈接以及其他持久性數據的磁盤存儲。B.機器人協議機器人文件給出排除一部分的網站被抓取的指令。類似地,一個簡單的文本文件可以提供有關的新鮮和出版對象的流行信息。對信息允許抓取工具優化其收集的數據刷新策略以及更換對象的政策。C.元搜索引擎一個元搜索引擎是一種沒有它自己的網頁數據庫的搜索引擎。它發出的搜索支持其他搜索引擎所有的數據庫,從所有的搜索引擎查詢并為用戶提供的結果。較少的元搜索可以讓您深入到最大,最有用的搜索引擎數據庫。他們往往返回最小或免費的搜索引擎和其他免費目錄并且通常是小和高度商業化的結果。爬行技術A:主題爬行一個通用的網絡爬蟲根據一個URL的特點設置來收集網頁。凡為主題爬蟲的設計有一個特定的主題的文件,從而減少了網絡流量和下載量。主題爬蟲的目標是有選擇地尋找相關的網頁的主題進行預先定義的設置。指定的主題不使用關鍵字,但使用示范文件。不是所有的收集和索引訪問的Web文件能夠回答所有可能的特殊查詢,有一個主題爬蟲爬行分析其抓起邊界,找到鏈接,很可能是最適合抓取相關,并避免不相關的區域的Web。這導致在硬件和網絡資源極大地節省,并有助于于保持在最新狀態的數據。主題爬蟲有三個主要組成部分一個分類器,這能夠判斷相關網頁,決定抓取鏈接的拓展,過濾器決定過濾器抓取的網頁,以確定優先訪問中心次序的措施,以及均受量詞和過濾器動態重新配置的優先的控制的爬蟲。最關鍵的評價是衡量主題爬行收獲的比例,這是在抓取過程中有多少比例相關網頁被采用和不相干的網頁是有效地過濾掉,這收獲率最高,否則主題爬蟲會花很多時間在消除不相關的網頁,而且使用一個普通的爬蟲可能會更好。B:分布式檢索檢索網絡是一個挑戰,因為它的成長性和動態性。隨著網絡規模越來越大,已經稱為必須并行處理檢索程序,以完成在合理的時間內下載網頁。一個單一的檢索程序,即使在是用多線程在大型引擎需要獲取大量數據的快速上也存在不足。當一個爬蟲通過一個單一的物理鏈接被所有被提取的數據所使用,通過分配多種抓取活動的進程可以幫助建立一個可擴展的易于配置的系統,它具有容錯性的系統。拆分負載降低硬件要求,并在同一時間增加整體下載速度和可靠性。每個任務都是在一個完全分布式的方式,也就是說,沒有中央協調器的存在。挑戰更多“有趣”對象的問題搜索引擎被認為是一個熱門話題,因為它收集用戶查詢記錄。檢索程序優先抓取網站根據一些重要的度量,例如相似性(對有引導的查詢),返回鏈接數網頁排名或者其他組合/變化最精Najork等。表明,首先考慮廣泛優先搜索收集高品質頁面,并提出一種網頁排名。然而,目前,搜索策略是無法準確選擇“最佳”路徑,因為他們的認識僅僅是局部的。由于在互聯網上可得到的信息數量非常龐大目前不可能實現全面的索引。因此,必須采用剪裁策略。主題爬行和智能檢索,是發現相關的特定主題或主題集網頁技術。結論在本文中,我們得出這樣的結論實現完整的網絡爬行覆蓋是不可能實現,因為受限于整個萬維網的巨大規模和資源的可用性。通常是通過一種閾值的設置(網站訪問人數,網站上樹的水平,與主題等規定),以限制對選定的網站上進行抓取的過程。此信息是在搜索引擎可用于存儲/刷新最相關和最新更新的網頁,從而提高檢索的內容質量,同時減少陳舊的內容和缺頁。原文:DiscussiononWebCrawlersofSearchEngineAbstract-WiththeprecipitousexpansionoftheWeb,extractingknowledgefromtheWebisbecominggraduallyimportantandpopular.ThisisduetotheWeb’sconvenienceandrichnessofinformation.TofindWebpages,onetypicallyusessearchenginesthatarebasedontheWebcrawlingframework.Thispaperdescribesthebasictaskperformedsearchengine.OverviewofhowtheWebcrawlersarerelatedwithsearchengine.KeywordsDistributedCrawling,FocusedCrawling,WebCrawlersⅠ.INTRODUCTIONWWWontheWebisaservicethatresidesoncomputersthatareconnectedtotheInternetandallowsenduserstoaccessdatathatisstoredonthecomputersusingstandardinterfacesoftware.TheWorldWideWebistheuniverseofnetwork-accessibleinformation,anembodimentofhumanknowledge.Searchengineisacomputerprogramthatsearchesforparticularkeywordsandreturnsalistofdocumentsinwhichtheywerefound,especiallyacommercialservicethatscansdocumentsontheInternet.Asearchenginefindsinformationforitsdatabasebyacceptinglistingssentitbyauthorswhowantexposure,orbygettingtheinformationfromtheir“Webcrawlers,””spiders,”or“robots,”programsthatroamtheInternetstoringlinkstoandinformationabouteachpagetheyvisit.WebCrawlerisaprogram,whichfetchesinformationfromtheWorldWideWebinanautomatedmanner.Webcrawlingisanimportantresearchissue.Crawlersaresoftwarecomponents,whichvisitportionsofWebtrees,accordingtocertainstrategies,andcollectretrievedobjectsinlocalrepositories.Therestofthepaperisorganizedas:inSection2weexplainthebackgrounddetailsofWebcrawlers.InSection3wediscussontypesofcrawler,inSection4wewillexplaintheworkingofWebcrawler.InSection5wecoverthetwoadvancedtechniquesofWebcrawlers.IntheSection6wediscusstheproblemofselectingmoreinterestingpages.Ⅱ.SURVEYOFWEBCRAWLERSWebcrawlersarealmostasoldastheWebitself.Thefirstcrawler,MatthewGray’sWanderer,waswritteninthespringof1993,roughlycoincidingwiththefirstreleaseMosaic.SeveralpapersaboutWebcrawlingwerepresentedatthefirsttwoWorldWideWebconference.However,atthetime,theWebwasthreetofourordersofmagnitudesmallerthanitistoday,sothosesystemsdidnotaddressthescalingproblemsinherentinacrawloftoday’sWeb.Obviously,allofthepopularsearchenginesusecrawlersthatmustscaleuptosubstantialportionsoftheWeb.However,duetothecompetitivenatureofthesearchenginebusiness,thedesignsofthesecrawlershavenotbeenpubliclydescribed.Therearetwonotableexceptions:theGoolecrawlerandtheInternetArchivecrawler.Unfortunately,thedescriptionsofthesecrawlersintheliteraturearetootersetoenablereproducibility.TheoriginalGooglecrawler(developedatStanford)consistedoffivefunctionalcomponentsrunningindifferentprocesses.AURLserverprocessreadURLsoutofafileandforwardedthemtomultiplecrawlerprocesses.Eachcrawlerprocessranonadifferentmachine,wassingle-threaded,andusedasynchronousI/Otofetchdatafromupto300Webserversinparallel.ThecrawlerstransmitteddownloadedpagestoasingleStoreServerprocess,whichcompressedthepagesandstoredthemtodisk.Thepagewerethenreadbackfromdiskbyanindexerprocess,whichextractedlinksfromHTMLpagesandsavedthemtoadifferentdiskfile.AURLsresolverprocessreadthelinkfile,relativetheURLscontainedtherein,andsavedtheabsoluteURLstothediskfilethatwasreadbytheURLserver.Typically,threetofourcrawlermachineswereused,sotheentiresystemrequiredbetweenfourandeightmachines.ResearchonWebcrawlingcontinuesatStanfordevenafterGooglehasbeentransformedintoacommercialeffort.TheStanfordWebBaseprojecthasimplementedahighperformancedistributedcrawler,capableofdownloading50to100documentspersecond.Choandothershavealsodevelopedmodelsofdocumentsupdatefrequenciestoinformthedownloadscheduleofincrementalcrawlers.TheInternetArchivealsousedmultiplemachinestocrawltheWeb.Eachcrawlerprocesswasassignedupto64sitestocrawl,andnositewasassignedtomorethanonecrawler.Eachsingle-threadedcrawlerprocessreadalistofseedURLsforitsassignedsitedfromdiskintper-sitequeues,andthenusedasynchronousI/Otofetchpagesfromthesequeuesinparallel.Onceapagewasdownloaded,thecrawlerextractedthelinkscontainedinit.Ifalinkreferredtothesiteofthepageitwascontainedin,itwasaddedtotheappropriatesitequeue;otherwiseitwasloggedtodisk.Periodically,abatchprocessmergedtheselogged“cross-sit”URLsintothesite--specificseedsets,filteringoutduplicatesintheprocess.TheWebFountaincrawlersharesseveralofMercator’scharacteristics:itisdistributed,continuous(theauthorsusetheterm”incremental”),polite,andconfigurable.Unfortunately,asofthiswriting,WebFountainisintheearlystagesofitsdevelopment,anddataaboutitsperformanceisnotyetavailable.Ⅲ.BASICTYPESSOFSEARCHENGINECrawlerBasedSearchEnginesCrawlerbasedsearchenginescreatetheirlistingsautomatically.Computerprograms‘spider’buildthemnotbyhumanselection.Theyarenotorganizedbysubjectcategories;acomputeralgorithmranksallpages.Suchkindsofsearchenginesarehugeandoftenretrievealotofinformation--forcomplexsearchesitallowstosearchwithintheresultsofaprevioussearchandenablesyoutorefinesearchresults.ThesetypesofsearchenginescontainfulltextoftheWebpagestheylinkto.Soonecannfindpagesbymatchingwordsinthepagesonewants;B.HumanPoweredDirectoriesThesearebuiltbyhumanselectioni.e.Theydependonhumanstocreatelistings.Theyareorganizedintosubjectcategoriesandsubjectsdoclassificationofpages.HumanpowereddirectoriesnevercontainfulltextoftheWebpagetheylinkto.Theyaresmallerthanmostsearchengines.C.HybridSearchEngineAhybridsearchenginediffersfromtraditionaltextorientedsearchenginesuchasGoogleoradirectory-basedsearchenginesuchasYahooinwhicheachprogramoperatesbycomparingasetofmetadata,theprimarycorpusbeingthemetadataderivedfromaWebcrawlerortaxonomicanalysisofallinternettext,andausersearchquery.Incontrast,hybridsearchenginemayusethesetwobodiesofmetadatainadditiontooneormoresetsofmetadatathatcan,forexample,includesituationalmetadataderivedfromtheclient’snetworkthatwouldmodelthecontextawarenessoftheclient.Ⅳ.WORKINGOFAWEBCRAWLERWebcrawlersareanessentialcomponenttosearchengines;runningaWebcrawlerisachallengingtask.Therearetrickyperformanceandreliabilityissuesandevenmoreimportantly,therearesocialissues.CrawlingisthemostfragileapplicationsinceitinvolvesinteractingwithhundredsofthousandsofWebserversandvariousnameservers,whichareallbeyondthecontrolofthesystem.Webcrawlingspeedisgovernednotonlybythespeedofone’sownInternetconnection,butalsobythespeedofthesitesthataretobecrawled.Especiallyifoneisacrawlingsitefrommultipleservers,thetotalcrawlingtimecanbesignificantlyreduced,ifmanydownloadsaredoneinparallel.DespitethenumerousapplicationsforWebcrawlers,atthecoretheyareallfundamentallythesame.FollowingistheprocessbywhichWebcrawlerswork:DownloadtheWebpage.Parsethroughthedownloadedpageandretrieveallthelinks.Foreachlinkretrieved,repeattheprocess.TheWebcrawlercanbeusedforcrawlingthroughawholesiteontheInter-/Intranet.Youspecifyastart-URLandtheCrawlerfollowsalllinksfoundinthatHTMLpage.Thisusuallyleadstomorelinks,whichwillbefollowedagain,andsoon.Asitecanbeseenasatree-structure,therootisthestart-URL;alllinksinthatroot-HTMLaredirectsonsoftheroot.Subsequentlinksarethensonsoftheprevioussons.AsingleURLServerserveslistsofURLstoanumberofcrawlers.WebcrawlerstartsbyparsingaspecifiedWebpage,notinganyhypertextlinksonthatpagethatpointtootherWebpages.Theythenparsethosepagesfornewlinks,andsoon,recursively.WebCrawlersoftwaredoesn’tactuallymovearoundtodifferentcomputersontheInternet,asvirusesorintelligentagentsdo.Eachcrawlerkeepsroughly300connectionsopenatonce.ThisisnecessarytoretrieveWebpageatafastenoughpace.Acrawlerresidesonasinglemachine.ThecrawlersimplysendsHTTPrequestsfordocumentstoothermachinesontheInternet,justasaWebbrowserdoeswhentheuserclicksonlinks.Allthecrawlerreallydoesistoautomatetheprocessoffollowinglinks.Webcrawlingcanberegardedasprocessingitemsinaqueue.WhenthecrawlervisitsaWebpage,itextractslinkstootherWebpages.SothecrawlerputstheseURLsattheendofaqueue,andcontinuescrawlingtoaURLthatitremovesfromthefrontofthequeue.ResourceConstraintsCrawlersconsumeresources:networkbandwidthtodownloadpages,memorytomaintainprivatedatastructuresinsupportoftheiralgorithms,CUPtoevaluateandselectURLs,anddiskstoragetostorethetextandlinksoffetchedpagesaswellasotherpersistentdata.B.RobotProtocolTherobot.txtfilegivesdirectivesforexcludingaportionofaWebsitetobecrawled.Analogously,asimpletextfilecanfurnishinformationaboutthefreshnessandpopularityfopublishedobjects.Thisinformationpermitsacrawlertooptimizeitsstrategyforrefreshingcollecteddataaswellasreplacingobjectpolicy.C.MetaSearchEngineAmeta-searchengineisthekindofsearchenginethatdoesnothaveitsowndatabaseofWebpages.Itsendssearchtermstothedatabasesmaintainedbyothersearchenginesandgivesuserstheresultthatcomefromallthesearchenginesqueried.Fewermetasearchersallowyoutodelveintothelargest,mostusefulsearchenginedatabases.Theytendtoreturnresultsfromsmalleradd/orsearchenginesandmiscellaneousfreedirectories,oftensmallandhighlycommercial.Ⅴ.CRAWLINGTECHNIQUESFocusedCrawlingAgeneralpurposeWebcrawlergathersasmanypagesasitcanfromaparticularsetofURL’s.Whereasafocusedcrawlerisdesignedtoonlygatherdocumentsonaspecifictopic,thusreducingtheamountofnetworktrafficanddownloads.Thegoalofthefocusedcrawleristoselectivelyseekoutpagesthatarerelevanttoapredefinedsetoftopics.Thetopicsrespecifiednotusingkeywords,butusingexemplarydocuments.RatherthancollectingandindexingallaccessibleWebdocumentstobeabletoanswerallpossiblead-hocqueries,afocusedcrawleranalyzesitscrawlboundarytofindthelinksthatarelikelytobemostrelevantforthecrawl,andavoidsirrelevantregionsoftheWeb.Thisleadstosignificantsavingsinhardwareandnetworkresources,andhelpskeepthecrawlmoreup-to-date.Thefocusedcrawlerhasthreemaincomponents;:aclassifierwhichmakesrelevancejudgmentsonpages,crawledtodecideonlinkexpansion,adistillerwhichdeterminesameasureofcentralityofcrawledpagestodeterminevisitpriorities,andacrawlerwithdynamicallyreconfigurableprioritycontrolswhichisgovernedbytheclassifieranddistiller.Themostcrucialevaluationoffocusedcrawlingistomeasuretheharvestratio,whichisrateatwhichrelevantpagesareacquiredandirrelevantpagesareeffectivelyfilteredofffromthecrawl.Thisharvestratiomustbehigh,otherwisethefocusedcrawlerwouldspendalotoftimemerelyeliminatingirrelevantpages,anditmaybebettertouseanordinarycrawlerinstead.B.DistributedCrawlingIndexingtheWebisachallengeduetoitsgrowinganddynamicnature.AsthesizeoftheWebsisgrowingithasbecomeimperativetoparallelizethecrawlingprocessinordertofinishdownloadingthepagesinareasonableamountoftime.Asinglecrawlingprocessevenifmultithreadingisusedwillbeinsufficientforlarge-scaleenginesthatneedtofetchl

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論