nutch1.7二次開發(fā)培訓(xùn)講義_第1頁
nutch1.7二次開發(fā)培訓(xùn)講義_第2頁
免費(fèi)預(yù)覽已結(jié)束,剩余1頁可下載查看

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

做Nutch二次開發(fā),開發(fā)階段用什么操作系統(tǒng)都可以,只要有JDKEclipse即可,源代SVN或GIT,建議采用Bitbucket免費(fèi)的私有庫托管。如果想階段性地在Hadoop集群上面試運(yùn)行,需要搭建一個Hadoop1、并解壓eclipse(集成開發(fā)環(huán)境)使用Standard版EclipseStandard4.3.2ForWindows64BitEclipseStandard4.3.2ForWindows32Bit2、安裝Subclipse插件(SVN客戶端Help>Installnewsoftware…>Add…>Name:subclipse>SubclipseandSVNKitNextNext>Iaccept…>Finish>continue?OK>restart?>Yes3、安裝IvyDE插件(依賴Help>Installnewsoftware…>Add…>Name:ivyde>>ApacheIvyLibraryandApacheIvyDEEclipsepluginsNextNextIaccept>Finishcontinue?OK>restart?>Yes4、簽出File>New>Project>SVN>從SVN檢出項目>Next>選中創(chuàng)建新的位置>Next>URL:>Next選中URLFinishNewProject向?qū)?,選擇JavaProjectNextProjectname:nutch1.7Finish確認(rèn)覆蓋5、配置文件編碼和環(huán)境變在左部PackageExplorernutch1.7PropertiesResourceTextfileencodingother值為:UTF-在左部PackageExplorer的nutch1.7文件夾上單擊右鍵>BuildPath>ConfigureBuildPath...>選中Source選項>選擇src>Remove>AddFolder...>選擇src/java,src/test和src/testresources(可選:對于插件,需要選中src/plugin 下的src/java,src/test文件夾)>OK切換到LibrariesAddClassFoldernutch1.7/confAddLibrary...>IvyDEManagedDependencies>Next>Main>IvyFile:>Project…>nutch1.7/ivy/ivy.xml>0K>Finish(可選:對于插件,還需要:AddJARs...>IvyDEManagedDependenciesNextMainIvyFileProject選中nutch1.7/src/plugin/xxx/ivy.xml>OK,把這里的xxx替換為相應(yīng)的插件名稱)切換到OrderandExport選項>選中conf>Top(重要)6、執(zhí)行ANT依賴構(gòu)建項在左部PackageExplorernutch1.7build.xmlRunAs>AntBuild>BUILDSUCCESSFUL>nutch1.7/build/apache-nutch-1.7.job在nutch1.7\runtim deploy和local,他們用于生產(chǎn)環(huán)境,跟二次開發(fā)沒什么關(guān)系,deploy依賴Hadoop,local不依賴Hadoop在左部PackageExplorernutch1.7在左部PackageExplorernutch1.7BuildPathConfigureBuildPath...>選中Libraries>AddClassFolder...>build>OK7、修改配置文nutch1.7/confnutch-site.xmlnutch1.7/conf/nutch-site.xml.template一份改名為nutch1.7/conf/nutch-site.xmlnutch1.7/conf下不存在regex-urlfilter.txtnutch1.7/conf/regex-urlfilter.txt.template一份改名為nutch1.7/conf/regex-urlfilter.txt如新增了文件,則在左部PackageExplorernutch1.7<name>db配置regex-urlfilter.txt#acceptanything 8、開發(fā)運(yùn)行調(diào)在左部PackageExplorernutch1.7NewFolderFoldername:urls在剛新建的 下新建一個文本文件url,文本內(nèi)容為打開src/javaorg.apache.nutch.crawl.Crawl.java類,單擊右鍵RunAs>JavaApplicationConsole顯示:Usage:CrawlurlDir>-solrsolrURLdirdthreadsndepthi][-N]Crawl類上重新單擊右鍵RunAsRunConfigurationsArgumentsProgramarguments輸入框中輸入urlsdirdatadepth3在windows環(huán)境中如果拋出異常Failedtosetpermissionsofpath,則需要下載修改過的hadoop,替換nutch依賴的hadoop。地址: /s/1o60QtD4,因為nutch1.7依賴的hadoop版本為1.2.0,提供下載的是1.2.1,所以將的hadoop拷貝到ivy本地庫 1.2.0,將1.2.1改為1.2.0。在需要調(diào)試的地方打上斷點DebugAsJava9、查看查看 打開src/javaorg.apache.nutch.segment.SegmentReader.java類單擊右鍵RunAs>JavaApplicaton,控制臺會輸出該命令的使用方法單擊右鍵RunAsRunConfigurationsArguments在Programarguments輸入框中輸入:-dumpdata/segments/*data/segments/dump用文本編輯器打開文件data/segments/dump/dump查看segments中的信查看 打開src/javaorg.apache.nutch.crawl.CrawlDbReader.java類單擊右鍵RunAsJavaApplicaton,控制臺會輸出該命令的使用方法單擊右鍵RunAsRunConfigurationsArguments在Programarguments輸入框中輸入:data/crawldb-statscrawldb查看 打開src/javaorg.apache.nutch.crawl.LinkDbReader.java單擊右鍵RunAsJavaApplicaton單擊右鍵RunAsRunConfigurationsArguments在Programarguments輸入框中輸入:data/linkdb-dumpdata/linkdb_dump用文本編輯器打開文件data/linkdb_dump/part-00000查看linkdb中的信10、全網(wǎng)分步驟抓取(可選在左部PackageExplorernutch1.7build.xmlRunAs>AntBuildcd/home/ysc/workspace/nutch1.7/runtime/local#準(zhǔn)備URL列表wgetgunzipcontent.rdf.u8.gzmkdirbin/nutchorg.apache.nutch.tools.DmozParsercontent.rdf.u8-subset5000>#注入bin/nutchinjectcrawl/crawldbdmozbin/nutchgeneratecrawl/crawldbcrawl/segments#第一次抓取,s1是產(chǎn)生的segments1=`ls-dcrawl/segments/2*|tail-1`echo$s1bin/nutchfetch$s1bin/nutchparse$s1#更新URL狀態(tài)bin/nutchupdatedbcrawl/crawldb#第二次抓取,生成抓取列表,s2是產(chǎn)生的segmentbin/nutchgeneratecrawl/crawldbcrawl/segments-1000s2=`ls-dcrawl/segments/2*|tail-1`echobin/nutchfetch$s2bin/nutchparse$s2bin/nutchupdatedbcrawl/crawldb#第三次抓取,生成抓取列表,s3是產(chǎn)生的segmentbin/nutchgeneratecrawl/crawldbcrawl/segments-1000s3=`ls-dcrawl/segments/2*|tail-1`echo$s3bin/nutchfetch$s3bin/nutchparse$s3bin/nutchupdatedbcrawl/crawldb$s3#生成反向庫bin/nutchinvertlinkscrawl/linkdbdircrawl/segmentsbin/nutchsolrindexdata/crawldb-linkdbdata/linkdb-dirdata/segmentsbin/crawl提供了更簡單的增量抓取11、索引和搜解壓solr,為了查看索引文件的格式,使用solr-地址: #配置solrnutch的conf 中的schema-solr4.xml文件到solr- ,覆蓋名為schema.xml的文件修改solr-4.6.1/example/solr/collection1/conf/schema.xml,在<fields><fieldname="_version_type="longindexed="truestored="true"/>中文分詞依賴的 solr-4.6.1/example/solr/lib,并將下來的壓縮文件中的3個jar文件提修改文件solr-將字段類型text_general的yzer的index和query的tokenizer分別改為和創(chuàng)建文件solr-4.6.1/example/solr/collection1/conf/ansj.conf,輸入:#啟動SOLR運(yùn)行Jar文件:solr-4.6.1/example/start.jar12、查看索引Luke(LuceneIndexToolbox):ht 將索引文件solr-4.6.1/example/solr/collection1/data/index一份到其他 除文件write.

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論