第2章數據獲取_第1頁
第2章數據獲取_第2頁
第2章數據獲取_第3頁
第2章數據獲取_第4頁
第2章數據獲取_第5頁
已閱讀5頁,還剩15頁未讀 繼續免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

《大數據技術與應用基礎》21世紀高等院校“云計算和大數據”人才培養規劃教材第2章數據獲取人民郵電出版社能力CAPACITY要求熟悉網絡爬蟲。了解爬蟲常用的方法,掌握爬蟲環境的搭建。具有良好的職業道德。爬蟲項目創建Scrapy環境搭建采集目標數據項定義爬蟲核心實現數據存儲爬蟲運行一、Scrapy環境搭建所需環境: python2.7 lxml-3.5.0 pyOpenSSL-0.13.1 pywin32-219 setuptools-0.7 twisted-15.4.0 erface-4.1.3 Scrapy-1.0搭建時,應先搭建python和其他幾個環境,最后安裝Scrapy環境。Scrapy環境搭建爬蟲項目創建采集目標數據項定義爬蟲核心實現數據存儲爬蟲運行二、爬蟲項目創建scrapystartprojectSinanewsSpider在windows命令行操作模式下:其中,SinanewsSpider為所創建的爬蟲項目的名稱。此時在相應的目錄下出現SinanewsSpider爬蟲項目。二、爬蟲項目創建我們建立一個自己的爬蟲,文件名為SinanewsSpider.py,爬蟲代碼則主要是在所建的爬蟲文件中在項目路徑下:在SinanewsSpider→SinanewsSpider路徑下,文件items.py、pipelines.py以及settings.py也是后續需要使用的到的文件。Scrapy環境搭建采集目標數據項定義爬蟲項目創建爬蟲核心實現數據存儲爬蟲運行三、采集目標數據項定義1、根據需要定義數據項(標題,內容,時間,圖片鏈接地址,網頁鏈接地址,發表時間)爬蟲實例的實現過程:(以采集新浪本地新聞為例)2、將數據存儲到數據庫在MySQL數據庫中建立數據表三、采集目標數據項定義3、根據以上數據編寫代碼:爬蟲實例的實現過程:(以采集新浪本地新聞為例)importscrappyclassSinanewsspiderItem(scrapy.Item):#定義數據項類,從crapy.Item 繼承

#definethefieldsforyouritemherelike:title=scrapy.Field()#定義標題項

content=scrapy.Field()#定義內容項

pubtime=scrapy.Field()#定義發表時間

imageUrl=scrapy.Field()#定義圖片鏈接地址

Url=scrapy.Field()#定義頁面鏈接地址定義好之后,就可以在寫爬蟲代碼時,來定義屬于這個數item類型的item對象了。Scrapy環境搭建爬蟲核心實現采集目標數據項定義爬蟲項目創建數據存儲爬蟲運行四、爬蟲核心實現#-*-coding:utf-8-*-

1fromscrapy.spidersimportSpider

2fromscrapy.selectorimportSelector

3fromscrapyimportsignals

4fromscrapy.crawlerimportCrawlerRunner

5fromjectimportget_project_settings

6fromscrapy.utils.logimportconfigure_logging

7fromscrapy.xlib.pydispatchimportdispatcher

8fromernetimportreactor

9fromtimeimportctime,sleep

10fromscrapy.spidersimportSpider

11

fromscrapy.selectorimportSelector

12fromscrapyimportsignals

13fromscrapy.crawlerimportCrawlerRunner

14fromjectimportget_project_settings

15fromscrapy.xlib.pydispatchimportdispatcher

16fromernetimportreactor

17fromitemsimportSinanewsspiderItem

18fromscrapy.httpimportRequest

19importlogging

20importMySQLdb

21importscrapy

22fromscrapy.utils.responseimportget_base_url

22fromscrapy.utils.urlimporturljoin_rfc

#以上是一些依賴包的導入

23classWikiSpider(scrapy.Spider):

/24

name="SinanewsSpider"

25

start_urls=[]

26

def__init__(self):

Scrapy框架已經幫我們定義好了基礎爬蟲,只需要從scrapy.spider繼承,并重寫相應的解析函數即可。27self.start_urls=["/news/gnxw/gdxw1/index.shtml"]

28defparse(self,response):

29forurlinresponse.xpath('//ul/li/a/@href').extract():

30yieldscrapy.Request(url,callback=self.parse_detail)

31nextLink=[]

32nextLink=response.xpath('//div[@class="pagebox"]///span[last()-1]/a/@href').extract()

33ifnextLink:

34nextLink=nextLink[0]

35nextpage=nextLink.split('./')[1]

36yieldRequest(/news/gnxw/gdxw1//+nextpage,callback=self.parse)

37defparse_detail(self,response):

38item=SinanewsspiderItem()

39item['title']=response.xpath('//h1[@id="artibodyTitle"]/text()')//.extract()[0].encode('utf-8')

40content=''

41forconinresponse.xpath('//div[@id="artibody"]/p/text()').extract():

42content=content+con

43item['content']=content.encode('utf-8')

44item['pubtime']=response.xpath('//span[@id="navtimeSource"]/text()')//.extract()[0].encode('utf-8')

45imageurl=''

46forimginresponse.xpath('//div[@id="artibody"]///div[@class="img_wrapper"]/img/@src').extract():

47imageurl=imageurl+img+'|'

48item['imageUrl']=imageurl.encode('utf-8')

49item['Url']=response.url.encode('utf-8')

50yielditem四、爬蟲核心實現分段了解代碼第1~22行為引入一些相關的依賴包;第23行定義一個爬蟲類,繼承自scrapy.spider類;第26~27行代碼為構造函數;在第27行中,對start_urls進行了初始化賦值操作,將即將需要爬取的新聞列表頁地址賦值給start_urls。代碼第28~36行定義了parse方法;第37~50行詳細說明上文中提到的parse_detail;最后第50行代碼yielditem會將保存了值的item自動推送到pipelines管道中,在pipelines管道中,我們可以對數據進行處理或者進行存儲操作。Scrapy環境搭建數據存儲采集目標數據項定義爬蟲核心實現爬蟲項目創建爬蟲運行五、數據存儲在這一節中,我們對pipelines進行介紹。我們希望將數據存儲到2.2節所定義的數據庫表中,其主要需要在pipelines.py文件中進行代碼的實現,如下所示:1importMySQLdb

2classSinanewsspiderPipeline(object):

3con=MySQLdb.connect(host='localhost',port=3306,user='root',//passwd='123456',db='sinanews',charset='utf8')

4cur=con.cursor()

5defprocess_item(self,item,spider):

6query="INSERTINTOSinaLocalNews(title,content,imageUrl,Url,pubtime)//VALUES('%s','%s','%s','%s',//trim(replace(replace(replace(left('%s',16),'年','-'),'月','-'),'日','')))"http://%(item['title'],item['content'],item['imageUrl'],item['Url'],item['pubtime'])

7self.cur.execute(query)

8mit()五、數據存儲分段了解代碼第1行中,導入MySQL相應的包。第2行代碼定義當前pipeline的類名。第3行用MySQLdb.connect建立一個數據庫連接。第4行代碼則獲取數據庫鏈接的游標。第6行,定義一條數據庫插入語句的字符串,其中%s表示接收參數值。第7,8行,做一個字符串的處理操作,因為數據庫表中定義的是日期時間型,不支持數據項提取的原始數據。寫好pipeline管道后,我們還需要將當前這個pipeline激活使用。此時,我們需要到爬蟲項目的settings.py文件中進行激活。五、數據存儲settings中主要代碼如下所示:1BOT_NAME='SinanewsSpider'

2SPIDER_MODULES=['SinanewsSpider.spiders']

3NEWSPIDER_MODULE='SinanewsSpider.spiders'

4ITEM_PIPELINES={

'SinanewsSpider.pipelines.SinanewsspiderPipeline':300,

}以上代碼中第四行括號內的參數一定要替換成在pipeline中的自己定義的pipeline類名,才能夠進行激活并使用。至此,我們已經利用Scrapy

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論