Python爬蟲大數據采集與挖掘-微課視頻版-課件 第二版-7 主題爬蟲頁面采集技術與Python實現_第1頁
Python爬蟲大數據采集與挖掘-微課視頻版-課件 第二版-7 主題爬蟲頁面采集技術與Python實現_第2頁
Python爬蟲大數據采集與挖掘-微課視頻版-課件 第二版-7 主題爬蟲頁面采集技術與Python實現_第3頁
Python爬蟲大數據采集與挖掘-微課視頻版-課件 第二版-7 主題爬蟲頁面采集技術與Python實現_第4頁
Python爬蟲大數據采集與挖掘-微課視頻版-課件 第二版-7 主題爬蟲頁面采集技術與Python實現_第5頁
已閱讀5頁,還剩23頁未讀 繼續免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

Python爬蟲大數據采集與挖掘(7)

--主題爬蟲頁面采集技術與Python實現《Python爬蟲大數據采集與挖掘》第二版.微課視頻版(清華大學出版社,2025)提綱主題爬蟲的使用場景主題爬蟲技術框架主題及其表示相關度計算例子主題爬蟲也稱為聚焦爬蟲,與普通爬蟲不同,它主要采集與某些預先設定好的主題相關的Web頁面。主題爬蟲的應用場景主要有以下三大類。1.垂直搜索引擎如汽車行業、醫療行業等中的專業搜索引擎。2.網絡輿情監測網絡輿情關注于某個特定的主題,需要爬蟲對該主題的相關頁面進行抓取,其他無關的則不需要3.商業情報搜索提綱主題爬蟲的使用場景主題爬蟲技術框架主題及其表示相關度計算例子主題爬蟲在普通爬蟲的基礎上增加了主題定義、鏈接相關度估算和內容相關度計算三大技術實現。相比于普通爬蟲,主要增加的部分主題信息是主題爬蟲中最為重要的部件,它為兩個相關度計算提供衡量標準。因此,要求主題信息必須容易被用于相關度計算。在兩個相關度計算過程中,實際上隱含了某種過濾過程,也就是把不符合相關度要求的頁面過濾掉,這種決策通常是由用戶來執行,具體可體現為用戶設定相關度閾值。在主題爬蟲中,主題是核心部分,在具體實現時主題的生成和相關度的計算都需要涉及對文本內容的處理主要技術包括文本預處理、主題及實現技術、主題相關度計算等。本章后續圍繞主題模型構建及相關度計算中的主要技術進行敘述,文本預處理、高級主題建模等技術是各類爬蟲采集應用的共性技術問題,將在第十一章(主題)進行介紹。提綱主題爬蟲的使用場景主題爬蟲技術框架主題及其表示相關度計算例子一是,采用關鍵詞集來描述一個主題。如果我們想抓取與“大數據”有關的頁面,最簡單的方式就是用“大數據”這個詞匯作為主題的定義,但是不含有大數據的頁面也可能是與“大數據”相關的,例如一些討論數據挖掘技術的頁面。因此,采用關鍵詞集合描述主題時,需要盡可能完整地考慮到所關注的主題可能涉及到關鍵詞。二是,對關鍵詞集進行某種劃分,通過對子主題的描述來實現對整個主題的定義。比如對于“大數據”這個主題,可以按照交通、金融等應用領域來劃分大數據,也可以按照采集、存儲、挖掘等技術構成來劃分,從而可以產生不同的子話題。主題的定義,最終目前是要能夠方便鏈接相關度和內容相關度的計算,因此,它必須有一種比較明確的數學表達形式。根據上述兩種方式的敘述,它們所采用的數學表示方式分別敘述如下,具體的分析說明在本書的后續章節中會展開。提綱主題爬蟲的使用場景主題爬蟲技術框架主題及其表示相關度計算例子在主題爬蟲中,相關度的計算包含了鏈接相關度和內容相關度計算兩大部分。在整個主題爬蟲的處理流程中起到的作用各不相同。但是,不管是哪一個,都可以歸結為一個文本與主題模型的相似度計算問題。內容相關度對于大數據主題,我們可以定義該集合為:A={大數據、存儲、采集、挖掘、特征、爬蟲、平臺、分布式},假設有一個頁面提取得到對應的詞匯集合B={大數據、爬蟲、采集、技術},那么這兩個頁面的相關度J(A,B)=3/(8+4-3)=0.33ai,bi分別是主題向量和正文內容向量的第i個維度的權重值,n是向量空間維數。如圖7-3是余弦相關度的含義示例,這是一個兩個詞匯組成的向量空間,a、b分別是主題向量和頁面內容向量。鏈接相關度一,超鏈接的錨文本,即一個超鏈接上顯示的文字。這種文本信息一般非常有限,但是錨文本中的關鍵詞在反映真實內容方能通常具有很強的代表性。其缺點就是,錨文本一般很短,經過詞匯提取之后,通常需要進行一定的詞匯語義擴展,找到更多可能與主題相關的詞匯,這樣可以提升與已定義好的主題的鏈接相關度計算準確性。二,超鏈接周圍的錨文本,也就是某個超鏈接前后一定范圍區域內所有錨文本所構成的文本信息。這種信息在進行相關度估算時也具有一定的參考價值,這是由于WEB頁面的設計者為了增加用戶體驗度,通常會把一些內容上相似或相關度比較高的超鏈接放在一起,我們把這種現象稱為超鏈接的主題聚集性。如圖7-4,互聯網、IT等相關的鏈接被組織在一起。可以用周圍的文字來擴展某個超鏈接的錨文本。要使用此類信息,就必須對HTML結構進行一定分析,比如都是同屬于一個表格欄的,否則就不是很容易確定超鏈接的計算范圍。三,超鏈接結構信息。對于爬蟲系統來說,頁面超鏈接是不斷累積起來的,因此在爬蟲工作過程中,對于某個頁面P,可以通過已經爬行的頁面中提取出來的指向該頁面超鏈接來進行相關度的估算。這種估算會隨著爬行的頁面越多而越準確。基于這種鏈接結構的一般假設是主題相關高的頁面通常也會比較密集地鏈接在一起,因此就需要在獲取新的頁面之后對所有頁面的主題相關度重新評估。提綱主題爬蟲的使用場景主題爬蟲技術框架主題及其表示相關度計算例子#定義主題:使用關鍵詞集合方式來定義topicwords={"醫學","衛生","醫院","中山","上海醫學院","復旦"}在新聞頁面的HTML中進行文本內容的提取,這里是使用了BeautifulSoup和xpath的信息提取方法。在提取出文本之后,進行了文本的切分,獲取每個詞匯。進行了停用詞過濾,最后以詞匯出現的次數和詞匯在每個段落出現的情況來進行特征選擇,最終選擇出10個代表該頁面內容的詞匯。將這些詞匯與事先設定的主題詞匯基于Jaccard相似系數來計算頁面內容與主題的相關度。#相關度計算:topicwords和

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論