




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
Python爬蟲大數(shù)據(jù)采集與挖掘(8)
--DeepWeb爬蟲與Python實(shí)現(xiàn)《Python爬蟲大數(shù)據(jù)采集與挖掘》第二版.微課視頻版(清華大學(xué)出版社,2025)提綱相關(guān)概念DeepWeb特征和采集要求技術(shù)架構(gòu)圖書信息采集例子DeepWeb最初由Dr.JillEllsworth于1994年提出。是Web中那些未被搜索引擎收錄的頁面或站點(diǎn)也可稱為invisibleweb、hiddenweb。與其相對(duì)的是SurfaceWeb,指的是靜態(tài)頁面。DeepWeb的一些概念數(shù)據(jù)通常保存于數(shù)據(jù)庫服務(wù)器(或?qū)iT的文件系統(tǒng))中,是一種重要的大數(shù)據(jù)源。數(shù)據(jù)質(zhì)量高數(shù)據(jù)庫中的數(shù)據(jù)由于由于用戶、需求相對(duì)明確,由專人生產(chǎn)和維護(hù)信息,并且難以被復(fù)制采集DeepWeb的頁面與特定的業(yè)務(wù)過程有關(guān)DeepWeb的數(shù)據(jù)采集要考慮到數(shù)據(jù)產(chǎn)生的過程、業(yè)務(wù)流程限制以及數(shù)據(jù)語義。提綱相關(guān)概念DeepWeb特征和采集要求技術(shù)架構(gòu)圖書信息采集例子DeepWeb網(wǎng)頁應(yīng)當(dāng)滿足兩個(gè)條件一是頁面上的數(shù)據(jù)是存儲(chǔ)于數(shù)據(jù)庫、數(shù)據(jù)文件等地方,而非直接記錄在HTML頁面文件中;二是,為用戶提供一定的查詢接口,返回符合條件的記錄,并生成HTML頁面。對(duì)于DeepWeb數(shù)據(jù)采集來說,通常需要考慮以下因素:(1)對(duì)于每個(gè)記錄的屬性和屬性值,屬性名稱一般是不變的,而屬性值隨查詢結(jié)果不同而不同。(2)某個(gè)屬性在查詢結(jié)果的頁面中顯示在哪個(gè)位置可能是不固定的,甚至?xí)?jīng)常調(diào)整。(3)各個(gè)查詢條件的輸入值是需要事先確定的。提綱相關(guān)概念DeepWeb特征和采集要求技術(shù)架構(gòu)圖書信息采集例子DeepWeb的采集技術(shù)是基于動(dòng)態(tài)網(wǎng)頁采集方法。通常由用戶設(shè)定查詢條件,程序自動(dòng)將其作為請(qǐng)求的參數(shù),發(fā)送給服務(wù)器。一般情況下,可以按照動(dòng)態(tài)網(wǎng)頁的方式編寫DeepWeb采集。但考慮到DeepWeb的查詢界面、返回的數(shù)據(jù)格式經(jīng)常發(fā)生變化,為了適應(yīng)這種情況,通常加入一定的自適應(yīng)判斷。本節(jié)所介紹的技術(shù)框架和實(shí)現(xiàn),展示了這種思路。比如圖書查詢界面可能會(huì)調(diào)換查詢條件的順序,也可能會(huì)修改提示文本,例如將”ISBN”改為”ISBN號(hào)”、”作者”改為”編者”等。查詢結(jié)果也存在類似情況。這些都可能導(dǎo)致爬蟲程序失效,因此,本章考慮爬蟲的健壯性。三個(gè)功能步驟:表單搜尋、表單處理(包括分析、填寫與提交)與表單結(jié)果處理。所需的具體模塊主要包括待采集領(lǐng)域的本體知識(shí)庫模塊、表單爬取模塊、表單處理模塊以及結(jié)果分析模塊。這些模塊之間以待采集領(lǐng)域的本體知識(shí)作為采集的知識(shí)基礎(chǔ),通過表單交互的方式深入挖掘領(lǐng)域的數(shù)據(jù),并更新知識(shí)、存儲(chǔ)數(shù)據(jù)到領(lǐng)域本體知識(shí)庫。領(lǐng)域本體知識(shí)庫領(lǐng)域本體主要包括5個(gè)基本的建模元語(ModelingPrimitives):類、關(guān)系、函數(shù)、公理和實(shí)例。類也可以理解為概念的集合關(guān)系則是領(lǐng)域之中各概念之間的關(guān)聯(lián)關(guān)系,基本的關(guān)系有kind-of、part-of、instance-of和attribute-of四種函數(shù)可以視為關(guān)系之中的特殊一種,函數(shù)也可以看做流程的一種固化表達(dá)公理是領(lǐng)域中公認(rèn)的真理實(shí)例則是對(duì)象。以圖書領(lǐng)域?yàn)槔嬖趫D書分類、作者、編者、圖書名稱、ISBN、出版社、出版時(shí)間、版次、頁數(shù)、開本、印次、包裝、紙質(zhì)、叢書、摘要、內(nèi)容簡介、目錄等基本概念概念之間的關(guān)系概念的表示國際標(biāo)準(zhǔn)書號(hào)號(hào)碼由13位數(shù)字組成…在采集之前對(duì)領(lǐng)域及其中的本體需要有基本的概念,并且根據(jù)本體的建模結(jié)果進(jìn)行知識(shí)庫構(gòu)建。尋找表單尋找進(jìn)行DeepWeb數(shù)據(jù)交互的表單可以使用啟發(fā)式規(guī)則去除不符合要求的表單,一些可用的規(guī)則如下:給定一個(gè)閾值區(qū)間,如果需要填寫的字段個(gè)數(shù)超出這個(gè)區(qū)間范圍的表單就忽略或剪除對(duì)于給定的表單,如果其中含有特定類型的元素,例如密碼框則忽略該表單。將表單輸入項(xiàng)中的每個(gè)標(biāo)簽與本體知識(shí)庫進(jìn)行比較,如果不匹配的比例較大,一般也不是該領(lǐng)域的表單頁面。表單處理表單處理模塊的技術(shù)要點(diǎn)一個(gè)是能夠識(shí)別表單字段內(nèi)容另一個(gè)是能夠匹配的填寫表單的字段,也即是能夠與領(lǐng)域本體知識(shí)庫中對(duì)象屬性之間的映射關(guān)系產(chǎn)生匹配。識(shí)別過程爬蟲對(duì)表單項(xiàng)的標(biāo)簽、HTML編碼中的id、name進(jìn)行模式識(shí)別,一旦發(fā)現(xiàn)與庫中的概念相同或者接近的,則可以先與概念關(guān)聯(lián)起來。可以使用啟發(fā)式規(guī)則,規(guī)則依賴于當(dāng)前中英文的WEB表單。按照從上往下,從左往右的閱讀習(xí)慣,可以在表單字段域的左邊或者上面獲得提示信息和字段標(biāo)簽填寫表單按照字段與領(lǐng)域本體知識(shí)庫中概念相似程度進(jìn)行匹配,將本體知識(shí)庫中的屬性值作為表項(xiàng)值。由于表單項(xiàng)一般會(huì)不只一個(gè),因此在填寫表單時(shí)應(yīng)當(dāng)考慮到,優(yōu)先選擇哪個(gè)表單項(xiàng)進(jìn)行填寫。主要的目的是要確保提交的表單查詢次數(shù)盡量少,并且查詢到數(shù)據(jù)記錄之間避免重復(fù)。結(jié)果處理HTTP的返回內(nèi)容則需要進(jìn)行格式、結(jié)構(gòu)、關(guān)鍵字校驗(yàn)對(duì)返回的結(jié)果進(jìn)行自動(dòng)提取時(shí),需要將每個(gè)記錄的內(nèi)容與字段對(duì)應(yīng)起來。(1)記錄集的樣式判斷,記錄集可以按照橫向、縱向來組織,需要分析字段名稱是顯示在第一行或第一列。(2)結(jié)果集中的字段名稱與表單項(xiàng)可能不完全一致,也可能出現(xiàn)新的字段名稱,需要對(duì)字段標(biāo)簽進(jìn)行再分析。提綱相關(guān)概念DeepWeb特征和采集要求技術(shù)架構(gòu)圖書信息采集例子/advsearch確認(rèn)沒有被disallow圖書查詢目標(biāo)使用“出版社”進(jìn)行查詢自動(dòng)尋找“出版社”所在的位置(因今后版面可能調(diào)整)自動(dòng)填寫出版社名稱自動(dòng)提交命令自動(dòng)解析結(jié)果#定位input標(biāo)簽:尋找“出版社”對(duì)應(yīng)的參數(shù)名稱
input_tag_name=''
conditions=soup.select('.box2>.detail_condition>label')
print('共找到%d項(xiàng)基本條件,正在尋找input標(biāo)簽'%len(conditions))
foriteminconditions:
text=item.select('span')[0].string
iftext=='出版社':
input_tag_name=item.select('input')[0].get('name')
print('已經(jīng)找到input標(biāo)簽,name:',input_tag_name)
提交方式的分析查詢提交的表單的源代碼#圖書查詢表單<formid="form1"method="GET"action=""name="form1">...</form>method="GET"表明這個(gè)表單使用get方式提交。通過URL:對(duì)應(yīng)get方式。get提交表單會(huì)將表單內(nèi)的數(shù)據(jù)轉(zhuǎn)化為url參數(shù)進(jìn)行提交。在提交表單后,可以在瀏覽器
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025-2030中國薯?xiàng)l市場營銷模式建議與未來銷售前景規(guī)劃研究報(bào)告
- 2025年家具制造業(yè)個(gè)性化定制生產(chǎn)模式下的智能制造解決方案報(bào)告
- 三寶一券測試題及答案
- 文物拓片售賣合同協(xié)議書
- 學(xué)校建設(shè)合作合同協(xié)議書
- 凈水器合同協(xié)議書
- 便利店新零售模式下的智能化供應(yīng)鏈協(xié)同報(bào)告
- 家庭教育指導(dǎo)服務(wù)行業(yè)供需關(guān)系重構(gòu)與市場前景展望報(bào)告:2025年深度分析
- 大四法學(xué)面試題及答案
- 口腔預(yù)防科考試題及答案
- 防溺水的家長會(huì)課件
- 華電煤業(yè)集團(tuán)有限公司招標(biāo)管理辦法
- 江蘇連云港歷年中考作文題與審題指導(dǎo)(2003-2024)
- 2025-2030中國風(fēng)水機(jī)構(gòu)行業(yè)運(yùn)行狀況與企業(yè)經(jīng)營形勢分析研究報(bào)告
- 2024年中國資源循環(huán)集團(tuán)有限公司招聘筆試真題
- 2025-2030中國裝備故障預(yù)測和健康管理(PHM)行業(yè)發(fā)展現(xiàn)狀與前景預(yù)測分析研究報(bào)告
- 信息安全基礎(chǔ)試題及答案
- 肛瘺護(hù)理查房
- T-PPAC 701-2021 企業(yè)商業(yè)秘密管理規(guī)范
- 經(jīng)絡(luò)腧穴學(xué)試題庫與參考答案
- 2025年保健按摩師(高級(jí))資格認(rèn)證考試題庫(附答案)
評(píng)論
0/150
提交評(píng)論