




版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
中國礦業大學計算機學院2018級本科生課程報告課程名稱信息內容安全報告題目基于python爬取攜程景點評論信息報告時間2021.7.6姓名常雨晴學號08182924任課教師曹天杰2020-2021(二)《信息內容安全》課程報告評分表序號畢業要求課程教學目標考查方式與考查點占比得分12.3目標1:掌握信息內容安全的基本概念、分類、原理和相關技術,能夠根據課程基本知識對信息內容安全領域出現的問題進行歸類、分析、并有初步分析和解決問題的能力。通過課堂講授和課堂研討掌握信息內容安全概念和理論知識。40%3.2目標2:掌握信息內容安全處理相關的理論、技術以及健全的評價體系,能夠根據具體問題分析算法、設計算法、實現算法并能綜合評價算法。24.3目標3:掌握信息內容安全的基礎知識,針對具體問題和要求選擇正確的技術路線,通過在實驗環境中進行仿真實驗并能根據算法特點進行攻擊測試和綜合性能評價,得到具有參考價值的結論。課程報告;實現有關信息內容安全的一個軟件系統。分析和對比各項技術,選擇相應的技術進行算法設計并在實驗環境中進行仿真實驗和性能評價,得到有效結論。60%總分100%評閱人:2021年7月10日報告摘要如今,人類社會已經進入了大數據時代,數據成為了必不可少的部分,如何有效地提取并利用這些數據成為一個巨大的挑戰。可見數據的獲取非常重要,傳統的通用搜索引擎作為一個輔助人們檢索信息的工具成為用戶訪問萬維網的入口和指南。但是,這些通用性搜索引擎也存在著一定的局限性。因此如果市場上沒有我們要的數據,那么就需要用爬蟲來獲得想要的數據。關鍵詞:爬蟲;可視化;詞云;
報告正文1爬蟲介紹1.1爬蟲原理網絡爬蟲是一個自動提取網頁的程序,它為搜索引擎從萬維網上下載網頁,是搜索引擎的重要組成。傳統爬蟲從一個或若干初始網頁的URL開始,獲得初始網頁上的URL,在抓取網頁的過程中,不斷從當前頁面上抽取新的URL放入隊列,直到滿足系統的一定停止條件。所有被爬蟲抓取的網頁將會被系統存貯,進行一定的分析、過濾,并建立索引,以便之后的查詢和檢索。在運行爬蟲之前,我們要知道網頁三大特征:1)網頁都有自己唯一的URL(統一資源定位符)來進行定位。2)網頁都使用HTML(超文本標記語言)來描述頁面信息。3)網頁都使用HTTP/HTTPS(超文本傳輸協議)協議來傳輸HTML數據。因此,我們在設計一個爬蟲時,首先確定要爬取的網頁URL地址,接著通過HTTP/HTTPS協議來獲取對于的HTML頁面,提取HTML里面有用的數據,如果是有用的數據,那么就保存起來,如果是頁面里有其他URL,那么就繼續獲取HTML頁面知道爬取到有用的數據。1.2爬蟲流程在本文中的爬蟲運行流程基本如下:1)發起請求:通過HTTP庫向目標站點發送一個Request,請求可以包含headers、data等信息,然后等待服務器響應。這個請求的過程就像我們打開瀏覽器,在瀏覽器地址欄輸入網址,然后點擊回車。這個過程其實就相當于瀏覽器作為一個瀏覽的客戶端,向服務器端發送了一次請求。2)獲取響應內容:如果服務器能正常響應,我們會得到一個Response,Response的內容便是所要獲取的內容,類型可能有HTML、Json字符串,二進制數據等類型。這個過程就是服務器接收客戶端的請求,進過解析發送給瀏覽器的網頁HTML文件。3)解析內容:得到的內容可能是HTML,可以使用正則表達式,網頁解析庫進行解析。也可能是Json,可以直接轉為Json對象解析。可能是二進制數據,可以做保存或者進一步處理。這一步相當于瀏覽器把服務器端的文件獲取到本地,再進行解釋并且展現出來。4)保存數據:保存的方式可以是把數據存為文本,也可以把數據保存到數據庫,或者保存為特定的jpg,mp4等格式的文件。這就相當于我們在瀏覽網頁時,下載了網頁上的圖片或者視頻。首先觀察攜程網站,點擊評論下一頁后,對瀏覽器的鏈接沒有影響,這說明數據是Ajax異步請求。F12查看評論區的具體代碼。F5刷新,打開網頁的審查因素,查看network的傳輸內容。request的方式為POST,我們可以采取最簡單的post方法。我們對URL進行篩選,篩選關鍵詞為“comment”,選擇“方法”列值為“POST”的URL。在“請求”中找到payload,就此我們得到了請求偽造的參數。2實現細節2.1請求偽造1)偽造請求報文。2)模擬服務器訪問。3)調用request包中的post方法。2.2數據篩選使用panda、json包中的函數篩選出id、景區名、用戶名、評分、評論內容、評論時間。2.3數據存儲把數據存儲在lijiang.csv文件中。2.4數據可視化使用wordcloud、jieba、matplotlib包中的函數,去除停用詞后,根據字符串出現概率繪制詞云。2.5反爬蟲措施1)1.user-agent使
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 幼兒園安全教育日主題班會
- 水利水電工程新項目評審試題及答案
- 2025年中級經濟師重要考點試題及回答
- 線護理工作總結與改進計劃
- 在c語言期末考試試題及答案
- 孵化跳水測試題及答案
- 醫療機構考試試題及答案
- 釣螃蟹面試題及答案
- 主管工作中的數據分析利用計劃
- 學校環境中的藝術裝置設計計劃
- 公路水運工程施工企業主要負責人和安全生產管理人員考核大綱和模擬試題庫1
- 《鳳凰大視野》變局1962-七千人大會真相-(全集)
- 公園維修施工組織設計方案方案
- 2024年百聯集團有限公司招聘筆試沖刺題(帶答案解析)
- 血氣分析詳解
- ISO TR 15608-2017-中英文版完整
- 家政保潔培訓課件
- 安防監控系統維保表格完整
- 服飾項目經濟效益分析報告
- 孕前和孕期保健指南版
- 2021年四川省甘孜州中考歷史真題(word版有答案)
評論
0/150
提交評論