




版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
目錄
1引言............................................................................................................................1
1.1項目背景......................................................................................................1
1.2開發環境與工具..........................................................................................2
1.2.1Python簡介..........................................................................................2
1.2.2MySQL簡介............................................................................................2
1.2.3Jypyternotebook簡介......................................................................3
1.2.4Python第三方庫簡介..........................................................................3
1.2.5WampServer簡介................................................................................4
2需求分析....................................................................................................................4
2.1可行性需求分析..........................................................................................4
2.2采集目標功能分析......................................................................................5
2.3關鍵技術分析..............................................................................................5
2.3.1網絡爬蟲技術.......................................................................................5
2.3.2文件存取技術.......................................................................................7
2.3.3可視化技術...........................................................................................7
3數據采集....................................................................................................................8
3.1采集頁面分析..............................................................................................8
3.2字段分析......................................................................................................9
3.3編程實現......................................................................................................9
4數據清洗與處理......................................................................................................11
4.1數據清洗....................................................................................................11
4.2數據儲存....................................................................................................11
4.3編程實現....................................................................................................12
5數據統計與分析......................................................................................................13
5.1數據準備....................................................................................................13
5.2數據展示....................................................................................................14
5.2.1依據新聞發布媒體進行統計.............................................................14
I
5.2.2依據新聞內容詞云進行統計.............................................................15
5.2.3依據新聞點擊量進行統計和分析.....................................................16
5.2.4依據新聞發布地進行統計.................................................................17
5.3綜述............................................................................................................18
6小結..........................................................................................................................18
參考資料.........................................................................................................................20
II
網易新聞網站數據分析與展示
1引言
隨著信息技術的高速發展,我國社會已大邁步進入了信息時代,在我們日
常的生活中每時每刻都產生著大量的數據,然而這些數據中有的是蘊藏著大量
的價值與資源,如何發掘這些數據的價值與運用成了關鍵的問題,于是大數據
技術就應運而生了。通過大數據的采集、分析就可以清晰的展現這些數據所蘊
含的規律與潛在的價值,這些資源也可以提供給決策者,方便其更清楚的觀察
出事物的本質規律并做出正確的決策方向。
在我們平時的生活中總是會有許許多多的事情發生,然而所發生的事情必
然會伴隨著數據的產生,想要收集這些數據就要通過新聞的傳播來獲取,再分
析這些數據就可以觀察出我們日常常發生的事情與一些重大事件的關注度,便
可分析出廣大人民群眾的需求。
1.1項目背景
新聞是體現一個國家人民生活水平的鏡子,通過每日新聞的更新與每條新
聞的點擊量就可以觀察出人們平時生活中比較關注的時事,從而就可以看出人
們的生活狀態。
對于一個媒體公司,知道廣大用戶群體比較關注的新聞,以及比較感興趣
的話題是至關重要的,可以通過用戶所喜聞樂見的話題來推送相關的新聞就可
以提高用戶對本網站的點擊量及用戶黏度,從而可以更好的運營本網站。
涉及到各類新聞的信息有很多,我們首先要對網頁進行網頁解析,再來通
過python網絡爬蟲的方式來大量的獲取我們需要的數據,然后在通過可視化技
術,將這些數據轉化成一張張清晰的圖表,從而來進行觀察。
我的畢業設計是對新聞網站收集的數據進行分析和呈現的綜合工作。該項
目旨在了解大部分新聞的來源出處、內容和點擊量。數據分析將包括對熱點話
題的點擊量、用戶參與度和內容主題的分析。該項目的顯示部分將涉及創建可
視化,以有效地傳達從數據分析中獲得的見解。該項目將為新聞網站如何改以
更好地為受眾服務提供有價值的參考。
1
1.2開發環境與工具
1.2.1Python簡介
Python是荷蘭的吉多·范·羅斯姆在1989年發明并于1991年發布的。該
軟件使用方便,易于學習,所編制的程序具有簡潔、易讀、易維護的特點。Python
最初主要用于系統維護和網頁制作,但在大數據時代,以及數據挖掘、機器學
習、人工智能等技術的興起,推動了它向數據科學的方向發展。
Python也有大量的第三方模塊供用戶在數據科學領域進行工作。比如,在
數據處理和統計分析中使用了圖形、統計模型、科學模型等模塊;
用Matplotlib,Seaborn,Bokeh等模塊對數據進行可視化處理;如sklearn,
PyML,Keras,TensorFlow等,用于進行數據挖掘,深度學習等運算。
近年來,Python語言逐步成熟,眾多的開源軟件和插件極大地豐富了
Python的開發生態。這些Python開源軟件和插件涵蓋科學計算、語言處理、文
本挖掘、圖像處理等,極大地方便了開發人員進行各種開發,因此得到了越來
越多開發人員的追捧。
Python是目前最具發展潛力的一種語言,而爬行系統是獲取網絡大數據的
一種重要方式,其設計、實現與構建的恰當的爬行系統,將直接影響到整個網
絡大數據架構的集成。所以,選用Python語言來實現Internet大數據收集技
術,有一定的現實意義和必要性。
1.2.2MySQL簡介
MySQL是一種開放源代碼的關系型數據庫管理系統,因為是開放源代碼的,
在下載后可以根據自己的需求進行必要的修改。因為MySQL體積小,速度快,
成本低,尤其是它還具有開源的特性,所以很多中小型網站為了降低網站的整
體成本,都會選擇MySQL作為自己的網站的數據庫。
MySQL的海豚標識名為“sakila”,是MySQLAB的創立者從眾多“海豚命名”
比賽中推薦的名稱中挑選出來的。這個小海豚象征著這個數據庫的讀取、存取
速度以及準確的含義。MySQL由于它的開源性被廣泛傳播,也讓更多的人了解到
這個數據庫。
同時,Mysql還具有很多的優勢和特性,這使得它得到了人們的普遍認可。
源碼是開源的,沒有版權限制,具有很強的獨立性和很低的使用成本;歷史悠
久,社區和用戶十分活躍,一旦出現問題,能迅速得到幫助;該軟件具有尺寸
2
小、安裝和使用方便、維護方便、安裝和維護費用低等特點;支持多個操作系
統,多個API界面,多個開發語言。
1.2.3Jypyternotebook簡介
JupyterNotebook是基于Web技術的交互式計算文檔格式,支持Markdown
和Latex語法,支持代碼運行、文本輸入、數學公式編輯、內嵌式畫圖和其他
如圖片文件的插入等功能的對代碼友好的交互式筆記本。
JupyterNotebook是以網頁的方式打開的,你可以在這個頁面上寫代碼,
然后在這個頁面上運行,然后把運行的結果直接顯示在代碼塊下面。在這本書
中,各種互動的計算,書寫的指令文件,數學公式,圖片,以及其它豐富的媒
體信息,都以文件的形式呈現出來。這些文檔以JSON格式存儲,并以.ipynb
為后綴,不僅便于版本控制,也方便與他人共享。
JupyterNootebook的主要特征是在程序中使用語法突出顯示,縮進,標簽
填充等功能;您可以在瀏覽器中直接執行此程式碼,并將執行結果顯示在程式
碼的下方;將計算結果以豐富的媒體形式顯示出來;在編寫指令文件或聲明時,
支持標記文法;支持使用LaTex進行數學描述。
1.2.4Python第三方庫簡介
Requests庫:是用python語言編寫,比urllib更加的方便,節約工作量
且滿足HTTP測試需求。
Pandas庫:數據分析“三劍客之一”,能夠快速從不同文件中加載數據,
將其轉化成可處理的對象。
Numpy庫:支持更高維度的數組和矩陣運算,以及更豐富的數學函數
Json庫:是一種輕量級的數據交換格式,易于人閱讀和編寫。
Re庫:又稱為正則表達式庫,是python的標準庫,主要用于字符串的匹配。
MatplotlibLibrary:這是一款python2D繪制工具,用于在多個硬拷貝格
式的情況下,為用戶提供高質量的圖片。
PyechartsLibrary:這是百度開放的一種數據可視化JS庫,可以用來產生
Echarts圖。
Sqlalchemy庫:是一個python語言實現的針對關系型數據庫的orm庫,可
用于連接大多數常用的數據庫。
Wordcloud、Scipy、Jieba庫:用于生成中文的詞云圖。
3
1.2.5WampServer簡介
WampServer是一款免費的WindowsWeb開發平臺,能夠幫助用戶快速且容
易地架設屬于自己的Web服務器,允許用戶訪問數據庫,使用PHP等語言來創
建動態Web網站并進行管理。WampServer包含了Apache,MySQL和PHP的最新
版本,可以幫助用戶高效地開發和測試Web應用,幫助用戶在本地創建和管理
Web網站,由ApacheWeb服務器,MySQL數據庫和PHP等語言組成的開發環境。
它能夠安裝Apache、MySQL和PHP,并將這些服務都集中管理,使他們之間保持
同步。它也可以為所有的應用提供一個快速、安全的開發環境,幫助用戶把網
站上線更快。
同樣地,WampServer也是一款輕量級的Web服務器,它集成了Apache、
MySQL和PHP等多種網絡服務,可以幫助用戶快速架設Web服務器,節省時間。
它還能支持多種數據庫類型,可以提供安全的數據處理環境。此外,WampServer
還能為用戶提供在線更新服務,可以隨時更新最新版本的網絡服務,使網站的
運行更加穩定可靠。
2需求分析
2.1可行性需求分析
1、技術可行性
在本次項目中使用的是python這門通俗易懂的面向對像語言進行數據的
采集、數據清洗預處理和數據可視化。python在數據采集方面也是有著先天的
優勢,開發速度快捷,使用的代碼量少;擁有非常多的數據處理包;可以采集
百萬級別的數據量等。
在當今這個數據驅動的新聞時代,利用Python進行新聞網站數據分析和展
示是一個很可靠的技術方案。Python有良好的靈活性和易用性,并且是開源的,
可以大大降低成本。Python擁有一系列的數據處理和分析工具,可以幫助新聞
網站來抓取,處理和管理各種數據,而且可以通過使用統計方法進行分析,實
現數據可視化等。此外,Python也有一些優秀的工具,可以幫助新聞網站設計
及開發出更多功能,從而提升數據分析和展示的效率。總之,Python對新聞網
站分析和展示有著重要的作用,使用它可以實現有效的數據分析和展示。
2、項目可行性
每日的新聞中總是跟進當天最新的消息,比如某某科研取得最新進展,某某
4
團隊開發了最新的產品,哪個地區發生了什么事等等,通過觀察分析這些新聞
實例,不難發現其中其實是蘊藏著大量的有價值的信息,這對于企業的決策者
來說,這其中的信息就是很好的引導企業未來的走向的航標,若是能把握住這
些資源就可以實現巨大的進展。
本次項目通過采集網易新聞網站的數據,來分析不同話題新聞的發布報社網
站、各類新聞中多次提到的關鍵內容、各類新聞的點擊量以及新聞發布地的統
計數據,通過這些數據的分析來總結出有價值的信息,并將其可視化根據結果
來得出結論。
2.2采集目標功能分析
本次項目的數據來源是網易新聞網站,通過python爬蟲技術爬取網易新聞
網站中的部分信息,爬取完后大致的檢查完數據后,確定其來源確實是網易新
聞網站中的新聞信息。
通過分析網易新聞網站的網頁信息,可以確定我們需要通過網頁上的各類
新聞的導航欄來分類獲取新聞數據,需要爬取的新聞數據有新聞內容、新聞來
源、新聞發布地以及新聞點擊量,對獲取的原始數據進行預處理后,我們再來
進行不同角度的分析。例如,從新聞的點擊量,我們可以看出哪類新聞是當今
時事熱點,哪些是廣大用戶所感興趣的內容,從中我們可以看出人們對什么比
較感興趣,就可以根據這些結果來對用戶推送相關的內容。
2.3關鍵技術分析
2.3.1網絡爬蟲技術
網路爬行技術源自網路搜尋引擎,其目的是收集網路上可連結網址所指的
網頁或資源的資訊內容。爬行技術經歷了漫長的發展歷程,其應用領域日益廣
泛。當需要自動化地從因特網上收集海量的網頁時,爬蟲技術是必不可少的。
爬蟲技術的應用可以分為兩大類,分別稱為收集式爬蟲和監測型爬蟲。
收集式爬蟲是當前應用最為廣泛的一種搜索爬蟲技術。該爬行程序基于搜
索引擎爬行技術,對爬行范圍、爬行意圖等進行了不同程度的限制,并由此衍
生出了許多新的應用程序。以下列出了幾個收集爬行器的用途。
(1)Internet搜索引擎:在Internet搜索引擎中,爬行技術是其核心技術。
無論是一般的搜索引擎,還是垂直搜索引擎系統,它所擁有的大量的數據,都
來自于網絡上的各個應用,利用爬蟲技術,可以及時、全面地收集網絡上的網
5
頁信息,這樣就可以讓搜索引擎系統的數據不斷更新,更好地為用戶提供查詢
服務。
(2)網絡輿情監測:這是目前的一個熱門應用,通過對網絡上某些特定網
站的網頁進行信息提取,情感詞過濾,智能聚類分類,主題檢測,主題聚焦,
統計分析等處理,得出關于輿情態勢判斷的分析報告。目前,典型的網絡輿情
監控系統能夠實現的監控效果,都是由其對網絡信息的獲取能力決定的,具體
包含了以下幾個方面:網頁獲取時的并發能力、對靜態網頁和動態網頁的獲取
能力、實時網頁數據的獲取能力等。
(3)社會媒體的評論信息監控:伴隨著社會媒體在網絡中的廣泛使用,大
量的評論類網頁涌現出來,及時、完整地收集這些網頁,可以獲得豐富的用戶
偏好、用戶行為等信息,是個性化推薦、用戶行為研究與應用的重要依據。如
現在的各類電子商務網站上的商品購買評論的自動收集,校園BBS網頁的收集,
都是這一類。
另一類應用是監測型爬蟲,這類爬蟲不是以采集信息為主要目標,并非要
采集盡可能多的信息,而是利用爬蟲在內容采集和分析方面的能力對服務器的
信息內容進行監測,因此對爬蟲和服務器的交互能力提出了更多要求。其典型
的應用包括應用安全監測和內容安全監測。
(1)應用安全監控:在網絡信息安全中,應用層安全是一個非常重要的問
題,它與特定的應用有著非常緊密的聯系。作為網絡應用程序的主要用戶,瀏
覽器的操作主要依賴于用戶的點擊率、數據錄入,且操作過程中存在一定的安
全隱患,嚴重影響了應用程序安全監控的效率與時效性。而在此基礎上建立的
網絡爬蟲技術,將大大改善這一現狀。監控是指當爬行器獲得一個網頁后,對
網頁中所含的動態腳本的特性進行分析。SQL注入也是一種普遍存在的安全隱患,
它可以利用爬行程序對被監控的網絡服務器發出一個查詢指令,然后由返回的
結果來判定是否安全。
(2)內容安全監測:內容安全屬于網絡信息安全中的最高級別,要對敏感
信息、泄密信息等進行監測,就必須從內容的角度對其安全屬性進行分析,一
般這類信息的監測都是在當事人不知情的情況下進行的,所以,使用自動化的
爬蟲技術,并與合適的內容分析技術相結合,是一種合理的選擇。
可以預見,隨著網絡大數據在各行各業中的日益普及,爬蟲技術的應用將
從當前的以數據抓取為主,逐步走向廣泛的收集階段。
6
2.3.2文件存取技術
Python文件存取在計算機科學中占有重要地位,是一種通過編寫代碼以讀
取、寫入文件的技術,用于保存數據和內容,操作文件的常見方法稱為IO(
Input/Output)操作。對文件IO操作的強大支持,包括打開、關閉、讀取、寫
入文件。它支持多種文件格式,如CSV,XML,JSON等,也可以調用OS接口進
行文件屬性查詢與更新,支持目錄操作等。接下主要介紹Json文件存取這種方
式。
JSON(JavaScriptObjectNotation)是一種輕量級的數據交換格式,具有
簡潔、易讀性和高可傳輸率等優點。它可以用于交換兩個端點之間的文本信息
。JSON使用JavaScript對象表示法(JSOM)語法來表達數據結構,它可以通
過HTTP請求將數據發送到Web服務器。JSON文件存取技術旨在將JSON數據格
式保持在存儲中,并提供JSON文件的管理、查詢、修改和刪除等功能。這樣,
它就可以在前后端之間進行快速的數據存取。此外,JSON文件存取技術還可以
將JSON文件轉換為其他語言和JSON數據結構之間的相互轉換,從而可以與現
有的數據存儲技術和Web應用程序技術進行無縫集成。
2.3.3可視化技術
將爬取到的數據預處理后保存為json文件。想要通過該數據集直觀的觀察
出數據的規律,這時就需要采用數據可視化技術將數據轉換為可以讓人一目了
然的圖表。
可視化技術是一種利用圖形、文本、動畫和圖像等形式,將大量復雜的數
據進行可視化呈現,以便人們更快更容易理解和發現數據內隱藏的模式和特征
的技術。通過數據可視化技術,可讓人們可以使用各種形式的圖表來展示和分
析原始數據,幫助更好地掌握數據的特點和趨勢,探尋有價值的信息。
可視化技術主要有折線圖、面積圖、柱狀圖、餅圖、地圖和雷達圖等。每
種圖形都有特定的用途,根據不同的應用場景,選擇合適的可視化方法可以更
好地呈現數據。此外,數據可視化技術通過利用空間布局,節省了搜索空間,
有助于快速搜索出想要的信息。數據可視化技術受到廣泛的應用,它可以用于
數據分析、模型訓練、知識發現和精準營銷等領域。同時,數據可視化技術也
為科學發現和決策支持提供了有力工具。
本次項目就是通過第三方庫matplotlab將數據進行簡單的可視化手段來
呈現出直方圖、地圖、詞云圖、餅圖,從而可以直觀的看出數據的情況來分析
7
出有利用價值的信息,可視化技術就是將獲取到的數據通過一定的手段來清晰
的展現其中的規律,從而由此可以得到結論。
3數據采集
3.1采集頁面分析
首先進入到谷歌瀏覽器,在瀏覽器中搜索/,找到各
類新聞的導航欄標題,在網頁空白出單擊鼠標右鍵,點擊“檢查”進入到開發
者工具,找到該類新聞每條新聞的詳細信息,如圖3-1所示。
圖3-1數據網址頁面
使用全局搜索工具定位到所需數據的位置,并找到它加載該數據列表的請
求url,如圖3-2所示。
圖3-2開發者工具
8
3.2字段分析
首先我們進入到網頁并且單擊鼠標右鍵點擊“檢查”,進入到開發者工具,
然后點擊開發者工具上方的“數據預覽”,將選擇欄目定位到每類新聞的每條
新聞的內容列表,可以發現我們所需的數據信息都在這個王頁面,如圖3-1。通
過觀察分析每個div標簽下都有多個a標簽,每個div標簽都對應著每一條新
聞,而a標簽內的內容就是我們需要的字段,如新聞標題、點擊量、報社等可
以通過request的方式獲取。
定位到了相應的欄目切換至網絡面板(Network),再重新加載頁面,單
擊資源顯示該資源的頭部信息、預覽、響應信息、cookies詳情,
如圖3-2。之后我們選擇respone標簽,就可以看到我們需要爬取的數據內容就
呈現在這個網頁面,如圖3-3所示。
圖3-3分析所需數據頁面
3.3編程實現
導入所需要的庫如圖3-4所示。
圖3-4導入所需要的庫頁面
將請求頭設置一下,偽裝成瀏覽器瀏覽頁面訪問服務器,并返回成功,如
9
圖3-5所示。
圖3-5請求頭內容頁面
代碼實現如下:
importrequests
importjson
importre
importtime
list_all_url_args=['yaowen20200213','guonei','guoji','war','money','tech','hangkong','ent']
foriinrange(len(list_all_url_args)):
url=
"/special/cm_{}/?callback=data_callback".format(list_all_url_args[i])
headers={
"User-Agent":"Mozilla/5.0(WindowsNT10.0;Win64;x64)AppleWebKit/537.36
(KHTML,likeGecko)Chrome/Safari/537.36",
"Cookie":"_ntes_nnid=898b2da8ab570b6c4680361442a36ff7,1648040150853;
_ntes_nuid=36984761a4dbe94e173c1a219210d3b8;
s_n_f_l_n3=6b745ccebb8647e61667483239248;_antanalysis_s_id=1667483239746;
NTES_PC_IP=%E9%95%BF%E6%B2%99%7C%E6%B9%96%E5%8D%97;
BAIDU_SSP_lcr=/link?url=viFe-dWuRKictitdae9LYcbwmeiJAc5fJmnT7
nLB0lO&wd=&eqid=f68d21b10002b2a5000000066363c663;
__bid_n=1843dbf08e8eb984994207;
FPTOKEN=30$ZMxFtBEzt79GkES/b5BBGRkt4x5+8oK34N83VtxsQ0LqdOLXmQut/BGAx9p
qQsgLavB/MVKCHb+E/PEK368xmyanUpCi9M28DYvXFIJ0uIHv21Gxccif4iaXbtH1HFpuyehp
B2pvsgNeSju4lUsIW/+5xjLukVovOIXzNDnrqZzvovVNCTDH1hXx6YLE/LBivAaGY7T0BJv/
U+17edYGSZ2Bm79X00oqzcwdiVKPbT1KI0M/LIZvLXQrS+tfjmBBmMul9MKivB1VN8l6/+1
F7uK0UQ5ohyoOWreKkWDiBRZVDJGMcNTJlmOzcKxHoprm7cbGPzY4BAPNXwMpU2Wrs
rNlnJsz2/r6FZ8D+TchQ39pvWyUWBRJFRwvCxWWlWXs|ne+b9Yw/ruKnLqNLxy0NNx2PN9
NtNPAQMaNSLg/ZPJE=|10|382b18436cab2fcced790637b3de03f2;
ne_analysis_trace_id=1667483287942;
vinfo_n_f_l_n3=6b745ccebb8647e667483239247.0.1667483337843",
10
"Referer":"/",
}
response=requests.get(url,headers=headers)
print(response.status_code)
pattern=pile(r"(?<=data_callback\().+(?=\))",flags=re.DOTALL)
s=re.findall(pattern,response.content.decode('utf-8'))[0]
data=json.loads(s)
name_list=['要聞','國內','國外','戰爭','經濟','科技','航空','娛樂']
withopen(r"./data/{}.json".format(name_list[i]),'a+',encoding='utf-8')asfp:
json.dump(data,fp,indent=4,ensure_ascii=False)
time.sleep(3)
#withopen("國內.json",'r+',encoding='utf-8')asfp:
#data=json.load(fp)
#print(data)
4數據清洗與處理
將數據集獲取到了之后我們就要進行數據清洗和處理,數據清洗和處理就
是數據分析過程中非常重要的步驟,用于將原始數據轉換為可用于分析的數據。
首先我們要查看爬取到的數據的準確性,就是看數據中是否存在無效值和缺失
值,其次,有了這些數據,我們可以更輕松地利用數據,從而獲得有價值的信
息。
該項目中我們將數據與原來的網頁數據對比,檢查數據的準確性,看是否
出現不一致的數據。還要針對不同的情況對數據進行相應的處理。
4.1數據清洗
通過檢查之后我們發現數據中沒有存在空值或錯值,我們根據需要已經排
除了一些不需要的數據得到了這些數據,通過這些數據就可以進行后續的可視
化。
4.2數據儲存
數據存儲是將從爬蟲獲取的數據保存到某種物理介質上,以供后續使用。
在實際應用中,同一種數據可以采用不同的存儲方式,要根據需要靈活選擇存
儲介質,以滿足不同的應用需求。常見的Python爬蟲數據存儲方式包括文本存
儲,如文本文件、CSV文件等;關系型數據庫存儲,如MySQL、Oracle等;非關
11
系型數據庫存儲,如MongoDB、Redis等;圖形數據庫存儲,如Neo4j、OrientDB
等;云存儲,如AmazonS3、GoogleCloudStorage等。這次項目中我們是用的
是文本文件存儲。
4.3編程實現
導入所需要的庫,清洗并存儲,如圖4-1所示。
圖4-1清洗并存儲
查看存儲的內容是否正確,如圖4-2所示。
圖4-2查看存儲的數據
12
5數據統計與分析
5.1數據準備
打開Jupyterbook,導入需要使用的庫,加載出相應的文件,并且使用相關
的數據集,如圖5-1、5-2所示。
圖5-1數據加載頁面
圖5-2數據準備頁面
13
5.2數據展示
5.2.1依據新聞發布媒體進行統計
圖5-4數據展示頁面
如圖5-4所示,展示了前三十家新聞發布的媒體,其中環球網資訊所占的
比重最大,占據了20.1%的新聞發布數量,其次的就是網易娛樂,占據了9.7%
的數量,網易娛樂與環球資訊相差了近一倍的差距。
通過了解,環球網資訊是環球網在網易新聞網站的官方網易號,所以其中
的大部分新聞都是環球網發布的,而環球網是中國領先的國際資訊門戶,擁有獨
立采編權的中央重點新聞網站。環球網秉承環球時報的國際視野,力求及時、客
觀、權威、獨立地報道新聞,所以環球網資訊所發布的新聞都是出自于環球網這
個權威的新聞發布網站,從其中的新聞中可以得到準確的熱點話題、技術發展
動態、市場行情走勢、政策變化等有用的信息,而其中環球網資訊是是秉承環
球時報面向全國發行新聞的媒體,所以可以通過網站的新聞時事的了解到全球
的動態,可以得到權威的準確及時的發生的事件。所以面對每日實時發生的事
件,人們都會比較關注,尤其是重大事件的發生都會在國內掀起一波熱潮。網
易娛樂其中會為用戶提供免費郵箱、游戲、搜索引擎服務,開設新聞、娛樂、體
育等30多個內容頻道,及博客、視頻、論壇等互動交流,網聚人的力量,是比較
14
貼合每個的興趣愛好特點來發布相關的新聞的,所以其發布的新聞數量才會居
于第二。所以我們就可以知道,我們要實時關注國際國內所發生的重大事件,
和人們日常生活中的興趣愛好等等。
5.2.2依據新聞內容詞云進行統計
圖5-5數據展示頁面
如圖5-5所示,從詞云中我們可以看出“年”所占的詞云圖面積最大,而
當時我們全國人民都處于過年團圓的氛圍中,所以相應的新聞發布大部分的內
容都是關于年的,比如過年期間,我國的春運高峰期人流量同比與去年增長了
20.7%,從這個數據中就可以看出我國在春運期間的疫情環境要比前幾年都要好
上不少,過年的氛圍又開始慢慢的回來了,也就可以看出我國在疫情的防控、
管控、預防方面都是做的很好的,才能過讓這次的年能過回歸于以前的水平。
再觀察詞云圖我們還可以發現比較熱門的內容有中國、俄羅斯、美國這種
國際之間的新聞報導,去年俄羅斯與烏克蘭的沖突是全世界皆知,國內也是反
響熱烈,都很關注這場戰爭,想知道矛盾發展如何,關注俄羅斯的情況,同情
當地的人民處于戰爭的糾紛中,也關注著美國的動向,看美國在這次戰爭中又
有什么動作,向烏克蘭運輸大量的軍火物資,在這場戰爭中發著戰爭財。再看
詞云圖可以看到比較關注的熱門話題還有“正義回廊”、“明日戰記”這些電
影名字,由此可以看出人們對于即將上映的電影都十分期待,通過了解《明日
戰機》是國內上映古天樂導演的科幻大片,其中的特效鏡頭堪比與美國好萊塢
的科幻特效,這標志著我國科幻電影的一個標志性飛躍,所以從中可以看出未
來我國科幻電影的質量將會有質的飛躍,不再是會被人嘲諷說是科幻爛片大國,
15
因此投資電影的電影人未來可以考慮國內的科幻電影,其中有著巨大的空間。
5.2.3依據新聞點擊量進行統計和分析
圖5-6數據展示頁面
如圖5-6所示,從圖中可以看出點擊量前十的新聞標題,其中關于俄烏戰
爭的點擊量、關注度最多。
從這些點擊量排名前十的新聞標題的內容上,我們可看出人們對于國際的
動態是比較關注,尤其是關于俄羅斯、烏克蘭的情況,人們都時刻關注著兩國
之間的矛盾與情況。俄烏戰爭的導火索就是北約東擴,烏克蘭加入北約,將西
方國家的槍口架在了俄羅斯的門口,再加之兩者之間的矛盾已積蓄已久,還有
美國為代表的一些西方國家持續的給烏克蘭運輸軍火,加劇了雙方的矛盾,最
終導致戰爭爆發。所以人們對于這種國際矛盾都十分得關注,都在看著后續的
結果。
16
通過觀察前十的其他新聞標題,可以看出在國際形勢劇烈的情況下,人們
的關注聚焦點都在國際上,關于國內的新聞內容的點擊量很少,都是也可以看
出人們對于霸凌的事件也很關注,說明人們對于霸凌事件也都有自己的看法,
大部分的人都是十分的反對霸凌。因此可以知道關于國際糾紛戰爭,國內的惡
性事件都是熱門話題,都很容易引起人們的關注,所以對于新聞媒體公司就可
以知道人們對于什么樣的話題比較感興趣,就可以客觀真實的發布關于這方面
的新聞。
5.2.4依據新聞發布地進行統計
圖5-7數據展示頁面
如圖5-7所示,可以看出新聞發布最多的地方是位于我國中部地區、東部
地區與南部地區,可以看出在這些經濟發達的地
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 寵物救生與急救操作考核試卷
- 模具超聲波無損檢測技術考核試卷
- 核電站設計與建設中的質量監督與驗收標準考核試卷
- 漆器工藝品目標消費群體研究考核試卷
- 竹材采運信息化與大數據分析考核試卷
- 電磁場掃描與探測教具考核試卷
- 租賃店鋪的社區關系維護考核試卷
- 煤炭行業人才培養與引進考核試卷
- 科爾沁藝術職業學院《文化產業管理概論》2023-2024學年第二學期期末試卷
- 遼寧財貿學院《藝術市場營銷與實踐》2023-2024學年第一學期期末試卷
- 防溺水工作布置教師會議上校長講話:全力防溺水守護學生生命“生命線”
- 高一下學期《雙休時代自由時間背后暗藏殘酷篩選+你是“獵手”還是“獵物”?》主題班會
- 湖南省永州市祁陽市茅竹鎮中心學校2024-2025學年下學期期中監測八年級下冊《物理》試卷(含答案)
- 交互式影像中敘事與視覺表達的融合及其觀眾體驗研究
- 廣東省茂名市2025屆高三二模考試地理試題(含答案)
- 情緒的管理課件
- 重難點05 涉及二次函數的圖形變化類問題與二次函數有關的創新類問題(2種命題預測+77種題型匯-總+專題訓練+3種解題方法)(解析版)
- 江蘇省外國語學校2024-2025學年度高二下學期期中考試歷史試題
- 精神分裂癥個案護理匯報
- 2025年上半年福建福州市金融控股集團限公司招聘22人易考易錯模擬試題(共500題)試卷后附參考答案
- 胰島素皮下注射團體標準
評論
0/150
提交評論