數(shù)據(jù)新聞概論 課件 第5章 編輯室里的數(shù)據(jù)分析_第1頁(yè)
數(shù)據(jù)新聞概論 課件 第5章 編輯室里的數(shù)據(jù)分析_第2頁(yè)
數(shù)據(jù)新聞概論 課件 第5章 編輯室里的數(shù)據(jù)分析_第3頁(yè)
數(shù)據(jù)新聞概論 課件 第5章 編輯室里的數(shù)據(jù)分析_第4頁(yè)
數(shù)據(jù)新聞概論 課件 第5章 編輯室里的數(shù)據(jù)分析_第5頁(yè)
已閱讀5頁(yè),還剩46頁(yè)未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶(hù)提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

第五講:編輯室里的數(shù)據(jù)分析目錄CONTENTS數(shù)據(jù)清理數(shù)據(jù)分析數(shù)據(jù)清理和分析過(guò)程中的倫理問(wèn)題行業(yè)PPT模板/hangye/數(shù)據(jù)清理01數(shù)據(jù)清理一項(xiàng)對(duì)比數(shù)據(jù)科學(xué)家和數(shù)據(jù)記者的數(shù)據(jù)準(zhǔn)備工作的研究發(fā)現(xiàn),數(shù)據(jù)記者在接受深度訪(fǎng)談時(shí),反復(fù)提及他們?cè)谧鰯?shù)據(jù)準(zhǔn)備工作時(shí)會(huì)面臨的四個(gè)挑戰(zhàn):區(qū)域性:由于不同地區(qū)的數(shù)據(jù)收集者在收集數(shù)據(jù)時(shí)具有獨(dú)立性和空間的分散性,這導(dǎo)致相同主題的數(shù)據(jù)在不同區(qū)域結(jié)構(gòu)不一致。

歷時(shí)性:關(guān)于同一現(xiàn)象的統(tǒng)計(jì)數(shù)據(jù)可能隨著時(shí)間的演變而發(fā)生變化。

碎片化:關(guān)于相似主題的不同表格包含邏輯相關(guān)卻內(nèi)容不同的項(xiàng)目。

不同的數(shù)據(jù)集:尋找不同數(shù)據(jù)集中的關(guān)聯(lián)——找到其中相同的數(shù)據(jù)實(shí)體,是一個(gè)充滿(mǎn)不確定性的工作。KasicaS,BerretC,MunznerT.DirtyDataintheNewsroom:ComparingDataPreparationinJournalismandDataScience.CHI'23:Proceedingsofthe2023CHIConferenceonHumanFactorsinComputingSystems.(2023-04-19)[2024-01-20].https://www.cs.ubc.ca/group/infovis/pubs/2023/dirty-data-in-the-newsroom/dirty-data-in-the-newsroom.pdf.

數(shù)據(jù)清理數(shù)據(jù)清理(DataWrangling)也被稱(chēng)為數(shù)據(jù)清洗、數(shù)據(jù)補(bǔ)救或數(shù)據(jù)轉(zhuǎn)換,指把原始數(shù)據(jù)轉(zhuǎn)換為可更好地進(jìn)行分析的數(shù)據(jù)格式的一系列過(guò)程。這是我們?cè)谶M(jìn)行數(shù)據(jù)分析前一個(gè)必要的工作環(huán)節(jié)。大多數(shù)時(shí)候我們采集的數(shù)據(jù)未必是理想數(shù)據(jù),可能存在或多或少的問(wèn)題,有人形象地稱(chēng)此為“壞數(shù)據(jù)”(baddata)或“臟數(shù)據(jù)”(dirtydata)。數(shù)據(jù)清理既是采用適當(dāng)?shù)姆椒ㄌ幚頂?shù)據(jù)中存在的問(wèn)題的過(guò)程;也是對(duì)采集的數(shù)據(jù)進(jìn)行匯總整理和結(jié)構(gòu)化的過(guò)程。數(shù)據(jù)清理可以是一個(gè)人工或機(jī)器自動(dòng)完成的過(guò)程,

它包含觀察數(shù)據(jù)、結(jié)構(gòu)化數(shù)據(jù)、清洗數(shù)據(jù)、擴(kuò)充數(shù)據(jù)、驗(yàn)證數(shù)據(jù)和發(fā)布數(shù)據(jù)六個(gè)步驟。數(shù)據(jù)清理0102030405觀察數(shù)據(jù)結(jié)構(gòu)化數(shù)據(jù)清洗數(shù)據(jù)擴(kuò)充數(shù)據(jù)驗(yàn)證數(shù)據(jù)06發(fā)布數(shù)據(jù)數(shù)據(jù)清理一、觀察數(shù)據(jù)觀察數(shù)據(jù)是數(shù)據(jù)清理的第一步,指熟悉數(shù)據(jù),構(gòu)思如何使用數(shù)據(jù)的過(guò)程。這一過(guò)程中需要對(duì)數(shù)據(jù)質(zhì)量做出觀察和判斷,其中包括辨別數(shù)據(jù)呈現(xiàn)的趨勢(shì)和模式,發(fā)現(xiàn)其中存在的明顯問(wèn)題,例如數(shù)據(jù)缺失、不準(zhǔn)確的數(shù)據(jù)值等。對(duì)數(shù)據(jù)的五個(gè)新聞要素做分析,可以幫助我們發(fā)現(xiàn)數(shù)據(jù)中的問(wèn)題,明確最終需要清理的數(shù)據(jù)范圍。數(shù)據(jù)清理Who數(shù)據(jù)是誰(shuí)提供的

What你想用數(shù)據(jù)告訴人們什么

When數(shù)據(jù)是何時(shí)采集的

Why這組數(shù)據(jù)有何意義Where數(shù)據(jù)的地理屬性

數(shù)據(jù)清理二、結(jié)構(gòu)化數(shù)據(jù)結(jié)構(gòu)化數(shù)據(jù)是一個(gè)將數(shù)據(jù)轉(zhuǎn)換為可被分析的數(shù)據(jù)格式的過(guò)程,要轉(zhuǎn)換成怎樣的數(shù)據(jù)表取決于使用怎樣的分析模型來(lái)解釋數(shù)據(jù)。機(jī)器可讀的數(shù)據(jù)文件,即為了便于計(jì)算機(jī)進(jìn)行讀取和處理而生成的數(shù)據(jù)文件,而不是為了向人類(lèi)用戶(hù)展示。這些數(shù)據(jù)的結(jié)構(gòu)與其內(nèi)容相關(guān),但與數(shù)據(jù)的最終展示形式不同。常見(jiàn)的機(jī)器可讀數(shù)據(jù)文件格式包括CSV、XML、JSON和xls/xlsx文檔等等。與機(jī)器可讀的數(shù)據(jù)相反,另一類(lèi)數(shù)據(jù)文件格式側(cè)重視覺(jué)呈現(xiàn),承擔(dān)向用戶(hù)展示數(shù)據(jù)的功能,但不便于計(jì)算機(jī)讀取數(shù)據(jù)和處理分析。常見(jiàn)的側(cè)重視覺(jué)呈現(xiàn)的數(shù)據(jù)文件格式包括Word文檔、HTML網(wǎng)頁(yè)和PDF文檔。數(shù)據(jù)清理二、結(jié)構(gòu)化數(shù)據(jù)從PDF中提取數(shù)據(jù)的三種方法:通過(guò)人工復(fù)制粘貼,這種方法能簡(jiǎn)單入手,但耗時(shí)耗力,且容易導(dǎo)致數(shù)據(jù)提取不穩(wěn)定、易出差錯(cuò);采用PDF轉(zhuǎn)換器,這類(lèi)轉(zhuǎn)換軟件或在線(xiàn)轉(zhuǎn)換網(wǎng)站可以相對(duì)快捷高效地提取數(shù)據(jù),但不太方便處理批量數(shù)據(jù)提取;由程序員編寫(xiě)自動(dòng)化腳本,通過(guò)Python等程序語(yǔ)言調(diào)用轉(zhuǎn)換PDF的工具包,從而實(shí)現(xiàn)批量數(shù)據(jù)提取的任務(wù)。案例:“笨方法”做出的好新聞韓國(guó)報(bào)紙《京鄉(xiāng)新聞》發(fā)布作品《平均每天有三個(gè)工人永遠(yuǎn)不會(huì)下班》數(shù)據(jù)清理三、清洗數(shù)據(jù)清洗數(shù)據(jù)是指消除數(shù)據(jù)中存在的錯(cuò)誤,以免它們影響數(shù)據(jù)分析和數(shù)據(jù)價(jià)值。清洗數(shù)據(jù)包括刪除空白單元格或行/列,移除異常值,使所有輸入都標(biāo)準(zhǔn)化。這個(gè)過(guò)程的目標(biāo)是確保數(shù)據(jù)中不會(huì)有影響分析的差錯(cuò)。識(shí)別和消除任何影響數(shù)據(jù)清理后續(xù)過(guò)程的壞數(shù)據(jù)。參考Quartz網(wǎng)站發(fā)布的《壞數(shù)據(jù)指南》你怎么看:在計(jì)算機(jī)科學(xué)領(lǐng)域,有一句俗語(yǔ)“Garbagein,garbageout”,指輸入垃圾數(shù)據(jù)會(huì)導(dǎo)致垃圾結(jié)果,你如何理解這種觀點(diǎn)?數(shù)據(jù)清理三、清洗數(shù)據(jù)清洗數(shù)據(jù)時(shí)需要注意的事項(xiàng):做好數(shù)據(jù)備份,另存數(shù)據(jù)并合理命名備份存檔。檢查數(shù)據(jù)是否完整、規(guī)范、一致,尤其是手動(dòng)錄入、匯總的數(shù)據(jù)。檢查是否有合并單元格,如果有合并單元格需將其拆分、并做好數(shù)據(jù)填充。檢查是否有異常值:包括重復(fù)值、錯(cuò)誤值、空白行、列/單元格等。檢查數(shù)據(jù)格式是否正確、一致:如文本、數(shù)字、日期應(yīng)對(duì)應(yīng)相應(yīng)的格式。對(duì)缺失的數(shù)據(jù)進(jìn)行填補(bǔ),包括單元格的空值和零值的處理。“整潔的數(shù)據(jù)”應(yīng)該符合三個(gè)規(guī)則:每一列是一個(gè)變量;每一行代表一個(gè)觀測(cè)值/記錄;不要把不同類(lèi)型的數(shù)據(jù)堆在一個(gè)數(shù)據(jù)表里面。(WickhamH,RStudio.TidyData.JournalofStatisticalSoftware.2014,59(10),1-23.DOI:10.18637/jss.v059.i10.

)數(shù)據(jù)清理四、擴(kuò)充數(shù)據(jù)判斷數(shù)據(jù)是否足以做分析,如果不夠充足,則需要從其他數(shù)據(jù)集中找相應(yīng)的數(shù)值來(lái)填充和擴(kuò)展數(shù)據(jù)。案例:RUC新聞坊的作品《暴雨再襲,臺(tái)風(fēng)對(duì)華北、東北影響在加劇嗎?》

數(shù)據(jù)清理五、驗(yàn)證數(shù)據(jù)進(jìn)一步檢查在前面所完成的數(shù)據(jù)準(zhǔn)備階段的工作,確認(rèn)數(shù)據(jù)是否一致,質(zhì)量是否足夠且安全。數(shù)據(jù)驗(yàn)證可以通過(guò)機(jī)器或人工來(lái)完成。常見(jiàn)的數(shù)據(jù)驗(yàn)證類(lèi)型包括以下幾種:數(shù)據(jù)類(lèi)型驗(yàn)證:確認(rèn)每個(gè)字段、列、列表、范圍或文件中的數(shù)據(jù)與指定的數(shù)據(jù)類(lèi)型和格式匹配。

約束驗(yàn)證:檢查給定的數(shù)據(jù)字段輸入是否符合特定范圍內(nèi)的指定要求。例如,它驗(yàn)證數(shù)據(jù)字段是否具有最小或最大字符數(shù)。

結(jié)構(gòu)化驗(yàn)證:確保數(shù)據(jù)符合指定的數(shù)據(jù)格式、結(jié)構(gòu)或模式。

一致性驗(yàn)證:確保數(shù)據(jù)樣式一致。例如,它確認(rèn)所有值均保留兩位小數(shù)。

代碼驗(yàn)證:類(lèi)似于一致性檢查,并確認(rèn)用于不同數(shù)據(jù)輸入的代碼是正確的。例如,檢查國(guó)家/地區(qū)代碼。(KernerSM.DataValidation.(2022-01)[2023-12-13],/searchdatamanagement/definition/data-validation.)數(shù)據(jù)清理六、發(fā)布數(shù)據(jù)經(jīng)過(guò)驗(yàn)證后的數(shù)據(jù)就可以發(fā)布了,這里的發(fā)布數(shù)據(jù)不是指直接對(duì)公眾發(fā)布,而是將數(shù)據(jù)提供給機(jī)構(gòu)內(nèi)的其他人進(jìn)行分析。在數(shù)據(jù)清理階段,數(shù)據(jù)科學(xué)家或數(shù)據(jù)記者需要采用機(jī)構(gòu)內(nèi)合適的共享格式來(lái)發(fā)布數(shù)據(jù),例如,有些機(jī)構(gòu)采用在線(xiàn)電子表格的方式進(jìn)行項(xiàng)目?jī)?nèi)不同人員的共享。

數(shù)據(jù)分析02數(shù)據(jù)分析統(tǒng)計(jì)分析大數(shù)據(jù)分析新聞編輯室里的數(shù)據(jù)分析包含兩大類(lèi):一類(lèi)是采用社會(huì)統(tǒng)計(jì)學(xué)領(lǐng)域的數(shù)據(jù)分析方法所做的處理和分析,另一類(lèi)則是采用將傳統(tǒng)的數(shù)據(jù)分析方法與處理大量數(shù)據(jù)的復(fù)雜算法相結(jié)合的數(shù)據(jù)挖掘(datamining)方法所做的大數(shù)據(jù)分析。

數(shù)據(jù)分析一、新聞中常見(jiàn)的統(tǒng)計(jì)學(xué)概念與統(tǒng)計(jì)分析方法統(tǒng)計(jì)學(xué)是應(yīng)用數(shù)學(xué)的一個(gè)分支,是收集、分析、表述和解釋數(shù)據(jù)的科學(xué)。統(tǒng)計(jì)分析分為統(tǒng)計(jì)描述和統(tǒng)計(jì)推論兩類(lèi),統(tǒng)計(jì)描述是指將所觀察的數(shù)據(jù)、資料,進(jìn)行整理、歸納和分析,以期找出某種規(guī)律。而統(tǒng)計(jì)推論則指根據(jù)不完全數(shù)據(jù)對(duì)全體做出正確推論的方法,它要求根據(jù)統(tǒng)計(jì)資料的統(tǒng)計(jì)規(guī)律性,運(yùn)用概率論,正確地從局部推論到整體。(盧淑華.社會(huì)統(tǒng)計(jì)學(xué)(第五版).北京:北京大學(xué)出版社.2021,16-20.

數(shù)據(jù)分析(一)統(tǒng)計(jì)描述在數(shù)據(jù)新聞中的應(yīng)用統(tǒng)計(jì)描述可以提供關(guān)于一組定量數(shù)據(jù)特征的簡(jiǎn)單描述,在數(shù)據(jù)新聞中,常用的統(tǒng)計(jì)方法有頻次分布、集中趨勢(shì)測(cè)量法、離散趨勢(shì)測(cè)量法和相關(guān)等。1.頻次分布(frequencydistribution)社會(huì)統(tǒng)計(jì)學(xué)里的頻次分布指一個(gè)概念或變量的全部取值及其頻次的集合。例如,將一組變量分為不同組段,然后將各組段對(duì)應(yīng)的觀察值歸納到各組段中,最后清點(diǎn)各組段觀察值個(gè)數(shù)(頻次),就可以形成該變量的頻次分布。傷亡類(lèi)型人數(shù)輕傷890重傷396死亡1106數(shù)據(jù)來(lái)源:《中國(guó)林業(yè)統(tǒng)計(jì)年鑒》統(tǒng)計(jì)時(shí)段:1998-2017年表:森林火災(zāi)人員傷亡統(tǒng)計(jì)表數(shù)據(jù)分析與頻次分布相關(guān)的概念百分比(percent)相對(duì)數(shù)中的一種,所謂相對(duì)數(shù),即表示一個(gè)數(shù)是另一個(gè)數(shù)的百分之幾,也稱(chēng)為百分率或百分?jǐn)?shù)。只有明確基數(shù)的百分比才具有意義,如果不知道具體的基數(shù)是多少,百分比數(shù)據(jù)就缺乏了可參照的基礎(chǔ)。

百分點(diǎn)一個(gè)很容易與百分比混淆的概念,它指不同時(shí)期以百分?jǐn)?shù)的形式表示的相對(duì)指標(biāo)的變化幅度,1個(gè)百分點(diǎn)=1%。

百分比變化用新數(shù)值減去舊數(shù)值,所得的差再除以舊數(shù)值,就得到了百分比變化。百分比變化能夠讓讀者清楚地了解到數(shù)值隨著時(shí)間的發(fā)展產(chǎn)生了怎樣的變化趨勢(shì)。環(huán)比和同比是兩個(gè)常見(jiàn)的不同的描述百分比變化的術(shù)語(yǔ)。數(shù)據(jù)分析(一)統(tǒng)計(jì)描述在數(shù)據(jù)新聞中的應(yīng)用正態(tài)分布是變量概率分布的一種形態(tài),在平均值中央點(diǎn)的概率最高,兩側(cè)的概率逐漸降低,其曲線(xiàn)圖形類(lèi)似鐘形。正態(tài)分布又稱(chēng)常態(tài)分布,這是我們身邊很多現(xiàn)象的正常狀態(tài)。例如人們身高、體重、智力水平的分布,都呈現(xiàn)出正態(tài)分布的趨勢(shì)。

正態(tài)分布可以用來(lái)檢驗(yàn)數(shù)據(jù)是否合理。如果依照常識(shí),某組數(shù)據(jù)理應(yīng)出現(xiàn)正態(tài)分布,但實(shí)際數(shù)據(jù)卻并不吻合,這時(shí)就需要數(shù)據(jù)記者、編輯對(duì)數(shù)據(jù)展開(kāi)核查,首先核查是否在數(shù)據(jù)整理分析的過(guò)程中出現(xiàn)了差錯(cuò),如確認(rèn)無(wú)誤,則需要調(diào)查是何原因?qū)е逻@組數(shù)據(jù)出現(xiàn)了異常情況,或許這些異常背后就蘊(yùn)含著新聞。

數(shù)據(jù)分析案例:從正態(tài)分布圖中發(fā)現(xiàn)網(wǎng)戀的身高謊言克里斯蒂·魯?shù)拢–hristianRudder)的作品《有關(guān)網(wǎng)戀的大謊言》(TheBigLiesPeopleTellinOnlineDating)

數(shù)據(jù)分析案例:從正態(tài)分布圖中發(fā)現(xiàn)網(wǎng)戀的身高謊言數(shù)據(jù)分析2.集中趨勢(shì)(Centraltendency)也被稱(chēng)為集中值,指用某一個(gè)典型的變量值或特征值來(lái)代表變量的全貌。與集中趨勢(shì)相關(guān)的統(tǒng)計(jì)概念包括以下三個(gè):均值(mean,即平均數(shù)):是最常用到的統(tǒng)計(jì)量,表示某變量的所有變量值的集中趨勢(shì)或平均水平,它適用于分析定距變量。中位值(median):如果一組數(shù)據(jù)中恰好使累積概率取1/2的變量值,即將一組數(shù)據(jù)按大小排列,取最中間的那個(gè)數(shù)值,這就是中位值或中位數(shù)。

眾值(mode):指在一組數(shù)據(jù)中出現(xiàn)頻次最高的數(shù)值。眾值適用于分析定類(lèi)、定序和定距變量。

(一)統(tǒng)計(jì)描述在數(shù)據(jù)新聞中的應(yīng)用數(shù)據(jù)分析3.離散趨勢(shì)(Dispersiontendency)

離散趨勢(shì)是指一組數(shù)據(jù)背離分布集中值的特征,反映了各變量值遠(yuǎn)離其集中值的程度。離散趨勢(shì)可以通過(guò)異眾比率(非眾數(shù)組的頻數(shù)占總頻數(shù)的比率)、極差(觀察的最大值與觀察的最小值的差數(shù))、四分互差(用75%位點(diǎn)數(shù)據(jù)和25%位點(diǎn)數(shù)據(jù)相減而得的差數(shù))、方差與標(biāo)準(zhǔn)差來(lái)測(cè)量。方差(variance)是各個(gè)數(shù)據(jù)與平均值之差的平方和的平均值,表示一系列數(shù)據(jù)或統(tǒng)計(jì)總體的分布特征的值。標(biāo)準(zhǔn)差(standarddeviation)也稱(chēng)均方差,是各數(shù)據(jù)偏離平均值的距離的平均值,它是方差的算術(shù)平方根。

(一)統(tǒng)計(jì)描述在數(shù)據(jù)新聞中的應(yīng)用數(shù)據(jù)分析案例數(shù)據(jù)分析統(tǒng)計(jì)推論是指根據(jù)樣本數(shù)據(jù)去推斷總體數(shù)據(jù)特征的統(tǒng)計(jì)分析方法。統(tǒng)計(jì)推論大體可分為兩部分:一是通過(guò)樣本對(duì)總體的未知參數(shù)進(jìn)行估計(jì),簡(jiǎn)稱(chēng)參數(shù)估計(jì)(parameterestimation);二是通過(guò)樣本對(duì)總體的某種假設(shè)(例如參數(shù)或分布情況)進(jìn)行檢驗(yàn),簡(jiǎn)稱(chēng)假設(shè)檢驗(yàn)(hypothesistest)

(二)統(tǒng)計(jì)推論在數(shù)據(jù)新聞中的應(yīng)用數(shù)據(jù)分析1.參數(shù)估計(jì)

參數(shù)估計(jì)可以細(xì)分為點(diǎn)估計(jì)和區(qū)間估計(jì),其中點(diǎn)估計(jì)是用樣本計(jì)算出來(lái)的一個(gè)數(shù)來(lái)估計(jì)未知參數(shù),而區(qū)間估計(jì)則是通過(guò)樣本計(jì)算出一個(gè)范圍來(lái)對(duì)參數(shù)進(jìn)行估計(jì)。一般的,點(diǎn)估計(jì)的精度較難判斷,而區(qū)間估計(jì)則既要給出一定的參數(shù)區(qū)間,還要求給出所給區(qū)間未知參數(shù)的概率。

置信度也被稱(chēng)為置信概率、置信系數(shù),指以測(cè)量為中心,在一定范圍內(nèi),真值出現(xiàn)在該范圍內(nèi)的幾率。置信度表示用置信區(qū)間估計(jì)的可靠性,一般置信度是根據(jù)實(shí)際情況預(yù)先被設(shè)定的,常給定為0.95。置信區(qū)間指在某一置信度下,以測(cè)量值為中心,真值出現(xiàn)的范圍,即一定概率下真值出現(xiàn)的取值范圍,這里的概率就是置信度。

與置信度相關(guān),顯著性水平表示的是用置信區(qū)間估計(jì)不可靠的概率。置信度和顯著性水平之和為1,因而假設(shè)給定的置信度為0.95,那么就意味著顯著性水平為0.05。(二)統(tǒng)計(jì)推論在數(shù)據(jù)新聞中的應(yīng)用數(shù)據(jù)分析2.假設(shè)檢驗(yàn)統(tǒng)計(jì)學(xué)意義上的假設(shè)檢驗(yàn)是指“經(jīng)過(guò)抽樣獲得一組數(shù)據(jù),即一個(gè)來(lái)自總體的(隨機(jī))樣本,如果根據(jù)樣本計(jì)算的某個(gè)統(tǒng)計(jì)量(或幾個(gè)統(tǒng)計(jì)量)表明在原假設(shè)H0成立的條件下幾乎是不可能發(fā)生的,就拒絕或否定這個(gè)原假設(shè),并繼而接受它的對(duì)立面——備擇假設(shè)。反之,如果在原假設(shè)H0成立的條件下,根據(jù)樣本所計(jì)算的某個(gè)統(tǒng)計(jì)量發(fā)生的可能性不是很小的話(huà),那么就接受原假設(shè)。”

這里H0也被稱(chēng)為“零假設(shè)”,而顯著性水平α是在零假設(shè)成立條件下,統(tǒng)計(jì)檢驗(yàn)中所規(guī)定的小概率的標(biāo)準(zhǔn),即規(guī)定小概率的數(shù)量界線(xiàn),常用的標(biāo)準(zhǔn)為α=0.10、α=0.05或α=0.01。p值是根據(jù)樣本計(jì)算得出的概率,如果p值小于α,說(shuō)明零假設(shè)被拒絕,繼而接受備擇假設(shè);反之則原假設(shè)成立。(二)統(tǒng)計(jì)推論在數(shù)據(jù)新聞中的應(yīng)用數(shù)據(jù)分析案例數(shù)據(jù)分析數(shù)據(jù)挖掘出現(xiàn)于20世紀(jì)80年代,指“通過(guò)仔細(xì)分析大量數(shù)據(jù)來(lái)揭示有意義的新的關(guān)系、趨勢(shì)和模式的過(guò)程”。它是一種將傳統(tǒng)的數(shù)據(jù)分析方法與處理大量數(shù)據(jù)的復(fù)雜算法相結(jié)合的技術(shù),是在大型數(shù)據(jù)存儲(chǔ)庫(kù)中自動(dòng)地發(fā)現(xiàn)信息的過(guò)程。

(王光宏,蔣平.數(shù)據(jù)挖掘綜述.同濟(jì)大學(xué)學(xué)報(bào).2004(2).)數(shù)據(jù)挖掘吸納了多個(gè)學(xué)科的給養(yǎng),不僅利用了來(lái)自統(tǒng)計(jì)學(xué)的抽樣、估計(jì)和假設(shè)檢驗(yàn)等思維與工具,還包括了人工智能、模式識(shí)別和機(jī)器學(xué)習(xí)的摸索算法、建模技術(shù)和學(xué)習(xí)理論,并借助于數(shù)據(jù)庫(kù)技術(shù)、并行計(jì)算、分布式計(jì)算等領(lǐng)域的最新成果發(fā)展而成。(

TanP-N,SteinbachM,KumarV.數(shù)據(jù)挖掘?qū)д?完整版).范明,范宏建(譯).北京:人民郵電出版社.2010:2-6.

二、數(shù)據(jù)新聞中的數(shù)據(jù)挖掘

數(shù)據(jù)分析二、數(shù)據(jù)新聞中的數(shù)據(jù)挖掘

1234預(yù)測(cè)建模predictivemodeling以說(shuō)明變量函數(shù)的方式為目標(biāo)變量建立模型。預(yù)測(cè)建模任務(wù)包含分類(lèi)和回歸兩種,分類(lèi)用于預(yù)測(cè)離散的目標(biāo)變量,回歸則用于預(yù)測(cè)連續(xù)的目標(biāo)變量。關(guān)聯(lián)分析associationanalysis用于發(fā)現(xiàn)描述數(shù)據(jù)中強(qiáng)關(guān)聯(lián)特征的模式。由于搜索空間是指數(shù)規(guī)模的,關(guān)聯(lián)分析的目標(biāo)是以有效的方式提取最有趣的模式。聚類(lèi)分析clusteranalysis旨在發(fā)現(xiàn)緊密相關(guān)的觀測(cè)值組群,使得與屬于不同簇的觀測(cè)值相比,屬于同一簇的觀測(cè)值相互之間盡可能類(lèi)似。異常檢測(cè)anomalydetection識(shí)別其特征顯著不同于其他數(shù)據(jù)的觀測(cè)值,這樣的觀測(cè)值成為異常點(diǎn)或離群點(diǎn)。TanP-N,SteinbachM,KumarV.數(shù)據(jù)挖掘?qū)д?完整版).范明,范宏建(譯).北京:人民郵電出版社.2010:2-6.

數(shù)據(jù)分析案例:《穆魯羅瓦檔案》

2021年9月,美國(guó)普林斯頓大學(xué)、英國(guó)和挪威的建筑師團(tuán)體Interprt以及法國(guó)調(diào)查媒體Disclose共同開(kāi)展了兩年之久的調(diào)查項(xiàng)目《穆魯羅瓦檔案》發(fā)布,該項(xiàng)目在數(shù)千份解密軍事文件、數(shù)百小時(shí)的計(jì)算和數(shù)十份未發(fā)表的證詞的幫助下,揭示了1966年至1974年間法國(guó)在波利尼西亞群島上空的數(shù)次核爆炸實(shí)驗(yàn)對(duì)當(dāng)?shù)仄矫駧?lái)的核污染比官方公布的數(shù)據(jù)要嚴(yán)重得多的事實(shí)。項(xiàng)目中的最具挑戰(zhàn)性的部分是團(tuán)隊(duì)開(kāi)發(fā)了一種技術(shù)模型,利用普林斯頓大學(xué)的計(jì)算機(jī)在實(shí)驗(yàn)室中虛擬重現(xiàn)了法國(guó)的核試驗(yàn)。完成計(jì)算后,設(shè)計(jì)師和建筑師對(duì)法屬波利尼西亞群島上的放射性云及其沉降物的軌跡進(jìn)行3D建模,并模擬了村莊受到的輻射影響以及食物和居民受到污染的精確程度。

數(shù)據(jù)分析案例:《53027條留言背后,網(wǎng)絡(luò)樹(shù)洞里絕望者的自救與互助》》國(guó)內(nèi)數(shù)據(jù)挖掘方法最為集中的應(yīng)用在文本挖掘領(lǐng)域。文本挖掘可以是對(duì)單文檔的數(shù)據(jù)挖掘,也可以是對(duì)文檔集的數(shù)據(jù)挖掘。文本挖掘需要先采用分詞、特征表示和特征提取等技術(shù)對(duì)數(shù)據(jù)做預(yù)處理,然后才可展開(kāi)挖掘分析,常見(jiàn)的文本挖掘分析技術(shù)有文本結(jié)構(gòu)分析、文本摘要、文本分類(lèi)、文本聚類(lèi)、文本關(guān)聯(lián)分析、分布分析和趨勢(shì)預(yù)測(cè)等。

2019年9月,澎湃新聞發(fā)表的作品對(duì)因抑郁而自殺的女大學(xué)生“走飯”的3276條微博文本展開(kāi)了情感分析,并對(duì)這些微博后的53027條留言文本做了主題分析和社會(huì)網(wǎng)絡(luò)分析。

對(duì)“走飯”的所有微博(包括小號(hào))進(jìn)行文本的情感分析后生成的“情感樂(lè)章”

數(shù)據(jù)分析0102分組分析指根據(jù)數(shù)據(jù)分析對(duì)象的特征,按照一定的標(biāo)準(zhǔn)(指標(biāo)),把數(shù)據(jù)分析對(duì)象劃分為不同的部分和類(lèi)型來(lái)進(jìn)行研究,以揭示其內(nèi)在的聯(lián)系和規(guī)律性。

030405結(jié)構(gòu)分析指總體內(nèi)的各部分與總體之間進(jìn)行對(duì)比的分析方法,即總體內(nèi)各部分占總體的比例,屬于相對(duì)指標(biāo)。

平均分析指運(yùn)用計(jì)算平均數(shù)的方法來(lái)反映總體在一定時(shí)間、地點(diǎn)條件下某一數(shù)量特征的一般水平。綜合評(píng)價(jià)分析是一種多變量評(píng)價(jià)分析,運(yùn)用多個(gè)指標(biāo)對(duì)多個(gè)參評(píng)單位進(jìn)行評(píng)價(jià)的方法。

06對(duì)比分析是指將兩個(gè)或兩個(gè)以上的數(shù)據(jù)進(jìn)行比較,分析它們的差異,從而揭示這些數(shù)據(jù)所代表的事物的發(fā)展性狀和變化規(guī)律。

三、實(shí)用的數(shù)據(jù)分析思路

相關(guān)分析即通過(guò)相關(guān)表或相關(guān)圖等方式來(lái)判斷兩個(gè)變量是否存在不確定的統(tǒng)計(jì)關(guān)系的數(shù)據(jù)分析方法。

數(shù)據(jù)分析0102缺乏代表性的均值

030405僅供參考的趨勢(shì)

缺乏可比性的對(duì)比

將相關(guān)關(guān)系等同因果關(guān)系

06忽略基數(shù)的百分比

四、警惕“數(shù)據(jù)陷阱”

將抽樣樣本直接等同于全樣本

數(shù)據(jù)清理和分析中的倫理問(wèn)題03數(shù)據(jù)清理和分析中的倫理問(wèn)題記者需要時(shí)刻警惕,對(duì)數(shù)據(jù)錯(cuò)誤的處理和倫理問(wèn)題可能會(huì)損害數(shù)據(jù)新聞的準(zhǔn)確和嚴(yán)謹(jǐn)。在操作數(shù)據(jù)新聞的過(guò)程中,倫理問(wèn)題遍布各個(gè)環(huán)節(jié):數(shù)據(jù)采集中需注意不能片面選擇數(shù)據(jù)源,注重多源交叉核實(shí)和驗(yàn)證;文案寫(xiě)作環(huán)節(jié)需注意交代數(shù)據(jù)的背景信息,描述數(shù)據(jù)時(shí)不能故意歪曲,需闡明數(shù)據(jù)的局限;數(shù)據(jù)可視化環(huán)節(jié)中需注意視覺(jué)設(shè)計(jì)如何準(zhǔn)確地展現(xiàn)數(shù)據(jù),而不能用視覺(jué)規(guī)律誤導(dǎo)受眾等。一般的新聞報(bào)道倫理也適用于數(shù)據(jù)新聞?lì)I(lǐng)域,同時(shí),數(shù)據(jù)新聞因其涉及數(shù)據(jù)和可視化,其倫理規(guī)范上還存在一定的特殊性。

數(shù)據(jù)清理和分析中的倫理問(wèn)題2012年,美國(guó)康涅狄格州的一所小學(xué)發(fā)生了校園槍擊案,紐約懷特普萊恩斯的《期刊新聞》(JournalNews)的一位記者撰寫(xiě)了一篇關(guān)于槍擊事件可能擴(kuò)大化的報(bào)道,公開(kāi)可獲取槍支許可證的數(shù)據(jù),并附有三張帶有槍支許可證持有者位置的在線(xiàn)地圖,這些地圖上還公布了一些郊縣槍支許可證持有者的姓名與地址。此舉引發(fā)了當(dāng)?shù)毓姷目棺h,同時(shí)也使該國(guó)記者在社群中展開(kāi)廣泛討論。有研究發(fā)現(xiàn),記者社群關(guān)于該事件的討論主要圍繞新聞倫理展開(kāi),涉及“自由與責(zé)任”“新聞目的”“隱私”“驗(yàn)證”“后果”“替代方案”等主題框架。該研究對(duì)數(shù)據(jù)新聞從業(yè)者提出了如下的建議:一、隱私數(shù)據(jù)處理數(shù)據(jù)清理和分析中的倫理問(wèn)題1.每當(dāng)數(shù)據(jù)包含個(gè)人信息時(shí),新聞編輯室必須討論是否將其發(fā)布到網(wǎng)上。2.新聞編輯室需要考慮的問(wèn)題包括:第一,該信息是否服務(wù)于新聞和公共目的?到什么程度?數(shù)據(jù)必須至少滿(mǎn)足這兩個(gè)目的才能發(fā)布到網(wǎng)上。第二,這些信息可能會(huì)傷害誰(shuí)?到什么程度?數(shù)據(jù)元素是否會(huì)給個(gè)人的私生活帶來(lái)風(fēng)險(xiǎn)?可能錯(cuò)誤或過(guò)時(shí)的數(shù)據(jù)會(huì)產(chǎn)生什么潛在影響?第三,是否有其他方案可以最大限度地減少傷害,例如匯總個(gè)人數(shù)據(jù)而不是使用個(gè)人姓名和地址?第四,數(shù)據(jù)可以驗(yàn)證嗎?是否采取了合理的步驟來(lái)驗(yàn)證數(shù)據(jù)的準(zhǔn)確性?在發(fā)布之前可以通知數(shù)據(jù)庫(kù)中涉及的人員嗎?可以采取哪些措施來(lái)糾正發(fā)布后發(fā)現(xiàn)的數(shù)據(jù)錯(cuò)誤?3.最終決定應(yīng)考慮所有這些因素,以新聞目的和盡量減少傷害為最高優(yōu)先級(jí)。

CraigD,KettererS,YousufM.ToPostorNottoPost:OnlineDiscussionofGunPermitMappingandtheDevelopmentofEthicalStandardsinDataJournalism.Journalism&MassCommunicationQuarterly.2017,94(1),168-188.DOI:10.1177/1077699016684796.

數(shù)據(jù)清理和分析中的倫理問(wèn)題在一項(xiàng)針對(duì)前述全球數(shù)據(jù)新聞獎(jiǎng)和SIGMA數(shù)據(jù)新聞獎(jiǎng)的獲獎(jiǎng)項(xiàng)目的研究中,研究者發(fā)現(xiàn):關(guān)于隱私數(shù)據(jù)處理是他們調(diào)查的三個(gè)倫理問(wèn)題中表現(xiàn)最不完善的,盡管大多數(shù)項(xiàng)目都采用例如隱藏元數(shù)據(jù)和使用虛構(gòu)來(lái)源名稱(chēng)等方法來(lái)保護(hù)其數(shù)據(jù)來(lái)源和故事中出現(xiàn)的個(gè)人來(lái)源,但是幾乎沒(méi)有一個(gè)項(xiàng)目解釋了它們是出于何種原因而排除姓名、地址和其他相關(guān)信息等個(gè)人數(shù)據(jù),所有研究的項(xiàng)目都沒(méi)有提及知情同意,后者被視為保護(hù)新聞報(bào)道中出現(xiàn)的個(gè)人隱私的一項(xiàng)基本權(quán)利。

Chaparro-DomínguezM-á,Díaz-CampoJ.DataJournalismandEthics:BestPracticesintheWinningProjects(DJA,OJAandSigmaAwards),JournalismPractice,2023,17(6),1321-1339,DOI:10.1080/17512786.2021.1981773.

數(shù)據(jù)清理和分析中的倫理問(wèn)題“我們采集不到跟個(gè)人隱私相關(guān)的數(shù)據(jù),可能最近也就是信令數(shù)據(jù)了,但是信令數(shù)據(jù)本來(lái)就是脫敏的,已經(jīng)過(guò)濾掉任何跟個(gè)人隱私相關(guān)的東西了,都是去ID化的處理。你能分析到的是這個(gè)用戶(hù)有什么行為,他的年齡、他用的手機(jī),但不能知道他是誰(shuí)。我們有的時(shí)候也想聯(lián)系到個(gè)人,由信令出發(fā),其實(shí)想找到屬于這一個(gè)批次數(shù)據(jù)的真實(shí)個(gè)人,然后有利于講故事,但根本就拿不到。”(中央廣播電視總臺(tái)新聞中心經(jīng)濟(jì)新聞部記者劉佳昕

)“如果和互聯(lián)網(wǎng)平臺(tái)合作挖掘數(shù)據(jù),給我們提供的數(shù)據(jù)都是脫敏的、沒(méi)有個(gè)人的信息。如果是我們?cè)诰W(wǎng)上公開(kāi)平臺(tái)采集的話(huà),其實(shí)也很少涉及到個(gè)體的行為的情況。”(南都大數(shù)據(jù)研究院秘書(shū)長(zhǎng)凌慧珊

)

數(shù)據(jù)清理和分析中的倫理問(wèn)題“在設(shè)計(jì)問(wèn)卷的時(shí)候就會(huì)注意不問(wèn)敏感的隱私數(shù)據(jù),如果是爬數(shù)據(jù)的話(huà),平臺(tái)都會(huì)對(duì)用戶(hù)數(shù)據(jù)做保護(hù),也不太能爬到別人的隱私數(shù)據(jù),只能爬到用戶(hù)發(fā)了什么帖子、帖子內(nèi)容是什么。如果是明顯地引用用戶(hù)的留言和圖片,一般編輯或作者會(huì)去找他們要授權(quán),得到許可后再使用。”

(網(wǎng)易數(shù)讀主編巫雨松)“在爬取數(shù)據(jù)的時(shí)候,或者錄入數(shù)據(jù)的時(shí)候,以及在找其他組織要數(shù)據(jù)的時(shí)候,我們會(huì)有意識(shí)地隱去一些和個(gè)體比較密切、能鎖定到個(gè)體的信息,其他組織也會(huì)因?yàn)閿?shù)據(jù)隱私問(wèn)題考慮不給我們這些數(shù)據(jù),或者給我們一個(gè)脫敏后的版本。感覺(jué)現(xiàn)在對(duì)數(shù)據(jù)隱私的規(guī)范確實(shí)比幾年前更敏感。”(財(cái)新傳媒的數(shù)據(jù)記者張梅婷)

數(shù)據(jù)清理和分析中的倫理問(wèn)題一、隱私數(shù)據(jù)處理“數(shù)據(jù)脫敏”主要是指數(shù)據(jù)去隱私化,即運(yùn)用一定的脫敏規(guī)則使某些敏感信息數(shù)據(jù)變形,從而保護(hù)報(bào)道對(duì)象的隱私。

案例:澎湃新聞“美數(shù)課”欄目發(fā)布的《我們?nèi)チ讼嘤H角6次,收集了這874份征婚啟事》《轉(zhuǎn)角遇到愛(ài)》系列報(bào)道在數(shù)據(jù)結(jié)構(gòu)化的過(guò)程中排除了收集數(shù)據(jù)中指向過(guò)于精細(xì)的“聯(lián)系方式”“家庭住址”等個(gè)人隱私數(shù)據(jù);對(duì)結(jié)構(gòu)化的數(shù)據(jù)中具有個(gè)人隱私的數(shù)據(jù)做相應(yīng)的模糊化處理。

數(shù)據(jù)清理和分析中的倫理問(wèn)題在數(shù)據(jù)工作中,創(chuàng)建并遵循一個(gè)數(shù)據(jù)保護(hù)計(jì)劃,該項(xiàng)計(jì)劃旨在降低泄漏數(shù)據(jù)的概率,并且在數(shù)據(jù)泄漏發(fā)生后能夠降低傷害。英國(guó)數(shù)據(jù)服務(wù)中心(UKDataService)歸納的數(shù)據(jù)保護(hù)計(jì)劃必備的五項(xiàng)要素(也被稱(chēng)為“5個(gè)安全”):項(xiàng)目安全:對(duì)涉及道德倫理的項(xiàng)目數(shù)據(jù)采取限制措施對(duì)象安全:訪(fǎng)問(wèn)僅限于可信任的數(shù)據(jù)人員(例如,經(jīng)過(guò)道德培訓(xùn)的人)數(shù)據(jù)安全:盡可能將數(shù)據(jù)標(biāo)識(shí)并匯總設(shè)置安全:對(duì)儲(chǔ)存于計(jì)算機(jī)中的數(shù)據(jù)采取適當(dāng)?shù)奈锢恚ɡ纾i閉的房間)和軟件(例如,密碼保護(hù)、加密)保護(hù)成果安全:審查研究成果以防止意外隱私泄漏

[美]馬修·薩爾加尼克.計(jì)算社會(huì)學(xué):數(shù)據(jù)時(shí)代的社會(huì)研究.趙紅梅,趙婷譯.中信出版集團(tuán).2019:280-289.

數(shù)據(jù)清理和分析中的倫理問(wèn)題二、透明性透明性一直被視為新聞業(yè)的重要職業(yè)準(zhǔn)則。2001年,比爾·科瓦齊和湯姆·羅森斯蒂爾在《新聞的十大基本原則》中較早系統(tǒng)性地提出“透明性原則”(ruleoftransparency)。“透明”意味著記者和編輯需在新聞報(bào)道中做出必要的說(shuō)明,解釋新聞是如何獲得的,為什么要用特定的方式處理和表達(dá),以及坦誠(chéng)報(bào)道中尚未解決的問(wèn)題和局限。他們認(rèn)為這一原則能夠替代飽受爭(zhēng)議的客觀性原則。(比爾·科瓦奇,湯姆·羅森斯蒂爾.新聞的十大基本原則.劉海龍,連曉東,譯.北京:中國(guó)人民大學(xué)出版社,2011.)邁克爾·卡爾森(MichaelKarlsson)對(duì)透明性原則做了分類(lèi),將之區(qū)分為“公開(kāi)的透明性”和“參與的透明性”。公開(kāi)的透明性指新聞選擇和制作方式的公開(kāi),而參與的透明性則涉及受眾參與新聞選擇和制作的程度。(KarlssonM.RitualsofTransparency:EvaluatingOnlineNewsOutlets’UsesofTransparencyRitualsintheUnitedStates,UnitedKingdomandSweden.JournalismStudies.2010,11

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶(hù)所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶(hù)上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶(hù)上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶(hù)因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論