



下載本文檔
版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認(rèn)領(lǐng)
文檔簡介
大數(shù)據(jù)的質(zhì)量問題分析獲獎科研報告【摘要】如今,大數(shù)據(jù)是一種不斷增長的技術(shù)。大數(shù)據(jù)有很多用途;人工智能、醫(yī)療保健、商業(yè)等等。因此,有必要對所獲取的大量數(shù)據(jù)進行預(yù)處理與分析,以確保使用和生成的數(shù)據(jù)具有更高的質(zhì)量。如果想擁有較高質(zhì)量的大數(shù)據(jù),那么它的獲取規(guī)則、管理架構(gòu)等條件必須得到滿足。本文從數(shù)據(jù)本身、數(shù)據(jù)管理、數(shù)據(jù)處理和數(shù)據(jù)用戶的角度出發(fā),提出了需要測量的主要大數(shù)據(jù)質(zhì)量因素。這項研究強調(diào)了質(zhì)量因素,這些因素在以后可能會用于創(chuàng)建不同的大數(shù)據(jù)質(zhì)量模型。
【關(guān)鍵詞】大數(shù)據(jù)、數(shù)據(jù)質(zhì)量、回歸規(guī)模
1引言
大數(shù)據(jù)概念已經(jīng)使用了這么多年,研究人員在1944年以“信息爆炸”的名義開始注意到它。在信息技術(shù)領(lǐng)域,“大數(shù)據(jù)”一詞最早是在1980年由CharlesTelly使用的。TimO'Reilly在2005年定義了我們今天所知道的術(shù)語“大數(shù)據(jù)”。這一術(shù)語將于2013年出現(xiàn)在牛津詞典中。此后,許多研究者從定義、應(yīng)用、技術(shù)、工具和質(zhì)量等方面對“大數(shù)據(jù)”進行了討論。而現(xiàn)在的大數(shù)據(jù)是一個術(shù)語,用來描述一個企業(yè)或系統(tǒng)日常的大量數(shù)據(jù),它可以是結(jié)構(gòu)化的、半結(jié)構(gòu)化的或非結(jié)構(gòu)化的。
軟件質(zhì)量是軟件開發(fā)的一個基本過程。它是“軟件產(chǎn)品滿足既定需求的程度;然而,質(zhì)量取決于這些既定需求準(zhǔn)確表示涉眾需求、愿望和期望的程度”。數(shù)據(jù),作為任何軟件產(chǎn)品的四大支柱之一,它必須盡可能高質(zhì)量,以確保它不會在系統(tǒng)中產(chǎn)生任何故障或失效。本文主要對大數(shù)據(jù)的質(zhì)量因素和問題進行了討論,以幫助大數(shù)據(jù)生產(chǎn)者,分析師和用戶衡量他們的大數(shù)據(jù)質(zhì)量。
2大數(shù)據(jù)基本特征
如今,大數(shù)據(jù)涉及許多領(lǐng)域,如社交媒體、人工智能、機器學(xué)習(xí)、醫(yī)療保健、電力和核系統(tǒng)等等。2001年,DougLaney[8]提出了大數(shù)據(jù)的三大主要特征,后來被稱為“大數(shù)據(jù)的三個V”:
1、容量(Volume):大數(shù)據(jù),顧名思義,是需要處理和存儲的海量數(shù)據(jù);
2、速度(Velocity):是通過系統(tǒng)移動數(shù)據(jù)的速度。面對如此龐大的數(shù)據(jù)量,移動數(shù)據(jù)是一個巨大的挑戰(zhàn);
3、多樣性(Variety):大數(shù)據(jù)是不同類型數(shù)據(jù)(圖像、視頻、音頻、文本等)的巨大集合。此外,收集的數(shù)據(jù)的格式和呈現(xiàn)方式也不同。
大數(shù)據(jù)的特點和應(yīng)用提出了大數(shù)據(jù)質(zhì)量問題。任何將要使用它的應(yīng)用程序都必須確保數(shù)據(jù)具有高質(zhì)量標(biāo)準(zhǔn),這是生成良好質(zhì)量系統(tǒng)的強制性要求。主要考慮大數(shù)據(jù)的質(zhì)量因素與傳統(tǒng)數(shù)據(jù)集相同。此外,一些額外的質(zhì)量因素,處理大量的數(shù)據(jù),如數(shù)據(jù)管理和修復(fù)。
在以往的研究中,大多數(shù)研究者都討論了傳統(tǒng)數(shù)據(jù)的質(zhì)量因素。然而,傳統(tǒng)數(shù)據(jù)與大數(shù)據(jù)有許多相似的質(zhì)量因素,它們在質(zhì)量應(yīng)用和度量上存在差異。
在文獻(xiàn)[2-3]中,研究人員描述了網(wǎng)站數(shù)據(jù)的六個質(zhì)量評估標(biāo)準(zhǔn):權(quán)威性、準(zhǔn)確性、客觀性、通用性、覆蓋率/預(yù)期受眾和交互/交易特征。另一位研究人員討論了網(wǎng)絡(luò)數(shù)據(jù)質(zhì)量,并與用戶進行測試,以確定每種數(shù)據(jù)的重要性級別。另一位研究人員提出了六個質(zhì)量指標(biāo),包括貨幣、可用性、信息噪音比、權(quán)威性、流行性和凝聚力,以進行調(diào)查。文獻(xiàn)[4]中引入了一個新的質(zhì)量模型,稱為IQIP(Identify,Quantify,Implement,andPerfect)。他們總結(jié)了最常見的不同的數(shù)據(jù)質(zhì)量/信息質(zhì)量框架。該模型作為一種管理互聯(lián)網(wǎng)爬蟲搜索引擎質(zhì)量相關(guān)算法的選擇和實現(xiàn)的方法。
3大數(shù)據(jù)質(zhì)量挑戰(zhàn)
大數(shù)據(jù)的準(zhǔn)確性、完整性、冗余性、可讀性、可訪問性、一致性、信任度是主要的數(shù)據(jù)和大數(shù)據(jù)質(zhì)量因素。每個因素都與一個或多個必須滿足的質(zhì)量標(biāo)準(zhǔn)相關(guān)聯(lián),以滿足質(zhì)量因素。
此外,對于大數(shù)據(jù)開發(fā)人員來說,還有一些特性需要討論,這些特性是:準(zhǔn)確性;數(shù)據(jù)源的多樣性和處理的復(fù)雜性是評估大數(shù)據(jù)質(zhì)量的一個挑戰(zhàn)。可變性;大數(shù)據(jù)類型和格式的變化可能導(dǎo)致質(zhì)量的巨大差異。可能需要額外的工作和資源來識別、處理和過濾低質(zhì)量的數(shù)據(jù),以減少工作量和成本增加數(shù)據(jù)的有用性。價值;大數(shù)據(jù)在處理和過濾大數(shù)據(jù)時所傳遞的價值是什么?這個問題是大數(shù)據(jù)分析師面臨的主要挑戰(zhàn)。大數(shù)據(jù)質(zhì)量的衡量不僅僅是數(shù)據(jù)質(zhì)量,數(shù)據(jù)質(zhì)量管理(DQM)也是一個必須考慮的質(zhì)量挑戰(zhàn),DQM在大數(shù)據(jù)質(zhì)量度量中起著關(guān)鍵的作用,大數(shù)據(jù)生命周期的每個階段都必須根據(jù)一些質(zhì)量規(guī)則來衡量。
大數(shù)據(jù)的生存周期圖如圖1所示,而DQM有五個主要步驟,可總結(jié)如下:
1)人員:項目經(jīng)理、組織變革經(jīng)理、業(yè)務(wù)/數(shù)據(jù)分析師是任何數(shù)據(jù)質(zhì)量管理的關(guān)鍵角色;
2)數(shù)據(jù)分析:數(shù)據(jù)審查、比較、報告和統(tǒng)計分析,以檢查數(shù)據(jù)的準(zhǔn)確性或找到使用可用數(shù)據(jù)的最佳方法;
3)定義數(shù)據(jù)質(zhì)量:在此階段創(chuàng)建并定義數(shù)據(jù)的質(zhì)量規(guī)則;
4)數(shù)據(jù)報告:刪除和報告所有泄露數(shù)據(jù);
5)數(shù)據(jù)修復(fù):在這個階段,修復(fù)和更改數(shù)據(jù)的最佳方法。
大數(shù)據(jù)生命周期也引入了質(zhì)量因素和需要衡量的問題。因此,大數(shù)據(jù)的質(zhì)量因素包括關(guān)注數(shù)據(jù)本身以及大數(shù)據(jù)管理和用戶需求的因素。
外國學(xué)者曾做過一項關(guān)于大數(shù)據(jù)的品質(zhì)因素研究,在這項研究中,這些品質(zhì)因素被分為四類,取決于他們的視角,這些類別是:
數(shù)據(jù)透視圖:關(guān)注數(shù)據(jù)質(zhì)量因素,這些與通常的數(shù)據(jù)質(zhì)量因素非常相似;
管理視角:如何從管理的角度處理數(shù)據(jù);
處理和服務(wù)視角:如何使用和分析數(shù)據(jù);
最后是用戶視角:如何將這些大數(shù)據(jù)交付給目標(biāo)用戶并使其可視化。
一個國外的研究小組曾經(jīng)也進行了四個獨立的、特定領(lǐng)域的大數(shù)據(jù)應(yīng)用案例研究。這些案例研究是對大數(shù)據(jù)收集中遇到的數(shù)據(jù)質(zhì)量問題是否與傳統(tǒng)規(guī)模的數(shù)據(jù)收集中遇到的數(shù)據(jù)質(zhì)量問題在原因、表現(xiàn)形式或檢測方面有本質(zhì)不同的問題進行的初步調(diào)查。這項研究從多個層面探討了影響大數(shù)據(jù)質(zhì)量的幾個因素,包括收集、處理和存儲。這項研究的主要發(fā)現(xiàn)強調(diào)了影響大數(shù)據(jù)的主要因素在于在保持?jǐn)?shù)據(jù)完整性的同時處理大數(shù)據(jù)的局限性和復(fù)雜性。這些關(guān)注點比數(shù)據(jù)的來源、處理以及用于準(zhǔn)備、操作和存儲數(shù)據(jù)的工具更重要。數(shù)據(jù)質(zhì)量對于所有的數(shù)據(jù)分析問題都非常重要。從研究結(jié)果來看,“關(guān)于大數(shù)據(jù)的真相”是在大數(shù)據(jù)分析項目中沒有根本上新的“數(shù)據(jù)質(zhì)量”問題。不過,一些“數(shù)據(jù)質(zhì)量”問題表現(xiàn)出規(guī)模回報效應(yīng),在大數(shù)據(jù)分析中或多或少變得明顯。大數(shù)據(jù)質(zhì)量因不同類型的大數(shù)據(jù)和不同的大數(shù)據(jù)技術(shù)而異。
4結(jié)論
在本文中,主要對大數(shù)據(jù)質(zhì)量因素進行了討論。得出大數(shù)據(jù)的質(zhì)量不僅與數(shù)據(jù)本身有關(guān),而且還
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 項目管理能力檢測試題及答案
- 2025年特許金融分析師考試中常見試題及答案
- 理財中的商業(yè)倫理與社會責(zé)任2025年國際金融理財師考試試題及答案
- 項目管理流程優(yōu)化試題及答案
- 2025年注冊會計師考試綜合提升試題及答案
- 掌握2025年注冊會計師考試必考內(nèi)容試題及答案
- 項目管理決策制定的關(guān)鍵試題及答案
- 廣州體育學(xué)院高壓配電房標(biāo)準(zhǔn)化改造工程項目招標(biāo)文件
- 新疆哈密地區(qū)本年度(2025)小學(xué)一年級數(shù)學(xué)部編版能力評測((上下)學(xué)期)試卷及答案
- 2025年證券投資基礎(chǔ)知識試題及答案
- 2024年新知杯上海市初中數(shù)學(xué)競賽參考解答
- 國家職業(yè)技術(shù)技能標(biāo)準(zhǔn) 6-16-02-06 油氣水井測試工 人社廳發(fā)202226號
- 2024年天津市初中地理學(xué)業(yè)考查試卷
- 《用戶需求分析》課件
- 物業(yè)客服溝通技巧培訓(xùn)課件
- 智慧工地管理措施
- 醫(yī)療試劑運輸方案
- 阿爾及利亞醫(yī)療器械法規(guī)概述
- 寶寶舌系帶短疾病演示課件
- 工程造價咨詢服務(wù)方案(技術(shù)方案)
- 三級醫(yī)院設(shè)備配置參考
評論
0/150
提交評論