大數(shù)據(jù)論文3000字_第1頁(yè)
大數(shù)據(jù)論文3000字_第2頁(yè)
大數(shù)據(jù)論文3000字_第3頁(yè)
大數(shù)據(jù)論文3000字_第4頁(yè)
大數(shù)據(jù)論文3000字_第5頁(yè)
全文預(yù)覽已結(jié)束

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶(hù)提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

本文格式為Word版下載后可任意編輯和復(fù)制第第頁(yè)大數(shù)據(jù)論文3000字

大數(shù)據(jù)

大數(shù)據(jù)是指無(wú)法在肯定時(shí)間內(nèi)用常規(guī)軟件工具對(duì)其內(nèi)容進(jìn)行抓取、管理和處理的數(shù)據(jù)集合。大數(shù)據(jù)技術(shù),是指從各種各樣類(lèi)型的數(shù)據(jù)中,快速獲得有價(jià)值信息的力量。適用于大數(shù)據(jù)的技術(shù),包括大規(guī)模并行處理(MPP)數(shù)據(jù)庫(kù),數(shù)據(jù)挖掘電網(wǎng),分布式文件系統(tǒng),分布式數(shù)據(jù)庫(kù),云計(jì)算平臺(tái),互聯(lián)網(wǎng),和可擴(kuò)展的存儲(chǔ)系統(tǒng)。

大數(shù)據(jù)有四個(gè)基本特征:一、數(shù)據(jù)體量巨大(Vomule),二、數(shù)據(jù)類(lèi)型多樣(Variety),三、處理速度快(Velocity),四、價(jià)值密度低(Value)。在大數(shù)據(jù)的領(lǐng)域現(xiàn)在已經(jīng)消失了特別多的新技術(shù),這些新技術(shù)將會(huì)是大數(shù)據(jù)收集、存儲(chǔ)、處理和呈現(xiàn)最強(qiáng)有力的工具。大數(shù)據(jù)處理一般有以下幾種關(guān)鍵性技術(shù):大數(shù)據(jù)采集、大數(shù)據(jù)預(yù)處理、大數(shù)據(jù)存儲(chǔ)及管理、大數(shù)據(jù)分析及挖掘、大數(shù)據(jù)呈現(xiàn)和應(yīng)用(大數(shù)據(jù)檢索、大數(shù)據(jù)可視化、大數(shù)據(jù)應(yīng)用、大數(shù)據(jù)平安等)。

大數(shù)據(jù)處理之一:采集。大數(shù)據(jù)的采集是指利用多個(gè)數(shù)據(jù)庫(kù)來(lái)接收發(fā)自客戶(hù)端(Web、App或者傳感器形式等)的數(shù)據(jù),并且用戶(hù)可以通過(guò)這些數(shù)據(jù)庫(kù)來(lái)進(jìn)行簡(jiǎn)潔的查詢(xún)和處理工作。比如,電商會(huì)使用傳統(tǒng)的關(guān)系型數(shù)據(jù)庫(kù)MySQL和Oracle等來(lái)存儲(chǔ)每一筆事務(wù)數(shù)據(jù),除此之外,Redis和MongoDB這樣的NoSQL數(shù)據(jù)庫(kù)也常用于數(shù)據(jù)的采集。

在大數(shù)據(jù)的采集過(guò)程中,其主要特點(diǎn)和挑戰(zhàn)是并發(fā)數(shù)高,因?yàn)橥瑫r(shí)有可能會(huì)有成千上萬(wàn)的用戶(hù)來(lái)進(jìn)行訪(fǎng)問(wèn)和操作,比如火車(chē)票售票網(wǎng)站和淘寶,它們并發(fā)的訪(fǎng)問(wèn)量在峰值時(shí)達(dá)到上百萬(wàn),所以需要在采集端部署大量數(shù)據(jù)庫(kù)才能支撐。并且如何在這些數(shù)據(jù)庫(kù)之間進(jìn)行負(fù)載均衡和分片的確是需要深化的思索和設(shè)計(jì)。

大數(shù)據(jù)處理之二:導(dǎo)入和預(yù)處理。雖然采集端本身會(huì)有許多數(shù)據(jù)庫(kù),但是假如要對(duì)這些海量數(shù)據(jù)進(jìn)行有效的分析,還是應(yīng)當(dāng)將這些來(lái)自前端的數(shù)據(jù)導(dǎo)入到一個(gè)集中的大型分布式數(shù)據(jù)庫(kù),或者分布式存儲(chǔ)集群,并且可以在導(dǎo)入基礎(chǔ)上做一些簡(jiǎn)潔的清洗和預(yù)處理工作。也有一些用戶(hù)會(huì)在導(dǎo)入時(shí)使用來(lái)自Twitter的Storm來(lái)對(duì)數(shù)據(jù)進(jìn)行流式計(jì)算,來(lái)滿(mǎn)意部分業(yè)務(wù)的實(shí)時(shí)計(jì)算需求。

導(dǎo)入與預(yù)處理過(guò)程的特點(diǎn)和挑戰(zhàn)主要是導(dǎo)入的數(shù)據(jù)量大,每秒鐘的導(dǎo)入量常常會(huì)達(dá)到百兆,甚至千兆級(jí)別。

大數(shù)據(jù)處理之三:統(tǒng)計(jì)和分析。統(tǒng)計(jì)與分析主要利用分布式數(shù)據(jù)庫(kù),或者分布式計(jì)算集群來(lái)對(duì)存儲(chǔ)于其內(nèi)的海量數(shù)據(jù)進(jìn)行一般的分析和分類(lèi)匯總等,以滿(mǎn)意大多數(shù)常見(jiàn)的分析需求,在這方面,一些實(shí)時(shí)性需求會(huì)用到EMC的GreenPlum、Oracle的Exadata,以及基于MySQL的列式存儲(chǔ)Infobright等,而一些批處理,或者基于半結(jié)構(gòu)化數(shù)據(jù)的需求可以使用Hadoop。

統(tǒng)計(jì)與分析這部分的主要特點(diǎn)和挑戰(zhàn)是分析涉及的數(shù)據(jù)量大,其對(duì)系統(tǒng)資源,特殊是I/O會(huì)有極大的占用。

大數(shù)據(jù)處理之四:挖掘。與前面統(tǒng)計(jì)和分析過(guò)程不同的是,數(shù)據(jù)挖掘一般沒(méi)有什么預(yù)先設(shè)定好的主題,主要是在現(xiàn)有數(shù)據(jù)上面進(jìn)行基于各種算法的計(jì)算,從而起到猜測(cè)(Predict)的效果,從而實(shí)現(xiàn)一些高級(jí)別數(shù)據(jù)分析的需求。比較典型算法有用于聚類(lèi)的Kmeans、用于統(tǒng)計(jì)學(xué)習(xí)的SVM和用于分類(lèi)的NaiveBayes,主要使用的工具有Hadoop的Mahout等。該過(guò)程的特點(diǎn)和挑戰(zhàn)主要是用于挖掘的算法很簡(jiǎn)單,并且計(jì)算涉及的數(shù)據(jù)量和計(jì)算量都很大,常用數(shù)據(jù)挖掘算法都以單線(xiàn)程為主。

整個(gè)大數(shù)據(jù)處理的普遍流程至少應(yīng)當(dāng)滿(mǎn)意這四個(gè)方面的步驟,才能算得上是一個(gè)比較完整的大數(shù)據(jù)處理。

大數(shù)據(jù)的處理方式大致分為數(shù)據(jù)流處理方式和批量數(shù)據(jù)處理方式兩種。數(shù)據(jù)流處理的方式適合用于對(duì)實(shí)時(shí)性要求比較高的場(chǎng)合中。并不需要等待全部的數(shù)據(jù)都有了之后再進(jìn)行處

理,而是有一點(diǎn)數(shù)據(jù)就處理一點(diǎn),更多地要求機(jī)器的處理器有較快速的性能以及擁有比較大的主存儲(chǔ)器容量,對(duì)幫助存儲(chǔ)器的要求反而不高。批量數(shù)據(jù)處理方式是對(duì)整個(gè)要處理的數(shù)據(jù)進(jìn)行切割劃分成小的數(shù)據(jù)塊,之后對(duì)其進(jìn)行處理。重點(diǎn)在于把大化小——把劃分的小塊數(shù)據(jù)形成小任務(wù),分別單獨(dú)進(jìn)行處理,并且形成小任務(wù)的過(guò)程中不是進(jìn)行數(shù)據(jù)傳輸之后計(jì)算,而是將計(jì)算方法(通常是計(jì)算函數(shù)——映射并簡(jiǎn)化)作用到這些數(shù)據(jù)塊最終得到結(jié)果。

當(dāng)前,對(duì)大數(shù)據(jù)的處理分析正成為新一代信息技術(shù)融合應(yīng)用的節(jié)點(diǎn)。移動(dòng)互聯(lián)網(wǎng)、物聯(lián)網(wǎng)、社交網(wǎng)絡(luò)、數(shù)字家庭、電子商務(wù)等是新一代信息技術(shù)的應(yīng)用形態(tài),這些應(yīng)用不斷產(chǎn)生大數(shù)據(jù)。通過(guò)對(duì)不同來(lái)源數(shù)據(jù)的管理、處理、分析與優(yōu)化,將結(jié)果反饋到上述應(yīng)用中,將制造出巨大的經(jīng)濟(jì)和社會(huì)價(jià)值。大數(shù)據(jù)也是信息產(chǎn)業(yè)持續(xù)高速增長(zhǎng)的新引擎。面對(duì)大數(shù)據(jù)市場(chǎng)的新技術(shù)、新產(chǎn)品、新業(yè)態(tài)會(huì)不斷涌現(xiàn)。在硬件與集成設(shè)備領(lǐng)域,大數(shù)據(jù)將對(duì)芯片、存儲(chǔ)產(chǎn)業(yè)產(chǎn)生重要影響,還將催生一體化數(shù)據(jù)存儲(chǔ)處理服務(wù)器、內(nèi)存計(jì)算等市場(chǎng)。在軟件與服務(wù)領(lǐng)域,大數(shù)據(jù)將引發(fā)數(shù)據(jù)快速處理分析、數(shù)據(jù)挖掘技術(shù)和軟件產(chǎn)品的進(jìn)展。大數(shù)據(jù)利用將成為提高核心競(jìng)爭(zhēng)力的關(guān)鍵因素。各行各業(yè)的決策正在從“業(yè)務(wù)驅(qū)動(dòng)”轉(zhuǎn)變?yōu)椤皵?shù)據(jù)驅(qū)動(dòng)”。對(duì)大數(shù)據(jù)的分析可以使零售商實(shí)時(shí)把握市場(chǎng)動(dòng)態(tài)并快速做出應(yīng)對(duì);可以為商家制定更加精準(zhǔn)有效的營(yíng)銷(xiāo)策略供應(yīng)決策支持;可以關(guān)心企業(yè)為消費(fèi)者供應(yīng)更加準(zhǔn)時(shí)和共性化的服務(wù);在醫(yī)療領(lǐng)域,可提高診斷精確?????性和藥物有效性;在公共事業(yè)領(lǐng)域,大數(shù)據(jù)也開(kāi)頭發(fā)揮促進(jìn)經(jīng)濟(jì)進(jìn)展、維護(hù)社會(huì)穩(wěn)定等方面的重要作用。大數(shù)據(jù)時(shí)代科學(xué)討論的方法手段將發(fā)生重大轉(zhuǎn)變。例如,抽樣調(diào)查是社會(huì)科學(xué)的基本討論方法。在大數(shù)據(jù)時(shí)代,可通過(guò)實(shí)時(shí)監(jiān)測(cè),跟蹤討論對(duì)象在互聯(lián)網(wǎng)上產(chǎn)生的海量行為數(shù)據(jù),進(jìn)行挖掘分析,揭示出規(guī)律性的東西,提出討論結(jié)論和對(duì)策。

目前大數(shù)據(jù)在醫(yī)療衛(wèi)生領(lǐng)域有廣為所知的應(yīng)用,公共衛(wèi)生部門(mén)可以通過(guò)掩蓋全國(guó)的患者電子病歷數(shù)據(jù)庫(kù)進(jìn)行全面疫情監(jiān)測(cè)。5千萬(wàn)條美國(guó)人最頻繁檢索的詞條被用來(lái)對(duì)冬季流感進(jìn)行更準(zhǔn)時(shí)精確?????的猜測(cè)。學(xué)術(shù)界整合出2022年H5N1禽流感感染風(fēng)險(xiǎn)地圖,討論發(fā)行此次H7N9人類(lèi)病例區(qū)域。社交網(wǎng)絡(luò)為很多慢性病患者供應(yīng)了臨床癥狀溝通和診治閱歷共享平臺(tái),醫(yī)生借此可獲得院外臨床效果統(tǒng)計(jì)數(shù)據(jù)。基于對(duì)人體基因的大數(shù)據(jù)分析,可以實(shí)現(xiàn)對(duì)癥下藥的共性化治療。

在醫(yī)藥研發(fā)方面,大數(shù)據(jù)的戰(zhàn)略意義在于對(duì)各方面醫(yī)療衛(wèi)生數(shù)據(jù)進(jìn)行專(zhuān)業(yè)化處理,對(duì)患者甚至大眾的行為和心情的細(xì)節(jié)化測(cè)量成為可能,挖掘其癥狀特點(diǎn)、行為習(xí)慣和喜好等,找到更符合其特點(diǎn)或癥狀的藥品和服務(wù),并針對(duì)性的調(diào)整和優(yōu)化。在醫(yī)藥討論開(kāi)發(fā)部門(mén)或公司的新藥研發(fā)階段,能夠通過(guò)大數(shù)據(jù)技術(shù)分析來(lái)自互聯(lián)網(wǎng)上的公眾疾病藥品需求趨勢(shì),確定更為有效率的投入產(chǎn)品比,合理配置有限研發(fā)資源。除研發(fā)成本外,醫(yī)藥公司能夠優(yōu)化物流信息平臺(tái)及管理,更快地獵取回報(bào),一般新藥從研發(fā)到推向市場(chǎng)的時(shí)間大約為13年,使用數(shù)據(jù)分析猜測(cè)則能關(guān)心醫(yī)藥研發(fā)部門(mén)或企業(yè)提早將新藥推向市場(chǎng)。

在疾病診治方面,可通過(guò)健康云平臺(tái)對(duì)每個(gè)居民進(jìn)行智能采集健康數(shù)據(jù),居民可以隨時(shí)查閱,了解自身健康程度。同時(shí),供應(yīng)專(zhuān)業(yè)的在線(xiàn)專(zhuān)家詢(xún)問(wèn)系統(tǒng),由專(zhuān)家對(duì)居民健康程度做出診斷,提示可能發(fā)生的健康問(wèn)題,避開(kāi)高危病人轉(zhuǎn)為慢性病患者,避開(kāi)慢性病患者病情惡化,減輕個(gè)人和醫(yī)保負(fù)擔(dān),實(shí)現(xiàn)疾病科學(xué)管理。對(duì)于醫(yī)療衛(wèi)生氣構(gòu),通過(guò)對(duì)遠(yuǎn)程監(jiān)控系統(tǒng)產(chǎn)生數(shù)據(jù)的分析,醫(yī)院可以削減病人住院時(shí)間,削減急診量,實(shí)現(xiàn)提高家庭護(hù)理比例和門(mén)診醫(yī)生預(yù)約量的目標(biāo)。武漢協(xié)和醫(yī)院目前也已經(jīng)與市區(qū)八家社區(qū)衛(wèi)生服務(wù)中心建立遠(yuǎn)程遙控聯(lián)系,并將在將來(lái)供應(yīng)“從醫(yī)院到家”的服務(wù)。在醫(yī)療衛(wèi)生氣構(gòu),通過(guò)實(shí)時(shí)處理管理系統(tǒng)產(chǎn)生的數(shù)據(jù),連同歷史數(shù)據(jù),利用大數(shù)據(jù)技術(shù)分析就診資源的使用狀況,實(shí)現(xiàn)機(jī)構(gòu)科學(xué)管理,提高醫(yī)療衛(wèi)生服務(wù)水平和效率,引導(dǎo)醫(yī)療衛(wèi)生資源科學(xué)規(guī)劃和配置。大數(shù)據(jù)還能提升醫(yī)療價(jià)值,形成共性化醫(yī)療,比如基于基因科學(xué)的醫(yī)療模式。

在公共衛(wèi)生管理方面,大數(shù)據(jù)可以連續(xù)整合和分析公共衛(wèi)生數(shù)據(jù),提高疾病預(yù)報(bào)和預(yù)警力量,防止疫情爆發(fā)。公共衛(wèi)生部門(mén)則可以通過(guò)掩蓋區(qū)域的衛(wèi)生綜合

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶(hù)所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶(hù)上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶(hù)上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶(hù)因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論