大數(shù)據(jù)概念與應(yīng)用培訓(xùn)_第1頁
大數(shù)據(jù)概念與應(yīng)用培訓(xùn)_第2頁
大數(shù)據(jù)概念與應(yīng)用培訓(xùn)_第3頁
大數(shù)據(jù)概念與應(yīng)用培訓(xùn)_第4頁
大數(shù)據(jù)概念與應(yīng)用培訓(xùn)_第5頁
已閱讀5頁,還剩29頁未讀 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認(rèn)領(lǐng)

文檔簡介

1、大數(shù)據(jù)(shj)BIG DATA第一頁,共三十四頁。第一章大數(shù)據(jù)概念與應(yīng)用1.1大數(shù)據(jù)的概念與意義1.2大數(shù)據(jù)的來源1.3大數(shù)據(jù)應(yīng)用場景1.4大數(shù)據(jù)處理方法of402習(xí)題(xt)第二頁,共三十四頁。1.1 大數(shù)據(jù)(shj)的概念與意義第一章 大數(shù)據(jù)概念(ginin)與應(yīng)用of40312008年9 月,美國自然(Nature)雜志專刊The next google,第一次正式提出“大數(shù)據(jù)”概念。22011年2月1日,科學(xué)(Science)雜志專刊Dealing with data,通過社會調(diào)查的方式,第一次綜合分析了大數(shù)據(jù)對人們生活造成的影響,詳細描述了人類面臨的“數(shù)據(jù)困境”。32011年5月,

2、麥肯錫研究院發(fā)布報告Big data: The next frontier for innovation, competition, and productivity,第一次給大數(shù)據(jù)做出相對清晰的定義:“大數(shù)據(jù)是指其大小超出了常規(guī)數(shù)據(jù)庫工具獲取、儲存、管理和分析能力的數(shù)據(jù)集。”時至今日,“數(shù)據(jù)變身“大數(shù)據(jù),“開啟(kiq)了一次重大的時代轉(zhuǎn)型。 “大數(shù)據(jù)這一概念的形成,有三個標(biāo)志性事件:1從“數(shù)據(jù)到“大數(shù)據(jù)第三頁,共三十四頁。4 V特征(tzhng)種類多(Variety)速度快(Velocity)價值高(Value)體量大(Volume)大數(shù)據(jù)與傳統(tǒng)數(shù)據(jù)相比,數(shù)據(jù)來源廣、維度多、類型雜,各種

3、機器儀表在自動產(chǎn)生(chnshng)數(shù)據(jù)的同時,人自身的生活行為也在不斷創(chuàng)造數(shù)據(jù);不僅有企業(yè)組織內(nèi)部的業(yè)務(wù)數(shù)據(jù),還有海量相關(guān)的外部數(shù)據(jù)。隨著(su zhe)現(xiàn)代感測、互聯(lián)網(wǎng)、計算機技術(shù)的開展,數(shù)據(jù)生成、儲存、分析、處理的速度遠遠超出人們的想象力,這是大數(shù)據(jù)區(qū)別于傳統(tǒng)數(shù)據(jù)或小數(shù)據(jù)的顯著特征。大數(shù)據(jù)有巨大的潛在價值,但同其呈幾何指數(shù)爆發(fā)式增長相比,某一對象或模塊數(shù)據(jù)的價值密度較低,這無疑給我們開發(fā)海量數(shù)據(jù)增加了難度和本錢。第一章 大數(shù)據(jù)概念與應(yīng)用of404從2021年至2021年,人類的數(shù)據(jù)規(guī)模將擴大50倍,每年產(chǎn)生的數(shù)據(jù)量將增長到44萬億GB,相當(dāng)于美國國家圖書館數(shù)據(jù)量的數(shù)百萬倍,且每18個月翻

4、一番。1.1 大數(shù)據(jù)的概念與意義第四頁,共三十四頁。第一章 大數(shù)據(jù)(shj)概念與應(yīng)用大數(shù)據(jù)(shj)數(shù)據(jù)源整合進行存儲、清洗、挖掘、分析后得出結(jié)果直到優(yōu)化企業(yè)(qy)管理提高效率云計算、硬件性價比的提高以及軟件技術(shù)的進步智能設(shè)備、傳感器的普及,推動物聯(lián)網(wǎng)、人工智能的開展計算運行、計算速度越來越快存儲 存儲本錢下降 智能實現(xiàn)信息對等解放腦力,機器擁有人的智慧of4051.1 大數(shù)據(jù)的概念與意義2大數(shù)據(jù)的技術(shù)支撐第五頁,共三十四頁。第一章 大數(shù)據(jù)概念(ginin)與應(yīng)用of4061.1 大數(shù)據(jù)(shj)的概念與意義1存儲(cn ch):存儲(cn ch)本錢的下降云計算出現(xiàn)之前云計算出現(xiàn)之后在云

5、計算出現(xiàn)之前,數(shù)據(jù)存儲的本錢是非常高的。例如,公司要建設(shè)網(wǎng)站,需要購置和部署效勞器,安排技術(shù)人員維護效勞器,保證數(shù)據(jù)存儲的平安性和數(shù)據(jù)傳輸?shù)臅惩ㄐ裕€會定期清理數(shù)據(jù),騰出空間以便存儲新的數(shù)據(jù),機房整體的人力和管理本錢都很高。云計算出現(xiàn)后,數(shù)據(jù)存儲效勞衍生出了新的商業(yè)模式,數(shù)據(jù)中心的出現(xiàn)降低了公司的計算和存儲本錢。例如,公司現(xiàn)在要建設(shè)網(wǎng)站,不需要去購置效勞器,不需要去雇用技術(shù)人員維護效勞器,可以通過租用硬件設(shè)備的方式解決問題。存儲本錢的下降,也改變了大家對數(shù)據(jù)的看法,更加愿意把1年、2年甚至更久遠的歷史數(shù)據(jù)保存下來,有了歷史數(shù)據(jù)的沉淀,才可以通過比照,發(fā)現(xiàn)數(shù)據(jù)之間的關(guān)聯(lián)和價值。正是由于存儲本錢的

6、下降,才能為大數(shù)據(jù)搭建最好的根底設(shè)施。第六頁,共三十四頁。第一章 大數(shù)據(jù)(shj)概念與應(yīng)用of4071.1 大數(shù)據(jù)的概念(ginin)與意義2計算(j sun):運算速度越來越快分布式系統(tǒng)根底架構(gòu)Hadoop的出現(xiàn),為大數(shù)據(jù)帶來了新的曙光;HDFS為海量的數(shù)據(jù)提供了存儲;MapReduce那么為海量的數(shù)據(jù)提供了并行計算,從而大大提高了計算效率;Spark、Storm、Impala等各種各樣的技術(shù)進入人們的視野。海量數(shù)據(jù)從原始數(shù)據(jù)源到產(chǎn)生價值,期間會經(jīng)過存儲、清洗、挖掘、分析等多個環(huán)節(jié),如果計算速度不夠快,很多事情是無法實現(xiàn)的。所以,在大數(shù)據(jù)的開展過程中,計算速度是非常關(guān)鍵的因素。第七頁,共三

7、十四頁。第一章 大數(shù)據(jù)(shj)概念與應(yīng)用of4081.1 大數(shù)據(jù)(shj)的概念與意義3智能:機器擁有(yngyu)理解數(shù)據(jù)的能力大數(shù)據(jù)帶來的最大價值就是“智慧,大數(shù)據(jù)讓機器變得有智慧,同時人工智能進一步提升了處理和理解數(shù)據(jù)的能力。例如:谷歌AlphaGo大勝世界圍棋冠軍李世石阿里云小Ai成功預(yù)測出?我是歌手?的總決賽歌王12iPhone上智能化語音機器人Siri微信上與大家聊天的微軟小冰34第八頁,共三十四頁。第一章 大數(shù)據(jù)概念(ginin)與應(yīng)用of409美國著名管理學(xué)家愛德華戴明所言:“我們信靠上帝。除了上帝,任何人都必須用數(shù)據(jù)(shj)來說話。1有數(shù)據(jù)可說 在大數(shù)據(jù)時代,“萬物皆數(shù),

8、“量化一切,“一切都將被數(shù)據(jù)化。人類生活在一個海量、動態(tài)、多樣的數(shù)據(jù)世界中,數(shù)據(jù)無處不在、無時不有、無人不用,數(shù)據(jù)就像陽光、空氣、水分一樣常見,好比放大鏡、望遠鏡、顯微鏡那般重要。 2說數(shù)據(jù)可靠 大數(shù)據(jù)中的“數(shù)據(jù)真實可靠,它實質(zhì)上是表征事物現(xiàn)象的一種符號語言和邏輯關(guān)系,其可靠性的數(shù)理哲學(xué)根底是世界同構(gòu)原理。世界具有物質(zhì)統(tǒng)一性,統(tǒng)一的世界中的一切事物都存在著時空(sh kn)一致性的同構(gòu)關(guān)系。這意味著任何事物的屬性和規(guī)律,只要通過適當(dāng)編碼,均可以通過統(tǒng)一的數(shù)字信號表達出來。1.1 大數(shù)據(jù)的概念與意義3大數(shù)據(jù)的意義 因此,“用數(shù)據(jù)說話、“讓數(shù)據(jù)發(fā)聲,已成為人類認(rèn)知世界的一種全新方法。第九頁,共三十

9、四頁。1.1從“數(shù)據(jù)(shj)到“大數(shù)據(jù)(shj)第一章 大數(shù)據(jù)概念(ginin)與應(yīng)用of4010風(fēng)馬牛可相及 在大數(shù)據(jù)背景下,因海量無限、包羅萬象的數(shù)據(jù)存在,讓許多看似毫不相干的現(xiàn)象之間發(fā)生一定的關(guān)聯(lián),使人們能夠更簡捷、更清晰地認(rèn)知(rn zh)事物和把握局勢。大數(shù)據(jù)的巨大潛能與作用現(xiàn)在難以進行估量,但揭示事物的相關(guān)關(guān)系無疑是其真正的價值所在。經(jīng)典案例:1啤酒與尿布2谷歌與流感第十頁,共三十四頁。1.1大數(shù)據(jù)的概念與意義1.2大數(shù)據(jù)的來源第一章大數(shù)據(jù)概念與應(yīng)用1.3大數(shù)據(jù)應(yīng)用場景1.4大數(shù)據(jù)處理方法of4011習(xí)題(xt)第十一頁,共三十四頁。1.2 大數(shù)據(jù)(shj)的來源第一章 大數(shù)據(jù)概

10、念(ginin)與應(yīng)用of4012全球(qunqi)數(shù)據(jù)總量圖杰姆格雷Jim Gray提出著名的“新摩爾定律,即人類有史以來的數(shù)據(jù)總量,每過18個月就會翻一番。(EB)(年份)第十二頁,共三十四頁。為什么全球數(shù)據(jù)量增長(zngzhng)如此之快?第十三頁,共三十四頁。1.2 大數(shù)據(jù)(shj)的來源第一章 大數(shù)據(jù)概念(ginin)與應(yīng)用of4014互聯(lián)網(wǎng)每天產(chǎn)生(chnshng)的全部內(nèi)容可以刻滿6.4億張DVDGoogle每天需要處理24PB的數(shù)據(jù)網(wǎng)民每天在Facebook上要花費234億分鐘,被移動互聯(lián)網(wǎng)使用者發(fā)送和接收的數(shù)據(jù)高達44PB全球每秒發(fā)送290萬封電子郵件,一分鐘讀一篇的話,足夠

11、一個人晝夜不停地讀5.5年每天會有2.88萬個小時的視頻上傳到Y(jié)ouTube,足夠一個人晝夜不停地觀看3.3年Twitter上每天發(fā)布5000萬條消息,假設(shè)10秒就瀏覽一條消息,足夠一個人晝夜不停地瀏覽16年大數(shù)據(jù)到底有多大? 以上一組互聯(lián)網(wǎng)數(shù)據(jù)第十四頁,共三十四頁。1.2 大數(shù)據(jù)(shj)的來源第一章 大數(shù)據(jù)(shj)概念與應(yīng)用of4015來自大量傳感器的機器數(shù)據(jù)科學(xué)研究及行業(yè)多結(jié)構(gòu)專業(yè)數(shù)據(jù)來自“大人群”泛互聯(lián)網(wǎng)數(shù)據(jù)智能終端拍照、拍視頻發(fā)微博、發(fā)微信其他互聯(lián)網(wǎng)數(shù)據(jù)海量(hiling)的數(shù)據(jù)的產(chǎn)生隨著人類活動的進一步擴展,數(shù)據(jù)規(guī)模會急劇膨脹,包括金融、汽車、零售、餐飲、電信、能源、政務(wù)、醫(yī)療、

12、體育、娛樂等在內(nèi)的各行業(yè)累積的數(shù)據(jù)量越來越大,數(shù)據(jù)類型也越來越多、越來越復(fù)雜,已經(jīng)超越了傳統(tǒng)數(shù)據(jù)管理系統(tǒng)、處理模式的能力范圍,于是“大數(shù)據(jù)這樣一個概念才會應(yīng)運而生。第十五頁,共三十四頁。1.2 大數(shù)據(jù)(shj)的來源第一章 大數(shù)據(jù)概念(ginin)與應(yīng)用of4016按產(chǎn)生數(shù)據(jù)的主體劃分1)少量企業(yè)應(yīng)用產(chǎn)生的數(shù)據(jù)如關(guān)系型數(shù)據(jù)庫中的數(shù)據(jù)和數(shù)據(jù)倉庫中的數(shù)據(jù)等。2)大量人產(chǎn)生的數(shù)據(jù)如推特、微博、通信軟件、移動通信數(shù)據(jù)、電子商務(wù)在線交易日志數(shù)據(jù)、企業(yè)應(yīng)用的相關(guān)評論數(shù)據(jù)等。3)巨量機器產(chǎn)生的數(shù)據(jù)如應(yīng)用服務(wù)器日志、各類傳感器數(shù)據(jù)、圖像和視頻監(jiān)控數(shù)據(jù)、二維碼和條形碼(條碼)掃描數(shù)據(jù)等。01第十六頁,共三十四頁

13、。1.2 大數(shù)據(jù)(shj)的來源第一章 大數(shù)據(jù)(shj)概念與應(yīng)用of4017按數(shù)據(jù)來源的行業(yè)劃分1)以BAT為代表的互聯(lián)網(wǎng)公司百度公司數(shù)據(jù)總量超過了千PB級別,阿里巴巴公司保存的數(shù)據(jù)量超過了百PB級別,擁有90%以上的電商數(shù)據(jù),騰訊公司總存儲數(shù)據(jù)量經(jīng)壓縮處理以后仍然超過了百PB級別,數(shù)據(jù)量月增加達到10%。2)電信、金融、保險、電力、石化系統(tǒng)電信行業(yè)數(shù)據(jù)年度用戶數(shù)據(jù)增長超過10%,金融每年產(chǎn)生的數(shù)據(jù)超過數(shù)十PB,保險系統(tǒng)的數(shù)據(jù)量也超過了PB級別,電力與石化方面,僅國家電網(wǎng)采集獲得的數(shù)據(jù)總量就達到了數(shù)十PB,石油化工領(lǐng)域每年產(chǎn)生和保存下來的數(shù)據(jù)量也將近百PB級別。3)公共安全、醫(yī)療、交通領(lǐng)域一

14、個中、大型城市,一個月的交通卡口記錄數(shù)可以達到3億條;整個醫(yī)療衛(wèi)生行業(yè)一年能夠保存下來的數(shù)據(jù)就可達到數(shù)百PB級別;航班往返一次產(chǎn)生的數(shù)據(jù)就達到TB級別;列車、水陸路運輸產(chǎn)生的各種視頻、文本類數(shù)據(jù),每年保存下來的也達到數(shù)十PB。024氣象、地理、政務(wù)等領(lǐng)域中國氣象局保存的數(shù)據(jù)將近10PB,每年約增數(shù)百TB;各種地圖和地理位置信息每年約數(shù)十PB;政務(wù)數(shù)據(jù)那么涵蓋了旅游、教育、交通、醫(yī)療等多個門類,且多為結(jié)構(gòu)化數(shù)據(jù)。5制造業(yè)和其他傳統(tǒng)行業(yè)制造業(yè)的大數(shù)據(jù)類型以產(chǎn)品設(shè)計數(shù)據(jù)、企業(yè)生產(chǎn)環(huán)節(jié)的業(yè)務(wù)(yw)數(shù)據(jù)和生產(chǎn)監(jiān)控數(shù)據(jù)為主。其中產(chǎn)品設(shè)計數(shù)據(jù)以文件為主,非結(jié)構(gòu)化,共享要求較高,保存時間較長;企業(yè)生產(chǎn)環(huán)節(jié)的

15、業(yè)務(wù)(yw)數(shù)據(jù)主要是數(shù)據(jù)庫結(jié)構(gòu)化數(shù)據(jù),而生產(chǎn)監(jiān)控數(shù)據(jù)那么數(shù)據(jù)量非常大。在其他傳統(tǒng)行業(yè),雖然線下商業(yè)銷售、農(nóng)林牧漁業(yè)、線下餐飲、食品、科研、物流運輸?shù)刃袠I(yè)數(shù)據(jù)量劇增,但是數(shù)據(jù)量還處于積累期,整體體量都不算大,多那么到達PB級別,少那么數(shù)十TB或數(shù)百TB級別。第十七頁,共三十四頁。1.2 大數(shù)據(jù)(shj)的來源第一章 大數(shù)據(jù)概念(ginin)與應(yīng)用of4018按數(shù)據(jù)存儲的形式劃分大數(shù)據(jù)不僅僅體現(xiàn)在數(shù)據(jù)量大,還體現(xiàn)在數(shù)據(jù)類型多。如此海量的數(shù)據(jù)中,僅有20%左右屬于結(jié)構(gòu)化的數(shù)據(jù),80%的數(shù)據(jù)屬于廣泛存在于社交網(wǎng)絡(luò)、物聯(lián)網(wǎng)、電子商務(wù)等領(lǐng)域的非結(jié)構(gòu)化數(shù)據(jù)。結(jié)構(gòu)化數(shù)據(jù)簡單來說就是數(shù)據(jù)庫,如企業(yè)ERP、財務(wù)

16、系統(tǒng)、醫(yī)療HIS數(shù)據(jù)庫、教育一卡通、政府行政審批、其他核心數(shù)據(jù)庫等數(shù)據(jù)。非結(jié)構(gòu)化數(shù)據(jù)包括所有格式的辦公文檔、文本、圖片、XML、HTML、各類報表、圖像和音頻、視頻信息等數(shù)據(jù)。03第十八頁,共三十四頁。1.2 大數(shù)據(jù)(shj)的來源第一章 大數(shù)據(jù)(shj)概念與應(yīng)用of4019常用的大數(shù)據(jù)獲取途徑1)系統(tǒng)日志采集可以使用海量數(shù)據(jù)采集工具,用于系統(tǒng)日志采集,如Hadoop的Chukwa、Cloudera的Flume、Facebook的Scribe等,這些工具均采用分布式架構(gòu),能滿足大數(shù)據(jù)的日志數(shù)據(jù)采集和傳輸需求。043APP移動端數(shù)據(jù)采集APP是獲取用戶移動端數(shù)據(jù)的一種有效方法,APP中的SDK

17、插件可以將用戶使用APP的信息匯總給指定效勞器,即便用戶在沒有訪問(fngwn)時,也能獲知用戶終端的相關(guān)信息,包括安裝應(yīng)用的數(shù)量和類型等。單個APP用戶規(guī)模有限,數(shù)據(jù)量有限;但數(shù)十萬APP用戶,獲取的用戶終端數(shù)據(jù)和局部行為數(shù)據(jù)也會到達數(shù)億的量級。4與數(shù)據(jù)效勞機構(gòu)進行合作數(shù)據(jù)效勞機構(gòu)通常具備標(biāo)準(zhǔn)的數(shù)據(jù)共享和交易渠道,人們可以在平臺上快速、明確地獲取自己所需要的數(shù)據(jù)。而對于企業(yè)生產(chǎn)經(jīng)營數(shù)據(jù)或?qū)W科研究數(shù)據(jù)等保密性要求較高的數(shù)據(jù),也可以通過與企業(yè)或研究機構(gòu)合作,使用特定系統(tǒng)接口等相關(guān)方式采集數(shù)據(jù)。2互聯(lián)網(wǎng)數(shù)據(jù)采集通過網(wǎng)絡(luò)爬蟲或網(wǎng)站公開API等方式從網(wǎng)站上獲取數(shù)據(jù)信息,該方法可以數(shù)據(jù)從網(wǎng)頁中抽取出來,

18、將其存儲為統(tǒng)一的本地數(shù)據(jù)文件,它支持圖片、音頻、視頻等文件或附件的采集,附件與正文可以自動關(guān)聯(lián)。除了網(wǎng)站中包含的內(nèi)容之外,還可以使用DPI或DFI等帶寬管理技術(shù)實現(xiàn)對網(wǎng)絡(luò)流量的采集。第十九頁,共三十四頁。1.3大數(shù)據(jù)應(yīng)用場景1.2大數(shù)據(jù)的來源1.1大數(shù)據(jù)的概念與意義第一章大數(shù)據(jù)概念與應(yīng)用1.4大數(shù)據(jù)處理方法of4020習(xí)題(xt)第二十頁,共三十四頁。1.3 大數(shù)據(jù)應(yīng)用(yngyng)場景第一章 大數(shù)據(jù)(shj)概念與應(yīng)用of4021大數(shù)據(jù)(shj)7個應(yīng)用場景 環(huán)境教育行業(yè)醫(yī)療行業(yè) 農(nóng)業(yè) 智慧城市零售行業(yè)金融行業(yè)第二十一頁,共三十四頁。1.3 大數(shù)據(jù)應(yīng)用(yngyng)場景第一章 大數(shù)據(jù)(s

19、hj)概念與應(yīng)用of4022零售行業(yè)零售行業(yè)大數(shù)據(jù)應(yīng)用有兩個層面,一個層面是零售行業(yè)可以了解客戶的消費喜好和趨勢,進行(jnxng)商品的精準(zhǔn)營銷,降低營銷本錢。另一個層面是依據(jù)客戶購置的產(chǎn)品,為客戶提供可能購置的其他產(chǎn)品,擴大銷售額,也屬于精準(zhǔn)營銷范疇。未來考驗零售企業(yè)的是如何挖掘消費者需求,以及高效整合供給鏈滿足其需求的能力,因此,信息技術(shù)水平的上下成為獲得競爭優(yōu)勢的關(guān)鍵要素。金融行業(yè)1銀行數(shù)據(jù)應(yīng)用場景利用數(shù)據(jù)挖掘來分析出一些交易數(shù)據(jù)背后的商業(yè)價值。2保險數(shù)據(jù)應(yīng)用場景用數(shù)據(jù)來提升保險產(chǎn)品的精算水平,提高利潤水平和投資收益。3證券數(shù)據(jù)應(yīng)用場景對客戶交易習(xí)慣和行為分析可以幫助證券公司獲得更多的

20、收益。第二十二頁,共三十四頁。1.3 大數(shù)據(jù)應(yīng)用(yngyng)場景第一章 大數(shù)據(jù)概念(ginin)與應(yīng)用of4023醫(yī)療行業(yè)醫(yī)療行業(yè)擁有大量的病例、病理報告、治愈方案、藥物報告等,通過對這些數(shù)據(jù)進行整理和分析將會極大地輔助醫(yī)生提出治療方案,幫助(bngzh)病人早日康復(fù)。可以構(gòu)建大數(shù)據(jù)平臺來收集不同病例和治療方案,以及病人的根本特征,建立針對疾病特點的數(shù)據(jù)庫,幫助(bngzh)醫(yī)生進行疾病診斷。醫(yī)療行業(yè)的大數(shù)據(jù)應(yīng)用一直在進行,但是數(shù)據(jù)并沒有完全打通,根本都是孤島數(shù)據(jù),沒方法進行大規(guī)模的應(yīng)用。未來可以將這些數(shù)據(jù)統(tǒng)一采集起來,納入統(tǒng)一的大數(shù)據(jù)平臺,為人類健康造福。教育行業(yè)信息技術(shù)已在教育領(lǐng)域有了

21、越來越廣泛的應(yīng)用,教學(xué)、考試、師生互動、校園平安、家校關(guān)系等,只要技術(shù)到達的地方,各個環(huán)節(jié)都被數(shù)據(jù)包裹。通過大數(shù)據(jù)的分析來優(yōu)化教育機制,也可以作出更科學(xué)的決策,這將帶來潛在的教育革命,在不久的將來,個性化學(xué)習(xí)終端將會更多地融入學(xué)習(xí)資源云平臺,根據(jù)每個學(xué)生的不同興趣愛好和特長,推送相關(guān)領(lǐng)域的前沿技術(shù)、資訊、資源乃至未來職業(yè)開展方向。第二十三頁,共三十四頁。1.3 大數(shù)據(jù)(shj)應(yīng)用場景第一章 大數(shù)據(jù)(shj)概念與應(yīng)用of4024農(nóng)業(yè)行業(yè)環(huán)境行業(yè)借助于大數(shù)據(jù)提供的消費能力和趨勢報告,政府可為農(nóng)業(yè)生產(chǎn)進行合理引導(dǎo),依據(jù)需求進行生產(chǎn),避免產(chǎn)能過剩造成不必要的資源和社會財富浪費。通過大數(shù)據(jù)的分析將會

22、更精確地預(yù)測未來的天氣,幫助農(nóng)民做好自然災(zāi)害的預(yù)防工作,幫助政府實現(xiàn)農(nóng)業(yè)的精細化管理和科學(xué)決策。借助于大數(shù)據(jù)技術(shù),天氣預(yù)報的準(zhǔn)確性和實效性將會大大提高,預(yù)報的及時性將會大大提升,同時對于重大自然災(zāi)害如龍卷風(fēng),通過大數(shù)據(jù)計算平臺,人們將會更加精確地了解其運動軌跡和危害的等級,有利于幫助人們提高應(yīng)對自然災(zāi)害的能力。大數(shù)據(jù)技術(shù)可以了解經(jīng)濟開展情況、各產(chǎn)業(yè)開展情況、消費支出和產(chǎn)品銷售情況等,依據(jù)分析結(jié)果,科學(xué)地制定宏觀政策,平衡各產(chǎn)業(yè)開展,防止產(chǎn)能過剩,有效利用自然資源和社會(shhu)資源,提高社會(shhu)生產(chǎn)效率。大數(shù)據(jù)技術(shù)也能幫助政府進行支出管理,透明合理的財政支出將有利于提高公信力和監(jiān)督財

23、政支出。智慧城市第二十四頁,共三十四頁。1.3大數(shù)據(jù)應(yīng)用場景1.4大數(shù)據(jù)處理方法1.2大數(shù)據(jù)的來源1.1大數(shù)據(jù)的概念與意義第一章大數(shù)據(jù)概念與應(yīng)用of4025習(xí)題(xt)第二十五頁,共三十四頁。1.4 大數(shù)據(jù)處理方法(fngf)第一章 大數(shù)據(jù)(shj)概念與應(yīng)用of4026大數(shù)據(jù)正帶來一場信息社會的變革。大量的結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)的廣泛應(yīng)用,致使人們需要重新(chngxn)思考已有的IT模式;與此同時,大數(shù)據(jù)將推動進行又一次基于信息革命的業(yè)務(wù)轉(zhuǎn)型,使社會能夠借助大數(shù)據(jù)獲取更多的社會效益和開展時機;龐大的數(shù)據(jù)需要我們進行剝離、整理、歸類、建模、分析等操作,通過這些動作后,我們開始建立數(shù)據(jù)分析的

24、維度,通過對不同的維度數(shù)據(jù)進行分析,最終才能得到想到的數(shù)據(jù)和信息。因此,如何進行大數(shù)據(jù)的采集、導(dǎo)入/預(yù)處理、統(tǒng)計/分析和大數(shù)據(jù)挖掘,是“做好大數(shù)據(jù)的關(guān)鍵根底。第二十六頁,共三十四頁。1.4 大數(shù)據(jù)處理方法(fngf)第一章 大數(shù)據(jù)概念(ginin)與應(yīng)用of4027大數(shù)據(jù)(shj)的采集1大數(shù)據(jù)的采集通常采用多個數(shù)據(jù)庫來接收終端數(shù)據(jù),包括智能硬件端、多種傳感器端、網(wǎng)頁端、移動APP應(yīng)用端等,并且可以使用數(shù)據(jù)庫進行簡單的處理工作。常用的數(shù)據(jù)采集的方式主要包括以下幾種:數(shù)據(jù)抓取01數(shù)據(jù)導(dǎo)入02物聯(lián)網(wǎng)傳感設(shè)備自動信息采集03第二十七頁,共三十四頁。1.4 大數(shù)據(jù)處理方法(fngf)第一章 大數(shù)據(jù)(s

25、hj)概念與應(yīng)用of4028導(dǎo)入/預(yù)處理2雖然采集端本身有很多數(shù)據(jù)庫,但是如果要對這些海量數(shù)據(jù)進行有效的分析,還是應(yīng)該將這些數(shù)據(jù)導(dǎo)入到一個集中的大型分布式數(shù)據(jù)庫或者分布式存儲集群當(dāng)中,同時,在導(dǎo)入的根底上完成數(shù)據(jù)清洗和預(yù)處理工作。也有一些用戶會在導(dǎo)入時使用來自Twitter的Storm來對數(shù)據(jù)進行流式計算,來滿足局部業(yè)務(wù)的實時計算需求。現(xiàn)實世界中數(shù)據(jù)大體上都是不完整、不一致的“臟數(shù)據(jù),無法直接進行數(shù)據(jù)挖掘,或挖掘結(jié)果差強人意,為了提高數(shù)據(jù)挖掘的質(zhì)量(zhling),產(chǎn)生了數(shù)據(jù)預(yù)處理技術(shù)。數(shù)據(jù)清理數(shù)據(jù)集成數(shù)據(jù)變換數(shù)據(jù)歸約主要是到達數(shù)據(jù)格式標(biāo)準(zhǔn)化、異常數(shù)據(jù)去除、數(shù)據(jù)錯誤糾正、重復(fù)數(shù)據(jù)的去除等目標(biāo)。

26、是將多個數(shù)據(jù)源中的數(shù)據(jù)結(jié)合起來并統(tǒng)一存儲,建立數(shù)據(jù)倉庫。過平滑聚集、數(shù)據(jù)概化、標(biāo)準(zhǔn)化等方式將數(shù)據(jù)轉(zhuǎn)換成適用于數(shù)據(jù)挖掘的形式。尋找依賴于發(fā)現(xiàn)目標(biāo)的數(shù)據(jù)的有用特征,縮減數(shù)據(jù)規(guī)模,最大限度地精簡數(shù)據(jù)量。第二十八頁,共三十四頁。1.4 大數(shù)據(jù)處理方法(fngf)第一章 大數(shù)據(jù)(shj)概念與應(yīng)用of4029 統(tǒng)計(tngj)與分析3統(tǒng)計與分析主要是利用分布式數(shù)據(jù)庫,或分布式計算集群來對存儲于其內(nèi)的海量數(shù)據(jù)進行普通的分析和分類匯總,以滿足大多數(shù)常見的分析需求,在這些方面可以使用R語言。R語言是用于統(tǒng)計分析、繪圖的語言和操作環(huán)境,屬于GNU系統(tǒng)的一個自由、免費、源代碼開放的軟件,它是一個用于統(tǒng)計計算和統(tǒng)計

27、制圖的優(yōu)秀工具。R語言在國際和國內(nèi)的開展差異非常大,國際上R語言已然是專業(yè)數(shù)據(jù)分析領(lǐng)域的標(biāo)準(zhǔn),但在國內(nèi)依舊任重而道遠,這固然有數(shù)據(jù)學(xué)科地位的原因,國內(nèi)很多人版權(quán)概念薄弱,以及學(xué)術(shù)領(lǐng)域相對閉塞也是原因。R語言是一套完整的數(shù)據(jù)處理、計算和制圖軟件系統(tǒng)。R語言的思想是:它可以提供一些集成的統(tǒng)計工具,但更大量的是它提供各種數(shù)學(xué)計算、統(tǒng)計計算的函數(shù),從而使使用者能靈活機動地進行數(shù)據(jù)分析,甚至創(chuàng)造出符合需要的新的統(tǒng)計計算方法。在大數(shù)據(jù)的統(tǒng)計與分析過程中,主要面對的挑戰(zhàn)是分析涉及的數(shù)據(jù)量太大,其對系統(tǒng)資源,特別是I/O會有極大的占用。第二十九頁,共三十四頁。1.4 大數(shù)據(jù)處理方法(fngf)第一章 大數(shù)據(jù)(

28、shj)概念與應(yīng)用of4030大數(shù)據(jù)挖掘4數(shù)據(jù)挖掘是創(chuàng)立數(shù)據(jù)挖掘模型(mxng)的一組試探法和計算方法,通過對提供的數(shù)據(jù)進行分析,查找特定類型的模式和趨勢,最終形成創(chuàng)立模型(mxng)。分類樸素貝葉斯算法一種重要的數(shù)據(jù)分析形式,根據(jù)重要數(shù)據(jù)類的特征向量值及其他約束條件,構(gòu)造分類函數(shù)或分類模型,目的是根據(jù)數(shù)據(jù)集的特點把未知類別的樣本映射到給定類別中。支持向量機SVM算法AdaBoost算法C4.5算法CART算法聚類BIRCH算法目的在于將數(shù)據(jù)集內(nèi)具有相似特征屬性的數(shù)據(jù)聚集在一起,同一個數(shù)據(jù)群中的數(shù)據(jù)特征要盡可能相似,不同的數(shù)據(jù)群中的數(shù)據(jù)特征要有明顯的區(qū)別。K-Means算法期望最大化算法(EM算法)K近鄰算法關(guān)聯(lián)規(guī)則Apriori算法索系統(tǒng)中的所有數(shù)據(jù),找出所有能把一組事件或數(shù)據(jù)項與另一組事件或數(shù)據(jù)項聯(lián)系起來的規(guī)則,以獲得預(yù)先未知的和被隱藏的,不能通過數(shù)據(jù)庫的邏輯操作或統(tǒng)計的方法得出的信息。FP-Growth算法預(yù)測模型序貫?zāi)J酵诰騍PMGC算法一種統(tǒng)計或數(shù)據(jù)挖掘的方法,包括可以在結(jié)構(gòu)化與非結(jié)構(gòu)化數(shù)據(jù)中使用以確

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論