大數(shù)據(jù)導(dǎo)論(通識課版)-第3章-大數(shù)據(jù)技術(shù)(2020年春季學(xué)期)_第1頁
大數(shù)據(jù)導(dǎo)論(通識課版)-第3章-大數(shù)據(jù)技術(shù)(2020年春季學(xué)期)_第2頁
大數(shù)據(jù)導(dǎo)論(通識課版)-第3章-大數(shù)據(jù)技術(shù)(2020年春季學(xué)期)_第3頁
大數(shù)據(jù)導(dǎo)論(通識課版)-第3章-大數(shù)據(jù)技術(shù)(2020年春季學(xué)期)_第4頁
大數(shù)據(jù)導(dǎo)論(通識課版)-第3章-大數(shù)據(jù)技術(shù)(2020年春季學(xué)期)_第5頁
已閱讀5頁,還剩62頁未讀 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認(rèn)領(lǐng)

文檔簡介

第3章大數(shù)據(jù)技術(shù)目錄3.1概述3.2數(shù)據(jù)采集與預(yù)處理3.3數(shù)據(jù)存儲和管理3.4數(shù)據(jù)處理與分析3.5數(shù)據(jù)可視化3.6數(shù)據(jù)安全和隱私保護3.1大數(shù)據(jù)技術(shù)概述3.1大數(shù)據(jù)技術(shù)概述數(shù)據(jù)的概念

數(shù)據(jù)采集與預(yù)處理

數(shù)據(jù)存儲和管理

數(shù)據(jù)處理與分析

數(shù)據(jù)可視化

數(shù)據(jù)安全和隱私保護大數(shù)據(jù)技術(shù)層次3.1大數(shù)據(jù)技術(shù)概述數(shù)據(jù)的概念技術(shù)層面功能數(shù)據(jù)采集與預(yù)處理利用ETL工具將分布的、異構(gòu)數(shù)據(jù)源中的數(shù)據(jù),如關(guān)系數(shù)據(jù)、平面數(shù)據(jù)文件等,抽取到臨時中間層后進行清洗、轉(zhuǎn)換、集成,最后加載到數(shù)據(jù)倉庫或數(shù)據(jù)集市中,成為聯(lián)機分析處理、數(shù)據(jù)挖掘的基礎(chǔ);利用日志采集工具(如Flume、Kafka等)把實時采集的數(shù)據(jù)作為流計算系統(tǒng)的輸入,進行實時處理分析;利用網(wǎng)頁爬蟲程序到互聯(lián)網(wǎng)網(wǎng)站中爬取數(shù)據(jù)數(shù)據(jù)存儲和管理利用分布式文件系統(tǒng)、數(shù)據(jù)倉庫、關(guān)系數(shù)據(jù)庫、NoSQL數(shù)據(jù)庫、云數(shù)據(jù)庫等,實現(xiàn)對結(jié)構(gòu)化、半結(jié)構(gòu)化和非結(jié)構(gòu)化海量數(shù)據(jù)的存儲和管理數(shù)據(jù)處理與分析利用分布式并行編程模型和計算框架,結(jié)合機器學(xué)習(xí)和數(shù)據(jù)挖掘算法,實現(xiàn)對海量數(shù)據(jù)的處理和分析數(shù)據(jù)可視化對分析結(jié)果進行可視化呈現(xiàn),幫助人們更好地理解數(shù)據(jù)、分析數(shù)據(jù)數(shù)據(jù)安全和隱私保護在從大數(shù)據(jù)中挖掘潛在的巨大商業(yè)價值和學(xué)術(shù)價值的同時,構(gòu)建隱私數(shù)據(jù)保護體系和數(shù)據(jù)安全體系,有效保護個人隱私和數(shù)據(jù)安全表大數(shù)據(jù)技術(shù)的不同層面及其功能3.2數(shù)據(jù)采集與預(yù)處理提綱3.2.1數(shù)據(jù)采集的概念3.2.3數(shù)據(jù)采集的數(shù)據(jù)源3.2.2數(shù)據(jù)采集的三大要點3.2.4數(shù)據(jù)清洗3.2.1數(shù)據(jù)采集的概念數(shù)據(jù)的概念數(shù)據(jù)采集隨著網(wǎng)絡(luò)和信息技術(shù)的不斷普及,人類產(chǎn)生的數(shù)據(jù)量正在呈指數(shù)級增長,大約每兩年翻一番,這意味著人類在最近兩年產(chǎn)生的數(shù)據(jù)量相當(dāng)于之前產(chǎn)生的全部數(shù)據(jù)量之和。世界上每時每刻都在產(chǎn)生大量的數(shù)據(jù),包括物聯(lián)網(wǎng)傳感器數(shù)據(jù)、社交網(wǎng)絡(luò)數(shù)據(jù)、商品交易數(shù)據(jù)等等。面對如此巨大的數(shù)據(jù),與之相關(guān)的采集、存儲、分析等等環(huán)節(jié)產(chǎn)生了一系列的問題3.2.1數(shù)據(jù)采集的概念數(shù)據(jù)的概念數(shù)據(jù)采集數(shù)據(jù)采集數(shù)據(jù)采集數(shù)據(jù)采集,又稱“數(shù)據(jù)獲取”,是數(shù)據(jù)分析的入口,也是數(shù)據(jù)分析過程中相當(dāng)重要的一個環(huán)節(jié),它通過各種技術(shù)手段把外部各種數(shù)據(jù)源產(chǎn)生的數(shù)據(jù)實時或非實時地采集并加以利用。3.2.1數(shù)據(jù)采集的概念數(shù)據(jù)的概念數(shù)據(jù)采集結(jié)構(gòu)化數(shù)據(jù)半結(jié)構(gòu)化數(shù)據(jù)非結(jié)構(gòu)化數(shù)據(jù)3.2.1數(shù)據(jù)采集的概念數(shù)據(jù)的概念來源單一,數(shù)據(jù)量相對較少數(shù)據(jù)源結(jié)構(gòu)單一數(shù)據(jù)類型關(guān)系數(shù)據(jù)庫和并行數(shù)據(jù)倉庫數(shù)據(jù)存儲來源廣泛,數(shù)據(jù)量巨大數(shù)據(jù)源數(shù)據(jù)類型豐富,包括結(jié)構(gòu)化、半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)類型分布式數(shù)據(jù)庫,分布式文件系統(tǒng)數(shù)據(jù)存儲傳統(tǒng)的數(shù)據(jù)采集大數(shù)據(jù)采集傳統(tǒng)的數(shù)據(jù)采集與大數(shù)據(jù)采集區(qū)別3.2.2數(shù)據(jù)采集的3大要點數(shù)據(jù)的概念數(shù)據(jù)采集的三大要點0203多維性全面性高效性013.2.3數(shù)據(jù)采集的數(shù)據(jù)源數(shù)據(jù)的概念數(shù)據(jù)采集的數(shù)據(jù)源03

企業(yè)業(yè)務(wù)系統(tǒng)數(shù)據(jù)04

日志文件01

傳感器02互聯(lián)網(wǎng)數(shù)據(jù)3.2.3數(shù)據(jù)采集的數(shù)據(jù)源數(shù)據(jù)的概念1.傳感器傳感器溫度計、麥克風(fēng)、DV錄像、手機拍照功能等,都屬于傳感器的一部分壓力傳感器、溫度傳感器、流量傳感器、聲音傳感器、電參數(shù)傳感器傳感器是一種檢測裝置,能感受到被測量的信息,并能將感受到的信息,按一定規(guī)律變換成為電信號,或其他所需形式的信息輸出,以滿足信息的傳輸、處理、存儲、顯示、記錄和控制等要求3.2.3數(shù)據(jù)采集的數(shù)據(jù)源2.互聯(lián)網(wǎng)數(shù)據(jù)互聯(lián)網(wǎng)數(shù)據(jù)采集是借助于網(wǎng)絡(luò)爬蟲來完成的。所謂“網(wǎng)絡(luò)爬蟲”,就是一個在網(wǎng)上到處或定向抓取網(wǎng)頁數(shù)據(jù)的程序。爬蟲數(shù)據(jù)采集方法可以將非結(jié)構(gòu)化數(shù)據(jù)從網(wǎng)頁中抽取出來,將其存儲為統(tǒng)一的本地數(shù)據(jù)文件,并以結(jié)構(gòu)化的方式存儲。它支持圖片、音頻、視頻等文件或附件的采集,附件與正文可以自動關(guān)聯(lián)。3.2.3數(shù)據(jù)采集的數(shù)據(jù)源數(shù)據(jù)的概念3.日志文件日志文件數(shù)據(jù)一般由數(shù)據(jù)源系統(tǒng)產(chǎn)生,用于記錄數(shù)據(jù)源的執(zhí)行的各種操作活動,比如網(wǎng)絡(luò)監(jiān)控的流量管理、金融應(yīng)用的股票記賬和Web服務(wù)器記錄的用戶訪問行為。通過對這些日志信息進行采集,然后進行數(shù)據(jù)分析,就可以從公司業(yè)務(wù)平臺日志數(shù)據(jù)中,挖掘得到具有潛在價值的信息,為公司決策和公司后臺服務(wù)器平臺性能評估,提供可靠的數(shù)據(jù)保證。系統(tǒng)日志采集系統(tǒng)做的事情就是,收集日志數(shù)據(jù),提供離線和在線的實時分析使用。3.2.3數(shù)據(jù)采集的數(shù)據(jù)源數(shù)據(jù)的概念ChukwaFlumeScribe3.日志文件3.2.3數(shù)據(jù)采集的數(shù)據(jù)源數(shù)據(jù)的概念4.企業(yè)業(yè)務(wù)系統(tǒng)數(shù)據(jù)一些企業(yè)會使用傳統(tǒng)的關(guān)系型數(shù)據(jù)庫MySQL和Oracle等來存儲業(yè)務(wù)系統(tǒng)數(shù)據(jù),除此之外,Redis和MongoDB這樣的NoSQL數(shù)據(jù)庫也常用于數(shù)據(jù)的存儲。企業(yè)每時每刻產(chǎn)生的業(yè)務(wù)數(shù)據(jù),以數(shù)據(jù)庫一行記錄的形式,被直接寫入到數(shù)據(jù)庫中3.2.3數(shù)據(jù)采集的數(shù)據(jù)源數(shù)據(jù)的概念企業(yè)可以借助于ETL(Extract-Transform-Load)工具,把分散在企業(yè)不同位置的業(yè)務(wù)系統(tǒng)的數(shù)據(jù),抽取、轉(zhuǎn)換、加載到企業(yè)數(shù)據(jù)倉庫中,以供后續(xù)的商務(wù)智能分析使用圖

數(shù)據(jù)倉庫體系架構(gòu)3.2.3數(shù)據(jù)采集的數(shù)據(jù)源

數(shù)據(jù)采集數(shù)據(jù)抽取數(shù)據(jù)轉(zhuǎn)換操作數(shù)據(jù)清洗企業(yè)業(yè)務(wù)系統(tǒng)數(shù)據(jù)010203043.2.4數(shù)據(jù)清洗數(shù)據(jù)清洗是指將大量原始數(shù)據(jù)中的“臟”數(shù)據(jù)“洗掉”,它是發(fā)現(xiàn)并糾正數(shù)據(jù)文件中可識別的錯誤的最后一道程序,包括檢查數(shù)據(jù)一致性,處理無效值和缺失值等。比如,在構(gòu)建數(shù)據(jù)倉庫時,由于數(shù)據(jù)倉庫中的數(shù)據(jù)是面向某一主題的數(shù)據(jù)的集合,這些數(shù)據(jù)從多個業(yè)務(wù)系統(tǒng)中抽取而來,而且包含歷史數(shù)據(jù),這樣就避免不了有的數(shù)據(jù)是錯誤數(shù)據(jù)、有的數(shù)據(jù)相互之間有沖突,這些錯誤的或有沖突的數(shù)據(jù)顯然是我們不想要的,稱為“臟數(shù)據(jù)”。我們要按照一定的規(guī)則把“臟數(shù)據(jù)”給“洗掉”,這就是“數(shù)據(jù)清洗”3.2.4數(shù)據(jù)清洗數(shù)據(jù)的概念1.需要清洗的數(shù)據(jù)的主要類型重復(fù)數(shù)據(jù)錯誤數(shù)據(jù)殘缺數(shù)據(jù)3.2.4數(shù)據(jù)清洗2.數(shù)據(jù)清洗的內(nèi)容一致性檢查無效值和缺失值的處理估算整例刪除變量刪除成對刪除3.2.4數(shù)據(jù)清洗2.數(shù)據(jù)清洗的內(nèi)容一致性檢查一致性檢查是根據(jù)每個變量的合理取值范圍和相互關(guān)系,檢查數(shù)據(jù)是否合乎要求,發(fā)現(xiàn)超出正常范圍、邏輯上不合理或者相互矛盾的數(shù)據(jù)。例如,用1-7級量表測量的變量出現(xiàn)了0值,體重出現(xiàn)了負(fù)數(shù),都應(yīng)視為超出正常值域范圍。SPSS、SAS、和Excel等計算機軟件都能夠根據(jù)定義的取值范圍,自動識別每個超出范圍的變量值。具有邏輯上不一致性的答案,可能以多種形式出現(xiàn):如許多調(diào)查對象說自己開車上班,又報告說沒有汽車;或者調(diào)查對象報告自己是某品牌的重度購買者和使用者,但同時又在熟悉程度量表上給了很低的分值。發(fā)現(xiàn)不一致時,要列出問卷序號、記錄序號、變量名稱、錯誤類別等,便于進一步核對和糾正3.2.4數(shù)據(jù)清洗2.數(shù)據(jù)清洗的內(nèi)容無效值和缺失值的處理由于調(diào)查、編碼和錄入誤差,數(shù)據(jù)中可能存在一些無效值和缺失值,需要給予適當(dāng)?shù)奶幚怼3S玫奶幚矸椒ㄓ校汗浪恪⒄齽h除、變量刪除和成對刪除。估算最簡單的辦法就是用某個變量的樣本均值、中位數(shù)或眾數(shù),代替無效值和缺失值。另一種辦法就是根據(jù)調(diào)查對象對其他問題的答案,通過變量之間的相關(guān)分析或邏輯推論進行估計。3.2.4數(shù)據(jù)清洗2.數(shù)據(jù)清洗的內(nèi)容整例刪除變量刪除成對刪除適合關(guān)鍵變量缺失,或者含有無效值或缺失值的樣本比重很小的情況如果某一變量的無效值和缺失值很多,而且該變量對于所研究的問題不是特別重要,則可以考慮將該變量刪除成對刪除是用一個特殊碼代表無效值和缺失值,同時保留數(shù)據(jù)集中的全部變量和樣本3.3數(shù)據(jù)存儲與管理3.3.1傳統(tǒng)的數(shù)據(jù)存儲和管理技術(shù)數(shù)據(jù)的概念數(shù)據(jù)存儲和管理傳統(tǒng)的數(shù)據(jù)存儲和管理技術(shù)3.3.1大數(shù)據(jù)時代的數(shù)據(jù)存儲和管理技術(shù)3.3.23.3.1傳統(tǒng)的數(shù)據(jù)存儲和管理技術(shù)數(shù)據(jù)的概念文件系統(tǒng)是操作系統(tǒng)用于明確存儲設(shè)備(常見的是磁盤,也有基于NANDFlash的固態(tài)硬盤)或分區(qū)上的文件的方法和數(shù)據(jù)結(jié)構(gòu),即在存儲設(shè)備上組織文件的方法。操作系統(tǒng)中負(fù)責(zé)管理和存儲文件信息的軟件機構(gòu)稱為文件管理系統(tǒng),簡稱“文件系統(tǒng)”文件系統(tǒng)由三部分組成:文件系統(tǒng)的接口,對對象操縱和管理的軟件集合,對象及屬性。從系統(tǒng)角度來看,文件系統(tǒng)是對文件存儲設(shè)備的空間進行組織和分配,負(fù)責(zé)文件存儲并對存入的文件進行保護和檢索的系統(tǒng)。具體地說,它負(fù)責(zé)為用戶建立文件,存入、讀出、修改、轉(zhuǎn)儲文件,控制文件的存取,當(dāng)用戶不再使用時撤銷文件等。我們平時在計算機上使用的WORD文件、PPT文件、文本文件、音頻文件、視頻文件等,都是由操作系統(tǒng)中的文件系統(tǒng)進行統(tǒng)一管理的A

B

1.文件系統(tǒng)3.3.1傳統(tǒng)的數(shù)據(jù)存儲和管理技術(shù)數(shù)據(jù)的概念2.關(guān)系數(shù)據(jù)庫除了文件系統(tǒng)之外,數(shù)據(jù)庫是另外一種主流的數(shù)據(jù)存儲和管理技術(shù)。數(shù)據(jù)庫指的是以一定方式儲存在一起、能為多個用戶共享、具有盡可能小的冗余度、與應(yīng)用程序彼此獨立的數(shù)據(jù)集合。在數(shù)據(jù)庫的發(fā)展歷史上,先后出現(xiàn)過網(wǎng)狀數(shù)據(jù)庫、層次數(shù)據(jù)庫、關(guān)系數(shù)據(jù)庫等不同類型的數(shù)據(jù)庫,這些數(shù)據(jù)庫分別采用了不同的數(shù)據(jù)模型,目前比較主流的數(shù)據(jù)庫是關(guān)系數(shù)據(jù)庫,它采用了關(guān)系數(shù)據(jù)模型來組織和管理數(shù)據(jù)。3.3.1傳統(tǒng)的數(shù)據(jù)存儲和管理技術(shù)數(shù)據(jù)的概念2.關(guān)系數(shù)據(jù)庫AB一個關(guān)系數(shù)據(jù)庫可以看成是許多關(guān)系表的集合,每個關(guān)系表可以看成一張二維表格目前市場上常見的關(guān)系數(shù)據(jù)庫產(chǎn)品包括Oracle、SQLServer、MySQL、DB2等3.3.1傳統(tǒng)的數(shù)據(jù)存儲和管理技術(shù)數(shù)據(jù)的概念學(xué)號姓名性別年齡考試成績95001張三男218895002李四男229595003王梅女227395004林莉女2196表

學(xué)生信息表2.關(guān)系數(shù)據(jù)庫3.3.1傳統(tǒng)的數(shù)據(jù)存儲和管理技術(shù)數(shù)據(jù)的概念3.數(shù)據(jù)倉庫圖

數(shù)據(jù)倉庫體系架構(gòu)數(shù)據(jù)倉庫(DataWarehouse)是一個面向主題的、集成的、相對穩(wěn)定的、反映歷史變化的數(shù)據(jù)集合,用于支持管理決策3.3.1傳統(tǒng)的數(shù)據(jù)存儲和管理技術(shù)數(shù)據(jù)庫數(shù)據(jù)倉庫數(shù)據(jù)倉庫是面向主題設(shè)計的數(shù)據(jù)庫是面向事務(wù)的設(shè)計數(shù)據(jù)庫一般存儲在線交易數(shù)據(jù)數(shù)據(jù)倉庫存儲的一般是歷史數(shù)據(jù)3.3.1傳統(tǒng)的數(shù)據(jù)存儲和管理技術(shù)數(shù)據(jù)的概念4.并行數(shù)據(jù)庫并行數(shù)據(jù)庫是指那些在無共享的體系結(jié)構(gòu)中進行數(shù)據(jù)操作的數(shù)據(jù)庫系統(tǒng)這些系統(tǒng)大部分采用了關(guān)系數(shù)據(jù)模型并且支持SQL語句查詢,但為了能夠并行執(zhí)行SQL的查詢操作,系統(tǒng)中采用了兩個關(guān)鍵技術(shù):關(guān)系表的水平劃分和SQL查詢的分區(qū)執(zhí)行并行數(shù)據(jù)庫系統(tǒng)的目標(biāo)是高性能和高可用性,通過多個節(jié)點并行執(zhí)行數(shù)據(jù)庫任務(wù),提高整個數(shù)據(jù)庫系統(tǒng)的性能和可用性3.3.1傳統(tǒng)的數(shù)據(jù)存儲和管理技術(shù)數(shù)據(jù)的概念4.并行數(shù)據(jù)庫數(shù)據(jù)轉(zhuǎn)移的代價是昂貴并行數(shù)據(jù)庫缺點彈性差容錯性差轉(zhuǎn)移成本高集群處理差3.3.2大數(shù)據(jù)時代的數(shù)據(jù)存儲和管理技術(shù)數(shù)據(jù)的概念1.分布式文件系統(tǒng)分布式文件系統(tǒng)(DistributedFileSystem)是一種通過網(wǎng)絡(luò)實現(xiàn)文件在多臺主機上進行分布式存儲的文件系統(tǒng)圖分布式文件系統(tǒng)的整體結(jié)構(gòu)3.3.2大數(shù)據(jù)時代的數(shù)據(jù)存儲和管理技術(shù)數(shù)據(jù)的概念1.分布式文件系統(tǒng)谷歌開發(fā)了分布式文件系統(tǒng)GFS,通過網(wǎng)絡(luò)實現(xiàn)文件在多臺機器上的分布式存儲,較好地滿足了大規(guī)模數(shù)據(jù)存儲的需求。Hadoop分布式文件系統(tǒng)HDFS是針對GFS的開源實現(xiàn),它是Hadoop兩大核心組成部分之一,提供了在廉價服務(wù)器集群中進行大規(guī)模分布式文件存儲的能力。3.3.2大數(shù)據(jù)時代的數(shù)據(jù)存儲和管理技術(shù)數(shù)據(jù)的概念2.NewSQL和NoSQL數(shù)據(jù)庫

(1)NewSQL數(shù)據(jù)庫NewSQL簡介NewSQL是對各種新的可擴展、高性能數(shù)據(jù)庫的簡稱,這類數(shù)據(jù)庫不僅具有對海量數(shù)據(jù)的存儲管理能力,還保持了傳統(tǒng)數(shù)據(jù)庫支持ACID和SQL等.特性不同的NewSQL數(shù)據(jù)庫有兩個顯著的共同特點:都支持關(guān)系數(shù)據(jù)模型;都使用SQL作為其主要的接口。在眾多NewSQL數(shù)據(jù)庫中,Spanner備受矚目,它是一個可擴展、多版本、全球分布式并且支持同步復(fù)制的數(shù)據(jù)庫,是Google的第一個可以全球擴展并且支持外部一致性的數(shù)據(jù)庫。代表性的NewSQL數(shù)據(jù)庫3.3.2大數(shù)據(jù)時代的數(shù)據(jù)存儲和管理技術(shù)數(shù)據(jù)的概念2.NewSQL和NoSQL數(shù)據(jù)庫

(2)NoSQL數(shù)據(jù)庫NoSQL數(shù)據(jù)庫沒有固定的表結(jié)構(gòu),通常也不存在連接操作,也沒有嚴(yán)格遵守ACID約束,因此,與關(guān)系數(shù)據(jù)庫相比,NoSQL具有靈活的水平可擴展性,可以支持海量數(shù)據(jù)存儲NoSQL是一種不同于關(guān)系數(shù)據(jù)庫的數(shù)據(jù)庫管理系統(tǒng)設(shè)計方式,是對非關(guān)系型數(shù)據(jù)庫的統(tǒng)稱,它所采用的數(shù)據(jù)模型并非傳統(tǒng)關(guān)系數(shù)據(jù)庫的關(guān)系模型,而是類似鍵/值、列族、文檔等非關(guān)系模型3.3.2大數(shù)據(jù)時代的數(shù)據(jù)存儲和管理技術(shù)數(shù)據(jù)的概念數(shù)據(jù)的概念2.NewSQL和NoSQL數(shù)據(jù)庫(2)NoSQL數(shù)據(jù)庫靈活的可擴展性靈活的數(shù)據(jù)模型與云計算緊密融合NoSQL優(yōu)點3.3.2大數(shù)據(jù)時代的數(shù)據(jù)存儲和管理技術(shù)數(shù)據(jù)的概念2.NewSQL和NoSQL數(shù)據(jù)庫(3)大數(shù)據(jù)引發(fā)數(shù)據(jù)庫架構(gòu)變革圖

大數(shù)據(jù)引發(fā)數(shù)據(jù)處理架構(gòu)變革3.4數(shù)據(jù)處理與分析提綱數(shù)據(jù)挖掘和機器學(xué)習(xí)算法

大數(shù)據(jù)處理與分析技術(shù)3.4.13.4.23.4.1數(shù)據(jù)挖掘和機器學(xué)習(xí)算法數(shù)據(jù)挖掘和機器學(xué)習(xí)算法數(shù)據(jù)挖掘和機器學(xué)習(xí)是計算機學(xué)科中最活躍的研究分支之一。機器學(xué)習(xí)是一門多領(lǐng)域交叉學(xué)科,涉及概率論、統(tǒng)計學(xué)、逼近論、凸分析、算法復(fù)雜度理論等多門學(xué)科,專門研究計算機怎樣模擬或?qū)崿F(xiàn)人類的學(xué)習(xí)行為,以獲取新的知識或技能,重新組織已有的知識結(jié)構(gòu)使之不斷改善自身的性能,它是人工智能的核心,是使計算機具有智能的根本途徑,其應(yīng)用遍及人工智能的各個領(lǐng)域。數(shù)據(jù)挖掘是指從大量的數(shù)據(jù)中通過算法搜索隱藏于其中信息的過程。數(shù)據(jù)挖掘可以視為機器學(xué)習(xí)與數(shù)據(jù)庫的交叉,它主要利用機器學(xué)習(xí)界提供的算法來分析海量數(shù)據(jù),利用數(shù)據(jù)庫界提供的存儲技術(shù)來管理海量數(shù)據(jù)。從知識的來源角度而言,數(shù)據(jù)挖掘領(lǐng)域的很多知識也“間接”來自于統(tǒng)計學(xué)界3.4.1數(shù)據(jù)挖掘和機器學(xué)習(xí)算法典型的機器學(xué)習(xí)和數(shù)據(jù)挖掘算法3.4.1分類聚類回歸分析關(guān)聯(lián)規(guī)則3.4.2大數(shù)據(jù)處理與分析技術(shù)由于企業(yè)內(nèi)部存在多種不同的應(yīng)用場景,因此,大數(shù)據(jù)處理的問題復(fù)雜多樣,單一的技術(shù)是無法滿足不同類型的計算需求的,MapReduce其實只是大數(shù)據(jù)處理技術(shù)中的一種3.4.2大數(shù)據(jù)處理與分析技術(shù)批處理計算流計算圖計算查詢分析計算3.4.2大數(shù)據(jù)處理與分析技術(shù)大數(shù)據(jù)處理分析技術(shù)類型及其代表產(chǎn)品大數(shù)據(jù)計算模式解決問題代表產(chǎn)品批處理計算針對大規(guī)模數(shù)據(jù)的批量處理MapReduce、Spark等流計算針對流數(shù)據(jù)的實時計算Storm、S4、Flume、Streams、Puma、DStream、SuperMario、銀河流數(shù)據(jù)處理平臺等圖計算針對大規(guī)模圖結(jié)構(gòu)數(shù)據(jù)的處理Pregel、GraphX、Giraph、PowerGraph、Hama、GoldenOrb等查詢分析計算大規(guī)模數(shù)據(jù)的存儲管理和查詢分析Dremel、Hive、Cassandra、Impala等3.5數(shù)據(jù)可視化提綱3.5.1數(shù)據(jù)可視化的概念與作用3.5.2數(shù)據(jù)可視化案例3.5.1數(shù)據(jù)可視化的概念數(shù)據(jù)可視化是指將大型數(shù)據(jù)集中的數(shù)據(jù)以圖形圖像形式表示,并利用數(shù)據(jù)分析和開發(fā)工具發(fā)現(xiàn)其中未知信息的處理過程數(shù)據(jù)可視化技術(shù)的基本思想是將數(shù)據(jù)庫中每一個數(shù)據(jù)項作為單個圖元素表示,大量的數(shù)據(jù)集構(gòu)成數(shù)據(jù)圖像,同時將數(shù)據(jù)的各個屬性值以多維數(shù)據(jù)的形式表示,可以從不同的維度觀察數(shù)據(jù),從而對數(shù)據(jù)進行更深入的觀察和分析數(shù)據(jù)可視化概念3.5.2數(shù)據(jù)可視化的重要作用數(shù)據(jù)可視化的作用依靠可視化手段進行數(shù)據(jù)分析必將成為大數(shù)據(jù)分析流程的主要環(huán)節(jié)之一。讓“茫茫數(shù)據(jù)”以可視化的方式呈現(xiàn),讓枯燥的數(shù)據(jù)以簡單友好的圖表形式展現(xiàn)出來,可以讓數(shù)據(jù)變得更加通俗易懂,有助于用戶更加方便快捷地理解數(shù)據(jù)的深層次含義,有效參與復(fù)雜的數(shù)據(jù)分析過程,提升數(shù)據(jù)分析效率,改善數(shù)據(jù)分析效果。3.5.2數(shù)據(jù)可視化的重要作用數(shù)據(jù)可視化的作用(1)觀測、跟蹤數(shù)據(jù)圖

百度地圖顯示的北京市實時交通路況信息3.5.2數(shù)據(jù)可視化的重要作用數(shù)據(jù)可視化的作用(2)分析數(shù)據(jù)圖

用戶參與的可視化分析過程3.5.2數(shù)據(jù)可視化的重要作用數(shù)據(jù)可視化的作用(3)輔助理解數(shù)據(jù)圖

微軟“人立方”展示的人物關(guān)系圖3.5.2數(shù)據(jù)可視化的重要作用數(shù)據(jù)可視化的作用(4)增強數(shù)據(jù)吸引力圖

一個可視化的圖表新聞實例3.5.3數(shù)據(jù)可視化案例1234全球黑客活動互聯(lián)網(wǎng)地圖編程語言之間的影響力關(guān)系圖世界國家健康與財富之間的關(guān)系3.5.3數(shù)據(jù)可視化案例1.互聯(lián)網(wǎng)地圖為了探究互聯(lián)網(wǎng)這個龐大的宇宙,俄羅斯工程師RuslanEnikeev根據(jù)2011年底的數(shù)據(jù),將全球196個國家的35萬個網(wǎng)站數(shù)據(jù)整合起來,并根據(jù)200多萬個網(wǎng)站鏈接將這些“星球”通過關(guān)系鏈聯(lián)系起來,每一個“星球”的大小根據(jù)其網(wǎng)站流量來決定,而“星球”之間的距離遠(yuǎn)近則根據(jù)鏈接出現(xiàn)的頻率、強度和用戶跳轉(zhuǎn)時創(chuàng)建的鏈接來確定,由此繪制得到了“互聯(lián)網(wǎng)地圖”()。圖

俄羅斯工程師繪制的“互聯(lián)網(wǎng)

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論