大數(shù)據(jù)采集及預(yù)處理課件_第1頁
大數(shù)據(jù)采集及預(yù)處理課件_第2頁
大數(shù)據(jù)采集及預(yù)處理課件_第3頁
大數(shù)據(jù)采集及預(yù)處理課件_第4頁
大數(shù)據(jù)采集及預(yù)處理課件_第5頁
已閱讀5頁,還剩32頁未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

時(shí)間反復(fù)無常,鼓著翅膀飛逝大數(shù)據(jù)采集及預(yù)處理時(shí)間反復(fù)無常,鼓著翅膀飛逝大數(shù)據(jù)采集及預(yù)處理1大數(shù)據(jù)技術(shù)與應(yīng)用國緝大學(xué)大數(shù)據(jù)技術(shù)與應(yīng)用2第2章大數(shù)據(jù)采集及預(yù)處理國緝大學(xué)第2章大數(shù)據(jù)采集及預(yù)處理3導(dǎo)學(xué)與要求二、重點(diǎn)、難點(diǎn)放據(jù)重點(diǎn)是大數(shù)擼采集的概念大數(shù)據(jù)握大數(shù)據(jù)采集的數(shù)據(jù)來源,了解大采集的數(shù)據(jù)來源和技術(shù)方法。難點(diǎn)是大數(shù)據(jù)預(yù)處理的方法。數(shù)據(jù)采集的技術(shù)方法2.了解大數(shù)據(jù)預(yù)處理的方法和了解大數(shù)據(jù)采集及預(yù)處理的常用工具國緝大學(xué)導(dǎo)學(xué)4數(shù)據(jù)采集簡(jiǎn)介2.1.1數(shù)據(jù)采集大數(shù)據(jù)的數(shù)據(jù)采集是在確定用戶自標(biāo)的基礎(chǔ)上,針對(duì)該范圍內(nèi)所有結(jié)構(gòu)化、半結(jié)構(gòu)化和非結(jié)構(gòu)化的數(shù)據(jù)的采集。傳統(tǒng)的數(shù)據(jù)采集大數(shù)據(jù)的數(shù)據(jù)妹數(shù)據(jù)來源來源單一,數(shù)據(jù)量相對(duì)大數(shù)據(jù)較小來源廣泛,數(shù)據(jù)量巨大數(shù)據(jù)類型豐富數(shù)據(jù)類型結(jié)構(gòu)單包括結(jié)構(gòu)化、半結(jié)構(gòu)化、非結(jié)構(gòu)化數(shù)據(jù)處理關(guān)系型數(shù)據(jù)庫和并行數(shù)據(jù)倉庫分布式數(shù)據(jù)庫≮國緝大學(xué)數(shù)據(jù)采集簡(jiǎn)介5數(shù)據(jù)采集的數(shù)據(jù)來源按照數(shù)據(jù)來源劃分,大數(shù)據(jù)的三大要來源為商業(yè)數(shù)據(jù)、互聯(lián)網(wǎng)數(shù)據(jù)與物聯(lián)網(wǎng)數(shù)據(jù)國緝大學(xué)數(shù)據(jù)采集的數(shù)據(jù)來源6業(yè)數(shù)據(jù)商業(yè)數(shù)據(jù)是指來自于企業(yè)ERP系統(tǒng)、備種POS端及風(fēng)上支付系練等業(yè)務(wù)系紅的數(shù)據(jù),是現(xiàn)在最主要的數(shù)據(jù)來源渠道。國緝大學(xué)業(yè)數(shù)據(jù)7互聯(lián)網(wǎng)數(shù)據(jù)互聯(lián)網(wǎng)數(shù)據(jù)是指網(wǎng)絡(luò)空間交互過程產(chǎn)生的大量數(shù)據(jù),包括通信記錄及QQ微信微博等社交媒體產(chǎn)生的數(shù)據(jù),其數(shù)據(jù)復(fù)雜且難以被利用互聯(lián)網(wǎng)數(shù)據(jù)具有的特點(diǎn)大量化多樣化快速化國緝大學(xué)互聯(lián)網(wǎng)數(shù)據(jù)8物聯(lián)網(wǎng)數(shù)據(jù)物聯(lián)網(wǎng)是指在計(jì)算機(jī)互聯(lián)網(wǎng)的基礎(chǔ)利用時(shí)頻識(shí)別、傳感器、紅外感應(yīng)器、線數(shù)據(jù)通信等技術(shù),構(gòu)造一個(gè)蓋世界上萬事萬物的heInternetofThings,也就是“實(shí)現(xiàn)物物相連的互聯(lián)網(wǎng)絡(luò)”。其內(nèi)涵包含:物聯(lián)網(wǎng)的核心和基礎(chǔ)仍是互聯(lián)網(wǎng),是在互聯(lián)網(wǎng)基礎(chǔ)之上延伸和擴(kuò)展的一種網(wǎng)絡(luò)。用戶端延伸和擴(kuò)展到了任何物品與物品之間,進(jìn)行信息交換和通信國緝大學(xué)物聯(lián)網(wǎng)數(shù)據(jù)9狀網(wǎng)數(shù)據(jù)的特點(diǎn)主要包括:物聯(lián)網(wǎng)中的數(shù)據(jù)量更大〉物聯(lián)網(wǎng)中的數(shù)據(jù)傳輸速率更高物聯(lián)網(wǎng)中的數(shù)據(jù)更加多樣化物聯(lián)網(wǎng)對(duì)數(shù)據(jù)真實(shí)性的要求更高國緝大學(xué)狀網(wǎng)數(shù)據(jù)的特點(diǎn)主要包括:103數(shù)據(jù)采集的技術(shù)方法1.系統(tǒng)日志采集方法很多互聯(lián)網(wǎng)企業(yè)都有自己的海量數(shù)據(jù)采集工具,多用于系統(tǒng)日志采集,如:>Hadoop的ChukwaCloudera的FumeFacebook的Scribe國緝大學(xué)3數(shù)據(jù)采集的技術(shù)方法11大數(shù)據(jù)采集及預(yù)處理課件12大數(shù)據(jù)采集及預(yù)處理課件13大數(shù)據(jù)采集及預(yù)處理課件14大數(shù)據(jù)采集及預(yù)處理課件15大數(shù)據(jù)采集及預(yù)處理課件16大數(shù)據(jù)采集及預(yù)處理課件17大數(shù)據(jù)采集及預(yù)處理課件18大數(shù)據(jù)采集及預(yù)處理課件19大數(shù)據(jù)采集及預(yù)處理課件20大數(shù)據(jù)采集及預(yù)處理課件21大數(shù)據(jù)采集及預(yù)處理課件22大數(shù)據(jù)采集及預(yù)處理課件23大數(shù)據(jù)采集及預(yù)處理課件24大數(shù)據(jù)采集及預(yù)處理課件25大數(shù)據(jù)采集及預(yù)處理課件26大數(shù)據(jù)采集及預(yù)處理課件27大數(shù)據(jù)采集及預(yù)處理課件28大數(shù)據(jù)采集及預(yù)處理課件29大數(shù)據(jù)采集及預(yù)處理課件30大數(shù)據(jù)采集及預(yù)處理課件31大數(shù)據(jù)采集及預(yù)處理課件32大數(shù)據(jù)采集及預(yù)處理課件33大數(shù)據(jù)采集及預(yù)處理課件34大數(shù)據(jù)采集及預(yù)處理課件35大數(shù)據(jù)采集及預(yù)處理課件3641、學(xué)問是異常珍貴的東西,從任何源泉吸收都不可恥?!⒉贰と铡しɡ?/p>

42、只有在人群中間,才能認(rèn)識(shí)自己?!聡?/p>

43、重復(fù)別人所說的話,只需要教育;而要挑戰(zhàn)別人所說的話,則需要頭腦。——瑪麗·佩蒂博恩·普爾

44、卓越的人一大優(yōu)點(diǎn)

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論