《Hadoop大數據原理與應用》課件4.課件-第1章大數據概述(2020春)_第1頁
《Hadoop大數據原理與應用》課件4.課件-第1章大數據概述(2020春)_第2頁
《Hadoop大數據原理與應用》課件4.課件-第1章大數據概述(2020春)_第3頁
《Hadoop大數據原理與應用》課件4.課件-第1章大數據概述(2020春)_第4頁
《Hadoop大數據原理與應用》課件4.課件-第1章大數據概述(2020春)_第5頁
已閱讀5頁,還剩35頁未讀 繼續免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

第1章大數據概述《Hadoop大數據原理與應用》西安電子科技大學出版社【知識與能力要求】第1章大數據概述1.1大數據內涵1.2大數據特征1.3大數據關鍵技術1.4大數據產業1.5大數據與物聯網、云計算、人工智能、5G的關系1.6大數據崗位介紹1.7大數據學習路線1.1大數據內涵大數據開啟了時代轉型1.1大數據內涵大數據概念維克托·邁爾-舍恩伯格及肯尼斯·庫克耶:大數據是不用隨機分析法(抽樣調查)這樣捷徑,而采用所有數據進行分析處理。大數據研究機構Gartner:大數據是需要新處理模式才能具有更強的決策力、洞察發現力和流程優化能力來適應海量、高增長率和多樣化的信息資產。麥肯錫全球研究所:一種規模大到在獲取、存儲、管理、分析方面大大超出了傳統數據庫軟件工具能力范圍的數據集合,具有海量的數據規模、快速的數據流轉、多樣的數據類型和價值密度低四大特征。大數據是大規模數據的集合體,是數據對象、數據集成技術、數據分析應用、商業模式、思維創新的統一體,也是一門捕捉、管理和處理數據的技術,它代表著一種全新的思維方式。1.1大數據內涵大數據的內涵從對象角度來看,大數據是數據規模超出傳統數據庫處理能力的數據集合。從技術角度來看,大數據是從海量數據中快速獲得有價值信息的技術。從應用角度來看,大數據是對特定數據集合應用相關技術獲得價值的行為。從商業模式角度來看,大數據是企業獲得商業價值的業務創新方向。從思維方式來看,大數據是從第三范式中分離出來的一種科研范式。1.1大數據內涵科學研究四范式1.2大數據特征大數據4V特征BigDataVarietyValueVelocityVolume1.2.1Volume大數據的體量非常大,PB級別將是常態,且增長速度較快。據IDC于2018年11月發布的《數據時代2025》報告預測,全球數據總量將從2018年的33ZB增至2025年的175ZB,相當于每天產生491EB的數據。1.2.2Variety大數據種類繁多,一般包括結構化、半結構化和非結構化等多種類型的數據。例如:網絡日志、視頻、圖片、地理位置信息等。這些數據在編碼方式、數據格式、應用特征等多個方面存在差異性,多信息源的并發形成了大量的異構數據,不同結構的數據處理和分析方式也有所區別。1.2.3Velocity數據的快速流動和處理是大數據區分于傳統數據挖掘的顯著特征。例如:涉及感知、傳輸、決策、控制開放式循環的大數據,對數據實時處理有著極高的要求,通過傳統數據庫查詢方式得到的當前結果很可能已經沒有價值。因此,大數據更強調實時分析而非批量式分析,數據輸入后即刻處理,處理后丟棄。1.2.4Value大數據價值密度的高低與數據總量大小成反比,單條數據本身并無太多價值,但龐大的數據量累積并隱藏了巨大的財富。其價值具備稀疏性、多樣性和不確定性等特點。例如:在連續不間斷監控過程中,可能有用的數據僅僅只有一兩秒,但是無法事先知道哪一秒是有價值的。1.3大數據關鍵技術1.3.1大數據采集技術大數據智能感知層:主要包括數據傳感體系、網絡通信體系、傳感適配體系、智能識別體系及軟硬件資源接入系統。基礎支撐層:提供大數據服務平臺所需的虛擬服務器,結構化、半結構化及非結構化數據的數據庫及物聯網絡資源等基礎支撐環境。1.3.1大數據采集技術大數據采集系統系統日志采集系統網絡數據采集系統數據庫采集系統1.3.2大數據預處理技術為什么要處理?salary=“-10”age=“42”Birthday=“03/07/2019”怎么處理?辨析抽取清洗歸約變換離散化集成1.3.3大數據存儲及管理技術復雜結構化半結構化非結構化1.3.3大數據存儲及管理技術研究重點是復雜的結構化、半結構化和非結構化的大數據管理與處理技術,這些技術包括分布式存儲技術,異構數據的數據融合技術,數據組織技術,大數據建模技術,大數據索引技術,大數據移動、備份、復制等。新型數據庫技術關系型數據庫:傳統關系數據庫系統以及NewSQL數據庫。非關系型數據庫:NoSQL數據庫,通常包括鍵值數據庫、列式數據庫、文檔數據庫和圖數據庫四類。數據庫緩存系統:Memcache、Redis等。1.3.4大數據分析及挖掘技術大數據分析指對規模巨大的數據用適當的統計方法進行分析,提取有用的信息和形成結論。數據挖掘就是從大量的、不完全的、有噪聲的、模糊的、隨機的實際應用數據中,提取隱含在其中的、人們事先不知道的、但又潛在有用的信息和知識的過程。1.3.5大數據展現與應用技術商業智能政府決策公共服務1.4大數據產業大數據產業指以數據生產、采集、存儲、加工、分析、服務為主的相關經濟活動。數據資源建設大數據軟硬件產品的開發銷售和租賃活動相關信息技術服務1.4.1大數據產業支撐體系建設現有數據中心資源網絡基礎設施建設升級大數據產業公共服務平臺第三方機構測試認證平臺大數據開源社區大數據產業發展評估體系1.4.2大數據標準體系建設圍繞大數據標準化的重大需求,開展數據資源分類、開放共享、交易、標識、統計、產品評價、數據能力、數據安全等基礎通用標準以及工業大數據等重點應用領域相關國家標準的研制。建立標準試驗驗證和符合性檢測平臺,開展數據開放共享、產品評價、數據能力成熟度、數據質量、數據安全等關鍵標準的試驗驗證和符合性檢測。1.4.3大數據技術產品研發以大數據關鍵技術研發為抓手,圍繞數據科學理論體系、大數據計算系統與分析、大數據應用模型等領域進行,加強大數據基礎研究。以大數據應用為牽引,結合數據生命周期管理需求,培育大數據采集與集成、大數據分析與挖掘、大數據交互感知、基于語義理解的數據資源管理等平臺產品。1.4.4工業大數據創新應用推動大數據在產品全生命周期和全產業鏈的應用,推進工業大數據與自動控制和感知硬件、工業核心軟件、工業互聯網、工業云和智能服務平臺融合發展,形成數據驅動的工業發展新模式。加快工業大數據基礎設施建設。推進工業大數據全流程應用。培育數據驅動的制造業新模式。1.4.5加快大數據產業主體培育利用大數據助推創新創業。構建企業協同發展格局。優化大數據產業區域布局。1.4.6大數據安全保障加強大數據安全技術產品研發。提升大數據對網絡信息安全的支撐能力。1.5大數據與物聯網、云計算、人工智能、5G的關系物聯網、云計算和5G是大數據的底層架構,大數據依賴云計算來處理大數據,人工智能是大數據的場景應用。云端互聯云端互聯1.5大數據與物聯網、云計算、人工智能、5G的關系—物聯網設備網絡平臺分析應用安全1.5大數據與物聯網、云計算、人工智能、5G的關系—云計算云計算的核心是服務IaaSPaaSSaaS1.5大數據與物聯網、云計算、人工智能、5G的關系—大數據大數據是物聯網、Web和傳統信息系統發展的必然結果,大數據在技術體系上與云計算重點都是分布式存儲和分布式計算,云計算注重服務,大數據則注重數據的價值化操作。1.5大數據與物聯網、云計算、人工智能、5G的關系—人工智能人工智能(ArtificialIntelligence,AI)是研究、開發用于模擬、延伸和擴展人的智能的理論、方法、技術及應用系統的一門新的技術科學。人工智能其實就是大數據、云計算的一個應用場景。人工智能則包含了機器學習,從被動到主動,從模式化實行指令,到自主判斷根據情況實行不同的指令。1.5大數據與物聯網、云計算、人工智能、5G的關系—5G5G是第五代移動電話行動通信標準,也稱第五代移動通信技術,它提供了基礎的通信服務支撐。5G以“Gbps用戶體驗速率”為標志性能力指標,包括大規模天線陣列、超密集組網、新型多址、全頻譜接入和新型網絡架構等關鍵技術。5G能夠靈活地支持各種不同的設備,例如5G網絡能夠滿足物聯網、互聯網汽車等產業的快速發展對網絡速度的更高要求,還支持智能手機、智能手表、健身腕帶、智能家庭設備等。1.6大數據崗位介紹大數據管理首席數據官數據管理員數據安全工程師數據倉庫工程師大數據分析戰略分析師數據分析師數據可視化工程師大數據挖掘數據建模工程師數據挖掘工程師算法工程師大技術研發數據采集工程師大數據架構師大數據開發工程師系統開發工程師大數據基礎平臺網絡工程師Hadoop運維工程師數據庫運維工程師系統運維工程師1.6大數據崗位介紹大數據人才所處主要行業互聯網/電子商務/網絡游戲電子信息及軟件和信息服務業通信/電信運營、網絡設備金融、基金、投資、證券教育、培訓、院校專業服務(咨詢、法律、財務、人力資源等)大數據領域崗位需求排行平臺開發/大數據開發/數據分析//數據挖掘智能硬件/硬件系統開發圖像/視覺智能語音/NLP專業技能85%溝通表達能力68%邏輯思維能力54%符合本單位的價值觀和文化36%學校背景29%1.7大數據學習路線1.7大數據學習路線【本章小結】1.理解大數據的概念,了解大數據的內涵。2.理解大數據的4V特征:Volume(海量化)、Variety(多樣化)、Value(價值密度低)、Velocity(快速化)。3.了解大數據處理關鍵技術:大數據采集、大數據預處理、大數據存儲及管理、大數據分析及挖掘、大數據展現和應用

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論