第一章 大數據開篇_第1頁
第一章 大數據開篇_第2頁
第一章 大數據開篇_第3頁
第一章 大數據開篇_第4頁
第一章 大數據開篇_第5頁
已閱讀5頁,還剩26頁未讀 繼續免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

第一章大數據開篇1分布式技術大數據課程導論2目錄數據是事實或觀察的結果是對客觀事物的邏輯歸納是用于表示客觀事物的未經加工的原始素材數據的產生對客觀事物的計量和記錄產生數據數據存儲單位1Byte=8bit1K(千)=1024Byte1MB(兆)=1024K1G(吉)=1024M1T(太)=1024G1P(拍)=1024T1E(艾)=1024P1Z(澤)=1024E1Y(堯)=1024Z1B(布)=1024Y1N(諾)=1024B1D(刀)=1024N大數據課程導論大數據概念大數據課程導論大數據概念大數據(bigdata)是指無法在一定時間范圍內用常規軟件工具進行捕捉、管理和處理的數據集合是需要新處理模式才能具有更強的決策力、洞察發現力和流程優化能力的海量、高增長率和多樣化的信息資產。大數據時代

最早提出“大數據”時代到來的是全球知名咨詢公司麥肯錫,其稱:“數據,已經滲透到當今每一個行業和業務職能領域,成為重要的生產因素。人們對于海量數據的挖掘和運用,預示著新一波生產率增長和消費者盈余浪潮的到來。”央視《大數據時代》紀錄片

國內首部大數據產業題材紀錄片,節目細致而生動地講述了大數據技術在政府治理、民生服務、數據安全、工業轉型、未來生活等方面給我們帶來的改變和影響。大數據課程導論大數據概念大數據場景下海量數據如何存儲的問題海量數據如何計算的問題大數據課程導論數據是客觀事實或觀察的結果通過計量和記錄客觀事件而產生數據科技發展邁向了大數據時代大數據時代技術方面的挑戰:存儲、計算大數據概念大數據課程導論大數據的特點(5V特征)VarietyValueVelocity低價值密度速度快采集數據量大存儲數據量大計算數據量大TB、PB級別起步信息海量但是價值密度低深度復雜的挖掘分析需要機器學習參與數據增長速度快獲取數據速度快數據處理速度快VolumeVeracity種類、來源多樣化數據體量大數據的質量種類:結構化、半結構化、非結構化來源:日志文本、圖片、音頻、視頻數據的準確性數據的可信賴度電商領域精準廣告位、個性化推薦、大數據殺熟傳媒領域精準營銷、猜你喜歡、交互推薦金融領域信用評估、風險管控、客戶細分、精細化營銷大數據課程導論大數據應用場景交通領域擁堵預測、智能紅綠燈、導航最優規劃電信領域基站選址優化、輿情監控、客戶用戶畫像安防領域犯罪預防、天網監控醫療領域智慧醫療、疾病預防、病源追蹤大數據課程導論大數據應用場景大數據課程導論大數據業務分析基本步驟數據展現明確分析目的和思路報告撰寫數據收集數據處理數據分析Step1:明確分析目的和思路目的是整個分析流程的起點:

為數據的收集、處理及分析提供清晰的指引方向思路是使分析框架體系化:

先分析什么,后分析什么,使各分析點之間具有邏輯聯系

保證分析維度的完整性,分析結果的有效性以及正確性數據分析方法論:營銷管理相關理論用戶行為理論、PEST分析法、5W2H分析法等大數據課程導論大數據業務分析基本步驟大數據課程導論大數據業務分析基本步驟大數據課程導論大數據業務分析基本步驟Step2:數據收集數據從無到有的過程

比如傳感器收集氣象數據、埋點收集用戶行為數據數據傳輸搬運的過程

比如采集數據庫數據到數據分析平臺大數據課程導論大數據業務分析基本步驟業務數據日志數據爬蟲數據RDBMS服務器、應用日志爬蟲數據庫互聯網公開數據行業、政府網站Step3:數據處理對收集到的數據進行加工整理,形成適合數據分析的樣式

主要包括數據清洗、數據轉化、數據提取、數據計算保證數據的一致性和有效性大數據課程導論大數據業務分析基本步驟Step4:數據分析用適當的分析方法及工具,對處理過的數據進行分析,提取有價值的信息,形成有效結論的過程需要掌握各種數據分析方法,還要熟悉數據分析軟件的操作數據挖掘本質是一種高級的數據分析方法

數據挖掘側重解決四類數據分析問題:分類、聚類、關聯和預測,重點在尋找模式和規律。大數據課程導論大數據業務分析基本步驟Step5:數據展現分析結果直觀展示,人類是視覺動物數據是通過表格和圖形的方式來呈現,用圖表說話大數據課程導論大數據業務分析基本步驟Step6:報告撰寫數據分析報告是對整個數據分析過程的一個總結與呈現把數據分析的起因、過程、結果及建議完整地呈現出來,供決策者參考需要有明確的結論,最好有建議或解決方案大數據課程導論大數據業務分析基本步驟分析步驟的核心:一切圍繞著數據通俗描述:數據從哪里來、數據到哪里去核心步驟:采集、處理、分析、應用大數據業務分析基本步驟大數據課程導論大數據部門組織架構1分布式技術大數據課程導論2科學技術的發展推動下

應用和系統架構的變遷:單機單一架構邁向多機分布式架構

分布式技術為什么需要分布式技術數據大爆炸,海量數據處理場景面臨問題

分布式技術為什么需要分布式技術如何存儲?如何計算?單機存儲有瓶頸多臺機器分布式存儲單機計算能力有限多臺機器分布式計算分布式系統是一個硬件或軟件組件分布在不同的網絡計算機上彼此之間僅僅通過消息傳遞進行通信和協調的系統一群互相獨立計算機集合共同對外提供服務對于系統的用戶來說,就像是一臺計算機在提供服務樣分布式技術分布式系統概述分布式、集群是不同的概念口語中經常混淆二者

分布式技術分布式(Distributed)、集群(Cluster)分布式集群多臺機器每臺機器上部署不同組件多臺機器每臺集群部署相同組件分布式、集群的共同點是:多臺機器因此口語中混淆兩者概念的時候都是相對于單機來說的

分布式技術分布式(Distributed)、集群(Cluster)將負載(工作任務)進行平衡、分攤到多個操作單元上進行運行解決了單個無法處理所有任務,多個一起處理的問題分布式技術負載均衡(LoadBalance)當活動的服務或應用意外終止時,快速啟用冗余或備用的服務器、系統、硬件或者網絡接替它們工作故障轉移系統也稱之為容錯系統,所謂容錯指的是可以容忍錯誤的發生故障轉移的核心是設置備份出現故障時主備切換主備切換的前提是數據狀態保持一致分布式技術故障轉移(FailOver

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論