大數據職業發展方向_第1頁
大數據職業發展方向_第2頁
大數據職業發展方向_第3頁
大數據職業發展方向_第4頁
大數據職業發展方向_第5頁
已閱讀5頁,還剩8頁未讀 繼續免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

1、大數據職業發展方向一、大數據的概念及特點:大數據本身就是一個很抽象的概念,提及大數據很多人也只能從數據量上去感知大數據的規模,大數據被定義為“代表著人類認知過程的進步,數據集的規模是無法在可容忍的時間內用目前的技術、方法和理論去獲取、管理、處理的數據。大數據不是一種新技術,也不是一種新產品,而是一種新現象,是近來研究的一個技術熱點。大數據具有以下4個特點,即4個“V”: (1) 數據體量(Volumes) 巨大。大型數據集,從TB級別,躍升到PB級別。 (2) 數據類別(Variety) 繁多。數據來自多種數據源,數據種類和格式沖破了以前所限定的結構化數據范疇,囊括了半結構化和非結構化數據。

2、(3) 價值(Value) 密度低。以視頻為例,連續不間斷監控過程中,可能有用的數據僅僅一兩秒鐘。 (4) 處理速度(Velocity) 快。包含大量在線或實時數據分析處理的需求,1秒定律。最后這一點也是和傳統的數據挖掘技術有著本質的不同。物聯網、云計算、移動互聯網、車聯網、手機、平板電腦、PC以及遍布地球各個角落的各種各樣的傳感器,無一不是數據來源或者承載的方式。二、大數據處理流程: 從大數據的特征和產生領域來看,大數據的來源相當廣泛,由此產生的數據類型和應用處理方法千差萬別。但是總的來說,大數據的基本處理流程大都是一致的。整個處理流程可以概括為四步,分別是采集、導入和預處理、統計和分析,最

3、后是數據挖掘。三、大數據分解結構: 第一層面是理論,理論是認知的必經途徑,也是被廣泛認同和傳播的基線。我會從大數據的特征定義理解行業對大數據的整體描繪和定性;從對大數據價值的探討來深入解析大數據的珍貴所在;從對大數據的現在和未來去洞悉大數據的發展趨勢;從大數據隱私這個特別而重要的視角審視人和數據之間的長久博弈。第二層面是技術,技術是大數據價值體現的手段和前進的基石。我將分別從云計算、分布式處理技術、存儲技術和感知技術的發展來說明大數據從采集、處理、存儲到形成結果的整個過程。第三層面是實踐,實踐是大數據的最終價值體現。 。四、大數據相關的技術:1、云技術大數據常和云計算聯系到一起,因為實時的大型

4、數據集分析需要分布式處理框架來向數十、數百或甚至數萬的電腦分配工作。可以說,云計算充當了工業革命時期的發動機的角色,而大數據則是電。2、分布式處理技術:分布式處理系統可以將不同地點的或具有不同功能的或擁有不同數據的多臺計算機用通信網絡連接起來,在控制系統的統一管理控制下,協調地完成信息處理任務-這就是分布式處理系統的定義。目前最常用的是Hadoop技術,Hadoop是一個實現了MapReduce模式的能夠對大量數據進行分布式處理的軟件框架,是以一種可靠、高效、可伸縮的方式進行處理的。Hadoop用到的一些技術有:HDFS: Hadoop分布式文件系統(Distributed File Syst

5、em) - HDFS (HadoopDistributed File System)MapReduce:并行計算框架HBase: 類似Google BigTable的分布式NoSQL列數據庫。Hive:數據倉庫工具。Zookeeper:分布式鎖設施,提供類似Google Chubby的功能。Avro:新的數據序列化格式與傳輸工具,將逐步取代Hadoop原有的IPC機制。Pig:大數據分析平臺,為用戶提供多種接口。Ambari:Hadoop管理工具,可以快捷的監控、部署、管理集群。Sqoop:用于在Hadoop與傳統的數據庫間進行數據的傳遞。3、存儲技術大數據可以抽象的分為大數據存儲和大數據分析

6、,這兩者的關系是:大數據存儲的目的是支撐大數據分析。4、感知技術大數據的采集和感知技術的發展是緊密聯系的。以傳感器技術,指紋識別技術,RFID技術,坐標定位技術等為基礎的感知能力提升同樣是物聯網發展的基石。五、大數據人才方向:目前,大數據方面主要有五大人才方向: 大數據核心研發方向(系統研發); 大數據性能調優方向; 大數據挖掘、分析方向; 大數據運維、云計算方向 數據分析師方向(CDA、CPDA)大數據是一項基于Java的分布式架構技術,用來管理及分析海量數據。大數據核心研發(系統研發)方向:基礎課程篇:1、 Java基礎課程(大數據任何方向必學內容)2、 Linux基礎基礎課程(大數據任何

7、方向必學內容)3、 Shell編程從程序員的角度來看, Shell本身是一種用C語言編寫的程序,從用戶的角度來看,Shell是用戶與Linux操作系統溝通的橋梁。用戶既可以輸入命令執行,又可以利用 Shell腳本編程,完成更加復雜的操作。軟件語言篇:4、 Hadoop是一個開發和運行處理大規模數據的軟件平臺,是Appach的一個用java語言實現開源軟件框架,實現在大量計算機組成的集群中對海量數據進行分布式計算。5、 HDFS6、 YARN7、 MapReduce8、 ETL(數據倉庫技術)9、 Hive(數據倉庫工具)10、Sqoop11、Flume12、HBase13、Storm14、Sc

8、ala15、KafkaMQ16、Spark17、Spark核心源碼剖析18、CM管理19、CDH集群HDFSHadoop分布式文件系統(HDFS)被設計成適合運行在通用硬件(commodity hardware)上的分布式文件系統。全 稱: Hadoop Distributed File System 簡 稱: hdfs 實 質: 分布式文件系統 作 用: 作為Apache Nutch的基礎架構 特 點: 高容錯性 適 用: 大規模數據集原 理: HDFS就像一個傳統的分級文件系統。可以創建、刪除、移動或重命名文件,等等。HDFS是Hadoop兼容最好的標準文件系統,因為Hadoop是一個綜合

9、性的文件系統抽象,所以HDFS不是Hadoop必須的。所以也可以理解為Hadoop是一個框架,HDFS是Hadoop中的一個部件。優 點:1)存儲超大文件,存儲文件為TB,甚至PB;2)流式數據讀取,一次寫入多次讀取,是最高效的訪問模式;3)商用硬件,設計運行普通的廉價的PC上。缺 點:1)數據訪問延遲高,設計于大吞吐量數據的,這是以一定的延遲為代價; 2)文件數受限,存儲的文件總數受限于NameNode的內存容量; 3)不支持多用戶寫入,也不支持任意修改文件。替代品:1)DataStax不是文件系統,而是一個開源的代碼,NoSQL鍵/值存儲,依靠快速的數據訪問。 2)CEPH 一個開源代碼,

10、是一家名為Inktank做多種存儲系統的商業軟件。其特點是高性能并行文件系統。 3)Dispersed Storage Network Cleversafe這一新產品將Hadoop MapReduce與企業分散存儲網絡系統相融合。跨過集群完全分配元數據,也不依賴于復制,Cleversafe認為與HDFS相比,Dispersed Storage Network的速度更快,更可靠。 4)Lustre 是一個開發源代碼的高性能文件系統,一些人聲稱在性能敏感區域其可以作為HDFS的一個替代方案。YARN Apache Hadoop YARN (另一種資源協調者)是一種新的 Hadoop 資源管理器,它

11、是一個通用資源管理系統,可為上層應用提供統一的資源管理和調度,它的引入為集群在利用率、資源統一管理和數據共享等方面帶來了巨大好處。YARN從某種那個意義上來說應該算做是一個云操作系統,它負責集群的資源管理。實 質:一種新的Hadoop資源管理器作 用:修復MapReduce實現里的明顯不足,并對可伸縮性(支持一萬個節點和二十萬個內核的集群)、可靠性和集群利用率進行了提升缺 點:這種架構存在不足,主要表現在大型集群上。當集群包含的節點超過 4,000 個時(其中每個節點可能是多核的),就會表現出一定的不可預測性。其中一個最大的問題是級聯故障,由于要嘗試復制數據和重載活動的節點,所以一個故障會通過

12、網絡泛洪形式導致整個集群嚴重惡化。優 點:大大減小了 JobTracker(也就是現在的 ResourceManager)的資源消耗,并且讓監測每一個 Job 子任務 (tasks) 狀態的程序分布式化了,更安全、更優美。MapReduce MapReduce是一種編程模型,用于大規模數據集(大于1TB)的并行運算。概念"Map(映射)"和"Reduce(歸約)",是它們的主要思想,都是從函數式編程語言里借來的,還有從矢量編程語言里借來的特性。它極大地方便了編程人員在不會分布式并行編程的情況下,將自己的程序運行在分布式系統上。本 質:一種編程模型 用 途

13、:大規模數據集的并行運算 特 點:分布可靠應 用:大規模的算法圖形處理、文字處理等主要功能:1)數據劃分和計算任務調度; 2)數據/代碼互定位; 3)系統優化; 4)出錯檢測和恢復。技術特點:1)向“外”橫向擴展,而非向“上”縱向擴展 2)失效被認為是常態3)把處理向數據遷移4)順序處理數據、避免隨機訪問數據5)為應用開發者隱藏系統層細節6)平滑無縫的可擴展性 ETL(數據倉庫技術) 用來描述將數據從來源端經過抽取(extract)、轉換(transform)、加載(load)至目的端的過程。ETL一詞較常用在數據倉庫,但其對象并不限于數據倉庫。 ETL是構建數據倉庫的重要一環,用戶從數據源抽

14、取出所需的數據,經過數據清洗,最終按照預先定義好的數據倉庫模型,將數據加載到數據倉庫中去。軟件名稱:Extract-Transform-Load 過 程:數據抽取、清洗、轉換、裝載 應 用:Informatica、Datastage、OWB、 數據集成:快速實現ETL特 性:正確性、完整性、一致性、完備性、有效性、時效性和可獲取性等幾個特性。影響特性原因:業務系統不同時期系統之間數據模型不一致;業務系統不同時期業務過程有變化;舊系統模塊在運營、人事、財務、辦公系統等相關信息的不一致;遺留系統和新業務、管理系統數據集成不完備帶來的不一致性。轉換過程:1)空值處理:可捕獲字段空值,進行加載或替換為

15、其他含義數據,并可根據字段空值實現分流加載到不同目標庫。2)規范化數據格式:可實現字段格式約束定義,對于數據源中時間、數值、字符等數據,可自定義加載格式。3)拆分數據:依據業務需求對字段可進行分解4)驗證數據正確性:可利用Lookup及拆分功能進行數據驗證5)數據替換:對于因業務因素,可實現無效數據、缺失數據的替換。6)Lookup:查獲丟失數據 Lookup實現子查詢,并返回用其他手段獲取的缺失字段,保證字段完整性。7)建立ETL過程的主外鍵約束:對無依賴性的非法數據,可替換或導出到錯誤數據文件中,保證主鍵唯一記錄的加載。功能特點:1)管理簡單2)標準定義數據3)拓展新型應用Hive(數據倉

16、庫工具)hive是基于Hadoop的一個數據倉庫工具,可以將結構化的數據文件映射為一張數據庫表,并提供簡單的sql查詢功能,可以將sql語句轉換為MapReduce任務進行運行。Hive是建立在 Hadoop 上的數據倉庫基礎構架。它提供了一系列的工具,可以用來進行數據提取轉化加載(ETL),這是一種可以存儲、查詢和分析存儲在 Hadoop 中的大規模數據的機制。兼容性: hadoop生態圈 依 賴: jdk,hadoop 定 義: 在 Hadoop 上的數據倉庫基礎構架適 用: Hive 構建在基于靜態批處理的Hadoop 之上,Hadoop 通常都有較高的延遲并且在作業提交和調度的時候需要

17、大量的開銷。因此,Hive 并不能夠在大規模數據集上實現低延遲快速的查詢。特 性:1)支持索引,加快數據查詢。2)不同的存儲類型,例如,純文本文件、HBase 中的文件。3)將元數據保存在關系數據庫中,大大減少了在查詢過程中執行語義檢查的時間。4)可以直接使用存儲在Hadoop 文件系統中的數據。5)內置大量用戶函數UDF 來操作時間、字符串和其他的數據挖掘工具,支持用戶擴展UDF 函數來完成內置函數無法實現的操作。6)類SQL 的查詢方式,將SQL 查詢轉換為MapReduce 的job 在Hadoop集群上執行。體系結構:1)用戶接口用戶接口主要有三個:CLI,Client 和 WUI 2

18、)元數據存儲Hive 將元數據存儲在數據庫中,如 mysql、derby 3)解釋器、編譯器、優化器、執行器解釋器、編譯器、優化器完成 HQL 查詢語句從詞法分析、語法分析、編譯、優化以及查詢計劃的生成。生成的查詢計劃存儲在 HDFS 中,并在隨后由 MapReduce 調用執行。SqoopSqoop是一款開源的工具,主要用于在Hadoop(Hive)與傳統的數據庫(mysql、postgresql.)間進行數據的傳遞,可以將一個關系型數據庫(例如 : MySQL ,Oracle ,Postgres等)中的數據導進到Hadoop的HDFS中,也可以將HDFS的數據導進到關系型數據庫中。 特 點

19、:可以通過hadoop的mapreduce把數據從關系型數據庫中導入數據到HDFS。flume Flume是Cloudera提供的一個高可用的,高可靠的,分布式的海量日志采集、聚合和傳輸的系統,Flume支持在日志系統中定制各類數據發送方,用于收集數據;同時,Flume提供對數據進行簡單處理,并寫到各種數據接受方(可定制)的能力。 中文名:水槽 特 點:聚合和傳輸的系統 實 質:孵化項目是經濟方面的用于,一項鑒定成功,付諸實施的項目。功 能:1)日志收集;2)數據處理 HBase HBase是一個分布式的、面向列的開源數據庫,一個結構化數據的分布式存儲系統。HBase不同于一般的關系數據庫,它

20、是一個適合于非結構化數據存儲的數據庫。另一個不同的是HBase基于列的而不是基于行的模式。 結 構:分布式存儲系統 優 點:HBase Hadoop Database,是一個高可靠性、高性能、面向列、可伸縮的分布式存儲系統,利用HBase技術可在廉價PC Server上搭建起大規模結構化存儲集群。 模 型:邏輯模型主要從用戶角度出發; 物理模型主要從實現Hbase的角度來討論;StormStorm是一個分布式的,可靠的,容錯的數據流處理系統。它會把工作任務委托給不同類型的組件,每個組件負責處理一項簡單特定的任務。Storm集群的輸入流由一個被稱作spout的組件管理,spout把數據傳遞給bo

21、lt, bolt要么把數據保存到某種存儲器,要么把數據傳遞給其它的bolt。優 點:1)簡單的編程模型。類似于MapReduce降低了并行批處理復雜性,Storm降低了進行實時處理的復雜性。2)可以使用各種編程語言。你可以在Storm之上使用各種編程語言。默認支持Clojure、Java、Ruby和Python。要增加對其他語言的支持,只需實現一個簡單的Storm通信協議即可。3)容錯性。Storm會管理工作進程和節點的故障。4)水平擴展。計算是在多個線程、進程和服務器之間并行進行的。5)可靠的消息處理。Storm保證每個消息至少能得到一次完整處理。任務失敗時,它會負責從消息源重試消息。6)快

22、速。系統的設計保證了消息能得到快速的處理,使用ØMQ作為其底層消息隊列。7)本地模式。Storm有一個“本地模式”,可以在處理過程中完全模擬Storm集群。這讓你可以快速進行開發和單元測試。 缺 點:1)單調乏味性; 2)脆弱性; 3)可伸縮性差; 使用性:Storm有許多應用領域,包括實時分析、在線機器學習、信息流處理、連續性的計算、分布式RPC、ETL等。 術 語:Storm的術語包括Stream、Spout、Bolt、Task、Worker、Stream Grouping和Topology。 同 品:可以和Storm相提并論的系統有Esper、Streambase、HStreaming和Yahoo S4。其中和Storm最接近的就是S4。ScalaScala是一門多范式的編程語言,一種類似java的編程語言,設計初衷是實現可伸縮的語言、并集成面向對象編程和函數式編程的各種特性。 類 型:編

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論