




版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
前言緒論一、縱觀大數據發展前景1.人們不再止步于大數據的談論
2014年,大數據止于說的情況將發生改變,人們將致力于從中獲益,所有大數據的炒作也將“煙消云散”。從Gainsight了解到,大數據本身也將成為桌面上的籌碼,Gainsight在其IaaS平臺中利用大數據分析被其稱之為“customersuccessmanagement”的服務。Gainsight認為,在2014年,每家云應用程序提供商都將會讓其后端基礎設施支持大數據。2.Hadoop在大中型企業普及應用將成為企業的關鍵組件
Hadoop將普及,大數據也不會再繼續止步于云服務。Alteryx認為,2014年,Hadoop的適用場景將超越批處理和存儲,將成為企業數據架構中通用的核心組件,這意味著數據分析將繼續成為大數據的首要用例。3.企業將更加鐘情于用戶數據
從Gainsight了解到,各個機構將對用戶數據充滿熱情,企業將充分利用客戶與其在線產品或服務交互產生的數據,并從中獲取價值。為了實現這點,數據分析能力將比BI團隊更受重視,為企業提供更多的價值。
4.大數據為王的時刻將要玩轉市場決策
Alteryx認為,在2014年,大數據將首次正式登陸市場營銷,用于市場營銷的大數據技術將在這一年扮演重要角色——影響著廣告、產品推銷和消費者行為,WorldCup及WinterOlympics將是其最大的舞臺。5.海量的數據將超越數據科學家的意識
Alteryx認為,新型的數據分析需求將超越人力可為,有些情況下大數據技術將堪比成千上萬的數據科學家。該公司預測,這將會毫無疑問的拉低數據科學家薪酬。6.物聯網將進軍網絡
IEEE的專業協會認為,2014年,可識別事物將無縫的連接到信息網絡,實現真正意義上的WebofThings。TheWebofThings將會充分利用移動設備和傳感器的監控能力,增強現實世界中的物體與Web副本之間的協同性。
TheWebofThings將會生成大量與現實世界相關的數據,因而會需求智能化的解決方案在現實世界與相對應的數字世界資源之間賦予連接性、網際互連和相關性。7.從大數據到海量數據
數據的體積、速度和類型(volume、velocity和variety)在2014年將會繼續呈指數級增長,因此需要更簡單的分析工具來駕馭這些“數據洪流”。
IEEE稱,“不止是3個V讓大數據成了非常難以制服的老虎,數據科學家及行業所需簡單工具也是個難題,許多行業尚無獨立提取數據價值的能力。當前已出現的海量數據時代更需求數據管理和分析上新的范式和實踐。2014年,這個領域將上演群雄爭霸。”8.R語言將取代傳統SAS解決方案
Alteryx認為,基于R編程語言的分析將數據科學家“御用”模式,這種分析在2014年將成為主流,將替代傳統的SAS及SPSS模式。Alteryx說道:“超過200萬用戶和300萬的分析師都在尋找更好的解決方案,R恰逢其時。”9.Hadoop將增加實時特性
SQL-on-Hadoop供應商SpliceMachine共同創始人兼CEOMonteZweben指出,未來1年建立在Hadoop平臺上的交互式應用程序將呈爆發式增長,其中包括Web應用、移動應用和社交應用,人們可以與之進行實時的交互。
Zweben說道:“2014將帶來實時大數據應用程序平臺,企業將不會只能像當下一樣分析歷史數據,你將有能力分析5分鐘,甚至是1分鐘之內的數據;企業將擁有交互式應用程序,以便實時的制定決策。”10.Hadoop將得到企業級強化
SpliceMachine的Zweben說:“毋庸置疑,Hadoop是個了不起的平臺,但是仍然有許多工作要做。”他認為,在2014,你將看到Hadoop向安全、運營管理、資源管理及多站點響應方向發展。Zweben補充道:“你將看到所有的企業級需求,我認為這些將是未來主要的焦點。”
11.2014年底,至少有一家NoSQL
IPO
大數據及云環境安全解決方案Gazzang董事長兼CEOLarryWarnock預測,在2014,至少有一家Hadoop或者NoSQL供應商會IPO,這標志著大數據平臺已被廣泛認可。
Warnock說道:“我不會去預測哪家會IPO,但是至少會有一家Hadoop或NoSQL供應商IPO。通過Wikibon了解到,在2012年,NoSQL軟件和服務創造了2.86億美元的稅收,而在2017年,這個數據被預測為18.25億。商場被不斷增長的企業需求推動,他們需要靈活、可擴展及負擔得起的數據管理解決方案,為新時代的云及大數據設計。”
12.一個新的分析堆棧將誕生
Alteryx預測,2014年,將出現一個新的數據及分析堆棧,為數據庫、分析、可視化提供新的解決方案,這將直接威脅到傳統的供應商巨頭,而這些供應商也會在匆忙中推出新的解決方案。二、大數據基礎概論簡介2.1大數據(BigData)是指那些超過傳統數據庫系統處理能力的數據。它的數據規模和轉輸速度要求很高,或者其結構不適合原本的數據庫系統。為了獲取大數據中的價值,我們必須選擇另一種方式來處理它。
數據中隱藏著有價值的模式和信息,在以往需要相當的時間和成本才能提取這些信息。如沃爾瑪或谷歌這類領先企業都要付高昂的代價才能從大數據中挖掘信息。而當今的各種資源,如硬件、云架構和開源軟件使得大數據的處理更為方便和廉價。即使是在車庫中創業的公司也可以用較低的價格租用云服務時間了。
對于企業組織來講,大數據的價值體現在兩個方面:分析使用和二次開發。通過大數據創造出新產品和服務的商業行為并非巧合,谷歌、雅虎、亞馬遜和Facebook,它們都是大數據時代的創新者。
2.2大數據的特征
作為一個包羅萬象的術語,“大數據”相當的含糊不清。同樣的,“云”這個概念也涵蓋了不同的技術。大數據系統的輸入端可以列一個極長的表,包括了社會網絡、Web服務器日志、流量傳感器、衛星圖像、廣播音頻流、銀行交易、搖滾音樂MP3、網頁的內容、政府文件掃描、GPS路線、金融市場數據等等。而這些數據本質上并非是相同的東西。
IBM公司把大數據的特征概括成三個“V”,也就是規模(Volume),快速(Velocity)和多樣(Variety)。這三個方面是觀察數據本質和軟件處理平臺的有用視角。
幾家典型公司的大數據:95%的中國網民,日均響應80%,百度聯盟,60萬聯盟合作伙伴每天有50基礎。變現模式:榜;百度數據中心,廣告站長和開發組提供的百度(移動)統計以及相關的開發者服務工具騰訊則超過億QQ活躍賬戶,4.69億微博用戶和超過1億的視頻用戶、億QQ空間用戶,微信、手機管家等帶來的移動用戶也超過了4億,海外用戶快超過1除卻海量用戶,龐大服務矩陣,化、碎片化、海量化。變現工具只有:騰訊分析和騰訊羅盤馬云宣稱平臺、阿里未來本質上是一個數據公司,電商越來越離不開數據,金融的核心也是、KPI系統、數據門戶、活動直播間、賣家云圖、頁面點擊、黃金策;給客戶提供的數據魔方、無量神針和類目360、淘寶指數最具備劃時代意義的2012年阿里又推出了聚石塔產品可處理的訂單超過天貓總量的20%,比平時增長20倍。應用上走得是最遠的。
2.3規模(Volume)
能處理大數據所獲得的好處在于能對大數據進行分析。更多的數據強于更好的模型,如果你的預測模型可以考慮到300個變量而非僅僅6個變量,其預測能力多半能更為準確。
大數據的規模是傳統IT架構所面臨的直接挑戰。它要求可擴展的存儲和分布式的方法來完成查詢。許多公司已經擁有大量的存檔數據,但卻沒有能力來處理它。傳統的關系數據庫無法處理大數據的規模,目前可選擇的方法包括大規模并行處理架構、數據倉庫、或類似Greenplum的數據庫、以及ApacheHadoop解決方案。其中,數據倉庫比較適合于預先確定的數據結構和變化緩慢的數據。而ApacheHadoop則沒有這些限制。
Hadoop的核心是一個分布在多個服務器上的計算平臺。它作為開放源碼首先由雅虎開發并發布,它是谷歌所提出的MapReduce方法的實現。Hadoop的MapReduce包括了兩個階段:向多個服務器和操作系統分發數據,即map階段,然后重組并行計算結果,即reduce階段。
Hadoop利用自身的分布式文件系統(HDFS)來存儲數據,這使得多個計算節點能獲取數據。一個典型的Hadoop使用模式包括三個階段:加載數據到HDFS、MapReduce操作、從HDFS檢索結果。這個過程本質上是一個批處理,適合于分析或者是非交互式的計算任務。正因為如此,Hadoop本身不是一個數據庫或數據倉庫的解決方案,而是分析的輔助。最知名的Hadoop的用戶之一是Facebook。它的MySQL數據庫存儲核心數據。然后再反映到Hadoop系統進行計算。計算結果會再次轉移到MySQL,以提供給用戶的頁面使用。三、大數據七點總結:一種思維:數據思維 三大趨勢:泛互聯網、垂直一體化、數據是資產。四大步驟:入口、流量、數據、變現五大標準:活性、顆粒度、維度時空、情緒七字心決:專注、極致、口碑、快四、大數據進修學習內容模塊及發展方向 4.1 Linux學習知識概要(安裝)Linux簡介Linux與Unix區別Linux安裝Linux常用命令與Unix異同Linux文件系統Linux用戶及用戶組管理 實驗:1)安裝,2)常用命令的使用3)常用服務配置4)用戶配置5)網絡管理(管理) Linux系統性能分析Linux網絡管理及配置Linux安全控制Linux存儲管理Linux系統服務 目標:掌握Linux基本操作和管理知識 4.2Hadoop分布式計算學習目標:掌握MapReduce程序開發及Hadoop集群運維知識(架構原理)大數據時代及Hadoop簡介Hadoop集群安裝部署HDFS部分HDFS原理和體系結構訪問HDFSHDFS常用JavaAPI詳解HDFS中的重要文件存儲結構HDFS數據讀寫原理 (實驗):部署Hadoop集群編寫簡單和復雜的MapReduce程序元數據備份及管理使用Ganglia、Nagios對Hadoop進行監控使用dfsadmin和fsck對Hadoop集群進行管理掌握Hadoop集群日常維護1、datanode節點磁盤損壞故障恢復2、datanode節點硬件升級替換3、datanode節點故障宕機恢復4、datanode節點磁盤損壞處理5、namenode高可用方案實戰 6、namenode故障宕機后的metadata數據恢復7、namenode主備節點熱切換要求具備基本的Hadoop知識(開發維護) HDFS數據壓縮機制HDFS元數據管理方法與技術HDFS數據塊存儲管理方法與技術HDFSHAMapReduce部分MapRedcue工作原理MapReduce組件詳解MapReduceJob執行流程介紹Streaming編程MapReduce任務調度 (Hadoop的最新框架原理) 什么是Hadoop2.0Hadoop2.0與1.0對比YARN原理和基本架構YARN安裝部署運作機制 (Hadoop運維監控) Hadoop運維Hadoop運維管理,常見故障openTSDB實戰MapReduce作業調優案例討論 4.3大數據存儲(Hbase)學習目標:掌握HBase主要功能,熟練使用API開發應用程序,掌握集群運維方法(HBase簡介和架構) NoSql數據庫與關系數據庫的對比HBase基本概念HBase應用場景HBase架構和核心模塊介紹HBase存儲邏輯結構介紹集群下安裝部署HBase啟動HBase,啟動順序測試啟動多種方法實驗:部署HBase集群通過Java程序管理表通過Java程序增刪改查數據編寫過濾器精細控制數據編寫2種協處理器程序HBase表管理HBaseRegion轉移和備份Split&Compact策略regionserver日常維護master日常維護 (HBase核心知識點) 基本方法:Get/Put/Scan/Delete列式存儲核心:LSM日志系統:WAL底層存儲:HFile復制、備份:Replication過渡期:RIT分裂、合并:Split/Compact負載均衡:LoadBalance批量記載:bulkload監控系統:OpenTSDB主鍵設計:keydesign二級索引:secondaryindex協處理器:Coprocessors過濾器:bloomfilter版本:version (Hbase管理與案例) 集群管理和監控性能優化nativejava接口shellclientthrift接口案例(需求剖析、架構設計) (Nosql技術發展) 主流NoSql產品簡介:Cassandra、MongoDB、CouchDB、RedisNoSql產品優缺點比較、性能比較 4.4大數據存儲(Hive數據庫)學習(原理)Hive概念Hive架構原理如何利用Hive用戶接口提交作業Hive主要配置詳解 目標:掌握HQL語法及調優方法實驗:使用HQL語句和自定義函數實現簡單和復雜的數據統計 (使用) HiveQL語法講解及使用編寫UDF及UDAF、UDTF函數Hive與HBase的整合HiveQL優化與執行計劃Hive日志管理hive輸入lzo文件格式時會產生中文亂碼?分隔符入庫問題(如何定制分隔符入庫,比如€)(管理和優化) ?多級存儲遷移(數據生命周期)?如何找出低效的hive任務?使用Hive分區策略HIVE查詢中分區剪裁失效案例分析?使用Lzo壓縮優化數據存儲容量?CPU與IO配比?編寫Hive自定義MapReduce腳本優化查詢?Hive數據傾斜和查詢性能優化解決hive數據傾斜的多個案例分析Mapjoin解決數據傾斜優化小文件過多的sql介紹一下大表之間join或groupby或distinct產生傾斜解決的案例?使用Sqoop工作原理和進行數據分析?使用oozie配置工作流編寫程序注意規范 4.5大數據相關技術Pig學習 Pig簡介安裝和運行PigPigLatin詳解 命令行使用以及配置選項介紹目標:掌握PigLatin使用方法 4.6ZooKeeper協調管理學習目標:了解ZooKeeper在Hadoop系統中的作用,掌握基本運維知識 概念介紹和基本原理集群安裝部署ZookeeperServer角色 實驗:搭建ZooKeeper集群 ZookeeperServer選舉、同步和工作流程Leader的工作流程Follower的工作流程 Zookeeper的擴展Zookeeper的應用場景Zookeeper性能調優 Zookeeper性能調優數據一致性與Paxos算法案例相關技術 4.7 日志采集系統Flume 學習目標:掌握FlumeAgent和Collector配置 2天 具備Hadoop基礎Flume簡介Flume架構設計Flume原理及常見配置 Flume部署、安裝、配置Flume常用Source、Sink、DecoratorFlume常用命令 Flume與Hadoop、HBase集成編寫Source、Sink、Decorator插件 主要日志采集產品簡介:Chukwa、Scribe、Kafka各產品之間優缺點比較 4.8Storm實時處理 學習Storm簡介Storm安裝部署Storm架構及工
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 防騙班會課件
- 防騙小常識課件
- 2025至2030年中國手動塑膠無塵噴油線市場分析及競爭策略研究報告001
- 2025至2030年中國恒溫電烙鐵市場調查研究報告
- 2025至2030年中國強耐磨地板磚行業投資前景及策略咨詢報告001
- 2025至2030年中國彈性升降籃球架市場調查研究報告
- 2025至2030年中國異形三邊封袋數據監測研究報告
- 2025至2030年中國廣告飛盤市場調查研究報告
- 2025至2030年中國平紋提花格子布數據監測研究報告
- 2025至2030年中國帶指示燈按鈕行業發展研究報告001
- 2024擴張性心肌病研究報告
- 衛生監督協管員培訓課件
- 2024年社區衛生服務中心工作計劃(五篇)
- GB/T 14233.3-2024醫用輸液、輸血、注射器具檢驗方法第3部分:微生物學試驗方法
- IEC 62368-1標準解讀-中文
- QC課題提高金剛砂地面施工一次合格率
- 《數學課程標準》義務教育2022年修訂版(原版)
- 2023版小學數學課程標準
- 誠信課件下載教學課件
- 工業圖像識別中的數據增強技術
- ISO 10014-2021質量管理體系-面向質量結果的組織管理-實現財務和經濟效益的指南(中文版)
評論
0/150
提交評論