Hadoop家族介紹資料_第1頁
Hadoop家族介紹資料_第2頁
Hadoop家族介紹資料_第3頁
Hadoop家族介紹資料_第4頁
全文預覽已結束

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

Hadoop家族介紹簡介ApacheHadoop是一款支持數據密集型分布式應用并以Apache2.0許可協議發布的開源軟件框架。它支持在商品硬件構建的大型集群上運行的應用程序。Hadoop是根據Google公司發表的MapReduce和Google檔案系統的論文自行實作而成。Hadoop框架透明地為應用提供可靠性和數據移動。它實現了名為MapReduce的編程范式:應用程序被分割成許多小部分,而每個部分都能在集群中的任意節點上執行或重新執行。此外,Hadoop還提供了分布式文件系統,用以存儲所有計算節點的數據,這為整個集群帶來了非常高的帶寬。MapReduce和分布式文件系統的設計,使得整個框架能夠自動處理節點故障。它使應用程序與成千上萬的獨立計算的電腦和PB級的數據。常用的項目包括Hadoop,Hive,Pig,HBase,Sqoop,Mahout,Zookeeper,Avro,Ambari,Chukwa,YARN,Hcatalog,Oozie,Cassandra,Hama,Whirr,Flume,Bigtop,Crunch,Hue等。關系圖如下:各項目簡介Apache

Hadoop:是Apache開源組織的一個分布式計算開源框架,提供了一個分布式文件系統子項目(HDFS)和支持MapReduce分布式計算的軟件架構。ApacheHive:是基于Hadoop的一個數據倉庫工具,可以將結構化的數據文件映射為一張數據庫表,通過類SQL語句快速實現簡單的MapReduce統計,不必開發專門的MapReduce應用,十分適合數據倉庫的統計分析。ApachePig:是一個基于Hadoop的大規模數據分析工具,它提供的SQL-LIKE語言叫PigLatin,該語言的編譯器會把類SQL的數據分析請求轉換為一系列經過優化處理的MapReduce運算。ApacheHBase:是一個高可靠性、高性能、面向列、可伸縮的分布式存儲系統,利用HBase技術可在廉價PCServer上搭建起大規模結構化存儲集群。ApacheSqoop:是一個用來將Hadoop和關系型數據庫中的數據相互轉移的工具,可以將一個關系型數據庫(MySQL,Oracle,Postgres等)中的數據導進到Hadoop的HDFS中,也可以將HDFS的數據導進到關系型數據庫中。ApacheZookeeper:是一個為分布式應用所設計的分布的、開源的協調服務,它主要是用來解決分布式應用中經常遇到的一些數據管理問題,簡化分布式應用協調及其管理的難度,提供高性能的分布式服務ApacheMahout:是基于Hadoop的機器學習和數據挖掘的一個分布式框架。Mahout用MapReduce實現了部分數據挖掘算法,解決了并行挖掘的問題。ApacheCassandra:是一套開源分布式NoSQL數據庫系統。它最初由Facebook開發,用于儲存簡單格式數據,集GoogleBigTable的數據模型與AmazonDynamo的完全分布式的架構于一身ApacheAvro:是一個數據序列化系統,設計用于支持數據密集型,大批量數據交換的應用。Avro是新的數據序列化格式與傳輸工具,將逐步取代Hadoop原有的IPC機制ApacheAmbari:是一種基于Web的工具,支持Hadoop集群的供應、管理和監控。ApacheChukwa:是一個開源的用于監控大型分布式系統的數據收集系統,它可以將各種各樣類型的數據收集成適合Hadoop處理的文件保存在HDFS中供Hadoop進行各種MapReduce操作。ApacheHama:是一個基于HDFS的BSP(BulkSynchronousParallel)并行計算框架,Hama可用于包括圖、矩陣和網絡算法在內的大規模、大數據計算。ApacheFlume:是一個分布的、可靠的、高可用的海量日志聚合的系統,可用于日志數據收集,日志數據處理,日志數據傳輸。ApacheGiraph:是一個可伸縮的分布式迭代圖處理系統,基于Hadoop平臺,靈感來自BSP(bulksynchronousparallel)和Google的Pregel。ApacheOozie:是一個工作流引擎服務器,用于管理和協調運行在Hadoop平臺上(HDFS、Pig和MapReduce)的任務。ApacheCrunch:是基于Google的FlumeJava庫編寫的Java庫,用于創建MapReduce程序。與Hive,Pig類似,Crunch提供了用于實現如連接數據、執行聚合和排序記錄等常見任務的模式庫ApacheWhirr:是一套運行于云服務的類庫(包括Hadoop),可提供高度的互補性。Whirr學支持AmazonEC2和Rackspace的服務。ApacheBigtop:是一個對Hadoop及其周邊生態進行打包,分發和測試的工具。ApacheHCatalog:是基于Hadoop的數據表和存儲管理,實現中央的元數據和模式管理,跨越Hadoop和RDBMS,利用Pig和Hive提供

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論