


下載本文檔
版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)
文檔簡介
1、而Hadoop則提供了 NFS、QJM和Bookeeper三種可選的共享存儲系統(tǒng),具體可閱讀我的 這篇文章:Hadoop 2.0單點故障問題方案總結(jié)。c)HDFS Federation前面提到HDFS的NameNode存在存受限問題,該問題也在2. 2. 0版本中得到了解決。 這是通過HDFS Federation實現(xiàn)的,它允許一個HDFS集群中存在多個NameNode,每個 NameNode分管一部分L1錄,而不同NameNode之間彼此獨立,共孕所有DataNode的存儲 資源,注意,NameNode Federation中的每個NameNode仍存在單點問題,需為每個 NameNode提
2、供一個backup以解決單點故障問題。d)HDFS快照HDFS快照是指HDFS文件系統(tǒng)(或者子系統(tǒng))在某一時刻的只讀鏡像,它的出現(xiàn)使 得管理員可定時為重要文件或LI錄做快照,以防止數(shù)據(jù)誤刪、丟失等。具體可閱讀: Snapshots for HDFS (使用說明),Support for RW/RO snapshots in HDFSo通過NFSv3訪問HDFSNFS允許用戶像訪問本地文件系統(tǒng)一樣訪問遠(yuǎn)程文件系統(tǒng),而將NFS引入HDFS后, 用戶可像讀寫本地文件一樣讀寫HDFS上的文件,大大簡化了 HDFS使用,這是通過引入 一個NFS gateway服務(wù)實現(xiàn)的,該服務(wù)能將FS協(xié)議轉(zhuǎn)換為HDFS
3、訪問協(xié)議,具體如下 圖所示。有興趣的讀者可閱讀:Support NFSv3 interface to HDFS,以及相關(guān)設(shè)汁文 檔:HDFS NFS Gate way oe)支持Windows操作系統(tǒng)在2. 2. 0版本之前,Hadoop僅支持Linux操作系統(tǒng),而Windows僅作為實驗平臺使 用。從2.2.0開始,Hadoop 始支持Windows操作系統(tǒng),具體可閱讀我之前寫的一篇文 章:Hadoop For Windowsof)兼容1. x上運行的MapReduce應(yīng)用程序與Hadoop生態(tài)系統(tǒng)其他系統(tǒng)進(jìn)行了充分 的集成測試除了 HDFS、MapReduce和YARN這三個核心系統(tǒng)外,H
4、adoop生態(tài)系統(tǒng)還包括Hbase、 Hive、Pig等系統(tǒng),這些系統(tǒng)底層依賴于Hadoop核,而相比于Hadoop 1. 0, Hadoop 2. 0 的最大變化出現(xiàn)在核(HDFS、MapReduce和YARN),但與生態(tài)系統(tǒng)中其他系統(tǒng)進(jìn)行集成 測試是必需的。除了以上特性外,Apache官方還給出了兩個特殊說明:(1)HDFS變化:HDFS的symlinks (類似于Linux中的軟連接)被將移到了 2. 3. 0版本中(2) YARN/MapReduce 注意事項:管理員在 NodeManager 上設(shè)置 Shuffl eHandl er service 時,要采用 amapreduce_
5、shuffle而非之前的"mapreduce, shuffle"作為屬 性值新版本不僅增強(qiáng)了核心平臺的大量功能,同時還修復(fù)了大量bug。新版本對HDFS 做了兩個非常重要的增強(qiáng):(1)、支持異構(gòu)的存儲層次;(2)、通過數(shù)據(jù)節(jié)點為存儲在HDFS 中的數(shù)據(jù)提供了存緩存功能。借助于HDFS對異構(gòu)存儲層次的支持,我們將能夠在同一個Hadoop集群上使用不同 的存儲類型。此外我們還可以使用不同的存儲媒介一一例如商業(yè)磁盤、企業(yè)級磁盤、SSD 或者存等一一更好地權(quán)衡成本和收益。如果你想更詳細(xì)地了解與該增強(qiáng)相關(guān)的信息,那 么可以訪問這里。類似地,在新版本中我們還能使用Hadoop集群中的可
6、用存集中地緩 存并管理數(shù)據(jù)節(jié)點存中的數(shù)據(jù)集。MapReduce. Hive、Pig等類似的應(yīng)用程序?qū)⒛軌蛏暾?存進(jìn)行緩存,然后直接從數(shù)據(jù)節(jié)點的地址空間中讀取容,通過完全避免磁盤操作極提高 掃描效率。Hive現(xiàn)在正在為0RC文件實現(xiàn)一個非常有效的零復(fù)制讀取路徑,該功能就使 用了這項新技術(shù)。在YARN方面,令我們非常興奮的事惜是資源管理器自動故障轉(zhuǎn)移功能已經(jīng)進(jìn)入尾 聲,雖然在2. 3.0這個版本中該功能還沒有被發(fā)布,但是極有可能會包含在Hadoop-2. 4 中。此外,2. 3.0版本還對YARN做了一些關(guān)鍵的運維方面的增強(qiáng),例如更好的日志、錯 誤處理和診斷等。MapReduce的一個關(guān)鍵增強(qiáng)MA
7、PREDUCE-4421 o借助于該功能我們已經(jīng)不再需要在每 一臺機(jī)器上安裝MapReduce二進(jìn)制程序,僅僅需要通過YARN分布式緩存將一個 MapReduce包復(fù)制到HDFS中就可以了。當(dāng)然,新版本還包含大量的bug修復(fù)以及其他方 面的增強(qiáng)。例如:(1) YarnClientlmpl類中的異步輪詢操作引入了超時;(2) 修復(fù)了 RMFatalEventDispatcher沒有記錄事件原因的問題;(3) HA配置不會影響節(jié)點管理器的RPC地址;(4) RM Web UI 和 REST API 統(tǒng)一使用 YarnApplicationState:(5) 在RpcResponseHeader中包
8、含RPC錯誤信息,而不是將其分開發(fā)送;(6) 向jetty/httpserver中添加了請求日志;(7) 修復(fù)了將dfs. checksum, type定義為NULL之后寫文件和hflush會拋出 java lang ArraylndexOutOfBoundsException 的i可題。2014年4月,Hadoop 2. 4.0發(fā)布。關(guān)鍵特性包括:(1) HDFS 支持訪問控制列表(ACLs, Access Control Lists);(2) 原生支持HDFS滾動升級;(3) HDFS FSImage用到了 protocol-buffers,從而可以平滑地升級;(4) HDFS 完全支持
9、HTTPS:(5) YARN ResourceManager 支持自動故障轉(zhuǎn)移,解決了 YARN ResourceManager 的單點故障;(6) 對 YARN 的 Application History Server 和 pplication Timeline Server 上的新應(yīng)用加強(qiáng)了支持;(7) 通過搶占使得YARN Capacity Scheduler支持強(qiáng)SLAs協(xié)議;安全對于Hadoop來說至關(guān)重要,所以在Hadoop 2. 4. 0版本中對HDFS的所有訪問(包括 WebHDFS, HsFTP 甚至是 web-interfaces)都支持了 HTTPS。在 Hadoop 2
10、.4.0 解 決了 ResourceManager的單點故障。這樣會在集群中存在兩個ResourceManager,其中 一個處J" Active:另一個處于 standbyo Active的出現(xiàn)故障,這樣Hadoop可以 自動平滑地切換到另外一個ResourceManager,這個新的ResourceManager將會自動的 重啟那些提交的applicationso在下一階段,Hadoop將會增加一個熱standby(add a hot standby),這個standby可以繼續(xù)從故障點運行的應(yīng)用程序,以保存任何已經(jīng)完成的工 作。2014年8月,Hadoop 2. 5.0發(fā)布。關(guān)
11、鍵特性包括:1 Commona) 使用HTTP代理服務(wù)器時認(rèn)證改進(jìn)。當(dāng)通過代理服務(wù)器使用WebHDFS時這是非常 有用的。b) 增加了一個新的Hadoop指標(biāo)監(jiān)控sink,允許直接寫到Graphiteoc) Hadoop文件系統(tǒng)兼容相關(guān)的規(guī)工作。2. HDFSa) 支持P0SIX風(fēng)格的擴(kuò)展文件系統(tǒng)。更多細(xì)節(jié)查看Extended Attributes in HDFS 文檔。b) 支持離線image瀏覽,客戶端現(xiàn)在可以通過WebHDFS的API瀏覽一個fsimage<>c) NFS網(wǎng)關(guān)得到大量可支持性的改進(jìn)和bug修復(fù)。Hadoop portmapper不在需要運 行網(wǎng)關(guān),網(wǎng)關(guān)現(xiàn)在可以
12、拒絕沒有權(quán)限的端口的連接。d) SecondaryNameNode, JournalNode, and DataNode 的 web UI 已經(jīng)使用 HTML5 和JS美化。3. YARNa) YARN的REST API現(xiàn)在支持寫/修改操作。用戶可以用REST API提交和殺死應(yīng)用 程序。b) 時間線存儲到Y(jié)ARN,用來存儲一個應(yīng)用通用的和特殊的信息,支持Kerberos 認(rèn)證。c) 公平調(diào)度器支持動態(tài)分層用戶隊列,運行時,用戶隊列在任一指定的父隊列中 被動態(tài)的創(chuàng)建。2014年11月,Hadoop 2. 6.0發(fā)布。關(guān)鍵特性包括:1 CommonHadoop Key Management Se
13、rver (KMS)是一個基于 HadoopKeyProvider API 編寫 的密鑰管理服務(wù)器。他提供了一個client和一個server組件,client和server之間 基于HTTP協(xié)議使用REST API通信。Client是一個KeyProvider的實現(xiàn),使用KMS HTTP REST API與KMS交互。KMS和它的client有置的安全機(jī)制,支持HTTP SPNEGO Kerberos 認(rèn)證和HTTPS安全傳輸。KMS是一個Java Web應(yīng)用程序,運行在與Hadoop發(fā)行版綁定 在一起的預(yù)先配置好的Tomcat服務(wù)器上。2. TracingHDFS-5274增加了追蹤通過H
14、DFS的請求的功能,此功能使用了開源的庫,HTraceo 大家可以看一下HTrace,功能很強(qiáng)大,Cloudera JF源出來的。3. HDFSa) Transparent Encryption, HDFS實現(xiàn)了一個透明的,端到端的加密方式。一旦 配置了加密,從HDFS讀出數(shù)據(jù)解密和寫入數(shù)據(jù)加密的過程對用戶應(yīng)用程序代碼帶來說 都是透明的。加密過程是端到端的,這意味著數(shù)據(jù)只能在客戶端被加密解密。HDFS從來 不存儲,也不訪問未加密的數(shù)據(jù)和數(shù)據(jù)加密密鑰。這樣滿足了加密過程的兩個典型的需 求:at-rest encryption (靜態(tài)加密,也就是說,數(shù)據(jù)持久化在像硬盤這樣的媒介上), in-tra
15、nsit encryption (在途加密,例如,當(dāng)數(shù)據(jù)在網(wǎng)絡(luò)中傳輸?shù)臅r候)。b) Storage SSD&& Memoryo ArchivalStorage (檔案存儲器)是將計算能力與不斷 增長的存儲能力分離。擁有高密度低成本的存儲但是計算能力較低的節(jié)點將變得可用, 可以在集群中做冷存儲。增加更多的節(jié)點作為冷存儲可以提高集群的存儲能力,跟集群 的計算能力無關(guān)。4. MapReduce這一部分主要是一些bug的修復(fù)和改進(jìn)。增加了兩個新的新特,在2.5.2里已經(jīng)有 所描述了。這里在簡單看一下。a) ResourceManger Restartb) 允許AM發(fā)送歷史事件信息到ti
16、meline server。5. YARNa) NodeManager Restart:這個特性可以使NodeManager在不丟失運行在節(jié)點中的 活動的container的情況下重新啟動。b) Docker Container Exec utor: DockerCo nt ainer Execu tor (DCE)允許 YARN NodeManager在Docker container中啟動YARN container。用戶可以指定他們想用來 運行YARN container的Docker的鏡像。這些container提供了一個可以自定義的軟件 環(huán)境,用戶的代碼可以運行在其中,與NodeMa
17、nager運行的環(huán)境隔離。這些運行用戶代 碼的container可以包含應(yīng)用程序需要的特定的庫,它們可以擁有與NodeManager不同 版本的Perl, Python其至是Java。事實上,這些container可以運行與NodeManager 所在的OS不同版本的Linuxo盡管YARN container必須定義運行Job所需的所有的環(huán) 境和庫,但是NodeManager中的所有的東西都不會共享。Docer為YARN提供了一致和隔離兩種模式,一致模式下,所有的YARN container 將擁有相同的軟件環(huán)境,在隔離模式下,不管物理機(jī)器安裝了什么都不干擾。2015年7月,Hadoop 2
18、. 7.0發(fā)布。關(guān)鍵特性包括:1. Common支持 Windows Azure Storage, BLOB 作為 Hadoop 中的文件系統(tǒng)。Hadoop HDFSa) 支持文件截斷(file truncate);b) 支持每個存儲類型配額(Support for quotas per storage type):c) 支持可變長度的塊文件2. YARN1、YARN安全模塊可插拔a)YARN的本地化資源可以自動共享,全局緩存(測試版)Hadoop MapReduceb)能夠限制運行的Map/Reduce作業(yè)的任務(wù)c)為非常的大Job (有許多輸出文件)加快了 F訂eOutputCommitter。2. HDFSa)支持文件截斷(file truncate);b)支持每個存儲類型配額(Support for quotas per storage type):c)支持可變長度的塊文件2. MAPREDUCEa)能夠限制運行的Map/Re
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 初中數(shù)學(xué)第5章 圖形的軸對稱同步單元達(dá)標(biāo)測試題+2024-2025學(xué)年北師大版七年級數(shù)學(xué)下冊
- 全方位解析裝液氮的容器原理、操作、維護(hù)與應(yīng)用拓展
- 2《我向國旗敬個禮》公開課一等獎創(chuàng)新教學(xué)設(shè)計(表格式)-2
- 標(biāo)準(zhǔn)自行車零件采購合同
- 簡易不銹鋼材料采購合同版本
- 房屋買賣合同修訂協(xié)議
- 三方合同:資源共享與互惠互利
- 會員卡轉(zhuǎn)讓合同模板
- 2025年醫(yī)療器械購銷合同樣本
- 事業(yè)單位勞動合同中的勞動權(quán)益保護(hù)
- 2024-2024年上海市高考英語試題及答案
- JJF 1916-2021掃描電子顯微鏡校準(zhǔn)規(guī)范
- 自動控制原理試題及答案解析參考
- 眼位檢查課件
- 最新安全生產(chǎn)管理教材電子版
- FANUC發(fā)那科機(jī)器人常規(guī)點檢保養(yǎng)
- 醫(yī)藥有限公司公司獎懲制度
- 微電子學(xué)概論全套課件
- DB37T 2974-2017 工貿(mào)企業(yè)安全生產(chǎn)風(fēng)險分級管控體系細(xì)則
- 混雜纖維增強(qiáng)的復(fù)合材料介紹、特點和應(yīng)用
- 工程項目內(nèi)部控制流程圖表
評論
0/150
提交評論