




版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
1、銀河麒麟服務器操作系統Hadoop 軟件適配手冊銀河麒麟服務器操作系統 V4 hadoop 軟件適配手冊I目錄 HYPERLINK l _bookmark0 目錄I HYPERLINK l _bookmark1 概述2 HYPERLINK l _bookmark2 系統概述2 HYPERLINK l _bookmark3 環境概述2 HYPERLINK l _bookmark4 HADOOP 軟件簡介2 HYPERLINK l _bookmark5 HDFS 架構原理2 HYPERLINK l _bookmark6 MAPREDUCE 介紹3 HYPERLINK l _bookmark7 YA
2、RN 介紹4 HYPERLINK l _bookmark8 HADOOP 軟件適配4 HYPERLINK l _bookmark9 解壓 HADOOP 軟件4 HYPERLINK l _bookmark10 配置文件修改4 HYPERLINK l _bookmark11 配置 HADOOP-ENV.SH4 HYPERLINK l _bookmark12 配置 YARN-ENV.SH5 HYPERLINK l _bookmark13 配置 CORE-SITE.XML5 HYPERLINK l _bookmark14 配置 HDFS-SIZE.XML5 HYPERLINK l _bookmark1
3、5 配置 MAPRED-SITE.XML6 HYPERLINK l _bookmark16 配置 YARN-SITE.XML6 HYPERLINK l _bookmark17 配置 SLAVES7 HYPERLINK l _bookmark18 格式化并啟動集群7 HYPERLINK l _bookmark19 格式化 NAMENODE7 HYPERLINK l _bookmark20 啟動 NAMENODE 和 DATANODE 守護進程7 HYPERLINK l _bookmark21 啟動 RESOURCEMANAGER 和 NODEMANAGER 守護進程7 HYPERLINK l _
4、bookmark22 執行 WORDCOUNT 測試用例7 PAGE 7概述系統概述銀河麒麟服務器操作系統主要面向軍隊綜合電子信息系統、金融系統以及電力系統等國家關鍵行業的服務器應用領域,突出高安全性、高可用性、高效數據處理、虛擬化等關鍵技術優勢,針對關鍵業務構建的豐富高效、安全可靠的功能特性,兼容適配長城、聯想、浪潮、華為、曙光等國內主流廠商的服務器整機產品,以及達夢、金倉、神通等主要國產數據庫和中創、金蝶、東方通等國產中間件,滿足虛擬化、云計算和大數據時代,服務器業務對操作系統在性能、安全性及可擴展性等方面的需求,是一款具有高安全、高可用、高可靠、高性能的自主可控服務器操作系統。環境概述服
5、務器型號長城信安擎天 DF720 服務器CPU 類型飛騰 2000+處理器操作系統版本Kylin-4.0.2-server-sp2-2000-19050910.Z1內核版本4.4.131hadoop 版本2.7.7Hadoop 軟件簡介 HYPERLINK /item/Hadoop Hadoop 是一個由 Apache 基金會所開發的 HYPERLINK /item/%E5%88%86%E5%B8%83%E5%BC%8F%E7%B3%BB%E7%BB%9F/4905336 分布式系統基礎架構。用戶可以在不了解分布式底層細節的情況下,開發分布式程序。充分利用集群的威力進行高速運算和存儲。Hado
6、op 實現了一個 HYPERLINK /item/%E5%88%86%E5%B8%83%E5%BC%8F%E6%96%87%E4%BB%B6%E7%B3%BB%E7%BB%9F/1250388 分布式文件系統(Hadoop Distributed File System),簡稱HDFS。HDFS 有高 HYPERLINK /item/%E5%AE%B9%E9%94%99%E6%80%A7/9131391 容錯性的特點,并且設計用來部署在低廉的(low-cost)硬件上;而且它提供高吞吐量(high throughput)來訪問 HYPERLINK /item/%E5%BA%94%E7%94%A
7、8%E7%A8%8B%E5%BA%8F/5985445 應用程序的數據,適合那些有著超大數據集(large data set)的應用程序。HDFS 放寬了(relax)POSIX 的要求, 可以以流的形式訪問(streaming access)文件系統中的數據。Hadoop 的框架最核心的設計就是:HDFS 和 MapReduce。HDFS 為海量的數據提供了存儲,而 MapReduce 則為海量的數據提供了計算。HDFS 架構原理HDFS 是 Hadoop 分布式文件系統(Hadoop Distributed File System)的縮寫, 為分布式計算存儲提供了底層支持。采用 Java
8、語言開發,可以部署在多種普通的廉價機器上,以集群處理數量積達到大型主機處理性能。HDFS 采用 master/slave 架構。一個 HDFS 集群包含一個單獨的 NameNode和多個 DataNode。NameNode 作為 master 服務,它負責管理文件系統的命名空間和客戶端對文件的訪問。NameNode 會保存文件系統的具體信息,包括文件信息、文件被分割成具體 block 塊的信息、以及每一個 block 塊歸屬的 DataNode 的信息。對于整個集群來說,HDFS 通過 NameNode 對用戶提供了一個單一的命名空間。DataNode 作為 slave 服務,在集群中可以存在
9、多個。通常每一個 DataNode 都對應于一個物理節點。DataNode 負責管理節點上它們擁有的存儲,它將存儲劃分為多個 block 塊,管理 block 塊信息,同時周期性的將其所有的 block 塊信息發送給 NameNode。MapReduce 介紹MapReduce 是一種計算模型,該模型可以將大型數據處理任務分解成很多單個的、可以在服務器集群中并行執行的任務,而這些任務的計算結果可以合并在一起來計算最終的結果。簡而言之,Hadoop Mapreduce 是一個易于編程并且能在大型集群(上千節點)快速地并行得處理大量數據的軟件框架,以可靠,容錯的方式部署在商用機器上。MapRedu
10、ce 這個術語來自兩個基本的數據轉換操作:map 過程和 reduce 過程。map:map 操作會將集合中的元素從一種形式轉化成另一種形式,在這種情況下, 輸入的鍵值對會被轉換成零到多個鍵值對輸出。其中輸入和輸出的鍵必須完全不同,而輸入和輸出的值則可能完全不同。reduce:某個鍵的所有鍵值對都會被分發到同一個 reduce 操作中。確切的說,這個鍵和這個鍵所對應的所有值都會被傳遞給同一個 Reducer。reduce過程的目的是將值的集合轉換成一個值(例如求和或者求平均),或者轉換成另一個集合。這個 Reducer 最終會產生一個鍵值對。需要說明的是,如果 job 不需要 reduce 過
11、程的話,那么 reduce 過程也是可以不用的。task:Hadoop 提供了一套基礎設計來處理大多數困難的工作以保證任務可以成功執行,比如 Hadoop 決定如果將提交的 job 分解為多個獨立的 map 和 reduce 任務(task)來執行,它就會對這些 task 進行調度并為其分配合適的資源,決定將某個 task 分配到集群中哪個位置(如果可能,通常是這個 task 所要處理的數據所在的位置,這樣可以最小化網絡開銷)。Hadoop 會監控每一個 task 確保其成功完成,并重啟一些失敗的 task。YARN 介紹YARN 是 Hadoop 2.0 中的資源管理系統,它的基本設計思想是
12、將 MRv1 中的JobTracker 拆分成了兩個獨立的服務:一個全局的資源管理器 ResourceManager 和每個應用程序特有的 ApplicationMaster。其中 ResourceManager 負責整個系統的資源管理和分配,而 ApplicationMaster 負責單個應用程序的管理。YARN 總 體 上 仍 然 是 master/slave 結 構 , 在 整 個 資 源 管 理 框 架 中 ,resourcemanager 為 master,nodemanager 是 slave。Resourcemanager 負責對各個nademanger 上資源進行統一管理和調度
13、。當用戶提交一個應用程序時,需要提供一個用以跟蹤和管理這個程序的 ApplicationMaster,它負責向 ResourceManager 申請資源, 并要求 NodeManger 啟動可以占用一定資源的任務。由于不同的ApplicationMaster 被分布到不同的節點上,因此它們之間不會相互影響。YARN 的基本組成結構, YARN 主要由 ResourceManager、NodeManager、ApplicationMaster 和 Container 等幾個組件構成。ResourceManager 是 Master 上一個獨立運行的進程,負責集群統一的資源管理、調度、分配等等;N
14、odeManager 是 Slave 上一個獨立運行的進程,負責上報節點的狀態;App Master 和 Container 是運行在 Slave 上的組件,Container 是 yarn 中分配資源的一個單位,包涵內存、CPU 等等資源, yarn 以 Container 為單位分配資源。Client 向 ResourceManager 提交的每一個應用程序都必須有一個 ApplicationMaster,它經過 ResourceManager 分配資源后,運行于某一個 Slave 節點的 Container中,具體做事情的 Task,同樣也運行與某一個 Slave 節點的 Contain
15、er 中。RM,NM,AM 乃至普通的 Container 之間的通信,都是用 RPC 機制。Hadoop 軟件適配$ tar -xvf hadoop-2.7.7.tar.gz -C /usr/local/$ cd /usr/local/hadoop-2.7.7/etc/hadoop/解壓 hadoop 軟件配置文件修改$ vim hadoop-env.sh配置 hadoop-env.sh修改 JAVA_HOME:export JAVA_HOME=/usr/lib/jvm/java-8-openjdk-arm64$ vim yarn-env.sh配置 yarn-env.sh修改:export
16、JAVA_HOME=/usr/lib/jvm/java-8-openjdk-arm64$ vim core-site.xml配置 core-site.xml內容如下:hdfs:/Kylin:8020HDFS 的 URI,文件系統:/namenode 標識:端口號hadoop.tmp.dir/usr/local/hadoop-2.7.7/tmpnamenode 上本地的 hadoop 臨時文件夾配置 hdfs-size.xml.dir/usr/local/hadoop-2.7.7/hdfs/namenamenode 上存儲 hdfs 名字空間元數據 dfs.data.dir/usr/local/
17、hadoop-2.7.7/hdfs/data內容如下:datanode 上數據塊的物理存儲位置dfs.replication1副本個數,配置默認是 3,應小于 datanode 機器數量$ cp mapred-site.xml.template mapred-site.xml$ vim mapred-site.xml配置 mapred-site.xml內容如下:yarn$ vim yarn-site.xml配置 yarn-site.xml內容如下:yarn.nodemanager.aux-servicesmapreduce_shuffleyarn.resourcemanager.webapp.addressKylin:8099yarn.resourcemanager.hostnameKylin$ vim slaves配置 slaves內容如下:Kylin格式化并啟動集群$ cd /usr/local/hadoop-2.7.7/$ bin/hdfs namenode -format格式化 namenode啟動 namenode 和 datanode 守護進程$ sbin/start-dfs.sh$ sbin/start-yarn.sh啟動 ResourceManager 和 NodeManager 守護進程執行 wordc
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 白坯布訂購合同協議
- 2025至2030年中國管式防護罩數據監測研究報告
- 2025至2030年中國石碗數據監測研究報告
- 2025至2030年中國橡膠軋條篩板數據監測研究報告
- 2025至2030年中國棒銷臥式砂磨機數據監測研究報告
- 2025至2030年中國摩擦式轉盤全自動包裝機數據監測研究報告
- 2025至2030年中國家用凈水超濾機數據監測研究報告
- 2025至2030年中國塑膠卡通造型數據監測研究報告
- 2025至2030年中國升降色溫片數據監測研究報告
- 以社區為核心的商業模式區塊鏈技術推動社區經濟的繁榮發展
- 高三數學復習備考策略課件
- 幼兒園小班數學活動《認識里外》教學PPT課件【幼兒教案】
- 于丹--莊子心得
- 2023年供貨方案 醫療器械供貨方案(四篇)
- 森林病蟲害防治自測練習試題與答案
- GB/T 3728-1991工業乙酸乙酯
- GB/T 34949-2017實時數據庫C語言接口規范
- GB/T 3452.1-2005液壓氣動用O形橡膠密封圈第1部分:尺寸系列及公差
- 2023年國際焊接工程師考試IWE結構試題
- 精華版-趙武靈王胡服騎射課件
- 《高等教育心理學》《高等教育學》樣題
評論
0/150
提交評論