大數據平臺技術實例教程 課件 【ch05】Hadoop分布式計算模型_第1頁
大數據平臺技術實例教程 課件 【ch05】Hadoop分布式計算模型_第2頁
大數據平臺技術實例教程 課件 【ch05】Hadoop分布式計算模型_第3頁
大數據平臺技術實例教程 課件 【ch05】Hadoop分布式計算模型_第4頁
大數據平臺技術實例教程 課件 【ch05】Hadoop分布式計算模型_第5頁
已閱讀5頁,還剩15頁未讀 繼續免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

Hadoop分布式計算模型“新工科建設之路·數據科學與大數據系列大數據平臺技術實剛教程第五章01完全分布式環境配置表5-1中各進程的作用如下所述。NameNodc:是HDFS的管理節點,維護著整個系統的文件目錄樹及對應的元信。DataNode:提供對數據或文件的存儲服務。SecondaryNameNode:定期備份fsimage,定期合并fsimage與editlogs。02完全分布式配置步驟(1)打開VMwareWorkStation軟件,依次導入ahut01、ahut02、ahot03、ahut04四個虛擬機。(2)集群IP地址的修改。①啟動ahut01節點,使用v編輯器打開/etc/sysconfig/network-scripts/ifcfg-eth0文件。②修改DEVICE為eth1,修改IPADDR=192.168.159.101,GATEWAY=192.168.159.2。③輸入servicenetworkrestart,保存并退出i編輯器,重啟網絡服務使配置生效。01虛擬機的導入(2)集群IP地址的修改。④輸入ifconfig,查看ahut01的IP地址,inetaddr顯示為剛才配置的可通信的IP地址,即為成功。⑤重復步驟Q~步驟@,在ahut02、ahut03、ahut04上修改對應的PP地址,如果運行截圖中的IP地址和表5-2中的不一樣,以表5-2為準。(3)用MobaXterm軟件連接ahut01、ahut02、ahut03、ahut04,操作界面如圖5-3所示。(4)輸入date-s“2022-02-2222:22:22”,同步虛擬機時間(利用MobaXterm軟件工具欄的MultiExec功能,在任一臺虛擬機中輸入命令,其余三臺虛擬機可同步輸入相同的命令)。(5)輸入vi/etc/sysconfig/network,查看HOSTNAME的值是否與虛擬機主機名對應若不同則需修正。(6)輸入vi/etc/hosts,修改每個虛擬機的hosts文件,在hosts文件末尾追加四臺虛擬機各自的IP地址。(7)輸入vi/etc/sysconfig/selinux,將SELINUX的值設置為disabled,修改Linux的權限管理機制。(8)為每個節點配置SSH免密登錄,以具體操作詳見3.6.2節。配置完畢后,分別在四臺虛擬機中運行sshlocalhost命令,若不需要密碼則配置成功。(9)本集群以ahut01作為主節點,以其余三個節點作為從節點,為了命令的執行更加方便快捷,需要使ahut1能夠免密登錄其余三個節點。(10)參考3.6.3節,在ahut01、ahut02、ahut03及ahut04上配置好JDK。(11)參考3.6.4節中的步驟(1)~步(8),在ahut01配置好Hadoop的偽分布式。(12)Hadoop的分布式安裝不只是解壓縮文件、運行啟動命令這么簡單,還需要將虛擬機的相關信息寫入配置文件core-sitexml、hdfs-sitexmlslaves中,Hadoop才能正常啟動。(13)在ahut01中將ahut目錄、profle文件分發給其余三個節點。(14)在四臺虛擬機中更新profile文件使其生效(可使用MultiExec功能)。(15)在ahut01節點對HDFS進行格式化。(16)在保證前面的步驟沒有出錯后,輸入start-dfs.sh,就可以啟動Hadoop。(17)這時可以在四個虛擬機中使用ips命令查看該節點的進程是否啟動成功。(18)可能出現的問題及解決方法如下。問題:啟動HDFS后,在ahut02、ahut03、ahut04中輸入ips都沒有DataNode進程。解決方法:①刪除ahut02、ahut03、ahut04中所有的DataNode信息,重新格式化再啟動;②重復步驟(15),格式化后啟動HDFS問題解決。(19)快照保存。03MapReduce計算模型(1)讀取輸入文件內容,將輸入文件的每一行解析成一個元素;(2)執行自己定義的函數邏輯,對輸入進行處理,轉換成新的輸出;(3)對輸出內容進行分區(對應不同的Reduce任務節點);(4)對不同分區的數據,按照key進行排序、分組,相同key的value放到一個集合中;1.Map任務處理(5)(可選)對分組后的數據進行歸約。(1)對多個Map任務的輸出,按照不同的分區,通過網絡復制到不同的Reduce節點;(2)對多個Map任務的輸出進行合并、排序,根據自己定義的Reduce函數邏輯,對輸入進行處理,轉換成新的輸出;(3)把Reduce的輸出保存到文件中。2.Reduce任務處理04Mapper-Reducer實例本節通過Mapper-Reducer來實現以下三項任務,詳細介紹MapReduce基礎編程方法。(1)實現WordCount功能;(2)統計每門課程的

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論