




版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
第④執行命令“ambari-serverstart”,啟動ambari-server。訪問“http://宿主機IP:8080”,在打開的頁面中輸入正確的用戶名和密碼,默認都是‘admin’。執行命令“ambari-serverstop”,停止ambari-server服務,執行命令“ambari-serverstatus”,查看ambari-server的狀態。2.部署管理Hadoop集群登錄頁面hpP8080在“用戶名”文本框中輸入“admin”,在“密碼”文本框中輸入“admin”啟動安裝向、創集群安服務。Ambari管理界面。單擊“啟動安裝向導”開始部署,安裝向導提示為集群起名稱,此處名稱設置為‘hdpCluster’,然后單擊“next”按鈕。單擊“RegisterandConfirm”按鈕,打開“ConfirmHosts”界面,在該界面中單擊“Check”按鈕進行主機認證操作,此處經常會出現認證失敗,此時可以單擊“Failed”鏈接,打開查看失敗原因。下面給出錯誤的解決方案。(1)修改權限。(2)編輯ambari-agent.ini文件。(3)更新openssl版本。最后單擊“check”按鈕,直到“Status”項為“Success”為止,需要注意的是該處必須全部檢查通過,才能保證后續操作的順利實現。在檢查成功后,單擊“Next”按鈕,選擇要安裝的軟件,操作演示中,我們選擇安裝“HDFS”、“Zookeeper”和“AmbariMetrics”3個組件。安裝軟件選擇后,單擊“Next”按鈕,將會打開“AssignMasters”界面。單擊“Next”按鈕,打開“AssignSlavesandClient”界面,對Master節點的角色進行設置后,單擊“Next”按鈕。在打開的“CustomizeServices”頁面中,可以看到有2處紅色的提示,該提示表明需要進一步進行設置操作。單擊“AmbariMetrics”鏈接,在打開頁面中的紅色提示框中輸入默認密碼,“admin”。單擊“SmartSense”鏈接,在頁面的右邊部分輸入默認密碼“admin”。在兩個紅色提示處理完成后,單擊“Next”按鈕,進入“Review”頁面。再次確認安裝軟件正確后,單擊“Deploy”按鈕,開始全自動化的部署安裝,部署操作完成。單擊“Next”按鈕,打開“Summary”頁面,查看軟件安裝進程的情況,并單擊“Complete”按鈕,完成軟件的安裝和部署操作。單擊頁面導航欄中的“Dashboard”按鈕,在主頁面中可以查看集群狀態和監控信息。2.利用Ambari擴展集群利用Ambari搭建好的集群可以通過Ambari來擴展。(1)進入“Hosts”界面,單擊左上角的“Actions”下拉按鈕,在彈出的下拉列表中選擇“AddNewHosts”選項。(2)進入“AddHostWizard”界面,需要輸入新增的機器名(包含完整域名)及AmbariService機器上生成的私鑰。(3)在“ConfirmHosts”頁面,若出現failed,重復master節點的修改操作,并重新部署,直到“Status”顯示“Success”。(4)分配Slaves和Client,為slave1節點分配角色。完成后,即可安裝AmbariAgent,并安裝選擇的組件。(5)隨后后的“Configurations”和“Review”頁面,Ambari為用戶選擇了默認的配置。單機“Next”按鈕即可,轉到“Install,StartandTest”后,等待部署完成。當AddHostWizard設置完成時,可以從“Hosts”界面中看到新的機器,以及安裝的模塊。任務7.2使用Ambari管理Hadoop集群Ambari的用戶圖形界面有助于平臺管理員去管理、維護和監控Hadoop集群,下面將介紹如何使用Ambari來進行集群管理。在Hadoop集群部署完成后,打開部署AmbariServer主機的8080端口。默認的管理員用戶名為admin,密碼為admin。登錄后進入的是Ambari管理Hadoop集群的主界面,該界面形象化地展示了集群服務的運行狀態、資源使用狀況、配置參數及錯誤告警等。集群管理包含服務管理、主機管理、進程管理和配置管理。1.服務管理。選擇“概要”選項卡,可以看到HDFS運行的進程信息,包括運行狀態、資源使用情況及監控信息。單擊頁面導航欄中的“服務”按鈕,單擊導航欄下方的“服務操作”下拉按鈕,在彈出的下拉列表中看到很多服務的控制進項,如“啟動”“停止”“重啟”等,通過這些控制進項,可以對服務進行管理。Hadoop的集群部署完成后,并不知道這個集群是否可用。此時可以借助“運行服務檢查”選項來確保集群服務正常運行。選擇此選項后,會在彈出的對話框中顯示的HDFS服務操作進度。其實,這里就是通過向HDFS文件系統/tmp目錄中上傳一個臨時文件來檢測系統運行是否正常。當進度條執行完畢后,全綠代表服務運行正常,全紅代表服務運行失敗,黃色代表出現告警信息。“服務操作”下拉列表中的“啟動”“停止”“重啟”3個選項的含義分別是指啟動、停止、重啟集群中所有該服務的進程。當進入HDFS服務重啟界面時,可以查看每個主機進程的操作進度和運行日志。在“服務操作”下拉列表中有“打開維護模式”進項,該選項用于在用戶調試或者維護過程中抑制不必要的告警信息,以及避免批量操作的影響(啟動所有服務、停止所有服務、重啟所有服務等)。維護模式中有不同的級別設置,分別是服務級別、主機級別及進程級別。3種級別之間存在著覆蓋關系。例如,由于HDFS部署在多臺主機中,當它的維護模式功能啟用后,HDFS便不會產生任何新的告警。當用戶重啟集群所有服務時,該服務會忽略這個批量操作。當用戶重啟一個機器的所有進程時,該服務的進程也會被忽略。在主界面左側的服務列表的最下方有一個“動作”按鈕,單擊該按鈕,可以彈出對服務進行操作的下拉列表,其中包含“增加服務”“啟動所有服務”“停止所有服務”等進項。2.主機管理單擊導航欄中的“主機”按鈕,可以打開Ambari所管理的主機列表。單擊導航欄左下方的“動作”下拉按鈕,在彈出的下拉列表中列出了與主機相關的動作的選項,其效果和“服務操作”是類似的,只是執行的范圍不一樣。當用戶在“動作”下拉列表中選擇“顯示主機”→“主機”→“啟動所有組件”選項時,Ambari會啟動主機中的所有服務。當用戶在“動作”下拉列表中選擇“所有主機”→“DataNodes”→“停止所有組件”選項時,Ambari會關閉所有機器關于DataNode的進程。當集群不能夠滿足生產環境所需的資源時,可以通過“動作”下拉列表中“添加新的主機”進項來擴展集群。新的主機節點在加入集群之前,需要完成任務6.1中基本環境的配置及AmbariAgent服務的安裝配置。進入其中的一臺主機,如Master,可以看到該主機中所有進程的運行狀態、主機資源使用情況、主機的IP地址、資源棧等信息。在導航欄右下方有“主機動作”下拉按鈕,通過單擊該下拉按鈕可以進行一系列操作。在“主機動作”下拉列表中有“打開維護模式”選項,對于主機級別的維護模式來說,就是打開了該主機所有進程的維護模式。如果該主機已經有告警信息,一旦維護模式被打開,告警信息就會被屏蔽,并抑制新告警信息的產生,所有的批量操作都會忽略該機器。3.進程管理每個服務都由相應的進程組成,如HDFS服務包含了NameNode、SecondaryNameNode、DateNode等進程。每臺主機中都安裝了相應的服務進程,如Master節點中包含HDFS的NameNode進程,Slave1節點中包含SecondaryNameNode、DateNode進程。進入Master節點,找到需要進行管理的進程,如NameNode,該進程后面有“Started”按鈕,表示該進程正在運行中,單擊該按鈕可以改變進程的運行狀態,如“重啟”“停止”“移動”“打開維護模式”“均衡HDFS”等。其中,打開進程級別的維護模式后會有以下兩個影響。①該進程不再受批量操作的控制。②抑制該進程告警信息的產生。例如,打開主機Master節點的DataNode的維護模式,那么當用戶在“服務操作”下拉列表中選擇“停止”選項時,將會停止所有HDFS服務,但該主機的DataNode不會被關閉,這是因為停止HDFS服務的批量操作后,會直接忽略Master節點中的DataNode。4.配置管理Ambari管理工具可以很方便地修改配置文件,并應用到集群的每一臺主機中,尤其是在集群中的主機數量非常多的情況下。例如,需要修改集群HDFSBlock復制因子(BlockReplication)為2,在手動部署集群的情況下,要修改每一臺主機的hdfs-site.xml配置文件。如果一個集群中有幾十臺或者幾百臺主機,則工作量是非常大的。而Ambari集群管理工具可以很好地應對這種情況,由集群中的AmbariServer向每臺主機中的AmbariAgent發送相關的心跳信息,由此更新每臺主機中的配置文件。具體操作步驟如下。在頁面導航欄中選擇“服務”→“HDFS”選項,在其服務列表右側選擇“配置”→“Advanced”→“General”→“BlockReplication”選項,將“Blockreplication”修改為2,單擊“保存”按鈕。保存成功后,可以看到相應的版本信息,單擊“重啟”按鈕,重啟所有標記重啟的組件。 在Ambari圖形界面中,可以查看某一臺主機的配置文件。單擊頁面導航欄中的“主機”按鈕,在進入的界面中選擇相應的主機,選擇“配置”選項卡,便可以查看相應服務的配置信息。為了保證整個集群配置信息的統一,這里要禁止單獨修改某一臺主機的配置文件。Hadoop平臺搭建與應用教案NO.8教師姓名授課班級授課形式理實一體化授課時間年月日第周授課時數4授課章節名稱項目8Hadoop平臺應用綜合案例教學目的(1)熟悉HDFS、Hive、MySQL、HBase的數據互導。(2)了解Hive與傳統關系型數據庫的區別。(3)學會HDFS、Hive、MySQL、HBase的數據互導操作。(4)學會使用Hive進行簡單的數據分析操作。(5)使用Flume、Kafka、Flink進行簡單的模擬流數據處理教材分析教學重點HDFS、Hive、MySQL、HBase的數據互導操作教學難點使用Flume、Kafka、Flink進行簡單的模擬流數據處理更新、補充、刪節內容課外作業熟練HDFS、Hive、MySQL、HBase的數據互導操作教學過程教學提示項目8Hadoop平臺應用綜合案例任務8.1本地數據集上傳到數據倉庫Hive中下面把test.txt中的數據導入到數據倉庫Hive中。為了完成這個操作,需要先把test.txt上傳到HDFS中,再在Hive中創建一個外部表,完成數據的導入。1.啟動HDFSHDFS是Hadoop的核心組件,因此,要想使用HDFS,必須先安裝Hadoop。這里已經安裝了Hadoop,打開一個終端,執行命令“start-all.sh”,啟動Hadoop服務。執行命令“jps”,查看當前運行的進程。2.將本地文件上傳到HDFS中將本地文件test.txt上傳到HDFS中,并存儲在HDFS的/bigdatacase/dataset目錄中。在HDFS的根目錄中創建一個新的目錄bigdatacase,并在其中創建一個子目錄dataset。執行命令“hadoopdfs-put/usr/local/bigdatacase/dataset/test.txt/bigdatacase/dataset”,將text.txt文件上傳到HDFS的/bigdatacase/dataset目錄中。執行命令“hadoopdfs-cat/bigdatacase/dataset/test.txt|head-10”,查看HDFS中的test.txt的前10條記錄。3.在Hive中創建數據庫(1)創建數據庫和數據表執行命令“servicemysqlstart”,啟動MySQL數據庫。Hive是基于Hadoop的數據倉庫,使用HiveQL語言編寫的查詢語句,最終都會被Hive自動解析為MapReduce任務,并由Hadoop具體執行。因此,需要先啟動Hadoop服務,再啟動Hive服務,可通過執行命令“hive”來啟動Hive服務。啟動Hive服務后,執行命令“createdatabasedblab”,在Hive中創建一個數據庫dblab。創建外部表。(2)查詢數據在Hive命令行模式下,執行命令“showcreatetablebigdata_user”,查看表的各種屬性。執行命令“descbigdata_user”,查看表的簡單結構。執行命令“select*frombigdata_userlimit10”,查看表的前10條數據。任務8.2使用Hive進行簡單的數據分析1.簡單查詢分析執行命令“selectipfrombigdata_userlimit10”,查詢前10條記錄的ip。2.查詢前20條記錄的ip和time執行命令“selectip,timefrombigdata_userlimit20”,查詢前20條記錄的ip和time。3.使用聚合函數count()統計表中的數據執行命令“selectcount(*)frombigdata_user”,統計表中的數據。任務8.3Hive、MySQL、HBase數據的互導1.Hive預操作創建臨時表user_action。創建完成后,Hive會自動在HDFS中創建對應的數據文件/user/hive/warehouse/dbalb.db/user_action。執行命令“hadoopdfs-ls/user/hive/warehouse/dblab.db/user_action”,在HDFS中查看創建的user_action表。2.數據導入操作在HiveShell模式下執行命令“insertoverwritetabledblab.user_actionselect*fromdblab.bigdata_user”,將bigdata_user表中的數據導入到user_action表中。執行命令“select*fromuser_actionlimit10”,查詢表的前10條記錄。3.使用Sqoop將數據從Hive導入到MySQL中登錄MySQL,在dblab數據庫中創建與Hive對應的user_action表,并設置其編碼格式為UTF-8。退出MySQL,進入Sqoop的bin目錄,導入數據。使用root用戶登錄MySQL,查看已經從Hive導入到MySQL中的數據。4.使用Sqoop將數據從MySQL導入到HBase中啟動Hadoop集群和HBase服務,并查看集群節點進程。master1節點的進程如下。[root@master1bin]#jps1714SecondaryNameNode4437Jps3207HMaster1514NameNode1883ResourceManager3358HRegionServer3039QuorumPeerMainslave1節點的進程如下。[root@slave1bin]#jps577NodeManager786QuorumPeerMain1811Jps854HRegionServer473DataNodeslave2節點的進程如下。[root@slave2bin]#jps578NodeManager3154Jps1028QuorumPeerMain474DataNode1102HRegionServer進入HBaseShell。在HBase中創建user_action表。新建一個終端,導入數據。再次切換到HBaseShell運行的終端窗口,執行命令“scan'user_action'”,查詢插入的數據。5.利用HBase-thrift庫將數據導入到HBase中首先,使用“pip”命令安裝最新版的HBase-thrift庫。其次,在hbase/bin目錄下啟動thrift相關命令,開啟9095端口。查看9095端口。執行“jps”命令,查看進程運行情況。在HBase中創建student表,其屬性有name、course,并查看創建的表。使用Python編程將本地數據導入到HBase中。切換到HBaseShell運行窗口,查詢ip_info中插入的3條數據。任務8.4流數據處理的簡單應用學會使用Flume監聽端口數據,存入kafka主題,再使用Flink編程消費Kafka主題內容,進行簡單的流數據處理,將結果存入Kafka的另一個主題中。在進行操作前,需確保Hadoop、Zookeeper和Kafka集群已啟動。1、Telnet工具的安裝與使用(1)通過yum命令安裝Telnet和Netcat工具。(2)Netcat工具的使用測試,開啟一個本地7777的TCP協議端口,等待客戶端發起連接。新打開一個終端窗口,執行“telnet”命令,進入telnet客戶端命令模式在telnet客戶端命令模式下輸入如下信息,向目標服務器發送“test”和“txt”信息,若要退出命令發送模式,直接按'^]'即可,然后執行quit退出telnet客戶端。在“nc”監聽窗口監聽到打印數據代表測試成功。如果Netcat順利監聽到數據,即可終止上述兩個命令完成測試。2、Kafka主題的創建與查看(1)創建wordcount主題,分區數設為4,副本數為1。(2)使用"--list"命令查看已經創建好的主題列表。(3)通過“--describe--topicwordcount”,可以查看wor
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025合同糾紛解決樣本
- 2025年鋁鍛壓材合作協議書
- 2025中英文翻譯模板企業設備租賃合同(上海工業發展銀行)
- 2025租房代理合同如何簽訂
- 2025標準的汽車消費借款合同范本
- 2025委托招聘的勞動合同
- 2025合同案例:銷售協議無法替代勞動合同的規定解析
- 2025年雄烯二酮項目建議書
- 2025租房代理合同范文
- 2025年石油鉆井泥漿固控設備項目合作計劃書
- 裝配作業指導書
- 建設工程成本計劃與控制課件(原)
- IPC-A-610國際標準中英文對照(doc 17)
- 《陜文投應聘表格》word版
- 建設工程圍擋標準化管理圖集(2022年版)
- (完整word版)中小學教育質量綜合評價指標框架(試行)
- 《新概念英語》第一冊單詞表
- 半澤直樹日語字幕臺詞(一)
- 拌和站地基承載力及抗傾覆計算書
- 最新公司客戶訂單流程管理制度
- 生物分離工程第四章膜分離技術.ppt
評論
0/150
提交評論