




版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
HADOOPHadoop概述一Hadoop生態圈Hadoop構架主要組成部分及介紹123目錄1Hadoop是一個實現了MapReduce計算模型的開源分布式并行編程框架,程序員可以借助Hadoop編寫程序,將所編寫的程序運行于計算機機群上,從而實現對海量數據的處理。Hadoop還提供一個分布式文件系統(HDFS)及分布式數據庫(HBase)用來將數據存儲或部署到各個計算節點上。所以,可以大致認為:Hadoop=HDFS(文件系統,數據存儲技術相關) +HBase(數據庫) +MapReduce(數據處理)Hadoop構架分析2Hadoop主要由HDFS、MapReduce、Hive和HBase等組成。Hadoop組成部分31、HadoopHDFS是GoogleGFS存儲系統的開源實現,主要應用場景是作為并行計算環境(MapReduce)的基礎組件,同時也是BigTable(如HBase、HyperTable)的底層分布式文件系統。HDFS采用master/slave架構。一個HDFS集群是有由一個Namenode和一定數目的Datanode組成。Namenode是一個中心服務器,負責管理文件系統的namespace和客戶端對文件的訪問。Datanode在集群中一般是一個節點一個,負責管理節點上它們附帶的存儲。在內部,一個文件其實分成一個或多個block,這些block存儲在Datanode集合里。Hadoop主要由HDFS、MapReduce、Hive和HBase等組成。Hadoop組成部分32、HadoopMapReduce是一個使用簡易的軟件框架,基于它寫出來的應用程序能夠運行在由上千個商用機器組成的大型集群上,并以一種可靠容錯的方式并行處理上TB級別的數據集。
一個MapReduce作業(job)通常會把輸入的數據集切分為若干獨立的數據塊,由Map任務(task)以完全并行的方式處理它們。
框架會對Map的輸出先進行排序,然后把結果輸入給Reduce任務。通常作業的輸入和輸出都會被存儲在文件系統中。整個框架負責任務的調度和監控,以及重新執行已經失敗的任務。Hadoop主要由HDFS、MapReduce、Hive和HBase等組成。Hadoop組成部分33、Hive是基于Hadoop的一個數據倉庫工具,處理能力強而且成本低廉。主要特點:
存儲方式是將結構化的數據文件映射為一張數據庫表。提供類SQL語言,實現完整的SQL查詢功能。可以將SQL語句轉換為MapReduce任務運行,十分適合數據倉庫的統計分析。大家有疑問的,可以詢問和交流可以互相討論下,但要小聲點大家有疑問的,可以詢問和交流可以互相討論下,但要小聲點Hadoop主要由HDFS、MapReduce、Hive和HBase等組成。Hadoop組成部分34、HBase是一個分布式的、面向列的開源數據庫,它不同于一般的關系數據庫,是一個適合于非結構化數據存儲的數據庫。
另一個不同的是HBase基于列的而不是基于行的模式。
HBase使用和BigTable非常相同的數據模型。用戶存儲數據行在一個表里。一個數據行擁有一個可選擇的鍵和任意數量的列,一個或多個列組成一個ColumnFamily,一個Fmaily下的列位于一個HFile中,易于緩存數據。
表是疏松的存儲的,因此用戶可以給行定義各種不同的列。在HBase中數據按主鍵排序,同時表按主鍵劃分為多個Hregion。Hadoop使用二登陸Hadoop集群Hadoop建表數據查詢及導出Hadoop的hdfs命令1234目錄2HOSTNAME133.128.88.200PORT22USERNAMEhadoop1登錄hadoop集群或者通過其他機器跳轉到133.128.88.200下sshhadoop@hadoop-m01或ssh,輸入密碼。通過hive命令登陸數據庫showdatabases;顯示當前的所有數據庫(同oracle數據庫的用戶);1usedw;切換數據庫;登錄hadoop集群showfunctions;顯示所有的函數;showtables;查看當前數據庫下所有的表;showtables'*tg*';模糊匹配當前數據庫下所有的表;CREATEEXTERNALTABLE`tg_cdr_noinfo_fix_d`(`call_duration`int,`otherfee`double,`source_type`string,`cycle_tag`string)PARTITIONEDBY(`day_part`string)ROWFORMATDELIMITEDFIELDSTERMINATEDBY','STOREDASINPUTFORMAT'org.apache.hadoop.mapred.TextInputFormat'OUTPUTFORMAT'org.apache.hadoop.hive.ql.io.HiveIgnoreKeyTextOutputFormat'LOCATION'hdfs://beh/data/stage2/tg_cdr_noinfo_fix_d'TBLPROPERTIES('last_modified_by'='hadoop','last_modified_time'='1464585329','transient_lastDdlTime'='1464585329')創建外部表2Hadoop建表字段類型表名表分區CREATETABLE`dwa_v_d_cus_cb_sing_use_add`(`day_id`stringCOMMENT'日期',`area_id`stringCOMMENT'地市',`city_id`stringCOMMENT'區縣',`user_id`stringCOMMENT'訂購實例標識',`toll_nums`doubleCOMMENT'本地長途次數',`use_status`stringCOMMENT'用戶使用類型dim.dim_4G_use_status')COMMENT'cBSS業務單用戶累計使用衍生信息(日)(從入網開始)'PARTITIONEDBY(`day_part`string)ROWFORMATDELIMITEDFIELDSTERMINATEDBY','STOREDASINPUTFORMAT'org.apache.hadoop.hive.ql.io.RC'OUTPUTFORMAT'org.apache.hadoop.hive.ql.io.RC'LOCATION'hdfs://beh/user/hive/warehouse/dw.db/dwa_v_d_cus_cb_sing_use_add'TBLPROPERTIES('transient_lastDdlTime'='1461115949');創建表2Hadoop建表字段類型及注釋表名表注釋表分區表的相關命令showcreatetabledw.dwa_v_d_cus_cb_sing_use_add;查詢建表腳本;3showpartitionsdw.dw_v_u_k_cdr_gprs_cb;查看表分區數據查詢及導出select*fromdw.dw_v_u_k_cdr_gprs_cbwhereday_part='20160101'limit1;查詢數據insertoverwritetabledim.dim_cbss_deposit清表插入數據insertintotable插入數據insertoverwritetabledw.dw_v_deposit_info_cbpartition(day_part='$v_day');插入分區3數據查詢及導出導出方法一:insertoverwritelocalDIRECTORY'$check_log_dir'ROWFORMATDELIMITEDFIELDSTERMINATEDBY'$v_spli
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 保潔公司 員工 合同標準文本
- 中介地皮廠房合同標準文本
- 2025年跨境電商物流空運合同
- 五座汽車租賃合同樣本
- 公司向政府借款合同樣本
- 體育館維修合同標準文本
- 農村改建建筑合同樣本
- 修路合伙合同樣本
- 乙方廣告銷售合同樣本
- bot水務合同樣本
- 2025年北京市西城區高三一模物理試卷(含答案)
- 網絡運維方案
- 江蘇省常熟市2022-2023學年高一下學期期中考試歷史試題 含答案
- 2025年04月國家廣播電視總局直屬事業單位公開招聘310人筆試歷年典型考題(歷年真題考點)解題思路附帶答案詳解
- 地鐵施工監測監理細則
- 江蘇省蘇州市2024-2025學年度第二學期七年級歷史期中模擬試卷(1)含答案
- 2024年山東省國控設計集團有限公司招聘筆試真題
- 學校校園膳食監督家長委員會履職承諾協議書
- 勞務外包服務投標方案(技術標)
- MOOC 現代控制理論基礎-西北工業大學 中國大學慕課答案
- 醫院保潔服務投標方案(技術方案)
評論
0/150
提交評論