




版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
1、 光環國際 大數據Hadoop期中考試1 單選題(每個1.5分,共20分)(1)Mapreduce擅長哪個領域的計算( A )。A. 離線批處理B. DAG計算C. 流式計算D. 實時計算(2)關于MapReduce原理,下面說法錯誤的是( D )。A. 分為Map和Reduce兩個階段B. Map階段由一系列Map任務組成C. Reduce階段由一系列Reduce任務組成D. Map階段與Reduce階段沒有任何依賴關系(3)HDFS默認副本數是( C )。A. 1B. 2C. 3D. 4(4)不屬于HDFS架構組成部分是( D )。A. NameNodeB. Secondary NameN
2、odeC. DataNodeD. TaskTracker(Hadoop MapReduce 1.0的組件)(5)關于Block和Split兩個概念,下面說法錯誤的是( C )。A. Block是HDFS中最小的數據存儲單位B. Split是MapReduce中最小的計算單元C. Block是Split是一一對應關系(默認是一一對應的)D. Block和Split之間對應關系是任意的,可由用戶控制(6)以下不屬于Hadoop內核的組成部分的是( C )。A. HDFSB. MapReduceC. HBaseD. YARN(7)不屬于HBase中的術語的是( D )。A. ColumnB. Col
3、umn FamilyC. Row Key D. Meta(8)下面關于Hive,說法錯誤的是( A )。A. Hive支持所有標準SQL語法B. Hive底層采用的計算引擎是MapReduce(目前支持Spark、Tez等)C. Hive提供的HQL語法,與傳統SQL很類似D. Hive Server可采用MySQL存儲元數據信息(9)通常而言,一個標準的生產環境(考慮成本、效益等)中,Zookeeper實例個數不可能是( B )。A. 3B. 4C. 5D. 7(10)Flume的主要作用是( C )。A. 數據處理和分析B. 數據存儲C. 數據收集D. 網絡爬蟲(11)HBase支持多語言
4、(比如C+、Python等)訪問,為實現該功能,它采用的開源軟件是( C )。A. protobufB. 自定義網絡協議C. thriftD. avro(12)關于HDFS和HBase,說法錯誤的是( D )。AHDFS不能隨機讀寫,HBase可以BHDFS適合存儲大文件,HBase可以存儲小文件CHBase底層采用了HDFSDHDFS和HBase無直接關系(13)YARN和MapReduce的關系是( A )。A. MapReduce是一個計算框架,可運行在YARN之上BYARN是一個計算框架,可運行在MapReduce之上CMapReduce和YARN無直接關系D以上回答均不正確(14)關
5、于MapReduce中的數據本地性,下面方法正確的是( AB )。AMap Task和Reduce Task都會考慮數據本地性B只有Map Task會考慮數據本地性(Reduce階段是從Map階段拉取Shuffle數據的)C只有Reduce Task會考慮數據本地性DMap Task和Reduce Task都不考慮數據本地性(15)與Hive相比,Presto主要優勢是( C )。A利用MapReduce進行分布式計算,更加高效B完全分布式計算,可以充分利用集群資源CMPP架構,全內存計算D有很強的容錯性(16)下面哪種存儲格式是Hive中常用的列式存儲格式( D )。A. Text File
6、B. Sequence FileC. ParquetD. ORC(17) 下面哪個信息不會存儲在HBase的一個cell( EC )。A. row keyB. column family名稱C. 表名D. 列名E. 版本號F. cell值數據存儲冗余,非常耗費空間(18)默認情況下,一個MapReduce作業(處理的數據HDFS上的一個目錄)的map task個數是由( B )決定的。A. 目錄中文件個數B. 目錄對應的block數目C. 默認個數是1D. 用戶自己指定HDFS,Block默認大小為128MB。一個Block文件只能來自于一個文件。查看一個文件有多少個Block的命令:hdfs
7、 fsck /input files blocks -locations(19)Hive和Presto支持標準SQL嗎?( BD )A. 都支持B. 都不支持C. Hive支持,Presto不支持D. Hive不支持,Presto支持(20)既然有了Hive,還需要用MapReduce編寫程序處理數據嗎?( B )A. 不需要B. 需要2 多選題(每個4分,共20分)(1) 關于HDFS,說法正確的是( ABC )A 不存在NameNode單點故障問題B 一個集群可存在多個NameNode對外提供服務C HDFS HA和Federation是它的兩大特色D 不能存儲小文件(2) 關于Kafka
8、,說法正確的是( BCD )A 是一個分布式key/value存儲系統B 由producer、broker和consumer等角色構成C 通過zookeeper進行服務協調D 消息可以存成多個副本以達到容錯的目標(3) 關于MapReduce,說法正確的是( ACD )A MapReduce具有容錯性,一臺節點掛掉不會導致整個應用程序運行失敗B 所有MapReduce程序公用一個ApplicationMasterC MapReduce程序可以運行在YARN之上(也可以運行在本地)D MapReduce是Hive默認的計算引擎(4) 用戶可使用哪幾種語言開發MapReduce應用程序( ABCD
9、 )A. C+B. JavaC. PHPD. Go(5) 下面哪幾個屬于YARN自帶的資源調度器( BCD )A Deadline SchedulerB FIFO(先進先出)C Capacity Scheduler(容錯調度系統)D Fair Scheduler(公平調度系統)3 簡答題(每個5分,共10分)(1) 描述MapReduce作業從提交到YARN上,到運行結束的整個過程,請用步驟1,步驟2,描述。答:步驟1,客戶端提交請求到Yarn的ResourceManager步驟2,RM確定一個AppMaster步驟3,AppMaster向RM申請NodeManager步驟4,AppMaste
10、r將Task發送給NodeManager僅限執行步驟5,AppMaster負責收集NodeManager的運行結果步驟6,AppMaster將結果返回給客戶端(2) 試描述如何對Hadoop Streaming程序進行調試?并舉出一個例子。答:?單機運行,本地測試:1.txt:cat,管道輸入Mapper,sort(3) 試寫出以下操作的shell命令:1) 在HDFS上創建目錄/home/test答:hdfs dfs -mkdir /homehdfs dfs -mkdir /home/test或hdfs dfs -mkdir -p /home/test2) 將正在運行的ID為applicat
11、ion_123132131_0001的應用程序殺死答:3) 查看HDFS上文件/home/test/1.txt的大小答:hdfs dfs -ls /home/test/1.txt4) 在Hive中創建一個parquet表,采用gzip壓縮格式,該表名為test,包含兩列:int類型名為id的列和string類型名為namename的列。如何在Presto中創建這個表,有何不同?答:create table if not exists test(id int,namename string)gzipstored as parquet;4 編程題(40分)(1)有一批文件,格式如下:11.12.1
12、.211.14.2.311.11.4.111.12.1.111.14.2.2每行有4列,每一列均是一個整數,列之間采用“.”作為分隔符,將數據按照第二列和第三列分組,每組中第四列所有數之和。注:如果第二列相同,則按照第三列分組,比如上述結果為:12.1314.2511.41結果中,key為“第二列和第三列”值,value是對應的第四列累加和,key和value之間使用t分割。要求:使用任意語言實現以上功能,寫出Mapper和Reducer,并給出相應的作業提交命令(或腳本)。答:(根據WordCount實例進行改造)Mapper:String values = value.toString().split(“.”);Text outputKey = new Text(values1+.+values2);IntWritable outputValue = new IntWritable(Integer.parsetInt(values3);Context.write(outputKey, outputValue);Reducer:無需
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 預防傳染病安全教育教案
- 預防假期安全
- 預防傳染病的知識
- 廣州科技職業技術大學《市場營銷》2023-2024學年第二學期期末試卷
- 福建理工大學《文化產業商業模式概論》2023-2024學年第二學期期末試卷
- 黑龍江交通職業技術學院《高級法語Ⅱ》2023-2024學年第二學期期末試卷
- 武漢理工大學《數據挖掘技術與應用》2023-2024學年第二學期期末試卷
- 濟寧醫學院《統計學原理與應用》2023-2024學年第一學期期末試卷
- 廣西城市職業大學《審計綜合實驗》2023-2024學年第一學期期末試卷
- 上海建橋學院《人工智能導論》2023-2024學年第二學期期末試卷
- 三年級下冊語文七彩課堂
- 第7課 全球聯系的初步建立與世界格局的演變 高中歷史統編版(2019)必修中外歷史綱要下冊
- 《工程勘察設計收費標準》(2002年修訂本)
- 在建項目汛前安全生產檢查表
- 中國風傳統文化家風家訓主題PPT模板
- 華為終端合作手機硬件測試標準-V10.4發布版本
- 外科手術基本器械及其使用
- 植被砼護坡綠化施工組織設計
- GPON組網與華為MA5800-X15OLT配置
- 小學四年級綜合實踐活動課件.ppt
- 通用請假條Excel表格模板
評論
0/150
提交評論