《大數據平臺搭建與配置管理》期中試題試卷及答案2套AB卷_第1頁
《大數據平臺搭建與配置管理》期中試題試卷及答案2套AB卷_第2頁
《大數據平臺搭建與配置管理》期中試題試卷及答案2套AB卷_第3頁
《大數據平臺搭建與配置管理》期中試題試卷及答案2套AB卷_第4頁
《大數據平臺搭建與配置管理》期中試題試卷及答案2套AB卷_第5頁
已閱讀5頁,還剩16頁未讀 繼續免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

大數據平臺搭建與配置管理第21頁共21頁《大數據平臺搭建與配置管理》期中試題期中試題(閉卷A)題號一二三四五六七八九十成績滿分30202030100得分【本套試卷共有4大題,計66小題】一、選擇題(20題,每題1.5分,共30分)1、Client端上傳文件的時候下列正確的是()。A.數據經過NameNode傳給DataNodeB.Client只上傳數據到一臺DataNodeC.Client端將文件切分為Block,依次上傳D.NameNode負責Block復制工作2、HDFS的NameNode負責管理文件系統的命名空間,將所有的文件和文件夾的元數據保存在一個文件系統樹中,這些信息也會在硬盤上保存成一下文件()。A.日志B.命名空間鏡像C.兩者都是D.以上都不是3、MapReduce框架提供了一種序列化鍵/值對的方法,支持這種序列化的類能夠在Map和Reduce過程中充當鍵或值,以下說法錯誤的是?()A.實現Writable接口的類是值B.實現WritableComparable接口的類可以是值或鍵C.Hadoop的基本類型Text并不實現WritableComparable接口D.鍵和值的數據類型可以超出Hadoop自身支持的基本類型4、對MapReduce的體系結構,以下說法不正確的是()A.分布式編程架構B.以數據為中心,更看重吞吐率C.分而治之的思想D.將一個任務合并成多個子任務5、在創建Linux分區時,一定要創建()兩個分區。A.FAT/NTFSB.FAT/SWAPC.NTFS/SWAPD.SWAP/根分區6、下面哪個命令是用來定義shell的全局變量()。A.exportfsB.aliasC.exportsD.export7、ZooKeeper可以實現()。A.高吞吐量和低延遲數量B.高吞吐量和高延遲數量C.低吞吐量和低延遲數量D.低吞吐量和高延遲數量8、分布式應用正在運行的一組系統稱為()。A.集群B.分布式系統C.單元D.組9、查詢速度的提升是以額外的()為代價的。A.創建索引B.創建索引和存儲索引C.刪除索引D.存儲索引10、Hive的元數據不能夠存儲在哪些位置?()A.mysqlB.derbyC.oracleD.文本文件11、HBase依賴()提供消息通信機制。A.ZookeeperB.ChubbyC.RPCD.Socket12、LSM含義是?()A.日志結構合并樹B.二叉樹C.平衡二叉樹D.長平衡二叉樹13、HFile數據格式中的Data字段用于()。A.存儲實際的KeyValue數據B.存儲數據的起點C.指定字段的長度D.存儲數據塊的起點14、下列不屬于StreamGrouping方式的是()。A.ShuffleGroupingB.AllGroupingC.FieldsGroupingD.newGrouping15、Storm會在集群內分配對應并行度個數的()來同時執行這一組件。A.哈希值B.ThriftC.task線程D.Worker進程16、Storm可以用來實時處理新數據和()。A.刪除數據庫B.更新數據庫C.刪除節點D.更新表17、MapReduce編程模型,鍵值對<key,value>的key必須實現哪個接口?()。A.WritableComparableB.ComparableC.WritableD.LongWritable18、HBase數據庫的BlockCache緩存的數據塊中,哪一項不一定能提高效率()。A.–ROOT-表B..META.表C.HFileindexD.普通的數據塊19、HBase的Region組成中,必須要有以下哪一項( )。A.StoreFileB.MemStoreC.MetaStoreD.HFile20、設計分布式數據倉庫hive的數據表時,為取樣更高效,一般可以對表中的連續字段進行什么操作()。A.分桶B.分區C.索引D.分表二、填空題(20題,每題1分,共10分)21、Spouts會從外部讀取流數據并持續發出。22、當Spout或者Bolt發送元組時,它會把元組發送到每個訂閱了該的Bolt上進行處理。23、Storm采用了來作為分布式協調組件。24、HBase分布式模式最好需要個節點。25、LSM結構的數據首先存儲在。26、HBase中Hmaster負責監控的生命周期。27、Hive遠程服務通過方式訪問Hive。28、Hive不支持的更新。29、Hive非常適合于對那些只在文本末尾添加數據的大型數據集進行。30、分布式應用程序可以基于Zookeeper實現諸如數據發布/訂閱、、命名服務、分布式協調/通知、、、分布式鎖和分布式隊列等功能。31、注冊成臨時節點后,再服務端出問題時,節點會自動的從zookeeper上。32、ZooKeeper提供了一項基本服務是。33、計算過程高度抽象到兩個函數和。34、每一個小數據都可以完全地進行處理。35、大規模數據集的處理包括兩個核心環節。36、ResourceManager默認的WebUI訪問端口號為:。37、Hadoop集群搭建中常用的4個配置文件為:、hdfs-site.xml、mapred-site.xml、。38、HA產生的背景是。39、網絡管理兩個重要任務分別是:和。40、命令是刪除文件命令。三、判斷題,正確填“T”,錯誤填“F”(20題,每題1分,共20分)41、Hadoop支持數據的隨機讀寫()。42、NameNode負責管理元數據信息metadata,client端每次讀寫請求,它都會從磁盤中讀取或會寫入metadata信息并反饋給client端()。43、MapReduce的inputsplit一定是一個block()。44、鏈式MapReduce計算中,對任意一個MapReduce作業,Map和Reduce階段可以有無限個Mapper,但Reducer只能有一個()。45、HBase對于空(NULL)的列,不需要占用存儲空間。()。46、MapReduce適于PB級別以上的海量數據在線處理()。47、MapReduce計算過程中,相同的key默認會被發送到同一個reducetask處理()。48、HBase可以有列,可以沒有列族(columnfamily)()。49、/tmp目錄主要用于存儲程序運行時生成的臨時文件()。50、Linux系統以文本文件的形式保存大備份系統日志,如lastlog()。51、Hadoop是Java開發的,所以MapReduce只支持Java語言編寫()。52、NameNode負責管理metadata,client端每次讀寫請求,它都會從磁盤中讀取或者會寫入metadata信息并反饋給client端()。53、MapReduce程序可以直接讀取HBase內存儲的數據內容。()54、所有消息交換都是通過MapReduce框架自身去實現的。()55、更新ZooKeeper操作是非阻塞式的。()56、在分布式鎖服務中,就是通過對集群進行Master選舉,來解決分布式系統中的單點故障。()57、分區的主要好處是加快查詢速度。()58、Hive創建內部表時,會將數據移動到數據倉庫指向的路徑。()。59、MapReduce程序可以直接讀取HBase內存儲的數據內容。()60、使用Shell命令insert對HBase中的一張表進行數據添加操作。()四、簡答題(6題,每題5分,共30分)61、簡述HBase的主要技術特點。答:62、HBase有哪些類型的訪問接口?答:63、是否所有的MapReduce程序都需要經過Map和Reduce這兩個過程?如果不是,請舉例說明。答:64、請描述HDFSHA架構組成組建及其具體功能。答:65、hadoop節點動態上線下線怎么操作?答:66、HAnamenode是如何工作的?答:《大數據平臺搭建與配置管理》期中標答期中標答A(閉卷)題號一二三四五六七八九十成績滿分30202030100得分一、選擇題(20題,每題1.5分,共30分)1-5:CCCDD 6-10:DAABD11-15:AAADC16-20:BADBA二、填空題(20題,每題1分,共20分)21、Tuple 22、Stream23、Zookeeper24、325、內存中26、RegionServer27、JDBC28、級別29、批處理30、負載均衡集群管理Master選舉31、刪除32、分布式鎖33、MapReduce34、并行35、分布式存儲和分布式計算36、808837、core-site.xmlyarn-site.xml38、為了解決單NN那可能會出現宕機導致集群不可用或數據丟失的問題39、監控控制40、rm三、判斷題(20題,每題1分,共20分)41-45:FFFTT46-50:FFFTF51-55:FFTTT56-60:TTTTF四、簡答題(6題,每題5分,共60分)61、答:(1)列式存儲(2)表數據是稀疏的多維映射表(3)讀寫的嚴格一致性(4)提供很高的數據讀寫速度(5)良好的線性可擴展性(6)提供海量數據(7)數據會自動分片(8)對于數據故障,hbase是有自動的失效檢測和恢復能力。(9)提供了方便的與HDFS和MAPREDUCE集成的能力62、答:HBase提供了NativeJavaAPI,HBaseShell,ThriftGateway,RESTGateWay,Pig,Hive等訪問接口。63、答:不是。略64、答:在一個典型的HA集群中,一般設置兩個名稱節點,其中一個名稱節點處于“活躍”狀態,另一個處于“待命”狀態。處于活躍狀態的名稱節點負責對外處理所有客戶端的請求,而處于待命狀態的名稱節點則作為備用節點,保存了足夠多的系統元數據,當名稱節點提供了“熱備份”,一旦活躍名稱節點出現故障,就可以立即切換到待命名稱節點,不會影響到系統的正常對外服務。65、答:1)節點上線操作:當要新上線數據節點的時候,需要把數據節點的名字追加在dfs.hosts文件中(1)關閉新增節點的防火墻(2)在NameNode節點的hosts文件中加入新增數據節點的hostname(3)在每個新增數據節點的hosts文件中加入NameNode的hostname(4)在NameNode節點上增加新增節點的SSH免密碼登錄的操作(5)在NameNode節點上的dfs.hosts中追加上新增節點的hostname,(6)在其他節點上執行刷新操作:hdfsdfsadmin-refreshNodes(7)在NameNode節點上,更改slaves文件,將要上線的數據節點hostname追加到slaves文件中(8)啟動DataNode節點(9)查看NameNode的監控頁面看是否有新增加的節點2)節點下線操作:(1)修改/conf/hdfs-site.xml文件(2)確定需要下線的機器,dfs.osts.exclude文件中配置好需要下架的機器,這個是阻止下架的機器去連接NameNode。(3)配置完成之后進行配置的刷新操作./bin/hadoopdfsadmin-refreshNodes,這個操作的作用是在后臺進行block塊的移動。(4)當執行三的命令完成之后,需要下架的機器就可以關閉了,可以查看現在集群上連接的節點,正在執行Decommission,會顯示:DecommissionStatus:Decommissioninprogress執行完畢后,會顯示:DecommissionStatus:Decommissioned(5)機器下線完畢,將他們從excludes文件中移除。66、答:ZKFailoverController主要職責1)健康監測:周期性的向它監控的NN發送健康探測命令,從而來確定某個NameNode是否處于健康狀態,如果機器宕機,心跳失敗,那么zkfc就會標記它處于一個不健康的狀態。2)會話管理:如果NN是健康的,zkfc就會在zookeeper中保持一個打開的會話,如果NameNode同時還是Active狀態的,那么zkfc還會在Zookeeper中占有一個類型為短暫類型的znode,當這個NN掛掉時,這個znode將會被刪除,然后備用的NN,將會得到這把鎖,升級為主NN,同時標記狀態為Active。3)當宕機的NN新啟動時,它會再次注冊zookeper,發現已經有znode鎖了,便會自動變為Standby狀態,如此往復循環,保證高可靠,需要注意,目前僅僅支持最多配置2個NN。4)master選舉:如上所述,通過在zookeeper中維持一個短暫類型的znode,來實現搶占式的鎖機制,從而判斷那個NameNode為Active狀態《大數據平臺搭建與配置管理》期中試題期中試題(閉卷B)題號一二三四五六七八九十成績滿分30202030100得分【本套試卷共有4大題,計66小題】一、選擇題(20題,每題1.5分,共30分)1、欲把當前目錄下的file1.txt復制為file2.txt,以下正確的命令是()。A.copyfile1.txtfile2.txtB.cpfile1.txt|file2.txtC.catfile2.txtfile1.txtD.catfile1.txt>file2.txt2、下面哪個命令可以用來切換使用者的身份()。A.passwdB.logC.whoD.su3、以下哪個不是HDFS的守護進程()。A.datanodeB.namenodeC.secondarynamenodeD.mrappmaster/yarnchild4、Hadoop-2.6.5集群中的HDFS的默認的數據塊的大小是()。A.32MBB.64MBC.128MBD.256MB5、HDFS集群中的namenode職責不包括()。A.維護HDFS集群的目錄樹結構B.維護HDFS集群的所有數據塊的分布、副本數和負載均衡C.負責保存客戶端上傳的數據D.響應客戶端的所有讀寫數據請求6、下列關于HDFS的描述正確的是()。A.如果NameNode宕機,SecondaryNameNode會接替它使集群繼續工作B.HDFS集群支持數據的隨機讀寫C.NameNode磁盤元數據不保存Block的位置信息D.DataNode通過長連接與NameNode保持通信7、MapReduce是()上的并行計算。A.運行于大規模集群B.運行于磁盤C.運行于小規模集群D.運行在復雜的系統中8、MapReduce框架會將Map程序就近地在()數據所在的節點運行。A.HDFSB.SparkC.MapReduceD.Zookeeper9、MapReduce為了保證任務的正常執行,采用()等多種容錯機制。A.重復執行B.重新開始整個任務C.直接丟棄執行效率低的作業D.以上都是10、ZooKeeper是集群的(),監視著集群中各個節點的狀態根據節點提交的反饋進行下一步合理操作。A.領導者B.執行者C.管理者D.以上都不是11、ZK提供了一定的()可以用來獲取一個順序增長的,可以在集群環境下使用的ID。A.函數B.接口C.方法D.類12、名稱空間由()組成。A.磁盤寄存器B.表C.內存寄存器D.數據寄存器13、hive數據倉庫中的數據,不可能的來源有哪些?()A.Mysql或Oracle數據庫B.行為數據C.業務數據系統D.娛樂資料14、解壓.tar.gz結尾的HBase壓縮包使用的Linux命令是什么?()A.tar-vfB.tarC.tar-zxD.tar-zxvf15、下以下數據第三列,應該用哪種數據類型存儲:1,zhangsan,[90,79.88]。()A.mapB.intC.arrayD.struct16、查詢速度的提升是以額外的()為代價的。A.創建索引B.創建索引和存儲索引C.刪除索引D.存儲索引17、當客戶端發起一個Put請求時,首先它從()表中查出該Put數據。A.hbase:metaB.hbase:valueC.-ROOT-D.hbase:key18、HBase構建二級索引的實現方式有哪些?()A.MapReduceB.HiveC.BloomFilterD.Filter19、Storm將()組成的網絡抽象成Topology。A.Spouts和BoltsB.字段C.GFSD.Tuple20、Storm運行在分布式集群中,其運行任務的方式與()類似。A.HDFSB.HBaseC.HadoopD.Zookeeper二、填空題(20題,每題1分,共10分)21、鏈接分為:。22、JDK下解釋執行Java的程序是。23、是客戶端需要執行的一個工作單元。24、HDFS在設計上采取了多種機制保證在硬件出錯的環境中實現數據的。25、HDFS不適合用在的應用場合。26、HDFS集群中只有唯一一個名稱節點,該節點負責所有的。27、Map的輸出結果首先被寫入。28、磁盤包含機械部件,它是通過和來尋址定位數據。29、Shuffle優化的原則是給Shuffle過程盡可能多的。30、ZooKeeper允許分布式進程通過共享的相互協調。31、分布式應用正在運行的一組系統稱為。32、ZooKeeper類通過其構造函數提供功能。33、Hive中創建的目的就是在查詢一個表中某列值時提升速度。34、使用命令可以創建一個指定名字的表。35、WHERE子句是一個。36、HBase主要用來存儲和的松散數據。37、在HBase中執行操作時,并不會刪除數據舊的版本。38、服務器負責存儲和維護分配給自己的。39、Storm可以用來實時處理新數據和。40、Topology中每一個計算組件都有一個執行度。三、判斷題,正確填“T”,錯誤填“F”(20題,每題1分,共20分)41、Hive本地模式和遠程模式,最關鍵的差別是存儲元數據的mysql數據庫的安裝位置是在本地還是在遠端。()42、Hive數據類型中date類型是與時區無關的類型。()43、Hive數據類型中,Timestamp類型是與時區無關的類型。()44、Hive中的表,對應hdfs中文件的目錄。()45、外部表和內部表的差別,只是需要添加External關鍵詞就可以了。()46、刪除外部表,只會刪除外部表的元數據信息,并不會將外部表的數據刪除。()47、刪除外部表,會同時刪除外部表的數據和元數據。()48、在Hive中,執行分桶操作,具體哪個值,分到哪個桶中,可以通過對數據進行Hash運算取得。()49、HBase是一套高性能的分布式數據集群,必須在大型機或者高性能的服務器上進行搭建。()50、HBase是Apache的Hadoop項目的子項目,利用HadoopHDFS作為其文件存儲系統,適合于非結構化數據存儲。()51、MapReduce程序可以直接讀取HBase內存儲的數據內容。()52、HBase系統適合進行多表聯合查詢以及復雜性讀寫操作。()53、Hadoop是IBM公司開發的一款商用大數據軟件。()54、Hadoop是一個能夠對大量數據進行分布式處理的軟件框架,能夠處理PB級數據。()55、Hadoop存儲系統HDFS的文件是分塊存儲,每個文件塊默認大小為32MB。()56、HDFS系統為了容錯保證數據塊完整性,每一塊數據都采用2份副本。()57、HDFS系統采用NameNode定期向DataNode發送心跳消息,用于檢測系統是否正常運行。()58、用戶可以通過”hadoopfs–put”命令獲取遠端文件數據。()59、Nagios不可以監控Hadoop集群,因為它不提供Hadoop支持()。60、Ganglia不僅可以進行監控,也可以進行報警()。四、簡答題(6題,每題5分,共30分)61、試論述實現矩陣向量乘法與矩陣乘法采用不同MapReduce策略的原因。62、試論述HBase的三層結構中各層次的名稱和作用。答:63、Storm集群中的Master節點和Work節點各自運行什么后臺進程?這些進程又分別負責什么工作?答:64

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論