大數據分析師理論知識考試復習題庫（含答案）

上傳人：無*** IP屬地：河北上傳時間：2025-04-09 格式：PDF 頁數：127 大小：31.52MB 積分：12 舉報 版權申訴

已閱讀5頁，還剩122頁未讀，繼續免費閱讀

版權說明：本文檔由用戶提供并上傳，收益歸屬內容提供方，若內容存在侵權，請進行舉報或認領

文檔簡介

大數據分析師理論知識考試復習題庫(含答案)

一、單選題

1.Spark是用以下那種編程語言實現的？

A、c

B\C++

C、java

D\SeaIa

答案：D

解析：Spark中用Scala開發語法簡潔許多，且支持類型推斷，可大大提升開發

效率。

2.在FusinlnsightManager界面中，對Lader的操作不包括下列哪個選項()

A、切換Lader主備節點

B、啟動Lader實例

C、配置Lader參數

D、查看Lader服務狀態

答案：A

解析：在FusinInsight界面中，對Lader的操作不包括切換Lader主備節點

3.Hive不適用于以下哪個場景單選

A、非實時分析，例如日析

B、數據挖掘，例如用戶析，區域展示

C、數據匯總，例如母天,每擊數，點擊排行

D、實時在線數

答案：D

解析：Hive不適用于實時在線數單選。由于hive主要用于數據分析，因此延時

比較高，不適用于實時場景，適用于離線大數據分析

4.Hadp平臺中HBase的Regin是由哪個服務進程來管理？

A、HMaster

B、DataNde

C、ReginServer

D、Zkeeper

答案：C

解析：Hadp平臺中HBase的Regin是由ReginServer管理

5.Hadp組件在企業應用中，能用于大數據集實時查詢的產品有（）。

A、Hive

B、Pig

C、Mahut

DvHbase

答案：D

解析：Hadp組件在企業應用中，能用于大數據集實時查詢的產品有Hbase。

6.下列選項中無法通過大數據技術實現的是？（）

A、商業模式發現

B、信用評估

C、商品推薦

D、運營分析

答案：A

解析：商業模式發現無法通過大數據技術實現

7.日常數據通報型報告的特點錯誤的是（）。

A、進度性

B、規范性

C、時效性

D、全面性

答案：D

解析：日常數據通報型報告的特點有進度性，規范性，時效性。https://zhuan

Ian.zhihu./p/53857057日常數據通報是以定期數據分析報表為依據，反映計劃

執行情況，并分析影響和形成原因的一種數據分析報告。這種數據分析報告一般

是按日、周、月、季、年等時間階段定期進行，所以也叫定期分析報告。

8.HBase依賴（）提供強大的計算能力

A、Prtbuf

B、Java

C、Kafka

D、Chubby

答案：D

解析：谷歌收購云計算公司CuIdSimpIe強化云計算能力

9.以下關于Hive操作描述不正確的是（）。

A、Hive是一個建立在hadp文件系統上的數據倉庫架構，可以用其對HDFS上

B\Hive依賴于MapReduce處理數據

C、Hive的加載數據時候，可以用leal進行修飾，表示從某個本地目錄下加載

數據

D、Hive一般可以用于實時的查詢分析

答案：D

解析：Hive不可以用于實時的查詢分析

10.以下關于繼承的敘述正確的是（）

A、在Java中類只允許單一繼承

B、在Java中一個類只能實現一個接n

C\在Java中一個類不能同時繼承一個類和實現一個接口

D、在Java中接口只允許單一繼承

答案：A

解析：繼承分為單繼承和多繼承兩種形式。單繼承允許一個類可以有多個子類,

但只能有一個父類；多繼承則允許一個類不僅可以有多個子類，還可以有多個父

類。但需要注意一點，Java只支持單繼承，但可以通過接口實現多繼承的功能。

一個類可以同時繼承一個類和實現一個接口。

11.關于HIVE的描述不正確的？

A、Hive最佳使用景是大數據的批處理作業

B、Hive可以實現大規模數據集上實現低延遲快速的查詢

C、Hive構建在基于靜態批處理的Hadp之上，Hadp通常有較高的延遲并且在作

業提交和調度的時候需要大量開銷

D\Hive查詢操作過程嚴格遵循HadpMapreduce的作用執行模型.Hive將用戶的

HveQL語句通過解釋器轉換為MapreduceHadp集群上

答案：B

解析：Hive不可以實現大規模數據集上實現低延遲快速的查詢。Hive構建在基

于靜態批處理的Hadp之上，Hadp通常都有較高的延遲并且在作業提交和調度的

時候需要大量的開銷。因此，hive并不能夠在大規模數據集上實現低延遲快速

的查詢

12.MapReduce的Shuffle過程以下中哪個操作是最后做的？

A、排序

B、合并

C、分區

D、溢寫

答案：B

解析：map階段shuffle過程就是將map結果進行分區、排序'合并

13.以下哪個方法用于定義線程的執行體？

A、start0

B、init()

C、run()

D\synchrnized0

答案：C

解析：run()方法是用來定義這個線程在啟動的時候需要做什么，但是，直接執

行run()方法那就不是線程，必須使用start。啟動，那樣才是線程。線程是進

程中的實體，一個進程可以擁有多個線程，一個線程必須有一個父進程。線程不

擁有系統資源，只有運行必須的一些數據結構；與父進程的其它線程共享該進程

所擁有的全部資源。線程可以創建和撤消線程，從而實現程序的并發執行。一般，

線程具有就緒、阻塞和運行三種基本狀態。

14.以下哪種不是Hive支持的數據類型？

A、Struct

B、Int

C、Map

DvLng

答案：D

解析：Hive不支持Lng類型，Lng是Java里面的，在Hive里Lng對應的應該是

BIGINTo

15.下面說法錯誤的是（）。

A、Hadp集群采用的是Master/Slave工作模式

B\DataNde上保存著的是元數據，真正的數據是存放在NameNde上的

C、HDFS采用了一種對文件切割后分別存放的存儲方式。

D、HDFS是為高數據吞吐量應用優化的。

答案：B

解析：DataNde上數據塊以文件形式存儲在磁盤上,包括兩個文件,一個是數據本

身，一個是數據塊元數據包括長度、校驗'時間戳；

16.請問以下哪個命令組成是錯誤的？

A、sbin/stp-dfs.sh

B、sbin/hdfsdfsadmin-reprt

C、bin/hadpnamende-frmat

Dvbin/hadpfs-cat/hadpdata/my.txt

答案：B

解析：A選項，sbin/stp-dfs.sh是用來停止日志相關服務。C選項，它負責管

理文件系統的命名空間，維護文件系統的文件樹以及所有的文件和目錄的元數據。

D選項，文件目錄有關。B選項命令不存在。所以選B。

17.YARN中默認的資源調度器是？

A、FIF調度器

B、容量調度器

GFair調度器

D、以上全不是

答案：B

解析：YARN中默認的資源調度器是容量調度器

18.關于相關性rA,B說法錯誤的是（）。

A、rA,B>0,正相關。A隨B的值得增大而增大

B、rA,B=0不相關。AB無關

C、rA,B〈O,負相關。A隨B的值得增大而減少

D、不能單純依據rA,B<Ofig定AB相關性

答案：D

解析：不能單純依據rA,B〈Ofig定AB相關性是錯誤的r為相關系數

19.HDFS有一個gzip文件大小75MB,客戶端設置Bick大小為64MBo當運行map

reduce任務讀取該文件時inputsplit大小為？

A\—map取64MB,另外—map取11MB

B、128MB

G64MB

D、75MB

答案：D

解析:gzip不支持split,所以inputsplit大小為文件大小

20.以下關于fusininsightCTbase的描述不正確的是？

A、CThase的讀寫數據接口，統一封裝了行定義的接口，自動進行冷字段的合并

和解析,不需要在應用程序中進行合并和解釋

B、CTHBase是基于Hbase的聚簇表開發框架。云HBASE數據庫(CT-Hbase)基

于開源HBase引擎，支持NSQL和二級索引的實時數據分析服務。

C、CTHbase提供了一套Webui進行元數據定義，提供了只管醫用的表設計工具，

降低表設

D、CTHbase的javaAPI提供一套Hbas鏈接池管理的接口，內部進行連接共享,減

少客戶端應用開發難度。

答案：B

解析：CTHBase不是基于Hbase的聚簇表開發框架。云HBASE數據庫(CT-Hbase)

基于開源HBase引擎,支持NSQL和二級索引的實時數據分析服務。

21.在Webheat架構中，用戶能夠通過安全的HTTPS協議執行以下哪些操作？

A、執行HiveDDL操作

B\運行Mapreduce任務

C\運行HiveHL任務

D、以上全都正確

答案：D

解析：在Webheat架構中，用戶能夠通過安全的HTTPS協議執行HiveDDL操作、

運行Mapreduce任務、運行HiveHL任務

22.HBase依賴()提供消息通信機制

A、Zkeeper

B\Chubby

C\RPC

D、Scket

答案：A

解析：ZKeeper是一個分布式的，開放源碼的分布式應用程序協調服務，是Ggl

e的Chubby一個開源的實現，是Hadp和Hbase的重要組件。它是一個為分布式

應用提供一致性服務的軟件，提供的功能包括：配置維護、域名服務、分布式同

步、組服務等。

23.在Mapper類中，共有4個函數：setup()\map()、()、run()。

A、Reducer0

B\cIeanup0

C、SplitO

D、IcaI0

答案：B

解析：在Mapper類中，共有4個函數：setup()、map()、cIeanup()、r

un()o

24.kafka-cIustermirrring工具可以實現以下哪個功能()

A、kafka集群數據同步方案

B、kafka單集群內數據備份

C、kafka單集群內數據恢復

D、以上全部不對

答案：A

解析：kafka-cIustermirrring工具可以實現kafka集群數據同步方案

25.FusininsightHD系統中Hive不支持的存儲格式包括？

A、TextfiIe

B、SequencefiIe

C、RCFILE

D、HfiIe

答案：D

解析:FusininsightHD系統中Hive不支持的存儲格式包括HfiIe。Textfile文

本文件SequencefilesequenceFiIe文件是Hadp用來存儲二進制形式的［Key,Va

lue］對而設計的一種平面文件(FlatFiIe)。RCFiIe文件格式是FaceBk開源的一

種Hive的文件存儲格式，首先將表分為幾個行組，對每個行組內的數據進行按

列存儲，每一列的數據都是分開存儲，正是先水平劃分，再垂直劃分的理念。H

FiIe是HBase存儲數據的文件組織形式。

26.關于數據分析報告錯誤的是()。

A、展示分析結果

B\驗證分析質量

C、展示分析過程

D、提供決策依據

答案：C

解析：數據分析報告用來展示分析結果，驗證分析質量以及提供決策依據https:

//zhuanlan.zhihu./p/53857057數據分析報告一項目可行性判斷的重要依據。

27.UMP系統中的角色不包括

A、CntrIler服務器

B、Prxy服務器

CvAgent服務器

D、HDFS服務器

答案：D

解析：UMP系統中的角色包括CntrIler服務器、Web控制臺、Prxy服務器、Age

nt服務器、日志分析服務器、信息統計服務器、愚公系統；依賴的開源組件包

括Mnesia、RabbitMQ、ZKeeper和LVS。

28.Hive是基于Hadp的數據倉庫軟件，可以查詢和管理PB級別的分布式數據。

以下關于hive特性的描述不正確的是？

A、靈活方便的ETL

B、易用易編程

C、可直接訪可HDFS又件以及Hbase

D\僅支持mapreducet計算引擎

答案：D

解析：目前Hive支持MapReduce、Tez和Spark3種計算引擎

29.創建Lader作業中，可以在以下哪個步驟中設置過濾器類型（）

A、輸入設置

B、轉換

C、基本信息

D、輸出

答案：A

解析：創建Lader作業中，可以在輸入設置中設置過濾器類型

30.YARN的基于標準調度，是對下列選項中的哪個進行標簽化？

A、Appmaster

B、Resurcemanager

C、Ndemanager

D、Cntainer

答案：c

解析：YARN的基于標準調度，是對Ndemanager進行標簽化

31.下列哪些語句關于Java內存回收的說明是正確的？

A、程序員必須創建一個線程來釋放內存

B、內存回收程序負責釋放無用內存

C、內存回收程序允許程序員直接釋放內存

D、內存回收程序可以在指定的時間釋放內存對象

答案：B

解析：A：垃圾回收程序是一般是在堆上分配空間不夠的時候會自己進行一次GC

（垃圾收集），程序員不需要也不能主動釋放內存。B：Java的內存釋放由垃圾

回收程序來進行釋放C：在Java里，內存的釋放由垃圾回收程序進行管理，程

序員不能直接進行釋放。D：程序員可以調用System.gc（）運行垃圾回收器，但

是不能指定時間。

32.Hadp集群中存在的最主要瓶頸是（）。

A、CPU

B、網絡

C、磁盤10

D、內存

答案：C

解析：面對大數據，讀取數據需要經過I,這里可以把I理解為水的管道。管道

越大越強，我們對于T級的數據讀取就越快。所以I的好壞，直接影響了集群對

于數據的處理。

33.下面與Zkeepe類似的框架是哪一個？（）

A、Prtbuf

B、Java

C、Kafka

D、Chubby

答案：D

解析：顧名思義zkeeper就是動物園管理員，他是用來管hadp（大象）、Hive（蜜

蜂）、Pig（小豬）的管理員，Zkeeper:是一個分布式的、開源的程序協調服務，是

hadp項目下的一個子項目。他提供的主要功能包括：配置管理、名字服務、分

布式鎖、集群管理。A：PrtcIBuffers是一種輕便高效的結構化數據存儲格式,

可以用于結構化數據串行化，或者說序列化。B：面向對象的編程語言；C：Kaf

ka是由Apache軟件基金會開發的一個開源流處理平臺，由Scala和Java編寫。

D：Chubby是一個面向松耦合分布式系統的鎖服務，通常用于為一個由大量小型

計算機構成的松耦合分布式系統提供高可用的鎖服務。一個分布式鎖服務的目的

是允許他的客戶端進程同步彼此的操作，并對當前所處環境的基本狀態信息達成

一致。

34.以下哪個部分不是一篇數據分析報告必須有的。（）

A、標題

B、正文

C、結論與建議

D、附錄

答案：D

解析：附錄不是一篇數據分析報告必須有的。

35.以下關于Zkeeper的Leader節點在收到數據變更請求后的讀寫流程說法正確

的是？

A、僅寫入內存

B、同時寫入磁盤和內存

C、先寫入內存再寫入磁盤

D、先寫磁盤再寫內存

答案：D

解析：Zkeeper的Leader節點在收到數據變更請求后的讀寫流程是先寫磁盤再

寫內存

36.在fusinlnsigh產品中，關于kafka的tpic,以下描述不正確的是?

A、tpic的partitin數量可以創建時配置

B、每個tpic只能被分成一個partitin區

C、每條發布到kafka的消息都有一個類別,這個類別被稱為tpic.也可以理解為

一個存儲消息的隊列

D、每個partitin在存儲層面對應一^Ig文件，Ig文件中記錄了所有的消息數

據

答案：B

解析：Kafka中Tpic被分成多個Partitin分區。tpic是一^邏輯概念，Parti

tin是最小的存儲單元，掌握著一個Tpic的部分數據。每個Partitin都是一^

單獨的1g文件，每條記錄都以追加的形式寫入。

37.HBase表中每個celI的多版本是通過()表示的。

A、timestamp

B、rwkey

C、bIckid

D、ceIIid

答案：A

解析：HBase通過以下幾個要素來定位一^t"celI：表(table),行(rwkey),

列族(cIumnfamiIy),列標識(cIumnquaIifier),時間戳(timestamp)。每

個CelI可能有多個版本，它們之間用時間戳(TimeStamp)區分。

38.FusininsightHD中Lader從SFTP服務器導入文件時不需要做編碼轉換和數

據轉換且速度最快的文件類型是以下哪項？

A、graph-fiIe

B、binary-fiIe

C、text-fiIe

D、sequence-fiIe

答案：B

解析:binary-fiIe是FusininsightHD中Lader從SFTP服務器導入文件時不需

要做編碼轉換和數據轉換且速度最快的文件類型

39.下面與HDFS類似的框架是？

A、NTFS

B、FAT32

C、GFS

D、EXT3

答案：C

解析：HDF(HarmnySDriverFundatin)驅動框架，為驅動開發者提供驅動框架能

力，包括驅動加載、驅動服務管理和驅動消息機制。

40.關于Dataset,下列說法不正確的是？

A、Dataset不需要反序列化就可執行大部分操作

B、Dataset是一個由特定域的對象組成的強類型集合

GDataset與RDD高度類似〉性能比RDD好

D、Dataset執行srt,fiIter,shuffle登操作需要進行反序列化

答案：D

解析：Dataset執行srt,fiIter,shuffle登操作不需要進行反序列化。Java序

列化就是指把Java對象轉換為字節序列的過程Java反序列化就是指把字節序列

恢復為Java對象的過程。序列化最重要的作用：在傳遞和保存對象時.保證對象

的完整性和可傳遞性。對象轉換為有序字節流,以便在網絡上傳輸或者保存在本

地文件中-反序列化的最重要的作用：根據字節流中保存的對象狀態及描述信息,

通過反序列化重建對象。

41.Zkeeper在分布式應用中主要的作用不包括以下哪些選項？

A、選舉Master節點

B、保證各節點上數據的

C、分配集群資源

D、存儲及群中

答案：C

解析：資源分配是Spark任務中需要深入理解

42.Hive是以（）技術為基礎的數據倉庫。

A、HDFS

B、MAPREDUCE

C、HADP

D、HBASE

答案：C

解析：Hive是基于Hadp的一個數據倉庫工具，用來進行數據提取、轉化、加載，

這是一種可以存儲'查詢和分析存儲在Hadp中的大規模數據的機制。A:Hadp分

布式文件系統（HDFS）是指被設計成適合運行在通用硬件上的分布式文件系統。B:

MapReduce是一種編程模型，用于大規模數據集的并行運算。D:HBase是一個分

布式的、面向列的開源數據庫

43.關于fusinInsightHDStreaming的Supervisr描述正確的是（）

A、Supervisr是在Tplgy中接受數據然后執行處理的組件

B、Supervisr負責接受Nimbus分配的任務,啟動和停止屬于自己管理的Wrker

進程

C、Supervisr負責資源分配和任務調度

D、supervisr是運行具體處理邏輯的過程

答案：B

解析：Bit是在Tplgy中接受數據然后執行處理的組件；Nimbus:負責資源分配

和任務調度；Supervisr:負責接收Nimbus分配的任務

44.在Spark生態組件中，哪個產品可用于復雜的批量數據處理。（）

A、SparkCre

B\SparkSqI

C、SparkStreaming

D、MLIib

答案：A

解析：1.在Spark生態組件中，sparkcre可用于復雜的批量數據處理2.SparkS

beaming是一個對實時數據流進行高吞吐、高容錯的流式處理系統3.MLIib：是

Spark實現一些常見的機器學習算法和實用程序4.SparkSQL是基于sparkcre提

供的一個用來處理結構化數據的模塊（庫）

45.關于hive與傳統據倉庫的對比，以下描述錯誤的是？

A、數據存儲獨位于數據存儲之外，從而解耦合元數據和數據，靈活性高，而傳統

數據，靈活性低

B、Hive基于HDFS存儲理論上存儲量可無限擴展，而傳統數據倉庫存儲量會有

上限

C、由于hive的數據存儲在HDFS中，所以可以保證數據的高容錯，高可靠

D、由于Hive基于大數據平臺，所以查詢效率比傳統數據倉庫快

答案：D

解析：Hive在加載數據的過程中不會對數據進行任何處理，甚至不會對數據進

行掃描，因此也沒有對數據中的某些Key建立索引。Hive要訪問數據中滿足條

件的特定值時，需要暴力掃描整個數據，因此訪問延遲較高

46.關于HBase與傳統的關系數據庫的區別說法錯誤的是

A、數據類型：關系數據庫采用關系模型，具有豐富的數據類型和存儲方式，HB

ase則采用了更加簡單的數據模型，它把數據存儲為未經解釋的字符串

B、數據操作：關系數據庫中包含了豐富的操作，其中會涉及復雜的多表連接。H

Base則不存在復雜的表與表之間的關系，只有簡單的插入、查詢、刪除、清空

等，因為HBase在設計上就避免了復雜的表和表之間的關系

C、存儲模式：關系數據庫是基于行模式存儲的。HBase是基于列存儲的，每個

列族都由幾個文件保存，不同列族的文件是分離的

D、數據維護：在關系數據庫中執行更新操作時，并不會刪除數據舊的版本，而

是生成一個新的版本，舊有的版本仍然保留。在HBase中，更新操作會用最新的

當前值去替換記錄中原來的舊值，舊值被覆蓋后就不會存在。

答案：D

解析：數據維護：在關系數據庫中，更新操作會用最新的當前值去替換記錄中的

原來的舊值，舊值被覆蓋夠就不會存在，而在HBase中執行更新操作時，不糊并

不會刪除數據舊的版本，而是生成一個新的版本，舊的有的版本保留。

47.以下哪類數據不屬于半結構化數據？

A、HTML

B、XML

C、二維表

D、JSN

答案：C

解析：二維表,數據結構,是一個關系名，意思是指關系模型中，數據結構的表示方

法

48.在Hadp生態組件中，哪個產品可用于復雜的批量數據處理。（）

A、MapReduceXHive

B、ImpaIa

C、Strm

D、Mahut

答案：A

解析：在Hadp生態組件中，MapReducevHive可用于復雜的批量數據處理。

49.以下關于HiveSQL基本操作描述正確的是（）

A、創建外部表必須要指定Lcatin信息

B\創建外部表使用external關鍵字，創建普通表需要指定internal關鍵字

C、加載數據到Hive時源數據必須是HDFS的一個路徑

D、創建表時可以指定列分割符

答案：D

解析：建立外部表可以不指定Lcatin,會在默認在/hive/warehuse/數據庫名稱

/表名，建立目錄。創建內部表時不需要關鍵字。加載數據到Hive時源數據不一

定是HDFS的一個路徑

50.HDFS的副本放置策略中，同一機架不同的服務器之間的距離是（）

A、3

B、2

C、1

D、4

答案：B

解析：HDFS的副本放置策略中，同一機架不同的服務器之間的距離是2

51.關于HBaseRegin的定位說法錯誤的是

A、元數據表，又名.META.表，存儲了Regin和Regin服務器的映射關系。當HB

ase表很大時，.META.表也會被分裂成多個Regin

B、為了加快訪問速度，.META.表的全部Regin都會被保存在內存中

C、根數據表，又名-RT-表，記錄所有元數據的具體位置。-RT-表只有唯一一個

Regin,名字是在程序中被寫死的。Zkeeper文件記錄了-RT-表的位置

D、為了加速尋址，客戶端會緩存位置信息，尋址過程客戶端只需要詢問Zkeepe

r服務器，不需要連接Master服務器，由于數據放在內存中，因此不存在緩存

失效問題。

答案：D

解析：客戶端訪問數據時的“三級尋址”-為了加速尋址，客戶端會緩存位置信

息，同時,需要解決緩存失效問題?尋址過程客戶端只需要詢問Zkeeper服務器，

不需要連接Master服務器

52.HBasett靠（）存儲底層數據

A、HDFS

B、Hadp

C、Memry

D、MapReduce

答案：A

解析：首先HBase不同于一般的關系數據庫，它是一個適合于非結構化數據存儲

的數據庫.另一個不同的是HBase基于列的而不是基于行的模式.

53.關于HBase下面說法正確的是（）。

A、HBase?一個稀疏、多維度、排序的映射表，這張表的索引是行鍵、列

B、每個值是一個未經解釋的字符串，沒有數據類型，程序員要自己去對它進

C、用戶在表中存儲數據，每一行都有一個可排序的行鍵和任意多的列

D、以上說法都正確

答案：D

解析：Hbase是HadpDatabase的簡稱，Hbase是分布式、面向列的開源數據庫（準

確是面向列族）。HDFS為Hbase提供可靠的底層數據存儲服務，MapReduce為H

base提供高性能的計算能力，Zkeeper為Hbaset提供穩定服務和FaiIver機制，

因為我們說Hbase是一個通過大量廉價的機器解決海量數據的高速存儲和讀取

的分布式數據庫解決方案。Hbase的特點：1,海量存儲2,列式存儲3,極易擴

張4,高并發5,稀疏（主要針對Hbase的靈活性）

54.下列不可作為java語言標識符的是

A、a1

B、1

C、1

D、11

答案：D

解析：Java標識符由數字，字母和下劃線（_）,美元符號（$）或人民幣符號

（￥）組成。在Java中是區分大小寫的，而且還要求首位不能是數字。

55.從數據表中查找記錄用以下哪一項（）

A、UPDATE

B、FIND

GSELECT

D、CREATE

答案：C

解析：SELECT用于查找記錄

56.LSM更能保證哪種操作的性能？

A、讀

B、寫

C、隨機讀

D、合并

答案：B

解析：B+索引樹和1g型（append）文件操作（數據庫WAL日志）是數據讀寫的

兩個極端。B+樹讀效率高而寫效率差；1g型文件操作寫效率高而讀效率差；因

此要在排序和1g型文件操作之間做個折中，于是就引入了lg-structedmergetr

ee模型，通過名稱可以看出LSM既有日志型的文件操作，提升寫效率，又在每

個sstable中排序，保證了查詢效率。

57.查看kafkaMTpic的partitin詳細信息時,使用如下那個命令?

Avbin/kakfa-tpicssh—create

B、bin/kakfa-tpicssh—deIete

C、bin/kakfa-tpics.sh-list

Dvbin/kakfa-tpics.sh—describe

答案：D

解析：使用bin/kakfa-tpicssh—describe查看kafkaMTpic的partitin詳細信

息

58.關于HBaseshelI命令，哪個命令是使表無效。（）

A、aIert

B\disabIe

C\drp

D、以上都不是

答案：B

解析：1.alter:修改列族模式2.disable：使表無效3.drp：刪除表

59.Kafka集群中，Kafka服務端部署的角色是

A、Prducer

B、Cnsumer

CvZKeeper

D、Brker

答案：D

解析：一臺kafka服務器節點就是一個brker,負責處理消息讀、寫請求，存儲消

息,在kafkacluster這一層這里,其實里面是有很多個brker—集群由多個br

ker組成。prducer是向kafkabrker發消息的客戶端,cnsumer是向kafkabrker

取消息的客戶端

60.LSM含義是?

A、日志結構合并樹

B、二叉樹

C、平衡二叉樹

D、長平衡二叉樹

答案：A

解析：LSM-Tree全稱是LgStructuredMergeTree,是一種分層，有序，面向磁盤

的數據結構，其核心思想是充分了利用了，磁盤批量的順序寫要遠比隨機寫性能

圖出很多

61.FusininsightHD系統審計日志不可以記錄下面哪些操作？

A、手動清除告警

B、啟停服務實例

C、查詢歷史監控

D、刪除服務實例

答案：C

解析：FusininsightHD系統審計日志不可以記錄查詢歷史監控

62.關于hive建表基本描述正確的是()

A、不可再修改表名

B、可再增加新列

C\創建外部表需要制定externaI關鍵字

D、不可再修改列名

答案：C

解析：創建外部表需要制定external關鍵字

63.Hbase中以下對于LSM的描述正確的是()。

A、LSM的讀操作和寫操作是獨立

B、LSM的讀操作和寫操作不是獨立

C、LSM并不區分讀和寫

DxLSM中讀寫是同一種操作

答案：A

解析：LSM中讀操作和寫操作相互獨立，且并不相同

64.有一段java應用程序，它的主類名是a1,那么保存它的源文件名可以是

A、a1.java

B、a1.cIass

C、a1

D、都對

答案：A

解析：1、必須以java結尾。這樣才能被編輯器javacexe所編輯。2、源文件中

如果只有一個類，文件名必須與該類名相同。3、輸入命令：pushd路徑（此命

令可將當前目錄設為所希望的任一個已存在的路徑）。4、輸入命令：e：轉移到

e盤，然后再輸入cd轉移到所希望的已知路徑。

65.關于MapReduce框架中一^乍業的reduce任務數，下列說法正確的是（）

A、由自定義的Partitiner來確定

B、是分塊總數目的一半

C、可以由用戶來自定義，通過JbCnf.setNumReducetTask（int）來設定一^IM乍

業中reduce的任務數目

D\由MapReduce隨機確定其數目

答案：C

解析：—jb的ReduceTasks數量是通過mapreduce.jb.reduces參數設置也可

以通過編程的方式，調用Jb對象的setNumReduceTasks（）方法來設置目

66.以下命令組成錯誤的是（）。

A、vim/etc/prfiIe

B\surce/etc/prfiIe

C、hadpnamende-frmat

D\bin/hadpfs-cat/hadpdata/y/txt

答案：D

解析：394、vim/etc/prfiIe雖然可以進入prfiIe文件，但是對于普通用戶，無

法修改；etc/prfiIe:在登錄時，操作系統定制用戶環境時使用的第一個文件，此

文件為系統的每個用戶設置環境信息,當用戶第一次登錄時,該文件被執行。使用

命令hadpnamende-frmat對namende進行格式化。hadpfs-cat＞從DFS多個part

文件合并拷貝文件到本地文件系統。

67.不屬于HDFS優勢是（）?

A、時間快

B、超大文件

C、大量小文件

D、商用硬件

答案：A

解析：HDFS優勢：1、海量數據存儲：HDFS可橫向擴展，其存儲的文件可以支持

PB級別或更高級別的數據存儲。2、高容錯性：數據保存多個副本，副本丟失后

自動恢復。可構建在廉價的機器上，實現線性擴展。當集群增加新節點之后，n

amende也可以感知，進行負載均衡，將數據分發和備份數據均衡到新的節點上。

3、商用硬件：Hadp并不需要運行在昂貴且高可靠的硬件4、大文件存儲

68.在創建對象時必須

A、先聲明對象，然后才能使用對象

B、先聲明對象，為對象分配內存空間，然后才能使用對象

C、先聲明對象，為對象分配內存空間，對對象初始化，然后才能使用對象

D、上述說法都對

答案：C

解析：Java就是這樣規定的

69.Hbase的某張表的Rwkey劃分splitkey為9.E.a.z請問表里面有幾個Regin?

A、6

B、3

C、5

D、4

答案：C

解析：Hbase的某張表的Rwkey劃分spIitkey為9.E.a.z表里面有5個Regin

70.在Zkeeper和Yarn的協同工作中，當ActiveResurcemanager產生故障時，S

tandbyResurcemanager會從以下哪個目錄中獲取AppIicatin相關信息（）

A、metastre

B、Statestre

CvStreage

DvWarehuse

答案：B

解析：在Zkeeper和Yarn的協同工作中,當ActiveResurcemanager產生故障時，

StandbyResurcemanager會從Statestre目錄中獲取AppIicatin相關信息（）

71.Kafka集群在運行期間直接依賴于下面哪些組件？

A、spark

B、zkeeper

Cvhdfs

Dvhbase

答案：B

解析：ZKeeper作為給分布式系統提供協調服務的工具被kafka所依賴

72.下面與Zkeepe淡似的框架是？

A、Prtbuf

B、Java

C、Kafka

D、Chubby

答案：D

解析：，ZKeeper是一^分布式服務框架，是ApacheHadp的一^1^子項目，主要

用來解決分布式應用中經常遇到的一些數據管理問題，如：統一命名服務、配置

管理、集群管理、分布式鎖、發布/訂閱等。

73.HFiIe數據格式中的KeyValue數據格式中Value部分是()。

A、擁有復雜結構的字符串

B、字符串

C、二進制數據

D、壓縮數據

答案：C

解析：元數據是key-value類型的值，但元數據快只保存元數據的vaIue值，元

數據的key值保存在第五項(元數據索引塊)中。

74.解壓.tar.gziS尾的HBase壓縮包使用的Linux命令是？

A、tar-zxvf

B、tar-zx

C、tar-s

D、tar-nf

答案：A

解析：tar-zxvf

75.Flume用于收集數據，其傳輸的數據基本單位是？

AvSplit

B、Bick

C、Event

D、Packet

答案：c

解析：Flume用于收集數據，其傳輸的數據基本單位是Event。

76.下面哪個進程負責MapReduce任務調度。

A、NameNde

B、Jbtracker

C\TaskTracker

D、SecndaryNameNde

答案：B

解析：Jbtracer負責MapReduce任務調度

77.HFiIe數據格式中的Magic字段用于0。

A、存儲隨機數，防止數據損壞

B、存儲數據的起點

C、存儲數據塊的起點

D、指定字段的長度

答案：A

解析：每一個HFiIe內部包括多種不同類型的塊結構，這些塊結構從邏輯上來講

可歸并為兩類。分別用于數據存儲和數據索弓I（簡稱數據塊和索引塊）

78.LSM的讀操作和寫操作是獨立的？

A、是。

B、否。

C、LSM并不區分讀和寫

DxLSM中讀寫是同一種操作

答案：A

解析：如果我們對寫性能特別敏感，我們最好怎么做？一一Appendnly：所有寫

操作都是將數據添加到文件末尾。這樣做的寫性能是最好的，大約等于磁盤的理

論速度（200~300MB/s）o

79.fusininsight對于管理操作，下列錯誤的是?

A、可對服務進行啟停重啟

B、可以添加和卸載服務

C、常用服務隱藏或顯示

D、可查看服務的當前狀態

答案：C

解析：可設置不常用的服務隱藏或顯示

80.Hive中的數據類型，下面說正確的是（）。

A、TINYINT,1個字節（8位）有符號整數

B、SMALLINT,2字節（16位）有符號整數

C、INT,4個字節（32位）有符號整數

D、以上都正確

答案：D

解析：1.Hive中的數據類型分為兩類：基本類型和復雜類型2.基本類型包含：t

inyint,smaIIint,int,bigint,flat,dubIe,bIean,string,timestamp,

binary3.復雜類型：array,map和structa.array：數組類型，對應了Java中

的集合或者數組。

81.以下哪個不是HDFS的守護進程

A、SecndaryNameNde

B、NameNde

GMrappMaster/YarnChiId

D、DataNde

答案：c

解析：namende\Secndnamende\Datande\Jbtracker\Tasktracker都是守護進程

82.以下哪個channel類型的數據不會持久化（）?

AvFiIeChanneI

B、MemryChanneI

C、JDBCChanneI

D、HDFSChanneI

答案：B

解析：JDBCChanneI的數據類型不會持久化

83.hadp系統中YARN資源的抽象是用什么表示？

A、內存

B、CPU

C、Cntainer

D、磁盤空間

答案：C

解析：hadp系統中YARN資源的抽象是用Cntainer表示

84.Spark是用以下哪種編程語言實現的（）?

A、C

B、C++

C、JAVA

D、SeaIa

答案：D

解析：Scala是Spark的原生語言

85.關系數據庫已經流行很多年，Hadp已經有了HDFS和MapReduce,關于需要H

Base說法錯誤的是

A、Hadp可以很好地解決大規模數據的離線批量處理問題，但是，受限于HadpM

apReduce編程框架的高延遲數據處理機制，使得Hadp無法滿足大規模數據實時

處理應用的需求

B、HDFS面向隨機訪問模式，不是批量訪問模式

C、傳統的通用關系型數據庫無法應對在數據規模劇增時導致的系統擴展性和性

能問題（分庫分表也不能很好解決）

D、傳統關系數據庫在數據結構變化時一般需要停機維護；空列浪費存儲空間

答案：B

解析：Hadp可以很少地解決大規模數據的離線批量處理問題，但是，受限于ha

dpMapReduce編程框架的高延遲數據處理機制，使得hadp無法滿足大規模數據

實施處理應用的需求HDFS面向批量訪問模式，不是隨機訪問模式。傳統的通用

關系型數據庫無法應對在數據規模劇增時導致的系統擴展性和性能問題（分庫分

表也不能很好的解決）傳統關系數據庫在數據結構變化時一般需要停機維護，空

列浪費存儲空間因此，業界出現了一類面向半結構化數據存儲和處理的高擴展、

低寫入、查詢延遲的系統，例如，鍵值數據庫、文檔數據庫和列族數據庫（如B

igTable和HDase）Hbase已經成功應用于互聯網服務領域和傳統行業的眾多在

線模式數據分析處理系統中

86.HBase表中每個celI的多版本是通過（）表示的？

A、timestamp

B、rwkey

C、bIckid

D、ceIIid

答案：A

解析：每個CelI可能有多個版本，它們之間用時間戳（TimeStamp）區分。

87.為了保障流應用的快照存儲的可靠性，快照主要存儲在哪里？

A、jbmanager的內存中

B、可靠性高的單機數據庫中

C、本地文件系統中

D、hdfs中

答案：D

解析：為了保障流應用的快照存儲的可靠性，快照主要存儲在hdfs中

88.關于HBase的HLg工作原理說法錯誤的是

A、分布式環境必須要考慮系統出錯。HBase采用HLg保證系統恢復

B、HBase系統為每個Regin服務器配置了一個HLg文件，它是一種預寫式日志

(WriteAheadLg)

C、用戶更新數據不需要先寫入日志后，才能寫入MemStre緩存，并且，直到Me

mStre緩存內容對應的日志已經寫入磁盤，該緩存內容才能被刷寫到磁盤

D、發生故障后，系統會根據每條日志記錄所屬的Regin對象對HLg數據進行拆

分，分別放到相應Regin對象的目錄下，然后，再將失效的Regin重新分配到可

用的Regin服務器中，并把與該Regin對象相關的HLg日志記錄也發送給相應的

Regin服務器

答案：C

解析：Regin服務器領取到分配給自己的Regin對象以及與之相關的HLg日志記

錄以后，會重新做一遍日志記錄中的各種操作，把日志記錄中的數據寫入到Mem

Stre緩存中，然后，刷新到磁盤的StreFile文件中，完成數據恢復。

89.采用Flume傳輸數據過程中，為了防止因Flume進程重啟而丟失數據，推薦

使用以下哪種channel類型？

A、MemryChanneIs

B\FiIeChanneI

C、JDBCChanneI

D\HDFSChanneI

答案：B

解析：采用Flume傳輸數據過程中，為了防止因Flume進程重啟而丟失數據，推

薦使用FiIeChannel

90.加載數據到Hive表，哪種方式不正確？

A、直接將本地路徑的文件lad到Hive表中

B、將HDFS上的文件lad到Hive表中

C、Hive支持Insertint單條記錄的方法，所以可以直接在命令行插入單條記錄

D、將其他表的結果集insertint到Hive表

答案：C

解析：Hive不支持Insertint單條記錄的方法

91.關于HadpMapReduce分片(spit)概念，下列說法不正確的是()。

A、Hadp為每個spIit創建—個Map任務

B、split的多少決定了Map任務的數目

C、大多數情況下，理想的分片大小是一個HDFS塊對應一個spit

D、split是一個物理概念

答案：D

解析：split不是一^物理概念，是一個概念上的切片，blck是物理概念。

92.以下選項中，不屬于信息時代的定律的是()

A、吉爾德定律

B、摩爾定律

C、麥特卡爾夫定律

D、達律多定律

答案：A

解析：吉爾德定律(GiIder'sLaw)又稱為勝利者浪費定律，由喬治?吉爾德提出，

最為成功的商業運作模式是價格最低的資源將會被盡可能的消耗，以此來保存最

昂貴的資源。.吉爾德定律(GiIder飛Law)被描述為：在未來25年，主干網的帶

寬每6個月增長一倍，12個月增長兩倍。.其增長速度是摩爾定律預測的CPU增

長速度的3倍，并預言將來上網會免費。.

93.Javaapplicatin中的主類需包含main方法，main方法的返回類型是什么？

A、int

B、fIat

C\dubIe

D\vid

答案：D

解析：vid,即不返回對象，main方法是程序執行的入口，main方法也不需要初

始化對象就能執行

94.關于Hadp生態系統軟件說法錯誤的是

A、HDFS是分布式文件系統

B、YARN是資源管理和調度器

C、Tez是運行在YARN之上的下一代Hadp查詢處理框架

D、Hive是Hadp上的數據倉庫，為了提高效率，可以越過HDFS直接管理數據的

存儲

答案：D

解析：hive的表使用的默認存儲是hdfs的文件系統，相當于表的數據是存儲在

hdfs文件系統中的。因此無法越過HDFS直接管理數據的存儲

95.以下哪個方法用于定義線程的執行體？

A、start0

B、init()

C、run()

D、synchrnized0

答案：C

解析：通過繼承Thread類來創建并啟動線程的步驟如下:定義Thread類的子類，

并重寫該類的run()方法,該run()方法將作為線程執行體。創建Thread子類的

實例，即創建了線程對象。調用線程對象的start。方法來啟動該線程。

96.哪個命令是刪除文件的？

A、dfs-cIear

B、dfs-ls

C、dfs-rm

D、dfs-deI

答案：c

解析：dfs-rm命令是用來刪除文件的。dfs-clear沒找到dfs-ls沒找到dfs-de

I沒找到

97.大數據的核心價值是()。

A、數據交易

B、數據分析

C、數據融合

D、數據處理

答案：B

解析：大數據的核心價值是數據分析

98.HDFS中的數據塊（blck）默認保存幾份？（）

A、3份

B、2份

C、1份

D、不確定

答案：A

解析：HDFS中的數據塊（blck）默認保存3份，每份默認為128M

99.Kafka集群中，Kafka服務端的角色是？

A、Brker

B、Cnsumer

C、Zkeeper

D、Prducer

答案：A

解析:Kafka集群中，Kafka服務端的角色是Brker。Cnsumer就是負責從Kafka

集群中消費消息數據的應用程序ZkeeperI是一個開源的分布式的，為分布式框

架提供協調服務的Apache項目。Prducer就是負責向Kafka集群中寫入消息數

據的應用程序

100.萬維網之父是（）。

A、彼得?德魯克

B、舍恩伯格

c、蒂姆?伯納斯-李

D、斯科特?布朗

答案：C

解析：萬維網之父是蒂姆?伯納斯?李

101.關于HDFS集群中的DataNde的描述不正確的是？

A、一個DataNde上存儲的所有數據塊可以有相同的

B、存儲客戶端上傳的數據的數據塊

C、DataNde之間可以互相通信

D、響應客戶端的所有讀寫數據請求,為客戶端的存儲和讀取數據提供支撐

答案：A

解析：出于安全性和高可用性考慮，并不會把一個blck的多個副本放在同一個

datande上

102.下列關于HadpAPI的說法錯誤的是()o

A、Hadp的API只適用于HDFS文件系統

B、Cnfiguratin類的默認實例化方法是以HDFS系統的資源配置為基礎的

C、FiIeStatus對象存儲文件和目錄的元數據

D、FSDataInputStream是java,i.DataInputStream的子類

答案：A

解析：Hadp的API是通用的，既可以適用于HDFS,又可以適用于Hbase、Mapre

duce等

103.下列數據結構具有記憶功能的是？

A、隊列

B、循環隊列

G棧

D、順序表

答案：C

解析：具有記憶功能的是棧

104.FusininsightHD系統中,下面哪個方法不能查看到Lader作業執行的結果

()

A\通過Laderlll界面查看

B、通過YARN任務管理

GNdemanager查看

D、通過Manager的查看

答案：C

解析:FusininsightHD系統中，使用Ndemanager查看不能查看到Lader作業執

行的結果

105.Hbase中的Regin是由哪個服務進程來管理的？

AvHreginserver

B、Zkeeper

C、Master

D、Datande

答案：A

解析：Hbase中的Regin是由Hreginserver來管理的

106.如下哪項不是ZKeeper的關鍵特性()?

A、最終一致性

B、延時性

C、可靠性

D、等待無關性

答案：B

解析：ZKeeper的關鍵特性包括最終一致性，可靠性，等待無關性

107.使用Hbase客戶端批量寫入10條數據，某個Hreginserver節點上包含該表

的2個Regin,分別為A和B,10條數據中有6條屬于A.4條屬于B,請問寫入這1

0條數據需要向該HreginServer發送幾次RPC請求？

A、10

B、6

C、2

D、1

答案：D

解析：使用Hbase客戶端批量寫入10條數據，某個Hreginserver節點上包含該

表的2個Regin,分別為A和B,10條數據中有6條屬于A.4條屬于B,寫入這10

條數據需要向該HreginServer發送1次RPC請求

108.以下哪個不屬于Hadp中Mapreduce組件的特點？

A、身容錯

B、良好的擴展性

C、實時計算

D、易于編程

答案：c

解析：高度抽象的編程思想，良好的擴展性，高容錯性，適用于并行計算和離線

計算

109.關于HBase和BigTable說法錯誤的是

A、HBase是一個高可靠、高性能、面向列、可伸縮的分布式數據庫，是谷歌Bi

gTable的開源實現，主要用來存儲非結構化和半結構化的松散數據

B、BigTable和HBase均采用Chubby提供協同服務管理

CxBigTabIe和HBase都是一個分布式存儲系統

D、HBase的目標是處理非常龐大的表，可以通過水平擴展的方式，利用廉價計

算機集群處理由超過10億行數據和數百萬列元素組成的數據表

答案：B

解析：BigTable是一個分布式存儲系統，它利用谷歌提出的MapReduce分布式

并行計算模型來處理海量數據，使用谷歌分布式文件系統GFS作為底層數據存儲,

采用Chubby提供協同服務管理。HadpDatabase,是一^個高可靠性'高性能'面

向列,可伸縮、實時讀寫的分布式數據庫。利用HadpHDFS作為其文件存儲系統，

利用Zkeeper作為其分布式協同服務主要用來存儲非結構化和半結構化的松散

數據。

110.使用JAVAAPI進行HBase表數據添加操作，以下命令輸寫正確的是0。c

A、HTabIe.add(newPut(Bytes.tBytes(rw));

B、HTabIe.insert(newPut(Bytes.tBytes(rw))

GHTabIe.putfnewPut(Bytes.tBytes(rw));

D、HTabIe.updatefnewPut(Bytes.tBytes(rw))

答案：c

解析:BPtabIe.get(tabIe).scan();

111.在Java中，一個類可同時定義許多同名的方法,這些方法的形式參數個數、

類型或順序各不相同，傳回的值也可以不相同。這種面向對象程序的特性稱為

A、隱藏

B、覆蓋

C、重載

D、Java不支持此特性

答案：C

解析：一個類可以定義多個同名的方法，只要這些方法的參數列表不完全相同,

這稱為方法重載。

112.HBase依賴()技術框架提供消息通信機制。

A、Zkeeper

B、Chubby

C、RPC

DvScket

答案：A

解析：“hbase依賴“Zkeeper”提供消息通信機制

113.用定期數據分析報表作為依據的反映計劃執行情況的數據分析報告是()。

A、專題分析報告

B、綜合分析報告

C、日常數據通報

D、實時運營報告

答案：C

解析：用定期數據分析報表作為依據的反映計劃執行情況的數據分析報告是日常

數據通報

114.LSM結構的數據首先存儲在()0

A、硬盤上

B、內存中

C、磁盤陣列中

D、閃存中

答案：B

解析：LSM樹的核心特點是利用順序寫來提高寫性能，但因為分層(此處分層是

指的分為內存和文件兩部分)的設計會稍微降低讀性能，但是通過犧牲小部分讀

性能換來高性能寫，使得LSM樹成為非常流行的存儲結構。

115.哪一項不屬于Hive的流控特性()?

A、已經建立的總連接數閾值控制

B、某個特定用戶已經建立的連接數閾值控制

C、每個用戶已經建立的連接數閾值控制

D、單位時間內所建立的連接數閾值控制

答案：B

解析：某個特定用戶已經建立的連接數閾值控制不屬于Hive的流控特性

116.下列關于Finkbarrier描述錯誤的是?()

A、一個barrier將本周期快照的數據與下一個周期快照的數據分隔開來

B、barrier是F1ink快照的核心

C\在插入barrier的時候，會暫時阻斷數據流

D、barrier周期性插入到數據流中，并作為數海流的一部分隨之流動

答案：C

解析：在插入barrier的時候，不會暫時阻斷數據流

117.如果要給隊列QueueA設置容量為30%,應該設置哪個參數()?

A、yarn.scheduIer.capacity.rt.QueueA.minimum-user-1imit-percent

B、yarn,scheduIer.capacity.rt.QueueD.user-limit-factr

C、yarn,scheduIer.capacity.rt.QueueA.capacity

D、yarn,scheduIer.capacity.rt.QueueA.state

答案：c

解析：在YARN中應設置為yarn,scheduler,capacity,rt.QueueA.capacity

118.HadptnryarnscheduIercapacity,rt.Queueafinim.m-user-1imit-percent

設置為50,下面說法錯誤的是？

A、一個用戶提交任務，可以使用QueueA的100%的資源。

B、如果QueueA中已經有2個用戶的任務運行,這時第3個用戶提交的任務需要

等待釋放資源。

C、QueueA中必須保障每個用戶至少得到50%的資源

D、QueueA中的每個用戶最多只能獲得50%的資源

答案：D

解析：如果有資源需求，每個隊列都會對分配給用戶的資源百分比實施限制。用

戶限制可以在最小值和最大值之間變化。前者(最小值)設置為該屬性值，后者

（最大值）取決于已提交應用程序的用戶數。例如，假設此屬性的值為25。如

果兩個用戶已將應用程序提交到隊列，用戶不可以使用超過50%的隊列資源。

如果第三位用戶提交了一個應用程序，用戶都不能使用超過33%的隊列資源。

如果有4個或更多用戶，用戶都不能使用超過25%的隊列資源。值100表示未

施加用戶限制。默認值為100。值指定為整數。

119.下列論據中，能夠支撐“大數據無所不能”的觀點的是（）

A、互聯網金融打破了傳統的觀念和行為

B、大數據存在泡沫

C、大數據具有非常高的成本

D、個人隱私泄露與信息安全擔憂

答案：D

解析：“個人隱私泄露與信息安全擔憂”能夠支撐“大數據無所不能”的觀點

120.關于MapReduceShuffle過程合并（bine）操作，兩個健值對＜"a",1＞和＜

"a",1＞經過合并操作結果為（）。

A、＜"a",2＞

B、＜"a",＜1,1?

C、＜"a,a",2＞

D、＜"a,a",＜1,1?

答案：A

解析:關于MapReduceShuffle過程合并（bine）操作,兩個健值對＜"a",1＞和

＜"a",1＞經過合并操作結果為＜"a",2＞o歸并的結果是1＞＞。

121.KafkaCIusterMirrring工具可以實現以下哪些功能?

A、Kafka數據同步方案

B、Kafka單集群內數據備份

C、Kafka單集群內數據恢復

D、以上全不正確

答案：A

解析：可使用MirrrMaker工具創建從源Kafka群集(源群集)到目標Kafka群

集(目標群集)的鏡像，從而實現數據同步

122.HBase是分布式列式存儲系統，記錄按什么集中存放。

A、列族

B、列

C、行

D、不確定

答案：A

解析：HBase是一個分布式列式存儲系統,記錄按列簇集中存放,通過主鍵(rw,ke

y)和主鍵的range來檢索數據。

123.HFiIe數據格式中的MetaIndex字段用于()。

A、Meta塊的長度

B、Meta塊的結束點

C、Meta塊數據內容

D\Meta塊的起始點

答案：D

解析：HFile是參照谷歌的SSTable存儲格式進行設計的。全部的數據記錄都是

通過它來完畢持久化，其內部主要探用分塊的方式進行存儲

124.以下哪個操作是hive不支持的？()

A、表增加列

B、表刪除列

C、表修改列

D、修改表名

答案：B

解析：hive不支持表刪除列

125.Fusininsight產品中，關乎Kafka說法不正確的是()

AsKafka強依賴Zkeeper

B、Kafka的服務端可以產生消息

C、Kafka的部署的實例個數不得小于2

D\Cnsumer作為Kafka的客戶端角色專門進行消息的消費

答案：B

解析：Kafka的服務端不可以產生消息

126.Hadp平臺中啟用YARN組件的日志聚集功能，需要配置哪個參數？

A、yarn,ndemanager.Ical-dirs

Bvyarn,ndemanager.Ig-dirs

C、yarn,acI.enabIe

D、yarn.Ig-aggregatin-enabIe

答案：D

解析：Hadp平臺中啟用YARN組件的日志聚集功能，需要配置yarn.Ig-aggrega

tin-enabIe參數

127.下列國家的大數據發展行動中，集中體現“重視基礎、首都先行”的國家是

()。

A、美國

B、日本

C、中國

D、韓國

答案：D

解析：國家的大數據發展行動中，集中體現“重視基礎、首都先行”的國家是韓

國

128.關于Kafka的基本概念描述錯誤的是()?

A、Kafka集群包含一^或多個服務實例，這些服務實例被稱為Brker

B、每條發布到Kafka集群的消息都有一個類別，這個類別被稱為Tpic

C、每個Cnsumer屬于多個的CnsumerGrup

D、Kafka將Tpic分成—1^或者多個Partitin,每個Partitin在物理上對應—

文件夾，該文件夾下存儲這個Partitin的所有消息

答案：C

解析：每個Cnsumer進程都會劃歸到一^邏輯的CnsumerGrup中

129.以下關于Zkeeper關鍵特性中的原子性說法正確的是？

A、客戶端發送的更新會按照他們被發送的順序進行應用

B、更新只能全部完成或失敗，不會部分完成

G一條消息被一＞個server接收，將被所有server接收

D、集群中無論哪臺服務器，對外示均是同一視圖

答案：B

解析：數據更新原子性：一次數據更新要么成功，要么失敗。

130.SQL語言中，刪除一個表中所有數據，但保留表結構的命令是（）。

A、DELETE

B、DRP

C、DRP

D、REMRE

答案：A

解析：2、truncate和

人人文庫> 全部分類> 教育資料 > 輔導培訓

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請聯系上傳者。文件的所有權益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網頁內容里面會有圖紙預覽，若沒有圖紙預覽就沒有圖紙。
4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
5. 人人文庫網僅提供信息存儲空間，僅對用戶上傳內容的表現方式做保護處理，對用戶上傳分享的文檔內容本身不做任何修改或編輯，并不能對任何下載內容負責。
6. 下載文件中如有侵權或不適當內容，請與我們聯系，我們立即糾正。
7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

老太爷的乳妓h开裆裤,久久久久久精品国产三级非禁歌 ,久久久久久久99精品国产片,免费观看交性大片

大數據分析師理論知識考試復習題庫（含答案）

文檔簡介

溫馨提示

最新文檔

評論

老太爷的乳妓h开裆裤,久久久久久精品国产三级非禁歌 ,久久久久久久99精品国产片,免费观看交性大片

大數據分析師理論知識考試復習題庫（含答案）

文檔簡介

溫馨提示

最新文檔

評論

相關文檔