大數(shù)據(jù)理論考試復(fù)習(xí)題庫(kù)大全-上（單選題部分）

上傳人：無(wú)*** IP屬地：河北上傳時(shí)間：2025-04-11 格式：PDF 頁(yè)數(shù)：215 大小：20.42MB 積分：12 舉報(bào) 版權(quán)申訴

大數(shù)據(jù)理論考試復(fù)習(xí)題庫(kù)大全-上（單選題部分）_第2頁(yè)

大數(shù)據(jù)理論考試復(fù)習(xí)題庫(kù)大全-上（單選題部分）_第3頁(yè)

大數(shù)據(jù)理論考試復(fù)習(xí)題庫(kù)大全-上（單選題部分）_第4頁(yè)

大數(shù)據(jù)理論考試復(fù)習(xí)題庫(kù)大全-上（單選題部分）_第5頁(yè)

已閱讀5頁(yè)，還剩210頁(yè)未讀，繼續(xù)免費(fèi)閱讀

版權(quán)說(shuō)明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

大數(shù)據(jù)理論考試復(fù)習(xí)題庫(kù)大全-上(單選題部分)

一'單選題

1.把圖像分割問題與圖的最小割(mincut)問題相關(guān)聯(lián)的方法是()。

A、基于圖論的分割方法

B、分水嶺算法

C、SLI法

D、基于閾值的方

答案：A

解析:基于圖論的分割方法把圖像分割問題與圖的最小割(mincut)問題相關(guān)聯(lián)。

首先將圖像映射為帶權(quán)無(wú)向圖，圖中每個(gè)節(jié)點(diǎn)對(duì)應(yīng)于圖像中的每個(gè)像素，每條邊

的權(quán)值表示了相鄰像素之間在灰度、顏色或紋理方面的非負(fù)相似度。

2.MapReduce里面的query、sort和limit等都是針對(duì)哪個(gè)階段的操作?

A、Map()之前；

B、Reduce()之前；

GReduce()之后；

D、finalize()之后;

答案：A

解析：query是一個(gè)篩選條件，只有滿足條件的文檔才會(huì)調(diào)用map函數(shù)；sort

是在發(fā)往map函數(shù)前給文檔排序；limit是發(fā)往map函數(shù)的文檔數(shù)量的上限，所

以它們都是在Map()之前。

3.下列哪個(gè)程序通常與NameNode在一個(gè)節(jié)點(diǎn)啟動(dòng)()

AxSecondaryNameNode

B、DataNode

C、TaskTracker

D、Jobtracker

答案：D

解析：hadoop的集群是基于master/sIave模式，namenode和jobtracker屬于

master,datanode和tasktracker屬于sIave,master只有一個(gè)，而slave有

多個(gè)。SecondaryNameNode內(nèi)存需求和NameNode在一個(gè)數(shù)量級(jí)上，所以通常se

condaryNameNode(運(yùn)行在單獨(dú)的物理機(jī)器上)和NameNode運(yùn)行在不同的機(jī)器上。

JobTracker對(duì)應(yīng)于NameNode0TaskTracker對(duì)應(yīng)于DataNodeoDataNode和Nam

eNode是針對(duì)數(shù)據(jù)存放來(lái)而言的，JobTracker和TaskTracker是對(duì)于MapReduce

執(zhí)行而言的。

4.在回歸模型中，下列哪一項(xiàng)在權(quán)衡欠擬合(under-fitting)和過擬合(over

-fitting)中影響最大()

A、多項(xiàng)式階數(shù)

B、更新權(quán)重w時(shí)，使用的是矩陣求逆

C、使用常數(shù)項(xiàng)D.使用梯度下降

答案：A

解析：選擇合適的多項(xiàng)式階數(shù)非常重要。如果階數(shù)過大，模型就會(huì)更加復(fù)雜，容

易發(fā)生過擬合；如果階數(shù)較小，模型就會(huì)過于簡(jiǎn)單，容易發(fā)生欠擬合。

5.數(shù)據(jù)探索是指針對(duì)目標(biāo)可變、持續(xù)'多角度的搜索或分析任務(wù)，下列哪項(xiàng)不是

其搜索過程的特點(diǎn)Oo

A、有選擇

B、有策略

C、有目標(biāo)

D、反復(fù)進(jìn)行的

答案：c

解析：數(shù)據(jù)探索是指針對(duì)目標(biāo)可變、持續(xù)'多角度的搜索或分析任務(wù)，其搜索過

程是有選擇'有策略和反復(fù)進(jìn)行的。

6.()不僅可用于多層前饋神經(jīng)網(wǎng)絡(luò)，還可用于其他類型的神經(jīng)網(wǎng)絡(luò)。

A、感知機(jī)

B、神經(jīng)元

C、神經(jīng)系統(tǒng)

D、誤差逆?zhèn)?/p>

答案：D

解析：誤差逆?zhèn)鞑?errorBackPropagation,簡(jiǎn)稱BP)算法不僅可用于多層前饋

神經(jīng)網(wǎng)絡(luò)，還可用于其他類型的神經(jīng)網(wǎng)絡(luò)，例如訓(xùn)練遞歸神經(jīng)網(wǎng)絡(luò)[Pineda,19

87]o

7.下列哪個(gè)不是RDD的緩存方法()

A、persist()

B、略

C、che()Memory()

D、以上答案都正

答案：c

解析：RDD的緩存方法包括persist和cache,其中cache方法默認(rèn)存儲(chǔ)到內(nèi)存

中。

8.Base原則的含義不包括()

A、基本可用

B、柔性狀態(tài)

C、最終一致

D、基礎(chǔ)條

答案：D

解析：BASE原則是BasicallyAvailabIe(基本可用)、SoftState(柔性狀態(tài))和E

ventuaIIyConsistent(最終一致)的縮寫。BasicaIIyAvaiIabIe是指可以容忍系

統(tǒng)的短期不可用，并不追求全天候服務(wù)；SoftState是指不要求一直保持強(qiáng)一致

狀態(tài)；EventualIyConsistent是指最終數(shù)據(jù)一致，而不是嚴(yán)格的實(shí)時(shí)一致，系

統(tǒng)在某一個(gè)時(shí)刻后達(dá)到一致性要求即可。

9.哪種聚類方法采用概率模型來(lái)表達(dá)聚類Oo

A、K-means

B、LVQ

C、DBSN

D、高斯混合聚

答案：D

解析：高斯混合聚類(MixtureofGaussian)采用概率模型來(lái)表達(dá)聚類。

10.下列關(guān)于支持向量回歸說(shuō)法錯(cuò)誤的是()o

A、支持向量回歸是將支持向量的方法應(yīng)用到回歸問題中

B、支持向量回歸同樣可以應(yīng)用核函數(shù)求解線性不可分的問題

C、同分類算法不同的是，支持向量回歸要最小化一個(gè)凹函數(shù)

D、支持向量回歸的解是稀疏

答案：C

解析：支持向量機(jī)最大間隔模型是一個(gè)凸二次規(guī)劃問題。

11.在集成學(xué)習(xí)中，對(duì)于數(shù)據(jù)型輸出，最常見的結(jié)合策略是O。

A、平均法

B、投票法

C、學(xué)習(xí)法

D、以上答案都正

答案：A

解析：在集成學(xué)習(xí)中，對(duì)于數(shù)據(jù)型輸出，最常見的結(jié)合策略平均法。對(duì)于分類任

務(wù)來(lái)說(shuō)，最常見的結(jié)合策略投票法。當(dāng)訓(xùn)練數(shù)據(jù)很多時(shí)?一種更為強(qiáng)大的結(jié)合策

略是使用學(xué)習(xí)法。

12.K-means++算法選擇初始seeds的基本思想就是：初始的聚類中心之間的相互

距離要盡可能的遠(yuǎn)。那么算法流程為Oo1.從輸入的數(shù)據(jù)點(diǎn)集合中隨機(jī)選擇一

個(gè)點(diǎn)作為第一個(gè)聚類中心2.對(duì)于數(shù)據(jù)集中的每一個(gè)點(diǎn)x,計(jì)算它與最近聚類中心

(指已選擇的聚類中心)的距離D(x)3.選擇一個(gè)新的數(shù)據(jù)點(diǎn)作為新的聚類中心，

選擇的原則是：D(x)較大的點(diǎn)，被選取作為聚類中心的概率較大4.重復(fù)2和3

直到k個(gè)聚類中心被選出來(lái)5.利用這k個(gè)初始的聚類中心來(lái)運(yùn)行標(biāo)準(zhǔn)的k-mean

s算法

A、2.5.4.3.1

B、1.5.4.2.3

C、1.2.3.4.5

D、4.3.2.1.

答案：c

解析：k-means++算法基本流程為：1.從輸入的數(shù)據(jù)點(diǎn)集合中隨機(jī)選擇一個(gè)點(diǎn)作

為第一個(gè)聚類中心2.對(duì)于數(shù)據(jù)集中的每一個(gè)點(diǎn)x,計(jì)算它與最近聚類中心(指已

選擇的聚類中心)的距離D(x)3.選擇一個(gè)新的數(shù)據(jù)點(diǎn)作為新的聚類中心，選擇的

原則是：D(x)較大的點(diǎn)，被選取作為聚類中心的概率較大4.重復(fù)2和3直到k

個(gè)聚類中心被選出來(lái)5.利用這k個(gè)初始的聚類中心來(lái)運(yùn)行標(biāo)準(zhǔn)的k-means算法

13.評(píng)估完模型之后，發(fā)現(xiàn)模型存在高偏差(highbias),應(yīng)該如何解決。。

A、減少模型的特征數(shù)量

B、增加模型的特征數(shù)量

C、增加樣本數(shù)量

D、以上答案都正

答案:B

解析：如果模型存在高偏差，意味著模型過于簡(jiǎn)單，為了使模型更加健壯，可以

在特征空間中添加更多的特征。而增加樣本數(shù)量將減少方差。

14.在Hadoop生態(tài)系統(tǒng)中，()可以將結(jié)構(gòu)化的數(shù)據(jù)文件映射成一張數(shù)據(jù)庫(kù)表,

并提供簡(jiǎn)單的查詢語(yǔ)言。

A、Pig

B、Hbase

C、Hive

D、MapReduce

答案：C

解析：Hive是構(gòu)建在hadoop上的數(shù)據(jù)倉(cāng)庫(kù)工具，可以將結(jié)構(gòu)化的數(shù)據(jù)文件映

射為一張數(shù)據(jù)庫(kù)表，可以用來(lái)進(jìn)行數(shù)據(jù)提取轉(zhuǎn)化加載（ETL）,并提供簡(jiǎn)單的SQ

L查詢功能。

15.大數(shù)據(jù)平臺(tái)構(gòu)建分布式文件系統(tǒng)、分布式數(shù)據(jù)倉(cāng)庫(kù)、非關(guān)系型數(shù)據(jù)庫(kù)、關(guān)系

型數(shù)據(jù)庫(kù)，實(shí)現(xiàn)各類數(shù)據(jù)的集中存儲(chǔ)與統(tǒng)一管理，滿足（）存儲(chǔ)需求。

A、歷史數(shù)據(jù)

B、離線數(shù)據(jù)

C、實(shí)時(shí)數(shù)據(jù)

D、多樣化數(shù)據(jù)

答案：D

解析：大數(shù)據(jù)平臺(tái)構(gòu)建分布式文件系統(tǒng)、分布式數(shù)據(jù)倉(cāng)庫(kù)、非關(guān)系型數(shù)據(jù)庫(kù)、關(guān)

系型數(shù)據(jù)庫(kù)，實(shí)現(xiàn)各類數(shù)據(jù)的集中存儲(chǔ)與統(tǒng)一管理，滿足多樣化數(shù)據(jù)存儲(chǔ)需求。

16.假負(fù)率是指（）。

A、正樣本預(yù)測(cè)結(jié)果數(shù)/正樣本實(shí)際數(shù)

B、被預(yù)測(cè)為負(fù)的正樣本結(jié)果數(shù)/正樣本實(shí)際數(shù)

C、被預(yù)測(cè)為正的負(fù)樣本結(jié)果數(shù)/負(fù)樣本實(shí)際數(shù)

D、負(fù)樣本預(yù)測(cè)結(jié)果數(shù)/負(fù)樣本實(shí)際

答案：B

解析：假負(fù)率是指被預(yù)測(cè)為負(fù)的正樣本結(jié)果數(shù)/正樣本實(shí)際數(shù)。

17.不屬于Mayer-SchdnbergerV和CukierK.在其著名論著《Bigdata:ArevoIut

ionthatwiIItransformhowweIive,work,andthink》中提出了大數(shù)據(jù)時(shí)代統(tǒng)計(jì)的

思維變革的是()o

A、不是隨機(jī)樣本，而是全體數(shù)據(jù)

B、不是精確性，而是混雜性

C、不是描述性分析，而是預(yù)測(cè)性分析

D、不是因果關(guān)系，而是相關(guān)關(guān)

答案：C

解析：Mayer-SchdnbergerV和CukierK.在其著名論著《Bigdata/revolution

thatwiIItransformhowweIive,work,andthink》中提出了大數(shù)據(jù)時(shí)代統(tǒng)計(jì)的思維

變革：1)不是隨機(jī)樣本，而是全體數(shù)據(jù)：大數(shù)據(jù)時(shí)代應(yīng)遵循“樣本=總體”的理

念，需要分析與某事物相關(guān)的所有數(shù)據(jù)，而不是依靠分析少量的數(shù)據(jù)樣本。2)

不是精確性，而是混雜性：大數(shù)據(jù)時(shí)代應(yīng)承認(rèn)數(shù)據(jù)的復(fù)雜性，數(shù)據(jù)分析目的不應(yīng)

追求精確性，數(shù)據(jù)分析的主要瓶頸是如何提升效率而不是保證分析結(jié)果的精確度。

3)不是因果關(guān)系，而是相關(guān)關(guān)系：大數(shù)據(jù)時(shí)代的思想方式應(yīng)轉(zhuǎn)變—不再探求

難以捉摸的因果關(guān)系，轉(zhuǎn)而關(guān)注事物的相關(guān)關(guān)系。

18.以下關(guān)于Hive說(shuō)法正確的是()0

A、一種數(shù)據(jù)倉(cāng)庫(kù)

B、一種數(shù)據(jù)處理工具

C、一種可視化工具

D、一種分析算法

答案：A

解析：hive是基于Hadoop的一個(gè)數(shù)據(jù)倉(cāng)庫(kù)工具，用來(lái)進(jìn)行數(shù)據(jù)提取、轉(zhuǎn)化、加

載，這是一種可以存儲(chǔ)、查詢和分析存儲(chǔ)在Hadoop中的大規(guī)模數(shù)據(jù)的機(jī)制。

19.()是指對(duì)于數(shù)據(jù)局部不良行為的非敏感性，它是探索性分析追求的主要目標(biāo)

之一。

A、魯棒性

B、穩(wěn)定性

C、可靠性

D、耐抗性

答案：D

解析：耐抗性(Resistance)為探索性數(shù)據(jù)分析的四個(gè)指標(biāo)之一，是指對(duì)于數(shù)據(jù)

的局部不良行為的非敏感性，它是探索性分析追求的主要目標(biāo)之一。對(duì)于具有耐

抗性的分析結(jié)果，當(dāng)數(shù)據(jù)的一小部分被新的數(shù)據(jù)代替時(shí)，即使它們與原來(lái)的數(shù)值

差別很大，分析結(jié)果也只會(huì)有輕微的改變。

20.下列屬于小波去噪步驟的是()o

A、對(duì)圖象信號(hào)進(jìn)行小波分解

B、對(duì)經(jīng)過層次分解后的高頻系數(shù)進(jìn)行閾值量化

C、利用二維小波重構(gòu)圖象信號(hào)

D、以上答案都正

答案：D

解析：小波去噪是通過短波實(shí)現(xiàn)噪音消除，與高斯去噪的基本原理一致。小波去

噪方法包括三個(gè)基本的步驟：對(duì)含噪聲信號(hào)進(jìn)行小波變換；對(duì)變換得到的小波系

數(shù)進(jìn)行某種處理，以去除其中包含的噪聲;對(duì)處理后的小波系數(shù)進(jìn)行小波逆變換,

得到去噪后的信號(hào)。

21.以下()是對(duì)DMM(數(shù)據(jù)管理成熟度模型)中“已管理級(jí)”基本特點(diǎn)的正確

表述。

A、組織機(jī)構(gòu)的數(shù)據(jù)管理關(guān)鍵活動(dòng)能夠根據(jù)結(jié)構(gòu)自身的反饋以及外部環(huán)境的變革

進(jìn)行不斷優(yōu)化。

B、組織機(jī)構(gòu)已用定量化的方式管理其關(guān)鍵過程的執(zhí)行過程。

C、組織機(jī)構(gòu)只有在項(xiàng)目管理過程中執(zhí)行了

D、M給出的關(guān)鍵過程，而缺乏機(jī)構(gòu)層次的統(tǒng)籌與管理組織機(jī)構(gòu)的數(shù)據(jù)管理工作

超出了項(xiàng)目管理的范疇，由組織機(jī)構(gòu)統(tǒng)一管理了其數(shù)據(jù)管理關(guān)鍵過程

答案：D

解析：DMM(數(shù)據(jù)管理成熟度模型)中“已管理級(jí)”基本特點(diǎn)的正確表述是組織

機(jī)構(gòu)的數(shù)據(jù)管理工作超出了項(xiàng)目管理的范疇，由組織機(jī)構(gòu)統(tǒng)一管理了其數(shù)據(jù)管理

關(guān)鍵過程。

22.機(jī)器學(xué)習(xí)和深度學(xué)習(xí)的關(guān)系是(_)o

A、深度學(xué)習(xí)包含機(jī)器學(xué)習(xí)

B、機(jī)器學(xué)習(xí)包含深度學(xué)習(xí)

C、二者是獨(dú)立的

D、二者相互促

答案：B

解析：機(jī)器學(xué)習(xí)包含深度學(xué)習(xí)。

23.關(guān)于bagging下列說(shuō)法錯(cuò)誤的是：O。

A、各基分類器之間有較強(qiáng)依賴，不可以進(jìn)行并行訓(xùn)練

B、最著名的算法之一是基于決策樹基分類器的隨機(jī)森林

C、當(dāng)訓(xùn)練樣本數(shù)量較少時(shí)，子集之間可能有重疊

D、為了讓基分類器之間互相獨(dú)立，需要將訓(xùn)練集分為若干子

答案:A

解析：Bagging方法在訓(xùn)練過程中，各基分類器之間無(wú)強(qiáng)依賴，可以進(jìn)行并行訓(xùn)

練，隨機(jī)森林就是一種典型的例子。

24.數(shù)據(jù)預(yù)處理方法不包括O。

A、數(shù)據(jù)清洗：去噪聲和無(wú)關(guān)數(shù)據(jù)

B、數(shù)據(jù)集成：將多個(gè)數(shù)據(jù)源中的數(shù)據(jù)結(jié)合起來(lái)存在一個(gè)一致的數(shù)據(jù)存儲(chǔ)中

C、數(shù)據(jù)變換：把原始數(shù)據(jù)轉(zhuǎn)換成為適合數(shù)據(jù)挖掘的形式

D、數(shù)據(jù)轉(zhuǎn)化：把連續(xù)數(shù)據(jù)轉(zhuǎn)換為離散數(shù)據(jù)

答案：D

解析：數(shù)據(jù)轉(zhuǎn)化多為將字符型數(shù)據(jù)轉(zhuǎn)換為數(shù)值型數(shù)據(jù)。例如將性別【男，女】分

別轉(zhuǎn)換為【0,1】。

25.關(guān)于0LAP和OLTP的區(qū)別描述,不正確的是（）。

A、0L主要是關(guān)于如何理解聚集的大量不同的數(shù)據(jù).它與0T應(yīng)用程序不同。

B、與OLAP應(yīng)用程序不同,OLTP應(yīng)用程序包含大量相對(duì)簡(jiǎn)單的事務(wù)。

C、OLAP的特點(diǎn)在于事務(wù)量大，但事務(wù)內(nèi)容比較簡(jiǎn)單且重復(fù)率高。

D、OLAP是以數(shù)據(jù)倉(cāng)庫(kù)為基礎(chǔ)的，但其最終數(shù)據(jù)來(lái)源與OLTP一樣均來(lái)自底層的數(shù)

據(jù)庫(kù)系統(tǒng),兩者面對(duì)的用戶是相同的

答案：C

解析：OLTP是傳統(tǒng)的關(guān)系型數(shù)據(jù)庫(kù)的主要應(yīng)用，主要是基本的'日常的事務(wù)處

理，記錄即時(shí)的增、刪、改、查，比如在銀行存取一筆款，就是一個(gè)事務(wù)交易。

OLAP即聯(lián)機(jī)分析處理，是數(shù)據(jù)倉(cāng)庫(kù)的核心部心，支持復(fù)雜的分析操作，側(cè)重決

策支持，并且提供直觀易懂的查詢結(jié)果。典型的應(yīng)用就是復(fù)雜的動(dòng)態(tài)報(bào)表系統(tǒng)。

26.()和假設(shè)檢驗(yàn)又可歸結(jié)為統(tǒng)計(jì)推斷的范疇，即對(duì)總體的數(shù)量特征做出具有

一定可靠程度的估計(jì)和判斷.

A、參數(shù)估計(jì)

B、邏輯分析

C、方差分析

D、回歸分

答案：A

解析：推斷統(tǒng)計(jì)包括兩方面的內(nèi)容：參數(shù)估計(jì)和假設(shè)檢驗(yàn)。

27.數(shù)據(jù)科學(xué)家可能會(huì)同時(shí)使用多個(gè)算法(模型)進(jìn)行預(yù)測(cè)，并且最后把這些算

法的結(jié)果集成起來(lái)進(jìn)行最后的預(yù)測(cè)(集成學(xué)習(xí))，以下對(duì)集成學(xué)習(xí)說(shuō)法正確的是

()0

A、單個(gè)模型之間具有高相關(guān)性

B、單個(gè)模型之間具有低相關(guān)性

C、在集成學(xué)習(xí)中使用“平均權(quán)重”而不是“投票”會(huì)比較好

D、單個(gè)模型都是用的一個(gè)算法

答案：B

解析：集成學(xué)習(xí)就是組合這里的多個(gè)弱監(jiān)督模型以期得到一個(gè)更好更全面的強(qiáng)監(jiān)

督模型，集成學(xué)習(xí)潛在的思想是即便某一個(gè)弱模型得到了錯(cuò)誤的預(yù)測(cè)，其他的弱

模型也可以將錯(cuò)誤糾正回來(lái)。某一個(gè)弱模型要有一定的“準(zhǔn)確性”，即學(xué)習(xí)器不

能太壞，并且要有多樣性，即個(gè)體學(xué)習(xí)器間具有差異。集成中即可包含同種類型

的弱模型，也可包含不同類型的弱模型。

28.下列關(guān)于大數(shù)據(jù)的分析理念的說(shuō)法中，錯(cuò)誤的是()o

A、在數(shù)據(jù)基礎(chǔ)上傾向于全體數(shù)據(jù)而不是抽樣數(shù)據(jù)

B、在分析方法上更注重相關(guān)分析而不是因果分析

C、在分析效果上更追求效率而不是絕對(duì)精確

D、在數(shù)據(jù)規(guī)模上強(qiáng)調(diào)相對(duì)數(shù)據(jù)而不是絕對(duì)數(shù)據(jù)

答案：D

解析：在大數(shù)據(jù)的分析理念中，數(shù)據(jù)規(guī)模上強(qiáng)調(diào)絕對(duì)數(shù)據(jù)而不是相對(duì)數(shù)據(jù)。

29.一個(gè)分布式應(yīng)用程序協(xié)調(diào)服務(wù)，分布式應(yīng)用程序可以基于它實(shí)現(xiàn)同步服務(wù)，

配置維護(hù)和命名服務(wù)等的工具是O。

AxFlume

BxZookeeper

C、Storm

D、Sparkstreaming

答案：B

解析：Zoopkeeper和Chubby均是分布式協(xié)調(diào)服務(wù)。

30.SparkJob默認(rèn)的調(diào)度模式是()。

A、FIFO

B、FAIR

C、無(wú)

D、運(yùn)行時(shí)指定

答案：A

解析：Spark中的調(diào)度模式主要有兩種FIFO和FAIR。默認(rèn)情況下Spark的調(diào)度

模式是FIFO（先進(jìn)先出）。

31.0將觀測(cè)值分為相同數(shù)目的兩部分，當(dāng)統(tǒng)計(jì)結(jié)果為非對(duì)稱分布時(shí)，經(jīng)常使用

它。

A、眾數(shù)

B、標(biāo)準(zhǔn)差

C、中位數(shù)

D、均值

答案：C

解析：中位數(shù)是指一組數(shù)據(jù)排序后處于中間位置的變量值。

32.數(shù)據(jù)倉(cāng)庫(kù)的最終目的是O。

A、收集業(yè)務(wù)需求

B、建立數(shù)據(jù)倉(cāng)庫(kù)邏輯模型

C、開發(fā)數(shù)據(jù)倉(cāng)庫(kù)的應(yīng)用分析

D、為用戶和業(yè)務(wù)部門提供決策支持

答案：D

解析：數(shù)據(jù)倉(cāng)庫(kù)的最終目的是為用戶和業(yè)務(wù)部門提供決策支持。

33.因子分析把每個(gè)原始變量分解為兩部分因素：一部分為（）,另一部分為（）。

A、公共因子和特殊因子

B、特殊因子和相關(guān)因子

C、相關(guān)因子和獨(dú)立因子

D、獨(dú)立因子和公共因子

答案：A

解析：因子分析把每個(gè)原始變量分解為兩部分因素：一部分為公共因子，另一部

分為特殊因子。

34.在k近鄰學(xué)習(xí)算法中，隨著k的增加，上界將逐漸降低，當(dāng)k區(qū)域無(wú)窮大時(shí)，

上界和下界碰到一起，k近鄰法就達(dá)到了O。

A、貝葉斯錯(cuò)誤率

B、漸進(jìn)錯(cuò)誤率

C、最優(yōu)值

D、上

答案：A

解析：在k近鄰學(xué)習(xí)算法中，隨著k的增加，上界將逐漸降低，當(dāng)k區(qū)域無(wú)窮大

時(shí)，上界和下界碰到一起，k近鄰法就達(dá)到了貝葉斯錯(cuò)誤率。

35.診斷性分析主要采取的分析方法是（）和（）。

A、關(guān)聯(lián)分析和因果分析法

B、關(guān)聯(lián)分析和分類分析法

C、關(guān)聯(lián)分析和運(yùn)籌學(xué)

D、因果分析和分類分析法

答案：A

解析：診斷性分析主要采取的分析方法是關(guān)聯(lián)分析和因果分析法。

36.下面算法屬于局部處理的是（）。

A、灰度線性變換

B、二值化

C、傅里葉變換

D、中值濾

答案：D

解析：中值濾波是將每一像素點(diǎn)的灰度值設(shè)置為該點(diǎn)某鄰域窗口內(nèi)的所有像素點(diǎn)

灰度值的中值，在圖像處理中常用于保護(hù)邊緣信息，是一種局部處理方法。

37.一幅灰度均勻分布的圖像，其灰度范圍在[0,255],則該圖像的信息量為（）。

A、0

B、6

C、8

D、25

答案：C

解析：把255拆成二進(jìn)制以后是11111111所以是8。

38.輸入圖像已被轉(zhuǎn)換為大小為28X28的矩陣和大小為7X7的步幅為1的核心/

濾波器。卷積矩陣的大小是多少（）

A、22X22

B、21X21

G28X28

D、7X

答案:A

解析：28-7+1=22o

39.關(guān)于數(shù)據(jù)分析，下列說(shuō)法正確的是。。

A、描述性分析和預(yù)測(cè)性分析是對(duì)診斷性分析的基礎(chǔ)

B、斷性分析分析是對(duì)規(guī)范性分析的進(jìn)一步理解

C、預(yù)測(cè)性分析是規(guī)范性分析的基礎(chǔ)

D、規(guī)范性分析是數(shù)據(jù)分析的最高階段，可以直接產(chǎn)生產(chǎn)業(yè)價(jià)值

答案：C

解析：在數(shù)據(jù)分析中，流程分為以下方式：描述性分析、診斷性分析、預(yù)測(cè)性分

析'規(guī)范性分析。

40.在MapReduce中,以下描述錯(cuò)誤的有O。

A、Worker故障和Master故障的處理方法不相同

B、Map和Reduce的處理結(jié)果都存儲(chǔ)在本地文件系統(tǒng)

C、一個(gè)Worker發(fā)生故障時(shí)，該節(jié)點(diǎn)上執(zhí)行完的Map任務(wù)需要再次執(zhí)行

D、MapReduce具有很強(qiáng)的容錯(cuò)機(jī)制

答案：B

解析：已經(jīng)完成的Map任務(wù)的輸出存儲(chǔ)在本臺(tái)機(jī)器上，Reduce任務(wù)的輸出存儲(chǔ)

在全局文件系統(tǒng)上，故B錯(cuò)。

41.采用主成分分析法映射到低維空間，將最小的個(gè)特征向量舍棄，有（）

影響。

A、使樣本采樣密度增大

B、丟失最優(yōu)解

C、增大噪聲

D、使樣本采樣密度減

答案：A

解析：低維空間與原始高維空間必有不同，因?yàn)閷?duì)應(yīng)于最小的d-d，個(gè)特征值的

特征向量被舍棄了，這是降維導(dǎo)致的結(jié)果.但舍棄這部分信息往往是必要的：一

方面舍棄這部分信息之后能使樣本的采樣密度增大，這正是降維的重要?jiǎng)訖C(jī);另

一方面，當(dāng)數(shù)據(jù)受到噪聲影響時(shí)，最小的特征值所對(duì)應(yīng)的特征向量往往與噪聲有

關(guān)。將它們舍棄能在一定程度上起到去噪的效果.

42.為了允許支持向量機(jī)在一些樣本上出錯(cuò)，引入（）的概念。

A、軟間隔

B、硬間隔

C、間隔

D、誤

答案：A

解析：為了允許支持向量機(jī)在一些樣本上出錯(cuò)，引入軟間隔的概念。

43.關(guān)于長(zhǎng)短時(shí)神經(jīng)網(wǎng)絡(luò)的敘述中錯(cuò)誤的是（）o

A、引用自循環(huán)思想

B、產(chǎn)生梯度長(zhǎng)時(shí)間持續(xù)流動(dòng)的路徑

C、積累的時(shí)間尺度不可以因輸入序列而改變

D、可應(yīng)用于語(yǔ)音識(shí)別和機(jī)器翻

答案：C

解析：LSTM累積的時(shí)間尺度也可以因輸入序列而改變，因?yàn)闀r(shí)間常數(shù)是模型本

身的輸出。

44.以下處理能獲得像素級(jí)標(biāo)注的是（）。

A、圖像分類

B、物體檢測(cè)

C、圖像去噪

D、語(yǔ)義分

答案：D

解析:語(yǔ)義分割通過對(duì)每個(gè)像素進(jìn)行密集的預(yù)測(cè)、推斷標(biāo)簽來(lái)實(shí)現(xiàn)細(xì)粒度的推理,

從而使每個(gè)像素都被標(biāo)記為其封閉對(duì)象礦石區(qū)域的類別，因此能夠獲得像素級(jí)標(biāo)

注。

45.第一數(shù)字定律中使用概率最大的數(shù)字是（）。

A、0

B、1

C、2

答案：B

解析：第一數(shù)字定律表示，數(shù)字“1”的使用最多接近三分之一，“2”為17.6%,

“3”為12.5%,依次遞減，“9”的頻率是4.6%。

46.下列關(guān)于bootstrap說(shuō)法正確的是。。

A、從總的M個(gè)特征中，有放回地抽取m個(gè)特征（m<M）

B、從總的M個(gè)特征中，無(wú)放回地抽取m個(gè)特征（m<M）

C、從總的N個(gè)樣本中，有放回地抽取n個(gè)樣本（n<N）

D、從總的N個(gè)樣本中，無(wú)放回地抽取n個(gè)樣本（n<N

答案:C

解析：bootstrap抽樣是從總的N個(gè)樣本中，有放回地抽取n個(gè)樣本（n<N）

47.對(duì)于PCA處理后的特征，其樸素貝葉斯特征相互獨(dú)立的假設(shè)一定成立，因?yàn)?/p>

所有主成分都是正交的，所以不相關(guān)。這句話是否正確()

A、True

B、FaIs

答案：B

解析：這句話有兩處錯(cuò)誤：一是PCA轉(zhuǎn)換之后的特征不一定不相關(guān)；二是不相關(guān)

并不等價(jià)于相互獨(dú)立。正交和不相關(guān)沒有必然關(guān)系，只有當(dāng)一個(gè)隨機(jī)變量的統(tǒng)計(jì)

平均等于零時(shí)，正交和不相關(guān)等價(jià)。獨(dú)立則必定不相關(guān)，而不相關(guān)卻不一定互相

獨(dú)立，只有是高斯時(shí)獨(dú)立和不相關(guān)才等價(jià)。

48.以下關(guān)于人工神經(jīng)網(wǎng)絡(luò)(ANN)的描述錯(cuò)誤的有()o

A、神經(jīng)網(wǎng)絡(luò)對(duì)訓(xùn)練數(shù)據(jù)中的噪聲非常魯棒

B、可以處理冗余特征

C、訓(xùn)練ANN是一個(gè)很耗時(shí)的過程

D、至少含有一個(gè)隱藏層的多層神經(jīng)網(wǎng)

答案:A

解析：未經(jīng)正則化的神經(jīng)網(wǎng)絡(luò)對(duì)可能對(duì)噪聲很敏感。

49.可分解為偏差、方差與噪聲之和的是()。

A、訓(xùn)練誤差(trainingerror)

B、經(jīng)驗(yàn)誤差(empiricalerror)

G均方誤差(meansquarederror)

D、泛化誤差(generaIizationerror

答案：D

解析：泛化誤差可分解為偏差、方差與噪聲之和。

50.多分類圖像識(shí)別任務(wù)常采用O作為輸出的編碼方式。

A、二進(jìn)制編碼

B、one-hot編碼

C、霍夫曼編碼

D、曼切斯特編

答案:B

解析：分類任務(wù)一般用獨(dú)熱（one-hot）編碼表示最終輸出，也就是00000010000

這樣的，碼段中1出現(xiàn)的位置就是預(yù)測(cè)的類別。

51.如果使用線性回歸模型，下列說(shuō)法正確的是。

A、檢查異常值是很重要的，因?yàn)榫€性回歸對(duì)離群效應(yīng)很敏感

B、線性回歸分析要求所有變量特征都必須具有正態(tài)分布

C、線性回歸假設(shè)數(shù)據(jù)中基本沒有多重共線性

D、以上說(shuō)法都不

答案:A

解析：異常值是數(shù)據(jù)中的一個(gè)非常有影響的點(diǎn)，它可以改變最終回歸線的斜率。

因此，去除或處理異常值在回歸分析中是很重要的。了解變量特征的分布是有用

的，類似于正態(tài)分布的變量特征對(duì)提升模型性能很有幫助，數(shù)據(jù)預(yù)處理的時(shí)候經(jīng)

常做的一件事就是將數(shù)據(jù)特征歸一化到（0,D分布，但不是必須的。當(dāng)模型包

含相互關(guān)聯(lián)的多個(gè)特征時(shí)，會(huì)發(fā)生多重共線性。因此，線性回歸中變量特征應(yīng)該

盡量減少冗余性。

52.數(shù)據(jù)科學(xué)是一門以（）為主要研究任務(wù)的獨(dú)立學(xué)科。

A、“數(shù)據(jù)驅(qū)動(dòng)”“數(shù)據(jù)業(yè)務(wù)化”“數(shù)據(jù)洞見”“數(shù)據(jù)產(chǎn)品研發(fā)”和（或）“數(shù)

據(jù)生態(tài)系統(tǒng)的建設(shè)”

B、數(shù)據(jù)研發(fā)

C、數(shù)據(jù)處理

D、數(shù)據(jù)洞見

答案：A

解析：數(shù)據(jù)科學(xué)是一門以實(shí)現(xiàn)“從數(shù)據(jù)到信息”、“從數(shù)據(jù)到知識(shí)”和（或）“從

數(shù)據(jù)到智慧”的轉(zhuǎn)化為主要研究目的的，以“數(shù)據(jù)驅(qū)動(dòng)”'“數(shù)據(jù)業(yè)務(wù)化”'“數(shù)

據(jù)洞見”、“數(shù)據(jù)產(chǎn)品研發(fā)”和（或）“數(shù)據(jù)生態(tài)系統(tǒng)的建設(shè)”為主要研究任務(wù)

的獨(dú)立學(xué)科。

53.在空間維度上刻畫數(shù)據(jù)連續(xù)性是數(shù)據(jù)的（）特點(diǎn)。

A、可關(guān)聯(lián)性

B、可溯源性

C、可理解性

D、可復(fù)制性

答案：A

解析：數(shù)據(jù)連續(xù)性理論是指由數(shù)據(jù)的可關(guān)聯(lián)性、可溯源性、可理解性及其內(nèi)在聯(lián)

系組成的一整套數(shù)據(jù)保護(hù)措施，其目的是保障數(shù)據(jù)的可用性、可信性和可控性,

降低數(shù)據(jù)的失用'失信和失控的風(fēng)險(xiǎn)：1）可關(guān)聯(lián)性是在空間維度上刻畫數(shù)據(jù)連

續(xù)性，代表的是不同數(shù)據(jù)對(duì)象之間的連續(xù)性。它是保障數(shù)據(jù)可用性的重要前提,

代表了數(shù)據(jù)是否具備支持開放關(guān)聯(lián)和跨域存取的能力，進(jìn)而避免數(shù)據(jù)資源的碎片

化。因此，研究數(shù)據(jù)可關(guān)聯(lián)性的意義在于降低數(shù)據(jù)的“失用”風(fēng)險(xiǎn)。2）可溯源

性是在時(shí)間維度上刻畫數(shù)據(jù)連續(xù)性，代表的是同一個(gè)數(shù)據(jù)對(duì)象的歷史版本之間的

連續(xù)性。它是保障數(shù)據(jù)可信性的重要前提，代表了數(shù)據(jù)是否具備支持證據(jù)鏈管理'

可信度評(píng)估以及預(yù)測(cè)分析的能力。因此，研究數(shù)據(jù)可溯源性的意義在于降低數(shù)據(jù)

的“失信”風(fēng)險(xiǎn)；3)可理解性是在內(nèi)容維度上刻畫數(shù)據(jù)連續(xù)性，代表的是數(shù)據(jù)

與其產(chǎn)生、管理和維護(hù)的主體(包括人與計(jì)算機(jī))之間的連續(xù)性。它是降低數(shù)據(jù)

的可控性的重要前提，代表了數(shù)據(jù)是否具備自描述和自包含信息。因此，研究數(shù)

據(jù)可理解性的意義在于降低數(shù)據(jù)的“失控”風(fēng)險(xiǎn)。

54.訓(xùn)練完SVM模型后，不是支持向量的那些樣本我們可以丟掉,也可以繼續(xù)分類:

()0

A、正確

B、錯(cuò)

答案：A

解析：訓(xùn)練完SVM模型后,不是支持向量的那些樣本我們可以丟掉,也可以繼續(xù)分

類。

55.語(yǔ)音識(shí)別的應(yīng)用場(chǎng)景包括()o

A、語(yǔ)音轉(zhuǎn)文本

B、語(yǔ)音合成

C、人機(jī)交互

D、以上答案都正

答案：D

解析：語(yǔ)音識(shí)別應(yīng)用包含語(yǔ)音轉(zhuǎn)文本，語(yǔ)音合成和人機(jī)交互等。

56.以下跟RNN相關(guān)的是(_)o

A、梯度消失

B、時(shí)間步

C、梯度爆炸

D、以上答案都正

答案：D

解析：深度學(xué)習(xí)基礎(chǔ)知識(shí)。

57.下面()負(fù)責(zé)MapReduce任務(wù)調(diào)度。

AxNameNode

B、Jobtracker

C、TaskTracker

D、secondaryNameNode

答案：B

解析：Jobtracker負(fù)責(zé)MapReduce任務(wù)調(diào)度，TaskTracker負(fù)責(zé)任務(wù)執(zhí)行。

58.數(shù)據(jù)管理成熟度模型中成熟度等級(jí)最高是哪一級(jí)()。

A、已優(yōu)化級(jí)

B、已測(cè)量級(jí)

C、已定義級(jí)

D、已管理級(jí)

答案：A

解析：已優(yōu)化是數(shù)據(jù)管理成熟度模型中成熟度的最高等級(jí)。

59.下列哪種機(jī)器學(xué)習(xí)算法不需要?dú)w一化處理()

A、DecisionTreeB.SVMC.KmeansD.LogisticRegressio

B、C、Kmeans

DxLogisticRegressio

答案：A

解析：DecisionTree屬于概率模型，不需要?dú)w一化處理；SVM、Kmeans和Logis

ticRegression之類的最優(yōu)化問題需要?dú)w一化處理。

60.卷積神經(jīng)網(wǎng)絡(luò)中每層卷積層(Convolutionallayer)由若干卷積單元組成，

每個(gè)卷積單元的參數(shù)都是通過反向傳播算法最佳化得到，其作用是(_)。

A、增強(qiáng)圖像

B、簡(jiǎn)化圖像

C、特征提取

D、圖像處理

答案：C

解析：卷積層(Convolutionallayer),卷積神經(jīng)網(wǎng)絡(luò)中每層卷積層由若干卷積

單元組成，每個(gè)卷積單元的參數(shù)都是通過反向傳播算法最佳化得到的。卷積運(yùn)算

的目的是提取輸入的不同特征，第一層卷積層可能只能提取一些低級(jí)的特征如邊

緣'線條和角等層級(jí)，更多層的網(wǎng)路能從低級(jí)特征中迭代提取更復(fù)雜的特征。

61.數(shù)據(jù)可視化的本質(zhì)是()o

A、將數(shù)據(jù)轉(zhuǎn)換為知識(shí)

B、將知識(shí)轉(zhuǎn)換為數(shù)據(jù)

C、將數(shù)據(jù)轉(zhuǎn)換為信息

D、將信息轉(zhuǎn)換為智慧

答案：A

解析：可視化分析學(xué)模型認(rèn)為，數(shù)據(jù)可視化的本質(zhì)是將數(shù)據(jù)轉(zhuǎn)換為知識(shí)，而不能

僅僅停留在數(shù)據(jù)的可視化呈現(xiàn)層次之上，并提出從數(shù)據(jù)到知識(shí)的轉(zhuǎn)換途徑有兩個(gè):

一是可視化分析，另一個(gè)是自動(dòng)化建模。

62.機(jī)器學(xué)習(xí)中發(fā)生過擬合的主要原因不包括()o

A、使用過于復(fù)雜的模型

B、數(shù)據(jù)噪聲較大

C、訓(xùn)練數(shù)據(jù)少

D、訓(xùn)練數(shù)據(jù)充

答案：D

解析：訓(xùn)練數(shù)據(jù)充足可以降低過擬合。

63.()算法是一種挖掘關(guān)聯(lián)規(guī)則的頻繁項(xiàng)集算法，其核心思想是通過候選集生

成和檢測(cè)兩個(gè)階段來(lái)挖掘頻繁項(xiàng)集。

A、riori

B、EM

C、P

D、PA

答案：A

解析：Apriori算法是一種挖掘關(guān)聯(lián)規(guī)則的頻繁項(xiàng)集算法，其核心思想是通過候

選集生成和檢測(cè)兩個(gè)階段來(lái)挖掘頻繁項(xiàng)集。PCA是無(wú)監(jiān)督的降維算法。概率近似

正確(簡(jiǎn)稱PAC)學(xué)習(xí)理論計(jì)算學(xué)習(xí)理論中最基本的理論。最大期望算法(Expec

tation-EM),是一類通過迭代進(jìn)行極大似然估計(jì)的優(yōu)化算法。

64.以下選項(xiàng)中哪個(gè)不屬于數(shù)據(jù)預(yù)處理的方法()。

A、數(shù)據(jù)清洗

B、數(shù)據(jù)集成

C、數(shù)據(jù)變換

D、數(shù)據(jù)統(tǒng)計(jì)

答案：D

解析：數(shù)據(jù)統(tǒng)計(jì)并非為數(shù)據(jù)預(yù)處理的常見內(nèi)容。

65.決策樹中，同一路徑上的所有屬性之間是()關(guān)系。

Ax因果

B、相關(guān)

C、邏輯或

D、邏輯

答案：D

解析：決策樹中，同一路徑上的所有屬性之間是邏輯與的關(guān)系

66.下列哪一項(xiàng)能反映出X和Y之間的強(qiáng)相關(guān)性。

A、相關(guān)系數(shù)為0.9

B、對(duì)于無(wú)效假設(shè)B=0的p值為0.0001

C、對(duì)于無(wú)效假設(shè)B=0的t值為30

D、以上說(shuō)法都不

答案：A

解析：相關(guān)系數(shù)反映了不同變量之間線性相關(guān)程度，取值范圍在［7,1］之間，值

越大表示相關(guān)程度越高；因此，A選項(xiàng)中中r=0.9,表示X和Y之間有較強(qiáng)的相

關(guān)性。P和t的數(shù)值大小沒有統(tǒng)計(jì)意義，只是將其與某一個(gè)閾值進(jìn)行比對(duì),以得

到二選一的結(jié)論。

67.在支持向量機(jī)中，()允許支持向量機(jī)在一些樣本上出錯(cuò)。

A、硬間隔

B、軟間隔

C、核函數(shù)

D、拉格朗日乘子

答案：B

解析：在支持向量機(jī)中，軟間隔允許支持向量機(jī)在一些樣本上出錯(cuò)。

68.假如使用邏輯回歸對(duì)樣本進(jìn)行分類，得到訓(xùn)練樣本的準(zhǔn)確率和測(cè)試樣本的準(zhǔn)

確率。現(xiàn)在，在數(shù)據(jù)中增加一個(gè)新的特征，其它特征保持不變。然后重新訓(xùn)練測(cè)

試。則下列說(shuō)法正確的是()o

A、訓(xùn)練樣本準(zhǔn)確率一定會(huì)降低

B、訓(xùn)練樣本準(zhǔn)確率一定增加或保持不變

C、測(cè)試樣本準(zhǔn)確率一定會(huì)降低

D、測(cè)試樣本準(zhǔn)確率一定增加或保持不

答案：B

解析：在模型中增加更多特征一般會(huì)增加訓(xùn)練樣本的準(zhǔn)確率，減小偏差。但測(cè)試

樣本準(zhǔn)確率不一定增加，除非增加的特征是有效特征。

69.彩色圖像增強(qiáng)時(shí)，()處理可以采用RGBo

A、直方圖均衡化

B、同態(tài)濾波

C、加權(quán)均值濾波

D、中值濾

答案：C

解析：RGB是彩色圖像的三通道像素值，均值濾波進(jìn)行的是線性操作，不影響原

本圖像的相對(duì)亮度。

70.聚類算法的性能度量可稱為()o

A、密度估計(jì)

B、異常檢測(cè)

C、有效性指標(biāo)

D、分布結(jié)

答案：C

解析：聚類算法的性能度量可稱為有效性指標(biāo)。

71.關(guān)于循環(huán)神經(jīng)網(wǎng)絡(luò)設(shè)計(jì)的敘述中，錯(cuò)誤的是()o

A、能處理可變長(zhǎng)度的序列

B、基于圖展開思想

C、基于參數(shù)共享思想

D、循環(huán)神經(jīng)網(wǎng)絡(luò)不可應(yīng)用于圖像數(shù)

答案：D

解析：深度學(xué)習(xí)基礎(chǔ)知識(shí)。

72.機(jī)器學(xué)習(xí)算法在學(xué)習(xí)過程中對(duì)某種類型假設(shè)的偏好，稱為()o

A、訓(xùn)練偏好

B、歸納偏好

C、分析偏好

D、假設(shè)偏

答案：B

解析：機(jī)器學(xué)習(xí)算法在學(xué)習(xí)過程中對(duì)某種類型假設(shè)的偏好，稱為歸納偏好。

73.我們建立一個(gè)5000個(gè)特征,100萬(wàn)數(shù)據(jù)的機(jī)器學(xué)習(xí)模型.我們?cè)趺从行У貞?yīng)對(duì)

這樣的大數(shù)據(jù)訓(xùn)練()o

A、我們隨機(jī)抽取一些樣本,在這些少量樣本之上訓(xùn)練

B、我們可以試用在線機(jī)器學(xué)習(xí)算法

C、我們應(yīng)用P算法降維,減少特征數(shù)

D、以上答案都正

答案：D

解析：樣本數(shù)過多,或者特征數(shù)過多,而不能單機(jī)完成訓(xùn)練,可以用小批量樣本訓(xùn)

練,或者在線累計(jì)式訓(xùn)練,或者主成分PCA降維方式減少特征數(shù)量再進(jìn)行訓(xùn)練。

74.下列不屬于action操作的是O

A、coIIect

B、fiIter

C、reduce

D、count

答案：B

解析：Action常用的函數(shù)為reduce、collect、count、take、first、foreach

等

75.SLIC算法的主要目的是()o

A、目標(biāo)識(shí)別

B、前景和背景分離

C、超像素提取

D、語(yǔ)義分

答案：C

解析：SLIC是基于K-means算法的生成超像素新方法，SLIC是超像素中心周圍

的區(qū)域2sx2s中進(jìn)行類似像素的搜索

76.當(dāng)訓(xùn)練集特征非常多，而實(shí)例非常少的時(shí)候，可以采用()o

A、sigmoid核的支持向量機(jī)

B、不帶核的支持向量機(jī)

C、高斯核的支持向量機(jī)

D、多項(xiàng)式核的支持向量機(jī)

答案：B

解析：當(dāng)不采用非常復(fù)雜的函數(shù)，或者當(dāng)我們的訓(xùn)練集特征非常多但是實(shí)例非常

少的時(shí)候，可以采用不帶核函數(shù)的支持向量機(jī)。

77.圖像中虛假輪廓的出現(xiàn)就其本質(zhì)而言是()o

A、圖像的灰度級(jí)數(shù)不夠多而造成的

B、圖像的空間分辨率不夠高而造成的

C、圖像的灰度級(jí)數(shù)過多而造成的

D、圖像的空間分辨率過高而造成

答案:A

解析：圖像中的虛假輪廓最易在平滑區(qū)域內(nèi)產(chǎn)生。平滑區(qū)域內(nèi)灰度應(yīng)緩慢變化,

但當(dāng)圖像的灰度級(jí)數(shù)不夠多時(shí)會(huì)產(chǎn)生階躍。所以圖像中虛假輪廓的出現(xiàn)就其本質(zhì)

而言是圖像的灰度級(jí)數(shù)不夠多而造成的，選A。

78.下列關(guān)于L1正則化與L2正則化描述錯(cuò)誤的是()o

A、L1范數(shù)正則化有助于降低過擬合風(fēng)險(xiǎn)

B、L2范數(shù)正則化有助于降低過擬合風(fēng)險(xiǎn)

C、L1范數(shù)正則化比L2范數(shù)正則化更有易于獲得稀疏解

D、L2范數(shù)正則化比L1范數(shù)正則化更有易于獲得稀疏

答案：D

解析：周志華機(jī)器學(xué)習(xí)

79.以下哪些算法，可以用神經(jīng)網(wǎng)絡(luò)去構(gòu)造(_)。1)KNN2)線性回歸3)對(duì)數(shù)幾

率回歸

A、1和2

B、2和3

C、1,2和3

D、以上答案都不正

答案：B

解析：1、KNN算法不需要訓(xùn)練參數(shù)，而所有神經(jīng)網(wǎng)絡(luò)都需要訓(xùn)練參數(shù)，因此神經(jīng)

網(wǎng)絡(luò)幫不上忙。2、最簡(jiǎn)單的神經(jīng)網(wǎng)絡(luò)，感知器,其實(shí)就是線性回歸的訓(xùn)練。3、我

們可以用一層的神經(jīng)網(wǎng)絡(luò)構(gòu)造對(duì)數(shù)幾率回歸。

80.下列屬于卷積網(wǎng)絡(luò)類型分類的是(_)o

A、普通卷積

B、擴(kuò)張卷積

C、轉(zhuǎn)置卷積

D、以上答案都正

答案：D

解析：卷積神經(jīng)網(wǎng)絡(luò)四種卷積類型：普通卷積，擴(kuò)張卷積，轉(zhuǎn)置卷積，可分離卷

積。

81.詞袋模型中的文本向量每個(gè)元素表示該詞的()。

A、頻率

B、順序

C、含義

D、語(yǔ)義關(guān)

答案：A

解析：詞袋模型是最基礎(chǔ)的文本表示模型，就是把每一篇文章看成一袋子單詞,

并忽略每個(gè)詞出現(xiàn)的順序。每篇文章可以表示成一個(gè)長(zhǎng)向量，向量中的每一維代

表一個(gè)單詞，而該維對(duì)應(yīng)的權(quán)重代表這個(gè)詞在文章中的重要程度，重要程度是由

頻率來(lái)衡量的。

82.以下不屬于基于區(qū)域的圖像分割方法的是()o

A、區(qū)域生長(zhǎng)法

B、分水嶺算法

C、大津算法

D、基于圖論的分割算

答案：C

解析：大津算法是基于圖像灰度分布的圖像分割方法。

83.大數(shù)據(jù)應(yīng)用需依托的新技術(shù)有（）。

A、大規(guī)模存儲(chǔ)與計(jì)算

B、數(shù)據(jù)分析處理

C、智能化

D、三個(gè)選項(xiàng)都是

答案:D

解析：適用于大數(shù)據(jù)的技術(shù)，包括大規(guī)模并行處理（MPP）數(shù)據(jù)庫(kù)、數(shù)據(jù)挖掘、

分布式文件系統(tǒng)、分布式數(shù)據(jù)庫(kù)、云計(jì)算平臺(tái)、互聯(lián)網(wǎng)和可擴(kuò)展的存儲(chǔ)系統(tǒng)、智

能化相關(guān)技術(shù)等。

84.CNN神經(jīng)網(wǎng)絡(luò)對(duì)圖像特征提取帶來(lái)了變革性的變化，使之前的人工特征提取

升級(jí)到數(shù)據(jù)驅(qū)動(dòng)的自動(dòng)特征提取，在CNN中，起到特征提取作用的網(wǎng)絡(luò)層是：（_

A、convoIution層

B、fulIconnect層

C、maxpooIing層

D、norm

答案：A

解析：卷積層負(fù)責(zé)提取特征，采樣層負(fù)責(zé)特征選擇，全連接層負(fù)責(zé)分類。

85.下列關(guān)于RNN說(shuō)法正確的是（_）o

A、RNN可以應(yīng)用在NLP領(lǐng)域

B、LSTM是RNN的一個(gè)變種

C、在RNN中一個(gè)序列當(dāng)前的輸出與前面的輸出也有關(guān)

D、以上答案都正

答案：D

解析：RNN是一種人造神經(jīng)網(wǎng)絡(luò)，它通過賦予網(wǎng)絡(luò)圖附加權(quán)重來(lái)創(chuàng)建循環(huán)機(jī)制，

以維持內(nèi)部的狀態(tài)。在擁有狀態(tài)以后，便能在序列預(yù)測(cè)中明確地學(xué)習(xí)并利用上下

文信息，如順序或時(shí)間成分，因此RNN適用于自然語(yǔ)言處理。RNN中一個(gè)序列當(dāng)

前的輸出與前面的輸出有關(guān)。LSTM在RNN基礎(chǔ)上進(jìn)行了改進(jìn)，能夠?qū)W習(xí)到長(zhǎng)期

依賴關(guān)系，因此是RNN的一個(gè)變種。

86.選擇哪一個(gè)解作為輸出，將由學(xué)習(xí)算法的歸納偏好決定，常見的做法是引入

()0

A、線性回歸

B、線性判別分析

G正則化項(xiàng)

D、偏置

答案:C

解析：選擇哪一個(gè)解作為輸出，將由學(xué)習(xí)算法的歸納偏好決定，常見的做法是引

入正則化(regular!zation)項(xiàng)。

87.圖像灰度方差說(shuō)明了圖像的哪一個(gè)屬性O(shè)。

A、平均灰度

B、圖像對(duì)比度

C、圖像整體亮度

D、圖像細(xì)

答案：B

解析：方差反應(yīng)圖像的高頻部分的大小；如果圖片對(duì)比度小，那方差就小；如果

圖片對(duì)比度很大，那方差就大；方差;每個(gè)像素點(diǎn)的灰度值減去圖像平均灰度值

的平方和除以總的像素個(gè)數(shù)

88.Hadoop中partition()函數(shù)描述正確的是()。

A、分區(qū)函數(shù)

B、特征函數(shù)

C、算法函數(shù)

D、排序函數(shù)

答案：A

解析：partition代表分區(qū)函數(shù)，其他選項(xiàng)都不符合題意。

89.在Hadoop中，下面哪個(gè)是默認(rèn)的InputFormat類型，它將每行內(nèi)容作為新值，

而將字節(jié)偏移量作為key()o

A、FiIeInputFormat

B、TextInputFormat

C、KeyVaIueTextInputFormat

D、bineTextInputForma

答案：B

解析：TextInputFormat是默認(rèn)的InputFormat。每條記錄是一行輸入。鍵Key

是LongWritable類型，存儲(chǔ)該行在整個(gè)文件中的字節(jié)偏移量。

90.Hadoop中，Reducer的三個(gè)階段是_。

AvShuffIe-Sort-Reduce

B、Shuffle-Reduce-Sort

CxReduce-ShuffIe-Sort

D、Sort-ShuffIe-Reduce

答案：A

解析：Reducer主要分為三個(gè)步驟ShuffIe洗牌、Sort排序和Reduce

91.機(jī)器學(xué)習(xí)訓(xùn)練時(shí),Mini-Batch的大小優(yōu)選為2的鬲，如256或512。它背后

的原因是什么（）。

A、Mini-Batch為偶數(shù)的時(shí)候，梯度下降算法訓(xùn)練的更快

B、Mini-tch設(shè)為2的鬲，是為了符合CPU、GPU的內(nèi)存要求，利于并行化處理

C、不使用偶數(shù)時(shí)，損失函數(shù)是不穩(wěn)定的

D、以上答案都不正

答案：B

解析：Mini-Batch設(shè)為2的鬲，是為了符合CPU、GPU的內(nèi)存要求，利于并行化

處理

92.在深度學(xué)習(xí)中，下列對(duì)于sigmoid函數(shù)的說(shuō)法，錯(cuò)誤的是（）。

A、存在梯度爆炸的問題

B、不是關(guān)于原點(diǎn)對(duì)稱

G計(jì)算exp比較耗時(shí)

D、存在梯度消失的問

答案：A

解析：sigmoid函數(shù)存在的是梯度消失問題。

93.MapReduce編程模型，鍵值對(duì)的key必須實(shí)現(xiàn)哪個(gè)接口（）

AxWritabIeparable；

Bxparable；

GWritable；

D、LongWritable；

答案:A

解析：hadoop為Key的數(shù)據(jù)類型必須實(shí)現(xiàn)WritabIeparable,而Value的數(shù)據(jù)類

型只需要實(shí)現(xiàn)Writable即可

94.以下不是開源工具特點(diǎn)的是（）。

A、免費(fèi)

B、可以直接獲取源代碼

C、用戶可以修改源代碼并不加說(shuō)明用于自己的軟件中

D、開源工具一樣具有版權(quán)

答案：C

解析：在延伸的代碼中（修改和有源代碼衍生的代碼中）需要帶有原來(lái)代碼中的

協(xié)議，商標(biāo)，專利聲明和其他原來(lái)作者規(guī)定需要包含的說(shuō)明。如果再發(fā)布的產(chǎn)品

中包含一^Notice文件，則在Notice文件中需要帶有開源工具的Licence。你

可以在Notice中增加自己的許可，但不可以表現(xiàn)為對(duì)開源工具Licence構(gòu)成更

改。

95.下面哪個(gè)程序負(fù)責(zé)HDFS數(shù)據(jù)存儲(chǔ)（）o

A、NameNode

B、Jobtracker

C、Datanode

D、secondaryNameNod

答案：C

解析：Datanode負(fù)責(zé)HDFS的數(shù)據(jù)塊存儲(chǔ)。

96.下列圖像邊緣檢測(cè)算子中抗噪性能最好的是()。

A、梯度算子

B、Prewitt算子

C、Roberts算子

D、LapIacian算

答案：B

解析：Prewitt算子是一種一階微分算子的邊緣檢測(cè)，利用像素點(diǎn)上下'左右鄰

點(diǎn)的灰度差，在邊緣處達(dá)到極值檢測(cè)邊緣，去掉部分偽邊緣，對(duì)噪聲具有平滑作

用。

97.以下關(guān)于新舊MapReduceAPI的描述錯(cuò)誤的是()

A、新I放在org.apache,hadoop.mapreduce包中,而舊I則是放在org.apache,

hadoop.mapred中

B、新API傾向于使用接口方式，而舊API傾向于使用抽象類

G新API使用nfiguration,而舊API使用Jobnf來(lái)傳遞配置信息

D、新API可以使用Job對(duì)象來(lái)提交作業(yè)

答案：B

解析：在新API中，原來(lái)的大量接口都被改成了抽象類。所以使用新API編寫M

R程序時(shí)，都是由實(shí)現(xiàn)接口變成集成抽象類，因此B錯(cuò)。

98.給定詞匯表如下：{Bob,ok,Iike,footbaII,car}0則下面句子BotIikesfoot

ball的詞袋模型表示為：

A、[11100]

B、[10110]

C、[10010]

D、[01101

答案:B

解析：統(tǒng)計(jì)自然語(yǔ)言處理語(yǔ)言模型P162,命名實(shí)體翻譯P585統(tǒng)計(jì)文檔中每個(gè)詞

的數(shù)量，根據(jù)詞表的位置，將各個(gè)詞的數(shù)量拼接成一個(gè)向量即可。

99.給定一個(gè)長(zhǎng)度為n的不完整單詞序列，我們希望預(yù)測(cè)下一個(gè)字母是什么。比

如輸入是predict2(9個(gè)字母組成)，希望預(yù)測(cè)第十個(gè)字母是什么。下面哪種神

經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)適用于解決這個(gè)工作()

A、循環(huán)神經(jīng)網(wǎng)絡(luò)

B、全連接神經(jīng)網(wǎng)絡(luò)

C、受限波爾茲曼機(jī)

D、卷積神經(jīng)網(wǎng)

答案：A

解析：循環(huán)神經(jīng)網(wǎng)絡(luò)具有記憶性、參數(shù)共享并且圖靈完備，因此在對(duì)序列的非線

性特征進(jìn)行學(xué)習(xí)時(shí)具有一定優(yōu)勢(shì)。循環(huán)神經(jīng)網(wǎng)絡(luò)在自然語(yǔ)言處理(NaturalLang

uageProcessing.NLP),例如語(yǔ)音識(shí)別、語(yǔ)言建模、機(jī)器翻譯等領(lǐng)域有應(yīng)用，也

被用于各類時(shí)間序列預(yù)報(bào)。

100.Hadoop生態(tài)系統(tǒng)中,HBase是一種()。

A、分布式文件系統(tǒng)

B、數(shù)據(jù)倉(cāng)庫(kù)

C、實(shí)時(shí)分布式數(shù)據(jù)庫(kù)

D、分布式計(jì)算系統(tǒng)

答案：C

解析：HBase是一個(gè)面向列的實(shí)時(shí)分布式數(shù)據(jù)庫(kù)。

101.Hadoop生態(tài)系統(tǒng)中，（）主要解決的是日志類數(shù)據(jù)的收集和處理問題。

A、Mahout

B、Flume

C、Sqoop

D、HBase

答案：B

解析：Flume主要用于日志采集，其中的agent里面包含3個(gè)核心的組件sourc

e（采集/輸入）-channel（緩存/管道）->sink（輸出），類似生產(chǎn)者、倉(cāng)庫(kù)'

消費(fèi)者的架構(gòu)。

102.兩個(gè)變量相關(guān)，它們的相關(guān)系數(shù)r可能為0。這句話是否正確（）

A、正確

B、錯(cuò)

答案：A

解析：Pearson相關(guān)系數(shù)r=0,這表示兩個(gè)變量間不存在線性相關(guān)關(guān)系。

103.當(dāng)在卷積神經(jīng)網(wǎng)絡(luò)中加入池化層（poolinglayer）時(shí)，變換的不變性會(huì)被保留,

是嗎（）

A、不知道

B、看情況

C、是

答案：C

解析：使用池化時(shí)會(huì)導(dǎo)致出現(xiàn)不變性。

104.一篇文章中某些名詞的TF-IDF值比較大，則說(shuō)明()。

A、這些名詞對(duì)這篇文章的區(qū)分度比較高

B、這些名詞對(duì)這篇文章的區(qū)分度比較低

C、不能說(shuō)明什么

D、以上答案都不正

答案：A

解析：TF-IDF是一種統(tǒng)計(jì)方法，用以評(píng)估一字詞對(duì)于一個(gè)文件集或一個(gè)語(yǔ)料庫(kù)

中的其中一份文件的重要程度。名詞的TFTDF值越大說(shuō)明這些名詞對(duì)這篇文章

的區(qū)分度越高。

105.圖像降噪一般可分為以下哪幾類()o

A、加性噪聲

B、乘性噪聲

C、量化噪聲

D、以上答案都正

答案：D

解析：噪聲是圖像干擾的重要原因。一幅圖像在實(shí)際應(yīng)用中可能存在各種各樣的

噪聲,這些噪聲可能在傳輸中產(chǎn)生,也可能在量化等處理中產(chǎn)生。根據(jù)噪聲和信號(hào)

的關(guān)系可將其分為三種形式：(f(x,y)表示給定原始圖像,g(x,y)表示圖像信號(hào),n

(x,y)表示噪聲。)1、加性噪聲，此類噪聲與輸入圖像信號(hào)無(wú)關(guān)，含噪圖像可表示

為f(x,y)=g(x,y)+n(x,y),信道噪聲及光導(dǎo)攝像管的攝像機(jī)掃描圖像時(shí)產(chǎn)生的

噪聲就屬這類噪聲;2、乘性噪聲,此類噪聲與圖像信號(hào)有關(guān),含噪圖像可表示為f

(x,y)-g(x,y)+n(x,y)g(x,y),飛點(diǎn)掃描器掃描圖像時(shí)的噪聲，電視圖像中的相干

噪聲，膠片中的顆粒噪聲就屬于此類噪聲。3、量化噪聲，此類噪聲與輸入圖像信

號(hào)無(wú)關(guān),是量化過程存在量化誤差,再反映到接收端而產(chǎn)生。

106.絕對(duì)多數(shù)投票法的基本思想是()。

A、對(duì)于若干和弱學(xué)習(xí)器的輸出進(jìn)行平均得到最終的預(yù)測(cè)輸出

B、少數(shù)服從多數(shù)，數(shù)量最多的類別為最終的分類類別

C、不光要求獲得最高票，還要求票過半數(shù)

D、將訓(xùn)練集弱學(xué)習(xí)器的學(xué)習(xí)結(jié)果作為輸入，將訓(xùn)練集的輸出作為輸出，重新訓(xùn)

練一個(gè)學(xué)習(xí)器來(lái)得到最終結(jié)果

答案：C

解析：絕對(duì)多數(shù)投票法若某標(biāo)記得票過半數(shù)，則預(yù)測(cè)為該標(biāo)記;否則拒絕預(yù)測(cè)。

107.圖像平滑會(huì)造成()o

A、圖像邊緣模糊化

B、圖像邊緣清晰化

C、無(wú)影響

D、以上答案都不正

答案:A

解析：為了抑制噪聲，使圖像亮度趨于平緩的處理方法就是圖像平滑。圖像平滑

實(shí)際上是低通濾波，平滑過程會(huì)導(dǎo)致圖像邊緣模糊化。

108.以下關(guān)于Hadoop中MapReduce說(shuō)法正確的是（）。

A、可以沒有reduce任務(wù)

B、Reducer輸入為隨機(jī)輸入

C、shuffle主要實(shí)現(xiàn)數(shù)據(jù)可視化功能

D、一個(gè)reducer只能從一個(gè)map復(fù)制所需要的partitio

答案：A

解析：MapReduce中的reduce并不是必須存在的。

109.高通濾波后的圖像通常較暗，為改善這種情況，將高通濾波器的轉(zhuǎn)移函數(shù)加

上一常數(shù)量以便于引入一些低頻分量。這樣濾波器叫（）o

A、巴特沃斯高通濾波器

B、高頻提升濾波器

C、局頻加強(qiáng)濾波器

D、理想高通濾波

答案：B

解析：高頻增強(qiáng)濾波器由于相對(duì)削弱了低頻成分,因而濾波所得的圖像往往偏暗。

110.對(duì)MapReduce計(jì)算框架中生成的鍵值對(duì)的說(shuō)法正確的是（_）。

A、可以有相同的鍵，值必須唯一；

B、可以有相同的值，鍵必須唯一；

C、可以有相同的鍵，也可以有相同的值；

D、鍵和值都必須唯一;

答案：C

解析：鍵值對(duì)中的“鍵”和“值”并沒有必然的聯(lián)系，兩者可以相同。

111.當(dāng)學(xué)習(xí)器將訓(xùn)練樣本自身的特點(diǎn)作為所有潛在樣本都具有的一般性質(zhì)，這樣

會(huì)導(dǎo)致泛化性能下降，這種現(xiàn)象稱之為（）o

A、欠擬合

B、過擬合

C、擬合

D、以上答案都不正

答案：B

解析：當(dāng)學(xué)習(xí)器把訓(xùn)練樣本學(xué)得太好了的時(shí)候，很可能巳經(jīng)把訓(xùn)練樣本自身的一

些特點(diǎn)當(dāng)作了所有潛在樣本都會(huì)具有的一般性質(zhì)，這樣就會(huì)導(dǎo)致泛化性能下降這

種現(xiàn)象在機(jī)器學(xué)習(xí)中稱為過擬合。

112.數(shù)據(jù)的可用性取決于（）。

A、數(shù)據(jù)分析

B、數(shù)據(jù)集采

C、數(shù)據(jù)質(zhì)量

D、數(shù)據(jù)需求

答案：C

解析：略

113.Spark可以處理的數(shù)據(jù)任務(wù)包括（）

A、數(shù)據(jù)批處理任務(wù)；

B、交互式處理任務(wù);

C、圖數(shù)據(jù)處理任務(wù);

D、A,B和C；

答案：D

解析：Spark可以很好地支持流計(jì)算、交互式處理、圖計(jì)算等多種計(jì)算模式。

114.屬于卷積神經(jīng)網(wǎng)絡(luò)應(yīng)用方向的是(_)。

A、圖像分類

B\目標(biāo)檢;則

C、圖像語(yǔ)義分割

D、以上答案都正

答案：D

解析：卷積神經(jīng)網(wǎng)絡(luò)應(yīng)用于圖像分類，目標(biāo)檢測(cè)及圖像語(yǔ)義分割。

115.Adaboost的核心思想是()。

A、給定一個(gè)弱學(xué)習(xí)算法和一個(gè)訓(xùn)練集，將該學(xué)習(xí)算法使用多次，得出預(yù)測(cè)函數(shù)序

列,進(jìn)行投票

B、針對(duì)同一個(gè)訓(xùn)練集訓(xùn)練不同的弱分類器集合起來(lái)，構(gòu)成一個(gè)強(qiáng)分類器

C、利用多棵樹對(duì)樣本進(jìn)行訓(xùn)練并預(yù)測(cè)的一種分類器

D、基于前向策略的加法模型,每階段使用一個(gè)基模型去擬合上一階段基模型的殘

差

答案：B

解析：Adaboost的核心思想是給定一個(gè)弱學(xué)習(xí)算法和一個(gè)訓(xùn)練集，將該學(xué)習(xí)算

法使用多次,得出預(yù)測(cè)函數(shù)序列,進(jìn)行投票。

116.下列哪項(xiàng)方法不屬于圖像分割方法()o

A、邊緣檢測(cè)法

B、閾值分割法

C、區(qū)域分割法

D、特征提取

答案：D

解析：特征提取法屬于圖像配準(zhǔn)方法的范疇。

117.線性判別分析在二分類問題上，也稱為()。

A、線性回歸

B、對(duì)數(shù)幾率回歸

C、Fisher判別分析

D、主成分分

答案：C

解析：線性判別分析在二分類問題上，也稱為Fisher判別分析。

118.相關(guān)關(guān)系是一種與函數(shù)關(guān)系區(qū)別的非確定性關(guān)系，而相關(guān)分析就是研究事物

或現(xiàn)象之間是否存在這種非確定性關(guān)系的統(tǒng)計(jì)方法，以下不屬于相關(guān)性分析方法

的是()o

A、Pearson相關(guān)系數(shù)

B、Spearman秩相關(guān)系數(shù)

C\KendaII相關(guān)系數(shù)

D、傅里葉系數(shù)

答案：D

解析：傅里葉系數(shù)由Fouriercoefficient翻譯而來(lái)，有多個(gè)中文譯名。它是數(shù)

學(xué)分析中的一個(gè)概念，常常被應(yīng)用在信號(hào)處理領(lǐng)域中。對(duì)于任意的周期信號(hào)，如

果滿足一定條件，都可以展開三角函數(shù)的線性組合，每個(gè)展開項(xiàng)的系數(shù)稱為傅里

葉系數(shù)，不能用于解釋相關(guān)性。

119.jieba分詞包含的分詞模式有（）o

A、精確模式

B、全模式

C、搜索引擎模式

D、以上答案都正

答案：D

解析：jieba中文分詞支持的三種分詞模式包括⑴精確模式：試圖將句子最精

確地切開，適合文本分析；（2）全模式：把句子中所有的可以成詞的詞語(yǔ)都掃描

出來(lái)，速度非常快，但是不能解決歧義問題；（3）搜索引擎模式：在精確模式的

基礎(chǔ)上，對(duì)長(zhǎng)詞再次切分，提高召回率，適合用于搜索引擎分詞。

120.一幅512*512的圖像，若灰度級(jí)數(shù)為16,則該圖像大小為（）。

A、32KB

B、128KB

C、1MB

D、2M

答案：B

解析：512*512表示像素個(gè)數(shù)，16級(jí)灰度用二進(jìn)制表示需要4位，故存儲(chǔ)圖像所

需的二進(jìn)制位數(shù)為：512*512*4,即1024Kbit,所需字節(jié)數(shù)除以8為128KB,注

意單位的不同。

121.如果我使用數(shù)據(jù)集的全部特征并且能夠達(dá)到100%的準(zhǔn)確率，但在測(cè)試集上

僅能達(dá)到70%左右，這說(shuō)明：（）。

A、欠擬合

B、模型很棒

C、過擬合D.以上答案都不正

答案：C

解析：當(dāng)學(xué)習(xí)器把訓(xùn)練樣本學(xué)得太好了的時(shí)候，很可能巳經(jīng)把訓(xùn)練樣本自身的一

些特點(diǎn)當(dāng)作了所有潛在樣本都會(huì)具有的一般性質(zhì)，這樣就會(huì)導(dǎo)致泛化性能下降這

種現(xiàn)象在機(jī)器學(xué)習(xí)中稱為過擬合。

122.MapReduce使用（）來(lái)記錄不同事件的發(fā)生次數(shù)。

A、日志

B、事件觸發(fā)器

C、狀態(tài)列表

D、計(jì)數(shù)器

答案：D

解析：MapReduce使用計(jì)數(shù)器來(lái)記錄不同事件的發(fā)生次數(shù)。

123.常用的數(shù)據(jù)歸約方法可以分為（）。

A、維歸約數(shù)據(jù)壓縮

B、維歸約參數(shù)歸約

C、維歸約值歸約

D、數(shù)據(jù)壓縮值歸約

答案：C

解析：常用的數(shù)據(jù)歸約方法有兩種：維歸約和值歸約。

124.下列屬于無(wú)監(jiān)督學(xué)習(xí)的是（）。

AxK-means

B、SVM

c、最大熔

D、CRF

答案：A

解析：K-means是一個(gè)將數(shù)據(jù)集中在某些方面相似的數(shù)據(jù)成員進(jìn)行分類組織的過

程，這是一個(gè)典型聚類算法，聚類就是一種發(fā)現(xiàn)這種內(nèi)在結(jié)構(gòu)的技術(shù)，該類算法

被稱為無(wú)監(jiān)督學(xué)習(xí)。

125.大數(shù)據(jù)中的小數(shù)據(jù)可能缺失、冗余、存在垃圾數(shù)據(jù)不影響大數(shù)據(jù)的可信數(shù)據(jù),

體現(xiàn)大數(shù)據(jù)“涌現(xiàn)”的（）表現(xiàn)形式。

A、價(jià)值涌現(xiàn)

B、隱私涌現(xiàn)

C、質(zhì)量涌現(xiàn)

D、安全涌現(xiàn)

答案：C

解析：大數(shù)據(jù)的“質(zhì)量涌現(xiàn)”是指大數(shù)據(jù)中的成員小數(shù)據(jù)可能有質(zhì)量問題（不可

信的數(shù)據(jù)），如缺失、冗余、垃圾數(shù)據(jù)的存在，但不影響大數(shù)據(jù)的質(zhì)量（可信的

數(shù)據(jù)）。

126.對(duì)于隨機(jī)森林和GBDT,下面說(shuō)法正確的是（）o

A、在隨機(jī)森林的單個(gè)樹中，樹和樹之間是有依賴的,而GBDT中的單個(gè)樹之間是沒

有依賴的

B、這兩個(gè)模型都使用隨機(jī)特征子集,來(lái)生成許多單個(gè)的樹

C、我們可以并行地生成GBDT單個(gè)樹,因?yàn)樗鼈冎g是沒有依賴的

D、GB訓(xùn)練模型的表現(xiàn)總是比隨機(jī)森林

答案：B

解析：組成隨機(jī)森林的樹可以并行生成；而GBDT只能是串行生成

127.協(xié)同過濾分析用戶興趣,在用戶群中找到指定用戶的相似（興趣）用戶,綜合

這些用戶對(duì)某一信息的評(píng)價(jià)，形成系統(tǒng)對(duì)該指定用戶對(duì)此信息的喜好程度（），

并將這些用戶喜歡的項(xiàng)推薦給有相似興趣的用戶。

A、相似

B、相同

C、推薦

D、預(yù)

答案：D

解析：協(xié)同過濾簡(jiǎn)單來(lái)說(shuō)是利用某興趣相投、擁有共同經(jīng)驗(yàn)之群體的喜好來(lái)推薦

用戶感興趣的信息，個(gè)人通過合作的機(jī)制給予信息相當(dāng)程度的回應(yīng)（如評(píng)分）并

記錄下來(lái)以達(dá)到過濾的目的進(jìn)而幫助別人篩選信息。

128.DataFrame和RDD最大的區(qū)別是()。

A、科學(xué)統(tǒng)計(jì)支持

B、多了schema

C、存儲(chǔ)方式不一樣

D、外部數(shù)據(jù)源支

答案：B

解析：相比于RDD,DataFrame多了數(shù)據(jù)的結(jié)構(gòu)信息，即schema

129.()是實(shí)現(xiàn)數(shù)據(jù)戰(zhàn)略的重要保障。

A、數(shù)據(jù)管理

B、數(shù)據(jù)分析

C、數(shù)據(jù)治理

D、數(shù)據(jù)規(guī)劃

答案：C

解析：從DMM模型可以看出，數(shù)據(jù)治理是實(shí)現(xiàn)數(shù)據(jù)戰(zhàn)略的重要保障。數(shù)據(jù)管理的

是指通過管理“數(shù)據(jù)”實(shí)現(xiàn)組織機(jī)構(gòu)的某種業(yè)務(wù)目的。然而，數(shù)據(jù)治理則指如何

確保“數(shù)據(jù)管理”的順利、有效、科學(xué)地完成。

130.數(shù)據(jù)整合和分組的說(shuō)法，不正確的是()o

A、數(shù)據(jù)連接可以用concat或merge函數(shù)

B、axis=1表示軸向連接

C、數(shù)據(jù)分組可以使用mean函數(shù)

D、使用agg可以自定義多個(gè)聚合函數(shù)

答案：C

解析：數(shù)據(jù)分組不可以使用mean函數(shù)，mean函數(shù)為求平均數(shù)函數(shù)。

131.在支持向量機(jī)中，核函數(shù)的主要作用是()o

A、將低維空間中線性不可分的數(shù)據(jù)映射到高維空間，使其線性可分

B、將高維空間中線性不可分的數(shù)據(jù)映射到低維空間，使其線性可分

C、將高維空間中線性可分的數(shù)據(jù)映射到低維空間，使其線性不可分

D、將低維空間中線性可分的數(shù)據(jù)映射到高維空間，使其線性不可

答案:A

解析：核函數(shù)的作用是將低維空間中線性不可分的數(shù)據(jù)映射到高維空間，使其線

性可分。

132.文檔是待處理的數(shù)據(jù)對(duì)象，它由一組詞組成,這些詞在文檔中不計(jì)順序的額,

例如一篇論文、一個(gè)網(wǎng)頁(yè)都可以看做一個(gè)文檔；這樣的表示方式稱為()o

A、語(yǔ)句

B、詞袋

C、詞海

D、詞

答案：B

解析：詞袋模型下，像是句子或是文件這樣的文字可以用一個(gè)袋子裝著這些詞的

方式表現(xiàn)，這種表現(xiàn)方式不考慮文法以及詞的順序。

133.標(biāo)準(zhǔn)BP算法的目標(biāo)是使訓(xùn)練集上的()為最小。

A、累積方差

B、累積誤差

C、累積協(xié)方差

D、累積偏

答案：B

解析：標(biāo)準(zhǔn)BP算法的目標(biāo)是使訓(xùn)練集上的累積誤差最小。

134.以下關(guān)于圖像識(shí)別任務(wù)的敘述，錯(cuò)誤的是（）。

A、目標(biāo)在于檢測(cè)出圖像中的對(duì)象是什么

B、在識(shí)別前往往需要對(duì)圖像進(jìn)行預(yù)處理

C、N是一種常用的圖像識(shí)別網(wǎng)絡(luò)

D、圖像的采集和傳輸方式對(duì)于圖像識(shí)別結(jié)果沒有影

答案：D

解析：圖像處理基礎(chǔ)知識(shí)。

135.關(guān)于boosting下列說(shuō)法錯(cuò)誤的是O。

A、boosting方法的主要思想是迭代式學(xué)

人人文庫(kù)> 全部分類> 教育資料 > 輔導(dǎo)培訓(xùn)

溫馨提示

1. 本站所有資源如無(wú)特殊說(shuō)明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽，若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間，僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請(qǐng)與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

老太爷的乳妓h开裆裤,久久久久久精品国产三级非禁歌 ,久久久久久久99精品国产片,免费观看交性大片

大數(shù)據(jù)理論考試復(fù)習(xí)題庫(kù)大全-上（單選題部分）

文檔簡(jiǎn)介

溫馨提示

最新文檔

評(píng)論

老太爷的乳妓h开裆裤,久久久久久精品国产三级非禁歌 ,久久久久久久99精品国产片,免费观看交性大片

大數(shù)據(jù)理論考試復(fù)習(xí)題庫(kù)大全-上（單選題部分）

文檔簡(jiǎn)介

溫馨提示

最新文檔

評(píng)論

相關(guān)文檔