大數(shù)據(jù)理論考試復(fù)習(xí)題庫(kù)大全-上(單選題部分)_第1頁(yè)
大數(shù)據(jù)理論考試復(fù)習(xí)題庫(kù)大全-上(單選題部分)_第2頁(yè)
大數(shù)據(jù)理論考試復(fù)習(xí)題庫(kù)大全-上(單選題部分)_第3頁(yè)
大數(shù)據(jù)理論考試復(fù)習(xí)題庫(kù)大全-上(單選題部分)_第4頁(yè)
大數(shù)據(jù)理論考試復(fù)習(xí)題庫(kù)大全-上(單選題部分)_第5頁(yè)
已閱讀5頁(yè),還剩210頁(yè)未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

大數(shù)據(jù)理論考試復(fù)習(xí)題庫(kù)大全-上(單選題部分)

一'單選題

1.把圖像分割問題與圖的最小割(mincut)問題相關(guān)聯(lián)的方法是()。

A、基于圖論的分割方法

B、分水嶺算法

C、SLI法

D、基于閾值的方

答案:A

解析:基于圖論的分割方法把圖像分割問題與圖的最小割(mincut)問題相關(guān)聯(lián)。

首先將圖像映射為帶權(quán)無(wú)向圖,圖中每個(gè)節(jié)點(diǎn)對(duì)應(yīng)于圖像中的每個(gè)像素,每條邊

的權(quán)值表示了相鄰像素之間在灰度、顏色或紋理方面的非負(fù)相似度。

2.MapReduce里面的query、sort和limit等都是針對(duì)哪個(gè)階段的操作?

A、Map()之前;

B、Reduce()之前;

GReduce()之后;

D、finalize()之后;

答案:A

解析:query是一個(gè)篩選條件,只有滿足條件的文檔才會(huì)調(diào)用map函數(shù);sort

是在發(fā)往map函數(shù)前給文檔排序;limit是發(fā)往map函數(shù)的文檔數(shù)量的上限,所

以它們都是在Map()之前。

3.下列哪個(gè)程序通常與NameNode在一個(gè)節(jié)點(diǎn)啟動(dòng)()

AxSecondaryNameNode

B、DataNode

C、TaskTracker

D、Jobtracker

答案:D

解析:hadoop的集群是基于master/sIave模式,namenode和jobtracker屬于

master,datanode和tasktracker屬于sIave,master只有一個(gè),而slave有

多個(gè)。SecondaryNameNode內(nèi)存需求和NameNode在一個(gè)數(shù)量級(jí)上,所以通常se

condaryNameNode(運(yùn)行在單獨(dú)的物理機(jī)器上)和NameNode運(yùn)行在不同的機(jī)器上。

JobTracker對(duì)應(yīng)于NameNode0TaskTracker對(duì)應(yīng)于DataNodeoDataNode和Nam

eNode是針對(duì)數(shù)據(jù)存放來(lái)而言的,JobTracker和TaskTracker是對(duì)于MapReduce

執(zhí)行而言的。

4.在回歸模型中,下列哪一項(xiàng)在權(quán)衡欠擬合(under-fitting)和過擬合(over

-fitting)中影響最大()

A、多項(xiàng)式階數(shù)

B、更新權(quán)重w時(shí),使用的是矩陣求逆

C、使用常數(shù)項(xiàng)D.使用梯度下降

答案:A

解析:選擇合適的多項(xiàng)式階數(shù)非常重要。如果階數(shù)過大,模型就會(huì)更加復(fù)雜,容

易發(fā)生過擬合;如果階數(shù)較小,模型就會(huì)過于簡(jiǎn)單,容易發(fā)生欠擬合。

5.數(shù)據(jù)探索是指針對(duì)目標(biāo)可變、持續(xù)'多角度的搜索或分析任務(wù),下列哪項(xiàng)不是

其搜索過程的特點(diǎn)Oo

A、有選擇

B、有策略

C、有目標(biāo)

D、反復(fù)進(jìn)行的

答案:c

解析:數(shù)據(jù)探索是指針對(duì)目標(biāo)可變、持續(xù)'多角度的搜索或分析任務(wù),其搜索過

程是有選擇'有策略和反復(fù)進(jìn)行的。

6.()不僅可用于多層前饋神經(jīng)網(wǎng)絡(luò),還可用于其他類型的神經(jīng)網(wǎng)絡(luò)。

A、感知機(jī)

B、神經(jīng)元

C、神經(jīng)系統(tǒng)

D、誤差逆?zhèn)?/p>

答案:D

解析:誤差逆?zhèn)鞑?errorBackPropagation,簡(jiǎn)稱BP)算法不僅可用于多層前饋

神經(jīng)網(wǎng)絡(luò),還可用于其他類型的神經(jīng)網(wǎng)絡(luò),例如訓(xùn)練遞歸神經(jīng)網(wǎng)絡(luò)[Pineda,19

87]o

7.下列哪個(gè)不是RDD的緩存方法()

A、persist()

B、略

C、che()Memory()

D、以上答案都正

答案:c

解析:RDD的緩存方法包括persist和cache,其中cache方法默認(rèn)存儲(chǔ)到內(nèi)存

中。

8.Base原則的含義不包括()

A、基本可用

B、柔性狀態(tài)

C、最終一致

D、基礎(chǔ)條

答案:D

解析:BASE原則是BasicallyAvailabIe(基本可用)、SoftState(柔性狀態(tài))和E

ventuaIIyConsistent(最終一致)的縮寫。BasicaIIyAvaiIabIe是指可以容忍系

統(tǒng)的短期不可用,并不追求全天候服務(wù);SoftState是指不要求一直保持強(qiáng)一致

狀態(tài);EventualIyConsistent是指最終數(shù)據(jù)一致,而不是嚴(yán)格的實(shí)時(shí)一致,系

統(tǒng)在某一個(gè)時(shí)刻后達(dá)到一致性要求即可。

9.哪種聚類方法采用概率模型來(lái)表達(dá)聚類Oo

A、K-means

B、LVQ

C、DBSN

D、高斯混合聚

答案:D

解析:高斯混合聚類(MixtureofGaussian)采用概率模型來(lái)表達(dá)聚類。

10.下列關(guān)于支持向量回歸說(shuō)法錯(cuò)誤的是()o

A、支持向量回歸是將支持向量的方法應(yīng)用到回歸問題中

B、支持向量回歸同樣可以應(yīng)用核函數(shù)求解線性不可分的問題

C、同分類算法不同的是,支持向量回歸要最小化一個(gè)凹函數(shù)

D、支持向量回歸的解是稀疏

答案:C

解析:支持向量機(jī)最大間隔模型是一個(gè)凸二次規(guī)劃問題。

11.在集成學(xué)習(xí)中,對(duì)于數(shù)據(jù)型輸出,最常見的結(jié)合策略是O。

A、平均法

B、投票法

C、學(xué)習(xí)法

D、以上答案都正

答案:A

解析:在集成學(xué)習(xí)中,對(duì)于數(shù)據(jù)型輸出,最常見的結(jié)合策略平均法。對(duì)于分類任

務(wù)來(lái)說(shuō),最常見的結(jié)合策略投票法。當(dāng)訓(xùn)練數(shù)據(jù)很多時(shí)?一種更為強(qiáng)大的結(jié)合策

略是使用學(xué)習(xí)法。

12.K-means++算法選擇初始seeds的基本思想就是:初始的聚類中心之間的相互

距離要盡可能的遠(yuǎn)。那么算法流程為Oo1.從輸入的數(shù)據(jù)點(diǎn)集合中隨機(jī)選擇一

個(gè)點(diǎn)作為第一個(gè)聚類中心2.對(duì)于數(shù)據(jù)集中的每一個(gè)點(diǎn)x,計(jì)算它與最近聚類中心

(指已選擇的聚類中心)的距離D(x)3.選擇一個(gè)新的數(shù)據(jù)點(diǎn)作為新的聚類中心,

選擇的原則是:D(x)較大的點(diǎn),被選取作為聚類中心的概率較大4.重復(fù)2和3

直到k個(gè)聚類中心被選出來(lái)5.利用這k個(gè)初始的聚類中心來(lái)運(yùn)行標(biāo)準(zhǔn)的k-mean

s算法

A、2.5.4.3.1

B、1.5.4.2.3

C、1.2.3.4.5

D、4.3.2.1.

答案:c

解析:k-means++算法基本流程為:1.從輸入的數(shù)據(jù)點(diǎn)集合中隨機(jī)選擇一個(gè)點(diǎn)作

為第一個(gè)聚類中心2.對(duì)于數(shù)據(jù)集中的每一個(gè)點(diǎn)x,計(jì)算它與最近聚類中心(指已

選擇的聚類中心)的距離D(x)3.選擇一個(gè)新的數(shù)據(jù)點(diǎn)作為新的聚類中心,選擇的

原則是:D(x)較大的點(diǎn),被選取作為聚類中心的概率較大4.重復(fù)2和3直到k

個(gè)聚類中心被選出來(lái)5.利用這k個(gè)初始的聚類中心來(lái)運(yùn)行標(biāo)準(zhǔn)的k-means算法

13.評(píng)估完模型之后,發(fā)現(xiàn)模型存在高偏差(highbias),應(yīng)該如何解決。。

A、減少模型的特征數(shù)量

B、增加模型的特征數(shù)量

C、增加樣本數(shù)量

D、以上答案都正

答案:B

解析:如果模型存在高偏差,意味著模型過于簡(jiǎn)單,為了使模型更加健壯,可以

在特征空間中添加更多的特征。而增加樣本數(shù)量將減少方差。

14.在Hadoop生態(tài)系統(tǒng)中,()可以將結(jié)構(gòu)化的數(shù)據(jù)文件映射成一張數(shù)據(jù)庫(kù)表,

并提供簡(jiǎn)單的查詢語(yǔ)言。

A、Pig

B、Hbase

C、Hive

D、MapReduce

答案:C

解析:Hive是構(gòu)建在hadoop上的數(shù)據(jù)倉(cāng)庫(kù)工具,可以將結(jié)構(gòu)化的數(shù)據(jù)文件映

射為一張數(shù)據(jù)庫(kù)表,可以用來(lái)進(jìn)行數(shù)據(jù)提取轉(zhuǎn)化加載(ETL),并提供簡(jiǎn)單的SQ

L查詢功能。

15.大數(shù)據(jù)平臺(tái)構(gòu)建分布式文件系統(tǒng)、分布式數(shù)據(jù)倉(cāng)庫(kù)、非關(guān)系型數(shù)據(jù)庫(kù)、關(guān)系

型數(shù)據(jù)庫(kù),實(shí)現(xiàn)各類數(shù)據(jù)的集中存儲(chǔ)與統(tǒng)一管理,滿足()存儲(chǔ)需求。

A、歷史數(shù)據(jù)

B、離線數(shù)據(jù)

C、實(shí)時(shí)數(shù)據(jù)

D、多樣化數(shù)據(jù)

答案:D

解析:大數(shù)據(jù)平臺(tái)構(gòu)建分布式文件系統(tǒng)、分布式數(shù)據(jù)倉(cāng)庫(kù)、非關(guān)系型數(shù)據(jù)庫(kù)、關(guān)

系型數(shù)據(jù)庫(kù),實(shí)現(xiàn)各類數(shù)據(jù)的集中存儲(chǔ)與統(tǒng)一管理,滿足多樣化數(shù)據(jù)存儲(chǔ)需求。

16.假負(fù)率是指()。

A、正樣本預(yù)測(cè)結(jié)果數(shù)/正樣本實(shí)際數(shù)

B、被預(yù)測(cè)為負(fù)的正樣本結(jié)果數(shù)/正樣本實(shí)際數(shù)

C、被預(yù)測(cè)為正的負(fù)樣本結(jié)果數(shù)/負(fù)樣本實(shí)際數(shù)

D、負(fù)樣本預(yù)測(cè)結(jié)果數(shù)/負(fù)樣本實(shí)際

答案:B

解析:假負(fù)率是指被預(yù)測(cè)為負(fù)的正樣本結(jié)果數(shù)/正樣本實(shí)際數(shù)。

17.不屬于Mayer-SchdnbergerV和CukierK.在其著名論著《Bigdata:ArevoIut

ionthatwiIItransformhowweIive,work,andthink》中提出了大數(shù)據(jù)時(shí)代統(tǒng)計(jì)的

思維變革的是()o

A、不是隨機(jī)樣本,而是全體數(shù)據(jù)

B、不是精確性,而是混雜性

C、不是描述性分析,而是預(yù)測(cè)性分析

D、不是因果關(guān)系,而是相關(guān)關(guān)

答案:C

解析:Mayer-SchdnbergerV和CukierK.在其著名論著《Bigdata/revolution

thatwiIItransformhowweIive,work,andthink》中提出了大數(shù)據(jù)時(shí)代統(tǒng)計(jì)的思維

變革:1)不是隨機(jī)樣本,而是全體數(shù)據(jù):大數(shù)據(jù)時(shí)代應(yīng)遵循“樣本=總體”的理

念,需要分析與某事物相關(guān)的所有數(shù)據(jù),而不是依靠分析少量的數(shù)據(jù)樣本。2)

不是精確性,而是混雜性:大數(shù)據(jù)時(shí)代應(yīng)承認(rèn)數(shù)據(jù)的復(fù)雜性,數(shù)據(jù)分析目的不應(yīng)

追求精確性,數(shù)據(jù)分析的主要瓶頸是如何提升效率而不是保證分析結(jié)果的精確度。

3)不是因果關(guān)系,而是相關(guān)關(guān)系:大數(shù)據(jù)時(shí)代的思想方式應(yīng)轉(zhuǎn)變—不再探求

難以捉摸的因果關(guān)系,轉(zhuǎn)而關(guān)注事物的相關(guān)關(guān)系。

18.以下關(guān)于Hive說(shuō)法正確的是()0

A、一種數(shù)據(jù)倉(cāng)庫(kù)

B、一種數(shù)據(jù)處理工具

C、一種可視化工具

D、一種分析算法

答案:A

解析:hive是基于Hadoop的一個(gè)數(shù)據(jù)倉(cāng)庫(kù)工具,用來(lái)進(jìn)行數(shù)據(jù)提取、轉(zhuǎn)化、加

載,這是一種可以存儲(chǔ)、查詢和分析存儲(chǔ)在Hadoop中的大規(guī)模數(shù)據(jù)的機(jī)制。

19.()是指對(duì)于數(shù)據(jù)局部不良行為的非敏感性,它是探索性分析追求的主要目標(biāo)

之一。

A、魯棒性

B、穩(wěn)定性

C、可靠性

D、耐抗性

答案:D

解析:耐抗性(Resistance)為探索性數(shù)據(jù)分析的四個(gè)指標(biāo)之一,是指對(duì)于數(shù)據(jù)

的局部不良行為的非敏感性,它是探索性分析追求的主要目標(biāo)之一。對(duì)于具有耐

抗性的分析結(jié)果,當(dāng)數(shù)據(jù)的一小部分被新的數(shù)據(jù)代替時(shí),即使它們與原來(lái)的數(shù)值

差別很大,分析結(jié)果也只會(huì)有輕微的改變。

20.下列屬于小波去噪步驟的是()o

A、對(duì)圖象信號(hào)進(jìn)行小波分解

B、對(duì)經(jīng)過層次分解后的高頻系數(shù)進(jìn)行閾值量化

C、利用二維小波重構(gòu)圖象信號(hào)

D、以上答案都正

答案:D

解析:小波去噪是通過短波實(shí)現(xiàn)噪音消除,與高斯去噪的基本原理一致。小波去

噪方法包括三個(gè)基本的步驟:對(duì)含噪聲信號(hào)進(jìn)行小波變換;對(duì)變換得到的小波系

數(shù)進(jìn)行某種處理,以去除其中包含的噪聲;對(duì)處理后的小波系數(shù)進(jìn)行小波逆變換,

得到去噪后的信號(hào)。

21.以下()是對(duì)DMM(數(shù)據(jù)管理成熟度模型)中“已管理級(jí)”基本特點(diǎn)的正確

表述。

A、組織機(jī)構(gòu)的數(shù)據(jù)管理關(guān)鍵活動(dòng)能夠根據(jù)結(jié)構(gòu)自身的反饋以及外部環(huán)境的變革

進(jìn)行不斷優(yōu)化。

B、組織機(jī)構(gòu)已用定量化的方式管理其關(guān)鍵過程的執(zhí)行過程。

C、組織機(jī)構(gòu)只有在項(xiàng)目管理過程中執(zhí)行了

D、M給出的關(guān)鍵過程,而缺乏機(jī)構(gòu)層次的統(tǒng)籌與管理組織機(jī)構(gòu)的數(shù)據(jù)管理工作

超出了項(xiàng)目管理的范疇,由組織機(jī)構(gòu)統(tǒng)一管理了其數(shù)據(jù)管理關(guān)鍵過程

答案:D

解析:DMM(數(shù)據(jù)管理成熟度模型)中“已管理級(jí)”基本特點(diǎn)的正確表述是組織

機(jī)構(gòu)的數(shù)據(jù)管理工作超出了項(xiàng)目管理的范疇,由組織機(jī)構(gòu)統(tǒng)一管理了其數(shù)據(jù)管理

關(guān)鍵過程。

22.機(jī)器學(xué)習(xí)和深度學(xué)習(xí)的關(guān)系是(_)o

A、深度學(xué)習(xí)包含機(jī)器學(xué)習(xí)

B、機(jī)器學(xué)習(xí)包含深度學(xué)習(xí)

C、二者是獨(dú)立的

D、二者相互促

答案:B

解析:機(jī)器學(xué)習(xí)包含深度學(xué)習(xí)。

23.關(guān)于bagging下列說(shuō)法錯(cuò)誤的是:O。

A、各基分類器之間有較強(qiáng)依賴,不可以進(jìn)行并行訓(xùn)練

B、最著名的算法之一是基于決策樹基分類器的隨機(jī)森林

C、當(dāng)訓(xùn)練樣本數(shù)量較少時(shí),子集之間可能有重疊

D、為了讓基分類器之間互相獨(dú)立,需要將訓(xùn)練集分為若干子

答案:A

解析:Bagging方法在訓(xùn)練過程中,各基分類器之間無(wú)強(qiáng)依賴,可以進(jìn)行并行訓(xùn)

練,隨機(jī)森林就是一種典型的例子。

24.數(shù)據(jù)預(yù)處理方法不包括O。

A、數(shù)據(jù)清洗:去噪聲和無(wú)關(guān)數(shù)據(jù)

B、數(shù)據(jù)集成:將多個(gè)數(shù)據(jù)源中的數(shù)據(jù)結(jié)合起來(lái)存在一個(gè)一致的數(shù)據(jù)存儲(chǔ)中

C、數(shù)據(jù)變換:把原始數(shù)據(jù)轉(zhuǎn)換成為適合數(shù)據(jù)挖掘的形式

D、數(shù)據(jù)轉(zhuǎn)化:把連續(xù)數(shù)據(jù)轉(zhuǎn)換為離散數(shù)據(jù)

答案:D

解析:數(shù)據(jù)轉(zhuǎn)化多為將字符型數(shù)據(jù)轉(zhuǎn)換為數(shù)值型數(shù)據(jù)。例如將性別【男,女】分

別轉(zhuǎn)換為【0,1】。

25.關(guān)于0LAP和OLTP的區(qū)別描述,不正確的是()。

A、0L主要是關(guān)于如何理解聚集的大量不同的數(shù)據(jù).它與0T應(yīng)用程序不同。

B、與OLAP應(yīng)用程序不同,OLTP應(yīng)用程序包含大量相對(duì)簡(jiǎn)單的事務(wù)。

C、OLAP的特點(diǎn)在于事務(wù)量大,但事務(wù)內(nèi)容比較簡(jiǎn)單且重復(fù)率高。

D、OLAP是以數(shù)據(jù)倉(cāng)庫(kù)為基礎(chǔ)的,但其最終數(shù)據(jù)來(lái)源與OLTP一樣均來(lái)自底層的數(shù)

據(jù)庫(kù)系統(tǒng),兩者面對(duì)的用戶是相同的

答案:C

解析:OLTP是傳統(tǒng)的關(guān)系型數(shù)據(jù)庫(kù)的主要應(yīng)用,主要是基本的'日常的事務(wù)處

理,記錄即時(shí)的增、刪、改、查,比如在銀行存取一筆款,就是一個(gè)事務(wù)交易。

OLAP即聯(lián)機(jī)分析處理,是數(shù)據(jù)倉(cāng)庫(kù)的核心部心,支持復(fù)雜的分析操作,側(cè)重決

策支持,并且提供直觀易懂的查詢結(jié)果。典型的應(yīng)用就是復(fù)雜的動(dòng)態(tài)報(bào)表系統(tǒng)。

26.()和假設(shè)檢驗(yàn)又可歸結(jié)為統(tǒng)計(jì)推斷的范疇,即對(duì)總體的數(shù)量特征做出具有

一定可靠程度的估計(jì)和判斷.

A、參數(shù)估計(jì)

B、邏輯分析

C、方差分析

D、回歸分

答案:A

解析:推斷統(tǒng)計(jì)包括兩方面的內(nèi)容:參數(shù)估計(jì)和假設(shè)檢驗(yàn)。

27.數(shù)據(jù)科學(xué)家可能會(huì)同時(shí)使用多個(gè)算法(模型)進(jìn)行預(yù)測(cè),并且最后把這些算

法的結(jié)果集成起來(lái)進(jìn)行最后的預(yù)測(cè)(集成學(xué)習(xí)),以下對(duì)集成學(xué)習(xí)說(shuō)法正確的是

()0

A、單個(gè)模型之間具有高相關(guān)性

B、單個(gè)模型之間具有低相關(guān)性

C、在集成學(xué)習(xí)中使用“平均權(quán)重”而不是“投票”會(huì)比較好

D、單個(gè)模型都是用的一個(gè)算法

答案:B

解析:集成學(xué)習(xí)就是組合這里的多個(gè)弱監(jiān)督模型以期得到一個(gè)更好更全面的強(qiáng)監(jiān)

督模型,集成學(xué)習(xí)潛在的思想是即便某一個(gè)弱模型得到了錯(cuò)誤的預(yù)測(cè),其他的弱

模型也可以將錯(cuò)誤糾正回來(lái)。某一個(gè)弱模型要有一定的“準(zhǔn)確性”,即學(xué)習(xí)器不

能太壞,并且要有多樣性,即個(gè)體學(xué)習(xí)器間具有差異。集成中即可包含同種類型

的弱模型,也可包含不同類型的弱模型。

28.下列關(guān)于大數(shù)據(jù)的分析理念的說(shuō)法中,錯(cuò)誤的是()o

A、在數(shù)據(jù)基礎(chǔ)上傾向于全體數(shù)據(jù)而不是抽樣數(shù)據(jù)

B、在分析方法上更注重相關(guān)分析而不是因果分析

C、在分析效果上更追求效率而不是絕對(duì)精確

D、在數(shù)據(jù)規(guī)模上強(qiáng)調(diào)相對(duì)數(shù)據(jù)而不是絕對(duì)數(shù)據(jù)

答案:D

解析:在大數(shù)據(jù)的分析理念中,數(shù)據(jù)規(guī)模上強(qiáng)調(diào)絕對(duì)數(shù)據(jù)而不是相對(duì)數(shù)據(jù)。

29.一個(gè)分布式應(yīng)用程序協(xié)調(diào)服務(wù),分布式應(yīng)用程序可以基于它實(shí)現(xiàn)同步服務(wù),

配置維護(hù)和命名服務(wù)等的工具是O。

AxFlume

BxZookeeper

C、Storm

D、Sparkstreaming

答案:B

解析:Zoopkeeper和Chubby均是分布式協(xié)調(diào)服務(wù)。

30.SparkJob默認(rèn)的調(diào)度模式是()。

A、FIFO

B、FAIR

C、無(wú)

D、運(yùn)行時(shí)指定

答案:A

解析:Spark中的調(diào)度模式主要有兩種FIFO和FAIR。默認(rèn)情況下Spark的調(diào)度

模式是FIFO(先進(jìn)先出)。

31.0將觀測(cè)值分為相同數(shù)目的兩部分,當(dāng)統(tǒng)計(jì)結(jié)果為非對(duì)稱分布時(shí),經(jīng)常使用

它。

A、眾數(shù)

B、標(biāo)準(zhǔn)差

C、中位數(shù)

D、均值

答案:C

解析:中位數(shù)是指一組數(shù)據(jù)排序后處于中間位置的變量值。

32.數(shù)據(jù)倉(cāng)庫(kù)的最終目的是O。

A、收集業(yè)務(wù)需求

B、建立數(shù)據(jù)倉(cāng)庫(kù)邏輯模型

C、開發(fā)數(shù)據(jù)倉(cāng)庫(kù)的應(yīng)用分析

D、為用戶和業(yè)務(wù)部門提供決策支持

答案:D

解析:數(shù)據(jù)倉(cāng)庫(kù)的最終目的是為用戶和業(yè)務(wù)部門提供決策支持。

33.因子分析把每個(gè)原始變量分解為兩部分因素:一部分為(),另一部分為()。

A、公共因子和特殊因子

B、特殊因子和相關(guān)因子

C、相關(guān)因子和獨(dú)立因子

D、獨(dú)立因子和公共因子

答案:A

解析:因子分析把每個(gè)原始變量分解為兩部分因素:一部分為公共因子,另一部

分為特殊因子。

34.在k近鄰學(xué)習(xí)算法中,隨著k的增加,上界將逐漸降低,當(dāng)k區(qū)域無(wú)窮大時(shí),

上界和下界碰到一起,k近鄰法就達(dá)到了O。

A、貝葉斯錯(cuò)誤率

B、漸進(jìn)錯(cuò)誤率

C、最優(yōu)值

D、上

答案:A

解析:在k近鄰學(xué)習(xí)算法中,隨著k的增加,上界將逐漸降低,當(dāng)k區(qū)域無(wú)窮大

時(shí),上界和下界碰到一起,k近鄰法就達(dá)到了貝葉斯錯(cuò)誤率。

35.診斷性分析主要采取的分析方法是()和()。

A、關(guān)聯(lián)分析和因果分析法

B、關(guān)聯(lián)分析和分類分析法

C、關(guān)聯(lián)分析和運(yùn)籌學(xué)

D、因果分析和分類分析法

答案:A

解析:診斷性分析主要采取的分析方法是關(guān)聯(lián)分析和因果分析法。

36.下面算法屬于局部處理的是()。

A、灰度線性變換

B、二值化

C、傅里葉變換

D、中值濾

答案:D

解析:中值濾波是將每一像素點(diǎn)的灰度值設(shè)置為該點(diǎn)某鄰域窗口內(nèi)的所有像素點(diǎn)

灰度值的中值,在圖像處理中常用于保護(hù)邊緣信息,是一種局部處理方法。

37.一幅灰度均勻分布的圖像,其灰度范圍在[0,255],則該圖像的信息量為()。

A、0

B、6

C、8

D、25

答案:C

解析:把255拆成二進(jìn)制以后是11111111所以是8。

38.輸入圖像已被轉(zhuǎn)換為大小為28X28的矩陣和大小為7X7的步幅為1的核心/

濾波器。卷積矩陣的大小是多少()

A、22X22

B、21X21

G28X28

D、7X

答案:A

解析:28-7+1=22o

39.關(guān)于數(shù)據(jù)分析,下列說(shuō)法正確的是。。

A、描述性分析和預(yù)測(cè)性分析是對(duì)診斷性分析的基礎(chǔ)

B、斷性分析分析是對(duì)規(guī)范性分析的進(jìn)一步理解

C、預(yù)測(cè)性分析是規(guī)范性分析的基礎(chǔ)

D、規(guī)范性分析是數(shù)據(jù)分析的最高階段,可以直接產(chǎn)生產(chǎn)業(yè)價(jià)值

答案:C

解析:在數(shù)據(jù)分析中,流程分為以下方式:描述性分析、診斷性分析、預(yù)測(cè)性分

析'規(guī)范性分析。

40.在MapReduce中,以下描述錯(cuò)誤的有O。

A、Worker故障和Master故障的處理方法不相同

B、Map和Reduce的處理結(jié)果都存儲(chǔ)在本地文件系統(tǒng)

C、一個(gè)Worker發(fā)生故障時(shí),該節(jié)點(diǎn)上執(zhí)行完的Map任務(wù)需要再次執(zhí)行

D、MapReduce具有很強(qiáng)的容錯(cuò)機(jī)制

答案:B

解析:已經(jīng)完成的Map任務(wù)的輸出存儲(chǔ)在本臺(tái)機(jī)器上,Reduce任務(wù)的輸出存儲(chǔ)

在全局文件系統(tǒng)上,故B錯(cuò)。

41.采用主成分分析法映射到低維空間,將最小的個(gè)特征向量舍棄,有()

影響。

A、使樣本采樣密度增大

B、丟失最優(yōu)解

C、增大噪聲

D、使樣本采樣密度減

答案:A

解析:低維空間與原始高維空間必有不同,因?yàn)閷?duì)應(yīng)于最小的d-d,個(gè)特征值的

特征向量被舍棄了,這是降維導(dǎo)致的結(jié)果.但舍棄這部分信息往往是必要的:一

方面舍棄這部分信息之后能使樣本的采樣密度增大,這正是降維的重要?jiǎng)訖C(jī);另

一方面,當(dāng)數(shù)據(jù)受到噪聲影響時(shí),最小的特征值所對(duì)應(yīng)的特征向量往往與噪聲有

關(guān)。將它們舍棄能在一定程度上起到去噪的效果.

42.為了允許支持向量機(jī)在一些樣本上出錯(cuò),引入()的概念。

A、軟間隔

B、硬間隔

C、間隔

D、誤

答案:A

解析:為了允許支持向量機(jī)在一些樣本上出錯(cuò),引入軟間隔的概念。

43.關(guān)于長(zhǎng)短時(shí)神經(jīng)網(wǎng)絡(luò)的敘述中錯(cuò)誤的是()o

A、引用自循環(huán)思想

B、產(chǎn)生梯度長(zhǎng)時(shí)間持續(xù)流動(dòng)的路徑

C、積累的時(shí)間尺度不可以因輸入序列而改變

D、可應(yīng)用于語(yǔ)音識(shí)別和機(jī)器翻

答案:C

解析:LSTM累積的時(shí)間尺度也可以因輸入序列而改變,因?yàn)闀r(shí)間常數(shù)是模型本

身的輸出。

44.以下處理能獲得像素級(jí)標(biāo)注的是()。

A、圖像分類

B、物體檢測(cè)

C、圖像去噪

D、語(yǔ)義分

答案:D

解析:語(yǔ)義分割通過對(duì)每個(gè)像素進(jìn)行密集的預(yù)測(cè)、推斷標(biāo)簽來(lái)實(shí)現(xiàn)細(xì)粒度的推理,

從而使每個(gè)像素都被標(biāo)記為其封閉對(duì)象礦石區(qū)域的類別,因此能夠獲得像素級(jí)標(biāo)

注。

45.第一數(shù)字定律中使用概率最大的數(shù)字是()。

A、0

B、1

C、2

答案:B

解析:第一數(shù)字定律表示,數(shù)字“1”的使用最多接近三分之一,“2”為17.6%,

“3”為12.5%,依次遞減,“9”的頻率是4.6%。

46.下列關(guān)于bootstrap說(shuō)法正確的是。。

A、從總的M個(gè)特征中,有放回地抽取m個(gè)特征(m<M)

B、從總的M個(gè)特征中,無(wú)放回地抽取m個(gè)特征(m<M)

C、從總的N個(gè)樣本中,有放回地抽取n個(gè)樣本(n<N)

D、從總的N個(gè)樣本中,無(wú)放回地抽取n個(gè)樣本(n<N

答案:C

解析:bootstrap抽樣是從總的N個(gè)樣本中,有放回地抽取n個(gè)樣本(n<N)

47.對(duì)于PCA處理后的特征,其樸素貝葉斯特征相互獨(dú)立的假設(shè)一定成立,因?yàn)?/p>

所有主成分都是正交的,所以不相關(guān)。這句話是否正確()

A、True

B、FaIs

答案:B

解析:這句話有兩處錯(cuò)誤:一是PCA轉(zhuǎn)換之后的特征不一定不相關(guān);二是不相關(guān)

并不等價(jià)于相互獨(dú)立。正交和不相關(guān)沒有必然關(guān)系,只有當(dāng)一個(gè)隨機(jī)變量的統(tǒng)計(jì)

平均等于零時(shí),正交和不相關(guān)等價(jià)。獨(dú)立則必定不相關(guān),而不相關(guān)卻不一定互相

獨(dú)立,只有是高斯時(shí)獨(dú)立和不相關(guān)才等價(jià)。

48.以下關(guān)于人工神經(jīng)網(wǎng)絡(luò)(ANN)的描述錯(cuò)誤的有()o

A、神經(jīng)網(wǎng)絡(luò)對(duì)訓(xùn)練數(shù)據(jù)中的噪聲非常魯棒

B、可以處理冗余特征

C、訓(xùn)練ANN是一個(gè)很耗時(shí)的過程

D、至少含有一個(gè)隱藏層的多層神經(jīng)網(wǎng)

答案:A

解析:未經(jīng)正則化的神經(jīng)網(wǎng)絡(luò)對(duì)可能對(duì)噪聲很敏感。

49.可分解為偏差、方差與噪聲之和的是()。

A、訓(xùn)練誤差(trainingerror)

B、經(jīng)驗(yàn)誤差(empiricalerror)

G均方誤差(meansquarederror)

D、泛化誤差(generaIizationerror

答案:D

解析:泛化誤差可分解為偏差、方差與噪聲之和。

50.多分類圖像識(shí)別任務(wù)常采用O作為輸出的編碼方式。

A、二進(jìn)制編碼

B、one-hot編碼

C、霍夫曼編碼

D、曼切斯特編

答案:B

解析:分類任務(wù)一般用獨(dú)熱(one-hot)編碼表示最終輸出,也就是00000010000

這樣的,碼段中1出現(xiàn)的位置就是預(yù)測(cè)的類別。

51.如果使用線性回歸模型,下列說(shuō)法正確的是。

A、檢查異常值是很重要的,因?yàn)榫€性回歸對(duì)離群效應(yīng)很敏感

B、線性回歸分析要求所有變量特征都必須具有正態(tài)分布

C、線性回歸假設(shè)數(shù)據(jù)中基本沒有多重共線性

D、以上說(shuō)法都不

答案:A

解析:異常值是數(shù)據(jù)中的一個(gè)非常有影響的點(diǎn),它可以改變最終回歸線的斜率。

因此,去除或處理異常值在回歸分析中是很重要的。了解變量特征的分布是有用

的,類似于正態(tài)分布的變量特征對(duì)提升模型性能很有幫助,數(shù)據(jù)預(yù)處理的時(shí)候經(jīng)

常做的一件事就是將數(shù)據(jù)特征歸一化到(0,D分布,但不是必須的。當(dāng)模型包

含相互關(guān)聯(lián)的多個(gè)特征時(shí),會(huì)發(fā)生多重共線性。因此,線性回歸中變量特征應(yīng)該

盡量減少冗余性。

52.數(shù)據(jù)科學(xué)是一門以()為主要研究任務(wù)的獨(dú)立學(xué)科。

A、“數(shù)據(jù)驅(qū)動(dòng)”“數(shù)據(jù)業(yè)務(wù)化”“數(shù)據(jù)洞見”“數(shù)據(jù)產(chǎn)品研發(fā)”和(或)“數(shù)

據(jù)生態(tài)系統(tǒng)的建設(shè)”

B、數(shù)據(jù)研發(fā)

C、數(shù)據(jù)處理

D、數(shù)據(jù)洞見

答案:A

解析:數(shù)據(jù)科學(xué)是一門以實(shí)現(xiàn)“從數(shù)據(jù)到信息”、“從數(shù)據(jù)到知識(shí)”和(或)“從

數(shù)據(jù)到智慧”的轉(zhuǎn)化為主要研究目的的,以“數(shù)據(jù)驅(qū)動(dòng)”'“數(shù)據(jù)業(yè)務(wù)化”'“數(shù)

據(jù)洞見”、“數(shù)據(jù)產(chǎn)品研發(fā)”和(或)“數(shù)據(jù)生態(tài)系統(tǒng)的建設(shè)”為主要研究任務(wù)

的獨(dú)立學(xué)科。

53.在空間維度上刻畫數(shù)據(jù)連續(xù)性是數(shù)據(jù)的()特點(diǎn)。

A、可關(guān)聯(lián)性

B、可溯源性

C、可理解性

D、可復(fù)制性

答案:A

解析:數(shù)據(jù)連續(xù)性理論是指由數(shù)據(jù)的可關(guān)聯(lián)性、可溯源性、可理解性及其內(nèi)在聯(lián)

系組成的一整套數(shù)據(jù)保護(hù)措施,其目的是保障數(shù)據(jù)的可用性、可信性和可控性,

降低數(shù)據(jù)的失用'失信和失控的風(fēng)險(xiǎn):1)可關(guān)聯(lián)性是在空間維度上刻畫數(shù)據(jù)連

續(xù)性,代表的是不同數(shù)據(jù)對(duì)象之間的連續(xù)性。它是保障數(shù)據(jù)可用性的重要前提,

代表了數(shù)據(jù)是否具備支持開放關(guān)聯(lián)和跨域存取的能力,進(jìn)而避免數(shù)據(jù)資源的碎片

化。因此,研究數(shù)據(jù)可關(guān)聯(lián)性的意義在于降低數(shù)據(jù)的“失用”風(fēng)險(xiǎn)。2)可溯源

性是在時(shí)間維度上刻畫數(shù)據(jù)連續(xù)性,代表的是同一個(gè)數(shù)據(jù)對(duì)象的歷史版本之間的

連續(xù)性。它是保障數(shù)據(jù)可信性的重要前提,代表了數(shù)據(jù)是否具備支持證據(jù)鏈管理'

可信度評(píng)估以及預(yù)測(cè)分析的能力。因此,研究數(shù)據(jù)可溯源性的意義在于降低數(shù)據(jù)

的“失信”風(fēng)險(xiǎn);3)可理解性是在內(nèi)容維度上刻畫數(shù)據(jù)連續(xù)性,代表的是數(shù)據(jù)

與其產(chǎn)生、管理和維護(hù)的主體(包括人與計(jì)算機(jī))之間的連續(xù)性。它是降低數(shù)據(jù)

的可控性的重要前提,代表了數(shù)據(jù)是否具備自描述和自包含信息。因此,研究數(shù)

據(jù)可理解性的意義在于降低數(shù)據(jù)的“失控”風(fēng)險(xiǎn)。

54.訓(xùn)練完SVM模型后,不是支持向量的那些樣本我們可以丟掉,也可以繼續(xù)分類:

()0

A、正確

B、錯(cuò)

答案:A

解析:訓(xùn)練完SVM模型后,不是支持向量的那些樣本我們可以丟掉,也可以繼續(xù)分

類。

55.語(yǔ)音識(shí)別的應(yīng)用場(chǎng)景包括()o

A、語(yǔ)音轉(zhuǎn)文本

B、語(yǔ)音合成

C、人機(jī)交互

D、以上答案都正

答案:D

解析:語(yǔ)音識(shí)別應(yīng)用包含語(yǔ)音轉(zhuǎn)文本,語(yǔ)音合成和人機(jī)交互等。

56.以下跟RNN相關(guān)的是(_)o

A、梯度消失

B、時(shí)間步

C、梯度爆炸

D、以上答案都正

答案:D

解析:深度學(xué)習(xí)基礎(chǔ)知識(shí)。

57.下面()負(fù)責(zé)MapReduce任務(wù)調(diào)度。

AxNameNode

B、Jobtracker

C、TaskTracker

D、secondaryNameNode

答案:B

解析:Jobtracker負(fù)責(zé)MapReduce任務(wù)調(diào)度,TaskTracker負(fù)責(zé)任務(wù)執(zhí)行。

58.數(shù)據(jù)管理成熟度模型中成熟度等級(jí)最高是哪一級(jí)()。

A、已優(yōu)化級(jí)

B、已測(cè)量級(jí)

C、已定義級(jí)

D、已管理級(jí)

答案:A

解析:已優(yōu)化是數(shù)據(jù)管理成熟度模型中成熟度的最高等級(jí)。

59.下列哪種機(jī)器學(xué)習(xí)算法不需要?dú)w一化處理()

A、DecisionTreeB.SVMC.KmeansD.LogisticRegressio

B、C、Kmeans

DxLogisticRegressio

答案:A

解析:DecisionTree屬于概率模型,不需要?dú)w一化處理;SVM、Kmeans和Logis

ticRegression之類的最優(yōu)化問題需要?dú)w一化處理。

60.卷積神經(jīng)網(wǎng)絡(luò)中每層卷積層(Convolutionallayer)由若干卷積單元組成,

每個(gè)卷積單元的參數(shù)都是通過反向傳播算法最佳化得到,其作用是(_)。

A、增強(qiáng)圖像

B、簡(jiǎn)化圖像

C、特征提取

D、圖像處理

答案:C

解析:卷積層(Convolutionallayer),卷積神經(jīng)網(wǎng)絡(luò)中每層卷積層由若干卷積

單元組成,每個(gè)卷積單元的參數(shù)都是通過反向傳播算法最佳化得到的。卷積運(yùn)算

的目的是提取輸入的不同特征,第一層卷積層可能只能提取一些低級(jí)的特征如邊

緣'線條和角等層級(jí),更多層的網(wǎng)路能從低級(jí)特征中迭代提取更復(fù)雜的特征。

61.數(shù)據(jù)可視化的本質(zhì)是()o

A、將數(shù)據(jù)轉(zhuǎn)換為知識(shí)

B、將知識(shí)轉(zhuǎn)換為數(shù)據(jù)

C、將數(shù)據(jù)轉(zhuǎn)換為信息

D、將信息轉(zhuǎn)換為智慧

答案:A

解析:可視化分析學(xué)模型認(rèn)為,數(shù)據(jù)可視化的本質(zhì)是將數(shù)據(jù)轉(zhuǎn)換為知識(shí),而不能

僅僅停留在數(shù)據(jù)的可視化呈現(xiàn)層次之上,并提出從數(shù)據(jù)到知識(shí)的轉(zhuǎn)換途徑有兩個(gè):

一是可視化分析,另一個(gè)是自動(dòng)化建模。

62.機(jī)器學(xué)習(xí)中發(fā)生過擬合的主要原因不包括()o

A、使用過于復(fù)雜的模型

B、數(shù)據(jù)噪聲較大

C、訓(xùn)練數(shù)據(jù)少

D、訓(xùn)練數(shù)據(jù)充

答案:D

解析:訓(xùn)練數(shù)據(jù)充足可以降低過擬合。

63.()算法是一種挖掘關(guān)聯(lián)規(guī)則的頻繁項(xiàng)集算法,其核心思想是通過候選集生

成和檢測(cè)兩個(gè)階段來(lái)挖掘頻繁項(xiàng)集。

A、riori

B、EM

C、P

D、PA

答案:A

解析:Apriori算法是一種挖掘關(guān)聯(lián)規(guī)則的頻繁項(xiàng)集算法,其核心思想是通過候

選集生成和檢測(cè)兩個(gè)階段來(lái)挖掘頻繁項(xiàng)集。PCA是無(wú)監(jiān)督的降維算法。概率近似

正確(簡(jiǎn)稱PAC)學(xué)習(xí)理論計(jì)算學(xué)習(xí)理論中最基本的理論。最大期望算法(Expec

tation-EM),是一類通過迭代進(jìn)行極大似然估計(jì)的優(yōu)化算法。

64.以下選項(xiàng)中哪個(gè)不屬于數(shù)據(jù)預(yù)處理的方法()。

A、數(shù)據(jù)清洗

B、數(shù)據(jù)集成

C、數(shù)據(jù)變換

D、數(shù)據(jù)統(tǒng)計(jì)

答案:D

解析:數(shù)據(jù)統(tǒng)計(jì)并非為數(shù)據(jù)預(yù)處理的常見內(nèi)容。

65.決策樹中,同一路徑上的所有屬性之間是()關(guān)系。

Ax因果

B、相關(guān)

C、邏輯或

D、邏輯

答案:D

解析:決策樹中,同一路徑上的所有屬性之間是邏輯與的關(guān)系

66.下列哪一項(xiàng)能反映出X和Y之間的強(qiáng)相關(guān)性。

A、相關(guān)系數(shù)為0.9

B、對(duì)于無(wú)效假設(shè)B=0的p值為0.0001

C、對(duì)于無(wú)效假設(shè)B=0的t值為30

D、以上說(shuō)法都不

答案:A

解析:相關(guān)系數(shù)反映了不同變量之間線性相關(guān)程度,取值范圍在[7,1]之間,值

越大表示相關(guān)程度越高;因此,A選項(xiàng)中中r=0.9,表示X和Y之間有較強(qiáng)的相

關(guān)性。P和t的數(shù)值大小沒有統(tǒng)計(jì)意義,只是將其與某一個(gè)閾值進(jìn)行比對(duì),以得

到二選一的結(jié)論。

67.在支持向量機(jī)中,()允許支持向量機(jī)在一些樣本上出錯(cuò)。

A、硬間隔

B、軟間隔

C、核函數(shù)

D、拉格朗日乘子

答案:B

解析:在支持向量機(jī)中,軟間隔允許支持向量機(jī)在一些樣本上出錯(cuò)。

68.假如使用邏輯回歸對(duì)樣本進(jìn)行分類,得到訓(xùn)練樣本的準(zhǔn)確率和測(cè)試樣本的準(zhǔn)

確率。現(xiàn)在,在數(shù)據(jù)中增加一個(gè)新的特征,其它特征保持不變。然后重新訓(xùn)練測(cè)

試。則下列說(shuō)法正確的是()o

A、訓(xùn)練樣本準(zhǔn)確率一定會(huì)降低

B、訓(xùn)練樣本準(zhǔn)確率一定增加或保持不變

C、測(cè)試樣本準(zhǔn)確率一定會(huì)降低

D、測(cè)試樣本準(zhǔn)確率一定增加或保持不

答案:B

解析:在模型中增加更多特征一般會(huì)增加訓(xùn)練樣本的準(zhǔn)確率,減小偏差。但測(cè)試

樣本準(zhǔn)確率不一定增加,除非增加的特征是有效特征。

69.彩色圖像增強(qiáng)時(shí),()處理可以采用RGBo

A、直方圖均衡化

B、同態(tài)濾波

C、加權(quán)均值濾波

D、中值濾

答案:C

解析:RGB是彩色圖像的三通道像素值,均值濾波進(jìn)行的是線性操作,不影響原

本圖像的相對(duì)亮度。

70.聚類算法的性能度量可稱為()o

A、密度估計(jì)

B、異常檢測(cè)

C、有效性指標(biāo)

D、分布結(jié)

答案:C

解析:聚類算法的性能度量可稱為有效性指標(biāo)。

71.關(guān)于循環(huán)神經(jīng)網(wǎng)絡(luò)設(shè)計(jì)的敘述中,錯(cuò)誤的是()o

A、能處理可變長(zhǎng)度的序列

B、基于圖展開思想

C、基于參數(shù)共享思想

D、循環(huán)神經(jīng)網(wǎng)絡(luò)不可應(yīng)用于圖像數(shù)

答案:D

解析:深度學(xué)習(xí)基礎(chǔ)知識(shí)。

72.機(jī)器學(xué)習(xí)算法在學(xué)習(xí)過程中對(duì)某種類型假設(shè)的偏好,稱為()o

A、訓(xùn)練偏好

B、歸納偏好

C、分析偏好

D、假設(shè)偏

答案:B

解析:機(jī)器學(xué)習(xí)算法在學(xué)習(xí)過程中對(duì)某種類型假設(shè)的偏好,稱為歸納偏好。

73.我們建立一個(gè)5000個(gè)特征,100萬(wàn)數(shù)據(jù)的機(jī)器學(xué)習(xí)模型.我們?cè)趺从行У貞?yīng)對(duì)

這樣的大數(shù)據(jù)訓(xùn)練()o

A、我們隨機(jī)抽取一些樣本,在這些少量樣本之上訓(xùn)練

B、我們可以試用在線機(jī)器學(xué)習(xí)算法

C、我們應(yīng)用P算法降維,減少特征數(shù)

D、以上答案都正

答案:D

解析:樣本數(shù)過多,或者特征數(shù)過多,而不能單機(jī)完成訓(xùn)練,可以用小批量樣本訓(xùn)

練,或者在線累計(jì)式訓(xùn)練,或者主成分PCA降維方式減少特征數(shù)量再進(jìn)行訓(xùn)練。

74.下列不屬于action操作的是O

A、coIIect

B、fiIter

C、reduce

D、count

答案:B

解析:Action常用的函數(shù)為reduce、collect、count、take、first、foreach

75.SLIC算法的主要目的是()o

A、目標(biāo)識(shí)別

B、前景和背景分離

C、超像素提取

D、語(yǔ)義分

答案:C

解析:SLIC是基于K-means算法的生成超像素新方法,SLIC是超像素中心周圍

的區(qū)域2sx2s中進(jìn)行類似像素的搜索

76.當(dāng)訓(xùn)練集特征非常多,而實(shí)例非常少的時(shí)候,可以采用()o

A、sigmoid核的支持向量機(jī)

B、不帶核的支持向量機(jī)

C、高斯核的支持向量機(jī)

D、多項(xiàng)式核的支持向量機(jī)

答案:B

解析:當(dāng)不采用非常復(fù)雜的函數(shù),或者當(dāng)我們的訓(xùn)練集特征非常多但是實(shí)例非常

少的時(shí)候,可以采用不帶核函數(shù)的支持向量機(jī)。

77.圖像中虛假輪廓的出現(xiàn)就其本質(zhì)而言是()o

A、圖像的灰度級(jí)數(shù)不夠多而造成的

B、圖像的空間分辨率不夠高而造成的

C、圖像的灰度級(jí)數(shù)過多而造成的

D、圖像的空間分辨率過高而造成

答案:A

解析:圖像中的虛假輪廓最易在平滑區(qū)域內(nèi)產(chǎn)生。平滑區(qū)域內(nèi)灰度應(yīng)緩慢變化,

但當(dāng)圖像的灰度級(jí)數(shù)不夠多時(shí)會(huì)產(chǎn)生階躍。所以圖像中虛假輪廓的出現(xiàn)就其本質(zhì)

而言是圖像的灰度級(jí)數(shù)不夠多而造成的,選A。

78.下列關(guān)于L1正則化與L2正則化描述錯(cuò)誤的是()o

A、L1范數(shù)正則化有助于降低過擬合風(fēng)險(xiǎn)

B、L2范數(shù)正則化有助于降低過擬合風(fēng)險(xiǎn)

C、L1范數(shù)正則化比L2范數(shù)正則化更有易于獲得稀疏解

D、L2范數(shù)正則化比L1范數(shù)正則化更有易于獲得稀疏

答案:D

解析:周志華機(jī)器學(xué)習(xí)

79.以下哪些算法,可以用神經(jīng)網(wǎng)絡(luò)去構(gòu)造(_)。1)KNN2)線性回歸3)對(duì)數(shù)幾

率回歸

A、1和2

B、2和3

C、1,2和3

D、以上答案都不正

答案:B

解析:1、KNN算法不需要訓(xùn)練參數(shù),而所有神經(jīng)網(wǎng)絡(luò)都需要訓(xùn)練參數(shù),因此神經(jīng)

網(wǎng)絡(luò)幫不上忙。2、最簡(jiǎn)單的神經(jīng)網(wǎng)絡(luò),感知器,其實(shí)就是線性回歸的訓(xùn)練。3、我

們可以用一層的神經(jīng)網(wǎng)絡(luò)構(gòu)造對(duì)數(shù)幾率回歸。

80.下列屬于卷積網(wǎng)絡(luò)類型分類的是(_)o

A、普通卷積

B、擴(kuò)張卷積

C、轉(zhuǎn)置卷積

D、以上答案都正

答案:D

解析:卷積神經(jīng)網(wǎng)絡(luò)四種卷積類型:普通卷積,擴(kuò)張卷積,轉(zhuǎn)置卷積,可分離卷

積。

81.詞袋模型中的文本向量每個(gè)元素表示該詞的()。

A、頻率

B、順序

C、含義

D、語(yǔ)義關(guān)

答案:A

解析:詞袋模型是最基礎(chǔ)的文本表示模型,就是把每一篇文章看成一袋子單詞,

并忽略每個(gè)詞出現(xiàn)的順序。每篇文章可以表示成一個(gè)長(zhǎng)向量,向量中的每一維代

表一個(gè)單詞,而該維對(duì)應(yīng)的權(quán)重代表這個(gè)詞在文章中的重要程度,重要程度是由

頻率來(lái)衡量的。

82.以下不屬于基于區(qū)域的圖像分割方法的是()o

A、區(qū)域生長(zhǎng)法

B、分水嶺算法

C、大津算法

D、基于圖論的分割算

答案:C

解析:大津算法是基于圖像灰度分布的圖像分割方法。

83.大數(shù)據(jù)應(yīng)用需依托的新技術(shù)有()。

A、大規(guī)模存儲(chǔ)與計(jì)算

B、數(shù)據(jù)分析處理

C、智能化

D、三個(gè)選項(xiàng)都是

答案:D

解析:適用于大數(shù)據(jù)的技術(shù),包括大規(guī)模并行處理(MPP)數(shù)據(jù)庫(kù)、數(shù)據(jù)挖掘、

分布式文件系統(tǒng)、分布式數(shù)據(jù)庫(kù)、云計(jì)算平臺(tái)、互聯(lián)網(wǎng)和可擴(kuò)展的存儲(chǔ)系統(tǒng)、智

能化相關(guān)技術(shù)等。

84.CNN神經(jīng)網(wǎng)絡(luò)對(duì)圖像特征提取帶來(lái)了變革性的變化,使之前的人工特征提取

升級(jí)到數(shù)據(jù)驅(qū)動(dòng)的自動(dòng)特征提取,在CNN中,起到特征提取作用的網(wǎng)絡(luò)層是:(_

Jo

A、convoIution層

B、fulIconnect層

C、maxpooIing層

D、norm

答案:A

解析:卷積層負(fù)責(zé)提取特征,采樣層負(fù)責(zé)特征選擇,全連接層負(fù)責(zé)分類。

85.下列關(guān)于RNN說(shuō)法正確的是(_)o

A、RNN可以應(yīng)用在NLP領(lǐng)域

B、LSTM是RNN的一個(gè)變種

C、在RNN中一個(gè)序列當(dāng)前的輸出與前面的輸出也有關(guān)

D、以上答案都正

答案:D

解析:RNN是一種人造神經(jīng)網(wǎng)絡(luò),它通過賦予網(wǎng)絡(luò)圖附加權(quán)重來(lái)創(chuàng)建循環(huán)機(jī)制,

以維持內(nèi)部的狀態(tài)。在擁有狀態(tài)以后,便能在序列預(yù)測(cè)中明確地學(xué)習(xí)并利用上下

文信息,如順序或時(shí)間成分,因此RNN適用于自然語(yǔ)言處理。RNN中一個(gè)序列當(dāng)

前的輸出與前面的輸出有關(guān)。LSTM在RNN基礎(chǔ)上進(jìn)行了改進(jìn),能夠?qū)W習(xí)到長(zhǎng)期

依賴關(guān)系,因此是RNN的一個(gè)變種。

86.選擇哪一個(gè)解作為輸出,將由學(xué)習(xí)算法的歸納偏好決定,常見的做法是引入

()0

A、線性回歸

B、線性判別分析

G正則化項(xiàng)

D、偏置

答案:C

解析:選擇哪一個(gè)解作為輸出,將由學(xué)習(xí)算法的歸納偏好決定,常見的做法是引

入正則化(regular!zation)項(xiàng)。

87.圖像灰度方差說(shuō)明了圖像的哪一個(gè)屬性O(shè)。

A、平均灰度

B、圖像對(duì)比度

C、圖像整體亮度

D、圖像細(xì)

答案:B

解析:方差反應(yīng)圖像的高頻部分的大小;如果圖片對(duì)比度小,那方差就小;如果

圖片對(duì)比度很大,那方差就大;方差;每個(gè)像素點(diǎn)的灰度值減去圖像平均灰度值

的平方和除以總的像素個(gè)數(shù)

88.Hadoop中partition()函數(shù)描述正確的是()。

A、分區(qū)函數(shù)

B、特征函數(shù)

C、算法函數(shù)

D、排序函數(shù)

答案:A

解析:partition代表分區(qū)函數(shù),其他選項(xiàng)都不符合題意。

89.在Hadoop中,下面哪個(gè)是默認(rèn)的InputFormat類型,它將每行內(nèi)容作為新值,

而將字節(jié)偏移量作為key()o

A、FiIeInputFormat

B、TextInputFormat

C、KeyVaIueTextInputFormat

D、bineTextInputForma

答案:B

解析:TextInputFormat是默認(rèn)的InputFormat。每條記錄是一行輸入。鍵Key

是LongWritable類型,存儲(chǔ)該行在整個(gè)文件中的字節(jié)偏移量。

90.Hadoop中,Reducer的三個(gè)階段是_。

AvShuffIe-Sort-Reduce

B、Shuffle-Reduce-Sort

CxReduce-ShuffIe-Sort

D、Sort-ShuffIe-Reduce

答案:A

解析:Reducer主要分為三個(gè)步驟ShuffIe洗牌、Sort排序和Reduce

91.機(jī)器學(xué)習(xí)訓(xùn)練時(shí),Mini-Batch的大小優(yōu)選為2的鬲,如256或512。它背后

的原因是什么()。

A、Mini-Batch為偶數(shù)的時(shí)候,梯度下降算法訓(xùn)練的更快

B、Mini-tch設(shè)為2的鬲,是為了符合CPU、GPU的內(nèi)存要求,利于并行化處理

C、不使用偶數(shù)時(shí),損失函數(shù)是不穩(wěn)定的

D、以上答案都不正

答案:B

解析:Mini-Batch設(shè)為2的鬲,是為了符合CPU、GPU的內(nèi)存要求,利于并行化

處理

92.在深度學(xué)習(xí)中,下列對(duì)于sigmoid函數(shù)的說(shuō)法,錯(cuò)誤的是()。

A、存在梯度爆炸的問題

B、不是關(guān)于原點(diǎn)對(duì)稱

G計(jì)算exp比較耗時(shí)

D、存在梯度消失的問

答案:A

解析:sigmoid函數(shù)存在的是梯度消失問題。

93.MapReduce編程模型,鍵值對(duì)的key必須實(shí)現(xiàn)哪個(gè)接口()

AxWritabIeparable;

Bxparable;

GWritable;

D、LongWritable;

答案:A

解析:hadoop為Key的數(shù)據(jù)類型必須實(shí)現(xiàn)WritabIeparable,而Value的數(shù)據(jù)類

型只需要實(shí)現(xiàn)Writable即可

94.以下不是開源工具特點(diǎn)的是()。

A、免費(fèi)

B、可以直接獲取源代碼

C、用戶可以修改源代碼并不加說(shuō)明用于自己的軟件中

D、開源工具一樣具有版權(quán)

答案:C

解析:在延伸的代碼中(修改和有源代碼衍生的代碼中)需要帶有原來(lái)代碼中的

協(xié)議,商標(biāo),專利聲明和其他原來(lái)作者規(guī)定需要包含的說(shuō)明。如果再發(fā)布的產(chǎn)品

中包含一^Notice文件,則在Notice文件中需要帶有開源工具的Licence。你

可以在Notice中增加自己的許可,但不可以表現(xiàn)為對(duì)開源工具Licence構(gòu)成更

改。

95.下面哪個(gè)程序負(fù)責(zé)HDFS數(shù)據(jù)存儲(chǔ)()o

A、NameNode

B、Jobtracker

C、Datanode

D、secondaryNameNod

答案:C

解析:Datanode負(fù)責(zé)HDFS的數(shù)據(jù)塊存儲(chǔ)。

96.下列圖像邊緣檢測(cè)算子中抗噪性能最好的是()。

A、梯度算子

B、Prewitt算子

C、Roberts算子

D、LapIacian算

答案:B

解析:Prewitt算子是一種一階微分算子的邊緣檢測(cè),利用像素點(diǎn)上下'左右鄰

點(diǎn)的灰度差,在邊緣處達(dá)到極值檢測(cè)邊緣,去掉部分偽邊緣,對(duì)噪聲具有平滑作

用。

97.以下關(guān)于新舊MapReduceAPI的描述錯(cuò)誤的是()

A、新I放在org.apache,hadoop.mapreduce包中,而舊I則是放在org.apache,

hadoop.mapred中

B、新API傾向于使用接口方式,而舊API傾向于使用抽象類

G新API使用nfiguration,而舊API使用Jobnf來(lái)傳遞配置信息

D、新API可以使用Job對(duì)象來(lái)提交作業(yè)

答案:B

解析:在新API中,原來(lái)的大量接口都被改成了抽象類。所以使用新API編寫M

R程序時(shí),都是由實(shí)現(xiàn)接口變成集成抽象類,因此B錯(cuò)。

98.給定詞匯表如下:{Bob,ok,Iike,footbaII,car}0則下面句子BotIikesfoot

ball的詞袋模型表示為:

A、[11100]

B、[10110]

C、[10010]

D、[01101

答案:B

解析:統(tǒng)計(jì)自然語(yǔ)言處理語(yǔ)言模型P162,命名實(shí)體翻譯P585統(tǒng)計(jì)文檔中每個(gè)詞

的數(shù)量,根據(jù)詞表的位置,將各個(gè)詞的數(shù)量拼接成一個(gè)向量即可。

99.給定一個(gè)長(zhǎng)度為n的不完整單詞序列,我們希望預(yù)測(cè)下一個(gè)字母是什么。比

如輸入是predict2(9個(gè)字母組成),希望預(yù)測(cè)第十個(gè)字母是什么。下面哪種神

經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)適用于解決這個(gè)工作()

A、循環(huán)神經(jīng)網(wǎng)絡(luò)

B、全連接神經(jīng)網(wǎng)絡(luò)

C、受限波爾茲曼機(jī)

D、卷積神經(jīng)網(wǎng)

答案:A

解析:循環(huán)神經(jīng)網(wǎng)絡(luò)具有記憶性、參數(shù)共享并且圖靈完備,因此在對(duì)序列的非線

性特征進(jìn)行學(xué)習(xí)時(shí)具有一定優(yōu)勢(shì)。循環(huán)神經(jīng)網(wǎng)絡(luò)在自然語(yǔ)言處理(NaturalLang

uageProcessing.NLP),例如語(yǔ)音識(shí)別、語(yǔ)言建模、機(jī)器翻譯等領(lǐng)域有應(yīng)用,也

被用于各類時(shí)間序列預(yù)報(bào)。

100.Hadoop生態(tài)系統(tǒng)中,HBase是一種()。

A、分布式文件系統(tǒng)

B、數(shù)據(jù)倉(cāng)庫(kù)

C、實(shí)時(shí)分布式數(shù)據(jù)庫(kù)

D、分布式計(jì)算系統(tǒng)

答案:C

解析:HBase是一個(gè)面向列的實(shí)時(shí)分布式數(shù)據(jù)庫(kù)。

101.Hadoop生態(tài)系統(tǒng)中,()主要解決的是日志類數(shù)據(jù)的收集和處理問題。

A、Mahout

B、Flume

C、Sqoop

D、HBase

答案:B

解析:Flume主要用于日志采集,其中的agent里面包含3個(gè)核心的組件sourc

e(采集/輸入)-channel(緩存/管道)->sink(輸出),類似生產(chǎn)者、倉(cāng)庫(kù)'

消費(fèi)者的架構(gòu)。

102.兩個(gè)變量相關(guān),它們的相關(guān)系數(shù)r可能為0。這句話是否正確()

A、正確

B、錯(cuò)

答案:A

解析:Pearson相關(guān)系數(shù)r=0,這表示兩個(gè)變量間不存在線性相關(guān)關(guān)系。

103.當(dāng)在卷積神經(jīng)網(wǎng)絡(luò)中加入池化層(poolinglayer)時(shí),變換的不變性會(huì)被保留,

是嗎()

A、不知道

B、看情況

C、是

答案:C

解析:使用池化時(shí)會(huì)導(dǎo)致出現(xiàn)不變性。

104.一篇文章中某些名詞的TF-IDF值比較大,則說(shuō)明()。

A、這些名詞對(duì)這篇文章的區(qū)分度比較高

B、這些名詞對(duì)這篇文章的區(qū)分度比較低

C、不能說(shuō)明什么

D、以上答案都不正

答案:A

解析:TF-IDF是一種統(tǒng)計(jì)方法,用以評(píng)估一字詞對(duì)于一個(gè)文件集或一個(gè)語(yǔ)料庫(kù)

中的其中一份文件的重要程度。名詞的TFTDF值越大說(shuō)明這些名詞對(duì)這篇文章

的區(qū)分度越高。

105.圖像降噪一般可分為以下哪幾類()o

A、加性噪聲

B、乘性噪聲

C、量化噪聲

D、以上答案都正

答案:D

解析:噪聲是圖像干擾的重要原因。一幅圖像在實(shí)際應(yīng)用中可能存在各種各樣的

噪聲,這些噪聲可能在傳輸中產(chǎn)生,也可能在量化等處理中產(chǎn)生。根據(jù)噪聲和信號(hào)

的關(guān)系可將其分為三種形式:(f(x,y)表示給定原始圖像,g(x,y)表示圖像信號(hào),n

(x,y)表示噪聲。)1、加性噪聲,此類噪聲與輸入圖像信號(hào)無(wú)關(guān),含噪圖像可表示

為f(x,y)=g(x,y)+n(x,y),信道噪聲及光導(dǎo)攝像管的攝像機(jī)掃描圖像時(shí)產(chǎn)生的

噪聲就屬這類噪聲;2、乘性噪聲,此類噪聲與圖像信號(hào)有關(guān),含噪圖像可表示為f

(x,y)-g(x,y)+n(x,y)g(x,y),飛點(diǎn)掃描器掃描圖像時(shí)的噪聲,電視圖像中的相干

噪聲,膠片中的顆粒噪聲就屬于此類噪聲。3、量化噪聲,此類噪聲與輸入圖像信

號(hào)無(wú)關(guān),是量化過程存在量化誤差,再反映到接收端而產(chǎn)生。

106.絕對(duì)多數(shù)投票法的基本思想是()。

A、對(duì)于若干和弱學(xué)習(xí)器的輸出進(jìn)行平均得到最終的預(yù)測(cè)輸出

B、少數(shù)服從多數(shù),數(shù)量最多的類別為最終的分類類別

C、不光要求獲得最高票,還要求票過半數(shù)

D、將訓(xùn)練集弱學(xué)習(xí)器的學(xué)習(xí)結(jié)果作為輸入,將訓(xùn)練集的輸出作為輸出,重新訓(xùn)

練一個(gè)學(xué)習(xí)器來(lái)得到最終結(jié)果

答案:C

解析:絕對(duì)多數(shù)投票法若某標(biāo)記得票過半數(shù),則預(yù)測(cè)為該標(biāo)記;否則拒絕預(yù)測(cè)。

107.圖像平滑會(huì)造成()o

A、圖像邊緣模糊化

B、圖像邊緣清晰化

C、無(wú)影響

D、以上答案都不正

答案:A

解析:為了抑制噪聲,使圖像亮度趨于平緩的處理方法就是圖像平滑。圖像平滑

實(shí)際上是低通濾波,平滑過程會(huì)導(dǎo)致圖像邊緣模糊化。

108.以下關(guān)于Hadoop中MapReduce說(shuō)法正確的是()。

A、可以沒有reduce任務(wù)

B、Reducer輸入為隨機(jī)輸入

C、shuffle主要實(shí)現(xiàn)數(shù)據(jù)可視化功能

D、一個(gè)reducer只能從一個(gè)map復(fù)制所需要的partitio

答案:A

解析:MapReduce中的reduce并不是必須存在的。

109.高通濾波后的圖像通常較暗,為改善這種情況,將高通濾波器的轉(zhuǎn)移函數(shù)加

上一常數(shù)量以便于引入一些低頻分量。這樣濾波器叫()o

A、巴特沃斯高通濾波器

B、高頻提升濾波器

C、局頻加強(qiáng)濾波器

D、理想高通濾波

答案:B

解析:高頻增強(qiáng)濾波器由于相對(duì)削弱了低頻成分,因而濾波所得的圖像往往偏暗。

110.對(duì)MapReduce計(jì)算框架中生成的鍵值對(duì)的說(shuō)法正確的是(_)。

A、可以有相同的鍵,值必須唯一;

B、可以有相同的值,鍵必須唯一;

C、可以有相同的鍵,也可以有相同的值;

D、鍵和值都必須唯一;

答案:C

解析:鍵值對(duì)中的“鍵”和“值”并沒有必然的聯(lián)系,兩者可以相同。

111.當(dāng)學(xué)習(xí)器將訓(xùn)練樣本自身的特點(diǎn)作為所有潛在樣本都具有的一般性質(zhì),這樣

會(huì)導(dǎo)致泛化性能下降,這種現(xiàn)象稱之為()o

A、欠擬合

B、過擬合

C、擬合

D、以上答案都不正

答案:B

解析:當(dāng)學(xué)習(xí)器把訓(xùn)練樣本學(xué)得太好了的時(shí)候,很可能巳經(jīng)把訓(xùn)練樣本自身的一

些特點(diǎn)當(dāng)作了所有潛在樣本都會(huì)具有的一般性質(zhì),這樣就會(huì)導(dǎo)致泛化性能下降這

種現(xiàn)象在機(jī)器學(xué)習(xí)中稱為過擬合。

112.數(shù)據(jù)的可用性取決于()。

A、數(shù)據(jù)分析

B、數(shù)據(jù)集采

C、數(shù)據(jù)質(zhì)量

D、數(shù)據(jù)需求

答案:C

解析:略

113.Spark可以處理的數(shù)據(jù)任務(wù)包括()

A、數(shù)據(jù)批處理任務(wù);

B、交互式處理任務(wù);

C、圖數(shù)據(jù)處理任務(wù);

D、A,B和C;

答案:D

解析:Spark可以很好地支持流計(jì)算、交互式處理、圖計(jì)算等多種計(jì)算模式。

114.屬于卷積神經(jīng)網(wǎng)絡(luò)應(yīng)用方向的是(_)。

A、圖像分類

B\目標(biāo)檢;則

C、圖像語(yǔ)義分割

D、以上答案都正

答案:D

解析:卷積神經(jīng)網(wǎng)絡(luò)應(yīng)用于圖像分類,目標(biāo)檢測(cè)及圖像語(yǔ)義分割。

115.Adaboost的核心思想是()。

A、給定一個(gè)弱學(xué)習(xí)算法和一個(gè)訓(xùn)練集,將該學(xué)習(xí)算法使用多次,得出預(yù)測(cè)函數(shù)序

列,進(jìn)行投票

B、針對(duì)同一個(gè)訓(xùn)練集訓(xùn)練不同的弱分類器集合起來(lái),構(gòu)成一個(gè)強(qiáng)分類器

C、利用多棵樹對(duì)樣本進(jìn)行訓(xùn)練并預(yù)測(cè)的一種分類器

D、基于前向策略的加法模型,每階段使用一個(gè)基模型去擬合上一階段基模型的殘

答案:B

解析:Adaboost的核心思想是給定一個(gè)弱學(xué)習(xí)算法和一個(gè)訓(xùn)練集,將該學(xué)習(xí)算

法使用多次,得出預(yù)測(cè)函數(shù)序列,進(jìn)行投票。

116.下列哪項(xiàng)方法不屬于圖像分割方法()o

A、邊緣檢測(cè)法

B、閾值分割法

C、區(qū)域分割法

D、特征提取

答案:D

解析:特征提取法屬于圖像配準(zhǔn)方法的范疇。

117.線性判別分析在二分類問題上,也稱為()。

A、線性回歸

B、對(duì)數(shù)幾率回歸

C、Fisher判別分析

D、主成分分

答案:C

解析:線性判別分析在二分類問題上,也稱為Fisher判別分析。

118.相關(guān)關(guān)系是一種與函數(shù)關(guān)系區(qū)別的非確定性關(guān)系,而相關(guān)分析就是研究事物

或現(xiàn)象之間是否存在這種非確定性關(guān)系的統(tǒng)計(jì)方法,以下不屬于相關(guān)性分析方法

的是()o

A、Pearson相關(guān)系數(shù)

B、Spearman秩相關(guān)系數(shù)

C\KendaII相關(guān)系數(shù)

D、傅里葉系數(shù)

答案:D

解析:傅里葉系數(shù)由Fouriercoefficient翻譯而來(lái),有多個(gè)中文譯名。它是數(shù)

學(xué)分析中的一個(gè)概念,常常被應(yīng)用在信號(hào)處理領(lǐng)域中。對(duì)于任意的周期信號(hào),如

果滿足一定條件,都可以展開三角函數(shù)的線性組合,每個(gè)展開項(xiàng)的系數(shù)稱為傅里

葉系數(shù),不能用于解釋相關(guān)性。

119.jieba分詞包含的分詞模式有()o

A、精確模式

B、全模式

C、搜索引擎模式

D、以上答案都正

答案:D

解析:jieba中文分詞支持的三種分詞模式包括⑴精確模式:試圖將句子最精

確地切開,適合文本分析;(2)全模式:把句子中所有的可以成詞的詞語(yǔ)都掃描

出來(lái),速度非常快,但是不能解決歧義問題;(3)搜索引擎模式:在精確模式的

基礎(chǔ)上,對(duì)長(zhǎng)詞再次切分,提高召回率,適合用于搜索引擎分詞。

120.一幅512*512的圖像,若灰度級(jí)數(shù)為16,則該圖像大小為()。

A、32KB

B、128KB

C、1MB

D、2M

答案:B

解析:512*512表示像素個(gè)數(shù),16級(jí)灰度用二進(jìn)制表示需要4位,故存儲(chǔ)圖像所

需的二進(jìn)制位數(shù)為:512*512*4,即1024Kbit,所需字節(jié)數(shù)除以8為128KB,注

意單位的不同。

121.如果我使用數(shù)據(jù)集的全部特征并且能夠達(dá)到100%的準(zhǔn)確率,但在測(cè)試集上

僅能達(dá)到70%左右,這說(shuō)明:()。

A、欠擬合

B、模型很棒

C、過擬合D.以上答案都不正

答案:C

解析:當(dāng)學(xué)習(xí)器把訓(xùn)練樣本學(xué)得太好了的時(shí)候,很可能巳經(jīng)把訓(xùn)練樣本自身的一

些特點(diǎn)當(dāng)作了所有潛在樣本都會(huì)具有的一般性質(zhì),這樣就會(huì)導(dǎo)致泛化性能下降這

種現(xiàn)象在機(jī)器學(xué)習(xí)中稱為過擬合。

122.MapReduce使用()來(lái)記錄不同事件的發(fā)生次數(shù)。

A、日志

B、事件觸發(fā)器

C、狀態(tài)列表

D、計(jì)數(shù)器

答案:D

解析:MapReduce使用計(jì)數(shù)器來(lái)記錄不同事件的發(fā)生次數(shù)。

123.常用的數(shù)據(jù)歸約方法可以分為()。

A、維歸約數(shù)據(jù)壓縮

B、維歸約參數(shù)歸約

C、維歸約值歸約

D、數(shù)據(jù)壓縮值歸約

答案:C

解析:常用的數(shù)據(jù)歸約方法有兩種:維歸約和值歸約。

124.下列屬于無(wú)監(jiān)督學(xué)習(xí)的是()。

AxK-means

B、SVM

c、最大熔

D、CRF

答案:A

解析:K-means是一個(gè)將數(shù)據(jù)集中在某些方面相似的數(shù)據(jù)成員進(jìn)行分類組織的過

程,這是一個(gè)典型聚類算法,聚類就是一種發(fā)現(xiàn)這種內(nèi)在結(jié)構(gòu)的技術(shù),該類算法

被稱為無(wú)監(jiān)督學(xué)習(xí)。

125.大數(shù)據(jù)中的小數(shù)據(jù)可能缺失、冗余、存在垃圾數(shù)據(jù)不影響大數(shù)據(jù)的可信數(shù)據(jù),

體現(xiàn)大數(shù)據(jù)“涌現(xiàn)”的()表現(xiàn)形式。

A、價(jià)值涌現(xiàn)

B、隱私涌現(xiàn)

C、質(zhì)量涌現(xiàn)

D、安全涌現(xiàn)

答案:C

解析:大數(shù)據(jù)的“質(zhì)量涌現(xiàn)”是指大數(shù)據(jù)中的成員小數(shù)據(jù)可能有質(zhì)量問題(不可

信的數(shù)據(jù)),如缺失、冗余、垃圾數(shù)據(jù)的存在,但不影響大數(shù)據(jù)的質(zhì)量(可信的

數(shù)據(jù))。

126.對(duì)于隨機(jī)森林和GBDT,下面說(shuō)法正確的是()o

A、在隨機(jī)森林的單個(gè)樹中,樹和樹之間是有依賴的,而GBDT中的單個(gè)樹之間是沒

有依賴的

B、這兩個(gè)模型都使用隨機(jī)特征子集,來(lái)生成許多單個(gè)的樹

C、我們可以并行地生成GBDT單個(gè)樹,因?yàn)樗鼈冎g是沒有依賴的

D、GB訓(xùn)練模型的表現(xiàn)總是比隨機(jī)森林

答案:B

解析:組成隨機(jī)森林的樹可以并行生成;而GBDT只能是串行生成

127.協(xié)同過濾分析用戶興趣,在用戶群中找到指定用戶的相似(興趣)用戶,綜合

這些用戶對(duì)某一信息的評(píng)價(jià),形成系統(tǒng)對(duì)該指定用戶對(duì)此信息的喜好程度(),

并將這些用戶喜歡的項(xiàng)推薦給有相似興趣的用戶。

A、相似

B、相同

C、推薦

D、預(yù)

答案:D

解析:協(xié)同過濾簡(jiǎn)單來(lái)說(shuō)是利用某興趣相投、擁有共同經(jīng)驗(yàn)之群體的喜好來(lái)推薦

用戶感興趣的信息,個(gè)人通過合作的機(jī)制給予信息相當(dāng)程度的回應(yīng)(如評(píng)分)并

記錄下來(lái)以達(dá)到過濾的目的進(jìn)而幫助別人篩選信息。

128.DataFrame和RDD最大的區(qū)別是()。

A、科學(xué)統(tǒng)計(jì)支持

B、多了schema

C、存儲(chǔ)方式不一樣

D、外部數(shù)據(jù)源支

答案:B

解析:相比于RDD,DataFrame多了數(shù)據(jù)的結(jié)構(gòu)信息,即schema

129.()是實(shí)現(xiàn)數(shù)據(jù)戰(zhàn)略的重要保障。

A、數(shù)據(jù)管理

B、數(shù)據(jù)分析

C、數(shù)據(jù)治理

D、數(shù)據(jù)規(guī)劃

答案:C

解析:從DMM模型可以看出,數(shù)據(jù)治理是實(shí)現(xiàn)數(shù)據(jù)戰(zhàn)略的重要保障。數(shù)據(jù)管理的

是指通過管理“數(shù)據(jù)”實(shí)現(xiàn)組織機(jī)構(gòu)的某種業(yè)務(wù)目的。然而,數(shù)據(jù)治理則指如何

確保“數(shù)據(jù)管理”的順利、有效、科學(xué)地完成。

130.數(shù)據(jù)整合和分組的說(shuō)法,不正確的是()o

A、數(shù)據(jù)連接可以用concat或merge函數(shù)

B、axis=1表示軸向連接

C、數(shù)據(jù)分組可以使用mean函數(shù)

D、使用agg可以自定義多個(gè)聚合函數(shù)

答案:C

解析:數(shù)據(jù)分組不可以使用mean函數(shù),mean函數(shù)為求平均數(shù)函數(shù)。

131.在支持向量機(jī)中,核函數(shù)的主要作用是()o

A、將低維空間中線性不可分的數(shù)據(jù)映射到高維空間,使其線性可分

B、將高維空間中線性不可分的數(shù)據(jù)映射到低維空間,使其線性可分

C、將高維空間中線性可分的數(shù)據(jù)映射到低維空間,使其線性不可分

D、將低維空間中線性可分的數(shù)據(jù)映射到高維空間,使其線性不可

答案:A

解析:核函數(shù)的作用是將低維空間中線性不可分的數(shù)據(jù)映射到高維空間,使其線

性可分。

132.文檔是待處理的數(shù)據(jù)對(duì)象,它由一組詞組成,這些詞在文檔中不計(jì)順序的額,

例如一篇論文、一個(gè)網(wǎng)頁(yè)都可以看做一個(gè)文檔;這樣的表示方式稱為()o

A、語(yǔ)句

B、詞袋

C、詞海

D、詞

答案:B

解析:詞袋模型下,像是句子或是文件這樣的文字可以用一個(gè)袋子裝著這些詞的

方式表現(xiàn),這種表現(xiàn)方式不考慮文法以及詞的順序。

133.標(biāo)準(zhǔn)BP算法的目標(biāo)是使訓(xùn)練集上的()為最小。

A、累積方差

B、累積誤差

C、累積協(xié)方差

D、累積偏

答案:B

解析:標(biāo)準(zhǔn)BP算法的目標(biāo)是使訓(xùn)練集上的累積誤差最小。

134.以下關(guān)于圖像識(shí)別任務(wù)的敘述,錯(cuò)誤的是()。

A、目標(biāo)在于檢測(cè)出圖像中的對(duì)象是什么

B、在識(shí)別前往往需要對(duì)圖像進(jìn)行預(yù)處理

C、N是一種常用的圖像識(shí)別網(wǎng)絡(luò)

D、圖像的采集和傳輸方式對(duì)于圖像識(shí)別結(jié)果沒有影

答案:D

解析:圖像處理基礎(chǔ)知識(shí)。

135.關(guān)于boosting下列說(shuō)法錯(cuò)誤的是O。

A、boosting方法的主要思想是迭代式學(xué)

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論