




版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
大數(shù)據(jù)理論考試復(fù)習(xí)題庫(kù)大全-上(單選題部分)
一'單選題
1.把圖像分割問題與圖的最小割(mincut)問題相關(guān)聯(lián)的方法是()。
A、基于圖論的分割方法
B、分水嶺算法
C、SLI法
D、基于閾值的方
答案:A
解析:基于圖論的分割方法把圖像分割問題與圖的最小割(mincut)問題相關(guān)聯(lián)。
首先將圖像映射為帶權(quán)無(wú)向圖,圖中每個(gè)節(jié)點(diǎn)對(duì)應(yīng)于圖像中的每個(gè)像素,每條邊
的權(quán)值表示了相鄰像素之間在灰度、顏色或紋理方面的非負(fù)相似度。
2.MapReduce里面的query、sort和limit等都是針對(duì)哪個(gè)階段的操作?
A、Map()之前;
B、Reduce()之前;
GReduce()之后;
D、finalize()之后;
答案:A
解析:query是一個(gè)篩選條件,只有滿足條件的文檔才會(huì)調(diào)用map函數(shù);sort
是在發(fā)往map函數(shù)前給文檔排序;limit是發(fā)往map函數(shù)的文檔數(shù)量的上限,所
以它們都是在Map()之前。
3.下列哪個(gè)程序通常與NameNode在一個(gè)節(jié)點(diǎn)啟動(dòng)()
AxSecondaryNameNode
B、DataNode
C、TaskTracker
D、Jobtracker
答案:D
解析:hadoop的集群是基于master/sIave模式,namenode和jobtracker屬于
master,datanode和tasktracker屬于sIave,master只有一個(gè),而slave有
多個(gè)。SecondaryNameNode內(nèi)存需求和NameNode在一個(gè)數(shù)量級(jí)上,所以通常se
condaryNameNode(運(yùn)行在單獨(dú)的物理機(jī)器上)和NameNode運(yùn)行在不同的機(jī)器上。
JobTracker對(duì)應(yīng)于NameNode0TaskTracker對(duì)應(yīng)于DataNodeoDataNode和Nam
eNode是針對(duì)數(shù)據(jù)存放來(lái)而言的,JobTracker和TaskTracker是對(duì)于MapReduce
執(zhí)行而言的。
4.在回歸模型中,下列哪一項(xiàng)在權(quán)衡欠擬合(under-fitting)和過擬合(over
-fitting)中影響最大()
A、多項(xiàng)式階數(shù)
B、更新權(quán)重w時(shí),使用的是矩陣求逆
C、使用常數(shù)項(xiàng)D.使用梯度下降
答案:A
解析:選擇合適的多項(xiàng)式階數(shù)非常重要。如果階數(shù)過大,模型就會(huì)更加復(fù)雜,容
易發(fā)生過擬合;如果階數(shù)較小,模型就會(huì)過于簡(jiǎn)單,容易發(fā)生欠擬合。
5.數(shù)據(jù)探索是指針對(duì)目標(biāo)可變、持續(xù)'多角度的搜索或分析任務(wù),下列哪項(xiàng)不是
其搜索過程的特點(diǎn)Oo
A、有選擇
B、有策略
C、有目標(biāo)
D、反復(fù)進(jìn)行的
答案:c
解析:數(shù)據(jù)探索是指針對(duì)目標(biāo)可變、持續(xù)'多角度的搜索或分析任務(wù),其搜索過
程是有選擇'有策略和反復(fù)進(jìn)行的。
6.()不僅可用于多層前饋神經(jīng)網(wǎng)絡(luò),還可用于其他類型的神經(jīng)網(wǎng)絡(luò)。
A、感知機(jī)
B、神經(jīng)元
C、神經(jīng)系統(tǒng)
D、誤差逆?zhèn)?/p>
答案:D
解析:誤差逆?zhèn)鞑?errorBackPropagation,簡(jiǎn)稱BP)算法不僅可用于多層前饋
神經(jīng)網(wǎng)絡(luò),還可用于其他類型的神經(jīng)網(wǎng)絡(luò),例如訓(xùn)練遞歸神經(jīng)網(wǎng)絡(luò)[Pineda,19
87]o
7.下列哪個(gè)不是RDD的緩存方法()
A、persist()
B、略
C、che()Memory()
D、以上答案都正
答案:c
解析:RDD的緩存方法包括persist和cache,其中cache方法默認(rèn)存儲(chǔ)到內(nèi)存
中。
8.Base原則的含義不包括()
A、基本可用
B、柔性狀態(tài)
C、最終一致
D、基礎(chǔ)條
答案:D
解析:BASE原則是BasicallyAvailabIe(基本可用)、SoftState(柔性狀態(tài))和E
ventuaIIyConsistent(最終一致)的縮寫。BasicaIIyAvaiIabIe是指可以容忍系
統(tǒng)的短期不可用,并不追求全天候服務(wù);SoftState是指不要求一直保持強(qiáng)一致
狀態(tài);EventualIyConsistent是指最終數(shù)據(jù)一致,而不是嚴(yán)格的實(shí)時(shí)一致,系
統(tǒng)在某一個(gè)時(shí)刻后達(dá)到一致性要求即可。
9.哪種聚類方法采用概率模型來(lái)表達(dá)聚類Oo
A、K-means
B、LVQ
C、DBSN
D、高斯混合聚
答案:D
解析:高斯混合聚類(MixtureofGaussian)采用概率模型來(lái)表達(dá)聚類。
10.下列關(guān)于支持向量回歸說(shuō)法錯(cuò)誤的是()o
A、支持向量回歸是將支持向量的方法應(yīng)用到回歸問題中
B、支持向量回歸同樣可以應(yīng)用核函數(shù)求解線性不可分的問題
C、同分類算法不同的是,支持向量回歸要最小化一個(gè)凹函數(shù)
D、支持向量回歸的解是稀疏
答案:C
解析:支持向量機(jī)最大間隔模型是一個(gè)凸二次規(guī)劃問題。
11.在集成學(xué)習(xí)中,對(duì)于數(shù)據(jù)型輸出,最常見的結(jié)合策略是O。
A、平均法
B、投票法
C、學(xué)習(xí)法
D、以上答案都正
答案:A
解析:在集成學(xué)習(xí)中,對(duì)于數(shù)據(jù)型輸出,最常見的結(jié)合策略平均法。對(duì)于分類任
務(wù)來(lái)說(shuō),最常見的結(jié)合策略投票法。當(dāng)訓(xùn)練數(shù)據(jù)很多時(shí)?一種更為強(qiáng)大的結(jié)合策
略是使用學(xué)習(xí)法。
12.K-means++算法選擇初始seeds的基本思想就是:初始的聚類中心之間的相互
距離要盡可能的遠(yuǎn)。那么算法流程為Oo1.從輸入的數(shù)據(jù)點(diǎn)集合中隨機(jī)選擇一
個(gè)點(diǎn)作為第一個(gè)聚類中心2.對(duì)于數(shù)據(jù)集中的每一個(gè)點(diǎn)x,計(jì)算它與最近聚類中心
(指已選擇的聚類中心)的距離D(x)3.選擇一個(gè)新的數(shù)據(jù)點(diǎn)作為新的聚類中心,
選擇的原則是:D(x)較大的點(diǎn),被選取作為聚類中心的概率較大4.重復(fù)2和3
直到k個(gè)聚類中心被選出來(lái)5.利用這k個(gè)初始的聚類中心來(lái)運(yùn)行標(biāo)準(zhǔn)的k-mean
s算法
A、2.5.4.3.1
B、1.5.4.2.3
C、1.2.3.4.5
D、4.3.2.1.
答案:c
解析:k-means++算法基本流程為:1.從輸入的數(shù)據(jù)點(diǎn)集合中隨機(jī)選擇一個(gè)點(diǎn)作
為第一個(gè)聚類中心2.對(duì)于數(shù)據(jù)集中的每一個(gè)點(diǎn)x,計(jì)算它與最近聚類中心(指已
選擇的聚類中心)的距離D(x)3.選擇一個(gè)新的數(shù)據(jù)點(diǎn)作為新的聚類中心,選擇的
原則是:D(x)較大的點(diǎn),被選取作為聚類中心的概率較大4.重復(fù)2和3直到k
個(gè)聚類中心被選出來(lái)5.利用這k個(gè)初始的聚類中心來(lái)運(yùn)行標(biāo)準(zhǔn)的k-means算法
13.評(píng)估完模型之后,發(fā)現(xiàn)模型存在高偏差(highbias),應(yīng)該如何解決。。
A、減少模型的特征數(shù)量
B、增加模型的特征數(shù)量
C、增加樣本數(shù)量
D、以上答案都正
答案:B
解析:如果模型存在高偏差,意味著模型過于簡(jiǎn)單,為了使模型更加健壯,可以
在特征空間中添加更多的特征。而增加樣本數(shù)量將減少方差。
14.在Hadoop生態(tài)系統(tǒng)中,()可以將結(jié)構(gòu)化的數(shù)據(jù)文件映射成一張數(shù)據(jù)庫(kù)表,
并提供簡(jiǎn)單的查詢語(yǔ)言。
A、Pig
B、Hbase
C、Hive
D、MapReduce
答案:C
解析:Hive是構(gòu)建在hadoop上的數(shù)據(jù)倉(cāng)庫(kù)工具,可以將結(jié)構(gòu)化的數(shù)據(jù)文件映
射為一張數(shù)據(jù)庫(kù)表,可以用來(lái)進(jìn)行數(shù)據(jù)提取轉(zhuǎn)化加載(ETL),并提供簡(jiǎn)單的SQ
L查詢功能。
15.大數(shù)據(jù)平臺(tái)構(gòu)建分布式文件系統(tǒng)、分布式數(shù)據(jù)倉(cāng)庫(kù)、非關(guān)系型數(shù)據(jù)庫(kù)、關(guān)系
型數(shù)據(jù)庫(kù),實(shí)現(xiàn)各類數(shù)據(jù)的集中存儲(chǔ)與統(tǒng)一管理,滿足()存儲(chǔ)需求。
A、歷史數(shù)據(jù)
B、離線數(shù)據(jù)
C、實(shí)時(shí)數(shù)據(jù)
D、多樣化數(shù)據(jù)
答案:D
解析:大數(shù)據(jù)平臺(tái)構(gòu)建分布式文件系統(tǒng)、分布式數(shù)據(jù)倉(cāng)庫(kù)、非關(guān)系型數(shù)據(jù)庫(kù)、關(guān)
系型數(shù)據(jù)庫(kù),實(shí)現(xiàn)各類數(shù)據(jù)的集中存儲(chǔ)與統(tǒng)一管理,滿足多樣化數(shù)據(jù)存儲(chǔ)需求。
16.假負(fù)率是指()。
A、正樣本預(yù)測(cè)結(jié)果數(shù)/正樣本實(shí)際數(shù)
B、被預(yù)測(cè)為負(fù)的正樣本結(jié)果數(shù)/正樣本實(shí)際數(shù)
C、被預(yù)測(cè)為正的負(fù)樣本結(jié)果數(shù)/負(fù)樣本實(shí)際數(shù)
D、負(fù)樣本預(yù)測(cè)結(jié)果數(shù)/負(fù)樣本實(shí)際
答案:B
解析:假負(fù)率是指被預(yù)測(cè)為負(fù)的正樣本結(jié)果數(shù)/正樣本實(shí)際數(shù)。
17.不屬于Mayer-SchdnbergerV和CukierK.在其著名論著《Bigdata:ArevoIut
ionthatwiIItransformhowweIive,work,andthink》中提出了大數(shù)據(jù)時(shí)代統(tǒng)計(jì)的
思維變革的是()o
A、不是隨機(jī)樣本,而是全體數(shù)據(jù)
B、不是精確性,而是混雜性
C、不是描述性分析,而是預(yù)測(cè)性分析
D、不是因果關(guān)系,而是相關(guān)關(guān)
答案:C
解析:Mayer-SchdnbergerV和CukierK.在其著名論著《Bigdata/revolution
thatwiIItransformhowweIive,work,andthink》中提出了大數(shù)據(jù)時(shí)代統(tǒng)計(jì)的思維
變革:1)不是隨機(jī)樣本,而是全體數(shù)據(jù):大數(shù)據(jù)時(shí)代應(yīng)遵循“樣本=總體”的理
念,需要分析與某事物相關(guān)的所有數(shù)據(jù),而不是依靠分析少量的數(shù)據(jù)樣本。2)
不是精確性,而是混雜性:大數(shù)據(jù)時(shí)代應(yīng)承認(rèn)數(shù)據(jù)的復(fù)雜性,數(shù)據(jù)分析目的不應(yīng)
追求精確性,數(shù)據(jù)分析的主要瓶頸是如何提升效率而不是保證分析結(jié)果的精確度。
3)不是因果關(guān)系,而是相關(guān)關(guān)系:大數(shù)據(jù)時(shí)代的思想方式應(yīng)轉(zhuǎn)變—不再探求
難以捉摸的因果關(guān)系,轉(zhuǎn)而關(guān)注事物的相關(guān)關(guān)系。
18.以下關(guān)于Hive說(shuō)法正確的是()0
A、一種數(shù)據(jù)倉(cāng)庫(kù)
B、一種數(shù)據(jù)處理工具
C、一種可視化工具
D、一種分析算法
答案:A
解析:hive是基于Hadoop的一個(gè)數(shù)據(jù)倉(cāng)庫(kù)工具,用來(lái)進(jìn)行數(shù)據(jù)提取、轉(zhuǎn)化、加
載,這是一種可以存儲(chǔ)、查詢和分析存儲(chǔ)在Hadoop中的大規(guī)模數(shù)據(jù)的機(jī)制。
19.()是指對(duì)于數(shù)據(jù)局部不良行為的非敏感性,它是探索性分析追求的主要目標(biāo)
之一。
A、魯棒性
B、穩(wěn)定性
C、可靠性
D、耐抗性
答案:D
解析:耐抗性(Resistance)為探索性數(shù)據(jù)分析的四個(gè)指標(biāo)之一,是指對(duì)于數(shù)據(jù)
的局部不良行為的非敏感性,它是探索性分析追求的主要目標(biāo)之一。對(duì)于具有耐
抗性的分析結(jié)果,當(dāng)數(shù)據(jù)的一小部分被新的數(shù)據(jù)代替時(shí),即使它們與原來(lái)的數(shù)值
差別很大,分析結(jié)果也只會(huì)有輕微的改變。
20.下列屬于小波去噪步驟的是()o
A、對(duì)圖象信號(hào)進(jìn)行小波分解
B、對(duì)經(jīng)過層次分解后的高頻系數(shù)進(jìn)行閾值量化
C、利用二維小波重構(gòu)圖象信號(hào)
D、以上答案都正
答案:D
解析:小波去噪是通過短波實(shí)現(xiàn)噪音消除,與高斯去噪的基本原理一致。小波去
噪方法包括三個(gè)基本的步驟:對(duì)含噪聲信號(hào)進(jìn)行小波變換;對(duì)變換得到的小波系
數(shù)進(jìn)行某種處理,以去除其中包含的噪聲;對(duì)處理后的小波系數(shù)進(jìn)行小波逆變換,
得到去噪后的信號(hào)。
21.以下()是對(duì)DMM(數(shù)據(jù)管理成熟度模型)中“已管理級(jí)”基本特點(diǎn)的正確
表述。
A、組織機(jī)構(gòu)的數(shù)據(jù)管理關(guān)鍵活動(dòng)能夠根據(jù)結(jié)構(gòu)自身的反饋以及外部環(huán)境的變革
進(jìn)行不斷優(yōu)化。
B、組織機(jī)構(gòu)已用定量化的方式管理其關(guān)鍵過程的執(zhí)行過程。
C、組織機(jī)構(gòu)只有在項(xiàng)目管理過程中執(zhí)行了
D、M給出的關(guān)鍵過程,而缺乏機(jī)構(gòu)層次的統(tǒng)籌與管理組織機(jī)構(gòu)的數(shù)據(jù)管理工作
超出了項(xiàng)目管理的范疇,由組織機(jī)構(gòu)統(tǒng)一管理了其數(shù)據(jù)管理關(guān)鍵過程
答案:D
解析:DMM(數(shù)據(jù)管理成熟度模型)中“已管理級(jí)”基本特點(diǎn)的正確表述是組織
機(jī)構(gòu)的數(shù)據(jù)管理工作超出了項(xiàng)目管理的范疇,由組織機(jī)構(gòu)統(tǒng)一管理了其數(shù)據(jù)管理
關(guān)鍵過程。
22.機(jī)器學(xué)習(xí)和深度學(xué)習(xí)的關(guān)系是(_)o
A、深度學(xué)習(xí)包含機(jī)器學(xué)習(xí)
B、機(jī)器學(xué)習(xí)包含深度學(xué)習(xí)
C、二者是獨(dú)立的
D、二者相互促
答案:B
解析:機(jī)器學(xué)習(xí)包含深度學(xué)習(xí)。
23.關(guān)于bagging下列說(shuō)法錯(cuò)誤的是:O。
A、各基分類器之間有較強(qiáng)依賴,不可以進(jìn)行并行訓(xùn)練
B、最著名的算法之一是基于決策樹基分類器的隨機(jī)森林
C、當(dāng)訓(xùn)練樣本數(shù)量較少時(shí),子集之間可能有重疊
D、為了讓基分類器之間互相獨(dú)立,需要將訓(xùn)練集分為若干子
答案:A
解析:Bagging方法在訓(xùn)練過程中,各基分類器之間無(wú)強(qiáng)依賴,可以進(jìn)行并行訓(xùn)
練,隨機(jī)森林就是一種典型的例子。
24.數(shù)據(jù)預(yù)處理方法不包括O。
A、數(shù)據(jù)清洗:去噪聲和無(wú)關(guān)數(shù)據(jù)
B、數(shù)據(jù)集成:將多個(gè)數(shù)據(jù)源中的數(shù)據(jù)結(jié)合起來(lái)存在一個(gè)一致的數(shù)據(jù)存儲(chǔ)中
C、數(shù)據(jù)變換:把原始數(shù)據(jù)轉(zhuǎn)換成為適合數(shù)據(jù)挖掘的形式
D、數(shù)據(jù)轉(zhuǎn)化:把連續(xù)數(shù)據(jù)轉(zhuǎn)換為離散數(shù)據(jù)
答案:D
解析:數(shù)據(jù)轉(zhuǎn)化多為將字符型數(shù)據(jù)轉(zhuǎn)換為數(shù)值型數(shù)據(jù)。例如將性別【男,女】分
別轉(zhuǎn)換為【0,1】。
25.關(guān)于0LAP和OLTP的區(qū)別描述,不正確的是()。
A、0L主要是關(guān)于如何理解聚集的大量不同的數(shù)據(jù).它與0T應(yīng)用程序不同。
B、與OLAP應(yīng)用程序不同,OLTP應(yīng)用程序包含大量相對(duì)簡(jiǎn)單的事務(wù)。
C、OLAP的特點(diǎn)在于事務(wù)量大,但事務(wù)內(nèi)容比較簡(jiǎn)單且重復(fù)率高。
D、OLAP是以數(shù)據(jù)倉(cāng)庫(kù)為基礎(chǔ)的,但其最終數(shù)據(jù)來(lái)源與OLTP一樣均來(lái)自底層的數(shù)
據(jù)庫(kù)系統(tǒng),兩者面對(duì)的用戶是相同的
答案:C
解析:OLTP是傳統(tǒng)的關(guān)系型數(shù)據(jù)庫(kù)的主要應(yīng)用,主要是基本的'日常的事務(wù)處
理,記錄即時(shí)的增、刪、改、查,比如在銀行存取一筆款,就是一個(gè)事務(wù)交易。
OLAP即聯(lián)機(jī)分析處理,是數(shù)據(jù)倉(cāng)庫(kù)的核心部心,支持復(fù)雜的分析操作,側(cè)重決
策支持,并且提供直觀易懂的查詢結(jié)果。典型的應(yīng)用就是復(fù)雜的動(dòng)態(tài)報(bào)表系統(tǒng)。
26.()和假設(shè)檢驗(yàn)又可歸結(jié)為統(tǒng)計(jì)推斷的范疇,即對(duì)總體的數(shù)量特征做出具有
一定可靠程度的估計(jì)和判斷.
A、參數(shù)估計(jì)
B、邏輯分析
C、方差分析
D、回歸分
答案:A
解析:推斷統(tǒng)計(jì)包括兩方面的內(nèi)容:參數(shù)估計(jì)和假設(shè)檢驗(yàn)。
27.數(shù)據(jù)科學(xué)家可能會(huì)同時(shí)使用多個(gè)算法(模型)進(jìn)行預(yù)測(cè),并且最后把這些算
法的結(jié)果集成起來(lái)進(jìn)行最后的預(yù)測(cè)(集成學(xué)習(xí)),以下對(duì)集成學(xué)習(xí)說(shuō)法正確的是
()0
A、單個(gè)模型之間具有高相關(guān)性
B、單個(gè)模型之間具有低相關(guān)性
C、在集成學(xué)習(xí)中使用“平均權(quán)重”而不是“投票”會(huì)比較好
D、單個(gè)模型都是用的一個(gè)算法
答案:B
解析:集成學(xué)習(xí)就是組合這里的多個(gè)弱監(jiān)督模型以期得到一個(gè)更好更全面的強(qiáng)監(jiān)
督模型,集成學(xué)習(xí)潛在的思想是即便某一個(gè)弱模型得到了錯(cuò)誤的預(yù)測(cè),其他的弱
模型也可以將錯(cuò)誤糾正回來(lái)。某一個(gè)弱模型要有一定的“準(zhǔn)確性”,即學(xué)習(xí)器不
能太壞,并且要有多樣性,即個(gè)體學(xué)習(xí)器間具有差異。集成中即可包含同種類型
的弱模型,也可包含不同類型的弱模型。
28.下列關(guān)于大數(shù)據(jù)的分析理念的說(shuō)法中,錯(cuò)誤的是()o
A、在數(shù)據(jù)基礎(chǔ)上傾向于全體數(shù)據(jù)而不是抽樣數(shù)據(jù)
B、在分析方法上更注重相關(guān)分析而不是因果分析
C、在分析效果上更追求效率而不是絕對(duì)精確
D、在數(shù)據(jù)規(guī)模上強(qiáng)調(diào)相對(duì)數(shù)據(jù)而不是絕對(duì)數(shù)據(jù)
答案:D
解析:在大數(shù)據(jù)的分析理念中,數(shù)據(jù)規(guī)模上強(qiáng)調(diào)絕對(duì)數(shù)據(jù)而不是相對(duì)數(shù)據(jù)。
29.一個(gè)分布式應(yīng)用程序協(xié)調(diào)服務(wù),分布式應(yīng)用程序可以基于它實(shí)現(xiàn)同步服務(wù),
配置維護(hù)和命名服務(wù)等的工具是O。
AxFlume
BxZookeeper
C、Storm
D、Sparkstreaming
答案:B
解析:Zoopkeeper和Chubby均是分布式協(xié)調(diào)服務(wù)。
30.SparkJob默認(rèn)的調(diào)度模式是()。
A、FIFO
B、FAIR
C、無(wú)
D、運(yùn)行時(shí)指定
答案:A
解析:Spark中的調(diào)度模式主要有兩種FIFO和FAIR。默認(rèn)情況下Spark的調(diào)度
模式是FIFO(先進(jìn)先出)。
31.0將觀測(cè)值分為相同數(shù)目的兩部分,當(dāng)統(tǒng)計(jì)結(jié)果為非對(duì)稱分布時(shí),經(jīng)常使用
它。
A、眾數(shù)
B、標(biāo)準(zhǔn)差
C、中位數(shù)
D、均值
答案:C
解析:中位數(shù)是指一組數(shù)據(jù)排序后處于中間位置的變量值。
32.數(shù)據(jù)倉(cāng)庫(kù)的最終目的是O。
A、收集業(yè)務(wù)需求
B、建立數(shù)據(jù)倉(cāng)庫(kù)邏輯模型
C、開發(fā)數(shù)據(jù)倉(cāng)庫(kù)的應(yīng)用分析
D、為用戶和業(yè)務(wù)部門提供決策支持
答案:D
解析:數(shù)據(jù)倉(cāng)庫(kù)的最終目的是為用戶和業(yè)務(wù)部門提供決策支持。
33.因子分析把每個(gè)原始變量分解為兩部分因素:一部分為(),另一部分為()。
A、公共因子和特殊因子
B、特殊因子和相關(guān)因子
C、相關(guān)因子和獨(dú)立因子
D、獨(dú)立因子和公共因子
答案:A
解析:因子分析把每個(gè)原始變量分解為兩部分因素:一部分為公共因子,另一部
分為特殊因子。
34.在k近鄰學(xué)習(xí)算法中,隨著k的增加,上界將逐漸降低,當(dāng)k區(qū)域無(wú)窮大時(shí),
上界和下界碰到一起,k近鄰法就達(dá)到了O。
A、貝葉斯錯(cuò)誤率
B、漸進(jìn)錯(cuò)誤率
C、最優(yōu)值
D、上
答案:A
解析:在k近鄰學(xué)習(xí)算法中,隨著k的增加,上界將逐漸降低,當(dāng)k區(qū)域無(wú)窮大
時(shí),上界和下界碰到一起,k近鄰法就達(dá)到了貝葉斯錯(cuò)誤率。
35.診斷性分析主要采取的分析方法是()和()。
A、關(guān)聯(lián)分析和因果分析法
B、關(guān)聯(lián)分析和分類分析法
C、關(guān)聯(lián)分析和運(yùn)籌學(xué)
D、因果分析和分類分析法
答案:A
解析:診斷性分析主要采取的分析方法是關(guān)聯(lián)分析和因果分析法。
36.下面算法屬于局部處理的是()。
A、灰度線性變換
B、二值化
C、傅里葉變換
D、中值濾
答案:D
解析:中值濾波是將每一像素點(diǎn)的灰度值設(shè)置為該點(diǎn)某鄰域窗口內(nèi)的所有像素點(diǎn)
灰度值的中值,在圖像處理中常用于保護(hù)邊緣信息,是一種局部處理方法。
37.一幅灰度均勻分布的圖像,其灰度范圍在[0,255],則該圖像的信息量為()。
A、0
B、6
C、8
D、25
答案:C
解析:把255拆成二進(jìn)制以后是11111111所以是8。
38.輸入圖像已被轉(zhuǎn)換為大小為28X28的矩陣和大小為7X7的步幅為1的核心/
濾波器。卷積矩陣的大小是多少()
A、22X22
B、21X21
G28X28
D、7X
答案:A
解析:28-7+1=22o
39.關(guān)于數(shù)據(jù)分析,下列說(shuō)法正確的是。。
A、描述性分析和預(yù)測(cè)性分析是對(duì)診斷性分析的基礎(chǔ)
B、斷性分析分析是對(duì)規(guī)范性分析的進(jìn)一步理解
C、預(yù)測(cè)性分析是規(guī)范性分析的基礎(chǔ)
D、規(guī)范性分析是數(shù)據(jù)分析的最高階段,可以直接產(chǎn)生產(chǎn)業(yè)價(jià)值
答案:C
解析:在數(shù)據(jù)分析中,流程分為以下方式:描述性分析、診斷性分析、預(yù)測(cè)性分
析'規(guī)范性分析。
40.在MapReduce中,以下描述錯(cuò)誤的有O。
A、Worker故障和Master故障的處理方法不相同
B、Map和Reduce的處理結(jié)果都存儲(chǔ)在本地文件系統(tǒng)
C、一個(gè)Worker發(fā)生故障時(shí),該節(jié)點(diǎn)上執(zhí)行完的Map任務(wù)需要再次執(zhí)行
D、MapReduce具有很強(qiáng)的容錯(cuò)機(jī)制
答案:B
解析:已經(jīng)完成的Map任務(wù)的輸出存儲(chǔ)在本臺(tái)機(jī)器上,Reduce任務(wù)的輸出存儲(chǔ)
在全局文件系統(tǒng)上,故B錯(cuò)。
41.采用主成分分析法映射到低維空間,將最小的個(gè)特征向量舍棄,有()
影響。
A、使樣本采樣密度增大
B、丟失最優(yōu)解
C、增大噪聲
D、使樣本采樣密度減
答案:A
解析:低維空間與原始高維空間必有不同,因?yàn)閷?duì)應(yīng)于最小的d-d,個(gè)特征值的
特征向量被舍棄了,這是降維導(dǎo)致的結(jié)果.但舍棄這部分信息往往是必要的:一
方面舍棄這部分信息之后能使樣本的采樣密度增大,這正是降維的重要?jiǎng)訖C(jī);另
一方面,當(dāng)數(shù)據(jù)受到噪聲影響時(shí),最小的特征值所對(duì)應(yīng)的特征向量往往與噪聲有
關(guān)。將它們舍棄能在一定程度上起到去噪的效果.
42.為了允許支持向量機(jī)在一些樣本上出錯(cuò),引入()的概念。
A、軟間隔
B、硬間隔
C、間隔
D、誤
答案:A
解析:為了允許支持向量機(jī)在一些樣本上出錯(cuò),引入軟間隔的概念。
43.關(guān)于長(zhǎng)短時(shí)神經(jīng)網(wǎng)絡(luò)的敘述中錯(cuò)誤的是()o
A、引用自循環(huán)思想
B、產(chǎn)生梯度長(zhǎng)時(shí)間持續(xù)流動(dòng)的路徑
C、積累的時(shí)間尺度不可以因輸入序列而改變
D、可應(yīng)用于語(yǔ)音識(shí)別和機(jī)器翻
答案:C
解析:LSTM累積的時(shí)間尺度也可以因輸入序列而改變,因?yàn)闀r(shí)間常數(shù)是模型本
身的輸出。
44.以下處理能獲得像素級(jí)標(biāo)注的是()。
A、圖像分類
B、物體檢測(cè)
C、圖像去噪
D、語(yǔ)義分
答案:D
解析:語(yǔ)義分割通過對(duì)每個(gè)像素進(jìn)行密集的預(yù)測(cè)、推斷標(biāo)簽來(lái)實(shí)現(xiàn)細(xì)粒度的推理,
從而使每個(gè)像素都被標(biāo)記為其封閉對(duì)象礦石區(qū)域的類別,因此能夠獲得像素級(jí)標(biāo)
注。
45.第一數(shù)字定律中使用概率最大的數(shù)字是()。
A、0
B、1
C、2
答案:B
解析:第一數(shù)字定律表示,數(shù)字“1”的使用最多接近三分之一,“2”為17.6%,
“3”為12.5%,依次遞減,“9”的頻率是4.6%。
46.下列關(guān)于bootstrap說(shuō)法正確的是。。
A、從總的M個(gè)特征中,有放回地抽取m個(gè)特征(m<M)
B、從總的M個(gè)特征中,無(wú)放回地抽取m個(gè)特征(m<M)
C、從總的N個(gè)樣本中,有放回地抽取n個(gè)樣本(n<N)
D、從總的N個(gè)樣本中,無(wú)放回地抽取n個(gè)樣本(n<N
答案:C
解析:bootstrap抽樣是從總的N個(gè)樣本中,有放回地抽取n個(gè)樣本(n<N)
47.對(duì)于PCA處理后的特征,其樸素貝葉斯特征相互獨(dú)立的假設(shè)一定成立,因?yàn)?/p>
所有主成分都是正交的,所以不相關(guān)。這句話是否正確()
A、True
B、FaIs
答案:B
解析:這句話有兩處錯(cuò)誤:一是PCA轉(zhuǎn)換之后的特征不一定不相關(guān);二是不相關(guān)
并不等價(jià)于相互獨(dú)立。正交和不相關(guān)沒有必然關(guān)系,只有當(dāng)一個(gè)隨機(jī)變量的統(tǒng)計(jì)
平均等于零時(shí),正交和不相關(guān)等價(jià)。獨(dú)立則必定不相關(guān),而不相關(guān)卻不一定互相
獨(dú)立,只有是高斯時(shí)獨(dú)立和不相關(guān)才等價(jià)。
48.以下關(guān)于人工神經(jīng)網(wǎng)絡(luò)(ANN)的描述錯(cuò)誤的有()o
A、神經(jīng)網(wǎng)絡(luò)對(duì)訓(xùn)練數(shù)據(jù)中的噪聲非常魯棒
B、可以處理冗余特征
C、訓(xùn)練ANN是一個(gè)很耗時(shí)的過程
D、至少含有一個(gè)隱藏層的多層神經(jīng)網(wǎng)
答案:A
解析:未經(jīng)正則化的神經(jīng)網(wǎng)絡(luò)對(duì)可能對(duì)噪聲很敏感。
49.可分解為偏差、方差與噪聲之和的是()。
A、訓(xùn)練誤差(trainingerror)
B、經(jīng)驗(yàn)誤差(empiricalerror)
G均方誤差(meansquarederror)
D、泛化誤差(generaIizationerror
答案:D
解析:泛化誤差可分解為偏差、方差與噪聲之和。
50.多分類圖像識(shí)別任務(wù)常采用O作為輸出的編碼方式。
A、二進(jìn)制編碼
B、one-hot編碼
C、霍夫曼編碼
D、曼切斯特編
答案:B
解析:分類任務(wù)一般用獨(dú)熱(one-hot)編碼表示最終輸出,也就是00000010000
這樣的,碼段中1出現(xiàn)的位置就是預(yù)測(cè)的類別。
51.如果使用線性回歸模型,下列說(shuō)法正確的是。
A、檢查異常值是很重要的,因?yàn)榫€性回歸對(duì)離群效應(yīng)很敏感
B、線性回歸分析要求所有變量特征都必須具有正態(tài)分布
C、線性回歸假設(shè)數(shù)據(jù)中基本沒有多重共線性
D、以上說(shuō)法都不
答案:A
解析:異常值是數(shù)據(jù)中的一個(gè)非常有影響的點(diǎn),它可以改變最終回歸線的斜率。
因此,去除或處理異常值在回歸分析中是很重要的。了解變量特征的分布是有用
的,類似于正態(tài)分布的變量特征對(duì)提升模型性能很有幫助,數(shù)據(jù)預(yù)處理的時(shí)候經(jīng)
常做的一件事就是將數(shù)據(jù)特征歸一化到(0,D分布,但不是必須的。當(dāng)模型包
含相互關(guān)聯(lián)的多個(gè)特征時(shí),會(huì)發(fā)生多重共線性。因此,線性回歸中變量特征應(yīng)該
盡量減少冗余性。
52.數(shù)據(jù)科學(xué)是一門以()為主要研究任務(wù)的獨(dú)立學(xué)科。
A、“數(shù)據(jù)驅(qū)動(dòng)”“數(shù)據(jù)業(yè)務(wù)化”“數(shù)據(jù)洞見”“數(shù)據(jù)產(chǎn)品研發(fā)”和(或)“數(shù)
據(jù)生態(tài)系統(tǒng)的建設(shè)”
B、數(shù)據(jù)研發(fā)
C、數(shù)據(jù)處理
D、數(shù)據(jù)洞見
答案:A
解析:數(shù)據(jù)科學(xué)是一門以實(shí)現(xiàn)“從數(shù)據(jù)到信息”、“從數(shù)據(jù)到知識(shí)”和(或)“從
數(shù)據(jù)到智慧”的轉(zhuǎn)化為主要研究目的的,以“數(shù)據(jù)驅(qū)動(dòng)”'“數(shù)據(jù)業(yè)務(wù)化”'“數(shù)
據(jù)洞見”、“數(shù)據(jù)產(chǎn)品研發(fā)”和(或)“數(shù)據(jù)生態(tài)系統(tǒng)的建設(shè)”為主要研究任務(wù)
的獨(dú)立學(xué)科。
53.在空間維度上刻畫數(shù)據(jù)連續(xù)性是數(shù)據(jù)的()特點(diǎn)。
A、可關(guān)聯(lián)性
B、可溯源性
C、可理解性
D、可復(fù)制性
答案:A
解析:數(shù)據(jù)連續(xù)性理論是指由數(shù)據(jù)的可關(guān)聯(lián)性、可溯源性、可理解性及其內(nèi)在聯(lián)
系組成的一整套數(shù)據(jù)保護(hù)措施,其目的是保障數(shù)據(jù)的可用性、可信性和可控性,
降低數(shù)據(jù)的失用'失信和失控的風(fēng)險(xiǎn):1)可關(guān)聯(lián)性是在空間維度上刻畫數(shù)據(jù)連
續(xù)性,代表的是不同數(shù)據(jù)對(duì)象之間的連續(xù)性。它是保障數(shù)據(jù)可用性的重要前提,
代表了數(shù)據(jù)是否具備支持開放關(guān)聯(lián)和跨域存取的能力,進(jìn)而避免數(shù)據(jù)資源的碎片
化。因此,研究數(shù)據(jù)可關(guān)聯(lián)性的意義在于降低數(shù)據(jù)的“失用”風(fēng)險(xiǎn)。2)可溯源
性是在時(shí)間維度上刻畫數(shù)據(jù)連續(xù)性,代表的是同一個(gè)數(shù)據(jù)對(duì)象的歷史版本之間的
連續(xù)性。它是保障數(shù)據(jù)可信性的重要前提,代表了數(shù)據(jù)是否具備支持證據(jù)鏈管理'
可信度評(píng)估以及預(yù)測(cè)分析的能力。因此,研究數(shù)據(jù)可溯源性的意義在于降低數(shù)據(jù)
的“失信”風(fēng)險(xiǎn);3)可理解性是在內(nèi)容維度上刻畫數(shù)據(jù)連續(xù)性,代表的是數(shù)據(jù)
與其產(chǎn)生、管理和維護(hù)的主體(包括人與計(jì)算機(jī))之間的連續(xù)性。它是降低數(shù)據(jù)
的可控性的重要前提,代表了數(shù)據(jù)是否具備自描述和自包含信息。因此,研究數(shù)
據(jù)可理解性的意義在于降低數(shù)據(jù)的“失控”風(fēng)險(xiǎn)。
54.訓(xùn)練完SVM模型后,不是支持向量的那些樣本我們可以丟掉,也可以繼續(xù)分類:
()0
A、正確
B、錯(cuò)
答案:A
解析:訓(xùn)練完SVM模型后,不是支持向量的那些樣本我們可以丟掉,也可以繼續(xù)分
類。
55.語(yǔ)音識(shí)別的應(yīng)用場(chǎng)景包括()o
A、語(yǔ)音轉(zhuǎn)文本
B、語(yǔ)音合成
C、人機(jī)交互
D、以上答案都正
答案:D
解析:語(yǔ)音識(shí)別應(yīng)用包含語(yǔ)音轉(zhuǎn)文本,語(yǔ)音合成和人機(jī)交互等。
56.以下跟RNN相關(guān)的是(_)o
A、梯度消失
B、時(shí)間步
C、梯度爆炸
D、以上答案都正
答案:D
解析:深度學(xué)習(xí)基礎(chǔ)知識(shí)。
57.下面()負(fù)責(zé)MapReduce任務(wù)調(diào)度。
AxNameNode
B、Jobtracker
C、TaskTracker
D、secondaryNameNode
答案:B
解析:Jobtracker負(fù)責(zé)MapReduce任務(wù)調(diào)度,TaskTracker負(fù)責(zé)任務(wù)執(zhí)行。
58.數(shù)據(jù)管理成熟度模型中成熟度等級(jí)最高是哪一級(jí)()。
A、已優(yōu)化級(jí)
B、已測(cè)量級(jí)
C、已定義級(jí)
D、已管理級(jí)
答案:A
解析:已優(yōu)化是數(shù)據(jù)管理成熟度模型中成熟度的最高等級(jí)。
59.下列哪種機(jī)器學(xué)習(xí)算法不需要?dú)w一化處理()
A、DecisionTreeB.SVMC.KmeansD.LogisticRegressio
B、C、Kmeans
DxLogisticRegressio
答案:A
解析:DecisionTree屬于概率模型,不需要?dú)w一化處理;SVM、Kmeans和Logis
ticRegression之類的最優(yōu)化問題需要?dú)w一化處理。
60.卷積神經(jīng)網(wǎng)絡(luò)中每層卷積層(Convolutionallayer)由若干卷積單元組成,
每個(gè)卷積單元的參數(shù)都是通過反向傳播算法最佳化得到,其作用是(_)。
A、增強(qiáng)圖像
B、簡(jiǎn)化圖像
C、特征提取
D、圖像處理
答案:C
解析:卷積層(Convolutionallayer),卷積神經(jīng)網(wǎng)絡(luò)中每層卷積層由若干卷積
單元組成,每個(gè)卷積單元的參數(shù)都是通過反向傳播算法最佳化得到的。卷積運(yùn)算
的目的是提取輸入的不同特征,第一層卷積層可能只能提取一些低級(jí)的特征如邊
緣'線條和角等層級(jí),更多層的網(wǎng)路能從低級(jí)特征中迭代提取更復(fù)雜的特征。
61.數(shù)據(jù)可視化的本質(zhì)是()o
A、將數(shù)據(jù)轉(zhuǎn)換為知識(shí)
B、將知識(shí)轉(zhuǎn)換為數(shù)據(jù)
C、將數(shù)據(jù)轉(zhuǎn)換為信息
D、將信息轉(zhuǎn)換為智慧
答案:A
解析:可視化分析學(xué)模型認(rèn)為,數(shù)據(jù)可視化的本質(zhì)是將數(shù)據(jù)轉(zhuǎn)換為知識(shí),而不能
僅僅停留在數(shù)據(jù)的可視化呈現(xiàn)層次之上,并提出從數(shù)據(jù)到知識(shí)的轉(zhuǎn)換途徑有兩個(gè):
一是可視化分析,另一個(gè)是自動(dòng)化建模。
62.機(jī)器學(xué)習(xí)中發(fā)生過擬合的主要原因不包括()o
A、使用過于復(fù)雜的模型
B、數(shù)據(jù)噪聲較大
C、訓(xùn)練數(shù)據(jù)少
D、訓(xùn)練數(shù)據(jù)充
答案:D
解析:訓(xùn)練數(shù)據(jù)充足可以降低過擬合。
63.()算法是一種挖掘關(guān)聯(lián)規(guī)則的頻繁項(xiàng)集算法,其核心思想是通過候選集生
成和檢測(cè)兩個(gè)階段來(lái)挖掘頻繁項(xiàng)集。
A、riori
B、EM
C、P
D、PA
答案:A
解析:Apriori算法是一種挖掘關(guān)聯(lián)規(guī)則的頻繁項(xiàng)集算法,其核心思想是通過候
選集生成和檢測(cè)兩個(gè)階段來(lái)挖掘頻繁項(xiàng)集。PCA是無(wú)監(jiān)督的降維算法。概率近似
正確(簡(jiǎn)稱PAC)學(xué)習(xí)理論計(jì)算學(xué)習(xí)理論中最基本的理論。最大期望算法(Expec
tation-EM),是一類通過迭代進(jìn)行極大似然估計(jì)的優(yōu)化算法。
64.以下選項(xiàng)中哪個(gè)不屬于數(shù)據(jù)預(yù)處理的方法()。
A、數(shù)據(jù)清洗
B、數(shù)據(jù)集成
C、數(shù)據(jù)變換
D、數(shù)據(jù)統(tǒng)計(jì)
答案:D
解析:數(shù)據(jù)統(tǒng)計(jì)并非為數(shù)據(jù)預(yù)處理的常見內(nèi)容。
65.決策樹中,同一路徑上的所有屬性之間是()關(guān)系。
Ax因果
B、相關(guān)
C、邏輯或
D、邏輯
答案:D
解析:決策樹中,同一路徑上的所有屬性之間是邏輯與的關(guān)系
66.下列哪一項(xiàng)能反映出X和Y之間的強(qiáng)相關(guān)性。
A、相關(guān)系數(shù)為0.9
B、對(duì)于無(wú)效假設(shè)B=0的p值為0.0001
C、對(duì)于無(wú)效假設(shè)B=0的t值為30
D、以上說(shuō)法都不
答案:A
解析:相關(guān)系數(shù)反映了不同變量之間線性相關(guān)程度,取值范圍在[7,1]之間,值
越大表示相關(guān)程度越高;因此,A選項(xiàng)中中r=0.9,表示X和Y之間有較強(qiáng)的相
關(guān)性。P和t的數(shù)值大小沒有統(tǒng)計(jì)意義,只是將其與某一個(gè)閾值進(jìn)行比對(duì),以得
到二選一的結(jié)論。
67.在支持向量機(jī)中,()允許支持向量機(jī)在一些樣本上出錯(cuò)。
A、硬間隔
B、軟間隔
C、核函數(shù)
D、拉格朗日乘子
答案:B
解析:在支持向量機(jī)中,軟間隔允許支持向量機(jī)在一些樣本上出錯(cuò)。
68.假如使用邏輯回歸對(duì)樣本進(jìn)行分類,得到訓(xùn)練樣本的準(zhǔn)確率和測(cè)試樣本的準(zhǔn)
確率。現(xiàn)在,在數(shù)據(jù)中增加一個(gè)新的特征,其它特征保持不變。然后重新訓(xùn)練測(cè)
試。則下列說(shuō)法正確的是()o
A、訓(xùn)練樣本準(zhǔn)確率一定會(huì)降低
B、訓(xùn)練樣本準(zhǔn)確率一定增加或保持不變
C、測(cè)試樣本準(zhǔn)確率一定會(huì)降低
D、測(cè)試樣本準(zhǔn)確率一定增加或保持不
答案:B
解析:在模型中增加更多特征一般會(huì)增加訓(xùn)練樣本的準(zhǔn)確率,減小偏差。但測(cè)試
樣本準(zhǔn)確率不一定增加,除非增加的特征是有效特征。
69.彩色圖像增強(qiáng)時(shí),()處理可以采用RGBo
A、直方圖均衡化
B、同態(tài)濾波
C、加權(quán)均值濾波
D、中值濾
答案:C
解析:RGB是彩色圖像的三通道像素值,均值濾波進(jìn)行的是線性操作,不影響原
本圖像的相對(duì)亮度。
70.聚類算法的性能度量可稱為()o
A、密度估計(jì)
B、異常檢測(cè)
C、有效性指標(biāo)
D、分布結(jié)
答案:C
解析:聚類算法的性能度量可稱為有效性指標(biāo)。
71.關(guān)于循環(huán)神經(jīng)網(wǎng)絡(luò)設(shè)計(jì)的敘述中,錯(cuò)誤的是()o
A、能處理可變長(zhǎng)度的序列
B、基于圖展開思想
C、基于參數(shù)共享思想
D、循環(huán)神經(jīng)網(wǎng)絡(luò)不可應(yīng)用于圖像數(shù)
答案:D
解析:深度學(xué)習(xí)基礎(chǔ)知識(shí)。
72.機(jī)器學(xué)習(xí)算法在學(xué)習(xí)過程中對(duì)某種類型假設(shè)的偏好,稱為()o
A、訓(xùn)練偏好
B、歸納偏好
C、分析偏好
D、假設(shè)偏
答案:B
解析:機(jī)器學(xué)習(xí)算法在學(xué)習(xí)過程中對(duì)某種類型假設(shè)的偏好,稱為歸納偏好。
73.我們建立一個(gè)5000個(gè)特征,100萬(wàn)數(shù)據(jù)的機(jī)器學(xué)習(xí)模型.我們?cè)趺从行У貞?yīng)對(duì)
這樣的大數(shù)據(jù)訓(xùn)練()o
A、我們隨機(jī)抽取一些樣本,在這些少量樣本之上訓(xùn)練
B、我們可以試用在線機(jī)器學(xué)習(xí)算法
C、我們應(yīng)用P算法降維,減少特征數(shù)
D、以上答案都正
答案:D
解析:樣本數(shù)過多,或者特征數(shù)過多,而不能單機(jī)完成訓(xùn)練,可以用小批量樣本訓(xùn)
練,或者在線累計(jì)式訓(xùn)練,或者主成分PCA降維方式減少特征數(shù)量再進(jìn)行訓(xùn)練。
74.下列不屬于action操作的是O
A、coIIect
B、fiIter
C、reduce
D、count
答案:B
解析:Action常用的函數(shù)為reduce、collect、count、take、first、foreach
等
75.SLIC算法的主要目的是()o
A、目標(biāo)識(shí)別
B、前景和背景分離
C、超像素提取
D、語(yǔ)義分
答案:C
解析:SLIC是基于K-means算法的生成超像素新方法,SLIC是超像素中心周圍
的區(qū)域2sx2s中進(jìn)行類似像素的搜索
76.當(dāng)訓(xùn)練集特征非常多,而實(shí)例非常少的時(shí)候,可以采用()o
A、sigmoid核的支持向量機(jī)
B、不帶核的支持向量機(jī)
C、高斯核的支持向量機(jī)
D、多項(xiàng)式核的支持向量機(jī)
答案:B
解析:當(dāng)不采用非常復(fù)雜的函數(shù),或者當(dāng)我們的訓(xùn)練集特征非常多但是實(shí)例非常
少的時(shí)候,可以采用不帶核函數(shù)的支持向量機(jī)。
77.圖像中虛假輪廓的出現(xiàn)就其本質(zhì)而言是()o
A、圖像的灰度級(jí)數(shù)不夠多而造成的
B、圖像的空間分辨率不夠高而造成的
C、圖像的灰度級(jí)數(shù)過多而造成的
D、圖像的空間分辨率過高而造成
答案:A
解析:圖像中的虛假輪廓最易在平滑區(qū)域內(nèi)產(chǎn)生。平滑區(qū)域內(nèi)灰度應(yīng)緩慢變化,
但當(dāng)圖像的灰度級(jí)數(shù)不夠多時(shí)會(huì)產(chǎn)生階躍。所以圖像中虛假輪廓的出現(xiàn)就其本質(zhì)
而言是圖像的灰度級(jí)數(shù)不夠多而造成的,選A。
78.下列關(guān)于L1正則化與L2正則化描述錯(cuò)誤的是()o
A、L1范數(shù)正則化有助于降低過擬合風(fēng)險(xiǎn)
B、L2范數(shù)正則化有助于降低過擬合風(fēng)險(xiǎn)
C、L1范數(shù)正則化比L2范數(shù)正則化更有易于獲得稀疏解
D、L2范數(shù)正則化比L1范數(shù)正則化更有易于獲得稀疏
答案:D
解析:周志華機(jī)器學(xué)習(xí)
79.以下哪些算法,可以用神經(jīng)網(wǎng)絡(luò)去構(gòu)造(_)。1)KNN2)線性回歸3)對(duì)數(shù)幾
率回歸
A、1和2
B、2和3
C、1,2和3
D、以上答案都不正
答案:B
解析:1、KNN算法不需要訓(xùn)練參數(shù),而所有神經(jīng)網(wǎng)絡(luò)都需要訓(xùn)練參數(shù),因此神經(jīng)
網(wǎng)絡(luò)幫不上忙。2、最簡(jiǎn)單的神經(jīng)網(wǎng)絡(luò),感知器,其實(shí)就是線性回歸的訓(xùn)練。3、我
們可以用一層的神經(jīng)網(wǎng)絡(luò)構(gòu)造對(duì)數(shù)幾率回歸。
80.下列屬于卷積網(wǎng)絡(luò)類型分類的是(_)o
A、普通卷積
B、擴(kuò)張卷積
C、轉(zhuǎn)置卷積
D、以上答案都正
答案:D
解析:卷積神經(jīng)網(wǎng)絡(luò)四種卷積類型:普通卷積,擴(kuò)張卷積,轉(zhuǎn)置卷積,可分離卷
積。
81.詞袋模型中的文本向量每個(gè)元素表示該詞的()。
A、頻率
B、順序
C、含義
D、語(yǔ)義關(guān)
答案:A
解析:詞袋模型是最基礎(chǔ)的文本表示模型,就是把每一篇文章看成一袋子單詞,
并忽略每個(gè)詞出現(xiàn)的順序。每篇文章可以表示成一個(gè)長(zhǎng)向量,向量中的每一維代
表一個(gè)單詞,而該維對(duì)應(yīng)的權(quán)重代表這個(gè)詞在文章中的重要程度,重要程度是由
頻率來(lái)衡量的。
82.以下不屬于基于區(qū)域的圖像分割方法的是()o
A、區(qū)域生長(zhǎng)法
B、分水嶺算法
C、大津算法
D、基于圖論的分割算
答案:C
解析:大津算法是基于圖像灰度分布的圖像分割方法。
83.大數(shù)據(jù)應(yīng)用需依托的新技術(shù)有()。
A、大規(guī)模存儲(chǔ)與計(jì)算
B、數(shù)據(jù)分析處理
C、智能化
D、三個(gè)選項(xiàng)都是
答案:D
解析:適用于大數(shù)據(jù)的技術(shù),包括大規(guī)模并行處理(MPP)數(shù)據(jù)庫(kù)、數(shù)據(jù)挖掘、
分布式文件系統(tǒng)、分布式數(shù)據(jù)庫(kù)、云計(jì)算平臺(tái)、互聯(lián)網(wǎng)和可擴(kuò)展的存儲(chǔ)系統(tǒng)、智
能化相關(guān)技術(shù)等。
84.CNN神經(jīng)網(wǎng)絡(luò)對(duì)圖像特征提取帶來(lái)了變革性的變化,使之前的人工特征提取
升級(jí)到數(shù)據(jù)驅(qū)動(dòng)的自動(dòng)特征提取,在CNN中,起到特征提取作用的網(wǎng)絡(luò)層是:(_
Jo
A、convoIution層
B、fulIconnect層
C、maxpooIing層
D、norm
答案:A
解析:卷積層負(fù)責(zé)提取特征,采樣層負(fù)責(zé)特征選擇,全連接層負(fù)責(zé)分類。
85.下列關(guān)于RNN說(shuō)法正確的是(_)o
A、RNN可以應(yīng)用在NLP領(lǐng)域
B、LSTM是RNN的一個(gè)變種
C、在RNN中一個(gè)序列當(dāng)前的輸出與前面的輸出也有關(guān)
D、以上答案都正
答案:D
解析:RNN是一種人造神經(jīng)網(wǎng)絡(luò),它通過賦予網(wǎng)絡(luò)圖附加權(quán)重來(lái)創(chuàng)建循環(huán)機(jī)制,
以維持內(nèi)部的狀態(tài)。在擁有狀態(tài)以后,便能在序列預(yù)測(cè)中明確地學(xué)習(xí)并利用上下
文信息,如順序或時(shí)間成分,因此RNN適用于自然語(yǔ)言處理。RNN中一個(gè)序列當(dāng)
前的輸出與前面的輸出有關(guān)。LSTM在RNN基礎(chǔ)上進(jìn)行了改進(jìn),能夠?qū)W習(xí)到長(zhǎng)期
依賴關(guān)系,因此是RNN的一個(gè)變種。
86.選擇哪一個(gè)解作為輸出,將由學(xué)習(xí)算法的歸納偏好決定,常見的做法是引入
()0
A、線性回歸
B、線性判別分析
G正則化項(xiàng)
D、偏置
答案:C
解析:選擇哪一個(gè)解作為輸出,將由學(xué)習(xí)算法的歸納偏好決定,常見的做法是引
入正則化(regular!zation)項(xiàng)。
87.圖像灰度方差說(shuō)明了圖像的哪一個(gè)屬性O(shè)。
A、平均灰度
B、圖像對(duì)比度
C、圖像整體亮度
D、圖像細(xì)
答案:B
解析:方差反應(yīng)圖像的高頻部分的大小;如果圖片對(duì)比度小,那方差就小;如果
圖片對(duì)比度很大,那方差就大;方差;每個(gè)像素點(diǎn)的灰度值減去圖像平均灰度值
的平方和除以總的像素個(gè)數(shù)
88.Hadoop中partition()函數(shù)描述正確的是()。
A、分區(qū)函數(shù)
B、特征函數(shù)
C、算法函數(shù)
D、排序函數(shù)
答案:A
解析:partition代表分區(qū)函數(shù),其他選項(xiàng)都不符合題意。
89.在Hadoop中,下面哪個(gè)是默認(rèn)的InputFormat類型,它將每行內(nèi)容作為新值,
而將字節(jié)偏移量作為key()o
A、FiIeInputFormat
B、TextInputFormat
C、KeyVaIueTextInputFormat
D、bineTextInputForma
答案:B
解析:TextInputFormat是默認(rèn)的InputFormat。每條記錄是一行輸入。鍵Key
是LongWritable類型,存儲(chǔ)該行在整個(gè)文件中的字節(jié)偏移量。
90.Hadoop中,Reducer的三個(gè)階段是_。
AvShuffIe-Sort-Reduce
B、Shuffle-Reduce-Sort
CxReduce-ShuffIe-Sort
D、Sort-ShuffIe-Reduce
答案:A
解析:Reducer主要分為三個(gè)步驟ShuffIe洗牌、Sort排序和Reduce
91.機(jī)器學(xué)習(xí)訓(xùn)練時(shí),Mini-Batch的大小優(yōu)選為2的鬲,如256或512。它背后
的原因是什么()。
A、Mini-Batch為偶數(shù)的時(shí)候,梯度下降算法訓(xùn)練的更快
B、Mini-tch設(shè)為2的鬲,是為了符合CPU、GPU的內(nèi)存要求,利于并行化處理
C、不使用偶數(shù)時(shí),損失函數(shù)是不穩(wěn)定的
D、以上答案都不正
答案:B
解析:Mini-Batch設(shè)為2的鬲,是為了符合CPU、GPU的內(nèi)存要求,利于并行化
處理
92.在深度學(xué)習(xí)中,下列對(duì)于sigmoid函數(shù)的說(shuō)法,錯(cuò)誤的是()。
A、存在梯度爆炸的問題
B、不是關(guān)于原點(diǎn)對(duì)稱
G計(jì)算exp比較耗時(shí)
D、存在梯度消失的問
答案:A
解析:sigmoid函數(shù)存在的是梯度消失問題。
93.MapReduce編程模型,鍵值對(duì)的key必須實(shí)現(xiàn)哪個(gè)接口()
AxWritabIeparable;
Bxparable;
GWritable;
D、LongWritable;
答案:A
解析:hadoop為Key的數(shù)據(jù)類型必須實(shí)現(xiàn)WritabIeparable,而Value的數(shù)據(jù)類
型只需要實(shí)現(xiàn)Writable即可
94.以下不是開源工具特點(diǎn)的是()。
A、免費(fèi)
B、可以直接獲取源代碼
C、用戶可以修改源代碼并不加說(shuō)明用于自己的軟件中
D、開源工具一樣具有版權(quán)
答案:C
解析:在延伸的代碼中(修改和有源代碼衍生的代碼中)需要帶有原來(lái)代碼中的
協(xié)議,商標(biāo),專利聲明和其他原來(lái)作者規(guī)定需要包含的說(shuō)明。如果再發(fā)布的產(chǎn)品
中包含一^Notice文件,則在Notice文件中需要帶有開源工具的Licence。你
可以在Notice中增加自己的許可,但不可以表現(xiàn)為對(duì)開源工具Licence構(gòu)成更
改。
95.下面哪個(gè)程序負(fù)責(zé)HDFS數(shù)據(jù)存儲(chǔ)()o
A、NameNode
B、Jobtracker
C、Datanode
D、secondaryNameNod
答案:C
解析:Datanode負(fù)責(zé)HDFS的數(shù)據(jù)塊存儲(chǔ)。
96.下列圖像邊緣檢測(cè)算子中抗噪性能最好的是()。
A、梯度算子
B、Prewitt算子
C、Roberts算子
D、LapIacian算
答案:B
解析:Prewitt算子是一種一階微分算子的邊緣檢測(cè),利用像素點(diǎn)上下'左右鄰
點(diǎn)的灰度差,在邊緣處達(dá)到極值檢測(cè)邊緣,去掉部分偽邊緣,對(duì)噪聲具有平滑作
用。
97.以下關(guān)于新舊MapReduceAPI的描述錯(cuò)誤的是()
A、新I放在org.apache,hadoop.mapreduce包中,而舊I則是放在org.apache,
hadoop.mapred中
B、新API傾向于使用接口方式,而舊API傾向于使用抽象類
G新API使用nfiguration,而舊API使用Jobnf來(lái)傳遞配置信息
D、新API可以使用Job對(duì)象來(lái)提交作業(yè)
答案:B
解析:在新API中,原來(lái)的大量接口都被改成了抽象類。所以使用新API編寫M
R程序時(shí),都是由實(shí)現(xiàn)接口變成集成抽象類,因此B錯(cuò)。
98.給定詞匯表如下:{Bob,ok,Iike,footbaII,car}0則下面句子BotIikesfoot
ball的詞袋模型表示為:
A、[11100]
B、[10110]
C、[10010]
D、[01101
答案:B
解析:統(tǒng)計(jì)自然語(yǔ)言處理語(yǔ)言模型P162,命名實(shí)體翻譯P585統(tǒng)計(jì)文檔中每個(gè)詞
的數(shù)量,根據(jù)詞表的位置,將各個(gè)詞的數(shù)量拼接成一個(gè)向量即可。
99.給定一個(gè)長(zhǎng)度為n的不完整單詞序列,我們希望預(yù)測(cè)下一個(gè)字母是什么。比
如輸入是predict2(9個(gè)字母組成),希望預(yù)測(cè)第十個(gè)字母是什么。下面哪種神
經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)適用于解決這個(gè)工作()
A、循環(huán)神經(jīng)網(wǎng)絡(luò)
B、全連接神經(jīng)網(wǎng)絡(luò)
C、受限波爾茲曼機(jī)
D、卷積神經(jīng)網(wǎng)
答案:A
解析:循環(huán)神經(jīng)網(wǎng)絡(luò)具有記憶性、參數(shù)共享并且圖靈完備,因此在對(duì)序列的非線
性特征進(jìn)行學(xué)習(xí)時(shí)具有一定優(yōu)勢(shì)。循環(huán)神經(jīng)網(wǎng)絡(luò)在自然語(yǔ)言處理(NaturalLang
uageProcessing.NLP),例如語(yǔ)音識(shí)別、語(yǔ)言建模、機(jī)器翻譯等領(lǐng)域有應(yīng)用,也
被用于各類時(shí)間序列預(yù)報(bào)。
100.Hadoop生態(tài)系統(tǒng)中,HBase是一種()。
A、分布式文件系統(tǒng)
B、數(shù)據(jù)倉(cāng)庫(kù)
C、實(shí)時(shí)分布式數(shù)據(jù)庫(kù)
D、分布式計(jì)算系統(tǒng)
答案:C
解析:HBase是一個(gè)面向列的實(shí)時(shí)分布式數(shù)據(jù)庫(kù)。
101.Hadoop生態(tài)系統(tǒng)中,()主要解決的是日志類數(shù)據(jù)的收集和處理問題。
A、Mahout
B、Flume
C、Sqoop
D、HBase
答案:B
解析:Flume主要用于日志采集,其中的agent里面包含3個(gè)核心的組件sourc
e(采集/輸入)-channel(緩存/管道)->sink(輸出),類似生產(chǎn)者、倉(cāng)庫(kù)'
消費(fèi)者的架構(gòu)。
102.兩個(gè)變量相關(guān),它們的相關(guān)系數(shù)r可能為0。這句話是否正確()
A、正確
B、錯(cuò)
答案:A
解析:Pearson相關(guān)系數(shù)r=0,這表示兩個(gè)變量間不存在線性相關(guān)關(guān)系。
103.當(dāng)在卷積神經(jīng)網(wǎng)絡(luò)中加入池化層(poolinglayer)時(shí),變換的不變性會(huì)被保留,
是嗎()
A、不知道
B、看情況
C、是
答案:C
解析:使用池化時(shí)會(huì)導(dǎo)致出現(xiàn)不變性。
104.一篇文章中某些名詞的TF-IDF值比較大,則說(shuō)明()。
A、這些名詞對(duì)這篇文章的區(qū)分度比較高
B、這些名詞對(duì)這篇文章的區(qū)分度比較低
C、不能說(shuō)明什么
D、以上答案都不正
答案:A
解析:TF-IDF是一種統(tǒng)計(jì)方法,用以評(píng)估一字詞對(duì)于一個(gè)文件集或一個(gè)語(yǔ)料庫(kù)
中的其中一份文件的重要程度。名詞的TFTDF值越大說(shuō)明這些名詞對(duì)這篇文章
的區(qū)分度越高。
105.圖像降噪一般可分為以下哪幾類()o
A、加性噪聲
B、乘性噪聲
C、量化噪聲
D、以上答案都正
答案:D
解析:噪聲是圖像干擾的重要原因。一幅圖像在實(shí)際應(yīng)用中可能存在各種各樣的
噪聲,這些噪聲可能在傳輸中產(chǎn)生,也可能在量化等處理中產(chǎn)生。根據(jù)噪聲和信號(hào)
的關(guān)系可將其分為三種形式:(f(x,y)表示給定原始圖像,g(x,y)表示圖像信號(hào),n
(x,y)表示噪聲。)1、加性噪聲,此類噪聲與輸入圖像信號(hào)無(wú)關(guān),含噪圖像可表示
為f(x,y)=g(x,y)+n(x,y),信道噪聲及光導(dǎo)攝像管的攝像機(jī)掃描圖像時(shí)產(chǎn)生的
噪聲就屬這類噪聲;2、乘性噪聲,此類噪聲與圖像信號(hào)有關(guān),含噪圖像可表示為f
(x,y)-g(x,y)+n(x,y)g(x,y),飛點(diǎn)掃描器掃描圖像時(shí)的噪聲,電視圖像中的相干
噪聲,膠片中的顆粒噪聲就屬于此類噪聲。3、量化噪聲,此類噪聲與輸入圖像信
號(hào)無(wú)關(guān),是量化過程存在量化誤差,再反映到接收端而產(chǎn)生。
106.絕對(duì)多數(shù)投票法的基本思想是()。
A、對(duì)于若干和弱學(xué)習(xí)器的輸出進(jìn)行平均得到最終的預(yù)測(cè)輸出
B、少數(shù)服從多數(shù),數(shù)量最多的類別為最終的分類類別
C、不光要求獲得最高票,還要求票過半數(shù)
D、將訓(xùn)練集弱學(xué)習(xí)器的學(xué)習(xí)結(jié)果作為輸入,將訓(xùn)練集的輸出作為輸出,重新訓(xùn)
練一個(gè)學(xué)習(xí)器來(lái)得到最終結(jié)果
答案:C
解析:絕對(duì)多數(shù)投票法若某標(biāo)記得票過半數(shù),則預(yù)測(cè)為該標(biāo)記;否則拒絕預(yù)測(cè)。
107.圖像平滑會(huì)造成()o
A、圖像邊緣模糊化
B、圖像邊緣清晰化
C、無(wú)影響
D、以上答案都不正
答案:A
解析:為了抑制噪聲,使圖像亮度趨于平緩的處理方法就是圖像平滑。圖像平滑
實(shí)際上是低通濾波,平滑過程會(huì)導(dǎo)致圖像邊緣模糊化。
108.以下關(guān)于Hadoop中MapReduce說(shuō)法正確的是()。
A、可以沒有reduce任務(wù)
B、Reducer輸入為隨機(jī)輸入
C、shuffle主要實(shí)現(xiàn)數(shù)據(jù)可視化功能
D、一個(gè)reducer只能從一個(gè)map復(fù)制所需要的partitio
答案:A
解析:MapReduce中的reduce并不是必須存在的。
109.高通濾波后的圖像通常較暗,為改善這種情況,將高通濾波器的轉(zhuǎn)移函數(shù)加
上一常數(shù)量以便于引入一些低頻分量。這樣濾波器叫()o
A、巴特沃斯高通濾波器
B、高頻提升濾波器
C、局頻加強(qiáng)濾波器
D、理想高通濾波
答案:B
解析:高頻增強(qiáng)濾波器由于相對(duì)削弱了低頻成分,因而濾波所得的圖像往往偏暗。
110.對(duì)MapReduce計(jì)算框架中生成的鍵值對(duì)的說(shuō)法正確的是(_)。
A、可以有相同的鍵,值必須唯一;
B、可以有相同的值,鍵必須唯一;
C、可以有相同的鍵,也可以有相同的值;
D、鍵和值都必須唯一;
答案:C
解析:鍵值對(duì)中的“鍵”和“值”并沒有必然的聯(lián)系,兩者可以相同。
111.當(dāng)學(xué)習(xí)器將訓(xùn)練樣本自身的特點(diǎn)作為所有潛在樣本都具有的一般性質(zhì),這樣
會(huì)導(dǎo)致泛化性能下降,這種現(xiàn)象稱之為()o
A、欠擬合
B、過擬合
C、擬合
D、以上答案都不正
答案:B
解析:當(dāng)學(xué)習(xí)器把訓(xùn)練樣本學(xué)得太好了的時(shí)候,很可能巳經(jīng)把訓(xùn)練樣本自身的一
些特點(diǎn)當(dāng)作了所有潛在樣本都會(huì)具有的一般性質(zhì),這樣就會(huì)導(dǎo)致泛化性能下降這
種現(xiàn)象在機(jī)器學(xué)習(xí)中稱為過擬合。
112.數(shù)據(jù)的可用性取決于()。
A、數(shù)據(jù)分析
B、數(shù)據(jù)集采
C、數(shù)據(jù)質(zhì)量
D、數(shù)據(jù)需求
答案:C
解析:略
113.Spark可以處理的數(shù)據(jù)任務(wù)包括()
A、數(shù)據(jù)批處理任務(wù);
B、交互式處理任務(wù);
C、圖數(shù)據(jù)處理任務(wù);
D、A,B和C;
答案:D
解析:Spark可以很好地支持流計(jì)算、交互式處理、圖計(jì)算等多種計(jì)算模式。
114.屬于卷積神經(jīng)網(wǎng)絡(luò)應(yīng)用方向的是(_)。
A、圖像分類
B\目標(biāo)檢;則
C、圖像語(yǔ)義分割
D、以上答案都正
答案:D
解析:卷積神經(jīng)網(wǎng)絡(luò)應(yīng)用于圖像分類,目標(biāo)檢測(cè)及圖像語(yǔ)義分割。
115.Adaboost的核心思想是()。
A、給定一個(gè)弱學(xué)習(xí)算法和一個(gè)訓(xùn)練集,將該學(xué)習(xí)算法使用多次,得出預(yù)測(cè)函數(shù)序
列,進(jìn)行投票
B、針對(duì)同一個(gè)訓(xùn)練集訓(xùn)練不同的弱分類器集合起來(lái),構(gòu)成一個(gè)強(qiáng)分類器
C、利用多棵樹對(duì)樣本進(jìn)行訓(xùn)練并預(yù)測(cè)的一種分類器
D、基于前向策略的加法模型,每階段使用一個(gè)基模型去擬合上一階段基模型的殘
差
答案:B
解析:Adaboost的核心思想是給定一個(gè)弱學(xué)習(xí)算法和一個(gè)訓(xùn)練集,將該學(xué)習(xí)算
法使用多次,得出預(yù)測(cè)函數(shù)序列,進(jìn)行投票。
116.下列哪項(xiàng)方法不屬于圖像分割方法()o
A、邊緣檢測(cè)法
B、閾值分割法
C、區(qū)域分割法
D、特征提取
答案:D
解析:特征提取法屬于圖像配準(zhǔn)方法的范疇。
117.線性判別分析在二分類問題上,也稱為()。
A、線性回歸
B、對(duì)數(shù)幾率回歸
C、Fisher判別分析
D、主成分分
答案:C
解析:線性判別分析在二分類問題上,也稱為Fisher判別分析。
118.相關(guān)關(guān)系是一種與函數(shù)關(guān)系區(qū)別的非確定性關(guān)系,而相關(guān)分析就是研究事物
或現(xiàn)象之間是否存在這種非確定性關(guān)系的統(tǒng)計(jì)方法,以下不屬于相關(guān)性分析方法
的是()o
A、Pearson相關(guān)系數(shù)
B、Spearman秩相關(guān)系數(shù)
C\KendaII相關(guān)系數(shù)
D、傅里葉系數(shù)
答案:D
解析:傅里葉系數(shù)由Fouriercoefficient翻譯而來(lái),有多個(gè)中文譯名。它是數(shù)
學(xué)分析中的一個(gè)概念,常常被應(yīng)用在信號(hào)處理領(lǐng)域中。對(duì)于任意的周期信號(hào),如
果滿足一定條件,都可以展開三角函數(shù)的線性組合,每個(gè)展開項(xiàng)的系數(shù)稱為傅里
葉系數(shù),不能用于解釋相關(guān)性。
119.jieba分詞包含的分詞模式有()o
A、精確模式
B、全模式
C、搜索引擎模式
D、以上答案都正
答案:D
解析:jieba中文分詞支持的三種分詞模式包括⑴精確模式:試圖將句子最精
確地切開,適合文本分析;(2)全模式:把句子中所有的可以成詞的詞語(yǔ)都掃描
出來(lái),速度非常快,但是不能解決歧義問題;(3)搜索引擎模式:在精確模式的
基礎(chǔ)上,對(duì)長(zhǎng)詞再次切分,提高召回率,適合用于搜索引擎分詞。
120.一幅512*512的圖像,若灰度級(jí)數(shù)為16,則該圖像大小為()。
A、32KB
B、128KB
C、1MB
D、2M
答案:B
解析:512*512表示像素個(gè)數(shù),16級(jí)灰度用二進(jìn)制表示需要4位,故存儲(chǔ)圖像所
需的二進(jìn)制位數(shù)為:512*512*4,即1024Kbit,所需字節(jié)數(shù)除以8為128KB,注
意單位的不同。
121.如果我使用數(shù)據(jù)集的全部特征并且能夠達(dá)到100%的準(zhǔn)確率,但在測(cè)試集上
僅能達(dá)到70%左右,這說(shuō)明:()。
A、欠擬合
B、模型很棒
C、過擬合D.以上答案都不正
答案:C
解析:當(dāng)學(xué)習(xí)器把訓(xùn)練樣本學(xué)得太好了的時(shí)候,很可能巳經(jīng)把訓(xùn)練樣本自身的一
些特點(diǎn)當(dāng)作了所有潛在樣本都會(huì)具有的一般性質(zhì),這樣就會(huì)導(dǎo)致泛化性能下降這
種現(xiàn)象在機(jī)器學(xué)習(xí)中稱為過擬合。
122.MapReduce使用()來(lái)記錄不同事件的發(fā)生次數(shù)。
A、日志
B、事件觸發(fā)器
C、狀態(tài)列表
D、計(jì)數(shù)器
答案:D
解析:MapReduce使用計(jì)數(shù)器來(lái)記錄不同事件的發(fā)生次數(shù)。
123.常用的數(shù)據(jù)歸約方法可以分為()。
A、維歸約數(shù)據(jù)壓縮
B、維歸約參數(shù)歸約
C、維歸約值歸約
D、數(shù)據(jù)壓縮值歸約
答案:C
解析:常用的數(shù)據(jù)歸約方法有兩種:維歸約和值歸約。
124.下列屬于無(wú)監(jiān)督學(xué)習(xí)的是()。
AxK-means
B、SVM
c、最大熔
D、CRF
答案:A
解析:K-means是一個(gè)將數(shù)據(jù)集中在某些方面相似的數(shù)據(jù)成員進(jìn)行分類組織的過
程,這是一個(gè)典型聚類算法,聚類就是一種發(fā)現(xiàn)這種內(nèi)在結(jié)構(gòu)的技術(shù),該類算法
被稱為無(wú)監(jiān)督學(xué)習(xí)。
125.大數(shù)據(jù)中的小數(shù)據(jù)可能缺失、冗余、存在垃圾數(shù)據(jù)不影響大數(shù)據(jù)的可信數(shù)據(jù),
體現(xiàn)大數(shù)據(jù)“涌現(xiàn)”的()表現(xiàn)形式。
A、價(jià)值涌現(xiàn)
B、隱私涌現(xiàn)
C、質(zhì)量涌現(xiàn)
D、安全涌現(xiàn)
答案:C
解析:大數(shù)據(jù)的“質(zhì)量涌現(xiàn)”是指大數(shù)據(jù)中的成員小數(shù)據(jù)可能有質(zhì)量問題(不可
信的數(shù)據(jù)),如缺失、冗余、垃圾數(shù)據(jù)的存在,但不影響大數(shù)據(jù)的質(zhì)量(可信的
數(shù)據(jù))。
126.對(duì)于隨機(jī)森林和GBDT,下面說(shuō)法正確的是()o
A、在隨機(jī)森林的單個(gè)樹中,樹和樹之間是有依賴的,而GBDT中的單個(gè)樹之間是沒
有依賴的
B、這兩個(gè)模型都使用隨機(jī)特征子集,來(lái)生成許多單個(gè)的樹
C、我們可以并行地生成GBDT單個(gè)樹,因?yàn)樗鼈冎g是沒有依賴的
D、GB訓(xùn)練模型的表現(xiàn)總是比隨機(jī)森林
答案:B
解析:組成隨機(jī)森林的樹可以并行生成;而GBDT只能是串行生成
127.協(xié)同過濾分析用戶興趣,在用戶群中找到指定用戶的相似(興趣)用戶,綜合
這些用戶對(duì)某一信息的評(píng)價(jià),形成系統(tǒng)對(duì)該指定用戶對(duì)此信息的喜好程度(),
并將這些用戶喜歡的項(xiàng)推薦給有相似興趣的用戶。
A、相似
B、相同
C、推薦
D、預(yù)
答案:D
解析:協(xié)同過濾簡(jiǎn)單來(lái)說(shuō)是利用某興趣相投、擁有共同經(jīng)驗(yàn)之群體的喜好來(lái)推薦
用戶感興趣的信息,個(gè)人通過合作的機(jī)制給予信息相當(dāng)程度的回應(yīng)(如評(píng)分)并
記錄下來(lái)以達(dá)到過濾的目的進(jìn)而幫助別人篩選信息。
128.DataFrame和RDD最大的區(qū)別是()。
A、科學(xué)統(tǒng)計(jì)支持
B、多了schema
C、存儲(chǔ)方式不一樣
D、外部數(shù)據(jù)源支
答案:B
解析:相比于RDD,DataFrame多了數(shù)據(jù)的結(jié)構(gòu)信息,即schema
129.()是實(shí)現(xiàn)數(shù)據(jù)戰(zhàn)略的重要保障。
A、數(shù)據(jù)管理
B、數(shù)據(jù)分析
C、數(shù)據(jù)治理
D、數(shù)據(jù)規(guī)劃
答案:C
解析:從DMM模型可以看出,數(shù)據(jù)治理是實(shí)現(xiàn)數(shù)據(jù)戰(zhàn)略的重要保障。數(shù)據(jù)管理的
是指通過管理“數(shù)據(jù)”實(shí)現(xiàn)組織機(jī)構(gòu)的某種業(yè)務(wù)目的。然而,數(shù)據(jù)治理則指如何
確保“數(shù)據(jù)管理”的順利、有效、科學(xué)地完成。
130.數(shù)據(jù)整合和分組的說(shuō)法,不正確的是()o
A、數(shù)據(jù)連接可以用concat或merge函數(shù)
B、axis=1表示軸向連接
C、數(shù)據(jù)分組可以使用mean函數(shù)
D、使用agg可以自定義多個(gè)聚合函數(shù)
答案:C
解析:數(shù)據(jù)分組不可以使用mean函數(shù),mean函數(shù)為求平均數(shù)函數(shù)。
131.在支持向量機(jī)中,核函數(shù)的主要作用是()o
A、將低維空間中線性不可分的數(shù)據(jù)映射到高維空間,使其線性可分
B、將高維空間中線性不可分的數(shù)據(jù)映射到低維空間,使其線性可分
C、將高維空間中線性可分的數(shù)據(jù)映射到低維空間,使其線性不可分
D、將低維空間中線性可分的數(shù)據(jù)映射到高維空間,使其線性不可
答案:A
解析:核函數(shù)的作用是將低維空間中線性不可分的數(shù)據(jù)映射到高維空間,使其線
性可分。
132.文檔是待處理的數(shù)據(jù)對(duì)象,它由一組詞組成,這些詞在文檔中不計(jì)順序的額,
例如一篇論文、一個(gè)網(wǎng)頁(yè)都可以看做一個(gè)文檔;這樣的表示方式稱為()o
A、語(yǔ)句
B、詞袋
C、詞海
D、詞
答案:B
解析:詞袋模型下,像是句子或是文件這樣的文字可以用一個(gè)袋子裝著這些詞的
方式表現(xiàn),這種表現(xiàn)方式不考慮文法以及詞的順序。
133.標(biāo)準(zhǔn)BP算法的目標(biāo)是使訓(xùn)練集上的()為最小。
A、累積方差
B、累積誤差
C、累積協(xié)方差
D、累積偏
答案:B
解析:標(biāo)準(zhǔn)BP算法的目標(biāo)是使訓(xùn)練集上的累積誤差最小。
134.以下關(guān)于圖像識(shí)別任務(wù)的敘述,錯(cuò)誤的是()。
A、目標(biāo)在于檢測(cè)出圖像中的對(duì)象是什么
B、在識(shí)別前往往需要對(duì)圖像進(jìn)行預(yù)處理
C、N是一種常用的圖像識(shí)別網(wǎng)絡(luò)
D、圖像的采集和傳輸方式對(duì)于圖像識(shí)別結(jié)果沒有影
答案:D
解析:圖像處理基礎(chǔ)知識(shí)。
135.關(guān)于boosting下列說(shuō)法錯(cuò)誤的是O。
A、boosting方法的主要思想是迭代式學(xué)
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 球隊(duì)更換合同協(xié)議書模板
- 重慶中興花園項(xiàng)目銷售策劃和銷售代理投標(biāo)書58p
- 紅色簡(jiǎn)約風(fēng)感動(dòng)中國(guó)十大人物介紹
- 黑龍江省哈爾濱市道外區(qū)2024-2025學(xué)年高一下學(xué)期期中考試數(shù)學(xué)試卷(解析)
- 2025年大數(shù)據(jù)展現(xiàn)平臺(tái)項(xiàng)目合作計(jì)劃書
- 2025年微波暗室設(shè)備項(xiàng)目建議書
- 心衰患者中醫(yī)護(hù)理
- 抖音短視頻內(nèi)容創(chuàng)作者激勵(lì)方案合同
- 電商平臺(tái)倉(cāng)儲(chǔ)動(dòng)線智能化物流方案設(shè)計(jì)與實(shí)施合同
- 微信視頻號(hào)美妝教程制作與推廣服務(wù)合同
- 芯片定制合同范本
- 電子商務(wù)教師資格證提升策略試題及答案
- 2025屆云南省楚雄市重點(diǎn)名校初三一模物理試題(海淀一模)試卷含解析
- 記敘文閱讀理解解析(課件)-部編版語(yǔ)文五年級(jí)下冊(cè)閱讀理解
- 2025年行政執(zhí)法證資格考試必刷經(jīng)典題庫(kù)及答案(共130題)
- 超星爾雅學(xué)習(xí)通《紅色經(jīng)典影片與近現(xiàn)代中國(guó)發(fā)展(首都師范大學(xué))》2025章節(jié)測(cè)試附答案
- 裝修陪跑合同協(xié)議書8篇
- 土地測(cè)量服務(wù)投標(biāo)方案(技術(shù)方案)
- 2025年醫(yī)院會(huì)計(jì)筆試試題及答案
- 服務(wù)流程操作說(shuō)明手冊(cè)
- 七下18《井崗翠竹》公開課一等獎(jiǎng)創(chuàng)新教案
評(píng)論
0/150
提交評(píng)論