大數據應用考試模擬習題庫_第1頁
大數據應用考試模擬習題庫_第2頁
大數據應用考試模擬習題庫_第3頁
大數據應用考試模擬習題庫_第4頁
大數據應用考試模擬習題庫_第5頁
已閱讀5頁,還剩231頁未讀 繼續免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

大數據應用考試模擬習題庫(匯總帶解析)

一'單選題

1.下列關于線性模型的描述錯誤的是()。

A、支持向量機的判別函數一定屬于線性函數

B、在樣本為某些分布情況時,線性判別函數可以成為最小錯誤率或最小風險意義

下的最優分類器

C、在一般情況下,線性分類器只能是次優分類器

D、線性分類器簡單而且在很多期情況下效果接近最優,所以應用比較廣泛

答案:A

解析:支持向量機的判別函數不一定是線性函數。

2.下列策略()可在保證訓練精度的情況下降低模型的復雜度。

A、正則化系數無窮大

B、正則化系數幾乎為0

C、選擇合適的正則化參數

D、以上答案都不正確

答案:C

解析:選擇合適的正則化參數可在保證訓練精度的情況下降低模型的復雜度。

3.以下有關計算機編程語言說法錯誤的是()。

A、編程語言是用于書寫計算機程序的語言;

B、計算機語言可分為機器語言'匯編語言、高級語言;

C、計算機能識別和執行所有編程語言寫的程序;

D、C/C++、pascal、javpython都屬于高級編程語言;

答案:C

解析:只有機器語言才能被計算機直接識別,Python等高級語言源程序,不能直

接運行,必須翻譯成機器語言才能執行。

4.下列關于計算機存儲容量單位的說法中,錯誤的是()。

A、1KB<1MB<1GB

B、基本單位是字節(Byte)

C、一個漢字需要一個字節的存儲空間

D、一個字節能夠容納一個英文字符

答案:C

解析:通常,一個漢字需要兩個字節的存儲空間

5.銳化(高通)濾波器的作用()。

A、能消減或削弱傅立葉空間的低頻分量,但不影響高頻分量

B、能消減或削弱傅立葉空間的高頻分量,但不影響低頻分量

C、對傅立葉空間的低、高頻分量均有削弱或削除作用

D、對傅立葉空間的低、高頻分量均有增強作用

答案:A

解析:高通濾波與低通濾波正好相反,是頻域圖像的高頻部分通過而抑制低頻部

分。在圖像中圖像的邊緣對應高頻分量,因此高通濾波的效果是圖像銳化。

6.對組織機構的數據管理成熟度等級劃分中的已執行級的描述錯誤的是0。

A、在具體項目中,DMM關鍵過程域(KPA)中給出的關鍵過程已被執行,但隨意性和

臨時性較大

B、DMM關鍵過程的執行不僅僅局限于特定業務范疇,存在跨越不同業務領域的關

鍵過程

C、缺少針對DMM關鍵過程的反饋與優化

D、雖然有可能在特定業務過程中進行了基礎性改進,但沒有進行持續跟進,也未

拓展到整個組織機構

答案:B

解析:DMM的執行級(PerformedLevel):組織機構只有個別項目的范圍之內"執

行”了DMM給出的關鍵過程,但缺乏機構層次的統籌與管理。主要特點如下:1)

在具體項目中,DMM關鍵過程域(KPA)中給出的關鍵過程(KeyProcess)已被執行,

但隨意性和臨時性較大;2)DMM關鍵過程(KeyProcess)的執行往往僅限于特定業

務范疇,很少存在跨越不同業務領域的關鍵過程;3)缺少針對DMM關鍵過程(KeyP

rocess)的反饋與優化。以DMM關鍵過程(KeyProcess)中的“數據質量”為例,

其數據管理工作可能過于集中在一個特定業務,如“數據修復活動”,并沒有擴散

到整個的業務范圍或并沒有開展對數據修復活動本身的反饋與優化工作;4)雖然

有可能在特定業務過程中已進行了基礎性改進,但沒有進行持續跟進,也未拓展

到整個組織機構;5)組織機構沒有統籌其數據管理工作,而數據管理活動局限在

具體項目中,主要按照其具體項目的實施需求進行,如果一個具體項目中需要進

行數據管理,可能執行DMM中給出的相關過程,反之亦然。

7.下面哪個是滿足期望輸出的代碼()。

Arr=np.array([0,1,2,3,4,5,6,7,8,9])

期望輸出:array([1,3,5,7,9])

A、arr%2~1

B、arr[arr%2-1]

C、arr[arr/2-1]

D、arr[arr//2=1]

答案:B

解析:本題中的結果是選取了原數組的奇數,先使用數組進行邏輯判斷得到一個

邏輯數組,然后以其作為索引選取數據。

8.在k-均值算法中,以下哪個選項可用于獲得全局最小()

A、嘗試為不同的質心(centroid)初始化運行算法

B、調整迭代的次數

C、找到集群的最佳數量

D、以上答案都正確

答案:D

解析:所有都可以用來調試以找到全局最小。

9.考慮值集(12243324556826),其四分位數極差是:()

A、21

B、24

C、55

D、3

答案:A

解析:四分位差,也稱為內距或四分間距,它是上四分位數(QU,即位于75%)與下

四分位數(QL,即位于25%)的差。計算公式為:QD=QU-QL。將數據從小到大排序,

可得到QU=33,QL=12,因此QD=QU-QL=21

10.關于Python布爾值,下列選項描述正確的是()。

A、整型的0不可以表示FaIse

B、浮點型的0不可以表示FaIse

C、0+0j可以表示FaIse

D、布爾值不可以進行算術運算

答案:C

解析:整型、浮點型0均可表示FaIse,布爾值可參加運算。

11.采用塞次變換進行灰度變換時,當寨次取大于1時,該變換是針對如下哪一類

圖像進行增強0。

A、圖像整體偏暗

B、圖像整體偏亮

C、圖像細節淹沒在暗背景中

D、圖像同事存在過亮和過暗背景;

答案:B

解析:鬲次變換的基本表達式為:y=cx-+b。當r>1時,變換函數曲線在正比函數

下方。此時擴展高灰度級,壓縮低灰度級,使圖像變暗。當r〈1時,變換函數曲線

在正比函數上方。此時擴展低灰度級,壓縮高灰度級,使圖像變亮。這一點與對數

變換十分相似。

12.LSTM中,(_)的作用是確定哪些新的信息留在細胞狀態中,并更新細胞狀態。

A、輸入門

B、遺忘門

C、輸出門

D、更新門

答案:A

解析:LSTM中,輸入門的作用是確定哪些新的信息留在細胞狀態中,并更新細胞

狀態;遺忘門決定我們會從細胞狀態中丟棄什么信息;輸出門確定輸出。

13.Numpy包中meshgrid函數實現的功能是()。

A、數組拆分

B、數組乘法

C、數組除法

D、數組融合

答案:D

解析:np.meshgrid()用于數組融合,在畫等高線圖時常用。

14.以下代碼的輸出結果為()。

Importnumpyasnp

A=np.arange(9)

B=np.split(a,3)

Print(b)

A、[012345678]

B、[array([0,1,2]),array([3,4,5]),array([6,7,8])]

G[array([0,1,2,3]),array([4,5,6]),array([7,8])]

D、沒有正確答案

答案:B

解析:split將原數組等分成三個數組。

15.np.where([[True,False],[True,True]],[[1,2],[3,4]],[[9,8],[7,6]]),

最終的輸出結果是0。

A、[[1,4],[9,7]]

B、[[1,3],[9,7]]

C、[[1,8],[3,4]]

D、[[2,9],[3,6]]

答案:C

解析:上述條件為[[True,False],[True,False]],分別對應最后輸出結果的四個

值。第一個值從[1,9]中選,因為條件為True,所以是選1。第二個值從[2,8]中選,

因為條件為False,所以選8,后面以此類推。

16.聚類算法的性能度量可稱為()。

A、密度估計

B、異常檢測

C、有效性指標

D、分布結構

答案:C

解析:聚類算法的性能度量可稱為有效性指標。

17.下列哪個不是RDD的緩存方法()

Avpersist()

B、cache0

C、Memory()

D、以上答案都正確

答案:C

解析:

RDD的緩存方法包括persist和cache,其中cache方法默認存儲到內存中。

18.機器學習訓練時,Mini-Batch的大小優選為2的幕,如256或512。它背后的

原因是什么()。

A、Mini-Batch為偶數的時候,梯度下降算法訓練的更快

B、Mini-Batch設為2的懸,是為了符合CPU、GPU的內存要求,利于并行化處理

C、不使用偶數時,損失函數是不穩定的

D、以上答案都不正確

答案:B

解析:Mini-Batch設為2的募,是為了符合CPU、GPU的內存要求,利于并行化處

19.線性判別分析在二分類問題上,也稱為()。

A、線性回歸

B、對數幾率回歸

GFisher判別分析

D、主成分分析

答案:C

解析:線性判別分析在二分類問題上,也稱為Fisher判別分析。

20.以下不屬于大數據在社會活動中的典型應用的是()。

A、美團實現了快速精準的送餐服務

B、享單車、滴滴打車方便了人們的日常出行

C、快遞實現了訂單的實時跟蹤

D、供電公司提供電費賬單查詢

答案:D

解析:電費賬單查詢屬于簡單報表查詢,用電情況分析、竊電行為分析'基于交

易大數據分析用戶的購買習慣'基于傳感器感知的海量數據分析自然災害的危害

程度、基于搜索引擎的搜索關鍵詞分析社會熱點等屬于大數據應用。

21.如果要清空文件,需要使用的命令是()。

A、cIose0

B、seek(0)

C、truncate(0)

D、Dwrite('stuff')

答案:c

解析:truncate(size)方法將截斷文件,大小為size,size為0即清空

22.通常“落伍者”是影響MapReduce總執行時間的主要影響因素之一,為此Map

Reduce采用()機制來解決。

A、分布式計算

B、惰性計算

C、推測性執行的任務備份

D、先進先出

答案:C

解析:MapReduce采用“推測性執行的任務備份”機制一當作業中大多數的任務

都已經完成時,系統在幾個空閑的節點上調度執行剩余任務的備份,并在多個Wo

rker上同時進行相同的剩余任務。

23.假設一個線性回歸模型完美適合訓練數據(訓練誤差為0),下面那個說法是

正確的()。

A、測試集誤差一直為0

B、測試集誤差可能為0

C、測試集誤差不會為0

D、以上都不對

答案:B

解析:測試誤差有可能為0,假如測試數據里面沒有噪聲數據。或者說,如果測試

數據能夠完美表征訓練數據集,測試誤差即可為0,但測試數據不會總這樣。

24.在支持向量機中,軟間隔支持向量機的目標函數比硬間隔支持向量機多了一

個(_)。

A、偏置項b

B、系數

C、松弛變量

D、兩種情況的目標函數相同

答案:C

解析:在支持向量機中,軟間隔支持向量機的目標函數比硬間隔支持向量機多了

一個松弛變量。

25.查看變量內存地址的Python內置函數是()。

A、memery()

B、id()

GIocaIof0

D、heIp()

答案:B

解析:查看變量內存地址的Python內置函數是id()。

26.以下關于DNN說法不正確的是(_)o

A、層數多

B、抽象能力強

C、模擬更復雜模型

D、廣義上包含CNN,DBN,SVM等

答案:D

解析:DNN不包括SVM和DBM。

27.數據故事話的“情景'不包括()。

A、還原情景

B、統計情景

C、移植情景

D、虛構情景

答案:B

解析:“數據的故事化描述(Storytelling)”是指為了提升數據的可理解性、可

記憶性及可體驗性,將“數據”還原成關聯至特定的“情景”的過程。可見,數據

故事化也是數據轉換的表現形式之一,其本質是以“故事講述”的方式展現“數

據的內容”。數據故事化中的“情景”,可以是:1)還原情景:還原數據所計量和

記錄信息時的“原始情景”;2)移植情景:并非對應信息的原始情景,而是將數據

移植到另一個真實發生的情景(如目標用戶比較熟悉的情景)之中。3)虛構情景:

數據的故事化描述中所選擇的情景并非為真實存在的情景,而是根據講述人的想

象力設計出來的“虛構情景”。

28.Python解釋器環境中,用于表示上一次運算結果的特殊變量為0。

A、:

B、_

C、>

D、#

答案:B

解析:Python解釋器環境中,用.表示上一次運算結果的特殊變量。

29.自然語言處理、語音識別'股票交易、氣象預測等應用適合采用(_)處理。

A、循環神經網絡

B、卷積神經網絡

C、多層神經網絡

D、單層神經網絡

答案:A

解析:循環神經網絡具有記憶性、參數共享并且圖靈完備,因此在對序列的非線

性特征進行學習時具有一定優勢。循環神經網絡在自然語言處理,例如語音識別'

語言建模、機器翻譯等領域有應用,也被用于各類時間序列預報如股票交易和氣

象預測。卷積神經網絡主要用于圖像處理。多層神經網絡主要用于分類任務,單

層神經網絡只能實現簡單的邏輯如與、或、非,若不加激活函數甚至無法實現異

或。

30.scipy.stats中,()表示泊松分布。

Axgamma

B、poisson

Cxbinom

D、uniform

答案:B

解析:poission表示泊松分布。

31.MapReduce對mapO函數的返回值進行處理后再返回給reduce()函數的目的

是()。

A、減少map0函數和reduce()函數之間的數據傳輸

B、優化map()函數

G優化reduce。函數

D、這一步驟并無必要

答案:A

解析:為了降低map()函數與reduce。函數之間的數據傳輸量,一般先對map()

函數的輸出結果進行處理。

32.下面選項不正確的是()。

Importnumpyasnp

X=np.array([[1,2],[3,4]])

Y=np.IinaIg.inv(x)

Print(y)

A、[[⑵[34]]

B、[[-2.1.][1.5-0.51]

C、[[1.0.][2.1J]

D、以上答案均不正確

答案:B

解析:linalg.inv()是矩陣求逆,輸入與結果相乘為單位矩陣。

33.一組數據的最大值與最小值之差叫做()。

A、標準差

B、極差

C、方差

D、極小值

答案:B

解析:極差又稱范圍誤差或全距(Range),以R表示,是用來表示統計資料中的變

異量數,其最大值與最小值之間的差距,即最大值減最小值后所得之數據。

34.使用pivot_table函數制作透視表用以下那個參數設置行分組鍵()。

A、index

B、raw

C、vaIues

D、data

答案:A

解析:index用于設置數據透視表的行。

35.Python單下劃線_foo與雙下劃線_foo與—foo—的成員,下列說法錯誤的是

Oo

A、_foo不能直接用于'frommoduIeimport,

B、_foo解析器用_classname—foo來代替這個名字,以區別和其他類相同的命

C、_foo_代表python里特殊方法專用的標識

D、_foo可以直接用于'frommoduIeimport'

答案:D

解析:_f。。私有,不能在外部調用。

36.Python中自定義函數的關鍵字為()。

A、from

B、def

C、return

D、del

答案:B

解析:def是Python中自定義函數的關鍵字

37.關于基本數據的元數據是指()。

A、基本元數據與數據源,數據倉庫,數據集市和應用程序等結構相關的信息

B、基本元數據包括與企業相關的管理方面的數據和信息

C、基本元數據包括日志文件和簡歷執行處理的時序調度信息

D、基本元數據包括關于裝載和更新處理,分析處理以及管理方面的信息

答案:D

解析:元數據(Metadata),又稱中介數據、中繼數據,為描述數據的數據(dataab

outdata)。

38.“數據的故事化描述”是指為了提升數據的0和(),將數據還原成關聯至特定

的情景的過程。

A、可理解性可記憶性可體驗性

B、可接受性可記憶性可體驗性

C、可接受性可記憶性可呈現性

D、可理解性可記憶性可呈線性

答案:A

解析:“數據的故事化描述(Storytelling)”是指為了提升數據的可理解性、可

記憶性及可體驗性,將“數據”還原成關聯至特定的“情景”的過程。

39.劃分聚類算法是一種簡單的較為基本的重要聚類方法。它的主要思想是通過

將數據點集分為()個劃分,并使用重復的控制策略使某個準則最優化,以達到最

終的結果

A、D

B、K

C、E

D、F

答案:B

解析:劃分聚類算法K-Means將數據點集分為K個子集。

40.Python中jieba庫是一個()庫。

A、第三方中文分詞庫

B、機器學習庫

C、圖像處理庫

D、自動提取語義主題

答案:A

解析:jieba是第三方中文分詞詞庫。

41.scipy.stats模塊中隨機變量的殘存函數是()。

Avcdf

B、rvs

Cvpdf

D、sf

答案:D

解析:殘存函數是sf,其數值上等于1-cdf(累積分布函數)

42.IDLE環境的退出命令是()。

A、exit()

B、回車鍵

C、closeO

Dxesc()

答案:A

解析:IDLE使用exit。退出環境。

43.下列不屬于聚類性能度量外部指標的是()。

AxJaccard系數

B、FM系數

C、Rand指數

D、DB指數;

答案:D

解析:聚類常用的外部指標包括:Jaccard系數'FM指數、Rand指數;聚類常用

的內部指標包括:DB指數、Dunn指數。

44.關于Python注釋,以下選項中描述錯誤的是()。

A、Python注釋語句不被解釋器過濾掉,也不被執行

B、注釋可以輔助程序調試

C、注釋可用于標明作者和版權信息

D、注釋用于解釋代碼原理或者用途

答案:A

解析:Python注釋語句會被解釋器過濾掉,不被執行。

45.自然語言理解是人工智能的重要應用領域,下面列舉中的()不是它要實現的

目標。

A、理解別人講的話

B、對自然語言表示的信息進行分析概括或編輯

C、欣賞音樂

D、機器翻譯

答案:C

解析:自然語言理解應用主要包含理解自然語言,包括機器翻譯以及對文本信息

概括歸納等。

46.從網絡的原理上來看,結構最復雜的神經網絡是()。

A、卷積神經網絡

B、長短時記憶神經網絡

C、GRU

D、BP神經網絡

答案:B

解析:從網絡的原理上來看,結構最復雜的神經網絡是LSTMo

47.scipy.stats中,()表示二項分布。

A、gamma

B、binom

C、uniform

D、rayIeigh

答案:B

解析:binom表示二項分布。

48.Scipy中,線性模塊是以下哪個模塊()。

A、fftpack

B、signaI

C、IinaIg

D、ndimage

答案:c

解析:fftpack米快是傅里葉變換模塊,signaI是信號處理模塊,IinaIg是線性

代數模塊,ndimage是多維圖像處理模塊,

49.Nu叩y的數組中Ndarray對象屬性描述錯誤的是()。

A、Ndarray.ndim秩,即軸的數量或維度的數量

B、Ndarray.shape數組的維度,對于矩陣,n行m列

GNdarray.size數組元素的總個數,也是shape屬性中n*m的值

D\Ndarray.itemsizeNdarray對象的元素類型

答案:D

解析:itemsize是每個數組元素的字節大小。

50.建立在相關關系分析法基礎上的預測是大數據的()。

A、基礎

B、前提

C、核心

D、條件

答案:C

解析:建立在相關關系分析法基礎上的預測是大數據的核心。

51.下列關于LSTM說法錯誤的是(_)o

A、LSTM中存在sigmoid函數

B、LSTM中存在tanh函數

C、LSTM又稱長短時記憶網絡

D、RNN是LSTM的變種

答案:D

解析:LSTM在RNN基礎上進行了改進,能夠學習到長期依賴關系,因此是RNN的

一個變種。

52.HBase是一種可伸縮、高可靠、高性能,分布式和面向()的動態模式數據庫。

A、列

B、行

C、行和列

D、元組

答案:A

解析:HBase支持的是列式存儲。

53.Zookeeper主要解決的是()問題。

A、數據存儲

B、模型訓練

C、分布式環境協作服務

D、數據管理

答案:C

解析:ZooKeeper是一個分布式的,開放源碼的分布式應用程序協調服務,是Goo

gle的Chubby—開源的實現,是Hadoop和Hbase的重要組件。

54.以下說法哪些是正確的()

A、在使用KNN算法時,k通常取奇數

B、KNN是有監督學習算法

C、在使用KNN算法時,k取值越大,模型越容易過擬合

D、KNN和k-means都是無監督學習算法

答案:B

解析:在使用KNN算法時,k取值越大,模型越容易欠擬合,KNN是有監督的機器學

習算法。

55.()是一個組織機構的數據管理的愿景、目標以及功能藍圖的統一管理。

A、數據治理

B、數據戰略

G數據加工(DataWrangling或DataMunging)

D、數據能力

答案:B

解析:數據戰略(DataStrategy)是一個機構的數據管理的愿景、目標以及功能藍

圖的統一管理。從DMM模型看出,數據戰略是組織機構的數據管理工作的重要前

提。

56.scipy中()是空間數據結構和算法模塊。

A、cIuster

B、constants

C、integrate

D、spatiaI

答案:D

解析:spatial模塊是Scipy中的空間結構模塊,提供了一些空間相關的數據結

構和算法,如DeIaunay三角剖分,共面點,凸包,維諾圖,Kd樹等。

57.()試圖學得一個屬性的線性組合來進行預測的函數。

A、決策樹

B、貝葉斯分類器

G神經網絡

D、線性模型

答案:D

解析:線性模型試圖學得一個屬性的線性組合來進行預測的函數。

58.以下關鍵點檢測描述正確的是()。

A、關鍵點檢測就是檢測目標的關鍵點

B、在人體或者人臉關鍵點檢測中應用較多

C、在電網的應用中,我們主要用來進行人員違章動作的判斷

D、以上答案都正確

答案:D

解析:關鍵點檢測就是檢測目標的關鍵點,在人體或者人臉關鍵點檢測中應用較

多,在電網的應用中主要用來進行人員違章動作的判斷。

59.對于PCA說法正確的是:()。1.我們須在使用PCA前標準化化數據2.我們應

該選擇使得模型有最大variance的主成分3.我們應該選擇使得模型有最小var

iance的主成分4.我們可以使用PCA在低維度上做數據可視化

A、1,2and4

B、2and4

Cx3and4

D、1and3

答案:A

解析:須在使用PCA前標準化化數據,應選擇使得模型有最大variance的主成分,

PCA在低維度上做數據可視化。

60.scipy.stats模塊中累積分布的反函數是()。

A、pdf

B、ppf

C、rvs

D、sf

答案:B

解析:ppf分位點函數是累積分布函數cdf的反函數

61.以下關于Mahout說法正確的是()。

A、存儲框架

B、數據管理框架

C、數據可視化專業工具

D、可擴展的機器學習算法及其實現

答案:D

解析:Mahout是ApacheSoftwareFoundation(ASF)旗下的一個開源項目,提供一

些可擴展的機器學習領域經典算法的實現,旨在幫助開發人員更加方便快捷地創

建智能應用程序

62.()反映數據的精細化程度,越細化的數據,價值越高。

A、規模

B、靈活性

C、關聯度

D、顆粒度

答案:D

解析:顆粒度反映的是數據的精細化程度。

63.以下哪項不屬于圖像分割的內容()。

A、把不同類標分開

B、提取不同區域的特征

C、識別圖像內容,或對圖像進行分類

D、對未處理圖像進行平滑

答案:D

解析:對未處理圖像進行平滑為圖像基礎處理,并非圖像分割。

64.以下說法正確的是()。

A、散點圖不能在子圖中繪制

B、散點圖的x軸刻度必須為數值

C、折線圖可以用作查看特征間的趨勢關系

D、箱線圖可以用來查看特征間的相關關系

答案:C

解析:A、B選項,散點圖可以在子圖中繪制且x軸刻度可以是文本等非數值,D

選項中箱線圖由于查看數據的分布。

65.以下哪一種分布是二維隨機變量的分布()。

A、正態分布

B、二項分布

C、邊緣分布

D、指數分布

答案:C

解析:二維隨機變量的分布有邊緣分布和條件分布

66.訓陳完SVM模型后不是支持向量的那些樣本我們可以丟掉,也可以繼續分類:

Oo

A、正確

B、錯誤

答案:A

解析:訓練完SVM模型后,不是支持向量的那些樣本我們可以丟掉,也可以繼續分

類。

67.np.sort。函數返回的是()。

A、已排序的原數組

B、排好序的數組拷貝

C、原數組

D、原數組的拷貝

答案:B

解析:np.sort。返回拷貝,Ndarray的sort。在原地操作,類似于Python的sor

ted與sorto

68.下列哪個不屬于常用的文本分類的特征選擇算法()。

A、卡方檢驗值

B、互信息

C、信息增益

D、主成分分析

答案:D

解析:以文檔頻率為基礎的特征選擇算法有文檔頻次方法(直接依據文檔頻率大

小排序的方法)、卡方檢驗、信息增益、互信息等,不包括主成分分析法。

69.隨機森林等樹狀算法通過哪個模塊進行調用()。

A、dummy

B、ensembIe

C、tree

D、experimentaI

答案:B

解析:sklearn.ensemble模塊包含了很多集成學習的算法,包括隨機森林、Adab

oostxGBDT等。

70.決策樹中的葉結點對應于()。

A、屬性

B、樣本

C、決策結果

D、標簽值

答案:C

解析:決策樹中的葉結點對應于決策結果。

71.二項分布的數學期望為()。

A、n(1-n)p

B、np(1-p)

C、np

D、n(1-p)

答案:C

解析:二項分布,即重復n次的伯努利試驗。如果事件發生的概率是P,則不發生

的概率q=1p.則期望為np,方差為npq。

72.增加卷積核的大小對于改進卷積神經網絡的效果是必要的嗎()

A、是的,增加卷積核尺寸一定能提高性能

B、不是,增加核函數的大小不一定會提高性能

答案:B

解析:增加核函數的大小不一定會提高性能。這個問題在很大程度上取決于數據

集。

73.Python解釋器的提示符為()。

A、>;

B、?;

C、?>;

D、#;

答案:C

解析:Python解釋器的提示符為>>>。

74.關于降維算法中的主成分分析,()是錯誤的。

A、有監督算法

B、可以指定降維的維度

C、基于方差來計算

D、根據特征值大小來篩選特征

答案:A

解析:主成分分析法屬于無監督算法。

75.DIKW金字塔模型中,頂層與底層的名稱分別為()。

A、智慧與數據

B、知識與數據

C、智慧與數值

D、知識與數值

答案:A

解析:DIKW金字塔(DIKWPyramid)模型揭示了數據(Data)與信息(Information)、

知識(KnowIedge)、智慧(Wisdom)之間的區別與聯系,自底向上分別為數據、信息、

知識、智慧。

76.下面代碼的輸出結果是()。

Print(0.1+0.2=0.3)

A、True

B、FaIse

C、true

D、faIse

答案:B

解析:由于存在精度的關系,所以0.1+0.2得到的是一個無限接近0.3的數而不

是0.3,故輸出False。

77.以下代碼的輸出結果為()。

Importnumpyasnp

A=np.array([[1,2,3],[4,5,6]])

Print(np.append(a,[7,8,9]))

A、[[123][456]]

B、[123456789]

G[[123][456][789]]

D、[[123555][4567891]

答案:B

解析:append()函數在沒有指定軸進行操作時,默認展平數組。

78.下面關于詞袋模型說法錯誤的是()。

A、詞袋模型使用一個多重集對文本中出現的單詞進行編碼

B、詞袋模型不考慮詞語原本在句子中的順序

C、詞袋模型可以應用于文檔分類和檢索,同時受到編碼信息的限制

D、詞袋模型產生的靈感來源于包含類似單詞的文檔經常有相似的含義

答案:C

解析:文本處理基礎知識。

79.數據科學中,人們開始注意到傳統數據處理方式中普遍存在的“信息丟失”現

象,進而數據處理范式從()轉向()。

A、產品在先,數據在后范式;數據在先,產品在后范式或無模式

B、模式在先,產品在后范式;產品在先,模式在后范式或無模式

C、數據在先,模式在后范式或無模式;模式在先,數據在后范式

D、模式在先,數據在后范式;數據在先,模式在后范式或無模式

答案:D

解析:傳統關系數據庫中,先定義模式,然后嚴格按照模式要求存儲數據;當需要

調整模式時,不僅需要數據結構,而且還需要修改上層應用程序。然而,NoSQL技

術則采用了非常簡單的Key-VaIue等模式在后(SchemaLater)和無模式(SchemaI

ess)的方式提升了數據管理系統的自適應能力。當然,模式在后(SchemaLater)

和無模式(Schemaless)也會帶來新問題,如降低了數據管理系統的數據處理能力。

80.有數組n=np.arange(24).reshape(2,-1,2,2),np.shape的返回結果是()。

A、(2,3,2,2)

B、(2,2,2,2)

C、(2,4,2,2)

D、(2,6,2,2)

答案:A

解析:reshape里-1的作用是可以先不計算,由數組size和其他的reshape參數

確定這個數值,此處用24除以其他不是7的值得到6?

81.設置圖的標題的命令是()。

A、pit.text('標題')

B、pit.legendC標題,)

C、pit.xticks('標題’)

D、pit.titIe('標題’)

答案:D

解析:A選項是添加文字說明命令,B選項是添加標識命令,C選項是添加X軸坐

標軸標識命令。

82.以下代碼的輸出結果為()。

Importnumpyasnp

A=np.array([[10,7,4],[3,2,1]])

Print(np.percentiIe(a,50))

A、[[1074][321]]

B、3.5

C、[6.54.52.53

D、[7.2.]

答案:B

解析:percentiIe是百分位數,此處是50%,即中位數,因為數組個數為偶數個,

因此中位數為3和4的均值。

83.基于Bagging的集成學習代表算法有()。

A、Adaboost

B、GBDT

GXGB00ST

D、隨機森林

答案:D

解析:隨機森林是基于Bagging的集成學習算法。

84.令N為數據集的大小(注:設訓練樣本(xi,yi),N即訓練樣本個數),d是輸入空

間的維數(注:d即向量xi的維數)。硬間隔SVM問題的原始形式(即在不等式約

束(注:yi(wTxi+b)21)下最小化(1/2)wTw)在沒有轉化為拉格朗日對偶問題之前,

是()。

A、一個含N個變量的二次規劃問題

B、一個含N+1個變量的二次規劃問題

C、一個含d個變量的二次規劃問題

D、一個含d+1個變量的二次規劃問題

答案:D

解析:欲找到具有最大間隔的劃分超平面,也就是要找到能滿足式題中不等式約

束的參數w和b,是一個含d+1個變量的二次規劃問題。

85.()是利用樣本的實際資料計算統計量的取值,并以引來檢驗事先對總體某些

數量特征的假設是否可信作為決策取舍依據的一種統計分析方法

A、假設檢驗

B、邏輯分析

C、方差分析

D、回歸分析

答案:A

解析:假設檢驗,又稱統計假設檢驗,是用來判斷樣本與樣本、樣本與總體的差異

是由抽樣誤差引起還是本質差別造成的統計推斷方法。其基本原理是先對總體的

特征做出某種假設,然后通過抽樣研究的統計推理,對此假設應該被拒絕還是接

受做出推斷。

86.輸入圖像已被轉換為大小為28X28的矩陣和大小為7X7的步幅為1的核心/

濾波器。卷積矩陣的大小是多少()

A、22X22

B、21X21

G28X28

D、7X7

答案:A

解析:28-7+1=22o

87.神經網絡感知機只有(_)神經元進行激活函數處理,即只擁有一層功能神經

兀。

A、輸出層

B、輸入層

G感知層

D、網絡層

答案:A

解析:神經網絡感知機只有輸入層神經元進行激活函數處理,即只擁有一層功能

神經元。

88.大數據涌現現象的形式有多種,不屬于大數據涌現的形式()。

A、價值涌現

B、隱私涌現

G物質涌現

D、隱私涌現

答案:C

解析:大數據并不等同于“小數據的集合”。因為,從“小數據”到“大數據”

的過程中出現了“涌現’現象“涌現”才是大數據的本質特征。所謂的“涌現(E

mergence)”就是“系統大于元素之和,或者說系統在跨越層次時,出現了新的質”。

大數據“涌現”現象的具體表現形式有多種,例如價值涌現'隱私涌現、質量涌

現和安全涌現等。

89.()先對數據集進行特征選擇,然后再訓練學習器。

A、過濾式選擇

B、包裹式選擇

C、稀疏表ZF

D、嵌入式選擇

答案:A

解析:過濾式選擇先對數據集進行特征選擇,然后再訓練學習器。

90.在支持向量機中,核函數的主要作用是0。

A、將低維空間中線性不可分的數據映射到高維空間,使其線性可分

B、將高維空間中線性不可分的數據映射到低維空間,使其線性可分

C、將高維空間中線性可分的數據映射到低維空間,使其線性不可分

D、將低維空間中線性可分的數據映射到高維空間,使其線性不可分

答案:A

解析:核函數的作用是將低維空間中線性不可分的數據映射到高維空間,使其線

性可分。

91.np.exp(x).round(5)的結果是2.71828,x的值是()。

A、0

B、1

C、2

D、2.71828

答案:B

解析:e的1次方。

92.下列有關函數的說法中,正確的是()。

A、函數的定義必須在程序的開頭

B、函數定義后,其中的程序就可以自動執行

C、函數定義后需要調用才會執行

D、函數體與關鍵字關鍵字def必須左對齊

答案:C

解析:函數的定義只要出現在調用之前即可;函數定義后需調用才可以執行;函數

定義時主體語句應縮進4個空格。

93.Spark的劣勢()

A、運算速度快

B、業務實現需要較少代碼

C、提供很多現成函數

D、需要更多機器內存

答案:D

解析:Spark采用的是內存計算模式,需要的內存較多

94.在邏輯回歸輸出與目標對比的情況下,以下評估指標中哪一項不適用()。

A、AUC-ROC

B、準確度

C、Logloss

D、均方誤差

答案:D

解析:LogisticRegression是一個分類算法,所以它的輸出不能是實時值,所以

均方誤差不能用于評估它。

95.數據科學項目應遵循一般項目管理的原則和方法,涉及()o

A、整體、范圍、時間、成本、質量、溝通、風險、宣傳、消費

B、整體、范圍、時間、成本、質量、人力資源、溝通、風險、采購

C、整體、范圍、時間、成本、質量、人力資源、運維'采購'宣傳

D、整體、范圍、時間、成本、質量、人力資源、采購、宣傳、運維

答案:B

解析:數據科學項目應遵循一般項目管理的原則和方法,涉及整體、范圍、時間、

成本、質量、人力資源、溝通、風險、采購。

96.以下關于連接數組不正確的是()。

Axconcatenate連接沿現有軸的數組序列

B、stack沿著新的軸加入一系列數組。

C、vstack水平堆疊序列中的數組(列方向)

D、hstack3D堆疊序列中的數組(行方向)

答案:D

解析:hstackO為數組水平拼接。

97.執行后可以查看Python的版本的是()。

Aximportsystem

Print(system,version)

B、importsys

Print(sys.version)

Cximportsystem

Print(system.Version)

D、importsys

Print(sys.Version)

答案:B

解析:查看Python版本可以通過調用操作系統模塊sys,語句print(sys.versi

on)實現。

98.數據安全不只是技術問題,還涉及到()。

A、人員問題

B、管理問題

C、行政問題

D、領導問題

答案:B

解析:數據安全不只是技術問題,還涉及到管理問題。

99.下面算法中屬于圖像銳化處理的是()。

A、低通濾波

B、加權平均法

C、高通濾波

D、中值濾波

答案:C

解析:高通濾波(high-passfiIter)是一種過濾方式,規則為高頻信號能正常通過,

而低于設定臨界值的低頻信號則被阻隔'減弱。通濾波屬于頻率域濾波,它保留

高頻,抑制低頻,是圖像銳化的一種方式。

100.以下關于圖像中的噪聲的特性說法錯誤的是()。

A、具有隨機性

B、具有規律性

C、具有疊加性

D、具有疊加性

答案:B

解析:噪聲是干擾和妨礙人類認知和理解信息的重要因素,而圖像噪聲則是圖像

中干擾和妨礙人類認識和理解圖像信息的重要因素。由于噪聲本身具有不可預測

性,可以將它當做一種隨機誤差(這種誤差只有通過概率統計的方法來識別)o因

此,圖像噪聲可以視為一種多維隨機過程,可以選擇隨機過程的概率分布函數和

概率密度函數來作為對圖像噪聲進行描述的方法。

101.關于面向過程和面向對象,下列說法錯誤的是()。

A、面向過程和面向對象都是解決問題的一種思路

B、面向過程是基于面向對象的

C、面向過程強調的是解決問題的步驟

D、面向對象強調的是解決問題的對象

答案:B

解析:面向過程、面向對象是兩種不同思想,不存在遞進關系。

102.以下關于隨機森林的說法正確的是()o

A、隨機森林對于高維數據集的處理能力比較好

B、在對缺失數據進行估計時,隨機森林是一個十分有效的方法

C、當存在分類不平衡的情況時,隨機森林能夠提供平衡數據集誤差的有效方法

D、以上答案都正確

答案:D

解析:隨機森林對于高維數據集的處理能力比較好,在對缺失數據進行估計時,

隨機森林是一個十分有效的方法,當存在分類不平衡的情況時,隨機森林能夠提

供平衡數據集誤差的有效方法。

103.在頁面中看不見的表單元素是那種()。

Ax<inputtype="password"></input>

B、<inputtype=,,radion></input>

C、<inputtype="hidden"></input>

D、<inputtype="reset"></input>

答案:C

解析:注意關鍵詞hidden。

104.以下代碼的輸出結果為()。

Importnumpyasnp

A=np.arange(6).reshape(3,2)

Wt=np.array([3,5])

Print(np.average(a,axis=1,weights=wt))

A、[[01][23][45]]

B、[0.6252.6254.625]

C、(array([0.625,2.625,4.625]),array([8.,8.,8.]))

D、以上答案都不正確

答案:B

解析:averge是按照權重求加權均值。

105.不屬于模型集成方法的是0。

A、直接集成法

B、增強法

C、堆疊法

D、遞歸法

答案:D

解析:模型集成方法包括直接集成法、自助法、隨機森林、增強法和堆疊法等。

106.參數估計又可分為()和區間估計。

A、線型估計

B、點估計

C、回歸估計

D、二維分析

答案:B

解析:參數估計是根據從總體中抽取的隨機樣本來估計總體分布中未知參數的過

程。從估計形式看,區分為點估計與區間估計。

107.matplotlib中的step函數繪制的是什么圖()。

A、階梯圖

B、直方圖

C、間斷條形圖

D、堆積折線圖

答案:A

解析:step用于繪制階梯圖。

108.info='abc'info[2]='d'輸出結果是()。

A、TypeError:'str'objectdoesnotsupportitemassignment

B、b

Cvc

D、d

答案:A

解析:字符串不能被修改

109.在其他條件不變的前提下,以下哪種做法容易引起機器學習中的過擬合問題

Oo

A、增加訓練集量

B、減少神經網絡隱藏層節點數

C、刪除稀疏的特征

D、SVM算法中使用高斯核/RBF核代替線性核

答案:D

解析:神經網絡減少隱藏層節點,就是在減少參數,只會將訓練誤差變高,不會導

致過擬合。D選項中SVM高斯核函數比線性核函數模型更復雜,容易過擬合。

110.標準正態分布的均數與標準差是()。

A、0,1

B、1,0

C、0,0

D、1,1

答案:A

解析:標準正態分布是均值為0,標準差為1的正態分布。

111.使用PiP工具查看當前已安裝的Python擴展庫的完整命令是()。

A、pipupdate

B、pipIist

C、pipinstaII

D、pipshowaII

答案:B

解析:使用pip工具查看當前已安裝的Python擴展庫的完整命令piplisto

112.有關MapReduce的輸入輸出,說法錯誤的是()

A、鏈接多個MapReduce作業時,序列文件是首選格式

B、FilelnputFormat中實現的getSpIits()可以把輸入數據劃分為分片,分片數

目和大小任意定義

C、想完全禁止輸出,可以使用NullOutputFormat

D、每個reduce需將它的輸出寫入自己的文件中,輸出無需分片

答案:B

解析:FilelnputFormat的分片大小是可以任意設置,可以調整的,輸入分片數目

不可以隨意設置,是根據分片大小和文件計算出來的。

113.下列關于描述性分析與探索性分析描述正確的是()o

A、描述性分析是相對于驗證性分析的一種提法

B、探索性分析是探索性性分析的基礎

C、探索性分析是相對于驗證性分析的一種提法

D、探索性分析是數據分析的第一步

答案:C

解析:二者的區別:

1)描述性分析(DescriptiveAnaIytics)是相對于診斷性分析、預測性分析和規范

性分析的一種提法,主要指的是對一組數據的各種統計特征(如平均數、標準差、

中位數、頻數分布、正態或偏態程度等)進行分析,以便于描述測量樣本的各種特

征及其所對應總體的特征。

2)探索性數據分析(ExpIoratoryDataAnalysis,EDA)是相對于驗證性分析的一種

提法,主要指的是指在盡量少的先驗假定下,對已有的數據(特別是調查或觀察得

來的原始數據)進行探索,并通過作圖、制表'方程擬合、計算特征量等較為簡單

方法,探索數據的結構和規律的一種數據分析方法。

114.把圖像分割問題與圖的最小割(mincut)問題相關聯的方法是()。

A、基于圖論的分割方法

B、分水嶺算法

GSLIC算法

D、基于閾值的方法

答案:A

解析:基于圖論的分割方法把圖像分割問題與圖的最小割(mincut)問題相關聯。

首先將圖像映射為帶權無向圖,圖中每個節點對應于圖像中的每個像素,每條邊

的權值表示了相鄰像素之間在灰度、顏色或紋理方面的非負相似度。

115.所有預測模型在廣義上都可稱為一個或一組()。

A、公式

B、邏輯

C、命題

D、規則

答案:D

解析:所有預測模型在廣義上都可稱為一個或一組規則。

116.高通濾波后的圖像通常較暗,為改善這種情況,將高通濾波器的轉移函數加

上一常數量以便于引入一些低頻分量。這樣濾波器叫()。

A、巴特沃斯高通濾波器

B、高頻提升濾波器

C、圖頻加強濾波器

D、理想高通濾波器

答案:B

解析:高頻增強濾波器由于相對削弱了低頻成分,因而濾波所得的圖像往往偏暗。

117.下列哪一種方法的系數沒有封閉形式(cIosed-form)的解()。

A、Ridge回歸

B、Lasso

C、Ridge回歸和Lasso

D、以上答案都不正確

答案:B

解析:Ridge回歸是一般的線性回歸再加上L2正則項,它具有封閉形式的解,可

以基于最小二乘法求解。

118.下列()算法更適合做時間序列建模。

A、CNN

B、決策樹

C、LSTM

D、貝葉斯算法

答案:C

解析:LSTM算法更適合做時間序列建模。

119.文本信息往往包含客觀事實和主觀情感,對于文本的情感分析主要是識別文

章中的主觀類詞語,其中()不適用于情感分析。

A、表達觀點的關鍵詞

B、表達程度的關鍵詞

C、表達情緒的關鍵詞

D、表達客觀事實的關鍵詞

答案:D

解析:D中表達客觀事實的關鍵詞是對事物的客觀性描述,不帶有感情色彩和情

感傾向,即為客觀性文本,不適用于情感分析。而主觀性文本則是作者對各種事物

的看法或想法,帶有作者的喜好厭惡等情感傾向,如ABC中表觀點、程度和情緒的

關鍵詞都是帶有情感傾向的主觀性文本,適用于情感分析。

120.下列哪種去噪方法能較好的保持圖像邊緣()。

A、中值濾波

B、雙邊濾波

C、均值濾波

D、IWJ斯濾波

答案:A

解析:中值濾波法是一種非線性平滑技術,它將每一像素點的灰度值設置為該點

某鄰域窗口內的所有像素點灰度值的中值。中值濾波對脈沖噪聲有良好的濾除作

用,特別是在濾除噪聲的同時,能夠保護信號的邊緣,使之不被模糊。

121.兩個變量相關,它們的相關系數r可能為0。這句話是否正確()

A、正確

B、錯誤

答案:A

解析:Pearson相關系數r=0,這表示兩個變量間不存在線性相關關系。

122.a=np.array([1,0,0,3,4,5,0,8]),b=np.nonzero(a)

B[。的值為0。

A、[0,3,4,5,7]

B、[1,3,4,5,8]

C、[03457]

D、[13458]

答案:A

解析:np.nonzero()函數是提取數組中不為0的下標,返回的結果為每一個位置

的下標數組組成的元組。

123.下列關于誤差的說法,正確的是()。

A、訓練樣本容量增加,泛化誤差也會增加

B、過擬合指數據在訓練集上的誤差過大

C、過擬合可以通過減少模型參數數量解決

D、交叉驗證不重復使用數據

答案:C

解析:解決過擬合的兩條主線:一是增大數據集,二是降低模型的復雜度(根據VC

維理論可知)O

124.下列屬于卷積網絡類型分類的是(_)o

A、普通卷積

B、擴張卷積

C、轉置卷積

D、以上答案都正確

答案:D

解析:卷積神經網絡四種卷積類型:普通卷積,擴張卷積,轉置卷積,可分離卷積。

125.以下哪種方法不能成功創建一個數組()。

A、a=np.array([1,2,3,4])

B、b=np.zeros((3,4))

Cxc=np.ones(1,2,3,4)

Dxd=np.arange(10,30,5)

答案:C

解析:onesO函數必須傳入一個數組類型的維度參數所表示的序列,如列表或元

組,所以C無法成功創建數組,改為np.ones((1,2,3,4))就可以。

126.有關Hadoop的陳述哪個是錯誤的()。

A、它運行在通用硬件上;

B、它是Apache軟件基金會(ASF)下的項目;

C、它是最好的實時流式數據處理框架;

D、Hadoop對數據的處理是有延遲的;

答案:C

解析:Hadoop不善于處理除批處理計算模式之外的其他計算模式,如流計算等,

故C錯。

127.以下哪個不屬于scikit-learn中用于標準化的函數()。

A、StandardScaIer

B、MinMaxScaIer

C、MeanScaIer

D、以上答案都正確

答案:c

解析:StandardScaIer和MinMaxScaIer是標準化的函數。

128.下列不屬于數據科學跨平臺基礎設施和分析工具的是()。

A、微軟Azure

B\Google云平臺

G阿里云

D、Adobephotoshop

答案:D

解析:Adobephotoshop軟件一般不作為數據分析工具。

129.構建一個神經網絡,將前一層的輸出和它自身作為輸入。下列哪一種架構有

反饋連接()

A、循環神經網絡

B、卷積神經網絡

C、限制玻爾茲曼機

D、都不是

答案:A

解析:循環神經網絡有反饋連接。

130.scipy.stats模塊中對隨機變量進行隨機取值的函數是()。

A、rvs

B、pdf

C、cdf

Dvsf

答案:A

解析:stats模塊中每個分布都rvs函數,對隨機變量取值。

131.在python中可以通過調用random庫來產生隨機數。a=random.randint(1,

99),并賦值給變量a。

A、隨機產生一個1~99的小數;

B、隨機產生一個廠99的整數;

C、產生一個值為99的整數;

D、隨機產生一個廠99的無理數;

答案:B

解析:randintO函數用來生成閉區間的整數。

132.kNN最近鄰算法在什么情況下效果較好()。

A、樣本較多但典型性不好

B、樣本較少但典型性好

C、樣本呈團狀分布

D、樣本呈鏈狀分布

答案:B

解析:K近鄰算法主要依靠的是周圍的點,因此如果樣本過多,則難以區分,典型

性好的容易區分。

133.關于層次聚類算法:(1)不斷重復直達達到預設的聚類簇數⑵不斷合并距離

最近的聚類簇⑶對初始聚類簇和相應的距離矩陣初始化⑷對合并得到的聚類

簇進行更新。正確的執行順序為()。

A、1234

B、1324

C、3241

D、3412

答案:C

解析:層次聚類算法的過程是:

對初始聚類簇和相應的距離矩陣初始化;不斷合并距離最近的聚類簇;對合并得

到的聚類簇進行更新;不斷重復直達達到預設的聚類簇數。

134.Numpy.array數組的簡稱是()。

Axarray

Bxnparray

C、Ndarray

D、pyarray

答案:C

解析:Numpy的array數組類被調用的是N維數組對象Ndarrayo

135.假如我們使用非線性可分的SVM目標函數作為最優化對象,我們怎么保證模

型線性可分()。

A、設C=1

B、設C=0

C、設C=無窮大

D、以上答案都不正確

答案:C

解析:C無窮大保證了所有的線性不可分都是可以忍受的。

136.任一隨機事件出現的概率為()

A、在-1與1之間

B、小于0

C、不小于1

D、在0與1之間

答案:D

解析:如果沒有其他的附加條件的話,一般概率P的取值范圍是:0WPW1。0代

表不可能發生,1代表一定會發生。

137.以下()是對DMM(數據管理成熟度模型)中“已管理級”基本特點的正確表述。

A、組織機構的數據管理關鍵活動能夠根據結構自身的反饋以及外部環境的變革

進行不斷優化。

B、組織機構已用定量化的方式管理其關鍵過程的執行過程。

C、組織機構只有在項目管理過程中執行了

D,M給出的關鍵過程,而缺乏機構層次的統籌與管理

D、組織機構的數據管理工作超出了項目管理的范疇,由組織機構統一管理了其數

據管理關鍵過程

答案:D

解析:DMM(數據管理成熟度模型)中“已管理級”基本特點的正確表述是組織機

構的數據管理工作超出了項目管理的范疇,由組織機構統一管理了其數據管理關

鍵過程。

138.Python內置函數()可以返回列表、元組、字典、集合、字符串以及range

對象中元素個數。

A、Ien()

B、Iength

C、sizeof()

Dxmax()

答案:A

解析:len()返回元素個數,max()返回最大值,python中無length。和sizeof()。

139.三維以上數組是以()的形式輸出的。

A、按行輸出

B、按矩陣輸出

C、按矩陣列表輸出

D、按字符串輸出

答案:C

解析:一維數組輸出為行,二維數組輸出為矩陣,三維數組輸出位矩陣列表。

140.Mapreduce適用于()

A、任意應用程序

B、任意可在windowsservet2008上運行的程序

C、可以串行處理的應用程序

D、可以并行處理的應用程序

答案:D

解析:Mapreduce適用于并行處理的應用程序

141.下列不屬于深度學習內容的是(_)0

A、深度置信網絡

B、受限玻爾茲曼機

C、卷積神經網絡

D、貝葉斯學習

答案:D

解析:貝葉斯學習屬于傳統的機器學習算法。

142.長短時記憶神經網絡被設計用來解決什么問題()

A、傳統RNN存在的梯度消失/爆炸問題

B、傳統RNN計算量大的問題

C、傳統RNN速度較慢的問題

D、傳統RNN容易過過擬合的問題

答案:A

解析:長短時記憶神經網絡增加一個用來保存長期狀態的單元來解決梯度消失問

題。

143.以下說法正確的是:()。1.一個機器學習模型,如果有較高準確率,總是說明

這個分類器是好的2.如果增加模型復雜度,那么模型的測試錯誤率總是會降低3.

如果增加模型復雜度,那么模型的訓練錯誤率總是會降低

A、1

B、2

C、3

D、1and3

答案:C

解析:如果增加模型復雜度,那么模型的測試錯誤率總是會降低,訓練錯誤率可能

降低,也可能增高。

144.以下哪項不是Matplotlib的三層結構()。

A、容器層

B、輔助顯示層

C、數據層

D、圖像層

答案:c

解析:MatplotIib三層結構是:容器層、輔助顯示層和圖像層。

145.著名的C4.5決策樹算法使用()來選擇最優劃分屬性。

A、信息增益

B、增益率

C、基尼指數

D、均值

答案:B

解析:C4.5決策樹算法使用增益率來選擇最優劃分屬性。

146.K-means++算法選擇初始seeds的基本思想就是:初始的聚類中心之間的相

互距離要盡可能的遠。那么算法流程為()。1.從輸入的數據點集合中隨機選擇一

個點作為第一個聚類中心2.對于數據集中的每一個點x,計算它與最近聚類中心

(指已選擇的聚類中心)的距離D(x)3.選擇一個新的數據點作為新的聚類中心,

選擇的原則是:D(x)較大的點,被選取作為聚類中心的概率較大4.重復2和3直

到k個聚類中心被選出來5.利用這k個初始的聚類中心來運行標準的k-means

算法

A、2.5.4.3.1

B、1.5.4.2.3

C、1.2.3.4.5

D、4.3.2.1.5

答案:C

解析:k-means++算法基本流程為:1.從輸入的數據點集合中隨機選擇一個點作為

第一個聚類中心2.對于數據集中的每一個點X,計算它與最近聚類中心(指已選

擇的聚類中心)的距離D(x)3.選擇一個新的數據點作為新的聚類中心,選擇的原

則是:D(x)較大的點,被選取作為聚類中心的概率較大4.重復2和3直到k個聚

類中心被選出來5.利用這k個初始的聚類中心來運行標準的k-means算法

147.scikit-learn中的k-means類,哪個參數是用來調節k值的()。

Avn_cIusters

B、max_iter

Cvn_init

D、init

答案:A

解析:n_cIusters參數設定了k-means算法的聚類個數。

148.大數據平臺核心分布式存儲與計算組件采用Hadoop技術體系中分布式存儲、

分布式計算框架,及Spark等開源產品和技術,實現對數據的安全控制和管理功

能,其中分布式存儲不包括()。

A、HDFS

B、PostgresqI

C、Hive

D、HBase

答案:B

解析:PostgresqI并非分布式存儲。

149.以下可以應用關鍵詞提取的是()。

A、文獻檢索

B、自動文摘

C、文本聚類/分類

D、以上答案都正確

答案:D

解析:在自然語言處理領域,處理海量的文本文件最關鍵的是要把用戶最關心的

問題提取出來。

150.不屬于數據脫敏的要求的是()。

A、雙向性

B、單向性

C、無殘留

D、易于實現

答案:A

解析:數據脫敏操作不能停留在簡單地將敏感信息屏蔽掉或匿名處理。數據脫敏

操作必須滿足以下3個要求:單向性、無殘留、易于實現。

151.()模塊是python標準庫中最常用的模塊之一。通過它可以獲取命令行參數,

從而實現從程序外部向程序內部傳遞參數的功能,也可以獲取程序路徑和當前系

統平臺等信息。

A、sys

B、pIatform

Cxmath

D、time

答案:A

解析:sys模塊用來獲取命令行參數,從而實現從程序外部向程序內部傳遞參數

的功能,也可以獲取程序路徑和當前系統平臺等信息。

152.scipy中包含對隨機變量計算期望和方差等函數的模塊是()。

Axstats

B、cdf

C、sf

D、rvs

答案:A

解析:stats是scipy的統計模塊,包含期望方差等計算。

153.Hive的數據最終存儲在()

A、HDFS

B、HBase

GRDBMS

D、Metastore

答案:A

解析:Hive是基于Hadoop分布式文件系統的,它的數據存儲在Hadoop分布式文

件系統HDFS中

154.下列場景中最有可能應用人工智能的是()。

A、刷臉辦電

B、輿情分析

C、信通巡檢機器人

D、以上答案都正確

答案:D

解析:人工智能應用的范圍很廣,包括:計算機科學,金融貿易,醫藥,診斷,重工業,

運輸,遠程通訊,在線和電話服務,法律,科學發現,玩具和游戲,音樂等諸多方面,

刷臉辦電、輿情分析、信通巡檢機器人當然都能很好的應用到人工智能,選D。

155.time庫的time.mktime(

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論