2024年數據價值挖掘技能競賽考試題庫大全-下（多選題）

上傳人：唯*** IP屬地：河北上傳時間：2024-09-09 格式：PDF 頁數：95 大小：18.09MB 積分：12 舉報 版權申訴

已閱讀5頁，還剩90頁未讀，繼續免費閱讀

版權說明：本文檔由用戶提供并上傳，收益歸屬內容提供方，若內容存在侵權，請進行舉報或認領

文檔簡介

2024年數據價值挖掘技能競賽考試題庫大全一下（多選題匯

總）

多選題

1.與自然語言處理相關的工具包Jieba,、Gensim,、NLTK,、Scikit-Learn的區

別是（）。

A、Jieba專注于中文分詞操作

B、NLTK主要用于一般自然語言處理任務（標記化，P0S標記，解析等）

C、Gensim主要用于題和向量空間建模、文檔集合相似性等

D、ScikiLlearn為機器學習提供了一個大型庫，其中包含了用于文本預處理的

工具，例如詞頻-逆文檔頻率特征提取（TfidfVectorizer）等。

答案：ABCD

2.下面哪些函數中，是有效的類構造函數有（）。

A、def_lnit_（self）:

B、definit_（self,var=0）:

Gdefinit_）:

D、ef_init_（seIf,a,b,c）:

答案：ABD

3.以下圖像技術中屬于圖像處理技術的是（）。

A、圖像編碼

B、圖像合成

C、圖像增強

D、圖像分類

答案：AC

4.可視化高維展示技術在展示數據之間的關系以及數據分析結果方面（）。

A、能夠直觀反映成對數據之間的空間關系

B、能夠直觀反映多維數據之間的空間關系

C、能夠靜態演化事物的變化及變化的規律

D、能夠動態演化事物的變化及變化的規律

答案：BD

5.Python函數包括下述哪些內容（）。

A、函數名稱

B、參數

C、執行語句

D、返回值

答案：ABCD

6.情感分析的應用場景有（）。

A、數據挖掘

B、信息檢索

C、文本分詞

D、市場營銷

答案：ABD

7.如果希望減少數據集中的特征數量，則可以采取的措施是（）。

A、使用正向選擇法（ForwardSeIection）

B\使用反向消除法（BackwardEIimination）

G逐步選擇消除法（Stepwise）

D、計算不同特征之間的相關系數，刪去相關系數高的特征之一

答案：ABCD

8.參數估計可以分為（）。

A、點估計

B、一致估計

C、區間估計

D、無偏估計

答案：AC

9.在正則化公式中，人為正則化參數，關于人的描述正確的是（）。

A、若正則化參數人過大，可能會導致出現欠擬合現象

B、若入的值太大，則梯度下降可能不收斂

C、取一個合理的人值，可以更好地應用正則化

D、如果令人的值很大的話，為了使CostFunction盡可能的小,所有0的值（不

包括eo）都會在一定程度上減小

答案：ABCD

10.直方圖修正法包括（）。

A、直方圖統計

B、直方圖均衡

C、直方圖過濾

D、直方圖規定化

答案：BD

11.實時計算類應用主要通過（）來實現。

A、流計算組件

B、內存計算組件

GMPP數據庫

D、Hadoop的后臺定時分析計算任務

答案：AB

12.神經網絡的拓撲結構可以分為（）和隨機型網絡等。

A、前向型

B、后向型

C、反饋型

D、自組織競爭型

答案：ACD

13.下面關于連續型隨機變量以及連續型概率密度函數的說法，正確的是（）。

A、“一個客服一天可能接聽到多少個電話”是一個連續型隨機變量

B、正態分布是一種連續型隨機變量的概率分布

C、可以使用概率密度函數來描述連續型隨機變量的概率分布

D、連續型概率密度函數曲線下方的面積之和為1

答案：BCD

14.ETL技術主要涉及（）操作。

A、抽取

B、轉換

C\加載

D\分析

答案：ABC

15.關于Python分隔代碼塊,描述錯誤的是（）o

A、內嵌代碼的每一行，都比外面的if語句的縮進更多

B、代碼以“begin”開頭，“end”結尾

C、每行代碼的縮進都一致

D、代碼塊被封裝在花括號中

答案：BCD

16.下面對范數規則化描述，正確的是（）。

A\L0是指向量中0的元素的個數

B、L1范數是指向量中各個元素絕對值之和

C、L2范數向量元素絕對值的平方和再開平方

D、L0是指向量中非0的元素的個數

答案：BCD

17.常用的代價函數有（）。

A、均方誤差

B、均方根誤差

C、平均絕對誤差

D、交叉炳

答案：ABCD

18.常見的圖像降噪方式包括（）。

A、中值濾波

B、均值濾波

C、平均濾波

D、加權平均濾波

答案：ABCD

19.以下選項中,屬于MapReduce特征的有（）。

A、以主從結構的形式運行

B、容錯機制的復雜性

C、任務備份機制的必要性

D、數據存儲位置固定

答案：ABC

20.以下關于L1和L2范數的描述，正確的是（）。

A、L1范數為x向量各個元素絕對值之和。

B\L2范數為x向量各個元素平方和的1/2次方，L2范數又稱Euclidean范數或

Frobenius范數

C、L1范數可以使權值稀疏，方便特征提取

D、L2范數可以防止過擬合，提升模型的泛化能力。

答案：ABCD

21.圖像數字化應該包括哪些過程（）。

A、采樣

B、模糊

C、量化

D、統計

答案：AC

22.以下關于數據維度的描述，正確的是（）。

A、采用列表表示一維數據，不同數據類型的元素是可以的

B、JSON格式可以表示比二維數據還復雜的高維數據

C、二維數據可以看成是一維數據的組合形式

D、字典不可以表示二維以上的高維數據

答案：ABC

23.最常見的分詞算法可以分為（）。

A、基于字符串匹配的分詞方法

B、基于理解的分詞方法

C、基于統計的分詞方法

D、基于閱讀的分詞方法

答案：ABC

24.在Spark中,彈性分布式數據集的特點包括（）。

A、可分區

B、可序列化

C、可直接修改

D、可持久化

答案：ABD

25.下列關于Ridge回歸的說法，正確的是（）。

A、若入=0,則等價于一般的線性回歸

B、若入=0,則不等價于一般的線性回歸

C、若入二+8,則得到的權重系數很小，接近于零

D、若入二+8,則得到的權重系數很大，接近與無窮大

答案：AC

26.以下有關特征數據歸一化的說法，正確的是（）。

A、特征數據歸一化加速梯度下降優化的速度

B、特征數據歸一化有可能提高模型的精度

C、線性歸一化適用于特征數值分化比較大的情況

D、概率模型不需要做歸一化處理

答案：ABD

27.下列哪些是面向對象技術的特征包含（）。

A、封裝

B、繼承

C、多態

D、分布性

答案：ABC

28.一個監督觀測值集合會被劃分為（）。

A、訓練集

B、驗證集

C、測試集

D、預處理集

答案：ABC

29.()是Spark比MapReduce計算快的原因。

A、基于內存的計算

B、基于DAG的調度框架

C、基于Lineage的容錯機制

D、基于分布式計算的框架

答案：ABC

30.ETL包含下列哪些過程()o

A、數據抽取

B、數據轉換

C、數據加載

D、數據展現

答案：ABC

31.下列選項中屬于傳統循環神經網絡的性質有()。

A、上一時刻的網絡狀態信息將會作用于下一時刻的網絡狀態

B、并行處理序列中所有信息

C、容易梯度爆炸/消失

D、易于搭建

答案：AC

32.pit.axhIine(y=0.0,c="r",Is="--",lw=2),對這句代碼說法正確的是()。

A、在0.0處添加豎直參考線

B、添加水平參考線

C、參考線是虛線形式

D、網格線是紅色的

答案：BC

33.卷積神經網絡中常用的池化函數包括（）。

A、最大池化函數

B、L2范數

C、相鄰矩形區域內的平均值

D、基于據中心像素距離的加權平均函數

答案：ABCD

34.Spark的技術架構可以分為哪幾層（）。

A、資源管理層

B、Spark核心層

C、應用層

D、服務層

答案：ABD

35.RNN在NLP領域的應用包括（）。

A、語言模型與文本生成

B、機器翻譯

C、語音識別

D、圖像描述生成

答案：ABCD

36.下列關于EM算法描述正確的是（）。

A、EM算法是常用的估計參數隱變量的利器

B、EM算法即是期望最大化算法

C、EM算法常被用來學習高斯混合模型的參數

D、EM算法是一種迭代式的方法

答案：ABCD

37.循環神經網絡的輸出模式包含（）。

A、多輸出

B、單輸出

C、同步多輸出

D、異步多輸出

答案：ABD

38.下列不屬于聚類性能度量內部指標的是（）。

A、DB指數

B、Dunn指數

C、Jaccard系數

D、FM系數

答案：CD

39.下面關于隨機變量及其概率分布的說法，正確的是（）。

A、隨機變量可以分為離散型隨機變量和連續型隨機變量

B、隨機變量的概率分布指的是一個隨機變量所有取值的可能性

C、扔5次硬幣，正面朝上次數的可能取值是0、1、2、3、4、5,其中正面朝上

次數為0與正面朝上次數為5的概率是一樣的

D、扔5次硬幣，正面朝上次數的可能取值是0、1、2、3、4、5,其中正面朝上

次數為5的概率是最大的

答案：ABC

40.關于現階段大數據技術體系，說法正確的是（）。

A、基礎設施提供數據計算'數據存儲'數據加工（DataWrangling或DataMung

ing）等服務

B、數據流處理、統計工具、日志分析都屬于常用的開源工具

C、數據資源代表的是生成數據的機構

D、數據源與App為數據科學和大數據產業生態系統提供數據內容

答案：ABCD

41.數據挖掘的主要功能包括概念描述、趨勢分析、孤立點分析及（）等方面。

A、關聯分析

B、分類和預測

C、聚類分析

D、偏差分析

答案：ABCD

42.以下屬于數據挖掘與分析工具的有（）。

A、TabIeau

B、Python

C、SPSS

D、Alteyx

答案：ABCD

43.許多功能更為強大的非線性模型可在線性模型基礎上通過引入（）而得。

A、層級結構

B、高維映射

C、降維

D、分類

答案：AB

44.ETL技術主要涉及（）操作。

A、抽取

B、轉換

C、加載

D、分析

答案：ABC

45.以下屬于頻率域圖像濾波的方法有（）。

A、中值濾波

B、均值濾波

C、布特沃斯濾波

D、圖斯濾波

答案：CD

46.以下方法中可用于圖像分割的有（）。

A、霍夫曼編碼

B、分水嶺算法

C、K-means

D、區域增長法

答案：BCD

47.以下對模型性能提高有幫助的是（）。

A、數據預處理

B、特征工程

C、機器學習算法

D、模型集成

答案：ABCD

48.大數據的資產屬性體現在（）。

A、具有勞動增值

B、涉及法律權屬

C、具有財務價值

D、涉及道德與倫理

答案：ABCD

49.對于決策樹的優點描述，正確的是（）。

A、可讀性強

B、分類速度快

C、只用于回歸問題

D、是無監督學習

答案：AB

50.HadoopMapReduce是MapReduce的具體實現之一oHadoopMapReduce數據處理

過程涉及四個獨立的實體，包括（）。

AvClient

B、JobTracker

CvTaskTracker

D、HDFS

答案：ABCD

51.在數據科學中，計算模式發生了根本性的變化—從集中式計算、分布式計

算、網格計算等傳統計算過渡至云計算，有一定的代表性的是Google云計算三

大技術，這三大技術包括（）。

A、HadoopYARN資源管理器

B、GFS分布式存儲系統

C\MapReduce分布式處理技術

D、BigTable分布式數據庫

答案：BCD

52.下面屬于可視化高維數據技術的是（）。

A、矩陣

B、平行坐標系

C、星形坐標系

D、散布圖

答案：ABC

53.隨機森林在做數據處理方面的優勢是（）。

A、不需要做缺失值處理

B、不需要處理噪音

C、不需要做特征選擇

D、不需要平衡數據集

答案：ACD

54.回歸分析有很多種類，常見的有（）。

A、線性回歸

B、系數回歸

G邏輯回歸

D、曲線回歸

答案：ACD

55.使用極大似然估計的前提條件有（）。

A、數據服從某種已知的特定數據分布型

B、已經得到了一部分數據集

C、提前已知某先驗概率

D、數據集各個屬性相對獨立

答案：AB

56.基于Hadoop開源大數據平臺主要提供了針對數據分布式計算和存儲能力，如

下屬于分布式存儲組件的有（）。

A、MapReduce

B、Spark

GHDFS

D、HBase

答案：CD

57.TF-IDF的缺點包含()o

A、字詞的重要性隨它在文件中出現的次數成正比

B、將一些生僻字誤當作文檔關鍵詞

C、只考慮特征詞和文本之間的關系，忽略了一個特征項在不同類別間的分布情

況

D、沒有考慮特征詞的位置因素對文本的區分度

答案：BCD

58.下面對范數規則化描述，正確的是()。

A、L0是指向量中0的元素的個數

B、L1范數是指向量中各個元素絕對值之和

C、L2范數向量元素絕對值的平方和再開平方

D、L0是指向量中非0的元素的個數

答案：BCD

59.Pandas中主要的數據結構是()。

A、Data

B、DataFrame

C、Frame

D、Series

答案：BD

60,若b=np.array([True,FaIse,FaIse]),以下能輸出[FaIseTrueTrue]的是

A、print(b-1)

B、print(~b)

C、print(np.Iogical_not(b)

D、print(?b)

答案：BC

61.下面關于reduce函數功能描述正確的是()。

A、合并value值，形成較小集合

B、采用迭代器將中間值提供給reduce函數

C、map)函數處理后結果才會傳輸給reduce)

D、內存中不會存儲大量的vaIue值

答案：ABCD

62.字符串的格式化可以使用()。

A、%

B、format

C、input

D、+

答案：AB

63.異常值的檢測方法有()。

A、直接通過數據可視化進行觀察

B、通過統計分布進行判斷

C、通過相對距離進行度量

D、通過相對密度進行度量

答案：ABCD

64.下列屬于描述gensim庫的特性的是（）。

A、訓練語料的預處理

B、主題向量的變換

C、文檔相似度的計算

D、文章切分詞語統計計算

答案：ABC

65.以下（）是scipy.stats可實現的連續隨機變量方法。

A、rvs

B、pdf

C、ppf

D、cdf

答案：ABCD

66.特征選擇方法有（）。

A、IC赤池信息準則

B、LARS嵌入式特征選擇方法

C、LVW包裹式特征選擇方法

D\Relief過濾式特征選擇方法

答案：BCD

67.下列關于集合操作結果正確的有（）。

A、name={'d','s'}nameadd（'sd'）,name值為：{‘sd','d','s'}

B\name={'sd',d','s'}nameremove（'s'）,name值為：{‘sd','d'}

C、name={'sd',d','s'}namecIear),name值為：{}

D\name={'sd',d','s'}nameupdate（'dF）,name值為：{‘sd','d',

s'j'）

答案：ABC

68.Python中jieba庫的基本實現原理是什么（）。

A、分析漢字與漢字之間的關聯幾率概率

B、分析漢字詞組的關聯幾率概率

C、根據用戶自定義的詞組進行分析

D、還可以分析漢字與英文之間關聯幾率概率

答案：ABC

69.數據科學以數據尤其是大數據為研究對象，主要研究內容包括（）。

A、數據加工

B、數據管理

C、數據計算

D、數據產品開發

答案：ABCD

70.在python中查看關鍵字，需要在Python解釋器中執行（）和（）。這兩條

命令。

A、Iistkeyword

B\importkeyword

C、keyword

D\import.kwlist

答案：BC

71.大數據的資產屬性體現在（）。

A、具有勞動增值

B、涉及法律權屬

C、具有財務價值

D、涉及道德與倫理

答案：ABCD

72.以下說法正確的是（）。

A、條件獨立性假設不成立時，樸素貝葉斯分類器仍有可能產生最優貝葉斯分類

器

B、在估計概率值時使用的拉普拉斯修正避免了因訓練集樣本不充分而導致概率

估值為零的問題

C、由于馬爾可夫鏈通常很快就能趨于平穩分布，因此吉布斯采樣算法的收斂速

度很快

D、二分類任務中兩類數據滿足高斯分布且方差相同時，線性判別分析產生貝葉

斯最優分類器

答案：ABD

73.我們想要訓練一個ML模型，樣本數量有100萬個，特征維度是5000,面對

如此大數據，有效地訓練模型可以采取的措施是（）

A、對訓練集隨機采樣，在隨機采樣的數據上建立模型

B、嘗試使用在線機器學習算法

C、使用PCA算法減少特征維度

D、-

答案：ABC

74.Spark中的ScheduIer模塊可以分為（）。

A、DAGScheduIer

B、ResourceScheduIer

C、TaskScheduIer

D、JobScheduIer

答案：AC

75.下列哪些是傳統RDBMS的缺點（）o

A、表結構schema擴展不方便

B、全文搜索功能較弱

C、大數據場景下I/O較高

D、存儲和處理復雜關系型數據功能較弱

答案：ABCD

76.ApacheFIume主要解決的是日志數據的收集和處理問題，Flume的主要設計目

的和特征是（）。

A、高可靠性

B、可擴展性

C、管理復雜

D、不支持用戶自定義

答案：AB

77.循環神經網絡主要被應用的場景有（）。

A、語音識別

B、語音建模

C、機器翻譯

D、圖像識別

答案：ABC

78.RNN網絡的激活函數要選用雙曲正切而不是Sigmod的原因有（）。

A、使用Sigmod函數容易出現梯度消失

B、Sigmod的導數形式較為復雜

C、雙曲正切更簡單

D、Sigmoid函數實現較為復雜

答案：AB

79.完整性約束通常包括（）

A、實體完整性

B、域完整性

C、參照完整性

D、用戶定義完整性

答案：ABCD

80.數據安全不僅包括數據保密性，還包括（）。

A、完整性

B、可用性

C、不可否認性

D、可審計性

答案：ABCD

81.Python的優點有（）o

A、變量不用預定義類型

B、數據結構功能強大

C、語言可解釋性強

D、變量類型固定

答案：ABC

82.鑒別了多元共線特征，下一步可能的操作是（）。

A、移除兩個共線變量

B、不移除兩個變量，而是移除一個

C、移除相關變量可能會導致信息損失，可以使用懲罰線性回歸模型（如ridge

或Iassoregression）

D、-

答案：BC

83.模塊可以分為以下的通用類別包含（）。

A、使用python編寫的.py文件

B、已被編譯為共享庫或DLL的C或C++擴展

C、把一系列模塊組織到一起的文件夾

D、使用C編寫并鏈接到python解釋器的內置模塊

答案：ABCD

84.關于梯度消失和梯度爆炸，以下說法正確的是：（_）。

A、根據鏈式法則，如果每一層神經元對上一層的輸出的偏導乘上權重結果都小

于1的話，那么即使這個結果是0.99,在經過足夠多層傳播之后，誤差對輸入

層的偏導會趨于0

B、可以采用ReLU激活函數有效地解決梯度消失的情況

C、根據鏈式法則，如果每一層神經元對上一層的輸出的偏導乘上權重結果都大

于1的話，在經過足夠多層傳播之后，誤差對輸入層的偏導會趨于無窮大

D、可以通過減小初始權重矩陣的值來緩解梯度爆炸

答案：ABCD

85.數據來源和目標用戶已定的情況下，不同視覺通道的表現力不同。視覺通道

的表現力的評價指標包括（）。

A、精確性

B、可辨認性

G可分離性

D、視覺突出性

答案：ABCD

86.以下（）函數是累積函數。

A、cumsum

B、argmin

Cvumprod

Dvargmax

答案：AC

87.以下關于集成學習的說法，正確的是（）。

A\隨機森林是減少模型的方差，而GBDT是減少模型的偏差

B、組成隨機森林的樹可以并行生成，而GBDT是串行生成

C、隨機森林的結果是多數表決表決的，而GBDT則是多棵樹累加之和

D、-

答案：ABC

88.在數據安全領域常用的P2DR模型中，P、D和R代表的是（）。

A、策略

B、防護

C、檢）則

D、響應

答案：ABCD

89.LSTM應用場景有（）。

A、翻譯語言

B、語音識別

C、圖像識別

D、股票預測

答案：ABD

90.相對于HadoopMapReduce,Spark的特點有（）。

A、通用性

B、易用性

C、速度快

D、容錯性

答案：ABC

91.對以下代碼說法正確的是（）。

A、該圖表是一個藍綠色的散點圖

B、圖表中有紅色實線的網格線

C、圖表中有圖例

D、該圖畫的是sin曲線

答案：CD

92.數據增值存在于哪些過程中（）。

A、數據對象的封裝

B、數據系統的研發

C、數據的集成應用

D、基于數據的創新

答案：ABCD

93.可能導致交叉檢驗模型評估較差可能是由于（）的原因導致的有（）。

A、模型過擬合

B、模型欠擬合

C、模型過度復雜

D、模型過度簡單

答案：ABCD

94.在選擇高斯函數作為核函數的支持向量機中，參數的選取會影響擬合的結果,

如果出現過擬合的現象，則導致該結果的原因有可能是（）。

A、其他參數保持不變，C值過大

B、其他參數保持不變，C值較小

C、其他參數保持不變，。較大

D、其他參數保持不變，。較小

答案：AD

95.下面是Python注釋語句的是（）。

A、'heIIo'

B、"'helIo'''

C、"helIo"

D、#

答案：BD

96.下面關于隨機變量及其概率分布的說法，正確的是（）。

A、隨機變量可以分為離散型隨機變量和連續型隨機變量

B、隨機變量的概率分布指的是一個隨機變量所有取值的可能性

C、扔5次硬幣，正面朝上次數的可能取值是0、1、2、3、4、5,其中正面朝上

次數為0與正面朝上次數為5的概率是一樣的

D、扔5次硬幣，正面朝上次數的可能取值是0、1、2、3、4、5,其中正面朝上

次數為5的概率是最大的

答案：ABC

97.以下方法是tf-idf的變種的有（）o

A、TFC

B、EWC

C、ITC

D、IG

答案：AC

98.常見的聚類性能度量外部指標有（）。

A、Jaccard系數

B、DB指數

C、FM指數

D、以上答案都正確

答案：AC

99.聚類性能度量的指標主要分為外部指標和內部指標，其中屬于內部指標的是

。。

A、Jaccard指數

B、FM指數

GDB指數

D、unn指數

答案：CD

100.影響聚類算法效果的主要原因有（）。

A、特征選取

B、模式相似性測度

C、分類準則

D、已知類別的樣本質量

答案：ABC

101.下面哪些是Spark的組件（）o

A、SparkStreaming

B、MLib

C、GraphX

D\SparkR

答案：ABC

102.下列關于AUC面積的描述，正確的是()。

A、UC被定義為ROC曲線下與坐標軸圍成的面積

B、AUG面積的值大于1

C、AUC等于0.5時，則真實性最低，無應用價值

D、AUC越接近1.0,檢測方法真實性越高

答案：ACD

103.MapReduce對map()函數的返回值處理后才傳給reduce()函數，其中涉

及哪些操作()。

A、合并

B、排序

C、分區

D、抽樣

答案：ABC

104.特征選擇的目的是()o

A、減少特征數量、降維

B、使模型泛化能力更強

C、增強模型擬合能力

D、減少過擬合。

答案：ABD

105.下面對LDA判別分析的思想描述，正確的是（）。

A、同類樣例的投影點盡可能近

B、異類樣例的投影點盡可能遠

C、同類樣例的投影點盡可能遠

D、異類樣例的投影點盡可能近

答案：AB

106.列式數據庫（如BigTable和HBase）以表的形式存儲數據，表結構包括（）

等元素。

A、關鍵字

B、時間戳

G列簇

D、數據類型

答案：ABC

107.Numpy數組中將一個數組分割成多個小數組數組的分割函數包括（）。

A、hspIitB

B、vspIitC

C、spIitD

Dvsplit

答案：ABCD

108.下列跟人工智能場景相關的是（）。

A\圖像識別

B\人臉識別

C、語音識別

D、語義分析

答案：ABCD

109.以下選項中是正確的字符串有（）。

A、'abc"ab"

B、‘abc"ab'

C、“abc”ab”

D、“abc\"ab”

答案：BD

110.DGI定義的數據治理任務包括（）。

A、數據質量的評估

B、主動定義或序化規則

C、為數據利益相關者提供持續跨職能的保護與服務

D、應對并解決因不遵守規則而產生的問題

答案：BCD

111.大數據偏見包括（）。

A、數據源的選擇偏見

B、算法與模型偏見

C、結果解讀方法的偏見

D、數據呈現方式的偏見

答案：ABCD

112.關于Dropout說法，正確的是（）。

A、Dropout背后的思想其實就是把DNN當作一個集成模型來訓練，之后取所有

值的平均值，而不只是訓練單個DNN

B、DNN網絡將Dropout率設置為p,也就是說，一個神經元被保留的概率是1-p。

當一個神經元被丟棄時，無論輸入或者相關的參數是什么，它的輸出值就會被設

置為0

C、丟棄的神經元在訓練階段，對BP算法的前向和后向階段都沒有貢獻。由于這

個原因，每一次訓練它都像是在訓練一個新的網絡

D\ropout方法通常和L2正則化或者其他參數約束技術（比如MaxNorm）一起使

用，來防止神經網絡的過擬合

答案：ABCD

113.下列場景適合使用Python的是（）。

A、可作為腳本語言，快速編寫小型程序、腳本等

B、可應用在數據科學、交互式計算及可視化領域

C、可作為膠水語言，整合如C++等語言代碼

D\Python適用于低延時'高利用率的應用場景

答案：ABC

114.關于Hive的說法正確的是（）。

A、Hive是基于Hadoop的數據倉庫工具

B、Hive可以將結構化的數據文件映射為一張數據庫表

C、最初，Hive由Google開源，用于解決海量結構化日志數據統計問題

D、Hive的主要應用場景是離線分析

答案：ABD

115.下列關于詞袋模型說法正確的是（）。

A、詞袋模型可以忽略每個詞出現的順序

B、詞袋模型不可以忽略每個詞出現的順序

C\TensorFIow支持詞袋模型

D、詞袋模型可以表出單詞之間的前后關系

答案：AC

116.下列關于密度聚類說法，錯誤的是（）。

A、DBSCAN是一種著名的密度聚類算法

B、密度聚類從樣本數量的角度來考察樣本之間的可連接性

C、密度聚類基于不可連接樣本不斷擴展聚類簇，以獲得最終的聚類結果

D、密度直達關系通常滿足對稱性

答案：BCD

117.數據挖掘算法的組件包括（）。

A、模型或模型結構

B、評分函數

C、優化和搜索方法

D、數據管理策略

答案：ABCD

118.Python中jieba庫支持哪幾種模式為（）。

A、精準模式

B、匹配模式

C、全模式

D、搜索引擎模式

答案：ACD

119.下列關于特征的稀疏性說法，正確的是（）。

A、稀疏性指的是矩陣中有許多列與當前學習任務無關

B、稀疏樣本可減少學習任務的計算開銷

C、學習任務難度可能有所降低

D、稀疏矩陣沒有高效的存儲方法

答案：ABC

120.以下屬于規則的分詞方法的是（）。

A、正向最大匹配法

B、逆向最大匹配法

C、雙向最大匹配法

D、條件隨機場

答案：ABC

121.以下（）是一元通用函數。

A、np.add）

B\np.maximum）

C、np.exp）

D\np.sqrt）

答案：CD

122.我們想要減少數據集中的特征數即降維，以下方案合適的是（）。

A、使用前向特征選擇方法

B、使用后向特征排除方法

C、我們先把所有特征都使用，去訓練一個模型，得到測試集上的表現。然后我

們去掉一個特征，再去訓練，用交叉驗證看看測試集上的表現。如果表現比原來

還要好，我們可以去除這個特征

D、查看相關性表，去除相關性最高的一些特征

答案：ABCD

123.在Spark的基本流程中，主要涉及（）。

A、DriverProgram

B、CIusterManager

C、WorkerNode

D\Executor

答案：ABCD

124.以下關于HBase說法正確的是（）。

A、面向列的數據庫

B、非結構化的數據庫

C、支持大規模的隨機、實時讀寫

D、采用松散數據模型

答案：ABCD

125.下列說法中正確的是（）o

A、云計算的主要特點是非常昂貴

B、大數據是多源、異構'動態的復雜數據，即具有4V特征的數據

C、大數據是數據科學的研究對象之一

D、MapReduce是采用云計算這種新的計算模式研發出的具體工具軟件(或算法)

答案：BCD

126.()是Spark比MapReduce計算快的原因。

A、基于內存的計算

B、基于DAG的調度框架

C、基于Lineage的容錯機制

D、基于分布式計算的框架

答案：ABC

127.下面關于單樣本Z檢驗的說法，正確的是()。

A、在Python中,單樣本Z檢驗可以使用scipy.stats.s()實現

B、單樣本Z檢驗適用于樣本量較大的情況

C、單樣本Z檢驗假設要檢驗的統計量(近似)滿足正態分布

D、單樣本Z檢驗常用于檢驗總體平均值是否等于某個常量

答案：BCD

128.下列屬于CNN關鍵層的是()o

A、輸入層

B、卷積層

C、激活層

D、池化層

答案：ABCD

129.在正則化公式中，入為正則化參數，關于人的描述正確的是（）。

A、若正則化參數人過大，可能會導致出現欠擬合現象

B、若入的值太大，則梯度下降可能不收斂

C、取一個合理的人值，可以更好地應用正則化

D、如果令人的值很大的話，為了使CostFunction盡可能的小,所有6的值（不

包括eo）都會在一定程度上減小

答案：ABCD

130.下列有關MapReduce計算框架的描述正確的是（）。

A、MapReduce可以計算任務的劃分和調度

B、MapReduce可完成數據的分布存儲和劃分

CvMapReduce可以實現處理系統節點出錯檢測和失效恢復

DvMapReduce可實現處理數據與計算任務的同步

答案：ABCD

131.以下關于MapReducel.0版本說法正確的是（）。

A、擴展性差

B、可靠性差

C、資源利用率低

D、無法支持多種計算框架

答案：ABCD

132.HighBias（高偏差）的解決方案有（）。

A、Boosting

B、復雜模型（非線性模型、增加神經網絡中的層）

G更多特征

D、-

答案：ABC

133.常用的數據審計方法可以分為（）。

A、預定義審計

B、自定義審計

C、可視化審計

D、結構化審計

答案：ABC

134.以下關于HTML標簽嵌套規則的說法，正確的是（）。

A、塊元素可以包含內聯元素或某些塊元素，但內聯元素也可以包含塊元素

B、HTML標簽包括塊級元素和內嵌元素

C、內嵌元素一般用在網站內容之中的某些細節或部位，用以“強調區分樣式上

標下標錨點”等，通常包括：aabbrbbrfontiimginputkbdIabeIqsseIectsmaIIs

pansubttuvar等

D、其中塊級元素一般用來搭建網絡架構布局承載內容，通常包括的標簽有：ad

dressdirdivdIdtddformhl~h6hrisindexmenunoframesnoscriptoIppretabIeuI

等

答案：BCD

135.在數據科學中，計算模式發生了根本性的變化—從集中式計算、分布式計

算、網格計算等傳統計算過渡至云計算，有一定的代表性的是Google云計算三

大技術，這三大技術包括（）。

A、HadoopYRN資源管理器

B、GFS分布式存儲系統

C\MapRedue分布式處理技術

D、BigTable分布式數據庫

答案：BCD

136.在Python中，以下導入模塊方式正確的是()。

A、import模塊名

B、import模塊名as模塊的別名

C\from模塊名import函數名

D\from模塊名import函數名A,函數名B

答案：ABCD

137.下面定義函數正確的是()。

A、defcaIc(*numbers):sum=0forninnumbers:sum=sum+n*nreturnsum

B、defcaIc(**numbers):sum=0forninnumbers:sum=sum+n*nreturnsum

C\defcaIc(**numbers,n):sum=0forninnumbers:sum=sum+n*nreturnsum

D、efcaIc(**numbers,n=0):sum=0forninnumbers:sum=sum+n*nreturnsum

答案：AB

138.字典的遍歷正確的有()o

A、forin變量i,字典：使用i遍歷所有的鍵，有鍵就可以通過變量訪問其值

B、for變量iin字典：使用i遍歷所有的鍵，有鍵就可以通過變量訪問其值

C\for變量i,變量jin字典items):使用變量i遍歷所有鍵，通過變量j遍

歷所有值

D、forin變量i,變量j字典items）:使用變量i遍歷所有鍵，通過變量j遍歷

所有值

答案：BC

139.與自然語言處理相關的工具包Jieba,、Gensim,、NLTK,、Scikit-Learn的

區別是（）。

A、Jieba專注于中文分詞操作

B、NLTK主要用于一般自然語言處理任務（標記化，P0S標記，解析等）

C、Gensim主要用于題和向量空間建模、文檔集合相似性等

D、Scikit-learn為機器學習提供了一個大型庫，其中包含了用于文本預處理的

工具，例如詞頻-逆文檔頻率特征提取（TfidfVectorizer）等。

答案：ABCD

140.下面屬于范數規則化的作用的是（）。

A、保證模型盡可能的簡單，避免過擬合

B、約束模型特征

C、最小化問題

D、最大化問題

答案：AB

141.以下關于L1和L2范數的描述，正確的是（）。

A、L1范數為x向量各個元素絕對值之和。

B、L2范數為x向量各個元素平方和的1/2次方，L2范數又稱Euclidean范數或

Frobenius范數

C、L1范數可以使權值稀疏，方便特征提取

D、L2范數可以防止過擬合，提升模型的泛化能力。

答案：ABCD

142.某單位運用隨機森林算法思想建立搶修熱點模型。該模型主要預測下期臺區

工單數量，構建搶修熱點。以下模型算法構建步驟中合理的順序是（）。

A、將歷史數據進行隨機自助法重抽樣，生成N個訓練樣本集

B、將N個訓練樣本集分別做決策樹，生成N棵決策樹

C、將N棵決策樹隨機構成隨機森林

D、未來根據預測樣本氣候環境、設備屬性、設備工況進行隨機森林決策投票，

得出針對該預測樣本最優的決策樹進行運算，并計算出最終結果。

答案：ABCD

143.預剪枝使得決策樹的很多分子都沒有展開，會導致（）。

A、顯著減少訓練時間開銷

B、顯著減少測試時間開銷

C、降低過擬合風險

D、提高欠擬合風險

答案：ABCD

144.數據可視化是利用計算機圖形學和圖像處理技術，將數據轉換成（）或（）

在屏幕上顯示出來，并進行交互處理的理論、方法和技術。

A、文字

B、圖形

C、圖像

D、視頻

答案：BC

145.下列屬于TF-IDF的應用有（）o

A、搜索引擎

B、關鍵詞提取

C、文本相似性

D、數據降維

答案：ABC

146.集成學習中增強多樣性的常見做法有（）。

A、數據樣本擾動

B、輸入屬性擾動

C、輸出表示擾動

D、算法參數擾動

答案：ABCD

147.以下哪層是卷積神經網絡的組成部分（）。

A、卷積層

B、中間層

C、池化層

D、全連接層

答案：ACD

148.可作為決策樹選擇劃分屬性的參數是（）。

A、信息增益

B、增益率

C、基尼指數

D\密度函數

答案：ABC

149.假設目標遍歷的類別非常不平衡，即主要類別占據了訓練數據的99%,現在

你的模型在訓練集上表現為99%的準確度，那么下面說法正確的是（）。

A、準確度并不適合衡量不平衡類別問題

B、準確度適合衡量不平衡類別問題

C、精確度和召回率適合于衡量不平衡類別問題

D、精確度和召回率不適合衡量不平衡類別問題

答案：AC

150.DGI定義的數據治理任務包括（）。

A、數據質量的評估

B、主動定義或序化規則

C、為數據利益相關者提供持續跨職能的保護與服務

D、應對并解決因不遵守規則而產生的問題

答案：BCD

151.在數據科學中，計算模式發生了根本性的變化—從集中式計算,分布式計

算、網格計算等傳統計算過渡至云計算，有一定的代表性的是Google云計算三

大技術，這三大技術包括（）。

A、HadoopYRN資源管理器

B、GFS分布式存儲系統

C\MapRedue分布式處理技術

D、BigTable分布式數據庫

答案：BCD

152.（）是通過對無標記訓練樣本的學習來進行分類的。

A、密度估計

B、異常檢測

G線性回歸

D、聚類分析

答案：ABD

153.以下（）屬于數據統計分析工具。

A、Weka

B、SAS

C、SPSS

D\MatIab

答案：ABCD

154.決策樹的劃分選擇有（）。

A、增益系數

B、信息增益

C、增益率

D、基尼系數

答案：BCD

155.下面是Python的特點和優點是（）。

A、解釋性強

B、使用動態特性

C、面向對象

D、語法簡潔

答案：ABCD

156.以下屬于漢語未登錄詞的類型的有（）。

A、存在于詞典但出現頻率較少的詞

B、新出現的普通詞匯

C、專有名詞

D、專業名詞和研究領域名稱

答案：BCD

157.假設檢驗中，首先需要提出零假設和備擇假設，零假設是（），備擇假設是

（）。

A、只有出現的概率大于閾值才會被拒絕的，只有零假設出現的概率大于閾值才

會被承認的

B、希望推翻的結論，希望證明的結論

C、只有出現的概率小于閾值才會被拒絕的，只有零假設出現的概率小于閾值才

會被承認的

D、希望證明的結論，希望推翻的結論

答案：BC

158.聚類性能度量外部指標包括（）。

A、Jaccard系數

B、FM指數

C\Dunn指數

D、Rand指數

答案：ABD

159.以下可用于處理由于光照不均帶來的影響的圖像處理方法有（）。

A、同態濾波

B、頂帽變換

C、基于移動平均的局部閾值處理

D、拉普拉斯算子

答案：ABC

160.圖像識別的一般步驟包括（）。

A、預處理

B、特征提取

C、超像素生成

D、識別分類

答案：ABD

161.關于降維說法正確的是（）。

A、PA是根據方差這一屬性降維的

B、降維可以防止模型過擬合

C、降維降低了數據集特征的維度

D、降維方法有PLA等

答案：ACD

162.按照涉及自變量的多少，可以將回歸分析分為（）。

A、線性回歸分析

B、非線性回歸分析

C、一元回歸分析

D、多元回歸分析

答案：CD

163.特征向量的缺失值處理：缺失值較多，直接將該特征舍棄掉，否則可能反倒

會帶入較大的noise,對結果造成不良影響；缺失值較少,其余的特征缺失值都

在10%以內，我們可以采取的處理方式有（）。

A、把NaN直接作為一個特征，假設用0表示

B、用均值填充

C、用隨機森林等算法預測填充

D、以上答案都不正確

答案：ABC

164.關于分析學習和歸納學習的比較，說法正確的是（）。

A、歸納學習擬合數據假設，分析學習擬合領域理論的假設

B、歸納學習論證方式為統計推理，分析學習為演繹推理

C、歸納學習不需要先驗知識

D、訓練數據不足時歸納學習可能會失敗

答案：ABCD

165.在假設檢驗中，當原假設為“偽”，但數據分析人員沒有拒絕它時犯的錯誤

叫（）。

A、a錯誤

B、B錯誤

c、取偽錯誤

D、棄真錯誤

答案：BC

166.如將A、B、C三個分類器的PR曲線畫在一個圖中，其中A、B的PR曲線可

以完全包含住C的PR曲線，A與B的PR曲線有交點，A、B、C的平衡點分別為

0.79、0.66、0.58,以下說法中正確的是（）。

A、學習器A的性能優于學習器C

B、學習器A的性能優于學習器B

C、學習器B的性能優于學習器C

D、學習器C的性能優于學習器B

答案：ABC

167.以下屬于數據挖掘與分析工具的有（）。

A、TabIeau

B、Python

C、SPSS

D、Alteyx

答案：ABCD

168.數據挖掘的挖掘方法包括（）。

A、聚類

B\回歸分析

C、神經網絡

D、決策樹算法

答案：ABCD

169.Pandas中刪除列的方式是（）□

A、df.drop（［"列名,axis=1）

B\df.drop（coIumns=［"列名"］）

C\df.drop（［0,1］）

D\f.drop（［0］）

答案：AB

170.常用的數據審計方法可以分為（）。

A、預定義審計

B、自定義審計

C、可視化審計

D、結構化審計

答案：ABC

171.“以數據為中心”是數據產品區別于其他類型產品的本質特征，表現在（）

方面。

A、數據驅動

B、數據密集型

C、數據范式

D、數據可視化

答案：ABC

172.主要面向或關注“過去”的數據分析過程為（）。

A、描述性分析

B、診斷性分析

C、預測性分析

D、規范性分析

答案：AB

173.下列模型屬于機器學習生成式模型的是（）。

A、樸素貝葉斯

B、隱馬爾科夫模型

C、線性回歸模型

D\深度信念網絡

答案：ABD

174.下列關于探索型數據分析常用圖表的說法，正確的有（）。

A、絕大部分情況下使用餅圖代替條形圖能更加直觀地展示數據之間的特征和對

比

B、探索型數據分析常用的圖表包括條形圖、直方圖、餅圖、折線圖、散點圖、

箱型圖等

C、在探索型數據分析時應該盡量避免使用餅圖，然而在數據報告中可以使用餅

圖達到更加美觀的效果

D、直方圖和箱型圖都可以用來展示數據的分布情況

答案：BCD

175.決策樹在（）情況下會導致遞歸返回。

A、當前節點包含的樣本全屬于同一類

B、當前屬性集為空

C、當前節點包含的樣本集合為空

D、所有樣本在所有屬性上取值相同

答案：ABCD

176.Analytics1.0的主要特點有()。

A、分析活動滯后于數據的生成

B、重視結構化數據的分析

C、以對歷史數據的理解為主要目的

D、注重描述性分析

答案：ABCD

177.回歸分析有很多種類，常見的有()。

A、線性回歸

B、系數回歸

G邏輯回歸

D、曲線回歸

答案：ACD

178.以下()是scipy中的模塊。

A、cIuster

B\constants

C、integrate

D、io

答案：ABCD

179.決策樹遞歸停止的條件為（）。

A、訓練數據集使用完

B、所有的類標簽完全相同

C、特征用完

D、遇到丟失值

答案：BC

180.下面屬于范數規則化的作用的是（）。

A、保證模型盡可能的簡單，避免過擬合

B、約束模型特征

C、最小化問題

D、最大化問題

答案：AB

181.下列既可以用于分類，又可以用于回歸的機器學習算法有（）。

A\k近鄰

B、邏輯回歸

C、決策樹

D、線性回歸

答案：AC

182.下面選項是python標準庫的是（）。

A、os

B、sys

C、numpy

D、re

答案：ABD

183.語音識別的方法包括0o

A、聲道模型方法

B、模板匹配的方法

C、利用人工神經網絡的方法

D、語音知識方法

答案：ABCD

184.數據科學基本原則中，三世界原則指的是（）

A、精神世界

B、數據世界

C、物理世界

D、數字世界

答案：ABC

185.Spark提交工作的方式（）。

AvClient

B、CIuster

C、StandaIone

D、YARN

答案：AB

186.下面導入模塊正確的是（）。

A、importnumpy

B、importnumpyasnp

C、frommatpIotIibimportpypIot

DvfrommatpIotIibimportpypIotasp11

答案：ABCD

187.SparkRDD的依賴機制包括O。

A、寬依賴

B、深度依賴

C、廣度依賴

D、窄依賴

答案：AD

188.在假設檢驗中，當原假設為“偽"但數據分析人員沒有拒絕它時犯的錯誤

叫（）。

A、a錯誤

B、B錯誤

C、取偽錯誤

D、棄真錯誤

答案：BC

189.下列關于自然語言處理中的關鍵詞提取的說法，正確的是（）。

A、關鍵詞提取是指用人工方法提取文章關鍵詞的方法

B、TF-IDF模型是關鍵詞提取的經典方法

C、文本中出現次數最多的詞最能代表文本的主題

D、這個問題涉及數據挖掘、文本處理'信息檢索等領域

答案：BD

190.下列關于深度學習的實質及其與淺層學習的說法，正確的是（）。

A、深度學習強調模型深度

B、深度學習突出特征學習的重要性：特征變換+非人工

C、沒有區別

D、以上答案都不正確

答案：AB

191.Hadoop中map輸出結果說法正確的是（）。

A、＜key,value〉鍵值對

B、輸出中間臨時結果

C、輸出最終計算結果

D、輸出結果永久保留

答案：AB

192.數據故事化描述應遵循的基本原則是（）。

A、忠于原始數據原則

B、設定共同場景原則

C、有效性利用原則

D、3c精神原則

答案：ABCD

193.以下算法中可以應用于圖像分割的是（）。

A、邊緣檢測技術

B、閾值分割技術

C、基于區域的分割技術

D、區域生長方法

答案：ABCD

194.統計模式分類問題中，當先驗概率未知時，可以使用（）。

A、最小最大損失準則

B、最小誤判概率準則

C、最小損失準則

D、N-P判決

答案：AD

195.請問下面哪些是離散型變量（）。

A、示波器

B、心電圖及腦動電圖掃描器對腦電波的測量

C、過去數月的總銷售額

D、公司每年的紅利

答案：CD

196.能在卷積窗口的邊界上使卷積掩膜中心像素和它的4-鄰接點的系數降至0

附近的濾波器有（）。

A、同態濾波

B、圖斯濾波

C、巴特沃斯濾波

D、中值濾波

答案：BC

197.決策樹的劃分選擇有（）。

A、增益系數

B、信息增益

C、增益率

D、基尼系數

答案：BCD

198.圖像壓縮是建立在圖像存在（）幾種冗余之上。

A、編程冗余

B、像素間冗余

C、心理視覺冗余

D、計算資源冗余

答案：ABC

199.下列方法中，屬于詞語情感分析的方法有（）。

A、基于網絡的分析方法

B、基于word-embedding的分析方法

C、基于詞典的分析方法

D、基于詞頻的分析方法

答案：AC

200.Numpy中計算數組的標準差和方差的函數是（）。

A、std）

B、diff）

C\exp)

D\var)

答案：AD

201.Spark的技術架構可以分為哪幾層（）。

A、資源管理層

B、Spark核心層

C、應用層

D、服務層

答案：ABD

202.以下關于神經網絡模型描述正確的是（）。

A、神經網絡模型是許多邏輯單元按照不同層級組織起來的網絡，每一層的輸出

變量都是下一層的輸入變量

B、神經網絡模型建立在多神經元之上

C、神經網絡模型中，無中間層的神經元模型的計算可用來表示邏輯運算

D、神經網絡模型一定可以解決所有分類問題

答案：ABC

203.類的特點有（）o

A、封裝

B、繼承

C、多態

D、重復

答案：ABC

204.下列方法中，可以用于特征降維的方法包括（）。

A、主成分分析PCA

B、線性判別分析LDA

G深度學習SparseAutoEncoder

D、矩陣奇異值分解SVD

答案：ABD

205.處理圖像平滑處理的濾波有（）。

A、盒式濾波

B、均值濾波

C、圖斯濾波

D、中值濾波

答案：ABCD

206.關于相關與線性關系，下列說法正確的是（）

A、相關不一定是線性關系，可能是非線性關系

B、相關一定是線性關系，不可能是非線性關系

C、相關時若有相關系數r為0,說明兩個變量之間不存在線性關系，仍可能存

在非線性關系

D、相關系數為0是兩個變量獨立的必要不充分條件

答案：ACD

207.關于CAP理論說法正確的是（）。

A、一個分布式系統不能同時滿足一致性,可用性和分區容錯性等需求

B、一致性主要指強一致性

C、一致性、可用性和分區容錯性中的任何兩個特征的保證（爭取）可能導致另

一個特征的損失（放棄）

D、可用性指每個操作總是在“給定時間”之內得到返回“所需要的結果”

答案：ABCD

208.常見的聚類性能度量外部指標有（）。

A、Jaccard系數

B、DB指數

C、FM指數

D、以上答案都正確

答案：AC

209.在網絡爬蟲的爬行策略中，應用最為常見的是（）。

A、深度優先遍歷策略

B、廣度優先遍歷策略

C、高度優先遍歷策略

D、反向鏈接策略

答案：AB

210.下列關于情感分析的說法正確的是（）。

A、簡單而言，是對帶有情感色彩的主觀性文本進行分析、處理、歸納和推理的過

程

B、情感分析的發展得益于社交媒體的興起

C、按照處理文本的粒度不同，情感分析大致可分為詞語級、句子級、篇章級三個

D、情感分析可以應用于文本挖掘

答案：ABCD

211.假設檢驗中，首先需要提出零假設和備擇假設，零假設是()，備擇假設是

()。

A、只有出現的概率大于閾值才會被拒絕的，只有零假設出現的概率大于閾值才

會被承認的

B、希望推翻的結論，希望證明的結論

C、只有出現的概率小于閾值才會被拒絕的，只有零假設出現的概率小于閾值才

會被承認的

D、希望證明的結論，希望推翻的結論

答案：BC

212.關于卷積神經網絡的敘述中，正確的是()。

A、可用于處理時間序列數據

B、可用于處理圖像數據

C、卷積網絡中使用的卷積運算就是數學中的卷積計算

D、至少在網絡的一層中使用卷積

答案：ABD

213.在Python中,執行importdatetimeasdt語句后，如下下列時間或日期定義

方式正確的是()。

A、dt.datetime(2019,12,12,23,23,23)

B、dt.datetime(2019,0,0,23,23,23)

C\dt.datetime(2019,12,12,0)

D、1.1ime(23,23,23)

答案：AC

214.數據科學項目主要涉及的活動包括（）。

A、模式/模型的應用及維護

B、模式/模型的洞見

C、結果的可視化與文檔化

D、模式/模型的驗證和優化

答案：ABCD

215.0是Hadoop運行的模式。

A、單機版

B、偽分布式

C、分布式

D、全分布式

答案：ABC

216.列式數據庫（如BigTable和HBase）以表的形式存儲數據，表結構包括（）

等元素。

A、關鍵字

B、時間戳

G列簇

D、數據類型

答案：ABC

217.Python邏輯表達式中，（）會導致邏輯短路，即不會繼續向下推算而直接

返回結果。

A、FaIse開頭的and語句

B\FaIse開頭的or語句

C\True開頭的and語句

D、True開頭的or語句

答案：AD

218.下面關于機器學習的理解，正確的是（）。

A、非監督學習的樣本數據是要求帶標簽的

B、監督學習和非監督學習的區別在于是否要求樣本數據帶標簽

C、強化學習以輸入數據作為對模型的反饋

D、卷積神經網絡一般用于圖像處理等局部特征相關的數據

答案：BCD

219.不屬于使用池化層相比于相同步長的卷積層的優勢有（）。

A、參數更少

B、可以獲得更大下采樣

G速度更快

D、有助于提升精度

答案：BCD

220.在監督式學習中使用聚類算法的方法有（）。

A、首先，可以創建聚類，然后分別在不同的集群上應用監督式學習算法

B、在應用監督式學習算法之前，可以將其類別ID作為特征空間中的一個額外的

特征

C、在應用監督式學習之前，不能創建聚類

D、在應用監督式學習算法之前，不能將其類別ID作為特征空間中的一個額外的

特征

答案：AB

221.以下描述中正確的是0o

A、統計學是數據科學的理論基礎之一

B、Python語言是統計學家發明的語言

C、機器學習是數據科學的理論基礎之一

D、數據科學是統計學的一個分支領域（子學科）

答案：AC

222.Spark支持的計算模型有（）。

A、批處理

B、實時計算

C、機器學習模型

D、交互式查詢

答案：ABCD

223.一個回歸模型存在多重共線問題，在不損失過多信息的情況下，可采取的措

施有（）。

A、剔除所有的共線性變量

B、剔除共線性變量中的一個

C、通過計算方差膨脹因子（VariancelnflationFactor,VIF）來檢查共線性程

度，并采取相應措施

D、刪除相關變量可能會有信息損失，我們可以不刪除相關變量，而使用一些正

則化方法來解決多重共線性問題，例如Ridge或Lasso回歸

答案：BCD

224.以下選項中，不是Python語言保留字的是（）。

A、do

B、pass

Cvexcept

DvuntiI

答案：AD

225.圖像分割中常使用的領域有（）。

A、0鄰域

B、4鄰域

C、8鄰域

D、24鄰域

答案：BC

226.以下描述中屬于Analytics2.0的主要特點的是（）。

A、側重嵌入式分析

B、重視非結構化數據的分析

C、以決策支持為主要目的

D、注重解釋性分析和預測性分析

答案：BCD

227.下列選項中基于核的機器學習算法有（）。

A、最大期望算法

B、徑向基核函數

C、線性判別分析法

D、支持向量機

答案：BCD

228.EDA（探索性數據分析）方法與傳統統計學的驗證性分析方法的區別有（）o

A、EDA需要事先提出假設，而驗證性分析不需要

B、EDA中采用的方法往往比驗證性分析簡單

C、在一般數據科學項目中，探索性分析在先，驗證性分析在后

D、EDA更為簡單、易學和易用

答案：BCD

229.從可視化處理視角看，可以將數據分為四個類型（）四個類型并采用不同的

視覺映射方法。

A、定類數據

B、定序數據

C、定距離數據

D、定比暑假

答案：ABCD

230.屬于特征選擇的優點有（）。

A、解決模型自身的缺陷

B、減少過擬合

C、提升模型的性能

D、增強模型的泛化能力

答案：BCD

231.Spark容錯性的方式有哪些（）。

A、數據檢查點

B、存儲原始數據

C、記錄數據的更新

D、自建數據版本

答案：AC

232.下列可以用來構造神經網絡的算法有（）。

A、kNN

B、線性回歸

G邏輯回歸

D、-

答案：BC

233.Hadoop組件Zookeeper的設計目標和主要特點包括（）。

A、簡單性

B、自我復制

C、順序訪問

D、高速讀取

答案：ABCD

234.Pig說法正確的是（）o

A、彌補MapReduce編程復雜性

B\封裝MapReduce處理過程

C、PigLatin是一種數據分析語言

D、適用于并行處理

答案：ABCD

235.Python變量命名規則包含（）。

A、變量名只能包含字母、數字和下劃線。變量名可以字母或下劃線開頭，但不

能以數字開頭。例如，可將變量命名為message」，但不能將其命名為1_messa

ge。

B、變量名不能包含空格，但可使用下劃線來分隔其中的單詞。例如，變量名gr

eeting_message可行，但變量名greetingmessage會引發錯誤。

C\不要將Python關鍵字和函數名用作變量名，即不要使用Python保留用于特

殊用途的單詞，如print。

D\變量名應既簡短又具有描述性。例如，name比n好，student_name比s_n

好，name_lengthbtIength_of_persons_name好。

答案：ABCD

236.以下跟圖像處理相關的是（）。

A、圖像識別

B、人臉識別

C、視頻分析

D、自然語言處理

答案：ABC

237.關于總體和樣本的說法，正確的是（）。

A、總體也就是研究對象的全體

B、如果總體是某一條生產線上生產的全部產品，那么樣本可以是每間隔10s抽

取的產品

C、樣本是從總體的隨機抽樣

D、如果總體是某一小學的1000名學生，那么樣本可以是一年級的100名學生

答案：ABC

238.深度學習方法不適用于的場景有（）。

A、數據樣本充足

B、數據樣本不足

C、數據集具有局部相關特性

D、數據集沒有局部相關特性

答案：BD

239.在Windows系統中通過Geany編寫Python程序，運行Python程序的常用步

驟是（）。

A、菜單Build>Execute

B、菜單Execute>BuiId

G按F5

D、按F10

答案：AC

240.在Spark中，彈性分布式數據集的特點包括（）。

A、可分區

B、可序列化

C、可直接修改

D、可持久化

答案：ABD

241.下列哪些是RDBMS中事務遵循的原則()o

A、原子性(Atomicity)

B、一致性(Connsistency)

G隔離性(Isolation)

Dv持久性(DurabiIity)

答案：ABCD

242.Spark組件包含哪兩個算子()。

A、Map

B、Action

C、Transformation

D、Reduce

答案：BC

243.特征選擇的目的是()。

A、減少特征數量、降維

B、使模型泛化能力更強

C、增強模型擬合能力

D、減少過擬合。

答案：ABD

244.對于不同場景內容，一般數字圖像可以分為()。

A、二值圖像

B、灰度圖像

C、彩色圖像

D、深度圖像

答案：ABC

245.

人人文庫> 全部分類> 教育資料 > 輔導培訓

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請聯系上傳者。文件的所有權益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網頁內容里面會有圖紙預覽，若沒有圖紙預覽就沒有圖紙。
4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
5. 人人文庫網僅提供信息存儲空間，僅對用戶上傳內容的表現方式做保護處理，對用戶上傳分享的文檔內容本身不做任何修改或編輯，并不能對任何下載內容負責。
6. 下載文件中如有侵權或不適當內容，請與我們聯系，我們立即糾正。
7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

老太爷的乳妓h开裆裤,久久久久久精品国产三级非禁歌 ,久久久久久久99精品国产片,免费观看交性大片

2024年數據價值挖掘技能競賽考試題庫大全-下（多選題）

文檔簡介

溫馨提示

最新文檔

評論

老太爷的乳妓h开裆裤,久久久久久精品国产三级非禁歌 ,久久久久久久99精品国产片,免费观看交性大片

2024年數據價值挖掘技能競賽考試題庫大全-下（多選題）

文檔簡介

溫馨提示

最新文檔

評論

相關文檔