




版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
第頁數據挖掘競賽復習測試卷含答案1.屬于卷積神經網絡應用方向的是()。A、圖像分類B、目標檢測C、圖像語義分割D、以上答案都正確【正確答案】:D解析:
卷積神經網絡應用于圖像分類、目標檢測及圖像語義分割。2.給定詞匯表如下:{Bob,ok,like,football,car}。則下面句子Botlikesfootball的詞袋模型表示為()。A、[11100]B、[10110]C、[10010]D、[01101]【正確答案】:B解析:
統計文檔中每個詞的數量,根據詞表的位置,將各個詞的數量拼接成一個向量即可。3.下列屬于無監督學習的是()。A、K-meansB、SVMC、最大熵D、CRF【正確答案】:A解析:
K-means是一個將數據集中在某些方面相似的數據成員進行分類組織的過程,這是一個典型聚類算法,聚類就是一種發現這種內在結構的技術,該類算法被稱為無監督學習。4.關于Python程序格式框架的描述,以下選項中錯誤的是()。A、Python語言不采用嚴格的“縮進”來表明程序的格式框架B、Python單層縮進代碼屬于之前最鄰近的一行非縮進代碼,多層縮進代碼根據縮進關系決定所屬范圍C、Python語言的縮進可以采用Tab鍵實現D、判斷、循環、函數等語法形式能夠通過縮進包含一批Python代碼,進而表達對應的語義【正確答案】:A解析:
Python語言采用嚴格的“縮進”來表明程序的格式框架,縮進可以用Tab鍵或者空格實現。5.Spark的劣勢是()。A、運算速度快B、業務實現需要較少代碼C、提供很多現成函數D、需要更多機器內存【正確答案】:D解析:
Spark采用的是內存計算模式,需要的內存較多。6.一元線性回歸方程y=0.7+0.82x,判定系數等于0.64,則x與y的相關系數為()。A、0.82B、0.64C、0.8D、0.7【正確答案】:C解析:
一元回歸分析中,自變量和因變量的相關系數的平方等于回歸模型的判定系數。所以,相關系數=sqrt(0.64)=0.8。7.MapReduce默認的分區函數是()。A、hashB、diskC、reduceD、map【正確答案】:A解析:
MapReduce默認的分區函數是hash。8.以下關于連接數組的描述,不正確的是()。A、concatenate連接沿現有軸的數組序列B、stack沿著新的軸加入一系列數組。C、vstack水平堆疊序列中的數組(列方向)D、hstack3D堆疊序列中的數組(行方向)【正確答案】:D解析:
hstack)為數組水平拼接。9.通常“落伍者”是影響MapReduce總執行時間的主要影響因素之一,為此MapReduce采用()機制來解決。A、分布式計算B、惰性計算C、推測性執行的任務備份D、先進先出【正確答案】:C解析:
MapReduce采用“推測性執行的任務備份”機制,當作業中大多數的任務都已經完成時,系統在幾個空閑的節點上調度執行剩余任務的備份,并在多個Worker上同時進行相同的剩余任務。10.PHOTO_PATH="./photo/{}.jpg"指令可以實現()。A、復制jpg文件到photo目錄下B、定義一個名為photo的存儲路徑C、打開photo里所有的jpg文件D、重命名目錄【正確答案】:B解析:
PHOTO_PATH="./photo/{}.jpg"指令可以實現定義一個名為photo的相對存儲路徑。11.以下關于Python模塊理解錯誤的有()。A、模塊是包含函數和變量的Python文件B、不可以使用.操作符訪問模塊中的函數和變量C、可以導入模塊中的所有類D、可以在一個模塊中導入另一個模塊【正確答案】:B解析:
導入模塊后,可直接使用“模塊.函數名/變量名”訪問函數或變量。12.在Python文件操作中,使用關鍵字()可以在文件訪問后自動將其關閉。A、assertB、breakC、nonlocalD、with【正確答案】:D解析:
在Python文件操作中,使用關鍵字with可以在文件訪問后自動將其關閉。13.下列圖像邊緣檢測算子中抗噪性能最好的是()。A、梯度算子B、Prewitt算子C、Roberts算子D、Laplacian算子【正確答案】:B解析:
Prewitt算子是一種一階微分算子的邊緣檢測,利用像素點上下、左右鄰點的灰度差,在邊緣處達到極值檢測邊緣,去掉部分偽邊緣,對噪聲具有平滑作用。14.以下不屬于大數據在社會活動中的典型應用的是()。A、美團實現了快速精準的送餐服務B、共享單車、滴滴打車方便了人們的日常出行C、快遞實現了訂單的實時跟蹤D、供電公司提供電費賬單查詢【正確答案】:D解析:
電費賬單查詢屬于簡單報表查詢,用電情況分析、竊電行為分析、基于交易大數據分析用戶的購買習慣、基于傳感器感知的海量數據分析自然災害的危害程度、基于搜索引擎的搜索關鍵詞分析社會熱點等屬于大數據應用。15.下列哪種業務場景中,不能直接使用Reducer充當Combiner使用()A、sum求和B、max求最大值C、count求計數D、avg求平均【正確答案】:D解析:
求平均需要對全部數據進行計算而非部分數據,在不更改業務邏輯的情況,使用Reducer充當Combiner,最終會造成業務結果不正確。16.()不是Spark服務層的功能。A、SQL查詢B、實時處理C、機器學習D、內存計算【正確答案】:D解析:
Spark服務層主要提供面向特定類型的計算服務,如SQL查詢、實時處理、機器學習以及圖計算。17.在回歸分析中,說法正確的是()。A、解釋變量和被解釋變量都是隨機變量B、解釋變量為非隨機變量,被解釋變量為隨機變量C、解釋變量和被解釋變量都為非隨機變量D、解釋變量為隨機變量,被解釋變量為非隨機變量【正確答案】:B解析:
在回歸分析中,解釋變量可以理解為自變量,具有確定性,因此為非隨機變量;被解釋變量可以理解為因變量,具有隨機性,因此為隨機變量。18.下列算法中:①K-NN最近鄰算法;②線性回歸;③邏輯回歸,可以用神經網絡構建的算法是()。A、①②B、②③C、①②③D、以上都不是【正確答案】:B解析:
KNN是關于距離的學習算法,沒有任何參數,所以無法用神經網絡構建。19.下列關于數據科學流程與方法的描述中,錯誤的是()。A、數據科學的基本流程包括數據化、數據加工(DataWrangling或DataMunging)、數據規整化、探索性分析、數據分析與洞見、結果展現以及數據產品的提供B、對于數據形態不符合要求的亂數據,要通過清洗成為規整數據C、數據分析包括描述性分析、診斷性分析、預測性分析和規范性分析D、數據可視化會遇到視覺假象問題,人眼對亮度和顏色的相對判斷容易造成視覺假象【正確答案】:B解析:
對于數據形態不符合要求的亂數據,要通過規整化處理(DataTyding)成為規整數據20.HBase依靠()存儲底層數據。A、HDFSB、HadoopC、MemoryD、MapReduce【正確答案】:A解析:
HBase位于結構化存儲層,HDFS為HBase提供了高可靠性的底層存儲支持。21.關于混合模型聚類算法的優缺點,下面說法正確的是()。A、當簇只包含少量數據點或者數據點近似協線性時,混合模型也能很好地處理B、混合模型很難發現不同大小和橢球形狀的簇C、混合模型比K均值或模糊C均值更一般,因為它可以使用各種類型的分布D、混合模型在有噪聲和離群點時不會存在問題【正確答案】:C解析:
K均值與模糊C均值都是迭代求取最終值的聚類劃分,即聚類中心與隸屬度值。兩者都不能保證找到問題的最優解,都有可能收斂到局部極值。模糊C均值是K均值方法的改進,算法的目標函數與K均值一致,區別在于目標函數中增加了模糊權重指數;GMM高斯混合模型聚類采用了新的判斷依據——概率,即通過屬于某一類的概率大小來判斷最終的歸屬類別。22.Python安裝擴展庫常用的是()工具。A、pyinstallB、pipC、popD、post【正確答案】:B解析:
略。23.下列表達式中[print(x,y,100-x-y)forxinrange(21)foryinrange(34)if(100-x-y)%3==0and5*x+3*y+(100-x-y)//3==100],第三次輸出的結果是()。A、41878B、42175C、81478D、81181【正確答案】:D解析:
執行結果應為:24.以下說法錯誤的是()。A、當目標函數是凸函數時,梯度下降的解時全局最優解B、進行PCA降維時需要計算協方差矩陣C、沿負梯度下降的方向一定是最優的方向D、利用拉格朗日函數能解帶約束的優化問題【正確答案】:C解析:
梯度下降法并不是下降最快的方向,它只是目標函數在當前的點的切平面上下降最快的方向,可以說負梯度下降的方向一定是局部最優的方向。25.關于PythonNumpy,、Scipy,、Pandas這些庫的區別,描述不對的是()。A、Numpy是以矩陣為基礎的數學計算模塊,純數學B、Scipy基于Numpy,科學計算庫,有一些高階抽象和物理模型C、Pandas提供了一套名為DataFrame的數據結構D、三個模塊分別獨立【正確答案】:D解析:
模塊之間不是相互獨立的,例如Pandas和Scipy都基于Numpy。26.依托(),結合應用推進數據歸集,形成統一的數據資源中心。A、全業務數據中心和數據平臺B、營銷基礎數據平臺和大數據平臺C、全業務中心和營銷基礎數據平臺D、全業務數據中心和大數據平臺【正確答案】:A解析:
詳見互聯數據〔2019〕14號《國網互聯網部關于加強數據管理的通知》。27.執行下面操作后,list2的值是()。A、[4,5,6]B、[4,3,6]C、[4,5,3]D、以上答案都不正確【正確答案】:C解析:
賦值語句是淺復制操作,沒有復制子對象,所以原始數據改變,子對象會改變。28.關于Python布爾值,下列選項描述正確的是()。A、整型的0不可以表示FalseB、浮點型的0不可以表示FalseC、0+0j可以表示FalseD、布爾值不可以進行算術運算【正確答案】:C解析:
整型、浮點型0均可表示False,布爾值可參加運算。29.關于Hive說法正確的是()。A、一種數據倉庫B、一種數據處理工具C、一種可視化工具D、一種分析算法【正確答案】:A解析:
Hive是基于Hadoop的一個數據倉庫工具,用來進行數據提取、轉化、加載,這是一種可以存儲、查詢和分析存儲在Hadoop中的大規模數據的機制。30.彩色圖像增強時,()處理可以采用RGB。A、直方圖均衡化B、同態濾波C、加權均值濾波D、中值濾波【正確答案】:C解析:
RGB是彩色圖像的三通道像素值,均值濾波進行的是線性操作,不影響原本圖像的相對亮度。31.BP神經網絡具有很的表示能力,它經常遭遇(),其訓練誤差持續降低,但測試誤差卻可能上升。A、欠擬合B、誤差過大C、誤差過小D、過擬合【正確答案】:D解析:
由于其強大的表示能力,BP神經網絡經常遭遇過擬合,其訓練誤差持續降低,但測試誤差卻可能上升。32.以下代碼的輸出結果為()。A、[[123][345][456]]B、3.6666666666667C、[2.666666673.666666674.66666667]D、[2.4.5.]【正確答案】:C解析:
對每列求均值。33.后剪枝是先從訓練集生成一顆完整的決策樹,然后()對非葉結點進行考察。A、自上而下B、在劃分前C、禁止分支展開D、自底向上【正確答案】:D解析:
--34.當我們需要在一張圖表中特意指出某個特殊點,并加上標注達到醒目的目的時,需要用到()函數。A、plt.axvspan)B、plt.axhspan)C、plt.annotate)D、plt.text)【正確答案】:C解析:
annotate為圖的某個位置添加注解。35.sklearn.cluster模塊實現的了哪個功能是()。A、集群B、降維C、回歸D、聚類【正確答案】:D解析:
sklearn.cluster模塊收集了流行的無監督聚類算法,包括K-means,、密度聚據類,、層次聚類等。36.在python中可以通過調用random庫來產生隨機數。a=random.randint(1,99),并賦值給變量a。以下描述正確的是()。A、隨機產生一個1~~99的小數;B、隨機產生一個1~~99的整數;C、產生一個值為99的整數;D、隨機產生一個1~~99的無理數;【正確答案】:B解析:
randint)函數用來生成閉區間的整數。37.以下關于隨機森林的說法正確的是()。A、隨機森林對于高維數據集的處理能力比較好B、在對缺失數據進行估計時,隨機森林是一個十分有效的方法C、當存在分類不平衡的情況時,隨機森林能夠提供平衡數據集誤差的有效方法D、以上答案都正確【正確答案】:D解析:
隨機森林對于高維數據集的處理能力比較好,在對缺失數據進行估計時,隨機森林是一個十分有效的方法,當存在分類不平衡的情況時,隨機森林能夠提供平衡數據集誤差的有效方法。38.()負責MapReduce任務調度。A、NameNodeB、JobtrackerC、TaskTrackerD、SecondaryNameNode【正確答案】:B解析:
Jobtracker負責MapReduce任務調度,TaskTracker負責任務執行。39.下列屬于卷積網絡類型分類的是()。A、普通卷積B、擴張卷積C、轉置卷積D、以上答案都正確【正確答案】:D解析:
卷積神經網絡四種卷積類型為普通卷積、擴張卷積、轉置卷積、可分離卷積。40.連續不斷地爬取網頁信息,較容易被網站識別,想要實現間隔15s來爬取網頁需要使用以下哪一項的指令是()。A、timestop(5)B、timesleep(15)C、timestrptime(15)D、timesleep(5)【正確答案】:B解析:
連續不斷地爬取網頁信息,較容易被網站識別,想要實現間隔15s來爬取網頁需要使用timesleep(15)。41.將Python中的.py文件轉換為.pyc文件的組件為()。A、編輯器B、編譯器C、虛擬機D、解釋器【正確答案】:B解析:
將Python中的.py文件轉換為.pyc文件的組件為編譯器。42.()算法是決策樹學習的基本算法,其他多數決策樹學習方法都是它的變體。A、Find-SB、KNNC、概念D、ID3【正確答案】:D解析:
--43.高通濾波后的圖像通常較暗,為改善這種情況,將高通濾波器的轉移函數加上一常數量以便引入一些低頻分量。這樣濾波器叫()。A、巴特沃斯高通濾波器B、高頻提升濾波器C、高頻加強濾波器D、理想高通濾波器【正確答案】:B解析:
高頻增強濾波器由于相對削弱了低頻成分,因而濾波所得的圖像往往偏暗。44.下列選項中,用于關閉文件的方法是()。A、read)B、tell)C、seek)D、close)【正確答案】:D解析:
read)為讀取操作;tell)函數用于判斷文件指針當前所處的位置操作;seek)為用于將文件指針移動至指定位置操作;close)為關閉文件操作。45.以下分割方法中不屬于區域算法的是()。A、分裂合并B、閾值分割C、區域生長D、邊緣檢測【正確答案】:D解析:
邊緣檢測算法是標識數字圖像中亮度變化明顯的點,不屬于區域算法發范疇。46.關于__new__和__init__的區別,下列說法不正確的是()。A、__new__是一個實例方法,而__init__是一個靜態方法B、__new__方法會返回一個創建的實例,而__init__什么都不返回C、只有在__new__返回一個cls的實例時,后面的__init__才能被調用D、當創建一個新實例時調用__new__,初始化一個實例時用__init__【正確答案】:A解析:
__init__是一個實例方法,而__new__是一個靜態方法。47.關于文件的打開方式,以下選項中描述正確的是()。A、文件只能選擇二進制或文本方式打開B、文本文件只能以文本方式打開C、所有文件都可能以文本方式打開D、所有文件都可能以二進制方式打開【正確答案】:D解析:
計算機內保存數據是以二進制保存的,因此都能用二進制方式打開讀取。48.()負責HDFS數據存儲。A、NameNodeB、JobTrackerC、DataNodeD、SecondaryNameNode【正確答案】:C解析:
DataNode負責HDFS的數據塊存儲。49.為了提高系統性能,Spark采取“惰性計算模式”,具體為()。A、執行Transformation操作時不會提交,只有執行Action操作時才會被提交到集群中開始被執行B、執行Action操作時不會提交,只有執行Transformation操作時才會被提交到集群中開始被執行C、只有執行完Action操作和Transformation操作時,所有操作才會被提交到集群中開始被執行D、執行完Action操作或Transformation操作時都不會提交到集群【正確答案】:A解析:
Spark“惰性計算模式”定義。50.當在卷積神經網絡中加入池化層(poolinglayer)時,變換的不變性會被保留。該說法()正確。A、不知道B、看情況C、是D、否【正確答案】:C解析:
使用池化時會導致出現不變性。51.PageRank是一個函數,它對Web中的每個網頁賦予一個實數值。它的意圖在于網頁的PageRank越高,那么它就()。A、相關性越高B、越不重要C、相關性越低D、越重要【正確答案】:D解析:
PageRank認為,如果A頁面有一個鏈接指向B頁面,那就可以看作是A頁面對B頁面的一種信任或推薦。所以,如果一個頁面的反向鏈接越多,根據這些鏈接的價值加權越高,那搜索引擎就會判斷這樣的頁面更為重要。52.關于數據創新,下列說法正確的是()。A、個數據集的總和價值等于單個數據集價值相加B、于數據的再利用,數據應該永久保存下去C、同數據多次用于相同或類似用途,其有效性會降低D、數據開放價值可以得到真正釋放【正確答案】:D解析:
略。53.如果規則集R中不存在兩條規則被同一條記錄觸發,則稱規則集R中的規則為()。A、無序規則B、窮舉規則C、互斥規則D、有序規則【正確答案】:C解析:
--54.()操作屬于預剪枝。A、信息增益B、計算最好的特征切分點C、限制樹模型的深度D、可視化樹模型【正確答案】:C解析:
預剪枝是指在決策樹生成過程中,對每個結點在劃分前先進行估計,若當前結點的劃分不能帶來決策樹泛化性能提升,則停止劃分并將當前結點標記為葉結點。限制樹模型的深度屬于預剪枝。55.數據安全不只是技術問題,還涉及()。A、人員問題B、管理問題C、行政問題D、領導問題【正確答案】:B解析:
數據安全不只是技術問題,還涉及管理問題。56.以下可以作為文本分類準則的是()。A、預測準確率B、魯棒性C、可擴展性D、以上答案都正確【正確答案】:D解析:
文本分類準則包含預測準確性,魯棒性和可擴展性。57.在linux下預裝了Python2,、Python3且默認Python版本為Python3,下列描述可以正確啟動Python有的是()。A、在linux應用程序Terminal,打開一個終端窗口。輸入whichPythonB、在linux應用程序Terminal,打開一個終端窗口。輸入Python2或Python3C、在linux應用程序Terminal,打開一個終端窗口。輸入whichPython3D、在linux應用程序Terminal,打開一個終端窗口。輸入輸入whichPython2【正確答案】:B解析:
Windows系統下通過在命令行直接輸入python2或者python3啟動Python,;Linux系統下通過在Terminal輸入python2或者python3啟動Python。58.以下代碼的輸出結果為()。A、[[1,2],[3,4],[1,2],[3,4]]B、[[1,2,3,4],[1,2,3,4]]C、[[1,2],[3,4]]D、[1,2,3,4,1,2,3,4]【正確答案】:A解析:
vstack)為數組垂直拼接。59.訓練完SVM模型后,不是支持向量的那些樣本我們可以丟掉,也可以繼續分類。該說法()。A、正確B、錯誤C、-D、-【正確答案】:A解析:
--60.文本信息往往包含客觀事實和主觀情感,對于文本的情感分析主要是識別文章中的主觀類詞語,其中()不適用于情感分析。A、表達觀點的關鍵詞B、表達程度的關鍵詞C、表達情緒的關鍵詞D、表達客觀事實的關鍵詞【正確答案】:D解析:
D中表達客觀事實的關鍵詞是對事物的客觀性描述,不帶有感情色彩和情感傾向,即為客觀性文本,不適用于情感分析。而主觀性文本則是作者對各種事物的看法或想法,帶有作者的喜好厭惡等情感傾向,如ABC中表觀點、程度和情緒的關鍵詞都是帶有情感傾向的主觀性文本,適用于情感分析。61.()先對數據集進行特征選擇,然后再訓練學習器。A、過濾式選擇B、包裹式選擇C、稀疏表示D、嵌入式選擇【正確答案】:A解析:
--62.sklearn庫中對數據進行預處理和規范化主要依靠()模塊。A、neighbors模塊B、preprocessing模塊C、pipeline模塊D、datasets模塊【正確答案】:B解析:
sklearn.preprocessing模塊包括縮放,、居中,、歸一化,、二值化和插補方法,主要是對數據進行預處理和規范化。63.在pandas中,哪一個函數()可以統計Series每個唯一值出現的次數()。A、nunique)B、unique)C、sort_values)D、value_counts)【正確答案】:D解析:
value_counts)可以統計每個唯一值出現的次數,unique)可以查看有哪些唯一值,nunique)可以統計唯一值的數量,sort_values)是按值進行排序。64.()不可以直接來對文本分類。A、K-meansB、決策樹C、支持向量機D、KNN【正確答案】:A解析:
K-means是聚類方法,屬于無監督學習。BCD都是常見的分類方法。65.下列關于聚類挖掘技術的說法中,錯誤的是()。A、不預先設定數據歸類類目,完全根據數據本身性質將數據聚合成不同類別B、要求同類數據的內容相似度盡可能小C、要求不同類數據的內容相似度盡可能小D、與分類挖掘技術相似的是,都是要對數據進行分類處理【正確答案】:B解析:
聚類挖掘技術中要求不同類數據的內容相似度盡可能小。66.在線性回歸問題中,我們用R方來衡量擬合的好壞。在線性回歸模型中增加特征值并再訓練同一模型。下列說法正確的是()。A、如果R方上升,則該變量是顯著的B、如果R方下降,則該變量不顯著C、單單R方不能反映變量重要性,不能就此得出正確結論D、以上答案都不正確【正確答案】:C解析:
單單R方不能表示變量顯著性,因為每次加入一個特征值,R方都會上升或維持不變。但在調整R方的情況下這也有誤(如果特征值顯著的話,調整R方會上升)。67.大數據參考架構的水平軸和垂直軸分別為()。A、信息(活動)價值鏈和信息技術價值鏈B、信息技術價值鏈和信息(活動)價值鏈C、信息交互價值鏈和信息技術價值鏈D、信息(活動)價值鏈和信息交互價值鏈【正確答案】:A解析:
大數據參考架構圍繞代表大數據價值鏈的信息價值鏈(水平軸)和信息技術價值鏈(垂直軸)兩個維度組織展開68.egrate模塊的主要作用是()。A、里面有各種特殊的數學函數,可以直接調用,如貝塞爾函數B、可以求多重積分,高斯積分,解常微分方程C、包括樣條插值,卷積,差分等濾波函數D、提供各種線性代數中的常規操作【正確答案】:B解析:
egrate模塊是積分模塊,可以求多重積分,、高斯積分,解常微分方程等。69.下列()不屬于Statsmodels模塊的主要特點的是()。A、線性模型B、方差分析C、時間序列D、插值運算【正確答案】:D解析:
插值運算不是統計分析的主要內容。70.數據可視化的基本類型是()。A、科學可視化、信息可視化、可視分析學B、物理可視化、數字可視化、化學可視化C、科學可視化、數字可視化、可視分析學D、科學可視化、信息可視化、文本可視化【正確答案】:A解析:
大數據可視化可以說是傳統數據可視化的一個繼承和延伸,它是指將大規模海量數據集中的數據以圖形圖像形式表示,并利用數據分析和開發工具發現其中未知信息的處理過程。大數據可視化是大數據整個過程的最后環節,也是非常重要的一個環節。71.關于bagging下列說法錯誤的是()。A、各基分類器之間有較強依賴,不可以進行并行訓練B、最著名的算法之一是基于決策樹基分類器的隨機森林C、當訓練樣本數量較少時,子集之間可能有重疊D、為了讓基分類器之間互相獨立,需要將訓練集分為若干子集【正確答案】:A解析:
Bagging方法在訓練過程中,各基分類器之間無強依賴,可以進行并行訓練,隨機森林就是一種典型的例子。72.線性模型中的權重w值可以看做各個屬性x的()。A、正則化系數B、對最終決策結果的貢獻度C、高維映射D、取值【正確答案】:B解析:
--73.a=[[1.,2.,1.],[1.,2.,1.]],a+3的值為()。A、[[1,2,1],[4,5,4]]B、[[4,5,4],[4,5,4]]C、[[4,5,4],[1,2,1]]D、以上答案都不正確【正確答案】:D解析:
列表不能和數字相加,因此會報錯。74.Matplotlib的核心是面向()。A、過程B、對象C、結果D、服務【正確答案】:B解析:
Matplotlib的核心是面向對象的。如果需要更多控制和自定義圖,我們建議直接使用對象。75.IDLE環境的退出命令是()。A、exit)B、回車鍵C、close)D、esc)【正確答案】:A解析:
IDLE使用exit)退出環境。76.卷積神經網絡能通過卷積以及池化等操作將不同種類的鳥歸為一類。關于卷積神經網絡能達到該效果的原因,下列說法不正確的是()。A、同樣模式的內容(如鳥嘴)在圖像不同位置可能出現B、池化之后的圖像主體內容基本不變C、不同種類鳥的相同部位(如鳥嘴)形狀相似D、池化作用能使不同種類鳥變得相似【正確答案】:D解析:
特征維數的減少并不會讓之前的特征丟失。77.考慮值集{12243324556826},其四分位數極差是:()。A、21B、24C、55D、3【正確答案】:A解析:
四分位差,也稱為內距或四分間距,它是上四分位數(QU,即位于75%)與下四分位數(QL,即位于25%)的差。計算公式為:QD=QU-QL。將數據從小到大排序,可得到QU=33,QL=12,因此QD=QU-QL=2178.K折交叉驗證器是以下哪個()方法()。A、model_selection.GroupKFold)B、model_selection.GroupShuffleSplit)C、model_selection.KFold)D、model_selection.RepeatedKFold)【正確答案】:C解析:
model_selection.KFold)實現了K折交叉驗證功能。79.RNN不同于其他神經網絡的地方在于()。A、實現了記憶功能B、速度快C、精度高D、易于搭建【正確答案】:A解析:
--80.Python中statsmodels庫適用于()場景。A、統計分析B、機器學習C、圖像處理D、數據建模【正確答案】:A解析:
Statsmodelsstatsmodels用于統計分析。81.在比較模型的擬合效果時,甲、乙、丙三個模型的相關指數R2的值分別約為0.71、0.85、0.90,則擬合效果較好的模型是()。A、甲B、乙C、丙D、效果一樣【正確答案】:C解析:
R2的取值為0~1,越靠近1,擬合效果越好。82.所有預測模型在廣義上都可稱為一個或一組()。A、公式B、邏輯C、命題D、規則【正確答案】:D解析:
--83.給定一個長度為n的不完整單詞序列,我們希望預測下一個字母是什么。比如輸入是predictio(9個字母組成),希望預測第十個字母是什么。()適用于解決這個工作。A、循環神經網絡B、全連接神經網絡C、受限波爾茲曼機D、卷積神經網絡【正確答案】:A解析:
循環神經網絡具有記憶性、參數共享并且圖靈完備,因此在對序列的非線性特征進行學習時具有一定優勢。循環神經網絡在自然語言處理(NaturalLanguageProcessing,NLP),例如語音識別、語言建模、機器翻譯等領域有應用,也被用于各類時間序列預報。84.機器學習算法在學習過程中對某種類型假設的偏好稱為()。A、訓練偏好B、歸納偏好C、分析偏好D、假設偏好【正確答案】:B解析:
--85.數據產品開發工作之中需要特別注意的基本活動不包括()。A、創造性設計B、數據洞見C、虛擬化D、個性化描述【正確答案】:D解析:
數據產品開發工作之中需要注意有創造性設計、數據洞見、虛擬化等基本活動。86.多分類LDA將樣本投影到N-1維空間,N-1通常遠小于數據原有的屬性數,可通過這個投影來減小樣本點的維數,且投影過程中使用了類別信息,因此LDA也常被視為一種經典的()技術。A、無監督特征選擇B、無監督降維C、監督特征選擇D、監督降維【正確答案】:D解析:
--87.以下可以作為文本分類準則的是()。A、預測準確率B、魯棒性C、可擴展性D、以上答案都正確【正確答案】:D解析:
文本分類準則包含預測準確性,魯棒性和可擴展性。88.檢測一元正態分布中的離群點,屬于異常檢測中的基于()的離群點檢測。A、統計方法B、鄰近度C、密度D、機器學習技術【正確答案】:A解析:
略。89.在深度學習中,我們經常會遇到收斂到localminimum,下面不屬于解決localminimum問題的方法是()。A、隨機梯度下降B、設置MomentumC、設置不同初始值D、增大batchsize【正確答案】:D解析:
增大batchsize無法解決localminimum問題。90.os.path模塊的下列方法,()可以用來判斷指定路徑是否存在。A、exists)B、exist)C、getsize)D、isfile)【正確答案】:A解析:
判斷指定路徑是否存在使用exists)函數。91.下列有關函數的說法中,正確的是()。A、函數的定義必須在程序的開頭B、函數定義后,其中的程序就可以自動執行C、函數定義后需要調用才會執行D、函數體與關鍵字關鍵字關鍵字def必須左對齊【正確答案】:C解析:
函數的定義只要出現在調用之前即可;函數定義后需調用才可以執行;函數定義時主體語句應縮進4個空格。92.下列關于文本分類的說法不正確的是()。A、文本分類是指按照預先定義的主題類別,由計算機自動地為文檔集合中的每個文檔確定一個類別B、文本分類系統大致可分為基于知識工程的分類系統和基于機器學習的分類系統C、文本的向量形式一般基于詞袋模型構建,該模型考慮了文本詞語的行文順序D、構建文本的向量形式可以歸結為文本的特征選擇與特征權重計算兩個步驟【正確答案】:C解析:
詞袋模型沒有考慮文本詞語的原本行文順序。93.在神經網絡學習中,感知機輸出層中的M-P神經元通常被稱為()。A、閾值邏輯單元B、激活函數C、擠壓函數D、連接函數【正確答案】:A解析:
--94.Python語句print(0xA+0xB)的輸出結果是()。A、0xA+0xBB、A+BC、0xA0xBD、21【正確答案】:D解析:
0x是16進制運算,0xA+0xB換為十進制為10+11=21。95.任一隨機事件出現的概率為()。A、在–1與1之間B、小于0C、不小于1D、在0與1之間【正確答案】:D解析:
如果沒有其他的附加條件的話,一般概率P的取值范圍是0≤P≤1。0代表不可能發生,1代表一定會發生。96.np.linalg.svd)函數可以實現()功能。A、計算協方差矩陣B、實現奇異值分解C、計算方差D、計算均值;【正確答案】:B解析:
svd實現奇異值分解。97.一位母親記錄了兒子3~9歲的身高,由此建立的身高與年齡的回歸直線方程為y=7.19x+73.93,據此可以預測這個孩子10歲時的身高,則正確的敘述是()。A、身高一定是145.83cmB、身高一定超過146.00cmC、身高一定高于145.00cmD、身高在145.83cm左右【正確答案】:D解析:
回歸直線方程預測時,出現的誤差方向不能確定。98.線性回歸的基本假設不包括()。A、隨機誤差項是一個期望值為0的隨機變量B、對于解釋變量的所有觀測值,隨機誤差項有相同的方差C、隨機誤差項彼此相關D、解釋變量是確定性變量不是隨機變量,與隨機誤差項之間相互獨立【正確答案】:C解析:
線性回歸的基本假設:(1)線性關系假設。(2)正態性假設,指回歸分析中的Y服從正態分布。(3)獨立性假設,包含兩個意思:①與某一個X對應的一組Y和與另一個X對應的一組Y之間沒有關系,彼此獨立;②誤差項獨立,不同的X所產生的誤差之間應相互獨立,無自相關。(4)誤差等分散性假設:特定X水平的誤差,除了應呈隨機化的常態分配,其變異量也應相等,稱為誤差等分散性。99.scipy庫中用于物理和數學常量計算的模塊是()。A、scipy.clusterB、scipy.ioC、scipy.constantsD、scipy.linalg【正確答案】:C解析:
scipy中,constants是常量計算模塊。100.Python中定義私有屬性的方法是()。A、使用private關鍵字B、使用public關鍵字C、使用__XX__定義屬性名D、使用__XX定義屬性名【正確答案】:D解析:
使用__XX定義屬性名是定義私有屬性的方法。1.對于不同場景內容,一般數字圖像可以分為()。A、二值圖像B、灰度圖像C、彩色圖像D、深度圖像【正確答案】:ABC解析:
深度圖像中深度通道為描述距離,一般對其進行采樣或數值離散化。2.CNN相比于全連接的DNN,具有的優勢是()。A、參數更少B、泛化更好C、訓練更快D、更容易搭建【正確答案】:ABC解析:
DNN直接對數據做加權線性連接,而CNN則是移動卷積核,并對圖像中的各區域做卷積操作。因此,DNN更容易搭建,D錯誤。3.直方圖修正法包括()。A、直方圖統計B、直方圖均衡C、直方圖過濾D、直方圖規定化【正確答案】:BD解析:
直方圖統計是對圖像特征值的統計;直方圖過濾屬于圖像處理技術。4.訓練CNN時,GPU顯存溢出,此時可以采取的辦法有()。A、減少mini_batch大小B、移除一些卷積層C、減少圖片輸入大小D、增加激活函數【正確答案】:ABC解析:
增加激活函數反而會加重負擔,D選項錯誤。5.任何函數都可以修改,所以盡量少用全局變量,主要原因包括()。A、不夠安全B、一直占用內存C、容易失效D、一直占用字符【正確答案】:AB解析:
全局變量安全性差、相關內存一直無法釋放。6.Numpy數組中將一個數組分割成多個小數組數組的分割函數包括()。A、hsplitBB、vsplitCC、splitDD、dsplit【正確答案】:ABCD解析:
以上都是分割函數,分別為水平分割,、數值分割,、通用分割,、深度分割。7.下列對字符串函數或方法說法正確的有()。A、istitle)如果字符串是標題化的(見title)則返回True,否則返回FalseB、max(str)返回字符串str中最大的字母。C、replace(old,new,max)把將字符串中的str1替換成str2,如果max指定,則替換不超過max次D、upper)轉換字符串中所有大寫字符為小寫【正確答案】:ABC解析:
upper)轉換字符串中所有小寫字符為大寫。8.ApacheFlume主要解決的是日志數據的收集和處理問題,Flume的主要設計目的和特征是()。A、高可靠性B、可擴展性C、管理復雜D、不支持用戶自定義【正確答案】:AB解析:
Flume的主要設計目的和特征包括高可靠性、可擴展性、支持方便管理、支持用戶自定義。9.下面關于隨機變量及其概率分布的說法,正確的是()。A、隨機變量可以分為離散型隨機變量和連續型隨機變量B、隨機變量的概率分布指的是一個隨機變量所有取值的可能性C、扔5次硬幣,正面朝上次數的可能取值是0、1、2、3、4、5,其中正面朝上次數為0與正面朝上次數為5的概率是一樣的D、扔5次硬幣,正面朝上次數的可能取值是0、1、2、3、4、5,其中正面朝上次數為5的概率是最大的【正確答案】:ABC解析:
扔5次硬幣,正面朝上次數的可能取值是0、1、2、3、4、5,其中正面朝上次數為5的概率不是最大的。10.常用分詞方法包含()。A、基于Binarytree的分詞方法B、基于HMM的分詞方法C、基于CRF的分詞方法D、基于K-means的分詞方法【正確答案】:BC解析:
K-means一般用于聚類,Binarytree(二叉樹)也不用于分詞。11.下列關于數據科學中常用的統計學知識說法錯誤的是()。A、從行為目的與思維方式看,數據統計方法可以分為基本分析方法和元分析方法B、從方法論角度看,基于統計的數據分析方法又可分為描述統計和推斷統計C、描述統計可分為集中趨勢分析、離中趨勢分析、參數估計和假設檢驗D、推斷統計包括采樣分布和相關分析【正確答案】:ABCD解析:
從行為目的與思維方式看,數據統計方法包括描述統計、假設檢驗、相關分析、方差分析、回歸分析、聚類分析等;從方法論角度看,描述統計可分為集中趨勢分析和離散趨勢分析;推斷統計包括總體參數估計和假設檢驗兩方面內容。12.可能導致交叉檢驗模型評估較差可能是由于()的原因導致的有()。A、模型過擬合B、模型欠擬合C、模型過度復雜D、模型過度簡單【正確答案】:ABCD解析:
以上問題都可能導致模型評估效果較差。13.關于Hive的說法正確的是()。A、Hive是基于Hadoop的數據倉庫工具B、Hive可以將結構化的數據文件映射為一張數據庫表C、最初,Hive由Google開源,用于解決海量結構化日志數據統計問題D、Hive的主要應用場景是離線分析【正確答案】:ABD解析:
Hive不是由谷歌提出和開源的,谷歌提出的三大核心技術是GFS、BigTable、MapReduce。14.Spark容錯性的方式有哪些()。A、數據檢查點B、存儲原始數據C、記錄數據的更新D、自建數據版本【正確答案】:AC解析:
Spark容錯性有數據檢查點和記錄數據的更新兩種方式。15.卷積神經網絡為了保證圖像對位移、縮放、扭曲的魯棒性,可采取的措施有()。A、局部感受野B、共享權值C、池采樣D、正則化【正確答案】:ABC解析:
正則化是為了減少泛化誤差。16.對以下代碼說法正確的是()。A、該圖表是一個藍綠色的散點圖B、圖表中有紅色實線的網格線C、圖表中有圖例D、該圖畫的是sin曲線【正確答案】:CD解析:
該圖畫的是點虛線形式的折線圖,紅色點線網格,帶有圖例。17.下面關于單樣本Z檢驗的說法,正確的是()。A、在Python中,單樣本Z檢驗可以使用scipy.stats.ttest_1samp()實現B、單樣本Z檢驗適用于樣本量較大的情況C、單樣本Z檢驗假設要檢驗的統計量(近似)滿足正態分布D、單樣本Z檢驗常用于檢驗總體平均值是否等于某個常量【正確答案】:BCD解析:
在Python中,單樣本Z檢驗可以使用statsmodels.stats.weightstats.ztest實現。18.關于分析學習和歸納學習的比較,說法正確的是()。A、歸納學習擬合數據假設,分析學習擬合領域理論的假設B、歸納學習論證方式為統計推理,分析學習為演繹推理C、歸納學習不需要先驗知識D、訓練數據不足時歸納學習可能會失敗【正確答案】:ABCD解析:
分析學習是相對于歸納學習的一種提法,其特點是使用先驗知識來分析或解釋每個訓練樣本,以推理出樣本的哪些特征與目標函數相關或不相關。因此,這些解釋能使機器學習系統比單獨依靠數據進行泛化有更高的精度。分析學習使用先驗知識來減小待搜索假設空間的復雜度,減小了樣本復雜度并提高了機器學習系統的泛化精度。可見,分析學習與歸納學習的優缺點在一定程度上具有互補性,分析學習方法的優點在于可用先驗知識從較少的數據中更精確地泛化以引導學習。但是,當先驗知識不正確或不足時,分析學習的缺點也會被突顯;歸納學習具有的優點是不需要顯式的先驗知識,并且主要基于訓練數據學習到規律。然而,若訓練數據不足時它能會失敗,并且會被其中隱式的歸納偏置所誤導,而歸納偏置是從觀察數據中泛化所必需的過程。因此,我們可以考慮如何將二者結合成一個單獨的算法,以獲得它們各自的優點。19.RNN網絡的激活函數要選用雙曲正切而不是Sigmod的原因有()。A、使用Sigmod函數容易出現梯度消失B、Sigmod的導數形式較為復雜C、雙曲正切更簡單D、Sigmoid函數實現較為復雜【正確答案】:AB解析:
第一,采用Sigmoid等函數,反向傳播求誤差梯度時,求導計算量很大,而ReLU求導非常容易。第二,對于深層網絡,Sigmoid函數反向傳播時,很容易就會出現梯度消失的情況(在Sigmoid接近飽和區時,變換太緩慢,導數趨于0),從而無法完成深層網絡的訓練。20.DGI定義的數據治理任務包括()。A、數據質量的評估B、主動定義或序化規則C、為數據利益相關者提供持續跨職能的保護與服務D、應對并解決因不遵守規則而產生的問題【正確答案】:BCD解析:
DGI(TheDataGovermanceInstitute)認為數據治理是對數據相關的決策及數據使用權限控制的活動。它是一個信息處理過程中根據模型來執行的決策權和承擔責任的系統,規定了誰可以在什么情況下對哪些信息做怎樣的處理。21.決策樹遞歸停止的條件為()。A、訓練數據集使用完B、所有的類標簽完全相同C、特征用完D、遇到丟失值【正確答案】:BC解析:
決策樹的生成是一個遞歸過程。在決策樹基本算法中,有三種情形會導致遞歸返回:①結點包含的樣本全屬于同一類別,無須劃分;②當前屬性集為空,或是所有樣本在所有屬性上取值相同,無法劃分;③當前結點包含的樣本集合為空,不能劃分。22.在MapReduce1.0版本中,JobTracker功能是()。A、資源管理B、作業控制C、作業存儲D、作業審核【正確答案】:AB解析:
在MapReduce1.0中,JobTracker同時兼備了資源管理和作業控制兩個功能。23.下列哪些是傳統RDBMS的缺點()。A、表結構schema擴展不方便B、全文搜索功能較弱C、大數據場景下I/O較高D、存儲和處理復雜關系型數據功能較弱【正確答案】:ABCD解析:
傳統RDBMS的缺點包括表結構schema擴展不方便、全文搜索功能較弱、大數據場景下I/O較高、存儲和處理復雜關系型數據功能較弱。24.下列屬于字符串匹配的分詞方法的是()。A、正向最大匹配法(由左到右的方向)B、逆向最大匹配法(由右到左的方向)C、最少切分(使每一句中切出的詞數最小)D、雙向最大匹配法(進行由左到右、由右到左兩次掃描)【正確答案】:ABCD解析:
正向最大匹配、逆向最大匹配、最少切分、雙向最大匹配都屬于字符串匹配的常用方法。25.SparkRDD的依賴機制包括()。A、寬依賴B、深度依賴C、廣度依賴D、窄依賴【正確答案】:AD解析:
RDD之間的依賴關系可以分為窄依賴和寬依賴兩種。26.以下()函數是累積函數。A、cumsumB、argminC、cumprodD、argmax【正確答案】:AC解析:
cumsum、cumprod分別為累加和累乘函數。27.常用的數據審計方法可以分為()。A、預定義審計B、自定義審計C、可視化審計D、結構化審計【正確答案】:ABC解析:
常用的數據審計方法有預定義審計、自定義審計和可視化審計三種。28.特征選擇在子集生成與搜索方面引入了人工智能搜索技術和子集評價方法。其中人工智能搜索技術有()。A、分支界限法B、浮動搜索法C、信息熵D、AIC【正確答案】:ABCD解析:
特征選擇在子集生成與搜索方面引入了很多人工智能搜索技術,如分支界限法、浮動搜索法等;在子集評價方法則采用了很多源于信息論的準則,如信息熵、AIC等。29.關于相關與線性關系,下列說法正確的是()A、相關不一定是線性關系,可能是非線性關系B、相關一定是線性關系,不可能是非線性關系C、相關時若有相關系數r為0,說明兩個變量之間不存在線性關系,仍可能存在非線性關系D、相關系數為0是兩個變量獨立的必要不充分條件【正確答案】:ACD解析:
相關不一定是線性關系,可能是非線性關系。30.大數據的資產屬性體現在()。A、具有勞動增值B、涉及法律權屬C、具有財務價值D、涉及道德與倫理【正確答案】:ABCD解析:
大數據的資產屬性體現在具有勞動增值、涉及法律權屬、具有財務價值、涉及道德與倫理。31.在正則化公式中,λ為正則化參數,關于λ的描述正確的是()。A、若正則化參數λ過大,可能會導致出現欠擬合現象B、若λ的值太大,則梯度下降可能不收斂C、取一個合理的λ值,可以更好地應用正則化D、如果令λ的值很大的話,為了使CostFunction盡可能的小,所有θ的值(不包括θ0)都會在一定程度上減小【正確答案】:ABCD解析:
正則化參數太小容易產生過擬合,太大容易產生欠擬合。32.如將A、B、C三個分類器的PR曲線畫在一個圖中,其中A、B的PR曲線可以完全包含住C的PR曲線,A與B的PR曲線有交點,A、B、C的平衡點分別為0.79、0.66、0.58,以下說法中正確的是()。A、學習器A的性能優于學習器CB、學習器A的性能優于學習器BC、學習器B的性能優于學習器CD、學習器C的性能優于學習器B【正確答案】:ABC解析:
若一個學習器的PR曲線被另一個學習器的曲線完全包住,則可斷言后者的性能優于前者,如果兩個學習器的PR曲線發生了交叉,則可用平衡點度量。33.下面屬于可視化高維數據技術的是()。A、矩陣B、.平行坐標系C、星形坐標系D、散布圖【正確答案】:ABC解析:
矩陣、平行坐標系和星形坐標系都屬于可視化高維數據的常用技術,而散布圖又叫相關圖,只能處理二維數據。34.當我們構造線性模型時,我們注意變量間的相關性。在相關矩陣中搜索相關系數時,如果我們發現3對變量的相關系數是(Var1和Var2,Var2和Var3,Var3和Var1),相關系數分別是-0.98、0.45、1.23。我們可以得出的結論是()。A、Var1和Var2是非常相關的B、因為Va1r和Var2是非常相關的,可以去除其中一個C、Var3和Var1的1.23相關系數是不可能的D、-【正確答案】:ABC解析:
Var1和Var2之間的相關性非常高,并且是負的,可視為多重共線性的情況,可以去掉一個。一般來說,如果相關大于0.7或小于-0.7,則認為特征之間有很高的相關性。相關系數范圍為[-1,1],C選項中1.23明顯有誤。35.算法“歧視”現象可能出現在()。A、算法設計B、算法實現C、算法投入使用D、算法驗證【正確答案】:ABC解析:
算法歧視是指算法設計、實現和投入使用過程中出現的各種“歧視”現象。36.以下屬于數據挖掘與分析工具的有()。A、TableauB、PythonC、SPSSD、Alteyx【正確答案】:ABCD解析:
常用的數據挖掘工具有RapidMiner、IBMSPSSModeler、OracleDataMining、Teradata、Python。常用的數據分析工具有Tableau、Alteyx、R&Python語言、FineReport、PowerBI。37.Spark的技術架構可以分為哪幾層()。A、資源管理層B、Spark核心層C、應用層D、服務層【正確答案】:ABD解析:
Spark的技術架構可以分為資源管理層、Spark核心層和服務層三層。38.下列關于詞袋模型說法正確的是()。A、詞袋模型可以忽略每個詞出現的順序B、詞袋模型不可以忽略每個詞出現的順序C、TensorFlow支持詞袋模型D、詞袋模型可以表出單詞之間的前后關系【正確答案】:AC解析:
詞袋模型的缺點之一就是不考慮詞語的順序關系,因此BD錯誤。39.()是Hadoop運行的模式。A、單機版B、偽分布式C、分布式D、全分布式【正確答案】:ABC解析:
Hadoop運行模式包括單機版、偽分布式和分布式。40.一個監督觀測值集合會被劃分為()。A、訓練集B、驗證集C、測試集D、預處理集【正確答案】:ABC解析:
一個監督觀測值集合會被劃分為訓練集、測試集、預測集。其中測試集來測試學習器對新樣本的判別能力,然后以測試集上的測試誤差(testingerror)作為泛化誤差的近似。41.()是Hadoop運行的模式。A、單機版B、偽分布式C、分布式D、全分布式【正確答案】:ABC解析:
Hadoop運行模式包括單機版、偽分布式和分布式。42.決策樹遞歸停止的條件為()。A、訓練數據集使用完B、所有的類標簽完全相同C、特征用完D、遇到丟失值【正確答案】:BC解析:
決策樹的生成是一個遞歸過程。在決策樹基本算法中,有三種情形會導致遞歸返回:①結點包含的樣本全屬于同一類別,無須劃分;②當前屬性集為空,或是所有樣本在所有屬性上取值相同,無法劃分;③當前結點包含的樣本集合為空,不能劃分。43.下面是Python的特點和優點是()。A、解釋性強B、使用動態特性C、面向對象D、語法簡潔【正確答案】:ABCD解析:
Python的特點和優點是基于面向對象設計,、代碼解釋性強,、使用動態特性、語法簡潔。44.下列關于集合操作結果正確的有()。A、name={‘d’,‘s’}nameadd(‘sd’),name值為:{‘sd’,‘d’,‘s’}B、name={‘sd’,d’,‘s’}nameremove(‘s’),name值為:{‘sd’,‘d’}C、name={‘sd’,d’,‘s’}nameclear),name值為:{}D、name={‘sd’,d’,‘s’}nameupdate(‘df’),name值為:{‘sd’,’d’,‘f’,’s’,’j’}【正確答案】:ABC解析:
D結果應為{'d','f','s','sd'}。45.下列不屬于聚類性能度量內部指標的是()。A、DB指數B、Dunn指數C、Jaccard系數D、FM系數【正確答案】:CD解析:
聚類常用的外部指標包括Jaccard系數、FM系數、Rand指數;聚類常用的內部指標包括DB指數、Dunn指數。46.以下關于數據維度的描述,正確的是()。A、采用列表表示一維數據,不同數據類型的元素是可以的B、JSON格式可以表示比二維數據還復雜的高維數據C、二維數據可以看成是一維數據的組合形式D、字典不可以表示二維以上的高維數據【正確答案】:ABC解析:
字典可以表示二維以上的高維數據。47.RNN在NLP領域的應用包括()。A、語言模型與文本生成B、機器翻譯C、語音識別D、圖像描述生成【正確答案】:ABCD解析:
RNN在NLP領域的應用包括語言模型與文本生成、機器翻譯、語音識別、圖像描述生成、情感分析、對話系統等。48.Apriori算法的計算復雜度受()影響。A、支持度閾值B、項數(維度)C、事務數D、事務平均寬度【正確答案】:ABCD解析:
--49.下列可以用來構造神經網絡的算法有()。A、kNNB、線性回歸C、邏輯回歸D、-【正確答案】:BC解析:
kNN是一種基于實例的學習算法,不具有任何訓練參數。因此不能用來構造神經網絡,線性回歸和邏輯回歸都可以用來構造神經網絡模型,其實二者就是單神經元的神經網絡。50.使用極大似然估計的前提條件有()。A、數據服從某種已知的特定數據分布型B、已經得到了一部分數據集C、提前已知某先驗概率D、數據集各個屬性相對獨立【正確答案】:AB解析:
極大似然估計要求樣本獨立同分布,否則無法用概率密度函數乘積的形式。假設的分布與真實的分布要一致,否則會南轅北轍。如果對總體分布一無所知是無法使用MLE的。51.特征向量的缺失值處理:缺失值較多,直接將該特征舍棄掉,否則可能反倒會帶入較大的noise,對結果造成不良影響;缺失值較少,其余的特征缺失值都在10%以內,我們可以采取的處理方式有()。A、把NaN直接作為一個特征,假設用0表示B、用均值填充C、用隨機森林等算法預測填充D、以上答案都不正確【正確答案】:ABC解析:
缺失值較少的處理方法:①把NAN直接作為一個特征,假設用0表示;②用均值填充;③用隨機森林等算法預測填充;④用插值法填充。52.假設目標遍歷的類別非常不平衡,即主要類別占據了訓練數據的99%,現在你的模型在訓練集上表現為99%的準確度,那么下面說法正確的是()。A、準確度并不適合衡量不平衡類別問題B、準確度適合衡量不平衡類別問題C、精確度和召回率適合于衡量不平衡類別問題D、精確度和召回率不適合衡量不平衡類別問題【正確答案】:AC解析:
精確度和召回率適合于衡量不平衡類別問題,準確度并不適合衡量不平衡類別問題。53.在網絡爬蟲的爬行策略中,應用最為常見的是()。A、深度優先遍歷策略B、廣度優先遍歷策略C、高度優先遍歷策略D、反向鏈接策略【正確答案】:AB解析:
在網絡爬蟲的爬行策略中,應用最為常見的是深度優先遍歷策略、廣度優先遍歷策略。54.神經網絡的拓撲結構可以分為()和隨機型網絡等。A、前向型B、后向型C、反饋型D、自組織競爭型【正確答案】:ACD解析:
--55.許多功能更為強大的非線性模型可在線性模型基礎上通過引入()而得。A、層級結構B、高維映射C、降維D、分類【正確答案】:AB解析:
--56.可視化高維展示技術在展示數據之間的關系以及數據分析結果方面()。A、能夠直觀反映成對數據之間的空間關系B、能夠直觀反映多維數據之間的空間關系C、能夠靜態演化事物的變化及變化的規律D、能夠動態演化事物的變化及變化的規律【正確答案】:BD解析:
可視化高維展示技術在展示數據之間的關系以及數據分析結果方面能夠直觀反映多維數據之間的空間關系,以及能夠動態演化事物的變化及變化的規律。57.關于Python組合數據類型,以下選項中描述正確的是()。A、Python的str、tuple和list類型都屬于序列類型B、Python組合數據類型能夠將多個同類型或不同類型的數據組織起來,通過單一的表示使數據操作更有序更容易C、組合數據類型可以分為3類:序列類型、集合類型和映射類型3類D、序列類型是二維元素向量,元素之間存在先后關系,通過序號訪問【正確答案】:ABC解析:
序列類型是一維元素向量。58.以下屬于關鍵詞提取算法的有()。A、TF-IDF算法B、TextRank算法C、LSA(潛在語義分析)D、LDA【正確答案】:ABCD解析:
關鍵詞提取算法包括TF-IDF算法、TextRank算法、LSA(潛在語義分析)orLSI(潛在語義索引)、LDA等。59.非頻繁模式()。A、其支持度小于閾值B、都是不讓人感興趣的C、包含負模式和負相關模式D、對異常數據項敏感【正確答案】:AD解析:
非頻繁模式是一個項集或規則,其支持度小于閾值。絕大部分的頻繁模式不是令人感興趣的,但其中有些分析是有用的,特別是涉及數據中的負相關時。它對異常數據項敏感。60.數據挖掘的主要功能包括概念描述、趨勢分析、孤立點分析及()等方面。A、關聯分析B、分類和預測C、聚類分析D、偏差分析【正確答案】:ABCD解析:
--61.可視分析學的幾個特點包含()。A、強調數據到知識的轉換過程B、強調可視化分析與自動化建模之間的相互作用C、強調數據映射和數據挖掘的重要性D、強調數據加工(DataWrangling或DataMunging)工作的必要性E、⑤強調人機交互的重要性。【正確答案】:ABCDE解析:
從可視分析學模型可以看出,可視分析學的流程具有如下特點:①強調數據到知識的轉換過程。可視化分析學中對數據可視化工作的理解發生了根本性變化——數據可視化的本質是將數據轉換為知識,而不能僅僅停留在數據的可視化呈現層次之上。從數據到知識的轉換途徑有可視化分析和自動化建模兩種。②強調可視化分析與自動化建模之間的相互作用。二者的相互作用主要體現在:一方面,可視化技術可用于數據建模中的參數改進的依據;另一方面,數據建模也可以支持數據可視化活動,為更好地實現用戶交互提供參考。③強調數據映射和數據挖掘的重要性。從數據到知識轉換的兩種途徑——可視化分析與自動化建模分別通過數據映射和數據挖掘兩種不同方法實現。因此,數據映射和數據挖掘技術是數據可視化的兩個重要支撐技術。用戶可以通過兩種方法的配合使用實現模型參數調整和可視化映射方式的改變,盡早發現中間步驟中的錯誤,進而提升可視化操作的信度與效度。④強調數據加工工作的必要性。數據可視化處理之前一般需要對數據進行預處理(轉換)工作,且預處理活動的質量將影響數據可視化效果。⑤強調人機交互的重要性。可視化過程往往涉及人機交互操作,需要重視人與計算機在數據可視化工作中的互補性優勢。因此,人機交互以及人機協同工作也將成為未來數據可視化研究與實踐的重要手段。62.在建立模型時,需要用到()。A、訓練數據B、測試數據C、原始數據D、驗證數據【正確答案】:ABD解析:
在機器學習中,通常將數據分為訓練集、測試集和驗證集。63.數據科學基本原則中,三世界原則指的是()A、精神世界B、數據世界C、物理世界D、數字世界【正確答案】:ABC解析:
大數據時代的到來,在我們的“精神世界”和“物理世界”之間出現了一種新的世界——“數據世界”。因此,在數據科學中,通常需要研究如何運用“數據世界”中已存在的“痕跡數據”的方式解決“物理世界”中的具體問題,而不是直接到“物理世界”,采用問卷和訪談等方法親自收集“采訪數據”。相對于“采訪數據”,“痕跡數據”更具有客觀性。圖靈獎獲得者JimGray提出的科學研究第四范式——數據密集型科學發現(Data-intensiveScientificDiscovery)是“三世界原則”的代表性理論之一。64.下列哪些是RDBMS中事務遵循的原則()。A、原子性(Atomicity)B、一致性(Connsistency)C、隔離性(Isolation)D、持久性(Durability)【正確答案】:ABCD解析:
關系數據庫中的事務需要具備一定的規則——ACID特征。ACID是指數據庫事務正確執行的4個基本要素的縮寫:原子性(Atomicity)、一致性(Consistency)、隔離性(Isolation)、持久性(Durability)。65.影響聚類算法效果的主要原因有()。A、特征選取B、模式相似性測度C、分類準則D、已知類別的樣本質量【正確答案】:ABC解析:
聚類算法是無監督的學習算法,訓練樣本的標記信息是未知的。66.列式數據庫(如BigTable和HBase)以表的形式存儲數據,表結構包括()等元素。A、關鍵字B、時間戳C、列簇D、數據類型【正確答案】:ABC解析:
BigTable和HBase的索引由行關鍵字、列簇和時間戳組成。67.Hadoop中map輸出結果說法正確的是()。A、<key,value>鍵值對B、輸出中間臨時結果C、輸出最終計算結果D、輸出結果永久保留【正確答案】:AB解析:
map輸出結果并非是最終結果且只暫時保留。68.以下()屬于數據統計分析工具。A、WekaB、SASC、SPSSD、Matlab【正確答案】:ABCD解析:
常用統計軟件的種類包含Weka、SAS、SPSS、Excel、S-plus、Minitab、Matlab、Statistica、Eviews。69.關于Python分隔代碼塊,描述錯誤的是()。A、內嵌代碼的每一行,都比外面的if語句的縮進更多B、代碼以“begin”開頭,“end”結尾C、每行代碼的縮進都一致D、代碼塊被封裝在花括號中【正確答案】:BCD解析:
python代碼沒有開頭與結尾標識;不同級別的語句縮進不同;python代碼用縮進區分代碼塊,不用{}。70.關于Dropout說法,正確的是()。A、Dropout背后的思想其實就是把DNN當作一個集成模型來訓練,之后取所有值的平均值,而不只是訓練單個DNNB、DNN網絡將Dropout率設置為p,也就是說,一個神經元被保留的概率是1-p。當一個神經元被丟棄時,無論輸入或者相關的參數是什么,它的輸出值就會被設置為0C、丟棄的神經元在訓練階段,對BP算法的前向和后向階段都沒有貢獻。由于這個原因,每一次訓練它都像是在訓練一個新的網絡Dropout方法通常和L2正則化或者其他參數約束技術(比如MaxNorm)一起使用,來防止神經網絡的過擬合【正確答案】:ABCD解析:
dropout是指在深度學習網絡的訓練過程中,對于神經網絡單元,按照一定的概率將其暫時從網絡中丟棄。注意是暫時,對于隨機梯度下降來說,由于是隨機丟棄,故而每一個mini-batch都在訓練不同的網絡。防止過擬合的方法:提前終止(當驗證集上的效果變差的時候);L1和L2正則化加權;softweightsharingdropout。dropout率的選擇:經過交叉驗證,隱含節點dropout率等于0.5的時候效果最好,原因是0.5的時候dropout隨機生成的網絡結構最多。dropout也可以被用作一種添加噪聲的方法,直接對input進行操作。輸入層設為更接近1的數。使得輸入變化不會太大(0.8)。71.字符串的格式化可以使用()。A、%B、formatC、inputD、+【正確答案】:AB解析:
input是輸入,+是加法運算符。72.Spark中的Scheduler模塊可以分為()。A、DAGSchedulerB、ResourceSchedulerC、TaskSchedulerD、JobScheduler【正確答案】:AC解析:
Scheduler模塊分為DAGScheduler和TaskScheduler兩個部分。73.Python變量命名規則包含()。A、變量名只能包含字母、數字和下劃線。變量名可以字母或下劃線開頭,但不能以數字開頭,。例如,可將變量命名為message_1,但不能將其命名為1_message。B、變量名不能包含空格,但可使用下劃線來分隔其中的單詞。例如,變量名greeting_message可行,但變量名greetingmessage會引發錯誤。C、不要將Python關鍵字和函數名用作變量名,即不要使用Python保留用于特殊用途的單詞,如print。D、變量名應既簡短又具有描述性。例如,name比n好,student_name比s_n好,name_length比length_of_persons_name好。【正確答案】:ABCD解析:
Python變量名只能包含字母、數字和下劃線,但不能以數字開頭,避免使用關鍵字,變量名應既簡短又具有描述性。74.在正則化公式中,λ為正則化參數,關于λ的描述正確的是()。A、若正則化參數λ過大,可能會導致出現欠擬合現象B、若λ的值太大,則梯度下降可能不收斂C、取一個合理的λ值,可以更好地應用正則化D、如果令λ的值很大的話,為了使CostFunction盡可能的小,所有θ的值(不包括θ0)都會在一定程度上減小【正確答案】:ABCD解析:
正則化參數太小容易產生過擬合,太大容易產生欠擬合。75.在Spark中,彈性分布式數據集的特點包括()。A、可分區B、可序列化C、可直接修改D、可持久化【正確答案】:ABD解析:
RDD不可修改。76.TF-IDF的缺點包含()。A、字詞的重要性隨它在文件中出現的次數成正比B、將一些生僻字誤當作文檔關鍵詞C、只考慮特征詞和文本之間的關系,忽略了一個特征項在不同類別間的分布情況D、沒有考慮特征詞的位置因素對文本的區分度【正確答案】:BCD解析:
低頻詞匯的重要性和出現次數成正比。77.處理圖像平滑處理的濾波有()。A、盒式濾波B、均值濾波C、高斯濾波D、中值濾波【正確答案】:ABCD解析:
--78.基于Hadoop開源大數據平臺主要提供了針對數據分布式計算和存儲能力,如下屬于分布式存儲組件的有()。A、MapReduceB、SparkC、HDFSD、HBase【正確答案】:CD解析:
MapReduce和Spark的核心功能是分布式計算。79.下列可以用來評估線性回歸模型的指標有()。A、R-SquaredB、AdjustedR-SquaredC、FStatisticsD、RMSE/MSE/MAE【正確答案】:ABCD解析:
R-Squa
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2024年項目管理考試策略試題及答案
- 2025年特許金融分析師備考資源分享試題及答案
- 2024年項目管理考試資源管理試題及答案
- 大門牌坊安全施工方案
- 項目利益相關方的管理考察題目及答案
- 粉末冶金在燃氣輪機葉片制造中的應用考核試卷
- 2024年項目管理新職業趨勢分析試題及答案
- 注冊會計師學習培訓分享試題及答案
- 2024年項目管理認證學術研究試題及答案
- 2025年證券從業資格證重難點分析試題及答案
- DBJ51T 108-2018 四川省建筑巖土工程測量標準
- 2025年國家保密基本知識考試題庫及答案
- 2024年四川省成都市武侯區中考化學二模試卷附解析
- 《大學生創新創業基礎》全套教學課件
- (整理)變頻器電力電纜標準
- 《西方音樂史》課件柴可夫斯基
- 人力資源部崗位廉潔風險點及防范措施
- PRS-778S500-100-090721技術使用說明書
- 求一個數比另一個數多幾少幾應用題
- 職業衛生健康題庫
- 廣東省建設工程造價咨詢服務收費項目和收費標準表[粵價函(2011)742號]
評論
0/150
提交評論