2023年大數據應用技能競賽全題庫-上(單選題匯總)_第1頁
2023年大數據應用技能競賽全題庫-上(單選題匯總)_第2頁
2023年大數據應用技能競賽全題庫-上(單選題匯總)_第3頁
2023年大數據應用技能競賽全題庫-上(單選題匯總)_第4頁
2023年大數據應用技能競賽全題庫-上(單選題匯總)_第5頁
已閱讀5頁,還剩174頁未讀 繼續免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

PAGEPAGE1792023年大數據應用技能競賽全題庫-上(單選題匯總)一、單選題1.a=1,b=2,c=3,以下表達式值為True的是()。A、a>=bor(c+5)%3==1B、not(a==1andb!=c)C、notaandb==cD、aanda+b>=c答案:D2.下列哪項關于模型能力(modelcapacity指神經網絡模型能擬合復雜函數的能力)的描述是正確的()A、隱藏層層數增加,模型能力增加B、Dropout的比例增加,模型能力增加C、學習率增加,模型能力增加D、都不正確答案:A3.在Python中,調用open()時需要將內容附加到文件末尾,而不是覆蓋文件原來內容,則第二個實參應該使用()。A、a'B、'g'C、'm'D、'w'答案:A4.在數據科學中,R的包通常從()下載。A、PIPB、CRANC、RstudioD、Pypi答案:B5.著名的C4.5決策樹算法使用()來選擇最優劃分屬性。A、信息增益B、增益率C、基尼指數D、均值答案:B6.數據倉庫是隨著時間變化的,下面的描述不正確的是()。A、數據倉庫隨時間的變化不斷增加新的數據內容B、捕捉到的新數據會覆蓋原來的快照C、數據倉庫隨事件變化不斷刪去舊的數據內容D、數據倉庫中包含大量的綜合數據,這些綜合數據會隨著時間的變化不斷地進行重新綜合答案:C7.下面()屬于SVM應用。A、文本和超文本分類B、圖像分類C、新文章聚類D、以上均是答案:D8.以下哪項關于決策樹的說法是錯誤的()。A、冗余屬性不會對決策樹的準確率造成不利的影響B、子樹可能在決策樹中重復多次C、決策樹算法對于噪聲的干擾非常敏感D、尋找最佳決策樹是NP完全問題答案:C9.階躍函數與sigmoid函數均為典型激活函數()。A、正確B、錯誤答案:A10.Sigmoid函數作為神經元激活函數的特點是()。A、連續但不光滑B、不連續但光滑C、連續且光滑D、不連續且不光滑答案:C11.在支持向量機中,軟間隔支持向量機的目標函數比硬間隔支持向量機多了一個(__)。A、偏置項bB、系數C、松弛變量D、兩種情況的目標函數相同答案:C12.Matplotlib中imread方法的讀取到圖像后是以()類型進行存儲。A、列表B、數組C、字符串D、圖片答案:B13.()選擇成為支持向量機的最大變數。A、核函數B、樣本空間C、模型D、算法答案:A14.當我們需要在一張圖表中特意指出某個特殊點,并加上標注達到醒目的目的時,需要用到()函數。A、plt.axvspan()B、plt.axhspan()C、plt.annotate()D、plt.text()答案:C15.數組分割使用以下哪個函數()。A、vstack()B、hstack()C、split()D、view()答案:C16.IDLE環境的退出命令是()。A、exit()B、回車鍵C、close()D、esc()答案:A17.在深度學習中,下列對于sigmoid函數的說法,錯誤的是()。A、存在梯度爆炸的問題B、不是關于原點對稱C、計算exp比較耗時D、存在梯度消失的問題答案:A18.聚類是一種典型的無監督學習任務,然而在現實聚類任務中我們往往能獲得一些額外的監督信息,于是可通過()來利用監督信息以獲得更好的聚類效果。A、監督聚類B、半監督聚類C、聚類D、直推聚類答案:B19.美國海軍軍官莫里通過對前人航海日志的分析,繪制了新的航海路線圖,標明了大風與洋流可能發生的地點。這體現了大數據分析理念中的()。A、在數據基礎上傾向于全體數據而不是抽樣數據B、在分析方法上更注重相關分析而不是因果分析C、在分析效果上更追究效率而不是絕對精確D、在數據規模上強調相對數據而不是絕對數據答案:B20.相對于HadoopMapReduce1.0,Spark的特點不包括()。A、速度快B、并發多C、通用性D、易用性答案:B21.以下選項中,正確地描述了浮點數0.0和整數0相同性的是()。A、它們使用相同的硬件執行單元B、它們具有相同的數據類型C、它們具有相同的值D、它們使用相同的計算機指令處理方法答案:C22.下列關于MapReduce說法不正確的是()。A、MapReduce是一種計算框架B、MapReduce來源于google的學術論文C、MapReduce程序只能用java語言編寫D、MapReduce隱藏了并行計算的細節,方便使用答案:C23.通常“落伍者”是影響MapReduce總執行時間的主要影響因素之一,為此MapReduce采用()機制來解決。A、分布式計算B、惰性計算C、推測性執行的任務備份D、先進先出答案:C24.列表是Python語言中基本數據類型之一。我們可以通過“list【i】”獲取列表中第i個元素的值,那么“list【i:j】”有什么作用()。A、將列表中第i個元素的值設置為jB、返回一個列表切片——由原列表第i個到第j-1個元素組成的新列表C、返回一個擁有第i和j個元素的新列表D、返回一個擁有第j和i個元素的新列表答案:B25.以下描述中錯誤的是()。A、數據化與數字化是兩個不同概念B、數據與數值是一個概念C、大數據與海量數據是兩個不同的概念D、數據和信息是兩個不同的概念答案:B26.可視化視覺下的數據類型不包括()。A、定類數據B、定序數據C、定寬數據D、定比數據答案:C27.關于L1、L2正則化下列說法正確的是()A、L2正則化能防止過擬合,提升模型的泛化能力,但L1做不到這點B、L2正則化技術又稱為LassoRegularizationC、L1正則化得到的解更加稀疏D、L2正則化得到的解更加稀疏答案:C28.在Python中,下列不是int整型數據的是()。A、160B、10C、-78D、0x234答案:B29.下面有關分類算法的準確率,召回率,F1值的描述,錯誤的是()。A、準確率是檢索出相關文檔數與檢索出的文檔總數的比率,衡量的是檢索系統的查準率B、召回率是指檢索出的相關文檔數和文檔庫中所有的相關文檔數的比率,衡量的是檢索系統的查全率C、正確率、召回率和F值取值都在0和1之間,數值越接近0,查準率或查全率就越高D、為了解決準確率和召回率沖突問題,引入了F1分數答案:C30.下列算法中,不屬于外推法的是()。A、移動平均法B、回歸分析法C、指數平滑法D、季節指數法答案:B31.以下那個選項是在局部生效的,出了這個變量的作用域,這個變量就失效了()。A、局部變量B、全局變量C、字典D、集合答案:A32.()表達了在當前任務上任何學習算法所能達到的期望泛化誤差的下界,即刻畫了學習問題本身的難度。A、偏差B、方差C、噪聲D、泛化誤差答案:C33.以下關于模塊說法錯誤的是()。A、一個xx.py就是一個模塊;B、任何一個普通的xx.py文件可以作為模塊導入;C、模塊文件的擴展名不一定是.py;D、運行時會從制定的目錄搜索導入的模塊,如果沒有,會報錯異常答案:C34.在MapReduce中,通常將Map拆分成M個片段、Reduce拆分成R個片段,下面描述中錯誤的是()。A、MapReduced中單臺機器上執行大量不同的任務可以提高集群的負載均衡能力B、Master必須執行O(M+R)次調度C、Master在內存中保存O(M+R)個狀態D、M和R要比集群中Worker數量多答案:C35.某工廠共有100名員工,他們的月工資方差是s,現在給每個員工的月工資增加3000元,那么他們的新工資的方差()。A、為s+3000B、小了C、大了D、不變答案:D36.Scipy中的圖像處理模塊是哪個()。A、imageB、ndimgeC、photoD、optimize答案:B37.以下哪一種分布是二維隨機變量的分布()。A、正態分布B、二項分布C、邊緣分布D、指數分布答案:C38.LSTM中,(__)的作用是確定哪些新的信息留在細胞狀態中,并更新細胞狀態。A、輸入門B、遺忘門C、輸出門D、更新門答案:A39.()的本質是將低層次數據轉換為高層次數據的過程。A、數據處理B、數據計算C、數據加工(DataWrangling或DataMunging)D、整齊數據答案:C40.以下關于Mahout說法正確的是()。A、存儲框架B、數據管理框架C、數據可視化專業工具D、可擴展的機器學習算法及其實現答案:D41.以下代碼的輸出結果為()。A=np.array(【【5,3,2】,【2,4,0】】)N=np.sort(a,axis=None)Print(n)A、【022345】B、【543220】C、【【230】【542】】D、【【235】【024】】答案:A42.數據使用環節的安全技術措施除防火墻、()、防病毒、防DDOS、漏洞檢測等網絡安全防護技術措施外,還需實現以下安全技術能力:賬號權限管理、數據安全域、數據脫敏、日志管理和審計、異常行為實時監控和終端數據防泄漏。A、入侵檢測B、病毒檢測C、程序檢測D、進程檢測答案:A43.診斷性分析主要采取的分析方法是()和()。A、關聯分析和因果分析法B、關聯分析和分類分析法C、關聯分析和運籌學D、因果分析和分類分析法答案:A44.下列縮進格式描述不正確的是()。A、縮進指在代碼行前面添加空格或Tab;B、在Python程序中,縮進不是任意的;C、縮進可以使程序更有層次感、更有結構感,從而是程序更易讀。D、平級的語句行(代碼塊)的縮進可以不相同。答案:D45.Python解釋器的提示符為()。A、>;B、>>;C、>>>;D、#;答案:C46.對于神經網絡的說法,下面正確的是(__)。A、增加神經網絡層數,可能會增加測試數據集的分類錯誤率B、減少神經網絡層數,總是能減小測試數據集的分類錯誤率C、增加神經網絡層數,總是能減小訓練數據集的分類錯誤率D、1、2都對答案:A47.下列哪個方法不屬于情感分析的評測()。A、COAE評測B、cifar10數據集評測C、CCFTCCI評測D、TAC評測答案:B48.下面哪個是滿足期望輸出的代碼()。Arr=np.array(【0,1,2,3,4,5,6,7,8,9】)期望輸出:array(【1,3,5,7,9】)A、arr%2==1B、arr【arr%2==1】C、arr【arr/2==1】D、arr【arr//2==1】答案:B49.如果要將讀寫位置移動到文件開頭,需要使用的命令是()。A、closeB、seek(0)C、truncateD、write('stuff')答案:B50.假設在龐大的數據集上使用Logistic回歸模型,可能遇到一個問題,Logistic回歸需要很長時間才能訓練,如果對相同的數據進行邏輯回歸,如何花費更少的時間,并給出比較相似的精度()。A、降低學習率,減少迭代次數B、降低學習率,增加迭代次數C、提高學習率,增加迭代次數D、增加學習率,減少迭代次數答案:D51.可用作數據挖掘分析中的關聯規則算法有()。A、機器學習、對數回歸、關聯模式B、K均值法、SOM機器學習C、Apriori算法、FP-Tree算法D、RBF機器學習、K均值法、機器學習答案:C52.MapReduce編程模型中以下組件哪個是最后執行的()A、MapperB、PartitionerC、ReducerD、RecordReader答案:C53.采用模板【-11】主要檢測()方向的邊緣。A、水平B、45°C、垂直D、135°答案:C54.關于層次聚類算法:(1)不斷重復直達達到預設的聚類簇數(2)不斷合并距離最近的聚類簇(3)對初始聚類簇和相應的距離矩陣初始化(4)對合并得到的聚類簇進行更新。正確的執行順序為()。A、1234B、1324C、3241D、3412答案:C55.如何通過代理服務器進行爬蟲()。A、個人發送訪問請求到代理服務器,代理服務器轉發到網站,網站反饋給個人B、個人發送訪問請求到網站,網站反饋給個人,并備份訪問記錄到代理服務器C、個人發送訪問請求到代理服務器,代理服務器轉發到網站,網站反饋給代理服務器,代理服務器再發送給個人D、個人發送訪問請求到網站,網站反饋給代理服務器,個人再訪問代理服務器獲取網頁信息答案:C56.向量空間模型的缺陷不包括()。A、維度災難B、模型稀疏性C、語義信息缺失D、無法計算文本相似度答案:D57.下列屬于無監督學習的是()。A、K-meansB、SVMC、最大熵D、CRF答案:A58.以下代碼的輸出結果為()。ImportnumpyasnpA=np.arange(4)B=a【:】A【1】=9Print(a)Print(b)A、【0123】【0123】B、【1934】【1234】C、【0923】【0923】D、【0923】【0123】答案:C59.數據安全技術保護與信息系統“三同步”原則不包括以下哪項()。A、同步規劃B、同步建設C、同步使用D、同步運維答案:D60.Spark的集群管理模式不包含()。A、Standalone模式B、Message模式C、YARN模式D、Mesos模式答案:B61.聚類算法己經默認所有的記錄都是()的實體。A、相關聯B、有備份C、不獨立D、獨立答案:D62.點擊率的預測是一個數據比例不平衡問題(比如訓練集中樣本呈陰性的比例為99%,陽性的比例是1%),如果我們用這種數據建立模型并使得訓練集的準確率高達99%。我們可以得出結論是:()。A、模型的準確率非常高,我們不需要進一步探索B、模型不好,我們應建一個更好的模型C、無法評價模型D、以上答案都不正確答案:C63.假設你需要調整參數來最小化代價函數(costfunction),會使用()技術。A、窮舉搜索B、隨機搜索C、Bayesian優化D、以上全是答案:D64.下面哪個問題不適合使用機器學習方法解決()。A、判斷電子郵件是否是垃圾郵件B、判斷給定的圖中是否有環C、判斷是否給指定用戶辦理信用卡D、對滴滴拼車乘客分簇答案:B65.在Python中,導入random包后random.random()可能的運行結果為()。A、1B、4.0636470001647C、0.096563931857176D、-0.88515562282635答案:C66.(假設precision=TP/(TP+FP),recall=TP/(TP+FN))在二分類問題中,當測試集的正例和負例數量不均衡時,以下評價方案哪個是相對不合理的()。A、Accuracy:(TP+TN)/allB、F-value:2recallprecision/(recall+precision)C、G-mean:sqrt(precision*recall)D、AUC:曲線下面積答案:A67.下列關于HDFS的描述正確的是()A、如果NameNode宕機,SecondaryNameNode會接替它使集群繼續工作B、HDFS集群支持數據的隨機讀寫C、NameNode磁盤元數據不保存Block的位置信息D、DataNode通過長連接與NameNode保持通信答案:C68.matplotlib中設置x軸數值顯示范圍的函數是什么()。A、xrange()B、xspan()C、xlabel()D、xlim()答案:D69.多分類圖像識別任務常采用()作為輸出的編碼方式。A、二進制編碼B、one-hot編碼C、霍夫曼編碼D、曼切斯特編碼答案:B70.運行下面的代碼,輸出結果是()。ImportnumpyasnpN=np.array(【【1,2,3】,【4,5,6】】)Print(n.size)A、2B、6C、(2,3)D、(3,2)答案:B71.在回歸分析中,說法正確的是()。A、解釋變量和被解釋變量都是隨機變量B、解釋變量為非隨機變量,被解釋變量為隨機變量C、解釋變量和被解釋變量都為非隨機變量D、解釋變量為隨機變量,被解釋變量為非隨機變量答案:B72.假設你在卷積神經網絡的第一層中有5個卷積核,每個卷積核尺寸為7×7,具有零填充且步幅為1。該層的輸入圖片的維度是224×224×3。那么該層輸出的維度是多少()A、217x217x3B、217x217x8C、218x218x5D、220x220x7答案:C73.RNN不同于其它神經網絡的地方在于(__)。A、實現了記憶功能B、速度快C、精度高D、易于搭建答案:A74.使用似然函數的目的是()。A、求解目標函數B、得到最優數據樣本C、找到最適合數據的參數D、改變目標函數分布答案:C75.matplotlib中的調用堆積折線圖的函數是什么()。A、step()B、stackplot()C、plusplot()D、hist()答案:B76.特征工程的目的是()。A、找到最合適的算法B、得到最好的輸入數據C、減低模型復雜度D、加快計算速度答案:B77.()屬于Spark框架中的可擴展機器學習庫。A、MLibB、GraphXC、StreamingD、SparkSQL答案:A78.如下哪些不是最近鄰分類器的特點()。A、它使用具體的訓練實例進行預測,不必維護源自數據的模型B、分類一個測試樣例開銷很大C、最近鄰分類器基于全局信息進行預測D、可以生產任意形狀的決策邊界答案:C79.以下關于traintestsplit函數的說法正確的是()。A、train_test_split能夠將數據集劃分為訓練集、驗證集和測試集B、train_test_split的輸入只能是一個數組C、train_test_split每次的劃分結果不同,無法解決D、train_test_split函數可以自行決定訓練集和測試集的占比答案:D80.MapReduce對map()函數的返回值進行處理后再返回給reduce()函數的目的是()。A、減少map()函數和reduce()函數之間的數據傳輸B、優化map()函數C、優化reduce()函數D、這一步驟并無必要答案:A81.在Python中,函數()。A、不可以嵌套定義B、不可以嵌套調用C、不可以遞歸調用D、以上答案都不正確答案:D82.a=np.arange(1,13,1).reshape(3,4),np.mean(a,axis=0)的輸出結果是()。A、【【1,2,3,4】,【5,6,7,8】,【9,10,11,12】】B、6.5C、【5,6,7,8】D、【2.5,6.5,10.5】答案:C83.假如使用一個較復雜的回歸模型來擬合樣本數據,使用Ridge回歸,調試正則化參數λ,來降低模型復雜度。若λ較大時,關于偏差(bias)和方差(variance),下列說法正確的是()A、若λ較大時,偏差減小,方差減小B、若λ較大時,偏差減小,方差增大C、若λ較大時,偏差增大,方差減小D、若λ較大時,偏差增大,方差增大答案:C84.Spark中引入RDD概念的目的是()。A、數據存儲B、數據查重C、提升容錯能力D、增強數據一致性答案:C85.正態分布的兩個參數μ與σ,()對應的正態曲線愈趨扁平。A、μ愈大B、μ愈小C、σ愈大D、σ愈小答案:C86.從網絡的原理上來看,結構最復雜的神經網絡是()。A、卷積神經網絡B、長短時記憶神經網絡C、GRUD、BP神經網絡答案:B87.給定訓練樣例集,設法將樣例投影到一條直線上,使得同類樣例的投影點盡可能接近、異類樣例的投影點盡可能遠離,這說的是()算法。A、PCAB、SVMC、K-meansD、LDA答案:D88.Python使用()符號標示注釋。A、&B、*C、#D、//答案:C89.下列選項中,不屬于python特點的是()。A、面向對象;B、運行效率高;C、可移植性;D、免費和開源;答案:B90.Python中用于生成隨機數的模塊是random,以下描述錯誤的是()。A、random.random():生成一個0-1之間的隨機浮點數B、random.uniform(a,b):生成【a,b】之間的浮點數C、random.randint(a,b):生成【a,b】之間的整數D、random.choice(sequence):隨機生成任意一個整數答案:D91.Spark那個組件用于支持實時計算需求()。A、SparkSQLB、SparkStreamingC、SparkGraphXD、SparkMLLib答案:B92.以下選項中,不屬于函數的作用的是()。A、提高代碼執行速度B、降低編程復雜度C、增強代碼可讀性D、復用代碼答案:A93.目前,多數NoSQL數據庫是針對特定應用場景研發出來的,其設計遵循()原則,更加強調讀寫效率、數據容量以及系統可擴展性。A、EASY原則B、READ原則C、BASE原則D、BASIC原則答案:C94.以下代碼的輸出結果為()。ImportnumpyasnpA=np.array(【【10,7,4】,【3,2,1】】)Print(np.percentile(a,50))A、【【1074】【321】】B、3.5C、【】D、【7.2.】答案:B95.a=np.array(【1,0,0,3,4,5,0,8】),b=np.nonzero(a)B【0】的值為()。A、【0,3,4,5,7】B、【1,3,4,5,8】C、【03457】D、【13458】答案:A96.以下說法正確的是()。A、散點圖不能在子圖中繪制B、散點圖的x軸刻度必須為數值C、折線圖可以用作查看特征間的趨勢關系D、箱線圖可以用來查看特征間的相關關系答案:C97.繪圖是如何為項目設置matplotlib參數()。A、rc()B、sci()C、axes()D、sca()答案:A98.對模型進行交叉驗證可以使用以下哪種方法()。A、learning_curve()B、cross_val_score()C、permutation_test_scoreD、validation()答案:B99.關聯規則的評價指標是()。A、均方誤差、均方根誤差B、Kappa統計、顯著性檢驗C、支持度、置信度D、平均絕對誤差、相對誤差答案:C100.數據探索是指針對目標可變、持續、多角度的搜索或分析任務,下列哪項不是其搜索過程的特點()。A、有選擇B、有策略C、有目標D、反復進行的答案:C101.scipy庫中用于物理和數學常量計算的模塊是()。A、scipy.clusterB、scipy.ioC、scipy.constantsD、scipy.linalg答案:C102.所有預測模型在廣義上都可稱為一個或一組()。A、公式B、邏輯C、命題D、規則答案:D103.關于eval函數,以下選項中描述錯誤的是().A、eval函數的作用是將輸入的字符串轉為Python語句,并執行該語句B、如果用戶希望輸入一個數字,并用程序對這個數字進行計算,可以采用eval(input(<輸入提示字符串>))組合C、執行eval("Hello")和執行eval("'Hello'")得到相同的結果|eval函數的定義為:eval(source,globals=None,locals=None,/)D、eval函數的定義為:eval(source,globals=None,locals=None,/)答案:C104.哪種聚類方法采用概率模型來表達聚類()。A、K-meansB、LVQC、DBSCAND、高斯混合聚類答案:D105.學習率對機器學習模型結果會產生影響,通常我希望學習率()。A、越小越好B、越大越好C、較小而迭代次數較多D、較大而迭代次數較小答案:C106.Python中定義私有屬性的方法是()。A、使用private關鍵字B、使用public關鍵字C、使用__XX__定義屬性名D、使用__XX定義屬性名答案:D107.關于PythonNumpy,Scipy,Pandas這些庫的區別描述不對的是()。A、Numpy是以矩陣為基礎的數學計算模塊,純數學B、Scipy基于Numpy,科學計算庫,有一些高階抽象和物理模型C、Pandas提供了一套名為DataFrame的數據結構D、三個模塊分別獨立答案:D108.下列關于數據轉換,正確的是()。A、json內的取值只能有統一格式B、pdf文件在不同平臺上打開顯示不同C、可以通過python將csv文件轉換成Excel格式D、excel存儲數據的量無限制答案:C109.關于隊列的描述中,以下描述正確的是()。A、在隊列中只能刪除數據B、隊列是先進后出的線性表C、在隊列中只能插入數據D、隊列是先進先出的線性表答案:D110.下面if語句統計“成績(score)優秀的男生以及不及格的男生”的人數,正確的語句為()。A、If(gender==”男”andscore<60orscore>=90):n+=1B、If(gender==”男”andscore<60andscore>=90):n+=1C、If(gender==”男”and(score<60orscore>=90)):n+=1D、If(gender==”男”orscore<60orscore>=90):n+=1答案:C111.MapReduce里面的query、sort和limit等都是針對哪個階段的操作?A、Map()之前;B、Reduce()之前;C、Reduce()之后;D、finalize()之后;答案:A112.大數據平臺構建分布式文件系統、分布式數據倉庫、非關系型數據庫、關系型數據庫,實現各類數據的集中存儲與統一管理,滿足()存儲需求。A、歷史數據B、離線數據C、實時數據D、多樣化數據答案:D113.關于數據創新,下列說法正確的是()。A、個數據集的總和價值等于單個數據集價值相加B、于數據的再利用,數據應該永久保存下去C、同數據多次用于相同或類似用途,其有效性會降低D、數據開放價值可以得到真正釋放答案:D114.一個MapReduce程序中的MapTask的個數由什么決定()A、輸入的總文件數B、客戶端程序設置的mapTask的個數C、FileInputFormat.getSplits(JobContextjob)計算出的邏輯切片的數量D、輸入的總文件大小/數據塊大小答案:C115.考慮值集{12243324556826},其四分位數極差是:()A、21B、24C、55D、3答案:A116.機器學習中,基于樣本分布的距離是以下哪一個()A、馬氏距離B、歐式距離C、曼哈頓距離D、閔可夫斯基距離答案:A117.對模型進行超參數優化詳盡搜索指定參數的估計值使用以下哪種方法()。A、ParameterGrid()B、ParameterSampler()C、GridSearchCV()D、RandomizedSearchCV()答案:C118.彩色圖像增強時,()處理可以采用RGB。A、直方圖均衡化B、同態濾波C、加權均值濾波D、中值濾波答案:C119.利用到每個聚類中心和的遠近判斷離群值的方法,可以基于的算法為()。A、K-MeansB、KNNC、SVMD、LinearRegression答案:A120.數據科學項目應遵循一般項目管理的原則和方法,涉及()。A、整體、范圍、時間、成本、質量、溝通、風險、宣傳、消費B、整體、范圍、時間、成本、質量、人力資源、溝通、風險、采購C、整體、范圍、時間、成本、質量、人力資源、運維、采購、宣傳D、整體、范圍、時間、成本、質量、人力資源、采購、宣傳、運維答案:B121.關于數據的存儲結構,以下選項描述正確的是()。A、數據所占的存儲空間量B、存儲在外存中的數據C、數據在計算機中的順序存儲方式D、數據的邏輯結構在計算機中的表示答案:D122.如果python程序中包括零運算,解釋器將在運行時拋出()錯誤信息()。A、NameErrorB、FileNotFoundErrorC、SyntaxErrorDZeroD、ivisionError答案:D123.以P(w)表示詞條w的概率,假設已知P(南京)=0.8,P(市長)=0.6,P(江大橋)=0.4:P(南京市)=0.3,P(長江大橋)=0.5:如果假設前后兩個詞的出現是獨立的,那么分詞結果就是()。A、南京市*長江*大橋B、南京*市長*江大橋C、南京市長*江大橋D、南京市*長江大橋答案:B124.如果一個SVM模型出現欠擬合,那么下列哪種方法能解決這一問題()A、增大懲罰參數C的值B、減小懲罰參數C的值C、減小核系數(gamma參數)答案:A125.np.floor()函數的作用是()。A、計算每個元素的模;B、計算每個元素的符號;C、計算小于每個元素的最大整數值;D、計算每個元素的小數部分;答案:C126.下列關于運算符優先級的說法中,不正確的一個是()。A、運算符按照優先級順序表進行運算B、同一優先級的運算符在表達式中都是按照從左到右的順序進行運算的C、同一優先級的運算符在表達式中都是按照從右到左的順序進行運算的D、括號可以改變運算的優先次序答案:C127.以下關于新舊MapReduceAPI的描述錯誤的是()A、新API放在org.apache.hadoop.mapreduce包中,而舊API則是放在org.apache.hadoop.mapred中B、新API傾向于使用接口方式,而舊API傾向于使用抽象類C、新API使用Configuration,而舊API使用JobConf來傳遞配置信息D、新API可以使用Job對象來提交作業答案:B128.()是指為最小化總體風險,只需在每個樣本上選擇能使特定條件風險最小的類別標記。A、支持向量機B、間隔最大化C、線性分類器D、貝葉斯判定準則答案:D129.大數據是指不用隨機分析法這樣的捷徑,而采用()的方法。A、所有數據B、部分數據C、少量數據D、抽樣數據答案:A130.通常來說,下面哪種方法能夠用來預測連續因變量()A、線性回歸B、邏輯回歸C、線性回歸和邏輯回歸D、以上答案都不正確答案:A131.大數據涌現現象的形式有多種,不屬于大數據涌現的形式()。A、價值涌現B、隱私涌現C、物質涌現D、隱私涌現答案:C132.pyplot.show()函數的作用是()。A、展示圖像B、畫直方圖C、保存圖像D、畫散點圖答案:A133.以下不能創建一個字典的語句是()。A、dict1={}B、dict2={3:5}C、dict3={【1,2,3】:“uestc”}D、dict4={(1,2,3):“uestc”}答案:C134.下列不屬于數據科學開源工具的是()。A、MapReduceB、ERPC、HadoopD、Spark答案:B135.數據銷毀環節的安全技術措施有通過軟件或物理方式保障磁盤中存儲數據的()、不可恢復,如數據銷毀軟件、硬盤消磁機、硬盤粉碎機等。A、暫時隔離B、暫時刪除C、永久刪除D、不作處理答案:C136.執行一個job,如果這個job的輸出路徑已經存在,那么程序會()A、覆蓋這個輸出路徑B、拋出警告,但是能夠繼續執行C、拋出一個異常,然后退出D、創建一個新的輸出路徑答案:C137.如果自變量X和因變量Y之間存在高度的非線性和復雜關系,那么樹模型很可能優于經典回歸方法()。A、正確B、錯誤C、無法確定D、模型效果差別不大答案:A138.探索性分析與驗證性分析的不同點是()。A、探索性分析需要事先假設B、探索性分析比驗證性分析復雜C、探索性分析在前D、驗證性分析在前答案:C139.不屬于判別式模型的是()。A、決策樹B、BP神經網絡C、支持向量機D、貝葉斯答案:D140.在比較模型的擬合效果時,甲、乙、丙三個模型的相關指數R^2的值分別約為0.71、0.85、0.90,則擬合效果較好的模型是()。A、甲B、乙C、丙D、效果一樣答案:C141.以下選項中,不是Python對文件的打開模式的是()。A、w'B、'+'C、'c'D、'r'答案:C142.【i**iforiinrange(3)】運行結果是()。A、【1,1,4】B、【0,1,4】C、【1,2,3】D、(0,1,4)答案:A143.模塊的定義與導入方法錯誤的是()。A、將寫好的python模塊保存為.py模式的文件。拷貝到sys.path對應的文件目錄下,就可以在shell中通過指令導入B、importmodule1【,module2【,...moduleN】】C、frommodnameimportname1【,name2【,...nameN】】D、from*importmodname答案:D144.假如使用邏輯回歸對樣本進行分類,得到訓練樣本的準確率和測試樣本的準確率。現在,在數據中增加一個新的特征,其它特征保持不變。然后重新訓練測試。則下列說法正確的是()。A、訓練樣本準確率一定會降低B、訓練樣本準確率一定增加或保持不變C、測試樣本準確率一定會降低D、測試樣本準確率一定增加或保持不變答案:B145.下列哪個不是RDD的緩存方法()A、persistB、cacheC、MemoryD、以上答案都正確答案:C146.我們建立一個5000個特征,100萬數據的機器學習模型.我們怎么有效地應對這樣的大數據訓練()。A、我們隨機抽取一些樣本,在這些少量樣本之上訓練B、我們可以試用在線機器學習算法C、我們應用PCA算法降維,減少特征數D、以上答案都正確答案:D147.深度學習是當前很熱門的機器學習算法,在深度學習中,涉及到大量的矩陣相乘,現在需要計算三個稠密矩陣A,B,C的乘積ABC,假設三個矩陣的尺寸分別為m?n,n?p,p?q,且m<n<p<q,以下計算順序效率最高的是(__)。A、(AB)CB、AC(B)C、A(BC)D、所有效率都相同答案:A148.BP神經網絡具有很的表示能力,它經常遭遇(),其訓練誤差持續降低,但測試誤差卻可能上升。A、欠擬合B、誤差過大C、誤差過小D、過擬合答案:D149.下列哪些不是目前機器學習所面臨的問題是()。A、測試集的規模B、維度災難C、特征工程D、過擬合答案:A150.a=【【1.,2.,1.】,【1.,2.,1.】】,a+3的值為()。A、【【1,2,1】,【4,5,4】】B、【【4,5,4】,【4,5,4】】C、【【4,5,4】,【1,2,1】】D、以上答案都不正確答案:D151.以下字符串表示plot線條顏色、點的形狀和類型為紅色五角星點短虛線的是()。A、bs-'B、'go-.'C、'r+-.'D、'r*-.'答案:D152.scipy包中()是數值積分例程和微分方程求解。A、integrateB、linglgC、sparseD、special答案:A153.在MapReduce中,以下描述錯誤的有()。A、Worker故障和Master故障的處理方法不相同B、Map和Reduce的處理結果都存儲在本地文件系統C、一個Worker發生故障時,該節點上執行完的Map任務需要再次執行D、MapReduce具有很強的容錯機制答案:B154.對于隨機森林和GBDT,下面說法正確的是()。A、在隨機森林的單個樹中,樹和樹之間是有依賴的,而GBDT中的單個樹之間是沒有依賴的B、這兩個模型都使用隨機特征子集,來生成許多單個的樹C、我們可以并行地生成GBDT單個樹,因為它們之間是沒有依賴的D、GBDT訓練模型的表現總是比隨機森林好答案:B155.()適合連續特征,它假設每個特征對于每個類都符合正態分布。A、GaussianNBB、BernoulliNBC、MultinomialNBD、BaseDiscreteNB答案:A156.scipy.stats.moment函數的作用是()。A、隨機變量的概率密度函數B、隨機變量的累積分布函數C、隨機變量的生存函數D、計算分布的非中心矩答案:D157.下列哪個不屬于常用的文本分類的特征選擇算法()。A、卡方檢驗值B、互信息C、信息增益D、主成分分析答案:D158.下列選項中,()是唯一不在運行時發生的異常。A、ZeroDivisionErrorB、NameErrorC、SyntaxErrorD、KeyError答案:C159.以下哪個統計量可以描述數據的集中程度()。A、極差B、標準差C、極大值D、眾數答案:D160.在數據科學中,通常可以采用()方法有效避免數據加工和數據備份的偏見。A、A/B測試B、訓練集和測試集的劃分C、測試集和驗證集的劃分D、圖靈測試答案:A161.下列選項中,用于關閉文件的方法是()。A、read()B、tell()C、seek()D、close()答案:D162.Numpy中確定隨機數生成種子使用以下哪個函數()。A、np.random()B、np.random.seed()C、np.uniform()D、np.eig()答案:B163.隨機森林是在()上的一個擴展變體。A、BoostingB、AdaBoostC、RFD、Bagging答案:D164.用onehot對某個只有一個屬性的樣本進行編碼,下面可能是編碼結果的是()。A、1010B、1100C、1111D、1000答案:D165.數據科學家可能會同時使用多個算法(模型)進行預測,并且最后把這些算法的結果集成起來進行最后的預測(集成學習),以下對集成學習說法正確的是()。A、單個模型之間具有高相關性B、單個模型之間具有低相關性C、在集成學習中使用“平均權重”而不是“投票”會比較好D、單個模型都是用的一個算法答案:B166.利用函數自動創建數組不包括以下哪個函數()。A、arange()B、ones()C、linspace()D、dtype()答案:D167.數據倉庫的最終目的是()。A、收集業務需求B、建立數據倉庫邏輯模型C、開發數據倉庫的應用分析D、為用戶和業務部門提供決策支持答案:D168.假設一個線性回歸模型完美適合訓練數據(訓練誤差為0),下面那個說法是正確的()。A、測試集誤差一直為0B、測試集誤差可能為0C、測試集誤差不會為0D、以上都不對答案:B169.scipy.stats模塊中對隨機變量進行隨機取值的函數是()。A、rvsB、pdfC、cdfD、sf答案:A170.以下關于代碼規范描述,哪些是錯誤的()。A、類總是使用駝峰格式命名,即所有單詞首字母大寫其余字母小寫。B、除特殊模塊__init__之外,模塊名稱都使用不帶下劃線的小寫字母。C、不要濫用*args和**kwargsD、建議把所有方法都放在一個類中答案:D171.下列核函數特性描述錯誤的是()。A、只要一個對稱函數所對應的核矩陣半正定,就能稱為核函數;B、核函數選擇作為支持向量機的最大變數;C、核函數將影響支持向量機的性能;D、核函數是一種降維模型;答案:D172.下列不是數據科學項目的主要角色()。A、項目發起人B、項目經理C、操作人員D、驗收人員答案:D173.在MapReduce中,為了發現Worker故障,Master周期性進行(__)操作。A、JoinB、PingC、CheckD、Connect答案:B174.若建立一個5000個特征,100萬數據的機器學習模型,則應該怎么有效地應對這樣的大數據訓練()。A、隨機抽取一些樣本,在這些少量樣本之上訓練B、可以試用在線機器學習算法C、應用PCA算法降維,減少特征數D、以上答案都正確答案:D175.KNN最近鄰分類算法的過程()1.計算訓練樣本和測試樣本中每個樣本點的距離(常見的距離度量有歐式距離,馬氏距離等);2.對上面所有的距離值進行排序;3.選前k個最小距離的樣本;4.根據這k個樣本的標簽進行投票,得到最后的分類類別。A、B、C、D、答案:C176.連續不斷地爬取網頁信息,較容易被網站識別,想要實現間隔15s來爬取網頁需要使用以下哪一項指令()。A、timestop(5)B、timesleep(15)C、timestrptime(15)D、timesleep(5)答案:B177.考慮某個具體問題時,你可能只有少量數據來解決這個問題。不過幸運的是你有一個類似問題已經預先訓練好的神經網絡。可以用下面哪種方法來利用這個預先訓練好的網絡()A、把除了最后一層外所有的層都凍住,重新訓練最后一層B、對新數據重新訓練整個模型C、只對最后幾層進行調參(finetune)D、對每一層模型進行評估,選擇其中的少數來用答案:C178.選擇哪一個解作為輸出,將由學習算法的歸納偏好決定,常見的做法是引入()。A、線性回歸B、線性判別分析C、正則化項D、偏置項答案:C179.()的基本想法是適當考慮一部分屬性間的相互依賴信息,從而既不需要進行完全聯合概率計算,又不至于徹底忽略了比較強的屬性依賴關系。A、貝葉斯判定準則B、貝葉斯決策論C、樸素貝葉斯分類器D、半樸素貝葉斯分類器答案:D180.下列關于Python中的函數的說法,正確的是()。A、函數用關鍵字function定義B、函數定義時,函數的主體內容應與定義語句開頭對齊C、polynomial(x=1,2,z=3)的傳遞參數的方法是正確的D、默認參數值可以在傳遞參數時修改答案:D181.Hadoop中partition()函數描述正確的是()。A、分區函數B、特征函數C、算法函數D、排序函數答案:A182.回歸方程判定系數的計算公式R^2=SSR/SST=1-SSE/SST,對判定系數描述錯誤的是()。A、式中的SSE指殘差平方和B、式中的SSR指總離差平方和C、判定系數用來衡量回歸方程的擾合優度D、判定系數R^2等于相關系數的平方答案:B183.把圖像分割問題與圖的最小割(mincut)問題相關聯的方法是()。A、基于圖論的分割方法B、分水嶺算法C、SLIC算法D、基于閾值的方法答案:A184.機器學習中發生過擬合的主要原因不包括()。A、使用過于復雜的模型B、數據噪聲較大C、訓練數據少D、訓練數據充足答案:D185.txt=open(filename)返回的是()。A、變量B、常數C、文件內容D、文件對象答案:D186.np.sort()函數返回的是()。A、已排序的原數組B、排好序的數組拷貝C、原數組D、原數組的拷貝答案:B187..python字體切片時(S【0,10】)下標的取值范圍為()。A、【0,10】B、(0,10)C、【0,10)D、(0,10】答案:C188.MapReduce使用()來記錄不同事件的發生次數。A、日志B、事件觸發器C、狀態列表D、計數器答案:D189.不屬于Mayer-Sch?nbergerV和CukierK.在其著名論著《Bigdata:Arevolutionthatwilltransformhowwelive,work,andthink》中提出了大數據時代統計的思維變革的是()。A、不是隨機樣本,而是全體數據B、不是精確性,而是混雜性C、不是描述性分析,而是預測性分析D、不是因果關系,而是相關關系答案:C190.可分解為偏差、方差與噪聲之和的是()。A、訓練誤差(trainingerror)B、經驗誤差(empiricalerror)C、均方誤差(meansquarederror)D、泛化誤差(generalizationerror)答案:D191.循環神經網絡適合處理什么數據()A、節點數據B、序列數據C、結構化數據D、圖像數據答案:B192.以下輸出的結果正確的是()。ImportnumpyasnpX=np.arange(32).reshape((8,4))Print(x【【-4,-2,-1,-7】】)A、【【16171819】【24252627】【28293031】【4567】】B、【【16171819】【891011】【4567】【28293031】C、【【891011】【4567】】D、error答案:A193.Numpy包中meshgrid函數實現的功能是()。A、數組拆分B、數組乘法C、數組除法D、數組融合答案:D194.后剪枝是先從訓練集生成一顆完整的決策樹,然后()對非葉結點進行考察。A、自上而下B、在劃分前C、禁止分支展開D、自底向上答案:D195.在著名管理學家ThomasH,Davernport在《哈佛商業論壇》上發表的題為《第三代分析學(Analytics3.0)》的經典論文中,Analytics3.0時代是指()。A、商務智能時代B、大數據時代C、數據富足供給時代D、數據智能時代答案:C196.關于混合模型聚類算法的優缺點,下面說法正確的是()。A、當簇只包含少量數據點,或者數據點近似協線性時,混合模型也能很好地處理B、混合模型很難發現不同大小和橢球形狀的簇C、混合模型比K均值或模糊c均值更一般,因為它可以使用各種類型的分布D、混合模型在有噪聲和離群點時不會存在問題答案:C197.ggplot2的核心理念是()。A、繪圖與數據分離B、結構與數據分離C、繪圖與結構分離D、繪圖與數據和結構分離答案:A198.通常,()主要指的是關系數據庫中存儲、計算和管理的數據。A、結構化數據B、海量數據C、半結構化數據D、非結構化數據答案:A199.大數據參考架構的水平軸和垂直軸分別為()。A、信息(活動)價值鏈和信息技術價值鏈B、信息技術價值鏈和信息(活動)價值鏈C、信息交互價值鏈和信息技術價值鏈D、信息(活動)價值鏈和信息交互價值鏈答案:A200.如果在大型數據集上訓練決策樹。為了花費更少的時間來訓練這個模型,下列哪種做法是正確的()A、增加樹的深度B、增加學習率C、減小樹的深度D、減少樹的數量答案:C201.線性回歸的基本假設不包括哪個()。A、隨機誤差項是一個期望值為0的隨機變量B、對于解釋變量的所有觀測值,隨機誤差項有相同的方差C、隨機誤差項彼此相關D、解釋變量是確定性變量不是隨機變量,與隨機誤差項之間相互獨立答案:C202.bootstrap數據是什么意思()。A、有放回地從總共M個特征中抽樣m個特征B、無放回地從總共M個特征中抽樣m個特征C、有放回地從總共N個樣本中抽樣n個樣本D、無放回地從總共N個樣本中抽樣n個樣本答案:C203.以下關于連接數組不正確的是()。A、concatenate連接沿現有軸的數組序列B、stack沿著新的軸加入一系列數組。C、vstack水平堆疊序列中的數組(列方向)D、hstack3D堆疊序列中的數組(行方向)答案:D204.執行以下代碼段Motorcycles=【'honda','yamaha','suzuki'】Motorcycles.append('ducati')Motorcycles.pop(1)Print(motorcycles)時,輸出為()。A、【'honda','yamaha','suzuki'】B、【'yamaha','suzuki','ducati'】C、【'honda','yamaha','suzuki','ducati'】D、【'honda','suzuki','ducati'】答案:D205.以下說法正確的是:()。A、一個機器學習模型,如果有較高準確率,總是說明這個分類器是好的B、如果增加模型復雜度,那么模型的測試錯誤率總是會降低C、如果增加模型復雜度,那么模型的訓練錯誤率總是會降低答案:C206.下面代碼運行后,a,b,c,d四個變量的值,描述錯誤的是()。ImportcopyA=【1,2,3,4,【'a','b'】】B=aC=copy.copy(a)D=copy.deepcopy(a)A.append(5)A【4】.append('c')A、a==【1,2,3,4,【'a','b','c'】,5】B、b==【1,2,3,4,【'a','b','c'】,5】C、c==【1,2,3,4,【'a','b','c'】】D、d==【1,2,3,4,【'a','b',‘c’】】答案:D207.如果規則集R中不存在兩條規則被同一條記錄觸發,則稱規則集R中的規則為()。A、無序規則B、窮舉規則C、互斥規則D、有序規則答案:C208.Hadoop中,Reducer的三個階段是__。A、Shuffle-Sort-ReduceB、Shuffle-Reduce-SortC、Reduce-Shuffle-SortD、Sort-Shuffle-Reduce答案:A209.以下處理能獲得像素級標注的是()。A、圖像分類B、物體檢測C、圖像去噪D、語義分割答案:D210.以下屬于深度學習框架的是(__)。A、TensorflowB、CaffeC、PyTorchD、以上答案都正確答案:D211.sklearn.deposition.PCA()方法的作用是()。A、因子分析B、主成分分析C、稀疏編碼D、唯一編碼答案:B212.使用pivot_table函數制作透視表用以下那個參數設置行分組鍵()。A、indexB、rawC、valuesD、data答案:A213.AUC是衡量()模型優劣的一種評價指標。A、回歸B、分類C、二分類D、聚類答案:C214.一監獄人臉識別準入系統用來識別待進入人員的身份,此系統一共包括識別4種不同的人員:獄警,小偷,送餐員,其他人員。下面哪種學習方法最適合此種應用需求()A、二分類問題B、層次聚類問題C、多分類問題D、回歸問題答案:C215.以下不是開源工具特點的是()。A、免費B、可以直接獲取源代碼C、用戶可以修改源代碼并不加說明用于自己的軟件中D、開源工具一樣具有版權答案:C216.在神經網絡學習中,感知機輸出層中的M-P神經元通常被稱為()。A、閾值邏輯單元B、激活函數C、擠壓函數D、連接函數答案:A217.在python3中以下安裝第三方模塊命令正確的是()。A、pip-installsklearnB、pipinstallsklearnC、pip–upgragesklearnD、pip-isklearn答案:B218.關于數據相關性,以下說法錯誤的是()。A、關性體現了大數據的靈魂B、關性思維實現了從“為什么”到“是什么”的思維轉變C、關性關注事物的因果關系D、關性關注事物的相關關系答案:C219.在TF-IDF算法中,在計算完詞頻與逆文檔頻率后,將二者()后得到最終的結果。A、相加B、相減C、相乘D、相除答案:C220.以下哪個分類方法可以較好地避免樣本的不平衡問題()。A、KNNB、SVMC、BayesD、神經網絡答案:A221.假設我們使用原始的非線性可分版本的Soft-SVM優化目標函數。我們需要做什么來保證得到的模型是線性可分離的()A、C=0B、C=1C、C正無窮大D、C負無窮大答案:C222.下面與Zookeeper類似的框架是()。A、ProtobufB、JavaC、KafkaD、Chubby答案:D223.機器學習中L1正則化和L2正則化的區別是()。A、使用L1可以得到稀疏的權值,使用L2可以得到平滑的權值B、使用L1可以得到平滑的權值,使用L2可以得到平滑的權值C、使用L1可以得到平滑的權值,使用L2可以得到稀疏的權值D、使用L1可以得到稀疏的權值,使用L2可以得到稀疏的權值答案:A224.K折交叉驗證器是以下哪個方法()。A、model_selection.GroupKFold()B、model_selection.GroupShuffleSplit()C、model_selection.KFold()D、model_selection.RepeatedKFold()答案:C225.最早被提出的循環神經網絡門控算法是什么()A、長短期記憶網絡B、門控循環單元網絡C、堆疊循環神經網絡D、雙向循環神經網絡答案:A226.以下關于DNN說法不正確的是(__)。A、層數多B、抽象能力強C、模擬更復雜模型D、廣義上包含CNN,DBN,SVM等答案:D227.Numpy庫的主要功能是()。A、科學計算B、繪圖C、爬取網站數據、提取結構性數據D、機器學習庫答案:A228.以下哪種不是Hive支持的數據類型()A、StructB、IntC、MapD、Long答案:D229.關于HDFS的特征,下列說法錯誤的是()。A、支持超大文件B、基于商用硬件C、流式數據訪問D、低吞吐量答案:D230.使用Numpy讀取csv文件應使用以下哪個函數()。A、save()B、read_csv()C、loadtxt()D、open()答案:C231.關于Python語言的特點,以下選項中描述錯誤的是()。A、Python語言是非開源語言B、Python語言是跨平臺語言C、Python語言是多模型語言D、Python語言是腳本語言答案:A232.構造了一個詞表:{1.小明2.喜歡3.踢4.看5.足球6.籃球7.電影},利用上述詞表的索引號,文檔{小明喜歡踢足球}可以用一個7維向量表示為()。A、【1101001】B、【1111111】C、【1111100】D、【1110100】答案:D233.下列選項中,用于觸發異常的是()。A、tryB、catchC、raiseD、except答案:C234.Numpy不支持以下哪種數據類型()。A、float32B、uint64C、boolD、byte答案:D235.下面哪項不屬于循環神經網絡的輸出模式。(__)A、單輸出B、多輸出C、同步多輸出D、異步多輸出答案:C236.在Hadoop生態系統中,()可以將結構化的數據文件映射成一張數據庫表,并提供簡單的查詢語言。A、PigB、HbaseC、HiveD、MapReduce答案:C237.建立一個詞典【Alex,wants,to,go,play,football,shopping】,下面的句子:Alexwantstogotoplayfootball可以用向量表示為()。A、【1,1,2,1,1,1,0】B、【1,1,2,1,1,1】C、【1,1,1,1,1,1,0】D、【1,1,1,1,1,1,1】答案:A238.Hadoop中biner()函數的功能是()。A、數據排序B、數據標記C、數據分析D、數據合并答案:D239.ZooKeeper的特點描述錯誤的是()。A、復雜性B、自我復制C、順序訪問D、高速讀取答案:A240.()是Scikit-Learn中的支持向量機模塊。A、MinBatchKMeansB、SVCC、LinearRegressionD、Regression答案:B241.變量的不確定性越大,相對應信息熵有什么變化()。A、熵變小B、熵變大C、不變D、以上答案都不正確答案:B242.以下不屬于基于區域的圖像分割方法的是()。A、區域生長法B、分水嶺算法C、大津算法D、基于圖論的分割算法答案:C243.正確導入日期模塊的語句()。A、importdateB、importdatetimeC、importtimeD、importdate_time答案:B244.以下使用其本身可以達成數據透視功能的函數是()。A、groupbyB、transformC、crosstabD、pivot_table答案:D245.下面哪個色彩空間最接近人的視覺系統的特點()。A、RGB空間B、CMY空間C、CMYK空間D、HSI空間答案:D246.matplotlib中的barh函數可以繪制()圖。A、直方圖B、餅圖C、條形圖D、氣泡圖答案:C247.np.linalg.svd()函數可以實現()功能。A、計算協方差矩陣B、實現奇異值分解C、計算方差D、計算均值;答案:B248.下列關于數據科學流程與方法的描述中,錯誤的是()。A、數據科學的基本流程包括數據化、數據加工(DataWrangling或DataMunging)、數據規整化、探索性分析、數據分析與洞見、結果展現以及數據產品的提供B、對于數據形態不符合要求的亂數據,要通過清洗成為規整數據C、數據分析包括描述性分析、診斷性分析、預測性分析和規范性分析D、數據可視化會遇到視覺假象問題,人眼對亮度和顏色的相對判斷容易造成視覺假象答案:B249.下列對于等距離散化和等頻離散化的敘述中,不正確的是()。A、等距離散化是將連續型特征的取值區間均勻的劃分成多個區間段B、等距離散化對數據離群值不敏感C、等頻離散化考慮了區間段中的樣本個數,使每個區間段的樣本數相同D、等頻離散化會將相似的樣本劃分到不同的區間答案:B250.根據數據管理計劃,設計或選擇具體方法實行計劃中的工作內容,屬于數據治理的哪一步()。A、計劃B、執行C、檢查D、改進答案:B251.matplotlib中的legend函數作用是什么()。A、設置標簽文本B、繪制網格線C、標示不同圖形的文本標簽圖例D、設置x軸的數值顯示范圍答案:C252.從數據到智慧的轉換依次遞進過程是()。A、數據、知識、信息、理解、智慧B、數據、信息、理解、知識、智慧C、數據、信息、知識、理解、智慧D、數據、理解、信息、知識、智慧答案:C253.下列不屬于數據科學跨平臺基礎設施和分析工具的是()。A、微軟AzureB、Google云平臺C、阿里云D、Adobephotoshop答案:D254.下面哪個程序負責HDFS數據存儲()A、NameNodeB、JobtrackerC、DatanodeD、secondaryNameNode答案:C255.a=np.arange(24).reshape(2,3,4)的輸出結果為()數據。A、一維B、二維C、三維D、四維答案:C256.如何使用pyplot創建一個新圖()。A、pyplot.figimage()B、pyplot.figure()C、pyplot.figtext()D、pyplot.figlegend()答案:B257.三維以上數組是以()的形式輸出的。A、按行輸出B、按矩陣輸出C、按矩陣列表輸出D、按字符串輸出答案:C258.反轉二維數組arr的行arr=np.arange(9).reshape(3,3)A、arr【::-1】B、arr【::-2】C、arr【::1】D、arr【::0】答案:A259.a=【1,2,3.4,5】,切片時如果要取【2,3.4】,正確的選項是()。A、a【1:4】B、a【-2:】C、a【1:-1】D、a【::2】答案:C260.訓練樣本集S含有天氣、氣溫、人體感受、風力4個指標,已知天氣的熵為0.694,溫度的熵為0.859,人體感受的熵為0.952,風力的熵為0.971,如使用ID3算法,選擇()為樹模型的分界點。A、天氣B、氣溫C、人體感受D、風力答案:A261.以下選項中說法不正確的是()。A、解釋是將源代碼逐條轉換成目標代碼同時逐條運行目標代碼的過程B、編譯是將源代碼轉換成目標代碼的過程C、C語言是靜態語言,Python語言是腳本語言D、靜態語言采用解釋方式執行,腳本語言采用編譯方式執行答案:D262.對MapReduce計算框架中生成的鍵值對的說法正確的是(__)。A、可以有相同的鍵,值必須唯一;B、可以有相同的值,鍵必須唯一;C、可以有相同的鍵,也可以有相同的值;D、鍵和值都必須唯一;答案:C263.長短時記憶神經網絡被設計用來解決什么問題()A、傳統RNN存在的梯度消失/爆炸問題B、傳統RNN計算量大的問題C、傳統RNN速度較慢的問題D、傳統RNN容易過過擬合的問題答案:A264.以下表述正確的是()。A、if語句總是與else成對出現B、if語句總是與elif成對出現C、if語句分支嵌套實現多分支D、if語句只能實現二分支答案:C265.df.tail()這個函數是用來()。A、用來創建數據B、用來展現數據C、用來分析數據D、用來刪除數據答案:B266.geoplot是()庫和()庫的擴展。A、cartopy和seabornB、seaborn和matplotlibC、cartopy和matplotlibD、matplotlib和ggplot2答案:C267.下列關于聚類挖掘技術的說法中,錯誤的是()。A、不預先設定數據歸類類目,完全根據數據本身性質將數據聚合成不同類別B、要求同類數據的內容相似度盡可能小C、要求不同類數據的內容相似度盡可能小D、與分類挖掘技術相似的是,都是要對數據進行分類處理答案:B268.()是指具有體量大、來源多樣、生成極快、且多變等特征并且難以用傳統數據體系機構有效處理的包含大量數據集的數據。A、海量數據B、大數據C、厚數據D、異構數據答案:B269.以下哪一個不是長短時記憶神經網絡三個門中中的一個門()A、輸入門B、輸出門C、遺忘門D、進化門答案:D270.下列關于計算機存儲容量單位的說法中,錯誤的是()。A、1KB<1MB<1GBB、基本單位是字節(Byte)C、一個漢字需要一個字節的存儲空間D、一個字節能夠容納一個英文字符答案:C271.由于不同類別的關鍵詞對排序的貢獻不同,檢索算法一般把查詢關鍵詞分為幾類,以下哪一類不屬于此關鍵詞類型的是()。A、引用詞B、普通關鍵詞C、高頻詞匯D、擴展關鍵詞答案:C272.采樣分析的精確性隨著采樣隨機性的增加而(),但與樣本數量的增加關系不大。A、降低B、不變C、提高D、無關答案:C273.scipy.stats模塊中累積分布的反函數是()。A、pdfB、ppfC、rvsD、sf答案:B274.()不僅可用于多層前饋神經網絡,還可用于其他類型的神經網絡。A、感知機B、神經元C、神經系統D、誤差逆傳播答案:D275.中心極限定理是噪聲抑制的中的統計原理,其內容是:均值分布總會收斂于一個()。A、正態分布B、泊松分布C、多項式分布D、均值分布答案:A276.Hadoop默認對3個副本的存放策略是()A、第一個副本存放在client所在的datanode中——》第二個副本存放在與第一個副本不同機架的隨機datanode中——》第三個副本存放在與第二個副本同機架的不同datanode中;B、第一個副本存放在client所在的datanode中——》第二個副本存放在與第一個副本同機架的不同datanode中——》第三個副本存放在與第一個副本不同機架的隨機datanode中;C、第一個副本存放在隨機datanode中——》第二個副本存放在與第一個副本同機架的不同datanode中——》第三個副本存放在與第一個副本不同機架的隨機datanode中;D、第一個副本存放在隨機datanode中——》第二個副本存放在與第一個副本不同機架的隨機datanode中——》第三個副本存放在與第一個副本同機架的不同datanode中;答案:A277.視覺通道表現力評價指標不包括()。A、精確性B、可辨認性C、可分離性D、可轉換性答案:D278.pyplot.title()的作用是()。A、繪制垂直線B、為圖設置標題C、為圖添加文本D、繪制互相關答案:B279.TF-IDF中的TF是指()。A、某個詞在文檔中出現的次數B、文章的總次數C、某個詞在文檔中出現的次數/文章的總次數D、以上答案都不正確答案:C280.plt.plot()函數的功能是()。A、展現變量的趨勢變化B、尋找變量之間的關系C、設置x軸的數值顯示范圍D、設置x軸的標簽文本答案:A281.下列哪一種架構有反饋連接(__)。A、循環神經網絡B、卷積神經網絡C、受限玻爾茲曼機D、都不是答案:A282.以下選項中Python用于異常處理結構中用來捕獲特定類型的異常的保留字是()。A、exceptB、doC、passD、while答案:A283.執行以下代碼段Print(bool('False'))Print(bool())時,輸出為()。A、TrueTrueB、TrueFalseC、FalseTrueD、FalseFalse答案:B284.關于random.uniform(a,b)的作用描述,以下選項中正確的是()。A、生成一個均值為a,方差為b的正態分布B、生成一個(a,b)之間的隨機數C、生成一個【a,b】之間的隨機整數D、生成一個【a,b】之間的隨機小數答案:D285.在MapReduce中,以下描述中錯誤的是()。A、經過map()函數的計算可以得出一個中間數據集B、map()函數是確定的,用戶不可自定義C、對map()函數的返回值,進行一定的處理后才進入下個階段D、map()函數的輸入輸出都是同一數據結構答案:B286.假定你現在訓練了一個線性SVM并推斷出這個模型出現了欠擬合現象,在下一次訓練時,應該采取下列什么措施()A、增加數據點B、減少數據點C、增加特征D、減少特征答案:C287.()算法是一種最有影響的挖掘關聯規則頻繁項目集的算法。A、FP-growthB、EClatC、聚類D、Apdori答案:D288.以下哪種方法不屬于特征選擇的標準方法:()。A、嵌入B、過濾C、包裝D、抽樣答案:D289.在一個簡單的線性回歸模型中(只有一個變量),如果將輸入變量改變一個單位(增加或減少),那么輸出將改變多少()A、一個單位B、不變C、截距D、回歸模型的尺度因子答案:D290.下列關于文本分類的說法不正確的是()A、文本分類是指按照預先定義的主題類別,由計算機自動地為文檔集合中的每個文檔確定一個類別B、文本分類大致可分為基于知識工程的分類系統和基于機器學習的分類系統C、文本的向量形式一般基于詞袋模型構建,該模型考慮了文本詞語的行文順序D、構建文本的向量形式可以歸結為文本的特征選擇與特征權重計算兩個步驟答案:C291.語句np.random.randn(5,4)的運算結果是()。A、生成一個5行4列的隨機矩陣B、將矩陣的第5行第4列改成一個隨機值C、將矩

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論