大數據開發基礎(習題卷31)_第1頁
大數據開發基礎(習題卷31)_第2頁
大數據開發基礎(習題卷31)_第3頁
大數據開發基礎(習題卷31)_第4頁
大數據開發基礎(習題卷31)_第5頁
已閱讀5頁,還剩61頁未讀, 繼續免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

試卷科目:大數據開發基礎大數據開發基礎(習題卷31)PAGE"pagenumber"pagenumber/SECTIONPAGES"numberofpages"numberofpages大數據開發基礎第1部分:單項選擇題,共144題,每題只有一個正確答案,多選或少選均不得分。[單選題]1.反演歸結(消解)證明定理時,若當前歸結式是()時,則定理得證。A)永真式B)包孕式(subsumed)C)空子句[單選題]2.若變量x的值為987,則表達式x//10%10的值為?A)0B)9C)8D)7[單選題]3.關于FusionInsightHDStreaming的Supervisor描述正確的是?A)Supervisor是在Topology中接受數據然后執行處理的組件B)Supervisor負責接受Nimbus分配的任務,啟動和停止屬于自己管理的Worker進程C)Supervisor負責資源分配和任務調度D)Supervisor是運行具體處理邏輯的過程[單選題]4.若arr=np.array([1,2,3]),且arr1=np.array([2,4,6])print(arrA)TRUEB)FALSEC)[Ture,Ture,Ture]D)([Ture,Ture,Ture])[單選題]5.下面哪個不屬于matplotlib基本圖表包含的元素A)坐標軸B)刻度C)刻度標簽D)參考區域[單選題]6.python語句?f=lambdax,y:x*y;f(12,34)?的程序運行結果是。()A)12B)22C)56D)408[單選題]7.Kafka集群必須依賴于下列哪一個組件?A),HDFSB)YarnC)FlumeD)Zookeeper[單選題]8.如果想把一個字符串全部轉為小寫使用字符串方法A)countB)replaceC)lowerD)upper[單選題]9.假設您已在數據集上擬合了一個復雜的回歸模型?,F在,您正在使用Ridge回歸,并調整參數λ以減少其復雜性。下面的描述哪個表達了偏差和方差與λ的關系()。A)在λ非常小的情況下,偏差低,方差低B)在λ非常小的情況下,偏差低,方差高C)在λ非常小的情況下,偏差高,方差低D)在λ非常小的情況下,偏差低,方差低[單選題]10.如果在大型數據集上訓練決策樹。為了花費更少的時間來訓練這個模型,下列哪種做法是正確的()A)增加樹的深度B)增加學習率C)減小樹的深度D)減少樹的數量[單選題]11.()不屬于C盯模型對于HMM和MEMM模型的優勢A)特征靈活B)速度快C)可容納較多上下文信息D)全局最優[單選題]12.以下現象不能直接通過低通濾波器解決的是()。A)低分辨率文本圖像中出現的字符斷裂問題B)指紋圖像中的去污染問題C)人臉圖像中需要?美容?的去皺紋問題D)遙感圖像中的掃描線濾除問題[單選題]13.在加強數據安全技術保護方面,要注意落實數據安全技術保護與信息系統的?三同步?原則,其中不包括()。A)同步規劃B)同步建設C)同步使用D)同步檢查[單選題]14.Oracle數據庫中,數據字典表和視圖存儲在()A)USERS表B)SYSTEM表空間C)TEMPORARY表空間D)ORACLE表空間[單選題]15.邏輯域構建了協議、()、數據等組成的信息活動域。A)附件B)網絡C)軟件D)硬件[單選題]16.開發人員在使用大數據計算服務的圖計算時,主要的輸入數據在表中,另外還有一些非結構化的配置信息存在一個本地文件中,則可以采用()方式使得這些配置信息在圖計算過程中可用。A)將這個配置信息做為resource上傳到大數據計算服務中,在圖計算過程中可以讀取resource中的數據B)輸入輸出只能是Table,必須要把這部分數據放到表中C)在group程序中直接讀取本地的文件信息D)輸入只能是一張表,因此無法滿足這個場景[單選題]17.下列關于HDFS的副本機制的說法哪一個是不正確的?A)第一個副本放置在上傳文件的NameNode上;B)第二個副本放置在與第一個副本不同的機架的節點上;C)第三個副本放置在第二副本相同機架的不同節點上;D)默認配置保存三個副本[單選題]18.SparkJob默認的調度模式(___)A)隨機B)FAIRC)FIFOD)運行時指定[單選題]19.接受者操作特征曲線簡稱(__)。A)雙曲線B)ROC曲線C)科克曲線D)共軛曲線[單選題]20.我們建立一個5000個特征,100萬數據的機器學習模型。我們怎么有效地應對這樣的大數據訓練()。A)我們隨機抽取一些樣本,在這些少量樣本之上訓練B)我們可以試用在線機器學習算法C)我們應用PCA算法降維,減少特征數D)以上答案都正確[單選題]21.隨機森林中的隨機是指(A)隨便構建樹模B)隨機選擇一個樹模型C)隨機選擇多個樹模型D)在構建每個樹模型時隨機選擇樣本和特征[單選題]22.OTS的單個表可以包括:()個屬性列。A)0-128個B)0-1024個C)無限制D)0-256個[單選題]23.下列選項中,關于duplicated()方法描述正確的是()。A)duplicate()方法用于刪除重復值B)duplicate()方法用于標記重復值C)duplicate()方法會改變原始數據D)duplicate()方法會將重復的數據標記為False[單選題]24.某項目小組接到一個大數據實時分析項目,且對實時性要求很高。請問以下哪種大數據計算框架最合適?A)FlinkB)MapReduceC)HBaseD)Spark[單選題]25.計數器是用來記錄()的執行進度和狀態的A)mapperB)reducerC)partitionerD)job[單選題]26.F1參數(),說明模型越穩定。A)越小B)越大C)越趨近于某一特定值D)F1參數和模型穩定性沒有關系[單選題]27.執行以下代碼段alien_1={'color':'green','points':5}alien_2={'color':'blue','points':1}print(alien_1<alien_2)時,輸出為()。A)TrueB)FalseC)ErrorD)None[單選題]28.當Mapper輸出的相同partition的kv數據到達一個Reducer后,會有一個聚合的過程,即將?相同?key的kv聚合到一起,其實質是利用來對key進行比較。A)GroupingComparatorB)ComparatorC)PartitionerD)GroupingPartitioner[單選題]29.下列關于數據倉庫隨時間變化的描述不正確的是()。A)數據倉庫隨時間的變化不斷增加新的數據內容B)捕捉到的新數據會覆蓋原來的快照C)數據倉庫隨時間變化不斷刪去舊的數據內容D)數據倉庫中包含大量的綜合數據,這些綜合數據會隨著時間的變化不斷地進行重新綜合[單選題]30.getPartition()的參數中numReduceTasks指的是設置的Reducer的任務數量,默認值是()。A)0B)1C)2D)3[單選題]31.假設precision=TP/(TP+FP),recall=TP/(TP+FN),則在二分類問題中,當測試集的正例和負例數量不均衡時,以下評價方案中()是相對不合理的。A)Accuracy:(TP+TN)/allB)F-value:2recallprecision/(recall+precision)C)G-mean:sqrt(precision*recall)D)AUC:曲線下面積[單選題]32.在某神經網絡的隱層輸出中,包含-1.5,那么該神經網絡采用的激活函數不可能是A)sigmoidB)tanhC)reluD)A,B,C[單選題]33.下列哪項關于模型能力(modelcapacity)的描述是正確的?(指模型能近似復雜函數的能力)A)隱層層數增加,模型能力增加B)Dropout的比例增加,模型能力增加C)學習率增加,模型能力增加D)都不正確[單選題]34.以下說法中:①一個機器學習模型,如果有較高準確率,總是說明這個分類器是好的;②如果增加模型復雜度,那么模型的測試錯誤率總是會降低;③如果增加模型復雜度,那么模型的訓練錯誤率總是會降低,正確的是()A)1B)2C)3D)1,3[單選題]35.閱讀下面的程序:li_one=[2,1,5,6]print(sorted(li_one[:2]))運行程序,輸出結果是()。A)[1,2]B)[2,1]C)[1,2,5,6]D)[6,5,2,1][單選題]36.代碼print(0.1+0.2==0.3)的輸出結果是()。A)TrueB)FalseC)trueD)false[單選題]37.Spark核心層主要關注()問題。A)存儲B)計算C)傳輸D)連接[單選題]38.以下代碼的結果是foriinrange(5,10,2):print(i)A)輸出5678910(換行)B)輸出57910(換行)C)輸出579(換行)D)輸出6810(換行)[單選題]39.IBMCloud為我們提供的是以下哪種服務?A)SaaSB)PaaSC)IaaSD)DaaS[單選題]40.什么是大數據使用的最可靠方法?A)大數據源B)樣本數據源C)規模大D)大數據與樣本數據結合[單選題]41.下面關于數據粒度的描述不正確的是:A)粒度是指數據倉庫小數據單元的詳細程度和級別B)數據越詳細,粒度就越小,級別也就越高C)數據綜合度越高,粒度也就越大,級別也就越高D)粒度的具體劃分將直接影響數據倉庫中的數據量以及查詢質量[單選題]42.將閔可夫斯基距離和(__)結合即可處理混合屬性。A)ValueDifferenceMectricB)k-meansC)k近鄰D)SVM[單選題]43.下面描述錯誤的是:()A)數據挖掘的目標明確,先做假設,然后通過數據分析來驗證假設是否正確,從而得到相應的結論B)數據挖掘的重點在尋找未知的模式與規律C)數據分析一般都是得到一個指標統計量結果,如總和、平均值等D)數據挖掘則是輸出模型或規則,并且可相應得到模型得分或標簽[單選題]44.()是指針對用戶非常明確的數據查詢和處理任務,以高性能和高吞吐量的方式實現大眾化的服務,是數據價值最重要也是最直接的發現方式。A)數據服務B)數據分析C)數據治理D)數據應用[單選題]45.圖像中虛假輪廓的出現就其本質而言是()。A)圖像的灰度級數不夠多而造成的B)圖像的空間分辨率不夠高而造成的C)圖像的灰度級數過多而造成的D)圖像的空間分辨率過高而造成的[單選題]46.以下可以創建外鍵約束的表是()。--A)MyISAM表B)InnoDB表C)MEMORY表D)以上答案全部正確[單選題]47.下面if語句統計?成績(score)優秀的男生以及不及格的男生?的人數,正確的語句為。()A)If(gender==?男?andscore=90):n+=1B)If(gender==?男?andscore=90):n+=1C)If(gender==?男?and(score=90)):n+=1D)If(gender==?男?orscore=90):n+=1[單選題]48.選項()可以令下面的代碼輸出結果為Truea=foo(2)b=foo(3)print(a<b)A)classfoo:def__init__(self,x):self.x=xdef__lt__(self,other):ifself.x<other.x:returnFalseelse:returnTrueB)classfoo:def__init__(self,x):self.x=xdef__less__(self,other):ifself.x>other.x:returnFalseelse:returnTrueC)classfoo:def__init__(self,x):self.x=xdef__lt__(self,other):ifself.x<other.x:returnTrueelse:returnFalseD)classfoo:def__init__(self,x):self.x=xdef__less__(self,other):ifself.x<other.x:returnFalseelse:returnTrue[單選題]49.OGG是一種基于日志的結構化數據()軟件。A)存儲B)查詢C)復制D)更新[單選題]50.下列關于eval()函數的描述錯誤的是()。A)eval()函數的作用是將輸入的字符串轉為Python語句,并執行該語句B)如果用戶希望輸入一個數字,并用程序對這個數字進行計算,可以采用eval(input(<輸入提示字符串>))組合C)執行eval("Hello")和執行eval("'Hello'")得到相同的結果D)eval()函數的定義為:eval(source,globals=None,locals=None,/)249[單選題]51.當使用的Hive是2.x之后的版本時,那么就必須手動初始化元數據庫。若是我們使用Hive默認的dB、類型?derby?,那么我們應該使用()命令進行初始化。A)schematool‐dbTypederby‐initSchemaB)schematool‐Typederby‐initSchemaC)schema‐dbTypederby‐initSchemaD)schema‐Typederby‐initSchema[單選題]52.下面關于ID3算法中說法錯誤的是A)ID3算法要求特征必須離散化B)信息增益可以用熵,而不是GINI系數來計算C)選取信息增益最大的特征,作為樹的根節點D)ID3算法是一個二叉樹模型[單選題]53.不屬于數據脫敏的要求的是()。A)雙向性B)單向性C)無殘留D)易于實現[單選題]54.Numpy中使用不同類型的數組進行操作時,結果數組的類型會進行()。A)向下轉換B)向上轉換C)不進行轉換D)無法計算[單選題]55.執行如下代碼:importtimeprint(time.time())以下選項中描述錯誤的是A)time庫是Python的標準庫B)可使用time.ctime(),顯示為更可讀的形式C)time.sleep(5)推遲調用線程的運行,單位為毫秒D)輸出自1970年1月1日00:00:00AM以來的秒數[單選題]56.下列選項中適合MapReduce的場景有?A)實時交互計算B)迭代計算C)流式計算D)離線計算[單選題]57.A為ADS中的普通表,a為A的分區列,類型為bigint,b為A中的普通列,類型為bigint,請判斷以下相關SQL中()語法是錯誤的。A)SELECTaFROMAORDERBYaLIMIT100B)SELECTa+b,count(a)FROMAgroupbya+bORDERBYaC)SELECTa,bFROMAORDERBYa+bLIMIT100D)SELECTa,count(a)FROMAgroupbyaORDERBYa[單選題]58.np.full_like()的作用是(__)。A)創建形狀一樣但指定數值的矩陣B)創建全1矩陣C)創建對角矩陣D)復制矩陣[單選題]59.在其他條件不變的前提下,()容易引起機器學習中的過擬合問題。A)增加訓練集量B)減少神經網絡隱藏層節點數C)刪除稀疏的特征D)SVM算法中使用高斯核/RBF核代替線性核[單選題]60.(__)中基學習器的多樣性不僅來自樣本擾動,還來自屬性擾動。A)AdaBoostB)RFC)BaggingD)傳統決策樹[單選題]61.下列說法中正確的是()A)對于大數據而言,最基本、最重要的要求是減少錯誤、保障質量。因此大數據的搜集要盡量精確。B)谷歌流感趨勢充分體現了數據重組和擴展對數據價值的重要意義。C)大數據時代,數據就是一座金礦,而大數據思維是打開這座礦山的鑰匙。D)大數據時代還是看重因果關系。[單選題]62.當(__)過高,會出現過擬合現象A)偏差B)方差C)噪聲D)泛化誤差[單選題]63.推薦系統為客戶推薦商品,自動完成個性化選擇商品的過程,滿足客戶的個性化需求,推薦基于網站最熱賣商品、客戶所處城市、(),推測客戶將來可能的購買行為。A)客戶的朋友B)客戶的個人信息C)客戶的興趣愛好D)客戶過去的購買行為和購買記錄[單選題]64.后剪枝是先從訓練集生成一顆完整的決策樹,然后()對非葉結點進行考察。A)自上而下B)在劃分前C)禁止分支展開D)自底向上[單選題]65.SQL語法中內部關聯的關鍵字是()A)INNERJOINB)LEFTJOINC)FULLJOIND)CROSSJOIN[單選題]66.首先根據需要設計一個調色板,進而將灰度值作為調色板的索引值完成從灰度到彩色的映射。這種偽方法稱為A)基于灰級窗的偽彩色方法B)基于灰度調色板的偽彩色方法C)基于灰度變換的偽彩色方法D)基于區域分割的偽彩色方法[單選題]67.執行以下代碼段requested_toppings=['mushrooms','greenpeppers','extracheese']forrequested_toppinginrequested_toppings:print("Adding"+requested_topping+".")時,輸出為()。A)Addingmushrooms.Addinggreenpeppers.Addingextracheese.B)Addingmushrooms.C)Addinggreenpeppers.D)Addingextracheese.[單選題]68.使用Pig語句查詢一張名為tmp_table的表的前50行,下列語句正確的是()。A)SELECT*FROMtmp_tableLIMIT50;B)tmp_table_limit=LIMITtmp_table50;DUMPtmp_table_limit;C)DUMPtmp_tableLIMIT50D)DUMPtmp_tableLIMIT=50;[單選題]69.關于泛在電力物聯網特征的描述,不正確的選項是()。A)狀態全面感知B)信息高效處理C)應用便捷靈活D)客戶多種多樣[單選題]70.基本元數據是指()。A)基本元數據是與數據源、數據倉庫、數據集市和應用程序等結構相關的信息B)基本元數據包括與企業相關的管理方面的數據和信息C)基本元數據包括日志文件和簡歷執行處理的時序調度信息D)基本元數據包括關于裴載和更新處理、分析處理以及管理方面的信息[單選題]71.加強無線終端和移動應用數據安全保護,保證無線終端的用戶信息安全,實現個人和公司業務(),重要業務數據存儲加密、傳輸加密等安全防護。A)數據共享B)數據隔離C)數據合并D)數據交換[單選題]72.()不僅可用于多層前饋神經網絡,還可用于其他類型的神經網絡A)感知機B)神經元C)神經系統D)誤差逆傳播[單選題]73.下面哪個屬于映射數據到新的空間的方法?A)傅立葉變換B)特征加權C)漸進抽樣D)維歸約[單選題]74.關于HBase建表語句,以下描述中錯誤的是哪一項?A)在華為云MRS提供的HBaseshel‖客戶端中建表時,需指定至少一個列族名稱B)利用HBasef的)avaAPIE時,需要用put語句完成建表C)在HBaseshell客戶端中可以通過create命令建表D)在建表時可以預先創建多個Region[單選題]75.SparkJob默認的調度模式()A)FIFOB)FAIRC)無D)運行時指定[單選題]76.可視化中的組件樣式不包括()A)標題B)自適應顯示C)標簽D)軸線[單選題]77.HBase的主HMaster是:()選舉的。A)由RegionServer進行裁決B)HMaster為雙主模式,不需要進行裁決C)通過ZooKeeper進行裁決D)隨機選舉[單選題]78.在模型評估與度量的方法中,(__)以自助采樣法為基礎。A)自助法B)留出法C)交叉驗證法D)錯誤率分析[單選題]79.()提供RESTHTTPAPI來讀寫hdfs。A)AvroB)HttPFSBC)MahoutD)Snappy[單選題]80.在Hadoop中,()是默認的InputFormat類型,它將每行內容作為新值,而將字節偏移量作為key。A)FileInputFormatB)TextInputFormatC)KeyValueTextInputFormatD)CombineTextInputFormat[單選題]81.Maxcompute表T中某列C的數據類型為bigint,需要修改為double,以下()方式可以實現。A)將表T刪掉重建B)ALTERTABLETCOLUMNCRENAMETOCDOUBLE;C)ALTERTABLETDROPCOLUMNC;ALTERTABLETADDCDOUBLE;D)ALTERTABLETCHANGECOLUMNSCBIGINT[單選題]82.RDD操作包括轉換(Transformation)和動作(Action)兩種類型,下列RDD操作屬于動作(Action)類型的是()。A)joinB)mapC)collectD)groupBy[單選題]83.Hadoop平臺中,要查看YARN服務中一個application的信息,通常需要使用什么命令?A)containerB)jarC)application-attemptD)Application[單選題]84.HBase使用get方法讀取數據時,下列哪個選項是需要的?A)Deletedelete=newDelete(rowkey)B)scan.setCaching(1000)C)bytellrowkey=Bytes.toBytes("012005000201")D)List<Put>]putS=newArraylist<Put>0[單選題]85.HBase中數據存儲的文件格式是下面哪-項?A)SequenceFileB)HfileC)TextFileD)HLog[單選題]86.下列關于數據轉換,正確的是()。A)Json內的取值只能有統一格式B)PDF文件在不同平臺上打開顯示不同C)可以通過Python將CSV文件轉換成Excel格式D)Excel存儲數據的量無限制[單選題]87.下列算法中屬于局部處理的是A)灰度線性變換B)二值化C)傅立葉變換D)中值濾波[單選題]88.以下聚合函數求平均數的是()A)COUNTB)MAXC)AVGD)SUM[單選題]89.通過()命令可以顯示當前正在使用的數據庫名稱A)setmysql.cli.print.current.db=true;B)setmysql.cli.print.current.db=false;C)sethive.cli.print.current.db=true;D)sethive.cli.print.current.db=false;[單選題]90.用戶Region和RegionServer之間的路由信息,保存在哪個模塊中?A)MasterB)HDFSC)Meta表D)Zookeeper[單選題]91.按照維度將多個矩陣連接起來應該用哪個函數?A)np.mulB)np.sumC)np.concatenatD)np.mat[單選題]92.數據庫設計中用關系模型表示實體和實體之間的聯系。關系模型的結構是()。A)層次結構B)網狀結構C)封裝結構D)二維表結構[單選題]93.有如下程序:defC2F(c):returnc*9//5+13print(C2F(22))print(C2F(0))程序的輸出結果是()。A)5313B)5213C)3513D)5713[單選題]94.下列選項中適合MapReduce的場景有:()。A)實時交互計算B)迭代計算C)流式計算D)離線計算[單選題]95.現有的很多數據挖掘算法只能處理定量的屬性,因此定量的屬性數據是應用這些算法的前提。請問下面哪種工作流節點可以將一些不具體、模糊的定性數據數值化?(A)規則化B)量化C)標準化D)關聯[單選題]96.在抽樣估計中,隨著樣本容量的增大,樣本統計量接近總體參數的概率就越大,這一性質稱為()A)無偏性B)有效性C)及時性D)一致性[單選題]97.以下()不是加載數據到Maxcompute的合理方法。A)dshipB)tunnelC)DTtaskD)mapreduce[單選題]98.HIVE是由哪家公司發明并貢獻到開源社區的A)GoogleB)FacebookC)twitterD)Amazon[單選題]99.二維圖像可用二維函數表示,下列說法正確地是()。A)表示點的灰度值B)對于模擬圖像來講,是離散函數C)x,y不是平面的二維坐標D)以上說法都不正確[單選題]100.下列對MapReduceVersion1的描述不正確的是()。A)JobTracker負載過重,存在單點故障B)資源管理和計算調度強耦合,其他計算框架難以復用其資源管理C)不同框架對濟源不能全局管理D)MapReduce1.0與MapReduce2.0在客戶端的應用有很大的差別[單選題]101.大數據計算服務存儲到文件系統上時,使用了()的文件格式,降低了無效的磁盤讀取操作。A)列存儲B)文檔存儲C)行存儲D)鍵值對存儲[單選題]102.讓學習器不依賴外界交互、自動地利用未標記樣本來提升學習性能,就是(__)。A)有監督學習B)全監督學習C)無監督學習D)半監督學習[單選題]103.業務系統功能設計需嚴格執行公司信息化和數據資產標準,數據應按()準確錄入和采集,關鍵數據應進行初審和復核,保證數據真實,避免數據缺失A)規定的時間、頻度B)數據類型C)數據大小D)數據重要性[單選題]104.()用于將非線性引人神經網絡,它會將值縮小到較小的范圍內A)損失函數B)優化函數C)激活函數D)目標函數[單選題]105.HBase是哪兩個單詞縮寫A)HadoopDataBaseB)HadoopBasementC)HanaBasementD)HadoopDatastore[單選題]106.我們想在大數據集上訓練決策樹,為了使用較少時間,我們可以A)增加樹的深度B)增加學習率(learningrate)C)減少樹的深度D)減少樹的數量[單選題]107.全鏈路大數據分析流程包括六個步驟,這六個步驟的排列順序是()A)數據匯集à數據源à數據湖à分析挖掘à數據加工à數據可視化B)數據匯集à數據源à分析挖掘à數據湖à數據加工à數據可視化C)數據源à數據匯集à分析挖掘à數據湖à數據加工à數據可視化D)數據源à數據匯集à數據湖à數據加工à分析挖掘à數據可視化[單選題]108.執行后可以查看Python的版本的是A)importsysprint(sys.Version)B)importsystemprint(system.version)C)importsystemprint(system.Version)D)importsysprint(sys.version)[單選題]109.在規劃FusionInsightHD集群時,如果客戶用于功能測試,對性能沒有要求,節約成本的情況下可以采用管理節點、控制節點、數據節點合一部署,最少需要多少節點?A)2B)3C)6D)8[單選題]110.()肯定是寬依賴操作。A)mapB)flatMapC)reduceByKeyD)sample[單選題]111.下面不屬于詞袋模型的缺點的是?A)詞匯表的詞匯需要經過精心設計B)表示具有稀疏性C)丟失詞序忽略了上下文D)模型復雜,不利于實施[單選題]112.TF-IDF模型中TF是指(__)。A)詞頻數B)逆文檔頻率C)詞頻率D)逆文檔頻數[單選題]113.type(1e6)的結果為()。A)<class'int'>B)<class'?oat'>C)<class'complex'>D)<class'bool'>[單選題]114.設置x軸的數值顯示范圍可以用(__)函數。A)plt.plot()B)plt.xlim()C)plt.xlabel()D)plt.show()[單選題]115.Yarn中設置隊里queueA的最大使用資源量,需要配置哪個參數A)yarn.scheduler.capacity.root.Queueuser-limit-factorB)yarn.scheduler.capacity.root.QueueA.minimum-user-limit-percentC)yarn.scheduler.capacity.root.QueueA.stateD)yarn.scheduler.capacity.root.QueueA.maxmum-capacity[單選題]116.第三次信息化浪潮的發生標志是以()技術的普及為標志。A)互聯網B)CPUC)物聯網、云計算和大數據D)個人計算機[單選題]117.在分布式環境系統中,引入()可以防止內存數據就會丟失A)HLogB)HRegionC)ZooKeeperD)Server[單選題]118.卷積神經網絡能通過卷積以及池化等操作將不同種類的鳥歸為一類,下列關于卷積神經網絡能達到該效果的原因的描述不正確的是()。A)同樣模式的內容(如鳥嘴)在圖像不同位置可能出現B)池化之后的圖像主體內容基本不變C)不同種類鳥的相同部位(如鳥嘴)形狀相似D)池化作用能使不同種類鳥變得相似[單選題]119.(__)是指為最小化總體風險,只需在每個樣本上選擇能使特定條件風險最小的類別標記。A)支持向量機B)間隔最大化C)線性分類器D)貝葉斯判定準則[單選題]120.()的主要議題是如何實現和優化機器的自我學習。A)機器學習B)人工智能C)深度學習D)人機共生[單選題]121.下列選項中,存放Hadoop配置文件的目錄是()A)includeB)binC)libexecD)etc[單選題]122.貝葉斯決策的最優分類面是(__)。A)線性的B)非線性的C)不可構造的D)不存在的[單選題]123.給出如下代碼:fname=input("請輸入要打開的文件:")fo=open(fname,"r")forlineinfo.readlines():print(line)fo.close()關于上述代碼的描述,以下選項中錯誤的是A)通過fo.readlines()方法將文件的全部內容讀入一個字典foB)通過fo.readlines()方法將文件的全部內容讀入一個列表foC)上述代碼可以優化為:fname=input("請輸入要打開的文件:")withopen(fname,'r')asf:forlineinf.readlines():print(line)D)用戶輸入文件路徑,以文本文件方式讀入文件內容并逐行打印[單選題]124.()負責MapReduce任務調度。A)NameNodeB)JobtrackerC)TaskTrackerD)SecondaryNameNode[單選題]125.下面關于分析學習描述正確的是(__)。A)分析學習的缺陷在于不完美的領域理論B)分析學習的目標是擬合數據假設C)分析學習通過演繹推理D)分析學習無需先驗知識[單選題]126.在ZooKeeper中有三種角色,下列選項中不屬于ZooKeeper中的角色()A)ObserverB)LeaderC)ObeyerD)Follower[單選題]127.以下關于同步賦值語句描述錯誤的選項是:A)同步賦值能夠使得賦值過程變得更簡潔B)判斷多個單一賦值語句是否相關的方法是看其功能上是否相關或相同C)設x,y表示一個點的坐標,則x=a;y=b兩條語句可以用x,y=a,b一條語句來賦值D)多個無關的單一賦值語句組合成同步賦值語句,會提高程序可讀性[單選題]128.在MaxComputeSQL中,常量定義100BD表示的含義是:()。A)數值為100的DECIMALB)數值為100的BigintC)數值為100的StringD)數值為100的Double[單選題]129.當訓練樣本近似線性可分時,通過(),學習一個()。A)硬間隔,最大化非線性支持向量機B)軟間隔,最大化線性支持向量機C)硬間隔,最大化線性支持向量機D)軟間隔,最大化非線性支持向量機[單選題]130.DLI支持以下()字符碼的數據。A)UTF-8B)ASCIIC)GB2312D)Base64[單選題]131.以下關于公共安全行業專題分析與查詢業務場景描述錯誤的選項是()。A)臨時交互式查詢任務對數據進行精確或者模湖查詢。B)適用標準SQL語句進行查詢,根據查詢結果篩選目標人群,偵動案件。C)數據湖內多個數據源只能單獨訪問再呈現結果。D)原始數據經過批處理后結果寫入到指定的文件目錄,供交互時查詢。[單選題]132.假如我們使用Lasso回歸來擬合數據集,該數據集輸入特征有100個(X1,X2,…,X100)?,F在,我們把其中一個特征值擴大10倍(如特征X1),然后用相同的正則化參數對Lasso回歸進行修正。那么,下列說法正確的是()。A)特征X1很可能被排除在模型之外B)特征X1很可能還包含在模型之中C)無法確定特征X1是否被舍D)以上答案都不正確[單選題]133.下列方法中屬于映射數據到新的空間的是()。A)傅里葉變換B)特征加權C)漸進抽樣D)維歸約[單選題]134.交叉表的橫縱軸區域中,除了行維度、列維度外,另外一個是()A)形狀B)風格C)背景D)指標[單選題]135.子集搜索中,逐漸增加相關特征的策略稱為()A)前向搜索B)后向搜索C)雙向搜索D)不定向搜索[單選題]136.以下關于EasticSearch緩存機制的理解不正確的是()。A)QueryCache:Shard級別的緩存,是對一個查詢中包含的過濾器執行結果進行緩存。B)RequestCache:Shard級別的緩存,是為了緩存?分片級?的本地結果集。C)FielddataCache專門針對分詞的字段在查詢期間的數據結構的緩存。D)緩存主要分三種:QueryCache,FielddataCache,RequestCache。[單選題]137.Hadoop平臺中;要查看YARN服務中一個application的信息;通常需要使用什么命令A)containerB)applicationattermptC)jarD)application[單選題]138.Kafka集群中,Kafka服務端的角色是?A)BrokerB)ConsumerC)ZooKeeperD)Producer[單選題]139.下面組件哪個是數據挖掘庫:()A)ZookeeperB)MahoutC)MySQLD)HBase[單選題]140.關于MapReduce的描述錯誤的是()A)MapReduce框架會先排序map任務的輸出B)通常,作業的輸入輸出都會被存儲在文件系統中C)通常計算節點和存儲節點是同一節點D)一個Task通常會把輸入集切分成若干獨立的數據塊[單選題]141.有關MapReduce,下面哪個說法是正確的()A)它提供了資源管理能力B)它是開源數據倉庫系統,用于查詢和分析存儲在Hadoop中的大型數據集C)它是Hadoop數據處理層D)它是一個理想的數據處理框架,難以實現[單選題]142.關于hive錯誤的是A)數據存儲在HDFS中B)通過類SQL語句快速實現MapReduce統計C)Hive的設計目標為適用于OLTP業務場景D)不提供行級數據更新操作[單選題]143.(__)是一類用圖來表達變量相關關系的概率模型。A)神經元模型B)感知機模型C)概率圖模型D)SVM[單選題]144.(__)是指抽取情感文本中有價值的情感信息,其要判斷一個單詞或詞組在情感表達中扮演的角色,包括情感表達者識別,評價對象識別,情感觀點詞識別等任務。A)情感分類B)情感檢索C)情感抽取D)情感分析第2部分:多項選擇題,共63題,每題至少兩個正確答案,多選或少選均不得分。[多選題]145.DRDS則將整個擴容的過程分為多個階段,包括:()步驟。A)切換數據庫B)增量同步C)全量遷移D)重啟實例[多選題]146.泛在電力物聯網從結構上看,包括了():A)感知層B)網絡層C)平臺層D)應用層[多選題]147.(__)是數據科學的主要理論基礎之一。A)機器學習B)統計學C)數據D)黑客精神與技能[多選題]148.傳統數據密集型行業積極探索和布局大數據應用的表現是()A)投資入股互聯網電商行業B)打通多源跨域數據C)提高分析挖掘能力D)實現科學決策與運營[多選題]149.關于SparkSQL&Hive區別與聯系,下列說法正確的是?A)SparkSQL依賴Hive的元數據B)SparkSQL的執行引擎為Sparkcore,Hive默認執行引擎為MapReduceC)SparkSQL不可以使用Hive的自定義函數D)SparkSQL兼容絕大部分Hive的語法和函數[多選題]150.Hive的自定義函數包括?A)UDAFB)UDCEC)UDTFD)UDE[多選題]151.ETL包含的過程有()。A)數據抽取B)數據轉換C)數據加載D)數據展現[多選題]152.大數據技術在我們身邊應用的越來越廣,以下場景中有哪些場景可以應用大數據技術?A)游戲畫面實時刷新B)廣告精準營銷C)道路智能規劃D)人物國像[多選題]153.以下哪幾項屬于漢語未登錄詞的類型?()A)存在于詞典但出現頻率較少的詞B)新出現的普通詞匯C)專有名詞D)專業名詞和研究領域名稱[多選題]154.以下哪些選項屬子實時檢索的特點?A)處理時間要求不高B)查詢響應要求較高C)高并發D)全文檢索功能[多選題]155.下列關于PCA說法正確的是()?A)在使用PCA之前,我們必須標準化數據B)應該選擇具有最大方差的主成分C)應該選擇具有最小方差的主成分D)可以使用PCA在低維空間中可視化數據[多選題]156.Hadoop集群規模很大時,數據的分布情況會非常關鍵,用戶需要根據數據分布情況,決定集群是否擴容,數據是否需要做負載均衡等,fusionInsight資源分布監控說法正確的是?A)可以幫助用戶快速聚焦在最關鍵的資源消耗上。B)通過每個服務主業的資源分布查看界面,看到關鍵的資源分布情況。C)通過Dashboard界面,可以查看到主機資源分不清哪個礦,例如內存占用率在50-75%的主機列表,并提供鏈接跳轉。D)幫助用戶迅速找到資源消耗最高的點,采取適當的措施。[多選題]157.數據庫信息的運行安全采取的主措施有()。A)備份與恢復B)應急C)風險分析D)審計跟蹤[多選題]158.一家搜索引整公司需要7*24不間斷提供海量用戶的實時查詢請求,這最有可能使用到以下哪些大數據開發組件的組合?A)MapReduceB)ElasticSearchC)HiveD)HBase[多選題]159.以下描述中屬于Analytics2.0的主要特點的是()。A)側重嵌入式分析B)重視非結構化數據的分析C)以決策支持為主要目的D)注重解釋性分析和預測性分析[多選題]160.FusionInasightHD集群中包含了多種服務,沒種服務又由若干個角色組成,下面哪些是服務的角色?*A)HDFSB)NameNodeC)DataNodeD)HBase[多選題]161.GraphBase數據底層可以存儲在哪里?A)HBaseB)MySQLC)HDFSD)ElasticSearch[多選題]162.可以創建一個全零矩陣的是(__)。A)np.zero(10)B)np.empty(10)C)np.zeros(10)D)np.array(10)[多選題]163.以下()場景可以使用MaxcomputeMR實現。A)Web訪問日志分析:分析用戶訪問行為,個性化推薦等B)搜索,比如pagerank、網頁爬取等C)機器學習:監督學習、無監督學習、分類算法等D)廣告推薦:用戶點擊購買行為預測[多選題]164.FusionlnsightHD產品中,關于Kafka組件說法正確的有?A)刪除Topic時,必須確保Kafka的服務配置delete.topic.enable配置為trueB)Kafka安裝及運行日志保存路徑為/srv/Bigdata/kafkaC)ZooKeeper服務不可用會導致Kafka服務不可用D)必須使用admin用戶或者kafkaadmin組用戶進行創建Topic[多選題]165.scipy.optimize模塊可以實現(__)。A)bfgs優化B)最小二乘優化C)knnD)求根算法[多選題]166.下面關于Storm框架設計描述正確的是:()A)Storm運行在分布式集群中,其運行任務的方式與Hadoop類似B)在Hadoop上運行的是MapReduce作業,而在Storm上運行的是?Topology?C)Storm集群采用P2P架構D)Storm采用了Zookeeper來作為分布式協調組件[多選題]167.下列關于RNN、LSTM、GRU的說法正確的有()。A)RNN引入了循環的概念B)LSTM可以防止梯度消失或者爆炸C)GRU是LSTM的變體D)RNN、LSTM、GRU是同一神經網絡的不同說法,沒有區別[多選題]168.實時檢索的解決方案中有哪些組件?A)HBaseB)HadoopC)ElasticSearchD)Hive[多選題]169.國網信通公司及各級網絡安全運行單位負責做好承載重要數據業務系統的安全運營,()。A)規范新媒體開設(關停)的審批流程B)制定電力監控系統數據安全保護方案C)加強技術監控手段,強化對重要數據信息的監測、預警、攔截、審計等技術措施D)編制數據安全相關應急預案并定期演練[多選題]170.基于機器學習的情感分類方法有(__)。A)貝葉斯分類器B)支持向量機C)條件隨機場D)最大熵分類器[多選題]171.在數據科學中,計算模式發生了根本性的變化--從集中式計算、分布式計算、網格計算等傳統計算過渡至云計算,有一定的代表性的是Google云計算三大技術,這三大技術包括()。A)HadoopYARN資源管理器B)GFS分布式存儲系統C)MapReduce分布式處理技術D)BigTable分布式數據庫[多選題]172.在詞袋模型中使用單個的單詞來構建詞向量這樣的序列被稱為()。A)1元組(1-gram)B)單元組(unigram)模型C)列表D)字典[多選題]173.國家電網有限公司數據管理辦法要求將數據管理作為一項長期的持續性工作,加強()等基礎工作,打造可靠的數據基礎。A)數據目錄B)數據盤點C)數據標準D)數據質量[多選題]174.請問以下哪些是導致數據重復的原因()A)數據重復寫入B)數據集成C)數據加工過程中的關聯D)數據壓縮[多選題]175.數據科學基本原則中,蘭世界原則指的是()A)精神世界B)數據世界C)物理世界D)數字世界[多選題]176.Spark適用于以下哪些場景?A)交互式查詢B)實時流處理C)批處理D)圖計算[多選題]177.關于GBDT算法,下列說法正確的是()?A)增加用于分割的最小樣本數量,有助于避免過擬合B)增加用于分割的最小樣本數量,容易造成過擬合C)減小每個基本樹的樣本比例,有助于減小方差D)減小每個基本樹的樣本比例,有助于減小偏差[多選題]178.Linux上Python的安裝包是()。A)Python-3.6.9.tar.xzB)Python-3.6.9.tgzC)python-3.7.4-amd64.exeD)python-3.7.4-macosx10.9.pkg[多選題]179.關于HadoopMapReduce,以下描述中正確的是()。A)reduce()函數的輸入是value集B)reduce()函數將最終結果寫到HDFS系統中C)用戶可以自己定義reduce()函數D)reduce()函數的輸入數據是經過map()函數處理之后的數據[多選題]180.Region分裂時,下列哪些選項會參與?0A)MAsterB)RegionServerC)ZookeeperD)以上全不正確[多選題]181.如果請你在DEEP平臺中,根據既有數據進行未來天氣的預測,將會采用線性回歸模型,將會用到哪幾個數據轉換器?A)NumericCastB)NumAssembleC)ChoiceD)Predict[多選題]182.正則表達式可以用非常靈活的方式來處理字符串,在大數據計算服務SQL中的正則函數支持POSIX格式,以下對正則表達式描述正確的有:()。A)[[:blank::]]匹配空格和TAB制表符B)$匹配行尾C)[[:alnum:]]匹配字母字符和數字字符D)[[:digint:]]匹配數字字符[多選題]183.重復數據產生的原因有()A)人為多次提交B)數據集成時造成重復C)系統自身問題導致重復寫入D)數據加工過程中產生數據重復[多選題]184.觀察樣本次數如何影響過擬合()?注意:所有情況的參數都保持一致。A)觀察次數少,容易發生過擬合B)觀察次數少,不容易發生過擬合C)觀察次數多,容易發生過擬合D)觀察次數多,不容易發生過擬合[多選題]185.下面屬于數據加工的有(__)。A)數據審計B)數據清洗C)數據變換D)數據集成[多選題]186.以下關于數據中心、業務系統訪問權限的說法不正確的有()。A)數據中心、業務系統訪問權限實行匿名制管理B)對數據中心、業務系統權限賬號的登錄時間、時長等實行痕跡管理C)數據中心、業務系統權限賬號供責任人登錄使用,也可借與他人D)數據中心、業務系統權限賬號密碼不超過3天要更換一次[多選題]187.HFile是HBase存儲數據的文件組織形式,由六部分組成,除了數據塊、元數據塊、文件信息塊還包括()【選三項】A)文件尾塊B)數據索引塊C)元數據索引塊D)HFile文件尾[多選題]188.大數據離線批處理場景中常見的數據源包括?A)網頁日志流B)流式數據Socket流C)數據庫D)批量文件數據[多選題]189.主要面向或關注過去的數據分析過程有()。A)描述性分析B)診斷性分析C)預測性分析D)規范性分析[多選題]190.數據集成中需要注意的三個基本問題是()A)數據清洗B)模式集成C)數據冗余D)沖突檢測與消除[多選題]191.商業銀行在選擇數據中心的地理位置時,應充分考慮的環境威脅包括是否接近()A)自然災害多發B)危險或有害設C)繁忙或主要公路D)風景區[多選題]192.下列關于神經網絡描述正確的是(__)。A)我們在機器學習中談論神經網絡是指的是生物學意義上的神經網絡B)神經網絡中最基本的成分是神經元模型C)在MP神經元模型中,神經元接受來自n個其他神經元傳遞過來的信號D)神經元接收到的總輸入值將與神經元的閾值進行比較,然后通過激活函數處理以產生神經元的輸出。[多選題]193.對于大數據計算服務(MaxCompute,原ODPS)內置絕對值函數abs描述正確的有:()。A)當輸入參數是bigint時,返回值是bigint類型B)當輸入參數是string類型時,一定會導致異常C)輸入類型是boolean則返回值是TrueD)當輸入參數是double時,返回值是double類型[多選題]194.在可視化的圖表類型中,柱狀圖包括()A)分區柱狀圖B)堆積柱狀圖C)多系列柱狀圖D)對比柱狀圖[多選題]195.下列關于負荷Python的模塊的說法正確的有()。A)模塊能夠用來有邏輯地組織Python代碼段B)Python擁有豐富的模塊,不支持自定義模塊C)把相關的代碼分配到一個模塊里能讓代碼更好用、更易懂D)模塊能定義函數、類和變量,模塊里也能包含可執行的代碼[多選題]196.()是關鍵詞提取的算法。A)TF-IDFB)TextRankC)LDAD)PCA[多選題]197.以下()屬于數據統計分析工具。A)WekaB)SASC)SPSSD)Matlab[多選題]198.常見的關聯規則挖掘算法包括:()A)MP-Growth算法B)FP-Growth算法C)Apriori算法D)Bpriori算法[多選題]199.Spark組件包含哪兩個算子()。A)MapB)ActionC)TransformationD)Reduce[多選題]200.以下關于Fink的窗口描述正確的是()。A)會話窗口是將數據聚合到會話窗口中,由非活躍的間隙分隔開。B)我們可以每30秒計算一次最近一分鐘用戶購買的商品總數,這個就是時間滑動窗口的應用方式C)窗口可以是時間驅動的也可以是數據驅動的。D)Flink窗口按窗口行為劃分:TumblingWindow.SlidingWindow.SessionWindow。[多選題]201.數據安全不僅包括數據保密性,還包括()。A)完整性B)可用性C)不可否認性D)可審計性[多選題]202.EDA(探索性數據分析)方法與傳統統討學的驗證性分析方法的區別有()。A)EDA需要事先提出假設,而驗證性分析不需要B)EDA中采用的方法往往比驗證性分析簡單C)在一般數據科學項目中,探索性分析在先,驗證性分析在后中D)EDA更為簡單、易學和易用[多選題]203.相對于HadoopMapReduce,Spark的特點有()。A)通用性B)易用性C)速度快D)容錯性[多選題]204.物聯網在物流領域的應用,催生出了許多智能物流方面的應用,以下哪幾項屬于其在智能物流方面的應用A)智能海關B)智能郵政C)智能配送D)智能交通[多選題]205.下面隸屬CNN架構的是:()A)Convolutionallayer+MaxPooling循環數次B)Convolutionallayer重復數次+MaxPooling重復數次C)FlattenD)FullyConnectedFeedforwardnetwork[多選題]206.數據再利用的意義在于()A)挖掘數據的潛在價值B)提高社會效益,優化社會管理C)實現數據重組的創新價值D)優化存儲設備,降低設備成本E)利用數據可拓展性拓寬.業務領域第3部分:判斷題,共42題,請判斷題目是否正確。[判斷題]207.MySQL支持多個字段分組并為每個分組排序。--A)正確B)錯誤[判斷題]208.數據挖掘的主要任務是從數據中發現潛在的規則,從而能更好的完成描述數據、預測數據等任務A)正確B)錯誤[判斷題]209.定義類時實現了__pow__()方法,該類對象即可支持運算符**A)正確B)錯誤[判斷題]210.GES的Edge都是單向邊,如果需要雙向邊,則通過兩條相反方向的單向邊組成。A)正確B)錯誤[判斷題]211.本實驗的數據源包含網站日志數據和數據庫業務數據。A)正確B)錯誤[判斷題]212.HBase可以有列,可以沒有列簇。A)正確B)錯誤[判斷題]213.已知函數定義defdemo(x,y,op):returneval(str(x)+op+str(y)),那么表達式demo(3,5,'+')的值為8。A)正確B)錯誤[判斷題]214.表達式5if5>6else(6if3>2else5)的值為6。A)正確B)錯誤[判斷題]215.大數據的價值重在挖掘,而挖掘就是分析。()A)正確B)錯誤[判斷題]216.在HMM中,如果已知觀察序列和產生觀察序列的狀態序列,那么可以采用極大似然估計直接進行參數估計。()A)正確B)錯誤[判斷題]217.Series與DataFrame還支持eq、ne、lt、gt、le、ge等二進制比較操作的方法,其中大于等于是gt。A)正確B)錯誤[判斷題]218.Series和DataFrame是pandas包中的數據結構,Series像二維數組,DataFrame像表格A)正確B)錯誤[判斷題]219.有監督學習不需要進行數據標注。A)正確B)錯誤[判斷題]220.分布式數據庫是指物理上分散在不同的地點,但在邏輯上是統一的數據庫。因此,分布式數據庫具有物理上的獨立性、邏輯上的一體性、性能上的可擴展性等特點。()A)正確B)錯誤[判斷題]221.Dataworks中,調度任務每次運行前都先將任務實例化,即生成實例,調度運行時實際上在執行相應的實例。按天調度的周期性任務每天生成一個自動調度實例;按00:00至23:59之間每隔一小時執行一次的周期性任務,每天生成24個自動調度實例。A)正確B)錯誤[判斷題]222.Python不允許使用關鍵字作為變量名,允許使用內置函數名作為變量名,但這會改變函數名的含義。A)正確B)錯誤[判斷題]223.一般而言,分布式數據庫是指物理上分散在不同地點,但在邏輯上是統一的數據庫。因此分布式數據庫具有物理上的獨立性、邏輯上的一體性、性能上的可擴展性等特點。A)正確B)錯誤[判斷題]224.數據有多種表現形式,主要是數字化后存入計算機數字和文字,不包括圖形、圖像、聲音和語言等。A)正確B)錯誤[判斷題]225.Graph擅長完成學術論文、專利文獻的引用分析和統計。A)正確B)錯誤[判斷題]226.由于Spark是基于內存的計算引擎,因此,一個Spars應用可以處理的數據量不能超過分給這個Spark應用的內存總和。A)正確B)錯誤[判斷題]227.Combiner組件可以讓Map對Key進行分區,從而可以根據不同的key分發到不同的Reduce中去處理。A)正確B)錯誤[判斷題]228.假設math標準庫已導入,那么表達式eval('mathA)正確B)錯誤[判斷題]229.帶有else子句的異常處理結構,如果不發生異常則執行else子句中的代碼。A)正確B)錯誤[判斷題]230.HBase依賴于Zookeeper完成主備選舉,以及管理root表。A)正確B)錯誤[判斷題]231.UPDATE語句屬于SQL的數據庫定義語言。--A)正確B)錯誤[判斷題]232.分類和回歸都可用于預測,分類的輸出是離散的類別值,而回歸的輸出是連續數值A)正確B)錯誤[判斷題]233.客戶通過網上大數據審貸未通過的,線下也一律不得辦理A)正確B)錯誤[判斷題]234.HBase支持完整的事務機制。A)正確B)錯誤[判斷題]235.實體是指客觀存在并可相互區分的事物。--A)正確B)錯誤[判斷題]236.如果自變量X和因變量Y之間存在高度的非線性和復雜關系,那么樹模型很可能優于經典回歸方法A)正確B)錯誤[判斷題]237.Redis默認支持14個數據庫。A)正確B)錯誤[判斷題]238.在函數內部沒有辦法定義全局變量。A)正確B)錯誤[判斷題]239.BI工具數據集支持添加、刪除字段操作()A)正確B)錯誤[判斷題]240.擴展庫os中的方法remove()可以刪除帶有只讀屬性的文件。A)正確B)錯誤[判斷題]241.JSON數據類型可以保存一個SPU對應的所有SKU信息。--A)正確B)錯誤[判斷題]242.無法使用lambda表達式定義有名字的函數。A)正確B)錯誤[判斷題]243.同時新增多個字段時不能指定字段的位置。--A)正確B)錯誤[判斷題]244.Python中可以使用關鍵字作為變量名。()A)正確B)錯誤[判斷題]245.在一個MapReduce應用程序中,map函數的輸出經由MapReduce框架處理后,發送到reduce函數。這個處理過程是基于鍵值對進行排序和分組的。A)正確B)錯誤[判斷題]246.只可以動態為對象增加數據成員,而不能為對象動態增加成員方法A)正確B)錯誤[判斷題]247.時序預測回歸預測一樣,也是用已知的數據預測未來的值,但這些數據的區別是變量所處時間的不同A)正確B)錯誤[判斷題]248.對文件進行讀寫操作之后必須顯式關閉文件以確保所有內容都得到保存。A)正確B)錯誤第4部分:問答題,共11題,請在空白處填寫正確答案。[問答題]249.創建一個HDFS客戶端對象主要涉及Configuration類和()類。[問答題]250.GES中用()表示邊的類型,用于表示現實世界中的關系類型。[問答題]251.()的日的縮小數據的取值范圍,使其更適合于數據挖掘算法的需要,并且能夠得到和原始數據相同的分析結果。[問答題]252.Solr可以對結構化、半結構化、非結構化數據建立索引,并提供全文檢索的能力。A)正確B)B錯誤[問答題]253.()用于維護文件系統名稱并管理客戶端對文件的訪問,()存儲真實的數據塊。[問答題]254.Secondarynamenode就是namenode出現問題時的備用節點A)正確B)錯誤[問答題]255.Channel的作用類似隊列,用于臨時緩存進來的數據,當Sink成功地將數據發送到下一跳的Channel或最終目的,數據會從Channel移除A)TRUEB)FALSE[問答題]256.iloc方法主要使用整數來索引數據,而不能使用【】來索引數據。[問答題]257.Flume架構中,一個sink可以連接多個channel。A)TrueB)False[問答題]258.Hadoop2、x版本中的HDFS是由()()()組成。[問答題]259.是否可以自行搭建Hadoop集群?[多選題]260.以下關于集成學習的說法,正確的是()A)隨機森林是減少模型的方差,而GBDT是減少模型的偏差B)組成隨機森林的樹可以并行生成,而GBDT是串行生成C)隨機森林的結果是多數表決表決的,而GBDT則是多棵樹累加之和1.答案:C解析:2.答案:C解析:3.答案:B解析:4.答案:C解析:5.答案:D解析:6.答案:D解析:7.答案:D解析:8.答案:C解析:9.答案:B解析:λ很小,則意味著模型比較復雜,在這種情況下,會產生偏差低且方差高的結果,模型會對數據過擬合。10.答案:C解析:決策樹深度越深,在訓練集上誤差會越小,準確率越高。但是容易造成過擬合,而且增加模型的訓練時問間。對決策樹進行修剪,減小樹的深度,能夠提高模型的訓練速度,有效避免過擬合。11.答案:B解析:12.答案:B解析:13.答案:D解析:14.答案:B解析:15.答案:C解析:16.答案:A解析:17.答案:A解析:18.答案:C解析:19.答案:B解析:20.答案:D解析:樣本數過多或者特征數過多,而不能單機完成訓練,可以用小批量樣本訓練,或者在線累計式訓練,或者主成分PCA降維方式減少特征數量再進行訓練。21.答案:D解析:22.答案:C解析:23.答案:B解析:24.答案:A解析:25.答案:D解析:26.答案:B解析:27.答案:C解析:28.答案:A解析:29.答案:C解析:一旦某個數據進入數據倉庫以后,一般情況下將被長期保留,也就是數據倉庫中一般有大量的查詢操作,但修改和刪除操作很少,通常只需要定期的加載、刷新。30.答案:B解析:31.答案:A解析:測試集正例和負例數量不均衡,那么假設正例數量很少占10%,負例數量占大部分90%。而且算法能正確識別所有負例,但正例只有一半能正確判別。那么TP=0.05×all,TN=0.9×all,Accuracy=95%。雖然Accuracy很高,precision是100%,但正例recall只有50%。32.答案:D解析:33.答案:A解析:34.答案:C解析:35.答案:A解析:36.答案:B解析:由于存在精度的關系,所以0.1+0.2得到的是一個無限接近0.3的數而不是0.3,故輸出False。37.答案:B解析:38.答案:C解析:39.答案:B解析:40.答案:D解析:41.答案:C解析:42.答案:A解析:43.答案:A解析:44.答案:A解析:45.答案:B解析:46.答案:B解析:47.答案:C解析:48.答案:C解析:49.答案:C解析:50.答案:C解析:eval()函數將去掉字符串的兩個引號,將其解釋為一個變量,因此C應該分別報錯和輸出'Hello'。51.答案:A解析:52.答案:D解析:53.答案:A解析:54.答案:B解析:在Numpy中,當使用不同類型的數組進行操作時,結果數組的類型對應于更一般或更精確的數組,稱為向上轉換的行為。55.答案:C解析:56.答案:D解析:57.答案:B解析:58.答案:A解析:59.答案:D解析:神經網絡減少隱藏層節點,就是在減少參數,只會將訓練誤差變高,不會導致過擬合。D選項中SVM高斯核函數比線性核函數模型更復雜,容易過擬合。60.答案:B解析:61.答案:C解析:62.答案:B解析:63.答案:D解析:64.答案:D解析:65.答案:A解析:66.答案:B解析:67.答案:A解析:68.答案:B解析:69.答案:D解析:70.答案:D解析:71.答案:B解析:72.答案:D解析:73.答案:A解析:74.答案:B解析:75.答案:A解析:76.答案:C解析:可視化的組件樣式:標題、圖例、軸線、橫向網格線、縱向網格線、背景、自適應提示、交互屬性77.答案:C解析:78.答案:A解析:79.答案:B解析:80.答案:B解析:81.答案:A解析:82.答案:C解析:83.答案:D解析:84.答案:C解析:85.答案:B解析:86.答案:C解析:87.答案:D解析:88.答案:C解析:89.答案:C解析:90.答案:C解析:91.答案:C解析:92.答案:D解析:93.答案:B解析:94.答案:D解析:95.答案:B解析:96.答案:D解析:97.答案:C解析:98.答案:B解析:99.答案:A解析:100.答案:D解析:101.答案:A解析:102.答案:D解析:103.答案:A解析:104.答案:C解析:105.答案:A解析:106.答案:C解析:107.答案:D解析:108.答案:D解析:109.答案:B解析:110.答案:C解析:spark中常見的窄依賴操作包括map、filer、union、sample等,寬依賴操作包括reduceByKey、groupByKey、join等。111.答案:D解析:112.答案:C解析:113.答案:B解析:1e6為?oat類型。114.答案:B解析:115.答案:D解析:116.答案:C解析:117.答案:A解析:118.答案:D解析:特征維數的減少并不會讓之前的特征丟失。119.答案:D解析:120.答案:A解析:121.答案:D解析:122.答案:A解析:123.答案:A解析:124.答案:B解析:125.答案:A解析:126.答案:C解析:127.答案:D解析:128.答案:A解析:129.答案:B解析:130.答案:A解析:131.答案:C解析:132.答案:B解析:將特征X1數值擴大10倍,它對應的回歸系數將相應會減小,但不為0,仍然滿足β的正則化約束,因此可能還包含在模型之中。133.答案:A解析:傅里葉變換是將時間域映射到頻率域。134.答案:D解析:135.答案:A解析:136.答案:A解析:137.答

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論