大數據開發基礎(習題卷79)_第1頁
大數據開發基礎(習題卷79)_第2頁
大數據開發基礎(習題卷79)_第3頁
大數據開發基礎(習題卷79)_第4頁
大數據開發基礎(習題卷79)_第5頁
已閱讀5頁,還剩18頁未讀 繼續免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

試卷科目:大數據開發基礎大數據開發基礎(習題卷79)PAGE"pagenumber"pagenumber/SECTIONPAGES"numberofpages"numberofpages大數據開發基礎第1部分:單項選擇題,共54題,每題只有一個正確答案,多選或少選均不得分。[單選題]1.下列哪一項是大數據技術領域的實施標準?A)GoogleAPPB)MapReduceC)HadoopD)HDFS答案:C解析:[單選題]2.國網公司泛在電力物聯網2019年建設方案要求,推進營配貫通優化提升,貫通率提升()。A)5%B)7%C)10%D)15%答案:A解析:[單選題]3.一個輸入為(32,32,3)的數據集,通過一個卷積核個數為8,大小為5*5,步長為1的卷積層,輸出()。A)(28,28,8)B)(27,27,8)C)(28,28,3)D)(27,27,3)答案:A解析:[單選題]4.大數據的4V特點:Volume、Velocity、Variety、Veracity,其中Volume的含義是()A)價值密度低B)處理速度快C)數據類型繁多D)數據體量巨大答案:D解析:[單選題]5.(__)主要為組織機構提供企業級應用技術或工具。A)人力資本B)行業應用C)企業應用D)B2B營銷答案:C解析:[單選題]6.房價是一個連續值,房價受多種因素的影響,假設你已經拿到房價在某市的數據,現需要你預測未來的房價走勢。進行算法轉換之前應將原始數據進行組裝,采用哪個算法類數據轉換器進行數值組裝?A)CsvAssembleB)NullPercentageC)NumericCastD)NumAssemble答案:D解析:[單選題]7.()選擇成為支持向量機的最大變數。A)核函數B)樣本空間C)模型D)算法答案:A解析:在不知道特征映射的形式時,我們并不知道什么樣的核函數是合適的,而核函數也僅是隱式地定義了這個特征空間。于是,核函數選擇成為支持向量機的最大變數。[單選題]8.下列不屬于數據科學跨平臺基礎設施和分析工具的是()。A)微軟AzureB)Google云平臺C)阿里云D)Adobephotoshop答案:D解析:Adobephotoshop軟件一般不作為數據分析工具。[單選題]9.網站在運營過程中,會有用戶訪問并產生行為數據,要想對這些數據進行處理挖掘,如果是離線批處理下的方案配置,描述不正確的是A)數據導入導出,LoaderB)數據采集傳輸:FlumeC)數據計算,StormD)數據存儲.HDFS或MySql答案:C解析:[單選題]10.plt.scatter()函數中的參數c表示的含義是(__)。A)x軸上的數值B)y軸上的數值C)散點圖中的標記顏色D)標記圖形內容的標簽文件答案:C解析:[單選題]11.使用Maxcomputetunnel命令上傳log.txt文件到表t_log中去,t_log為分區表(p1string,p2string)。下列命令中正確的是:()。A)tunneluploadlog.txtt_log/p1=?b1?/p2=?b2?B)tunneluploadlog.txtt_log(p1=?b1?,p2=?b2?)C)tunneluploadlog.txtt_log/p1=?b1?,p2=?b2?D)tunneluploadlog.txtt_log/(p1=?b1?,p2=?b2?)答案:C解析:[單選題]12.購物籃分析屬于()。A)描述性統計B)聚類分析C)關聯分析D)分類與預測答案:C解析:[單選題]13.假設現在要做一個可以根據線索指導運維人員進行排障的功能,你建議選擇下列哪個工具實現該功能?A)LuceneB)HBaseC)ElasticSearchD)GraphBase答案:D解析:[單選題]14.防火墻、漏洞掃描、病毒防范和系統加固等服務屬于()A)安全增值服務B)代理代維服務C)優化類服務D)容災服務答案:A解析:[單選題]15.使用sklearn中的留一法對大小為n的數據進行交叉驗證時,需要(__)次模型訓練。A)n-2B)n-1C)nD)1答案:C解析:[單選題]16.如果想把Redis的Key中存儲的數字值減1,該使用下列哪一個命令?A)decrB)incrC)incrbyD)decrby答案:A解析:[單選題]17.下列不屬于scikit-learn中用于標準化的函數是()。A)StandardScalerB)MinMaxScalerC)MeanScalerD)以上都對答案:C解析:StandardScaler和MinMaxScaler是標準化的函數。[單選題]18.()是分類錯誤的樣本數占樣本總數的比例。A)精度B)錯誤率C)正確率D)誤差答案:B解析:[單選題]19.下列關于Spark與Hadoop的說法錯誤的是()。A)Spark中沒有提供文件管理系統B)Hadoop中提供了文件關系系統C)Spark和Hadoop都是用MR模型進行計算,Spark的速度和效率比MR要快得多D)Hadoop適合處理動態數據答案:D解析:[單選題]20.下面哪個函數可以計算兩個日期之間的差()A)DateFormatB)DatePartC)DateDiffD)SystemDatetime答案:C解析:[單選題]21.以下哪個是國網營銷部的職責()A)負責泛在電力物聯網組織優化診斷B)負責開展商業模式的創新研究C)統一組織項目管控和架構管控D)組織審核各單位泛在電力物聯網建設方案答案:B解析:[單選題]22.Hive的數據最終存儲在()。A)HDFSB)HBaseC)RDBMSD)MetaStore答案:A解析:Hive是基于Hadoop分布式文件系統的,它的數據存儲在Hadoop分布式文件系統HDFS中。[單選題]23.python語句s={?a?,1,?b?,2};print(s[?b?])的運行結果是。()A)語法錯B)?b?C)1D)2答案:A解析:[單選題]24.在視圖上不能完成的操作是()A)查詢B)在視圖上定義新的視圖C)更新視圖D)在視圖上定義新的表答案:D解析:[單選題]25.刪除數據表中的一條記錄用以下哪一項()A)DELETEDB)DELETEC)DROPD)UPDATE答案:B解析:[單選題]26.關于HBase中HFile的描述不正確的是?A)一個HFile屬于一個regionB)一個HFile包含多個列族的數據C)一個HFile包含多列數據D)一個HFile包含多行數據答案:B解析:[單選題]27.()算法是一種挖掘關聯規則的頻繁項集算法,其核心思想是通過候選集生成和情節的向下封閉檢測兩個階段來挖掘頻繁項集A)AprioriB)EMC)PCAD)PAC答案:A解析:[單選題]28.大數據應用需依托的新技術有()。A)大規模并行處理B)數據分析處理C)智能化D)三個選項都是答案:D解析:適用于大數據的技術包括大規模并行處理(MPP)數據庫、數據挖掘、數據分析處理、分布式文件系統、分布式數據庫、云計算平臺、互聯網和可擴展的存儲系統、智能化相關技術等。[單選題]29.下列哪一項不屬于大數據的治理:()A)安全問題B)成本問題C)針對大用戶D)信息生命周期管理答案:C解析:[單選題]30.為了提高系統性能,Spark采取"惰性計算模式",具體為()。A)執行Transformation操作時不會提交,只有執行Action操作時才會被提交到集群中開始被執行B)執行Action操作時不會提交,只有執行Transformation操作時才會被提交到集群中開始被執行C)只有執行完Action操作和Transformation操作時,所有操作才會被提交到集群中開始被執行D)執行完Action操作或Transformation操作時都不會提交到集答案:A解析:[單選題]31.風險防控產品中的三元組驗證是以什么形式對外服務的:()A)SaaS應用B)組件C)接口D)平臺答案:C解析:[單選題]32.高斯核也稱為(__)。A)多項式核B)拉普拉斯核C)RBF核D)Sigmoid核答案:C解析:[單選題]33.下面不屬于探索性統計中常用集中趨勢統計量的是(__)。A)和B)方差C)平均數D)四分位數答案:B解析:[單選題]34.關于HDase的Region分裂流程Split的描述不正確的是A)Split過程中并沒有真正的將文件分開,僅僅是創建了引用文件B)Split為了咸少Region中數據大小,從而將-個Region分裂成兩個RegionC)split過程中該表會暫停服務D)split過程中被分裂的Region會暫停服務答案:C解析:[單選題]35.下列關于RNN的說法,正確的是()A)RNN可以應用在NLP領域B)LSTM是RNN的一個變種C)在RNN中一個序列當前的輸出與前面的輸出也有關D)以上答案都正確答案:D解析:[單選題]36.假如table中有一條記錄,字段列coll值為空,下面()條件會將此條記錄查詢出來。A)coll="B)coll!="C)collisnullD)collisnotnull答案:C解析:[單選題]37.HBase交互模式中,顯示所有命名空間A)show_namespaceB)shows_namespaceC)lists_namespaceD)list_namespace答案:D解析:[單選題]38.若a=np.array([5,1,2,3]),a.sort(),則數組a的結果是(__)。A)[5,1,2,3]B)[1,2,3,5]C)[3,2,1,5]D)11答案:B解析:[單選題]39.按照國家法律法規和公司保密管理規定,制定數據資產脫敏策略,對涉及個人隱私及單位商密的數據進行()后方可共享和開放。A)分類處理B)清洗處理C)脫敏處理D)切片處理答案:C解析:[單選題]40.下列關于支持向量機優化性問題的形式,說法正確的是()。A)它是一個凸二次規劃問題B)它是一個凸一次規劃問題C)它是一個凹二次規劃問題D)它是一個凹一次規劃問題答案:A解析:支持向量機優化性問題的一個凸二次規劃問題。[單選題]41.在回歸分析中,說法正確的是()。A)解釋變量和被解釋變量都是隨機變量B)解釋變量為非隨機變量,被解釋變量為隨機變量C)解釋變量和被解釋變量都為非隨機變量D)解釋變量為隨機變量,被解釋變量為非隨機變量答案:B解析:在回歸分析中,解釋變量可以理解為自變量,具有確定性,因此為非隨機變量;被解釋變量可以理解為因變量,具有隨機性,因此為隨機變量。[單選題]42.Spark集群搭建中,對master進行配置時,cd到spark目錄里的conf文件夾下。首先將spark-env.sh.template文件mv為(__)。然后再添加其他配置項。A)spark-evn.shB)spark-env.shC)sparkenv.shD)senv.sh答案:B解析:[單選題]43.下列數據類型中,python不支持的是。()A)charB)intC)floatD)list答案:A解析:[單選題]44.下列演示方式中,不屬于傳統統計圖方式的是()。A)柱形圖B)餅狀圖C)曲線圖D)網絡圖答案:D解析:[單選題]45.以下刪除記錄正確的()A)deletefromempwherename='dony';B)Delete*fromempwherename='dony';C)Dropfromempwherename='dony';D)Drop*fromempwherename='dony';答案:A解析:[單選題]46.以下哪個不是聚類方法:()A)GMMB)LDAC)DBSCAND)TPLINK答案:D解析:[單選題]47.以下關于函數的描述,錯誤的是:A)函數是一種功能抽象B)使用函數的目的只是為了增加代碼復用C)函數名可以是任何有效的Python標識符D)使用函數后,代碼的維護難度降低了答案:B解析:[單選題]48.假如使用邏輯回歸對樣本進行分類,得到訓練樣本的準確率和測試樣本的準確率。現在,在數據中增加一個新的特征,其他特征保持不變。然后重新訓練測試。則下列說法正確的是()。A)訓練樣本準確率一定會降低B)訓練樣本準確率一定增加或保持不變C)測試樣本準確率一定會降低D)測試樣本準確率一定增加或保持不變答案:B解析:在模型中增加更多特征一般會增加訓練樣本的準確率,減小偏差。但測試樣本準確率不一定增加,除非增加的特征是有效特征。[單選題]49.下列if語句能實現統計?成績(score)優秀的男生以及不及格的男生的人數?功能的是()。A)if(gender=="男"andscore<60orscore>=90)∶N+=1B)if(gender=="男"andscore<60andscore>=90)∶n+=1C)if(gender=="男"and(score<60orscore>=90)∶n+=1D)if(gender=="男"orscore<60orscore>=90)∶n+=1答案:C解析:注意布爾運算優先級and>or。[單選題]50.可以創建3*3單位矩陣的命令是:A)A=np.zeros(3)B)A=np.eye(3)C)A=np.ones(3)D)A=np.full(3,3)答案:B解析:[單選題]51.大數據4V特征不包括A)規模性(Volume)B)有效地(Valid)C)多樣性(Varity)D)高速性(Velocity)答案:B解析:[單選題]52.下面不屬于大數據4V特性有()。A)容量大B)類型多C)速度快D)應用價值高答案:D解析:[單選題]53.(__)采用概率模型來表達聚類原型。A)k均值算法B)學習向量量化C)高斯混合聚類密度聚類D)密度聚類答案:C解析:[單選題]54.某公司要建立資料庫,該資料庫要用ElasticSearch進行檢索,請問下列哪些選項可以放到資料庫中?A)Word文檔B)公司宣傳視頻C)產品設計圖D)以上全部正確答案:D解析:第2部分:多項選擇題,共26題,每題至少兩個正確答案,多選或少選均不得分。[多選題]55.泛在電力物聯網能源生態包括()A)電動汽車服務生態圈B)電工裝備服務生態圈C)能源電商服務生態圈D)綜合能效服務生態圈答案:ABCD解析:[多選題]56.在數據科學中,計算模式發生了根本性的變化--從集中式計算、分布式計算、網格計算等傳統計算過渡至云計算,有一定的代表性的是Google云計算三大技術,這三大技術包括()。A)HadoopYARN資源管理器B)GFS分布式存儲系統C)MapReduce分布式處理技術D)BigTable分布式數據庫答案:BCD解析:[多選題]57.(__)由兩個簇的最近樣本決定,(__)由兩個簇的最遠樣本決定,(__)由兩個簇的所有樣本共同決定。A)樣本距離B)最小距離C)最大距離D)平均距離答案:BCD解析:[多選題]58.OTS寫操作具有的特性是:()。A)原子性B)強一致性C)最終一致性D)事務一致性答案:AB解析:[多選題]59.數據預處理的方法主要有()。A)分類B)聚類C)回歸D)清除答案:ABC解析:[多選題]60.行存表相比于列存表的區別是?A)行存表按行存儲數據,列存表按列存儲數據B)同樣的數據,采用行存表存儲比列存儲所耗的時間更少。C)行存表面向百方級以下數據量,列存表面向千萬級以上數據量D)行存表適合數據更新,列存表合做數據聚臺。答案:AD解析:[多選題]61.ETL包含下列哪些過程A)數據抽取B)數據轉換C)數據加載D)數據展現答案:ABC解析:[多選題]62.數據集中趨勢在統計學中是指一組數據向某一中心值靠攏的程度,它反映了一組數據中心點的所在位置。以下選項中用于描述數據集中程度的變量有()A)平均值B)中位數C)眾數D)總數答案:ABC解析:[多選題]63.以下哪些選項屬于離線批處理的特點?A)處理時間相對較長B)數據不落地、存儲量不大C)數據吞吐量較大D)處理數據量相對較大答案:ACD解析:[多選題]64.華為大數據解決方案中平臺架構包括以下哪些組成部分?A)Hadoop層B)FusioInghtManagerC)GaussDB200D)DataFram答案:ABD解析:[多選題]65.目前進行數據交易的形式主要包括哪凡種:()A)大數據交易公司B)數據交易所C)API模式D)PPT模式答案:ABC解析:[多選題]66.深度學習適用的領域有()A)計算機視覺B)語言識別C)自然語言處理D)自動駕駛答案:ABCD解析:[多選題]67.在數據安全領域常用的P2DR模型中,P、D和R代表的是()。A)策略B)防護C)檢測D)響應答案:ABCD解析:P2DR模型是美國ISS公司提出的一種動態網絡安全體系,認為網絡安全是一種動態的、有條件的相對安全。P2DR模型包括四個主要部分:Policy(策略)、Protection(防護)、Detection(檢測)和Response(響應)。其中,安全策略處于核心地位,為其他三個組成部分提供支持和指導,而保護、檢測和響應為網絡安全的三個基本活動。[多選題]68.常見的原型聚類算法包括()。A)K均值算法B)學習向量量化C)高斯混合聚類D)密度聚類答案:ABC解析:[多選題]69.python中常見的邏輯運算符包含A)andB)orC)+D)-答案:AB解析:[多選題]70.以下哪些是數據倉庫的基本特征?A)數據倉庫的數據是集成的B)數據倉庫是面向事務的C)數據倉庫的數據是相對穩定的D)數據倉庫的數據是反映歷史變化的答案:CD解析:[多選題]71.下列語句中錯誤的的是()。A)x=1x/=2B)x=1x**=2C)x=1x&=1D)x=1x++=1答案:CD解析:[多選題]72.字典的遍歷正確的有()A)forin變量i,字典:使用i遍歷所有的鍵,有鍵就可以通過變量訪問其值B)for變量iin字典:使用i遍歷所有的鍵,有鍵就可以通過變量訪問其值C)for變量i,變量jin字典.items():使用變量i遍歷所有鍵,通過變量j遍歷所有值D)forin變量i,變量j字典.items():使用變量i遍歷所有鍵,通過變量j遍歷所有值答案:BC解析:[多選題]73.下列關于數據的說法,錯誤的是()。A)數據的類別是多種多樣的B)數據庫中的一列代表一個特征C)一組數據的方差不會受異常值影響D)數據出現缺失值的現象無法用插值法補充答案:CD解析:[多選題]74.以下屬于HiveSQL中DDL答案:數據定義語言的是?A)修改表B)刪除表C)數據導入D)建表答案:ABD解析:[多選題]75.在神經網絡學習中,sigmoid函數可用作(__)。A)損失函數B)優化函數C)激活函數D)響應函數答案:CD解析:[多選題]76.下列方法屬于詞語情感分析的有()。A)基于網絡的分析方法B)基于word-embedding的分析方法C)基于詞典的分析方法D)基于詞頻的分析方法答案:AC解析:B、C為分詞方法。[多選題]77.非結構化數據的管理常采用()。A)NoSQLB)NewSQLC)mysqlD)關系云答案:ABD解析:第3部分:判斷題,共16題,請判斷題目是否正確。[判斷題]78.pandas中head(n)的意思是獲取最后的n行數據A)正確B)錯誤答案:錯解析:[判斷題]79.從點作為個體簇開始,每一步合并兩個最接近的簇,這是一種分裂的層次聚類方法A)正確B)錯誤答案:錯解析:[判斷題]80.胡煥庸線是2012年發現的A)正確B)錯誤答案:錯解析:[判斷題]81.Root用戶密碼丟失后不能再找回,只能重新安裝MySQL。--A)正確B)錯誤答案:錯解析:[判斷題]82.在try...except...else結構中,如果try塊的語句引發了異常則會執行else塊中的代碼A)正確B)錯誤答案:錯解析:[判斷題]83.邏輯異或的操作數都為真時,運算結果為假。--A)正確B)錯誤答案:對解析:[判斷題]84.一般來說,Python擴展庫沒有通用于所有版本Python的,安裝時應選擇與已安裝Python的版本對應的擴展庫。A)正確B)錯誤答案:對解析:[判斷題]85.大數據思維的方式遵循因果邏輯A)正確B)錯誤答案:錯解析:[判斷題]86.大數據時代注重讓數據說話也同樣崇尚經驗主義。A)正確B)錯誤答案:錯解析:[判斷題]87.定義在BEGIN和END中的局部變量不能在外部訪問。--A)正確B)錯誤答案:對解析:[判斷題]88.Sqoop導入指的是將數據從HDFS遷移到關系型數據庫。()A)正確B)錯誤答案:錯解析:[判斷題]8

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論