大數據開發基礎(習題卷77)_第1頁
大數據開發基礎(習題卷77)_第2頁
大數據開發基礎(習題卷77)_第3頁
大數據開發基礎(習題卷77)_第4頁
大數據開發基礎(習題卷77)_第5頁
已閱讀5頁,還剩19頁未讀 繼續免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

試卷科目:大數據開發基礎大數據開發基礎(習題卷77)PAGE"pagenumber"pagenumber/SECTIONPAGES"numberofpages"numberofpages大數據開發基礎第1部分:單項選擇題,共54題,每題只有一個正確答案,多選或少選均不得分。[單選題]1.下列哪個程序是帶參數的函數程序一defcard():name="張三"address="環市路1號"print("姓名:",name)print("地址:",address)card()程序二defcard(name,address):print("姓名:",name)print("地址:",address)card("張三","環市路1號")程序三defcard():print("張三")print("環市路1號")card()A)程序一B)程序二C)程序三D)以上都不對答案:B解析:[單選題]2.HBase中數據存儲的文件格式是什么?A)FileB)SequencefileC)LogD)TXTFile答案:A解析:[單選題]3.HDFS默認的最基本的儲存單位是?A)數據塊B)元數據節點C)數據節點D)從元數據節點答案:A解析:[單選題]4.python中,若deff1(a,b,c):print(a+b),則nums=(1,2,3);f1(nums)的程序運行結果是。()A)語法錯B)6C)3D)1答案:C解析:[單選題]5.在神經網絡學習中,感知機輸出層中的M-P神經元通常被稱為()A)閩值邏輯羊元B)激活函數C)擠壓函數D)連接函數答案:A解析:[單選題]6.Scipy的stats包中提供了產生連續性分布的函數,其中用于均勻分布的函數是()。A)normB)uniformC)betaD)geom答案:B解析:均勻分布是uniform。[單選題]7.ODS數據包含多少類表信息:()A)10B)12C)14D)16答案:B解析:[單選題]8.np.abs()函數可以實現什么功能?A)計算絕對值B)計算相反數C)計算方差D)計算均值答案:A解析:[單選題]9.在HDFS根目錄下創建一個文件夾/test,且/test文件夾內還包含一個文件夾dir,正確的shell命令是()。A)hadoopfs-mkdir-p/test/dirB)hdfsfs-mkdir-p/test/dirC)hadoopdfs-mkdir/test/dirD)hdfsdfs*mkdir-p/test/dir答案:D解析:[單選題]10.長短時記憶神經網絡緩解梯度消失問題采取的措施是()A)增加網絡深度B)減少網絡神經元C)使用雙向的網絡結構D)增加一個用來保存長期狀態的單元答案:D解析:[單選題]11.下列關于情感分析的說法不正確的是?A)簡單而言,是對帶有情感色彩的主觀性文本進行分析、處理、歸納和推理的過程B)情感分析的發展得益于社交媒體的興起C)按照處理文本的粒度不同,情感分析大致可分為句子級、篇章級兩個D)情感分析可以應用于文本挖掘答案:C解析:[單選題]12.業務中臺方面,以業務為導向,優先建設()。A)電網資源業務中臺和客戶服務業務中臺B)電網資源業務中臺和賬務結算業務中臺C)統一數據業務中臺和客戶服務業務中臺D)統一數據業務中臺和賬務結算業務中臺答案:A解析:[單選題]13.按照?()?的思路,以打造智慧能源綜合服務體系為抓手,統一對外業務門戶和入口,實現?引流+賦能?,創新推動源網荷儲協同服務,積極構建能源互聯網生態圈,推動新興業務?百花齊放?,帶動產業鏈上下游共同發展。A)數據+應用B)平臺+生態C)能源+業務D)數據+業務答案:B解析:[單選題]14.具體由創建世界一流能源互聯網企業辦公室統籌組織,下設()個常設小組A)3B)4C)2D)5答案:A解析:[單選題]15.Hadoop的作者是下面哪一位(___)。A)MartinFowlerB)KentBeckC)GraceHopperD)Dougcutting答案:D解析:[單選題]16.數據的故事化描述是指為了提升數據的(),將數據還原成關聯至特定的情景的過程。A)可理解性、可記憶性、可體驗性B)可接受性、可記憶性、可體驗性C)可接受性、可記憶性、可呈現性D)可理解性、可記憶性、可呈線性答案:A解析:數據的故事化描述(Storytelling)是指為了提升數據的可理解性、可記憶性及可體驗性,將數據還原成關聯至特定的情景的過程。[單選題]17.隨機試驗所有可能出現的結果稱為()。A)基本事件B)樣本C)全部事件D)樣本空間答案:D解析:隨機試驗中的每一個可能出現的試驗結果稱為這個試驗的一個樣本點。全體樣本點組成的集合,即隨機試驗的所有可能出現的結果稱為這個試驗的樣本空間。[單選題]18.下面不屬于探索性統計中常用離散程度統計量的是(__)。A)平均數B)方差C)標準差D)極大值答案:A解析:[單選題]19.下面對FsImage的描述,哪個是錯誤的?A)FsImage文件沒有記錄每個塊存儲在哪個數據節點B)FsImage文件包含文件系統中所有目錄和文件inode的序列化形式C)FsImage用于維護文件系統樹以及文件樹中所有的文件和文件夾的元數據D)FsImage文件記錄了每個塊具體被存儲在哪個數據節點答案:D解析:[單選題]20.以下哪個選項對Redis數據讀寫流程描述是正確的?(A)ServerA節點返回集群拓撲-客戶端選擇集群任意一個serverA節點連接客戶端計算Key歸屬的槽位以及對應ServerB節點并連接-Servere節點返回業務操作結果B)客戶端選擇集群任意一個ServerA節點連接-Servera節點返回集群拓撲客戶端計算Key歸屬的槽位以及對應serverB節點并連接--ServerB節點返回業務操作結果C)ServerA節點返回集群拓撲-喜戶端計算Key歸屬的槽位以及對應ServerB節點并連接戶端選擇集群任意一個ServerA節點連接-eerB節點返回業務操作結果D)客戶端選擇集群任意一個Servera節點連接客戶端計算Key歸屬的槽位以及對應ServerB節點并連接-ServerA節點返回集群拓撲-ServerB節點返回業務操作結果答案:B解析:[單選題]21.函數如下:defshowNnumber(numbers):forninnumbers:print(n)下面那些在調用函數時會報錯()A)showNumer([2,4,5])B)showNnumber(?abcesf?)C)showNnumber(3.4)D)showNumber((12,4,5))答案:C解析:[單選題]22.2012年,()政府發布了《大數據研究和發展倡議》,標志著大數據已經成為重要的時代特征A)中國B)美國C)日本D)英國答案:B解析:[單選題]23.()算法是分類算法。A)DBSCANB)C4.5C)K-MeanD)EM答案:B解析:C4.5是分類算法;DBSCAN、K-Mean、EM是聚類算法。[單選題]24.(__)是將數據轉換為產品的藝術。A)數據柔術B)數據處理C)數據加工D)數據設計答案:A解析:[單選題]25.下列有關數據庫的描述,正確的是A)數據庫是一個關系B)數據庫是一個DBF文件C)數據庫是一個結構化的數據集合D)數據庫是一組文件答案:C解析:[單選題]26.在msyql.user表中權限字段的數據類型是()。--A)INTB)VARCHARC)ENUMD)FLOAT答案:C解析:[單選題]27.大數據應用需要依托的新技術有()A)大規模存儲與計算B)數據分析處理C)智能化D)以上都是答案:D解析:[單選題]28.規則生成本質上是一個(__)搜索過程。A)學習B)貪心C)規則D)順序答案:B解析:[單選題]29.下列關于可視化工具中高級分析工具的說法,錯誤的是?()A)R是屬于GNU系統的一個自由、免費、源代碼開放的軟件B)Weka主要用于社交圖譜數據可視化分析,可以生成非常酷炫的可視化圖形C)Gephi主要用于社交圖譜數據可視化分析,可以生成非常酷炫的可視化圖形D)R通常用于大數據集的統計與分析答案:B解析:二、多選題[單選題]30.HBase中一個Region進行Split操作時,將一個HFile文件真正分開到兩個Region的過程發生在以下()階段。A)Split過程中B)Flush過程中C)Compaction過程中D)HFile分開過程中答案:C解析:[單選題]31.請問在Hadoop體系結構中,按照由下到上順序,排列正確的是()A)CommonHiveHDFSB)CommonMapReducePigC)HDFSMapReduceHBaseD)HDFSAvroHBase答案:B解析:PigHiveCrunch都是運行在MapReduce,Spark,或者Tez之上的處理框架Avro是一個克服了Writable部分不足的序列化系統[單選題]32.關于Hive建表基本操作,描述正確的是A)一旦表建好,不可再修改表名B)一旦表建好,不可再增加新列C)創建外部表時需要制定external關鍵字D)一旦表創建好,不可再修改列名答案:C解析:[單選題]33.Relief的擴展變體Relief-F能夠處理(__)問題。A)二分類B)多分類C)回歸D)降維答案:B解析:[單選題]34.下列哪一個選項不是StructuredStreaming支持的sink輸出源?A)HBaseB)ConsoleC)KafkaD)HDFS答案:A解析:[單選題]35.Hadoop工程文件使用哪個擴展名()A)hrhB)harC)hrcD)hraf答案:B解析:[單選題]36.以下哪種算法不屬于主題模型算法A)LSAB)LSIC)TF_IDFD)LDA答案:C解析:[單選題]37.貝葉斯決策的最優分類面是(__)。A)線性的B)非線性的C)不可構造的D)不存在的答案:A解析:[單選題]38.()的主要目的是提升數據質量,將數據形態更加符合某一算法需求,進而提升數據計算的效果和降低其復雜度。A)數據加工B)數據分析C)數據挖掘D)數據處理答案:A解析:[單選題]39.在MaxComputeSQL中,常量定義100BD表示的含義是:()。A)數值為100的DECIMALB)數值為100的BigintC)數值為100的StringD)數值為100的Double答案:A解析:[單選題]40.正則表達式的轉義符是()A)\\B)\C);D)$$答案:A解析:[單選題]41.查詢集合操作中,表示交集的是:()。A)INTERSECTB)MINUSC)EXECPTD)UNION答案:A解析:[單選題]42.()是Spark中用于結構化數據處理的軟件包。A)SPARKCOREB)SparkSQLC)SparkStreamingD)Mllib答案:B解析:[單選題]43.在HBase中,Scan類的()方法限定返回數據的列簇A)family()B)addFamily()C)Column()D)addColumn()答案:B解析:[單選題]44.若文本文件abc.txt中的內容如下:abcdef閱讀下面的程序:file=open('abc.txt','r')data=file.readline()data_list=list(data)print(data_list)以上程序的執行結果為()。A)['abcdef']B)['abcdef\n']C)['a','b','c','d','e','f']D)['a','b','c','d','e','f','\n']答案:C解析:[單選題]45.下面有關分類算法的準確率、召回率、F1值的描述,錯誤的是()。A)準確率是檢索出相關文檔數與檢索出的文檔總數的比率,衡量的是檢索系統的查準率B)召回率是指檢索出的相關文檔數和文檔庫中所有的相關文檔數的比率,衡量的是檢索系統的查全率C)正確率、召回率和F值取值都在0和1之間,數值越接近0,查準率或查全率就越高D)為了解決準確率和召回率沖突問題,引入了F1分數答案:C解析:正確率、召回率取值都在0和1之間,數值越接近1,查準率或查全率就越高。[單選題]46.大數據的簡單算法比小數據的復雜算法更有效,體現了哪種大數據思維方式:()A)以數據為中心B)全樣而非抽樣C)效率而非精確D)相關而非因果答案:A解析:[單選題]47.下面()子句專用于GroupBy操作中的條件過濾功能。A)WHERE子句B)HAVING子句C)LIMIT子句D)ORDERBY子句答案:B解析:[單選題]48.將閔可夫斯基距離和(__)結合即可處理混合屬性。A)ValueDifferenceMectricB)k-meansC)k近鄰D)SVM答案:A解析:[單選題]49.Hadoop平臺中HBase的Region是由:()服務進程來管理。A)HMasterB)DataNodeC)RegionServerD)ZooKeeper答案:C解析:[單選題]50.以下哪種Hive的方法可以用來對數據求和?A)trimB)dataC)avgD)sum答案:D解析:[單選題]51.當zookeeper集群的節點數為5節點時,請問集群的容災能力和多少節點是等價的?A)3B)4C)5D)以上全不正確答案:D解析:[單選題]52.()不僅可用于多層前饋神經網絡,還可用于其他類型的神經網絡。A)感知機B)神經元C)神經系統D)誤差逆傳播答案:D解析:誤差逆傳播(errorbackpropagation,BP)算法不僅可用于多層前饋神經網絡,還可用于其他類型的神經網絡,如訓練遞歸神經網絡[Pineda,1987]。[單選題]53.Flume中的JDBCChanne1內置數據庫是哪個?A)DerbyB)OracleC)sqlServerD)MySql答案:A解析:[單選題]54.在使用pyplot畫圖時,線條相關屬性標記不能設置()。A)'*'B)'T'C)'D'D)'8'答案:B解析:在使用pyplot進行繪圖時,線條標記可以使用'oDhH8p,+.s*dV<>^x:'等標記。第2部分:多項選擇題,共26題,每題至少兩個正確答案,多選或少選均不得分。[多選題]55.關于Maxcompute中tunnelupload的分隔符,說法正確的是:()。A)列分隔符不能包含行分隔符B)支持多個字符的行列分隔符C)轉義字符分隔符,在命令行方式下在只支持\r、\n和\tD)缺省為空格答案:BC解析:[多選題]56.下列關于神經網絡模型描述正確的有()。A)神經網絡模型是許多邏輯單元按照不同層級組織起來的網絡,每一層的輸出變量都是下一層的輸入變量B)神經網絡模型建立在多神經元之上C)神經網絡模型中,無中間層的神經元模型的計算可用來表示邏輯運算D)神經網絡模型一定可以解決所有分類問題答案:ABC解析:現在很多分類問題的準確率都很低尤其是醫學圖像方面,而且容易受環境,如光照影響。199[多選題]57.現代企業數據分析平臺向著云化和融合發展的優勢有哪些?A)超敏捷應用B)資源單性分配C)多場景分析D)交叉融合分析答案:ABCD解析:[多選題]58.下列不是Python關鍵字的有()。A)noB)NoneC)nullD)none答案:ACD解析:詳見Python關鍵字列表。[多選題]59.與HadoopMapReduce計算框架相比,Spark所采用的Executor具有哪些優點?A)利用多線程來執行具體的任務,減少任務的啟動開銷B)Executor中有一個BlockManager存儲模塊,有效減少IO開銷C)提供了一種高度受限的共享內存模型D)不同場景之間輸入輸出數據能做到無縫共享答案:AB解析:[多選題]60.以下關于Hive中分桶表和分區表的區別描述正確的是()A)分桶表的個數:由用戶的HQL語句所設置的ReduceTask的個數決定;表的分區的個數:也能由用戶自定義指定。也能由程序自動生成,分區是可以動態增長的。B)分桶表是一經決定,就不能更改,所以如果要改變桶數,要重新插入分桶數據;分區數是可以動態增長的。C)分桶表和分區表中每個桶中的數據都可以有多個key值。D)分桶是按照列的哈希函數進行分割,相對比較平均;分區時按照列的值來進行分割,容易造成數據傾斜。答案:ABD解析:[多選題]61.在假設檢驗中,當原假設為偽,但數據分析人員沒有拒絕它時犯的錯誤叫()。A)α錯誤B)β錯誤C)取偽錯誤D)棄真錯誤答案:BC解析:α錯誤(棄真錯誤):當原假設為真時,但我們錯誤地認為?原假設是不成立52的?,進而導致拒絕這個正確假設;β錯誤(取偽錯誤):當原假設為假時,但我們錯誤地認為?原假設是成立的?,進而導致接受此錯誤假設。[多選題]62.以下哪些是mySQL數據類型()A)BIGINTB)TINYINTC)INTEGERD)INT答案:ABCD解析:[多選題]63.屬于特征選擇的優點有()。A)解決模型自身的缺陷B)減少過擬合C)提升模型的性能D)增強模型的泛化能力答案:BCD解析:特征選擇無法克服模型自身的缺陷,二者是獨立的。[多選題]64.ADS使用DUMPDATA導出數據時,以限制導出行數為1000為例(LIMIT1000),()說法是正確的。A)實際數據行數可能小于1000B)實際數據行數可能等于1000C)實際數據行數嚴格等于1000D)實際數據行數可能稍大于1000答案:ABD解析:[多選題]65.關于Dropout說法,正確的是()A)Dropout背后的思想其實就是把DNN當作一個集成模型來訓練,之后取所有值的平均值,而不只是訓練單個DNNB)DNN網絡將由Drout率設直為p,也就是說,一個神經元被保留的概率是l-P。當中一個神經元被丟棄時,無論輸入或者相關的參數是什么,它的輸出值就會被設置為0C)丟棄的神經元訓練階段,對BP算法的前向和后向階段都沒有貢獻。由于這個原因,每一次訓練它都像是在訓練一個新的網絡D)Dropout方法通常和L2正則化或者其他參數約束技術(比如MaxNorm)一起使用,來防止神經網絡的過擬合答案:ABCD解析:[多選題]66.基于信息數據的管理和服務創新主要表現在()A)認知方式的變化B)高強度的計算C)個性化的管理服務D):數據驅動的創新答案:ABCD解析:[多選題]67.以下關于Loader的描述中,正確的有哪幾項?A)提供可視化向導式的作業配置管理界面。B)是基于開源Flume研發,做了大量優化和擴展。C)提供定時調度任務,周期性執行Loader作業。D)在界面中可指定多種不同的數據源、配置數據的清洗和轉換步驟、配置集群存儲系統。答案:ACD解析:[多選題]68.網絡爬蟲的類型主要包括:()A)通用網絡爬蟲B)聚焦網絡爬蟲C)增量式網絡爬蟲D)深層網絡爬蟲答案:ABCD解析:[多選題]69.下列屬于頻率域圖像濾波方法的有()。A)中值濾波B)均值濾波C)布特沃斯濾波D)高斯濾波答案:CD解析:頻率域圖像濾波包括理想低通濾波器、布特沃斯低通濾波器、高斯低通濾波器、梯形低通濾波器。中值濾波和均值濾波屬于空間濾波。[多選題]70.業務中臺方面,開展客戶服務業務中臺和電網資源業務中臺試點建設,實現對公司()的建設A)各業務條線客戶B)電網資源整合C)共享業務服務D)資源整合服務答案:ABC解析:[多選題]71.不屬于使用池化層相比于相同步長的卷積層的優勢有()A)參數更少B)可以獲得更大下來樣C)速度吏快D)有助于提升精度答案:BCD解析:[多選題]72.稅易通產品業務辦理原則包括()A)數據智能原則B)客戶自助原則C)信息共享原則D)風險審審原則答案:ABD解析:[多選題]73.適應互聯網?()?業務模式,探索優化項目立項管理模式,建立電網基建、信息化、科技、技改、營銷、產業等多渠道投資保障機制。A)閉環管理B)建運一體C)常態運營D)持續迭代答案:BCD解析:[多選題]74.聚類常用的距離有()A)最短距離B)最長距離C)中間距離D)類平均答案:ABCD解析:[多選題]75.EDA(探索性數據分析)方法與傳統統計學的驗證性分析方法的區別有()。A)EDA需要事先提出假設,而驗證性分析不需要B)EDA中采用的方法往往比驗證性分析簡單C)在一般數據科學項目中,探索性分析在先,驗證性分析在后D)EDA更為簡單、易學和易用答案:BCD解析:在一般數據科學項目中,探索性分析在先,驗證性分析在后,EDA中采用的方法往往比驗證性分析簡單。[多選題]76.以下屬于數據科學的研究目的的是()。A)數據洞見B)數據生態系統建設C)數據業務化D)數據產品的研發答案:ABCD解析:[多選題]77.下列對python描述正確的是()A)面向對象語言B)高級語言C)腳本語言D)編譯型語言答案:ABC解析:第3部分:判斷題,共16題,請判斷題目是否正確。[判斷題]78.HBase中如果只需要保存最新版本的數據,可以設置最大版本數為1。A)正確B)錯誤答案:對解析:[判斷題]79.安裝FusionlnsightHD軟件包前,必須在本節點/etc/hosts文件中配置集群中所有節點的主機名稱與業務IP的映射關系A)正確B)錯誤答案:對解析:[判斷題]80.Spark2.0中引入了SparkSession的概念,為用戶提供了一個統一的切入點來使用Spark的各項功能。A)正確B)錯誤答案:對解析:[判斷題]81.MySQL只有SELECT語句可以使用LIMIT限量。--A)正確B)錯誤答案:錯解析:[判斷題]82.表達式eval('3+5')的值為8。A)正確B)錯誤答案:對解析:[判斷題]83.Hive的元數據存儲在關系數據庫中。()A)正確B)錯誤答案:對解析:[判斷題]84.字典中的元素可通過索引方式訪問。()A)正確B)錯誤答案:錯解析:[判斷題]85.生成器表達式的計算結果是一個元組。()A)正確B)錯誤答案:錯解析:[判斷題]86.在機器學習中,隨著樹中結點數變得太大,即使模型的訓練誤差還在繼續減低,但是檢驗誤差開始增大,這是出現了模型擬合不足的問題。()A)正確B)錯誤答案:錯解析:[判斷題]87.\h命令可以獲取MySQL客戶端的幫助信息。--A)正確B)錯誤答案:對解析:[判斷題]88.信息化主要是產生和整合數據,大數據是把對經驗的挖掘和利用做到極致,智能化的核心是會學習的機器、可對未知的事件進行模擬。A)正確B)錯誤答案:對解析:[判斷題]89.根據案例?2009年7月29日,老河口市第二期經濟適用住房計算機搖號確定購買人儀式舉行。在市公

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論