




版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
試卷科目:大數據開發基礎大數據開發基礎(習題卷83)PAGE"pagenumber"pagenumber/SECTIONPAGES"numberofpages"numberofpages大數據開發基礎第1部分:單項選擇題,共54題,每題只有一個正確答案,多選或少選均不得分。[單選題]1.以下關于函數的作用描述正確的是()。A)函數是可重用的程序B)函數無法為您的應用程序提供更好的模塊化C)您無法創建自己的函數D)以上都是答案:A解析:[單選題]2.()是一個數據序列化系統,能保存持久化的數據到hdfs,能傳輸并且反序列化為高級數據結構。A)AvroB)HttPFSBC)MahoutD)Snappy答案:A解析:[單選題]3.當閔可夫斯基距離公式中的系數p趨近于無窮大時,可得到(__)的公式。A)歐氏距離B)曼哈頓距離C)街區距離D)切比雪夫距離答案:D解析:[單選題]4.以下哪些選項為真?A)線性回歸誤差值必須正態分布,但是在Logistic回歸的情況下,情況并非如此B)邏輯回歸誤差值必須正態分布,但是在線性回歸的情況下,情況并非如此C)線性回歸和邏輯回歸誤差值都必須正態分布D)線性回歸和邏輯回歸誤差值都不能正態分布答案:A解析:[單選題]5.下列方法中,用于向文件中寫內容的是()A)openB)writeC)closeD)read答案:B解析:[單選題]6.對于HBase表設計描述錯誤的是?A)一張表可以創建多個ColumnFamilyB)TTL默認為一天C)Region建議預先創建D)MaxVersion無法人為修改答案:D解析:[單選題]7.如果x=5.5,則表達式x>0andx==int(x)的運算結果為;表達式x>0orx==int(x)的運算結果為?A)True、FalseB)False、TrueC)True、TrueD)False、False答案:B解析:[單選題]8.下列關于運算符優先級的說法中,不正確的一個是()A)運算符按照優先級順序表進行運算B)同一優先級的運算符在表達式中都是按照從左到右的順序進行運算的C)同一優先級的運算符在表達式中都是按照從右到左的順序進行運算的D)括號可以改變運算的優先次序答案:C解析:[單選題]9.()就是?平臺提供的數據超過一定規模后,產生的用戶交互會越少?。A)逆向互作用定律B)最小數據原則C)最大交互原則D)數據-交互平衡原則答案:A解析:[單選題]10.python中,()是字符串格式化的方法A)countB)formatC)inD)replace答案:B解析:[單選題]11.某大數據運維人員想通過shell命令上傳某個文件至HDFS文件系統中。以下哪個命令能幫助他完成這個操作?A)-catB)-uploadC)-putD)-get答案:C解析:[單選題]12.()是指理解挖掘項目的目標業務需求。A)業務理解B)數據理解C)數據準備D)數據建模答案:A解析:根據CRISP-DM(cross-industrystandardprocessfordatamining,跨行業數據挖掘標準流程)模型,業務理解是指從業務的角度了解項目的要求和最終目的,并將這些目的與數據挖掘的定義以及結果結合起來。[單選題]13.正是由于BP神經網絡的強大的表示能力,它經常遭遇(__),其訓練誤差持續降低,但測試誤差卻可能上升。A)欠擬合B)誤差過大C)誤差過小D)過擬合答案:D解析:[單選題]14.2='ZedShaw'print(2)上述代碼的執行結果為()。A)2B)ZedShawC)can'tassigntoliteralD)invalidsyntax答案:C解析:[單選題]15.()指從?數據視角?提出問題、在?數據層次?上分析問題、?以數據為中心?解決問題,以及將?數據?當作決策制定的決定因素,提高決策制定的信度與效度。A)、模型驅動型決策支持B)、數據驅動型決策支持C)、任務驅動型決策支持D)、算法驅動型決策支持答案:B解析:[單選題]16.()可以為遠程客戶端提供執行Hive查詢服務。A)MetastoreB)HiveServer2C)BeelineD)MySQL答案:B解析:[單選題]17.或圖通常稱為()A)框架網絡B)語義圖C)博亦圖D)狀態圖答案:D解析:[單選題]18.下列有關KNN算法的流程順序,描述正確的是()①確定K的大小,和距離的計算方法②根據K個樣本的所屬類別,投票決定測試樣本的類別歸屬③計算訓練集樣本與測試樣本的距離,選出K個與測試樣本最相似的樣本A)①②③B)③②①C)①③②D)②①③答案:C解析:[單選題]19.下面哪種圖matplotlib不可以繪制()A)球體B)矩形C)折線D)散點答案:A解析:[單選題]20.執行引擎的類型包括:()。A)行執行引擎B)向量化執行引擎C)行列混合執行引擎D)以上都是答案:D解析:[單選題]21.大數據的核心就是()。A)告知與許可B)預測C)匿名化D)規模化答案:B解析:[單選題]22.執行以下代碼段x=[i**2foriinrange(3)]print(x)時,輸出為()。A)[0,1,2]B)[0,1,4]C)[1,2,3]D)[1,2,9]答案:B解析:[單選題]23.RDD默認的存儲級別是()。A)MEMORY_ONLYB)MEMORY_ONLY_SERC)MEMORY_AND)DISKD.MEMORY_AND_DISK_SER答案:A解析:RDD存儲級別定義。[單選題]24.下列符號中,表示Python中單行注釋的是()。A)#B)//C)D)???答案:A解析:[單選題]25.關于泛在電力物聯網特征的描述,不正確的選項是()。A)狀態全面感知B)信息高效處理C)應用便捷靈活D)客戶多種多樣答案:D解析:[單選題]26.(__)主要包括數據科學中的新理念、理論、方法、技術和工具以及數據科學的研究目的、研究內容、基本流程、主要原則等。A)理論基礎B)數據管理C)基礎理論D)數據產品答案:C解析:[單選題]27.主鍵的建立有()種方法A)一B)四C)二D)三答案:D解析:[單選題]28.組合多條SQL查詢語句形成組合查詢的操作符是()A)SELECTB)ALLC)LINKD)UNION答案:D解析:[單選題]29.下列說法中正確的是()A)對于大數據而言,最基本、最重要的要求是減少錯誤、保障質量。因此大數據的搜集要盡量精確。B)谷歌流感趨勢充分體現了數據重組和擴展對數據價值的重要意義。C)大數據時代,數據就是一座金礦,而大數據思維是打開這座礦山的鑰匙。D)大數據時代還是看重因果關系。答案:C解析:[單選題]30.工人月工資(元)依勞動生產率(千元)變化的回歸直線方程為y=60+90x,下列判斷正確的是()A)勞動生產率為1000元時,工資為50元B)勞動生產率提高1000元時,工資提高150元C)勞動生產率提高1000元時,工資提高90元D)勞動生產率為1000元時,工資為90元答案:C解析:[單選題]31.在支持向量機中,?間隔?是指(__)。A)非支持向量到劃分超平面間的距離之和B)支持向量之間的距離C)支持向量和非支持向量之間的距離D)支持向量到超平面的距離之和答案:D解析:[單選題]32.LSM含義是?A)日志結構合并樹B)二叉樹C)平衡二叉樹D)基于日志結構的合并樹答案:A解析:A.日志結構合并樹【LSM,TheLog-StructuredMergeTree】B.二叉樹【BT】C.平衡二叉樹【AVL樹】D.基于日志結構的合并樹【LSM樹】[單選題]33.下面哪個不屬于循環神經網絡的輸出模式A)單輸出B)多輸出C)同步多輸出D)異步多輸出答案:C解析:[單選題]34.RNN不同于其它神經網絡的地方在于()。A)實現了記憶功能B)速度快C)精度高D)易于搭建答案:A解析:[單選題]35.下列關于數據產品的說法錯誤的是()。A)數據產品的存在形式是數據集B)與傳統物質產品不同的是,數據產品的消費者不僅限于人類用戶,還可以是計算機以及其他軟硬件系統C)數據產品不僅包括數據科學項目的最終產品,也包括其中間產品以及副產品D)數據產品開發涉及數據科學項目流程的全部活動答案:A解析:數據產品的存在形式不僅限于數據集,還包括文檔、知識庫、應用系統、硬件系統、服務、洞見、決策或它們的組合。[單選題]36.HBase中有兩種讀取數據函數,分別是get()方法和()方法A)set()B)scan()C)fileter()D)scanner()答案:B解析:[單選題]37.SparkJob默認的調度模式(___)A)隨機B)FAIRC)FIFOD)運行時指定答案:C解析:[單選題]38.SQL語言具有兩種使用方式,分別稱為交互式SQL和()A)提示式SQLB)多用戶SQLC)嵌入式SQLD)解釋式SQL答案:C解析:[單選題]39.df.tail()這個函數是用來()。A)用來創建數據B)用來展現數據C)用來分析數據D)用來刪除數據答案:B解析:tail()函數查看最后幾條數據,類似的,head()查看前幾行數據,sample()查看隨機幾行數據。[單選題]40.定義域為{1,2,3}的離散屬性也可稱為稱為(__)。A)無序屬性B)有序屬性C)連續屬性D)離散屬性答案:B解析:[單選題]41.下列算法中:①KNN算法;②線性回歸;③邏輯回歸。可以用神經網絡構建的算法是()。A)①②B)②③C)①②③D)以上都不是答案:B解析:KNN算法是關于距離的學習算法,沒有任何參數,所以無法用神經網絡構建。[單選題]42.當前傳統關系型數據庫主要面臨的挑戰是(A)數據量爆炸式增長,要求數據處理平臺具備彈性擴展能力。B)數據處理時效性需求提高,要求數據處理平臺速度夠快。C)多類型數據融合,要求數據處理平臺功能更加強大。D)以上全都正確。答案:D解析:[單選題]43.Scikit-Learn中,()可以實現整數分類值轉化為獨熱向量。A)OridinalEncoderB)OneHotEncoderC)LableEncoderD)AutoEncoder答案:B解析:OneHot編碼是將整數分類值轉化為獨熱向量。[單選題]44.BASE原則的含義不包括()A)基本可用B)柔性狀態C)最終一致D)基礎條件答案:D解析:[單選題]45.以下()屬于NoSQL數據庫中Key-Value的缺點。A)不記錄結構信息B)查詢性能不高,缺乏統一查詢語法C)功能相對有限D)功能相對有限,不易于做分布式集群答案:A解析:[單選題]46.學生成績屬于下列哪類數據A)結構化數據B)非結構化數據C)半結構化數據D)準結構化數據答案:A解析:[單選題]47.對MapReduce計算框架中生成的鍵值對的說法正確的是()。A)可以有相同的鍵,值必須唯一B)可以有相同的值,鍵必須唯一C)可以有相同的鍵,也可以有相同的佳D)鍵和值都必須唯一答案:C解析:[單選題]48.Spark的特點不包括()。A)速度快B)通用性C)易用性D)單一操作性答案:D解析:Spark是一個快速、通用和易于使用的計算平臺。[單選題]49.以下可以在字符串中表示單引號的是()。--A)\"B)\\'C)\'D)'答案:C解析:[單選題]50.在HBase中,Scan類的()方法設置時間戳范圍A)setTimeRange()B)setTimeStamp()C)setMaxVersions()D)setRange()答案:A解析:[單選題]51.關于FusionInsightHDStreaming的Supervisor描述正確的是?A)Supervisor是在Topology中接受數據然后執行處理的組件B)Supervisor負責接受Nimbus分配的任務,啟動和停止屬于自己管理的Worker進程C)Supervisor負責資源分配和任務調度D)Supervisor是運行具體處理邏輯的過程答案:B解析:[單選題]52.如果在大型數據集上訓練決策樹。為了花費更少的時間來訓練這個模型,下列哪種做法是正確的()A)增加樹的深度B)增加學習率C)減小樹的深度D)減少樹的數量答案:C解析:決策樹深度越深,在訓練集上誤差會越小,準確率越高。但是容易造成過擬合,而且增加模型的訓練時問間。對決策樹進行修剪,減小樹的深度,能夠提高模型的訓練速度,有效避免過擬合。[單選題]53.下列Python語句正確的是()A)min=xifx<yelseyB)max=x>y?x:yC)if(x>y)printxD)whileTrue:pass答案:D解析:[單選題]54.關于DBSCAN聚類方法,說法錯誤的是()A)、該方法時是一種經典的基于密度的聚類算法B)、該方法采用密度作為劃分簇的依據C)、該方法把具有足夠密度的區域將被劃分為一簇D)、該方法用密度劃分簇,密度無法可達的點標記下一個簇。答案:D解析:第2部分:多項選擇題,共23題,每題至少兩個正確答案,多選或少選均不得分。[多選題]55.關于Flume,下列說法錯誤的是?A)Flume級聯節點之間的數據傳輸支持加密B)Flume支持多級聯和多路復用C)Source到Channel到Sink等進程內部有加密的必要D)Flume級聯節點之間的數據傳輸不支持壓縮答案:CD解析:[多選題]56.從結構化角度來看,數據可分為()。A)結構化數據B)非結構化數據C)無結構化數據D)半結構化數據答案:ABD解析:[多選題]57.Nimbus在Streaming架構中的功能包括?A)監控任務執行狀態B)任務調度C)啟動/關閉工作進程D)資源分配答案:ABD解析:[多選題]58.Flink窗口按分割標準劃分為以下哪幾種?A)容量窗口B)時間窗口C)事件窗口D)滾動窗口答案:BC解析:[多選題]59.在正則化公式中,λ為正則化參數,關于λ的描述正確的是()。A)若正則化參數λ過大,可能會導致出現欠擬合現象B)若λ的值太大,則梯度下降可能不收斂C)取一個合理的λ值,可以更好地應用正則化D)如果令λ的值很大的話,為了使CostFunction盡可能的小,所有θ的值(不包括θ0)都會在一定程度上減小答案:ABCD解析:正則化參數太小容易產生過擬合,太大容易產生欠擬合。[多選題]60.下列函數屬于二元通用函數(binaryuniversalfunctions)的有()。A)addB)substractC)multiplyD)power答案:ABCD解析:二元函數是指函數方程式中包含兩個自變量,ABCD都滿足。[多選題]61.大數據參考架構的三個層次包含()。A)角色B)活動C)邏輯構件D)功能組件答案:ABD解析:GB/T35589-2017《信息技術大數據技術參考模型》描述了大數據的參考架構,包括角色、活動的功能組件以及它們之間的關系。[多選題]62.決策樹遞歸返回的條件為()。A)訓練數據集使用完B)所有的類標簽完全相同C)特征用完D)遇到丟失值答案:BC解析:決策樹的生成是一個遞歸過程。在決策樹基本算法中,有三種情形會導致遞歸返回:①結點包含的樣本全屬于同一類別,無須劃分;②當前屬性集為空,或是所有樣本在所有屬性上取值相同,無法劃分;③當前結點包含的樣本集合為空,不能劃分。[多選題]63.關于子查詢以下說法正確的是A)外層查詢返回結果之后,執行內層查詢B)先執行子查詢,再執行外層查詢C)對于子查詢返回的結果,外層查詢只執行一次D)外層查詢返回的每行結果都與內層查詢結果進行比較答案:BD解析:[多選題]64.下列哪些指標可以用來評估線性回歸模型()?A)R-squaredB)AdjustedR-SquaredC)FStatisticsD)RMSE/MSE/MAE答案:ABCD解析:[多選題]65.遇到以下()情況,視圖數據操作可能會失敗。--A)視圖涉及多張數據表B)沒有滿足視圖的基本表對字段的約束條件C)創建視圖的SELECT字段含有MAX()函數D)定義視圖的SELECT語句中使用了GROUPBY答案:ABCD解析:[多選題]66.以下哪些數據可以轉化為Dataset或DataFrame?A)JSONB)JAVAStringC)JPGD)MySqlTable答案:BD解析:[多選題]67.世界上三大Hadoop發行版供應商A)ApacheB)GoogleC)HortonworksD)Cloudera答案:ACD解析:[多選題]68.關于大數據的內涵,以下理解正確的是()A)大數據還是一種思維方式和新的管理、治理路徑B)大數據里面蘊藏著大知識、大智慧、大價值和大發展C)大數據在不同領域,又有不同的狀況D)大數據就是很大的數據答案:ABCD解析:[多選題]69.Redis中Key的expire操作適合用于以下哪些應用場景?A)存儲特定用戶所有歷史信息B)限時的優惠活動信息C)限制網站訪客訪問頻率D)網站積分排行榜答案:BCD解析:[多選題]70.Spark那個組件不是用于支持實時計算需求(___)A)SparkSQLB)SparkStreamingC)SparkGraphXD)SparkMLLib答案:ACD解析:[多選題]71.以下說法正確的是()A)數組第一維的大小可以通過ndim()函數獲得B)數組的形狀可以通過shape()獲得C)數組元素的類型通過dtype屬性獲得D)數組元素的字節數可以用過itemsize獲得答案:ABCD解析:[多選題]72.Streaming的處理節點Bolt中,可以完成以下哪些操作?A)連接運算B)過濾(Filter)C)連接數據庫D)業務處理答案:ABCD解析:[多選題]73.什么樣的計算場景不適合MapReduce來提速A)數據量很小B)繁雜的小文件C)事務處理D)只有一臺機器的時候答案:ABCD解析:[多選題]74.對于刪除操作以下說法正確的是()A)dropdatabase數據庫名:刪除數據庫B)deletefrom表名;刪除表中所有記錄條C)deletefrom表名where字段名=值;刪除符合條件的記錄條D)droptable表名;刪除表答案:ABCD解析:[多選題]75.Spark提交工作的方式有()。A)ClientB)ClusterC)StandaloneD)YARN答案:AB解析:Spark提交作業的方式是Client和Cluster。[多選題]76.作填充地圖時需要先將()相關字段轉化為地理角色,并將生成的經緯度分別綁定到?橫軸?和?縱軸?區域中。A)國家B)省份C)城市D)銷售額答案:ABC解析:[多選題]77.假設檢驗中,首先需要提出零假設和備擇假設,零假設是(),備擇假設是()。A)只有出現的概率大于閾值才會被拒絕的,只有零假設出現的概率大于閾值才會被承認的B)希望推翻的結論,希望證明的結論C)只有出現的概率小于閾值才會被拒絕的,只有零假設出現的概率小于閾值才會被承認的D)希望證明的結論,希望推翻的結論答案:BC解析:略第3部分:判斷題,共19題,請判斷題目是否正確。[判斷題]78.針對不同的數據來源,需要先分析其數據特征,例如一般網站產生的日志特點是數據星大,價值密度高,數據的業務種類多且涵蓋之前的數據。A)正確B)錯誤答案:錯解析:[判斷題]79.pip命令也支持擴展名為A)正確B)錯誤答案:對解析:[判斷題]80.Hadoop的NameNode用于存儲文件系統的元數據A)正確B)錯誤答案:對解析:[判斷題]81.字符串編碼格式GBK使用_2個字節表示一個漢字。A)正確B)錯誤答案:對解析:[判斷題]82.在MaCompute中,通常使用SQLDML中的UPDATE更新MaxCompute表或者分區中的數據。A)正確B)錯誤答案:錯解析:[判斷題]83.進行PCA降維時需要計算協方差矩陣。()A)正確B)錯誤答案:對解析:[判斷題]84.Flume中輪詢調度(RoundRobinScheduling)算法就是以輪詢的方式依次請求不同的服務器,它是一種有狀態調度。A)正確B)錯誤答案:錯解析:[判斷題]85.列表對象的append()方法屬于原地操作,用于在列表尾部追加一個元素。A)正確B)錯誤答案:對解析:[判斷題]86.Reduce階段分組后的數據可表示為key-{value_list},即一個鍵和若干個值的組合。()A)正確B)錯誤答案:對解析:[判斷題]87.個變量相關,它們的相關系數r可能為0這句話()A)正確B)錯誤$;答案:對解析:[判斷題]88.數據產品不僅包括數據科學項目的最終產品,而且也包括其中間產品以及副產品。()A)正確B)錯誤答案:對解析:[判斷題]89.在HBase中
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 口腔科用生物材料性能考核試卷
- 演出經紀人職業素養提升與道德規范踐行考核試卷
- 礦用設備虛擬現實維修培訓考核試卷
- 電影道具制作中的藝術表現考核試卷
- 紡織品企業戰略合作伙伴關系管理考核試卷
- 核果類水果種植園防寒保暖考核試卷
- 電纜的絕緣材料耐熱性能研究考核試卷
- 遼寧省阜新市清河門區2025屆三下數學期末聯考模擬試題含解析
- 濟寧醫學院《機器人學》2023-2024學年第二學期期末試卷
- 泉州海洋職業學院《三維動畫綜合實訓》2023-2024學年第一學期期末試卷
- 2024年內蒙古師范大學招聘事業編制人員考試真題
- (二模)2025年河南省五市高三第二次聯考歷史試卷(含答案)
- 《勞動項目五:煮雞蛋》(教案)-2024-2025學年人教版勞動三年級上冊
- (三模)廣西2025屆高中畢業班4月份適應性測試 英語試卷(含答案解析)
- (四調)武漢市2025屆高中畢業生四月調研考試 物理試卷(含答案)
- 福建省部分地市校(福州廈門泉州三明南平莆田漳州)高三下學期3月質量檢測化學試題(原卷版)
- 2025年福建省能源石化集團有限責任公司招聘筆試參考題庫含答案解析
- 駕校管理系統答辯
- 建筑工程分部分項工程劃分表(新版)
- (新湘科版)六年級下冊科學知識點
- TSG11-2020 鍋爐安全技術規程
評論
0/150
提交評論