大數據開發基礎(習題卷18)_第1頁
大數據開發基礎(習題卷18)_第2頁
大數據開發基礎(習題卷18)_第3頁
大數據開發基礎(習題卷18)_第4頁
大數據開發基礎(習題卷18)_第5頁
已閱讀5頁,還剩19頁未讀 繼續免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

試卷科目:大數據開發基礎大數據開發基礎(習題卷18)PAGE"pagenumber"pagenumber/SECTIONPAGES"numberofpages"numberofpages大數據開發基礎第1部分:單項選擇題,共57題,每題只有一個正確答案,多選或少選均不得分。[單選題]1.a=True,b=False,c=True,以下關系表達式值為True的是?A)aandbandcB)aandnotbornotcC)notaandcorbD)bandnot(aandnotc)答案:B解析:[單選題]2.以下關于過擬合與欠擬合說法正確的是(___)A)欠擬合無法徹底避免B)過擬合可采取的方法有:在決策樹學習中擴展分支等C)過擬合模型表現為在訓練集上具有高方差和低偏差D)泛化誤差是模型響應訓練數據而變化的程度答案:C解析:[單選題]3.相對于HadoopMapReduce1.0,Spark的特點不包括()。A)速度快B)并發多C)通用性D)易用性答案:B解析:相較于HadoopMapReduce,Spark的特點為速度快、通用性和易用性。[單選題]4.使用CREATETABLE語句的()子句,在創建基本表時可以啟用全文本搜索A)FULLTEXTB)ENGINEC)FROMD)WHRER答案:A解析:[單選題]5.執行以下代碼段classA:def__init__(self):self.__i=2self.j=3defdisplay(self):print(self.__i,self.j)classB(A):def__init__(self):super().__init__()self.__i=4self.j=5c=B()c.display()時,輸出為()。A)23B)43C)25D)45答案:C解析:[單選題]6.智能健康手環的應用開發,體現了()的數據采集技術的應用。A)統計報表B)網絡爬蟲C)API接口D)傳感器答案:D解析:[單選題]7.在HBase的表的每個區域是由表中的()的子集構成。A)行B)列C)單元D)塊答案:A解析:[單選題]8.依據國網公司數據管理辦法,堅持(),建立公司數據共享負面清單制度。A)以共享為原則、不共享為例外B)以不共享為原則、共享為例外C)誰主管誰負責D)誰使用誰負責答案:A解析:[單選題]9.用Pyinstall工具把Python源文件打包成一個獨立的可執行文件,使用的參數是:A)-DB)-LC)-iD)-F答案:D解析:[單選題]10.出現在datanode的VERSION文件格式中但不出現在namenode的VERSION文件格式中的是A)namespaceIDB)storageIDC)storageTypeD)layoutVersion答案:B解析:其他三項是公有的。layoutVersion是一個負整數,保存了HDFS的持續化在硬盤上的數據結構的格式版本號;namespaceID是文件系統的唯一標識符,是在文件系統初次格式化時生成的;storageType表示此文件夾中保存的是數據節點的類型[單選題]11.以下哪種機制使Flink能夠實現窗口中無序數據的有序處理?A)窗口B)有狀態處理C)檢查點D)事件時間答案:D解析:[單選題]12.Hive中的這條命令?ALTERTABLEemployeelADDcolumns答案:columnlstring.?是什么含義?A)創建表B)刪除表C)添加列D)修改文件格式答案:C解析:[單選題]13.當Hive提供的內置函數無法滿足業務處理需要時,此時就可以考慮使用用戶自定義函數。()作用于單個數據行,產生一個數據行作為輸出,例如:數學函數,字符串函數。A)UAFB)UDFC)UDAFD)UDTF答案:B解析:[單選題]14.推進營配貫通優化提升,貫通率提升()A)5%B)7%C)10%D)15%答案:A解析:[單選題]15.在fusionlnsight產品中,關于kafka的topic.以下描述不正確的是?A)topic的partition數量可以創建時配置B)每個topic只能被分成一個partition區C)每條發布到kafka的消息都有一個類別,這個類別被稱為topic.也可以理解為一個存儲消息的隊列D)每個partition在存儲層面對應一個log文件,log文件中記錄了所有的消息數據答案:B解析:[單選題]16.在電子商務網站進行網購時,用戶的點擊流數據會被實時發送到后端的大數據分析平臺進行處理,平臺根據用戶的特征,找到與其購買興趣匹配的其他用戶群體,再把其他用戶曾經購買過而該用戶還沒購買過的相關商品推薦給該用戶。這個過程需要()A)高效率性。B)高精確性。C)明確的因果關系。D)符合用戶需求。答案:A解析:[單選題]17.大數據平臺核心分布式存儲與計算組件采用Hadoop技術體系中的分布式存儲、分布式計算框架及Spark等開源產品和技術,實現對數據的安全控制和管理功能,其中分布式存儲不包括()。A)HDFSB)PostgresqlC)HiveD)HBase答案:B解析:Postgresql并非分布式存儲。[單選題]18.ApacheHadoop通過在多個主機上復制數據來達到可用性,因此不需要在主機上進行()存儲A)標準RAID級別B)RAIDC)ZFSD)操作系統答案:B解析:[單選題]19.核矩陣是(__)的。A)沒有規律B)半正定C)正定D)樣本矩陣答案:B解析:[單選題]20.在淘寶網購物時,當你購買了?汽車防盜鎖?之后,淘寶網會自動提示你與你購買相同物品的其他客戶還購買了汽車坐墊。這個案例體現了大數據思維的()A)大數據強調因果性B)大數據強調相關性C)大數據強調精確性D)大數據強調抽樣答案:B解析:[單選題]21.下面代碼的輸出結果是:forsin"HelloWorld":ifs=="W":continueprint(s,end="")A)HelloorldB)HelloC)WorldD)HelloWorld答案:A解析:[單選題]22.數據可視化的方法論基礎是()。A)統計圖表B)視覺編碼C)圖論D)圖形符號學答案:B解析:數據可視化的方法體系的方法論基礎主要是指"視覺編碼"。"視覺編碼"為其他數據可視化方法提供了方法論基礎,奠定了數據可視化方法體系的根基。[單選題]23.舍恩伯格在《大數據時代:生活、工作與思維的大變革》一書中明確指出,大數據時代最大的轉變就是思維方式的三種轉變,其中不包括()A)全樣而非抽樣B)效率而非精確C)相關而非因果D)務實而非務虛答案:D解析:[單選題]24.已知文件abc.txt的內容如下:Hello,AB通過如下代碼讀取上述文件的內容,讀取的結果為()。f=open('abc.txt','r')content=f.read(7)print(content)A)HellB)HelloC)Hello,D)Hello,A答案:D解析:[單選題]25.在Scipy中,想要生成20個服從正態分布的隨機數使用函數()。A)stats.uniform.rvs(size=20)B)stats.norm.rvs(size=20)C)stats.beta.rvs(size=20)D)stats.poisson.rvs(size=20)答案:B解析:uniform均勻分布,norm正態分布,beta貝塔分布,poisson泊松分布。[單選題]26.Spark的()組件用于支持實時計算需求。A)SparkSQLB)SparkStreamingC)SparkGraphXD)SparkMLLib答案:B解析:[單選題]27.以下哪個不屬于hadoop的核心構成A)HDFSB)MapReduceC)SparkD)YARN答案:C解析:[單選題]28.關于字符串的說法中,下列描述錯誤的是()。A)字符串創建后可以被修改B)字符串可以使用單引號、雙引號和三引號定義C)轉義字符\n表示換行D)格式符均由%和說明轉換類型的字符組成答案:A解析:[單選題]29.對銀行業而言,做好大數據分析應用的前提是()A)增加統計種類B)增加營業網點C)增加數據來源D)開展專項活動答案:C解析:[單選題]30.表達式eval('500/10')的結果是:A)?500/10?B)500/10C)50D)50.0答案:D解析:[單選題]31.下列哪些不是ZooKeeper的特點()A)順序一致性B)原子性C)多樣系統映像D)可靠性答案:C解析:[單選題]32.查看一個分區表都有哪些分區,正確的是:()(不是分區鍵,是分區內容)。A)SHOW<table_name>B)DESC<table_name>C)SHOWPARTITIONS<table_name>D)DESCPARTITIONS<table_name>答案:C解析:[單選題]33.可視化中的組件樣式不包括()A)標題B)自適應顯示C)標簽D)軸線答案:C解析:可視化的組件樣式:標題、圖例、軸線、橫向網格線、縱向網格線、背景、自適應提示、交互屬性[單選題]34.決策樹中的葉結點對應于()A)屬性B)樣本C)決策結果D)標簽值答案:C解析:[單選題]35.Flume將數據從產生、傳輸、處理并最終寫入目標的路徑的過程抽象為()。A)文件系統B)數據流C)數據單元D)列表答案:B解析:[單選題]36.下列關于關鍵詞提取的說法錯誤的是?A)關鍵詞提取是指借用自然語言處理方法提取文章關鍵詞B)TF-IDF模型是關鍵詞提取的經典方法C)文本中出現次數最多的詞最能代表文本的主題D)這個問題設計數據挖掘,文本處理,信息檢索等領域答案:C解析:[單選題]37.運行下面代碼,輸出結果是()。D={-2,-1,0,1,2,3}n=d.pop()Print(n)A)-2B)2C)不確定D)3答案:C解析:集合中元素是無序的。[單選題]38.進入要操作的數據庫TEST用以下哪一項()A)INTESTB)SHOWTESTC)USERTESTD)USETEST答案:D解析:[單選題]39.()是指幾組不同的數據中均存在一種趨勢,但當這些數據組組合在一起后,這種趨勢將消失或反轉。A)辛普森悖論B)大數據悖論C)大數據偏見D)幸存者偏差答案:A解析:辛普森悖論是概率和統計學中的一種現象,即幾組不同的數據中均存在一種趨勢,41但當這些數據組組合在一起后,這種趨勢將消失或反轉。例如,在腎結石治療數據分析中,比較兩種腎結石治療的成功率。[單選題]40.以下()組件負責控制系統資源的分配,防止過量業務負載對系統的沖擊而導致業務擁塞。A)GTMB)WLMC)CND)DN答案:B解析:[單選題]41.下面不屬于NoSQL的有(__)。A)ORACLEB)RedislabsC)couchbaseD)paradigm4答案:D解析:[單選題]42.Sigmoid函數作為神經元激活函數的特點是()。A)連續但不光滑B)不連續但光滑C)連續且光滑D)不連續且不光滑答案:C解析:[單選題]43.運用機器學習的相關技術對詞語的情感進行分類。機器學習的方法通常需要先讓分類模型學習訓練數據中的規律,然后用訓練好的模型對測試數據進行預測。以上描述屬于哪種類型的詞語級情感分析A)基于詞典的分析方法B)基于網絡的分析方法C)基于語料庫的分析方法D)其他答案:C解析:[單選題]44.創建Loader作業時,可以在以下()步驟中設置Map數。A)輸出B)輸入設置C)轉換D)基本信息答案:A解析:[單選題]45.PageRank是一個函數,它對Web中的每個網頁賦予一個實數值。它的意圖在于網頁的PageR.ank越高,那么它就()。A)相關性越高B)越不重要C)相關性越低D)越重要答案:D解析:[單選題]46.什么是大數據使用的最可靠方法?A)大數據源B)樣本數據源C)規模大D)大數據與樣本數據結合答案:D解析:[單選題]47.耦合性和內聚性是對模塊獨立性度量的兩個標準。下面敘述中正確的是A)降低耦合性提高內聚性有利于提高模塊的獨立性B)耦合性是指一個模塊內部個元素間彼此結合的緊密程度C)提高耦合性降低內聚性有利于提高模塊的獨立性D)內聚性是模塊間相互連接的緊密程度答案:A解析:[單選題]48.FusionlnsightManager對服務的管理操作,下面說法錯誤酌是?A)可對服務進行啟停重啟操作B)可以添加和卸載服務C)可設置不常用的服務隱藏或顯示D)可查看服務的當前狀態答案:C解析:[單選題]49.Hadoop框架中最核心的設計是什么?A)為海量數據提供存儲的HDFS和對數據進行計算的MapReduceB)提供整個HDFS文件系統的NameSpace(命名空間)管理、塊管理等所有服務C)Hadoop不僅可以運行在企業內部的集群中,也可以運行在云計算環境中D)Hadoop被視為事實上的大數據處理標準答案:A解析:[單選題]50.數據科學處于哪三大領域的重疊之處()。A)數學與統計知識、黑客精神與技能、領域實務知識B)數據挖掘、黑客精神與技能、領域實務知識C)數學與統計知識、數據挖掘、領域實務知識D)數學與統計知識、黑客精神與技能、數據挖掘答案:A解析:[單選題]51.泊松分布是離散型隨機變量分布中相對較難的一種,泊松頻率函數定義為(___)。A)P(X=k)=(λ^k*e^λ)/k!B)P(X=k)=e^k/k!C)p^x(1-p)^(1-x)D)(n!p^k*(1-p)^(n-k))/k!(n-k)!答案:A解析:[單選題]52.如果查詢表A(有3行數據)和表B(有4行數據),使用select*froma,b,返回的查詢結果有多少行A)7B)1C)0D)12答案:D解析:[單選題]53.以下四種描述中,正確的是()A)、大數據和海量數據是同一個事物的不同描述B)、數據和數值是同一個事物的不同描述C)、數據和數字是同一個事物的不同描述D)、以上說法均不正確答案:D解析:[單選題]54.數據湖探索(DataLakeInsight,簡稱DLI)是支持以下()形式的大數據計算分析服務。A)流式處理B)批處理C)流批一體D)都不支持答案:C解析:第2部分:多項選擇題,共23題,每題至少兩個正確答案,多選或少選均不得分。[多選題]55.根據《承德銀行大數據貸后風險預警信號管理辦法(試行)》,在貸后風險預警信號管理階段,客戶經理崗的主要工作包括()等。A)負責對?大數據智能風控平臺?推送的貸后預警信號進行風險排查;B)可采取多種方式聯系客戶完成貸后預警信號核實工作;C)對真實存在的預警信號制定并填寫貸后預警處置措施,同時上報支行預警審批崗審查審批;D)負責執行總、分、支各級審批崗要求落實的貸后預警處置措施,并對相關情況進行持續跟蹤監控及報告;答案:ABCD解析:[多選題]56.數據可視化的特征有()。A)易懂性B)必然性C)片面性D)專業性答案:ABCD解析:[多選題]57.下面說法選項錯誤的是()()A)在一個Agent中,同一個source可以有多個channelB)在一個Agent中,同一個sink可以有多個channelC)在一個Agent中,同一個source只能多1個channelD)在一個Agent中,同一個sink只能有1個channel答案:AD解析:[多選題]58.(__)是基于字符串匹配的分詞方法。A)正向最大匹配法B)逆向最大匹配法C)最少切分D)隱馬爾科夫模型答案:ABC解析:[多選題]59.下面關于GoogleSpanner的描述正確的是:()A)Spanner是一個可擴展的、全布式的數據庫B)在最高抽象層面,Spanner就是一個數據庫,把數片存儲在許多Paxos狀態機上這些機器位于遍布全球的數據中心內C)隨著數據的變化和服務器的變化,Spanner會fl動把數據進行重片,從而有效應對負載變化和處理失敗D)Spanner被設計成可以擴展到幾百萬個機器節點,跨越成百上千個數據中心,具備兒萬億數據庫行的規模答案:ABCD解析:[多選題]60.下列屬于關鍵詞提取算法的有()。A)TF-IDF算法B)TextRank算法C)LSA(潛在語義分析)D)LDA答案:ABCD解析:關鍵詞提取算法包括TF-IDF算法、TextRank算法、LSA(潛在語義分析)/LSI(潛在語義索引)、LDA等。[多選題]61.Hadoop由哪幾部分組成()A)CommonB)hdfsC)YarnD)MapReduce答案:ABCD解析:[多選題]62.下面關于中心極限定理的說法,正確的是()。A)中心極限定理說明,對于大量相互獨立的隨機變量,其均值的分布以正態分布為極限B)中心極限定理說明,對于大量相互獨立的隨機變量,其均值的分布以t分布為極限C)中心極限定理為Z檢驗提供了理論支持D)中心極限定理是數理統計學和誤差分析的基礎答案:ACD解析:中心極限定理說明,對于大量相互獨立的隨機變量,其均值的分布以正態分布為極限。[多選題]63.下列關于python中變量的使用,正確的是()。A)變量不必事先聲明B)變量無須先創建和賦值而直接使用C)變量無須指定類型D)可以使用del釋放資源答案:ACD解析:[多選題]64.以下關于FusionInsight中CarbonData說法正確的有?A)使用Carbon的目的是對大數據即席查詢提供超快速響應。B)Carbon使用輕量級壓縮和重量級壓縮的組合壓縮算法壓縮數據,可以減少60%-80%數據存儲空間,大大節省硬件存儲成本。C)Carbon是一種新型的ApacheHadoop本地文件格式,使用先進的列式存儲.索引.壓縮和編碼技術,以提高計算效率,有助于加速超過PB數量級的數據查詢,可用于更換的交互查詢。D)Carbon也是一種將數據源與Spark集成的高性能分析引擎。答案:ABCD解析:[多選題]65.下面哪些是Spark的組件()。A)SparkStreamingB)MLibC)GraphXD)SparkR答案:ABC解析:Spark的組件包括SparkSQL、SparkStreaming、MLid、GraphX。[多選題]66.神經網絡模型(NeuralNetwork)因受人類大腦的啟發而得名神經網絡由許多神經元(Neuron)組成,每個神經元接受一個輸入,對輸人進行處理后給出一個輸出下列關于神經元的描述中,正確的是()A)每個神經元有一個輸入和一個輸出B)每個神經元有多個輸入和一個輸出C)每個神經元,有一個輸入和多個輸出D)每個神經元有多個輸入和多輸出答案:ABCD解析:[多選題]67.關于數據倉庫Impala的描述正確的是:()A)Impala是由Oracle公司開發的查詢系統B)與Hive類似,Impala也可以直接與HDFS和HBase進行交互C)Impala采用了與商用MPP并行關系數據庫類似的分布式查詢引擎,可以直接從HDFS或者HBase中用SQL語句查詢數據,而不需要把SQL語句轉化成MapReduce任務來執行D)Impala和Hive采用了不同的SQL語法、ODBC驅動程序和用戶接口答案:BC解析:[多選題]68.下列說法中,關于MapReduce性能調優說法正確的是()。A)在數據輸入階段,采用CombineTextInputFormat來作為輸入,可以解決輸入端大量的小文件場景B)在Map階段,減少溢寫次數,可以減少磁盤IOC)在Map階段,減少合并次數,可以縮短MapReduce處理的時間D)在Shuffle階段,盡量給Shuffle提供更多的內存空間,以防止出現內存溢出現象答案:ABCD解析:[多選題]69.下列關于臟數據的說法中,正確的是()A)格式不規范B)編碼不統一C)意義不明確D)與實際業務關系不大答案:ABCD解析:[多選題]70.在使用Spark時,通常只有()情況下考慮對RDD進行序列化處理。A)在完成成本較高的操作之后B)在執行容易失敗的操作之前C)當RDD被重復使用D)當RDD間依賴關系復雜答案:ABC解析:[多選題]71.可視化高維展示技術在展示數據之間的關系以及數據分析結果方面()。A)能夠直觀反映成對數據之間的空間關系B)能夠直觀反映多維數據之間的空間關系C)能夠靜態演化事物的變化及變化的規律D)能夠動態演化事物的變化及變化的規律E.提供高性能并行計算技術的強力支撐答案:BD解析:可視化高維展示技術在展示數據之間的關系以及數據分析結果方面能夠直觀反映多維數據之間的空間關系,以及能夠動態演化事物的變化及變化的規律。[多選題]72.云數據中心的特征A)高設備利用率B)高可用性C)綠色節能D)人工化管理答案:ABC解析:[多選題]73.創建視圖時可用以下()選項完成視圖的安全控制。--A)DEFINERB)UNDEFINEDC)WITHCHECKOPTIOND)SQLSECURITY答案:AD解析:[多選題]74.以下關于HDFS的描述正確的是A)HDFS是一種分布式文件系統B)HDFS是一個高度容錯性的系統,適合部署在廉價的機器上C)HDFS難以支持高吞吐量的數據訪問D)HDFS可以提供一套完整的企業級數據倉庫解決方案答案:AB解析:[多選題]75.以下哪些算子是窄依賴?A)unionB)mapC)filterD)groupBy答案:ABCD解析:[多選題]76.大數據計算服務(MaxCompute,原ODPS)中關于tunnel命令行工具的說法,正確的是:()。A)tunnel上傳到分區表時,會把數據直接上傳到指定的分區中去,不保證業務邏輯B)tunnel命令上傳文件時,不能進行壓縮(注:通過-cp參數進行壓縮)C)tunnel上傳的數據是先寫到臨時目錄,最后確定成功后才寫到結果目錄D)tunnel上傳過程中不加密,數據以明文方式在網絡中傳輸(注:通過https連接就是加密方式)答案:AC解析:[多選題]77.下面有關HBase的描述正確的是()。A)Hbase中每個區域由它所屬于的表中它所包含的第一行及其最后一行來表示B)在初始階段,一個表只有一個區域C)在初始階段,一個表會隨機劃分為多個區域D)Hbase中的每個區域由表中行的子集構成答案:ABD解析:第3部分:判斷題,共16題,請判斷題目是否正確。[判斷題]78.無論是使用單引號或雙引號定義的字符串,使用print()輸出的結果一致。()A)正確B)錯誤答案:對解析:[判斷題]79.在任何時刻相同的值在內存中都只保留一份A)正確B)錯誤答案:錯解析:[判斷題]80.Flink僅支持基于時間窗口操作。A)正確B)錯誤答案:錯解析:[判斷題]81.docker已成為業界容器化的主流技術,大數據組件容器化尚不成熟,目前主流的容器化技術主要用于計算資源管理。A)正確B)錯誤答案:對解析:[判斷題]82.一般而言,分布式數據庫是指物理上分散在不同地點,但在邏輯上是統一的數據庫。因此分布式數據庫具有物理上的獨立性、邏輯上的一體性、性能上的可擴展性等特點。A)正確B)錯誤答案:對解析:[判斷題]83.兩個變量的Pearson相關性系數為零,但這兩個變量的值同樣可以相關A)正確B)錯誤答案:對解析:[判斷題]84.物聯網是收集大數據的重要途徑A)正確B)錯誤答案:對解析:[判斷題]85.移動互聯網實現了人人相連、人物相聯、物物相連。A)正確B)錯誤答

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論