大數據開發基礎(習題卷6)_第1頁
大數據開發基礎(習題卷6)_第2頁
大數據開發基礎(習題卷6)_第3頁
大數據開發基礎(習題卷6)_第4頁
大數據開發基礎(習題卷6)_第5頁
已閱讀5頁,還剩61頁未讀, 繼續免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

試卷科目:大數據開發基礎大數據開發基礎(習題卷6)PAGE"pagenumber"pagenumber/SECTIONPAGES"numberofpages"numberofpages大數據開發基礎第1部分:單項選擇題,共145題,每題只有一個正確答案,多選或少選均不得分。[單選題]1.要級聯刪除用戶創建的表等數據庫對象,使用關鍵字()。A)STRICTB)CASCADEC)USAGE[單選題]2.圖靈獎獲得者JimGray提出的"科學研究第四范式"的全稱為()。A)數據密集型科學發現B)以數據為中心的科學發現,C)數據驅動型的科學發現D)大數據科學研究[單選題]3.互聯網思維核心()A)用戶思維B)迭代思維C)流量思維D)平臺思維[單選題]4.對數據可視化的作用說法不正確的一項是()A)數據分析B)數據過濾C)信息記錄D)橫縱對比[單選題]5.OLTP是什么意思()A)面向過程的實時處理系統B)面向對象的實時處理系統C)面向事務的實時處理系統D)面向系統的實時處理系統[單選題]6.當用戶輸入abc時,下面代碼的輸出結果是:try:n=0n=input("請輸入一個整數:")defpow10(n):returnn**10except:print("程序執行錯誤")A)輸出:abcB)程序沒有任何輸出C)輸出:0D)輸出:程序執行錯誤[單選題]7.下面代碼的輸出結果是:forsin"HelloWorld":ifs=="W":continueprint(s,end="")A)HelloorldB)HelloC)WorldD)HelloWorld[單選題]8.在條件允許的前提下,()對數據安全進行審計,()進行一次全面審計。A)1年/3年B)1季度/1年C)1年/2年D)半年/1年[單選題]9.以下()不是NoSQL數據庫。A)MongoDBB)BigTableC)HBaseD)Access[單選題]10.如果LASSO模型中的懲罰項變大,下列說法正確的是()A)部分回歸系數會變為0B)部分回歸系數會趨近于0,但不會取值為0C)A和B的表述都正確D)以上說法都不正確[單選題]11.下列有關Hive和Impala的對比錯誤的是()。A)Hive與Impala中對SQL的解釋處理比較相似,都是通過詞法分析生成執行計劃B)Hive與Impala使用相同的元數據C)Hive適合于長時間的批處理查詢分析,而Impala適合于實時交互式SQL查詢D)Hive在內存不足以存儲所有數據時,會使用外存,而Impala也是如此[單選題]12.以下關于KafkaPartition偏移量的描述不正確的是?A)每條消息在文件中的位置稱為offset答案:偏移量B)消費者通過答案:offset.partition.topic跟蹤記錄C)唯一標記一條消息D)Offset是一個String型字符串[單選題]13.可以實現數組的除法是哪個函數?A)np.subB)np.addC)np.mulD)np.div[單選題]14.下列關鍵字中,用來引入模塊的是()A)includeB)fromC)importD)continue[單選題]15.執行以下代碼段classGraph():def__init__(self):self.a=10defaction(self):self.a//=4classMyGraph(Graph):def__init__(self):self.a=8self.b=4defaction(self):self.a+=7*2self.b//=2classLastGraph(MyGraph):passg2=LastGraph()g2.action()print(g2.a)時,輸出為()。A)22B)84C)16D)34[單選題]16.a和b為兩個整數,以下關系表達式語法錯誤的是?A)a==bB)abC)a>=bD)a!=b[單選題]17.如果要將讀寫位置移動到文件開頭,需要使用的命令是()。A)closeB)seek(0)C)truncateD)write('stuff')[單選題]18.Python中statsmodel庫和()庫關系密切。A)NumpyB)ScipyC)JiebaD)Pandas[單選題]19.可以對大數據進行深度分析的工具是()。A)淺層神經網絡B)ScalaC)深度學習D)MapReduce[單選題]20.plt.axvspan()函數中的參數alpha的作用是(__)。A)指定圖表網格線的透明度B)指定圖表參考區域透明度C)指定圖表網格線顏色D)指定圖表參考區域顏色[單選題]21.Hbase元數據MetaRegion路由器信息存放在()。A)ZookeeperB)Meta表C)HMasterD)Root表[單選題]22.若arr=np.array([1,2,3,4,5,6,7,8]),則arr[5:8]=12的意義為(__)。A)將第5個和第8個元素改成12B)將第6、7、8個元素修改成12C)將第8個元素賦值給第5個元素D)創建一個全為12的數組[單選題]23.hadoop中什么類提供了連接到HDFS系統并執行文件操作的基本功能()A)FSDirectoryB)DFSClientC)ClientProtocolD)FSInputStream[單選題]24.一元線性回歸方程y=0.7+0.82x,判定系數等于0.64,則x與y的相關系數為()。A)0.82B)0.64C)0.8D)0.7[單選題]25.偽彩色處理和假彩色處理是兩種不同的色彩增強處理方法,說出下面屬于偽彩色增強的處理?A)將景象中的藍天邊為紅色,綠草變為藍色B)用自然色復制多光譜的景象C)將灰度圖經頻域高通/低通后的信號分別送入紅/藍顏色顯示控制通道D)將紅、綠、藍彩色信號分別送入藍、紅、綠顏色顯示控制通道[單選題]26.假設已經配置好PATH環境變量,啟動Hadoop的命令是()。A)start-hdfs.shB)start-fs.shC)start-dfs.shD)start-hadoop.sh[單選題]27.Flink中的DataStream數據流轉不包含以下哪項?A)DatasourceB)TransformationsC)DatasinkD)Actions[單選題]28.HBase中需要根據某些因素來確定一個單元格,這些因素可以視為一個?四維坐標?,下面哪個不屬于?四維坐標??A)行鍵B)關鍵字C)列族D)時間戳[單選題]29.KafkaClusterMirroring工具可以實現以下哪些功能?A)Kafka跨集群數據同步方案B)Kafka單集群內數據備份C)Kafka但集群內數據恢復D)以上全不正確[單選題]30.阿里云MaxCompute中,用于在關系表達式中匹配任意一個字符的是:()。A)'%'B)'#'C)*D)'\'[單選題]31.HAVING子句的位置放在GROUPBY子句之()A)前后都可以B)前C)后D)以上都不對[單選題]32.HDFS的設計者采用了()的概念,實現了一個高度容錯性的系統。A)機器學習B)數據挖掘C)集群計算D)塊復制[單選題]33.下列選項中,執行哪一個命令查看Linux系統的IP配置A)ipconfigB)findC)ifconfigD)arp-a[單選題]34.執行以下代碼段x=[i**2foriinrange(3)]print(x)時,輸出為()。A)[0,1,2]B)[0,1,4]C)[1,2,3]D)[1,2,9][單選題]35.采用Flume傳輸數據過程中,為了防止因Flume進程重啟而丟失數據,推薦使用以下哪種channel類型?A)MemoryChannelB)FileChannelC)JDBCChannelD)HDFSChannel[單選題]36.關于Hadoop中MapReduce說法正確的是()。A)可以沒有Reduce任務B)Reducer輸入為隨機輸入C)Shuffie主要實現數據可視化功能D)一個Reducer只能從一個Map復制所需要的partition[單選題]37.下列選項中,用于刪除缺失值的方法是()A)isnull()B)delete()C)dropna()D)fillna()[單選題]38.np.sqrt(10)的結果是?A)3.1622776601684B)3C)10D)1[單選題]39.4A賬號生命周期管理包括:()A)賬號開通B)賬號變更C)用戶維護、用戶離職D)以上全部[單選題]40.以下關于機器學習,描述錯誤的是:()A)是一門涉及統計學、系統辨識、逼近理論、神經網絡、優化理論、計算機科學、.腦科學等諸多領域的交叉學科B)研究計算機怎樣模擬或實現人類的學習行為,以獲取新的知識或技能C)機器學習強調三個關鍵詞:算法、模型、訓練D)基于數據的機器學習是現代智能技術中的重要方法之一[單選題]41.運行下面程序,輸出的結果是()。DefchanageInt(number2):number2=number2+1print("changeInt:number2=",number2)#調用Number1=2;ChanageInt(number1)print("number:",number1)A)changeInt:number2=3number:3B)changeInt:number2=3number:2C)number:2changeInt:number2=2D)number:2changeInt:number2=3[單選題]42.在一些算法中,為了進行屬性之間的比較或運算,需要把不同屬性的不同變量取值范圍變換成同一范圍,以免使得結果發生扭曲,偏向取值范圍大的變量這一過程稱為()。A)合并B)嘈數據聚合C)歸一化D)數據處理[單選題]43.TF-IDF與一個詞在文檔中的出現次數成(__)。A)正比B)反比C)無關D)冪次[單選題]44.(__)是在不影響數據完整性和數據分析結果準確性的前提下,通過減少數據規模的方式減少數據量,進而提升數據分析的效果與效率。A)數據縮減B)數據加工C)數據清洗D)數據歸約[單選題]45.主鍵的建立有()種方法A)一B)四C)二D)三[單選題]46.()承擔公司網絡安全監督職能,負責公司網絡安全工作監督、檢查與評價,負責組織公司網絡安全事件調查。A)國調中心B)國網安質部C)國網信通部D)網絡安全和信息化領導小組[單選題]47.下面對?ORDERBYpno,level?描述正確的是()。--A)先按level全部升序后,再按pno升序B)先按level升序后,相同的level再按pno升序C)先按pno全部升序后,再按level升序D)先按pno升序后,相同的pno再按level升序[單選題]48.()是數據庫管理系統運行的基本工作單位。A)事務B)數據倉庫C)數據單元D)數據分析[單選題]49.物聯網的核心和基礎是()A)RFIDB)計算機技術C)人工智能D)互聯網[單選題]50.以下關于Saoop數據導入原理的描述中,錯誤的是哪-項?A)Sqoop會根據傳入的num-mappers來確定劃分幾個區域。B)Saoop根據不同的split-by參數值來進行切分,然后將切分出來的區域分配到不同map中。C)num-mappers越大效率越高。D)Saoop在import時,需要指定split-by參數。[單選題]51.執行以下代碼段classGraph():def__init__(self):self.a=10defaction(self):self.a//=4classMyGraph(Graph):def__init__(self):self.a=8self.b=4defaction(self):self.a+=7self.b**=2classLastGraph(MyGraph):passg1=MyGraph()g2=LastGraph()g1.action()g2.action()print(g1.a)print(g2.b)時,輸出為()。A)158B)1516C)1716D)916[單選題]52.下列哪種說法是錯誤的A)除字典類型外,所有標準對象均可以用于布爾測試。B)空字符串的布爾值是False。C)空列表對象的布爾值是False。D)值為0的任何數字對象的布爾值是False。[單選題]53.以下對Velocity相關描述不正確的是()。A)Velocity是指速度快B)實時分析數據處理要求速度快C)大數據中所說的?速度?包括兩種:增長速度和處理速度D)通常而言,處理速度比增長速度快[單選題]54.在HBase數據模型中,不可以作為行鍵的是()。A)字符串B)整數C)二進制串D)并行化的結構[單選題]55.以下關于字典類型的描述,正確的是:A)字典類型可迭代,即字典的值還可以是字典類型的對象B)表達式forxind:中,假設d是字典,則x是字典中的鍵值對C)字典類型的值可以是任意數據類型的對象D)字典類型的鍵可以是列表和其他數據類型[單選題]56.Flume數據采集的過程中,下列選項中能對數據進行過濾和修飾的是?A)SinkB)ChannelC)ChannelselectorD)Interceptor[單選題]57.使用()關鍵字聲明匿名函數。A)functionB)funcC)defD)lambda[單選題]58.()選擇成為支持向量機的最大變數。A)核函數B)樣本空間C)模型D)算法[單選題]59.將python中的.py文件轉換為.pyc文件的組件為()。A)編輯器B)編譯器C)虛擬機D)解釋器[單選題]60.下列關于Hadoop中Shell類說法錯誤的是()A)Shell類是一個繼承類B)Shell類定義了如何在當前文件系統環境中,通過命令進行交互C)Shell類定義了靜態的字符串命令D)Shell類定義了與實現命令的執行相關的屬性[單選題]61.下列哪一個不屬于大數據產業的產業鏈環節?A)數據循環層B)數據源層C)數據分析層D)數據應用層[單選題]62.下面哪個選項不是我們需要Hadoop的主要原因()A)我們需要處理PB級別的數據B)為每個應用建立一個可靠的系統是很昂貴的C)幾乎每天都有結點壞掉D)把一個任務分割成多個子任務的方式是不好的[單選題]63.DRDS的讀策略中不包含:()A)主庫讀B)均衡C)自定義D)主庫寫[單選題]64.假設已從標準庫functools導入reduce()函數,那么表達式reduce(lambdax,y∶x+y,[1,2,3])的值為()。A)NoneB)6C)3D)9[單選題]65.下面()函數不是字符串處理函數。A)TRUNCB)TO_CHARC)SUBSTRD)丨NSTR[單選題]66.以下()不屬于?加強人才隊伍建設?的范疇。A)加強數據管理崗位培訓,重點開展數據管理體系、數據管理理論、數據管理實踐等知識培訓。B)搭建數據管理交流平臺,根據工作推進情況定期舉辦數據管理工作交流座談。C)充分發揮大數據中心、科研產業單位作用,構建數據專業支撐團隊。D)組織各種形式的數據知識競賽等活動。[單選題]67.在HBase中,Scan類的()方法設置時間戳范圍A)setTimeRange()B)setTimeStamp()C)setMaxVersions()D)setRange()[單選題]68.啟動HDFS上的垃圾回收機制只需要配置兩個參數:一個是erval,另外一個是erval,若是erval的值設置為0,則表示()A)表示垃圾檢查點之間的分鐘數為0分鐘B)表示和erval的值相等C)表示自動開啟垃圾回收功能D)表示禁用垃圾回收功能[單選題]69.在Flink技術架構中,以下哪項是流處理和批處理的計算引擎?A)StandaloneB)RuntimeC)FlinkCoreD)DataSteam[單選題]70.MacOS系統的開發者是()A)微軟公司B)惠普公司C)蘋果公司D)IBM公司[單選題]71.文本向量的每個元素表示該詞的()。A)順序B)頻率C)含義D)語義關系[單選題]72.緩解過擬合的一個辦法是允許支持向量機在一些樣本上出錯,()形式適合這種方法。A)硬間隔支持向量機B)軟間隔支持向量機C)線性核函數支持向量機D)多項式核函數支持向量機[單選題]73.一切皆可連,任何數據之間邏輯上都有可能存在聯系,這體現了大數據思維維度中的()。A)定量思維B)相關思維C)因果思維D)檢驗思維[單選題]74.下面哪個Flume功能可以給Event添加Header信息。A)數倉與大數據的并行架構B)低成本高擴震性的傳統數倉架構C)以數倉為核心,大數據平臺為延伸的融合架構D)大數據平臺為核心的架構[單選題]75.在Spark技術中,RDD實現了用戶的邏輯,而(__)是Storage模塊與其他模塊交互最主要的類,它提供了讀和寫Block的接口。A)org.apache.spark.storage.BlockB)org.spark.storage.BlockManagerC)org.apache.spark.BlockManagerD)org.apache.spark.storage.BlockManager[單選題]76.實時處理的步驟中,實時計算的前一步是以下哪一項?.A)實時展示B)實時緩存存儲C)實時采集D)實時落地[單選題]77.程序如下:i=0j=0while(iA)1B)0C)2D)4.5[單選題]78.以下哪項不是深度學習最近火熱的原因()A)神經網絡是一個全新的領域B)需要處理的數據量急劇加大C)計算能力的不斷提升D)深度學習在很多重要領域,例如語音識別和圖像識別等方面取得了重大成就[單選題]79.對于隨機森林和GBDT,下面說法正確的是()。A)在隨機森林的單個樹中,樹和樹之間是有依賴的,而GBDT中的單個樹之間是沒有依賴的B)這兩個模型都使用隨機特征子集,來生成許多單個的樹C)我們可以并行地生成GBDT單個樹,因為它們之間是沒有依賴的D)GBDT訓練模型的表現總是比隨機森林好[單選題]80.F1參數的大小反映了模型的(__)。A)準確度B)誤差C)穩定性D)偏差[單選題]81.下列關于模型能力(modelcapacity指神經網絡模型能擬合復雜函數的能力)的描述,正確的是()A)隱藏層層數增加,模型能力增加B)Dropout的比例增加,模型能力增加C)學習率增加,模型能力增加D)都不正確[單選題]82.一幅灰度均勻分布的圖像,其灰度范圍在[0,255],則該圖像的信息量為()。A)0B)6C)8D)255[單選題]83.給定詞匯表如下:{"B、oB、","ok","like","footB、A、ll","C、A、r"}。則下面句子?B、otlikesfootB、A、ll"的詞袋模型表示為:A)、[11100]B)、[10110]C)、[10010]D)、[01101][單選題]84.BI工具采用哪種分析方式?()A)自助式探索B)圖表展示C)查詢搜索D)人工互助[單選題]85.設計坐出租車收費程序,3公里內按10元收取,超3公里不超10公里按每公里1.5元收取,超過10公里按每公里1.3元收取,請問根據以上情況用什么語句合適A)ifB)if…elif…elseC)whileD)以上都不對[單選題]86.函數如下:defshowNnumber(numbers):forninnumbers:print(n)下面那些在調用函數時會報錯()A)showNumer([2,4,5])B)showNnumber(?abcesf?)C)showNnumber(3.4)D)showNumber((12,4,5))[單選題]87.假設你正在訓練一個LSτM網絡,你有一個10000詞的詞匯表,并且使用一個激活值維度為100的LSTM塊,在每一個時間步中,幾的維度是()A)lB)100C)300D)10000[單選題]88.數據科學是一門以()為主要研究任務的獨立學科。A)數據驅動、數據業務化、數據洞見、數據產品研發和(或)數據生態系統的建設B)數據研發C)數據處理D)數據洞見[單選題]89.下面程序的運行結果是()deffunc(a,b):a=a+breturnab=func(10,30)print(b)A)10B)20C)30D)40[單選題]90.解決多重共線性的方法包括()A)嶺回歸B)主成分回歸C)偏最小二乘回歸D)以上都是[單選題]91.智能數據湖運營平臺指的是以下哪個選項?A)VAS(videoAnalysisService)B)ModelArtsC)cSSD)DAYU[單選題]92.以下哪些方法不可以直接來對文本分類()A)KmeansB)決策樹C)支持向量機D)KNN[單選題]93.調用自定義函數使用()。--A)CALLB)LOADC)CREATED)SELECT[單選題]94.(__)不是常用的噪聲處理方法。A)聚類B)回歸C)分類D)分箱[單選題]95.函數使用哪個關鍵字()。A)funB)defineC)defD)function[單選題]96.假設給定一個長度為n的不完整單詞序列,希望預測下一個字母是什么,如輸入是Predictio(9個字母組成),希望預測第十個字母是什么。適用于解決這個工作的是()。A)循環神經網絡B)全連接神經網絡C)受限波爾茲曼機D)卷積神經網絡[單選題]97.下列選項中,若是哪個節點關閉了,就無法訪問Hadoop集群()A)namenodeB)datanodeC)secondarynamenodeD)yarn[單選題]98.下面關于Region的說法,哪個是錯誤的?A)同一個Region不會被分拆到多個Region服務器B)為了加快訪問速度,.META.表的全部Region都會被保存在內存中C)一個-ROOT-表可以有多個RegionD)為了加速尋址,客戶端會緩存位置信息,同時,需要解決緩存失效問題[單選題]99.以下關于隱馬爾科夫模型中,敘述錯誤的是()。A)是一種有向圖模型B)是一種無向圖模型C)是一種結構簡單的動態貝葉斯網絡D)常被應用于時序數據建模[單選題]100.某工程師正在開發EasticSearch應用,請問下列代碼可以幫助他實現什么功能?A)刪除素引B)創建素引C)維護索引D)更新素引[單選題]101.過濾式特征選擇、包裹式特征選擇與學習器的關系分別是()。A)相關,相關B)相關,不相關C)不相關,相關D)不相關,不相關[單選題]102.引用集合數據類型中的元素選擇sub數組中第一個元素進行查詢,正確的是()A)selectname,subordinates[0]fromemplyees;B)selectname,subordinates[1]fromemplyees;C)selectname,subordinatesfromemplyees;D)以上都不正確[單選題]103.HDFS每個文件被劃分成()大小的多個block,屬于同一個文件的blocks分散存儲在不同DataNode上。A)32MBB)64MBC)128MBD)無法確定[單選題]104.()是指給目標用戶產生的錯誤或不準確的視覺感知,而這種感知與數據可視化者的意圖或數據本身的真實情況不一致。A)視覺假象B)視覺認知C)視覺感知D)數據可視[單選題]105.關于抽象類,下列說法錯誤的是()。A)抽象類中只能有抽象方法B)抽象類能被實例化C)抽象類既包括函數屬性又包括數據屬性D)抽象類同時具備普通類和接口類的部分特性[單選題]106.()情況下,LDA會失敗。A)如果有辨識性的信息不是平均值,而是數據的方差B)如果有辨識性的信息是平均值,而不是數據方差C)如果有辨識性的信息是數據的均值和方差D)以上答案都不正確[單選題]107.基于Boosting的集成學習代表算法不包含()A)AdaboostB)GBDTC)XGBOOSTD)隨機森林[單選題]108.下列哪個選項可以來判斷Hbase表是否存在?A)table.containskey(tableName)B)admin.getTable(TableName)C)adminTableExists(TableNamevalueOf(tableName))D)adminTableExists(tableName)[單選題]109.下列哪個組件可以實現數據庫的導入導出()。A)MahoutB)ZookeeperC)FlumeD)Sqoop[單選題]110.一切事物及事物運動的狀態,不僅包括銷售數據、價格數據可以形成大數據,甚至連顧客情緒(如色彩.空間的感知等)都可以測得,這體現了大數據思維維度中的()A)定量思維B)相關思維C)因果思維D)實驗思維[單選題]111.若X=np.array([[1.,-1.,2.],[2.,0.,0.],[0.,1.,-1.]]),X_scaled=preprocessing.scale(X),則print(X_scaled.mean(axis=0))的輸出結果是(__)。A)[1.0.0.33333333]B)[0.,0.,0.]C)0.444444444D)0[單選題]112.D剛常用的激活函數有()A)sigmoidB)tanhC)ReLUD)以上答案都正確[單選題]113.以下匹配'1ton'和'2ton'及'3ton'的正則表達式是()A)'123ton'B)'1,2,3ton'C)'[123]ton'D)'1|2|3ton'[單選題]114.請閱讀下面一段程序:arr=np.arange(6).reshape(1,2,3)print(arr.transpose(2,0,1))執行上述程序后,最終輸出的結果為()。A)[[[25]][[03]][[14]]]B)[[[14]][[03]][[25]]]C)[[[03]][[14]][[25]]]D)[[[0][3]][[1][4]][[2][5]]][單選題]115.給定訓練樣例集,設法將樣例投影到一條直線上,使得同類樣例的投影點盡可能接近、異類樣例的投影點盡可能遠離,這說的是()算法A)PCAB)SVMC)K-meansD)LDA[單選題]116.下列數據中,不屬于字符串的是()。A)'ab'B)"perfect"'C)"52wo"D)abc[單選題]117.Python不支持的數據類型有A)charB)intC)floatD)list[單選題]118.在情感分析中,下面哪個詞不屬于影響詞?A)識別B)開心C)難過D)無聊[單選題]119.下列有關HBase的跳轉過濾器SkipFilter描述錯誤的是()A)跳轉過濾器可以對用戶提供的過濾器進行包裝B)當被包裝的過濾器遇到某一行中某一列需要過濾時,那么整行數據都將被過濾掉C)被包裝的過濾器必須實現filterKeyValue()方法,否則SkipFilter無法正常工作D)跳轉過濾器不可以對用戶提供的過濾器進行包裝[單選題]120.優化內部管理,促進質效提升,重點圍繞營配貫通和()體系變革兩條主線,打破專業壁壘,打造業務中臺。A)優化客戶服務B)多維精益管理C)營銷服務D)計量計費[單選題]121.下列關于線性模型的描述錯誤的是()。A)支持向量機的判別函數一定屬于線性函數B)在樣本為某些分布情況時,線性判別函數可以成為最小錯誤率或最小風險意義下的最優分類器C)在一般情況下,線性分類器只能是次優分類器D)線性分類器簡單而且在很多期情況下效果接近最優,所以應用比較廣泛[單選題]122.Kafka集群中,Kafka服務端的角色是:()。A)BrokerB)ConsumerC)ZookeeperD)Producer[單選題]123.ApacheHadoop可以在(___)平臺上運行。A)UbuntuB)DebianC)WindowsD)跨平臺[單選題]124.下面關于NewSQL數據庫的描述,錯誤的是:()A)NewSQL數據庫保持了傳統數據庫支持ACID和SQL等特性B)不同的NewSQL數據庫的內部結構基本相同C)都支持關系數據模型D)都使用SQL作為其主要的接口[單選題]125.Hive常被用來處理()場景。A)事務性處理B)批量計算C)實時性計算D)流計算[單選題]126.指出下面正確的說法A)基于像素的圖像增強方法是一種非線性灰度變換B)基于像素的圖像增強方法是基于頻域的圖像增強方法的一種C)基于頻域的圖像增強方法由于常用到傅里葉變換和傅里葉反變換,所以總比基于圖像域的方法計算復雜較高D)基于頻域的圖像增強方法可以獲得和基于空域的圖像增強方法同樣的圖像增強效果[單選題]127.以下哪個框架可以同時滿足實時分析、離線分析、實時檢索的功能A)ApacheHadoopB)FusionInsightHDC)ApacheHBaseD)以上全都正確[單選題]128.以下關于HDPS適合做什么描述不正確的是?A)低延遲讀取B)大文件存儲與訪問C)流式數據讀取D)大數據量吞吐[單選題]129.Python使用()關鍵字定義一個匿名函數A)functionB)funcC)defD)lambda[單選題]130.requests庫的get()函數執行后會返回一個Response類型的對象,其text屬性以()形式存儲響應內容A)網頁B)字符串C)整數D)文本[單選題]131.下列哪一個選項不是StructuredStreaming支持的sink輸出源?A)HBaseB)ConsoleC)KafkaD)HDFS[單選題]132.以下()是對DMM(數據管理成熟度模型)中"已管理級"基本特點的正確表述。A)組織機構的數據管理關鍵活動能夠根據結構自身的反饋以及外部環境的變革進行不斷優化B)組織機構已用定量化的方式管理其關鍵過程的執行過程C)組織機構只有在項目管理過程中執行了D.M給出的關鍵過程,而缺乏機構層次的統籌與管理D)組織機構的數據管理工作超出了項目管理的范疇,由組織機構統一管理其數據管理關鍵過程[單選題]133.Spark是用以下哪種編程語言實現的?A)CB)C++C)JAVAD)Scala[單選題]134.下列關于支持向量機的說法錯誤的是(__)。A)硬間隔支持向量機易出現過擬合的情況B)軟間隔支持向量機的目標函數不是一個二次規劃問題C)松弛變量可用來解決線性不可分問題D)支持向量機可用來進行數據的分類[單選題]135.以下關于異常處理try語句塊的說法,不正確的是。()A)finally語句中的代碼段始終要被執行B)一個try塊后接一個或多個except塊C)一個try語句塊后接一個或多個finally塊D)try塊必須與except或finally塊一起用[單選題]136.下?哪個不是RDD的特點()A)可分區B)可序列化C)可修改D)可持久化[單選題]137.使用sklearn庫進行預測結果的交叉驗證,需要導入一下哪個包()。A)sklearn.linear_modelB)sklearn.model_selectionC)sklearn.naive_bayesD)sklearn.ensemble[單選題]138.下列關于數據整合和分組的說法不正確的是()。A)數據連接可以用concat或merge函數B)axis=1表示軸向連接C)數據分組可以使用mean函數D)使用agg可以自定義多個聚合函數[單選題]139.在實驗集群的master節點使用jps命令查看進程時,終端出現以下哪項能說明Hadoop主節點啟動成功?()A)Namenode,Datanode,TaskTrackerB)Namenode,Datanode,secondaryNameNodeC)Namenode,Datanode,HMasterD)Namenode,JobTracker,secondaryNameNode[單選題]140.下列哪個表達式在Python中是非法的()。A)x=y=z=1B)x=(y=z+1)C)x,y=y,xD)x+=y[單選題]141.()不是HDFS的守護進程。A)SecondaryNameNodeB)DataNodeC)MRAppMaster/YarnChildD)NameNode[單選題]142.對銀行業而言,做好大數據分析應用的前提是()A)增加統計種類B)增加營業網點C)增加數據來源D)開展專項活動[單選題]143.以下關于數據科學相關描述不正確的是()。A)數據科學是數據,尤其是大數據背后的科學B)?數據?是一門科學,答案就在?大數據?手中C)在數據科學出現之前,我們關注的是數據主動的一面,而在數據科學中我們更加重視的是被動作用。D)數據科學的最終研究目標是實現數據、物質和能量之間的轉換。[單選題]144.下列關于分布式數據庫的說法中,錯誤的是A)分布式數據庫系統通常使用較小的計算機系統B)分布式數據庫是物理上分散的數據庫C)分布式數據庫是邏輯上統一的數據庫D)每臺計算機中都一定有DBMS的一份完整拷貝副本第2部分:多項選擇題,共62題,每題至少兩個正確答案,多選或少選均不得分。[多選題]145.Flink中的計算時間包含以下哪幾種?(A)DelayTimeB)ProcessingTimeC)EventTimeD)IngestionTime[多選題]146.(__)可以幫助解決訓練集在特征空間中線性不可分的問題。A)硬間隔B)軟間隔C)核函數D)拉格朗日乘子法[多選題]147.下表是一個購物籃,假定支持度閾值為40%,其中()是頻繁閉項集。ID項集1面包、牛奶、尿布2面包、牛奶、尿布、啤酒3牛奶、尿布、雞蛋4面包、尿布、啤酒、雞蛋5啤酒、雞蛋A)面包、牛奶、尿布B)面包、啤酒C)尿布、啤酒D)啤酒、雞蛋[多選題]148.在FusionInsight集群規劃時,以下哪些集群命名是系統允許的?A)FusionInsight-123B)FusionInsight_123C)FusionInsight123D)123FusionInsight[多選題]149.以下哪些算子是窄依賴?A)unionB)mapC)filterD)groupBy[多選題]150.下列中屬于MapReduce特征的有()。A)以主從結構的形式運行B)容錯機制的復雜性C)任務備份機制的必要性D)數據存儲位置固定[多選題]151.以下關于性能度量,說法正確的是(__)A)聚類結果的?簇內相似度?低且?簇間相似度?高。B)性能度量內部指標包含JC、FM指數、Rand指數等C)外部指標度量結果均在0-1之間,且值越大越好。D)內部指數DBI值越小越好,而DI則相反,值越大越好。[多選題]152.公司組織制定《國家電網公司數據資產管理辦法》是為了()A)貫徹落實公司黨組決策部署B)規范公司數據資產管理C)充分挖掘數據資產價值D)推動公司精益管理和創新發展[多選題]153.以下哪兩個場景最適合使用Spark來代替MR?A)海量數據處理B)逐條實時計算C)迭代計算D)交互查詢[多選題]154.卷積神經網絡可以用于()。A)圖像分類B)目標提取C)圖像分割D)中文分詞[多選題]155.下列說法正確的是()。A)在Map階段對輸入文件的每個內容都解析成一個鍵值對B)在生成每個鍵值對時僅調用一次map函數C)在map函數中,接受一個鍵值對,并陳勝一組中間鍵值對D)在shuffle階段將所有具有相同鍵的鍵值對發送給同一個reduce函數[多選題]156.大數據平臺的業務目標為()A)全面、客觀、真實、及時反映業務運營情況,為各級領導提供企業經營的決策依據B)快速支撐精確管理、精準營銷、精細服務等各類需求C)實現企業數據和應用的有效共享,降本增效D)建立數據全生命周期的安全保障體系,降低數據泄露的風險[多選題]157.下列哪種方法可以用來減小過擬合?()A)更多的訓練數據B)L1正則化C)L2正則化D)減小模型的復雜度[多選題]158.影響基本K-均值算法的主要因素有()A)樣本輸入順序B)模式相似性測度C)聚類準則D)初始類中心的選取[多選題]159.決策樹剪枝的基本策略有(___)。A)預剪枝B)前剪枝C)后剪枝D)下剪枝[多選題]160.關于FusionInsightManager功能說法錯問題有哪些?A)通過FusionInsightManager的Audit設計界面可以查詢每個重要操作B)通過FusionInsightManager不能下載單個組件的客戶端C)集群部署完成后,通過FusionInsightManager不能進行集群擴容,只能通過卸載集群重新搭建來擴容集群D)通過FusionInsightManager的admin告警界面可以查詢每個告警的具體信息[多選題]161.在Spark技術中,下面對Storage模塊中各個類的的主要功能表述正確的是(__)。A)org.apache.spark.storage.BlockManagerMasterActor:在Driver節點上的Actor,負責track所有Slave節點的Block的信息B)org.apache.spark.storage.BlockManagerMaster:Block管理的接口類C)org.apache.spark.storage.BlockObjectWriter:一個抽象類,可以將任何的JVMobject寫入外部存儲系統。注意,它可以支持并發的寫操作。D)org.apache.spark.storage.BlockStore:存儲Block的抽象類。[多選題]162.項目空間(project)是大數據計算服務(MaxCompute,原ODPS)的基本組織單元,它類似于傳統數據庫的Database。以下關于項目空間的說法中正確的有:()。A)所有的對象都會屬于某個項目空間B)一個帳號可以擁有多個項目空間的權限C)一個帳號可以創建多個項目空間,最多不能超過10個D)通過安全授權,可以在一個項目空間中訪問另一個項目空間中的數據[多選題]163.數據預處理的方法主要有()。A)分類B)聚類C)回歸D)清除[多選題]164.以下哪些選項屬于集群資源規劃設計?A)數據質量B)數據總規模C)容量預留D)單條數據大小[多選題]165.以下哪些不是ElasticSearch的特點?A)邊寫邊讀B)低性能C)倒排素引D)不可擴展伸縮[多選題]166.根據《泛在電力物聯網2019年建設方案》,2019年開展基于?國網芯?的新型智能終端研發應用工作主要包括():A)實現泛在電力物聯網邊端及終端設備的硬件平臺統一B)實現核心器件?國網芯?化C)推進自主化芯片規模化應用和產業化發展D)研制多形態邊緣物聯代理、能源路由器等智能終端并試點應用[多選題]167.Hive底層所依賴的計算引擎可以是:()A)FlinkB)MapReduceC)TezD)Spark[多選題]168.以下正確的語句是()。A)_a=1B)__a=1C)__str__=1D)__True_=1[多選題]169.下列選項是關系型數據庫基本特征的是()A)與列的次序無關B)與行的次序無關C)不同的列應有不同的列名D)不同的列應有不同的數據類型[多選題]170.序列的分片[x:y:z]x,y,z分別表示A)起始索引B)終止索引(包含)C)終止索引(不包含)D)步長[多選題]171.下列屬于無監督學習任務的還有(__)。A)密度估計B)異常檢測C)聚類D)分類[多選題]172.下列屬于位運算符的是()。--A)&&B)&C)>>D)<<[多選題]173.Redis使用場景包含以下哪些特點?A)支持持久化B)豐富數據結構在取C)低時延D)高性能[多選題]174.關干大數據的主要特征理解和描述正確的有A)來源多,格式多B)增長速度快,處理速度快C)存儲量大計算量大D)數據的價值密度較低[多選題]175.需要維護的數據資產主要包括:()A)業務人員未按照規定的數據格式和內容質量要求填寫或錄入,造成的不完整和不準確數據B)因系統更新、調整等原因,造成數據格式或者數據含義發生變化而導致無法應用的數據C)因業務變化或數據標準變更等原因,造成的原有數據與現有數據不一致而導致無法應用的數據D)其他因素造成的有問題數據[多選題]176.在Hive架構中支持對數據的操作有()。A)插入B)查詢C)刪除D)分析[多選題]177.執行HBase讀數據業務,需要讀取那幾部分數據?A)HFileB)HLogC)MemStoreD)HDFS[多選題]178.Katka每個Partition在物理上對應的文件夾下存儲哪些文件?A)素引文件B)用戶文件C)消息文件D)配置文件[多選題]179.HDFS聯邦環境下,NameSpace(命名空間)包含以下哪些內容?A)目錄B)文件C)塊D)以上全不正確[多選題]180.Hadoop的MapReduce的缺點包括:()A)表達能力有限B)磁盤IO開銷大C)延遲高D)中間結果多[多選題]181.下列哪些情況下SQL自診斷可以識別,并上報告警信息?A)大表BroadcastB)SQL語句不下推。C)數據傾斜。D)HashJoin中大表做內表[多選題]182.回歸分析有很多種類,常見的有()。A)線性回歸B)系數回歸C)邏輯回歸D)曲線回歸[多選題]183.下列關于Region服務器工作原理的描述,哪些是正確的?A)每個Region服務器都有一個自己的HLog文件B)每次刷寫都生成一個新的StoreFile,數量太多,影響查找速度C)合并操作比較耗費資源,只有數量達到一個閾值才啟動合并D)Store是Region服務器的核心[多選題]184.下面關于可視化圖表的描述正確的是:()A)漏斗圖適用于業務流程比較規范、周期長、環節多的流程分析B)樹圖是一種流行的、利用包含關系表達層次化數據的可視化方法C)桑基圖是以特殊高亮的形式顯示訪客熱衷的頁面區域和訪客所在的地理區域的圖示D)詞云對網絡文本中出現頻率較高的?關鍵詞?給予視覺上的突出[多選題]185.關于MapReduce程序執行時的故障檢測與容錯處理,下面說法正確的是()A)HadoopMapReduce采用心跳機制實現故障檢測B)HadoopMApReduce會自動處理容錯,主要方法是將失敗的任務進行再次執行C)失效節點手動重啟D)投機執行機制[多選題]186.可以在()定義函數。A)模塊B)類C)函數D)以上都不對[多選題]187.下列選項中,關于Hadoop集群說法正確的是()。A)Hadoop集群包含Worker節點B)Hadoop集群包含Master節點C)Hadoop集群包含Slave節點D)Hadoop集群包含HMaster節點[多選題]188.對RDD執行的操作有一下幾種:A)創建B)轉換C)控制D)執行[多選題]189.SortShuffleManage是Spark1.2及以上版本默認的ShuffleManage模式,具體包含(__)和(__)。A)簡單模式B)普通模式C)bypass模式D)pass模式[多選題]190.一個FlumeAgent內部通常包含有哪三個模塊?A)SourceB)DestinationC)ChannelD)Sink[多選題]191.以下關于MapReduce1.0版本說法正確的是()。A)擴展性差B)可靠性差C)資源利用率低D)無法支持多種計算框架[多選題]192.在Windows系統中通過Geany編寫Python程序,運行Python程序的常用步驟有()。A)菜單Build>ExecuteB)菜單Execute>BuildC)按F5D)按F10[多選題]193.MySQL可以運行在以下哪些平臺上A)MacOSB)UbuntuC)RedHatD)Windows[多選題]194.主成分解析(PCA)是一種重要的降維技術,以下對于PCA的描述正確的是:A)主成分解析是一種無監督方法B)主成分數量一定小于等于特征的數量C)各個主成分之間相互正交D)原始數據在第一主成分上的投影方差最小[多選題]195.根據《大數據風控平臺項目操作手冊》,貸后風險預警提示共3種級別,其中,()。A)紅色為高風險B)紫色為中風險C)黃色為中風險D)提示為低風險[多選題]196.下列選項對ElasticSearchreplicas的描述,正確的是A)代表素引副本B)提高系統容傳性C)壓縮素引大小D)提高檢素效率[多選題]197.大數據計算服務(MaxCompute,原ODPS)中的MapReduce是一種編程模型,用于大規模數據集的并行運算,它極大地方便了編程人員在不會分布式并行編程的情況下,將自己的程序運行在分布式系統上。其中,兩個主要階段Map和Reduce相互配合,可以完成對海量數據的處理。關于這兩個階段的關系,說法正確的有:()。A)一個reduce的輸入數據可能來自于多個map的輸出B)一個MR處理可以不包括任何mapC)一個MR處理可以不包括任何reduceD)一個map的輸出結果可能會被分配到多個reduce上去[多選題]198.消除數據孤島對于政府具有哪些重要的意義:()A)有助于提升資源利用率B)有助于推動政府轉型C)有助于提高行政效率D)有助于促進跨部門合作[多選題]199.可視化高維展示技術在展示數據之間的關系以及數據分析結果方面()。A)能夠直觀反映成對數據之間的空間關系B)能夠直觀反映多維數據之間的空間關系C)能夠靜態演化事物的變化及變化的規律D)能夠動態演化事物的變化及變化的規律E.提供高性能并行計算技術的強力支撐[多選題]200.Flink運行模式有以下哪幾項?A)Standalone模式B)Local模式C)YARN模式D)Spark模式[多選題]201.tunnelupload命令可以上傳數據到大數據計算服務中去,請判斷以下()數據對象可以作為上傳的目標。A)資源B)非分區表C)視圖D)分區表[多選題]202.下列關于Worker答案:工作進程、Executor答案:線程、Task答案:任務說法正確的是?A)每個Executor答案:線程可以運行多個Task(任務)B)每個Worker可以運行多個Executor(線程)C)每個Worker只能為一個拓撲運行Executor(線程)D)每個Executor答案:線程可以運行不同組件答案:Spout或Bolt的Task(任務)[多選題]203.數據中臺以需求為導向,基于統一數據模型,有針對性的按需開展數據接入與整合,逐步實現()等各版塊數據融通A)電網B)產業C)金融D)國際化[多選題]204.典型的數據采集方法包括:()A)系統日志采集B)分布式消息訂閱分發C)ETLD)網絡數據采集[多選題]205.Spark的技術架構可以分為哪幾層?A)資源管理層B)Spark核心層C)應用層D)服務層[多選題]206.針對維數災難,我們主要采用的降維方法有()A)多維縮放B)主成分分析C)核化線性降維D)流形學習E)度量學習第3部分:判斷題,共42題,請判斷題目是否正確。[判斷題]207.SQLonAnywhere的意思是GaussDB200的SQL可以運行在任何地方的數據庫。A)正確B)錯誤[判斷題]208.使用describe()方法會輸出多個統計指標。()A)正確B)錯誤[判斷題]209.已知x為非空字符串,那么表達式''A)正確B)錯誤[判斷題]210.Python內置的字典dict中元素是按添加的順序依次進行存儲的。A)正確B)錯誤[判斷題]211.數據處理方式,可分為實時處理和離線處理。A)正確B)錯誤[判斷題]212.啟動Hadoop集群服務之前需要格式化文件系統。()A)正確B)錯誤[判斷題]213.表達式3>5andmath.sin(0)的值為0。()A)正確B)錯誤[判斷題]214.一維數組的切片操作與Python列表的切片操作很相似。例如,我們可以用下標3~7來選取元素3~6。A)正確B)錯誤[判斷題]215.()邏輯值的?真?和?假?可以用邏輯常量TRUE和FALSE表示。A)正確B)錯誤[判斷題]216.在函數內部沒有任何聲明的情況下直接為某個變量賦值,這個變量一定是函數內部的局部變量。A)正確B)錯誤[判斷題]217.企業級的數據中心,基于?集中、開放、云化?原則,按照平臺與應用分離的設計思路,打造企業級的大數據平臺,有序推進企業的大數據戰略。A)正確B)錯誤[判斷題]218.變量名可以以數字開頭。()A)正確B)錯誤[判斷題]219.鏈式MapReduce計算中,對任意一個MapReduce作業,Map和Reduce階段可以有個Mapper,但Reducer只能有一個。A)正確B)錯誤[判斷題]220.Sqoop主要用來做實時流處理。A)正確B)錯誤[判斷題]221.如果在函數中有語句return3,那么該函數一定會返回整數3。A)正確B)錯誤[判斷題]222.配置Hadoop集群只需要修改core-site、xml配置文件就可以。()A)正確B)錯誤[判斷題]223.函數和對象方法是一樣的,內部實現和外部調用都沒有任何區別。A)正確B)錯誤[判斷題]224.核函數的主要作用是將樣本從原始空間歸納為一個特征空間,使得樣本在這個特征空間內線性不可分。()A)正確B)錯誤[判斷題]225.一條SPU可以包含多個SKU的信息。--A)正確B)錯誤[判斷題]226.BI工具中的數據集,被其他應用引用后可以強行刪除()A)正確B)錯誤[判斷題]227.為了讓代碼更加緊湊,減少占用空間,不應該在代碼中任何位置增加空格和空行。()A)正確B)錯誤[判斷題]228.大數據應用涉及到采集、傳輸、存儲、處理、交換和銷毀等環節,每個環節都面臨著不同的安全威脅A)正確B)錯誤[判斷題]229.放在一對三引號之間的任何內容將被認為是注釋。A)正確B)錯誤[判斷題]230.包含列表的元組不可以作為集合的元素。()A)正確B)錯誤[判斷題]231.已知x=list(range(20)),那么語句x[::2]=[]可以正常執行。A)正確B)錯誤[判斷題]232.在使用HBaseJavaAPI時,用戶可以通過org.apache.hadoop.hbase.client.Admin實例的createTable快速建表,創建表后整張表只有一個Region,隨著數據量的增加會自動分裂成多個Region。A)正確B)錯誤[判斷題]233.每個查詢會被Hive轉化為多個階段,當有些階段關聯性較大時,可以并行化執行,誠少整個任務的執行時間。A)正確B)錯誤[判斷題]234.盡管可以使用import語句一次導入任意多個標準庫或擴展庫,但是仍建議每次只導入一個標準庫或擴展庫A)正確B)錯誤[判斷題]235.在同一個作用域內,局部變量會隱藏同名的全局變量。A)正確B)錯誤[判斷題]236.join()方法可以使用左連接和右連接兩種方式連接數據。()A)正確B)錯誤[判斷題]237.量化是一種把定性指標轉換為定量指標的方法,用具體的數據表示出來。A)正確B)錯誤[判斷題]238.在基本K均值算法里,當鄰近度函數采用平方歐幾里德距離的時候,合適的質心是簇中各點的中位數A)正確B)錯誤[判斷題]239.不是所有的數據流節點都可以設置查看器是否正確()A)正確B)錯誤[判斷題]240.數據倉庫系統的組成部分包括數據倉庫,倉庫管理,數據抽取,分析工具等四個部分A)正確B)錯誤[判斷題]241.fillna()方法處理缺失數據時可以使用Series對象填充,但不可以使用DataFrame對象填充。()A)正確B)錯誤[判斷題]242.()!=和<>都代表不等于。A)正確B)錯誤[判斷題]243.每個map槽就是一個線程。A)正確B)錯誤[判斷題]244.大數據時代模型不再那么重要,要讓數據說話。A)正確B)錯誤[判斷題]245.數據湖需要高性能、Schema校驗、事務型更新等能力,同時支持多個開源計算引擎生態。A)正確B)錯誤[判斷題]246.Series與Index的類型是ExtensionArray時,to_numpy()會復制數據,并強制轉換值。A)正確B)錯誤[判斷題]247.大數據平臺數據管理系統的功能為:為核心處理能力系統提供監控管理、調度管理等功能,并為采集系統和應用提供相應的數據質量、主數據管理等功能支持。A)正確B)錯誤[判斷題]248.主鍵約束的字段值要同時滿足非空和唯一性。--A)正確B)錯誤第4部分:問答題,共11題,請在空白處填寫正確答案。[問答題]249.一般關于日志文件產生都是根據()而決定。[問答題]250.假設HDFS在寫入數據是只存2份,那么在寫入過程中,HDFSClient先將數據寫入DataNode1,再將數據寫入DataNode2。A)TrueB)False[問答題]251.Flink處理數據可以是有狀態的,處理一個事件取決于之前所有事件的累積效果。A)TRUEB)FALSE[問答題]252.Katka創建Topic時如何將分區放置到不同的Broker中,請選擇正確的順序。[問答題]253.使用drop_duplicates()函數【】重復數據時,默認會保留第一次出現的數據。[問答題]254.JavaAPI操作ElasticSearch有RestClient和()等多種方式。[問答題]255.在Hadoop集群執行完MapReduce程序后,輸出的結果文件()表示此次任務成功執行。[問答題]256.通常情況下,Hive以文本文件存儲的表會以回車作為其行分隔符,在華為FusionInsightHive中,可以指定表數據的輸入和輸出格式處理。A)TRUEB)FALSE[問答題]257.Hbase的最小存儲單元是Region。A)TRUEB)FALSE[問答題]258.簡述Series和DataFrame的特點。[問答題]259.()是一個高可靠性、高性能、面向列、可伸縮的系統,可在廉價PC服務器上搭建起大規模結構化存儲集群。[單選題]260.在HBase中,啟用表的命令是()A)go'my_ns:my_table'B)use'my_ns:my_table'C)start'my_ns:my_table'D)enable'my_ns:my_table'1.答案:B解析:2.答案:A解析:2007年,圖靈獎獲得者JimGray提出了科學研究的第四范式--數據密集型科學發現(Data-intensiveScientificDiscovery)。在他看來,人類科學研究活動已經歷過三種不同范式的演變過程(原始社會的"實驗科學范式"、以模型和歸納為特征的"理論科學范式"和以模擬仿真為特征的"計算科學范式"),目前正在從"計算科學范式"轉向"數據密集型科學發現范式"。3.答案:A解析:4.答案:B解析:5.答案:C解析:6.答案:B解析:7.答案:A解析:8.答案:A解析:9.答案:D解析:NoSQL是指那些非關系型的、分布式的、不保證遵循ACID原則的數據存儲系統。典型的NoSOL產品有DangaInteractive的Memcached、10gen的MongoDB、Facebook的Cassandra、Google的BigTable及其開源系統HBase、Amazon的Dynamo、Apache的TokyoCabinet、CouchDB和Redis等。10.答案:A解析:11.答案:D解析:12.答案:D解析:13.答案:D解析:14.答案:C解析:15.答案:A解析:16.答案:B解析:17.答案:B解析:seek(0)指移動指針到0位置即開頭。18.答案:D解析:statsmodels建立在Pandas之上。19.答案:C解析:20.答案:B解析:21.答案:B解析:22.答案:B解析:23.答案:B解析:A、FSDirectory【HDFS文件系統的整個命名空間是通過FSDirectory類來管理的】B、DFSClient【DFSClient會連接到HDFS,對外提供管理文件/目錄、讀寫文件以及管理與配置HDFS系統等功能?!緾、ClientProtocol【這個接口中有兩類方法,一是操縱命名空間的方法,二是操縱文件流的方法】D、FSInputStream【在FSInputStream類中,通過Seekable接口的seek()方法實現了PositionedReadable接口中的read()方法】24.答案:C解析:一元回歸分析中,自變量和因變量的相關系數的平方等于回歸模型的判定系數。所以,相關系數=sqrt(0.64)=0.8。25.答案:C解析:26.答案:C解析:27.答案:D解析:28.答案:B解析:29.答案:A解析:30.答案:D解析:31.答案:C解析:32.答案:D解析:33.答案:C解析:34.答案:B解析:35.答案:B解析:36.答案:A解析:37.答案:C解析:38.答案:A解析:39.答案:D解析:40.答案:C解析:41.答案:B解析:按照程序執行,先運行changeInt(),然后再運行print。42.答案:C解析:43.答案:A解析:44.答案:D解析:45.答案:D解析:46.答案:B解析:47.答案:D解析:48.答案:A解析:49.答案:D解析:50.答案:C解析:51.答案:B解析:52.答案:A解析:53.答案:D解析:54.答案:D解析:55.答案:C解析:56.答案:D解析:57.答案:D解析:58.答案:A解析:在不知道特征映射的形式時,我們并不知道什么樣的核函數是合適的,而核函數也僅是隱式地定義了這個特征空間。于是,核函數選擇成為支持向量機的最大變數。59.答案:B解析:60.答案:A解析:shell類是一個提供執行操作系統命令的類,只是提供一個shell命令執行的總體框架61.答案:A解析:62.答案:D解析:在一定情況下把一個任務分割成多個子任務的方式是有好處的63.答案:D解析:64.答案:B解析:reduce()是聚合函數,該操作完成數組求和功能。65.答案:A解析:66.答案:D解析:67.答案:A解析:68.答案:D解析:69.答案:B解析:70.答案:C解析:71.答案:B解析:72.答案:B解析:軟間隔允許某些樣本不滿足約束,可緩解過擬合。73.答案:B解析:74.答案:C解析:75.答案:D解析:76.答案:B解析:77.答案:B解析:78.答案:A解析:79.答案:B解析:組成隨機森林的樹可以并行生成;而GBDT只能是串行生成。80.答案:C解析:81.答案:A解析:82.答案:C解析:83.答案:B解析:84.答案:A解析:85.答案:B解析:86.答案:C解析:87.答案:B解析:88.答案:A解析:數據科學是一門以實現從數據到信息、從數據到知識和(或)從數據到智慧的轉化為主要研究目的,以數據驅動、數據業務化、數據洞見、數據產品研發和(或)數據生態系統的建設為主要研究任務的獨立學科。89.答案:D解析:90.答案:D解析:91.答案:D解析:92.答案:A解析:93.答案:D解析:94.答案:C解析:95.答案:C解析:96.答案:A解析:循環神經網絡具有記憶性、參數共享并且圖靈完備,因此在對序列的非線性特征進行學習時具有一定優勢。循環神經網絡在自然語言處理(naturallanguageprocessing,NLP),例如語音識別、語言建模、機器翻譯等領域有應用,也被用于各類時間序列預報。97.答案:A解析:98.答案:C解析:99.答案:B解析:100.答案:A解析:101.答案:C解析:過濾式特征選擇先對數據集進行特征選擇,然后再訓練學習器,特征選擇過程與后續學習器無關。包裹式特征選擇把最終將要使用的學習器的性能作為特征子集的評價準則。102.答案:A解析:103.答案:B解析:104.答案:A解析:視

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論