大數據理論考試(習題卷4)_第1頁
大數據理論考試(習題卷4)_第2頁
大數據理論考試(習題卷4)_第3頁
大數據理論考試(習題卷4)_第4頁
大數據理論考試(習題卷4)_第5頁
已閱讀5頁,還剩23頁未讀 繼續免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

試卷科目:大數據理論考試大數據理論考試(習題卷4)PAGE"pagenumber"pagenumber/SECTIONPAGES"numberofpages"numberofpages大數據理論考試第1部分:單項選擇題,共64題,每題只有一個正確答案,多選或少選均不得分。[單選題]1.假設你需要調整參數來最小化代價函數(costfunction),會使用()技術。A)窮舉搜索B)隨機搜索C)Bayesian優化D)以上全是答案:D解析:要使用的學習器的性能作為特征于集的評價準則.[單選題]2.在抽樣估計中,隨著樣本容量的增大,樣本統計量接近總體參數的概率就越大,這一性質稱為()A)無偏性B)有效性C)及時性D)一致答案:D解析:一致性是指隨著樣本容量的增大,樣本統計量接近總體參數的概率就越大,對于給定的偏差控制水平,兩者間偏差高于此控制水平,兩者間偏差高于此控制水平的可能性越小。[單選題]3.以下屬于淺層學習模型的是()。A)DBNB)CNNC)SVMD)RN答案:C解析:SVM是一種傳統機器學習方法,不涉及深度學習模型[單選題]4.不屬于Mayer-Sch?nbergerV和CukierK.在其著名論著《Bigdata:Arevolutionthatwilltransformhowwelive,work,andthink》中提出了大數據時代統計的思維變革的是()。A)不是隨機樣本,而是全體數據B)不是精確性,而是混雜性C)不是描述性分析,而是預測性分析D)不是因果關系,而是相關關系答案:C解析:Mayer-Sch?nbergerV和CukierK.在其著名論著《Bigdata:Arevolutionthatwilltransformhowwelive,work,andthink》中提出了大數據時代統計的思維變革:1)不是隨機樣本,而是全體數據:大數據時代應遵循?樣本=總體?的理念,需要分析與某事物相關的所有數據,而不是依靠分析少量的數據樣本。2)不是精確性,而是混雜性:大數據時代應承認數據的復雜性,數據分析目的不應追求精確性,數據分析的主要瓶頸是如何提升效率而不是保證分析結果的精確度。3)不是因果關系,而是相關關系:大數據時代的思想方式應轉變--不再探求難以捉摸的因果關系,轉而關注事物的相關關系。[單選題]5.以下關于Mahout說法正確的是()。A)存儲框架B)數據管理框架C)數據可視化專業工具D)可擴展的機器學習算法及其實現答案:D解析:Mahout是ApacheSoftwareFoundation(ASF)旗下的一個開源項目,提供一些可擴展的機器學習領域經典算法的實現,旨在幫助開發人員更加方便快捷地創建智能應用程序[單選題]6.以下不屬于大數據重要意義的是()。A)大數據成為推動經濟轉型發展的新動力B)大數據成為重塑國家競爭優勢的新機遇C)大數據成為提升政府治理能力的新途徑D)大數據會增加經濟發展的成本答案:D解析:大數據可以促進經濟的發展,催生新的業態,在輔助商業的決策、降低運營成本、精準市場的營銷方面都能發揮作用,進一步提升企業競爭力。[單選題]7.大數據涌現現象的形式有多種,不屬于大數據涌現的形式()。A)價值涌現B)隱私涌現C)物質涌現D)隱私涌現答案:C解析:大數據并不等同于?小數據的集合?。因為,從?小數據?到?大數據?的過程中出現了?涌現?現象,?涌現?才是大數據的本質特征。所謂的?涌現(Emergence)?就是?系統大于元素之和,或者說系統在跨越層次時,出現了新的質?。大數據?涌現?現象的具體表現形式有多種,例如價值涌現、隱私涌現、質量涌現和安全涌現等。[單選題]8.下列策略()可在保證訓練精度的情況下降低模型的復雜度。A)正則化系數無窮大B)正則化系數幾乎為0C)選擇合適的正則化參數D)以上答案都不正確答案:C解析:選擇合適的正則化參數可在保證訓練精度的情況下降低模型的復雜度。[單選題]9.變量的不確定性越大,相對應信息熵有什么變化()。A)熵變小B)熵變大C)不變D)以上答案都不正答案:B解析:信息熵(informationentropy)是度量樣本集合純度最常用的一種指標,信息熵越大,變量的不確定性越大。[單選題]10.Hive的數據最終存儲在()A)HDFSB)HseC)RDBMSD)Metastor答案:A解析:Hive是基于Hadoop分布式文件系統的,它的數據存儲在Hadoop分布式文件系統HDFS中[單選題]11.在抽樣方法中,當合適的樣本容量很難確定時,可以使用的抽樣方法是()。A)有放回的簡單隨機抽樣B)無放回的簡單隨機抽樣C)分層抽樣D)漸進抽樣答案:D解析:Value(價值密度低或價值發現難度大)、Velocity(速度快)。[單選題]12.與生成方法、半監督SVM、圖半監督學習等基于單學習機器利用未標記數據不同,基于分歧的方法(disagreement-basedmethods)使用多學習器,而學習器之間的分歧(disagreement)對未標記數據的利用至關重要。()是此類方法的重要代表。A)協同訓練B)組合訓練C)配合訓練D)陪同訓練答案:A解析:與生成方法、半監督SVM、圖半監督學習等基于單學習機器利用未標記數據不同,基于分歧的方法(disagreement-basedmethods)使用多學習器,而學習器之間的分歧(disagreement)對未標記數據的利用至關重要。協同是此類方法的重要代表,它很好地利用了多視圖的相容互補性。[單選題]13.使用pip工具查看當前已安裝的Python擴展庫的完整命令是()。A)pipupdateB)piplistC)pipinstallD)pipshowall答案:B解析:使用pip工具查看當前已安裝的Python擴展庫的完整命令piplist。[單選題]14.給定詞匯表如下:{Bob,ok,like,football,car}。則下面句子Botlikesfootball的詞袋模型表示為:A)[11100]B)[10110]C)[10010]D)[01101答案:B解析:統計自然語言處理語言模型P162,命名實體翻譯P585統計文檔中每個詞的數量,根據詞表的位置,將各個詞的數量拼接成一個向量即可。[單選題]15.一般將原始業務數據分為多個部分,()用于模型的構建。A)訓練集B)測試集C)驗證集D)全部數據答案:A解析:訓練集、測試集和驗證集的功能分別為訓練模型、測試模型以及模型選擇與超級參數的調優。[單選題]16.()是一種著名的密度聚類算法,它基于一組鄰域參數來刻畫樣本的緊密程度。A)DBSCANB)原型聚類C)密度聚類D)層次聚類答案:A解析:DBSCAN是一種著名的密度聚類算法,它基于一組鄰域參數來刻畫樣本的緊密程度。[單選題]17.下列關于HDFS的描述正確的是()A)如果NameNode宕機,SecondaryNameNode會接替它使集群繼續工作B)HDFS集群支持數據的隨機讀寫C)NameNode磁盤元數據不保存Block的位置信息D)taNode通過長連接與NameNode保持通信答案:C解析:SecondaryNameNode并不是namenode節點的備份。所以A錯。;存儲在HDFS集群上的數據是不支持隨機修改和刪除的,只支持追加,所以B錯;namenode和datanode之間的通信是基于一種心跳機制。該機制不是長連接。是短連接形式。每次發送一個數據包(自身狀態信息+數據塊信息)即可,所以D錯。[單選題]18.數據可視化的方法論基礎是()。A)統計圖表B)視覺編碼理論C)圖論D)圖形符號學答案:B解析:數據可視化的方法體系的方法論基礎主要是指?視覺編碼?。?視覺編碼?為其他數據可視化方法提供了方法學基礎,奠定了數據可視化方法體系的根基。[單選題]19.數據管理成熟度模型--DMM模型將一個機構的數據管理工作抽象成6個關鍵過程域,即數據戰略、()、數據質量、平臺與架構、數據操作以及輔助性過程。A)數據管理B)數據治理C)數據策略D)數據安全答案:B解析:DMM模型將一個機構的數據管理工作抽象成6個關鍵過程域,即數據戰略、數據治理、數據質量、平臺與架構、數據操作以及輔助性過程。[單選題]20.以下哪一個不是spark的特點A)隨處運行B)代碼簡潔C)使用復雜D)運行快答案:C解析:[單選題]21.請以下代碼的輸出結果為()。ImportnumpyasnpX=np.array([3,1,2])Y=np.argsort(x)Print(y)A)[312]B)[120]C)[123]D)123答案:B解析:np.argsort()返回從小到大排序的數組在原數組中對應的下標。[單選題]22.MapReduce的Shuffle過程中哪個操作是最后做的()A)溢寫B)分區C)排序D)合并答案:D解析:MapReduce編程模型分為Mapper和Reducer階段,在mapper和reducer的中間還有一個shuffle階段。shuflle中的執行順序是先分區,然后在溢寫之前進行排序,最后溢出的多個磁盤文件會進行合并成一個大文件。[單選題]23.過濾式特征選擇與學習器(),包裹式特征選擇與學習器()。A)相關相關B)相關不相關C)不相關相關D)不相關不相關答案:C解析:過濾式方法先對數據集進行特征選擇,然后再訓練學習器,特征選擇過程與后續學習器無關。包裹式特征選擇把最終將要使用的學習器的性能作為特征于集的評價準則。[單選題]24.CART決策樹通常采用()剪枝方法。A)REP(錯誤率降低)B)CCP(代價復雜度)C)PEP(悲觀剪枝)D)預剪枝答案:B解析:CART決策樹通常采用CCP(代價復雜度)剪枝方法。[單選題]25.下列判斷錯誤的是()。A)XML數據屬于半結構化數據B)JSON文件屬于非結構化數據C)PPT文件屬于非結構化數據D)音視頻文件屬于非結構化數據答案:B解析:JSON文件屬于半結構化數據。[單選題]26.將一副圖像進行分割后,分割出的區域彼此之間(__)重疊。A)可以B)不可以C)根據任務需要確定是否可以D)根據分割方法確定是否可答案:B解析:圖像分割技術指將圖像分成互不重疊,具有各自特征的區域的技術。[單選題]27.Flink的Checkpoint機制繪制的流應用快照不能被保存在以下哪個位置?A)LocalB)HDFSC)TaskManager的內存D)Jobmanager的內答案:C解析:[單選題]28.常用的圖像去噪方法有()。A)高斯濾波B)中值濾波C)P-M方程去噪D)以上答案都正答案:D解析:圖像去噪方法有很多,如高斯濾波,屬于線性濾波,中值濾波是非線性濾波,還有P-M方程去噪。[單選題]29.下列關于TF-IDF說法正確的是()A)該值與特征項在文檔中出現的頻率成反比B)該值與特征項在文檔中出現的頻率成正比C)該值與在整個語料庫中出現該特征項的文檔庫成正比D)該值與特征項在文檔中出現的頻率無答案:B解析:TF-IDF是一種用于信息檢索與數據挖掘的常用加權技術。TF意思是詞頻(TermFrequency),IDF意思是逆文本頻率指數(InverseDocumentFrequency)。TF-IDF是一種統計方法,用以評估一字詞對于一個文件集或一個語料庫中的其中一份文件的重要程度。字詞的重要性隨著它在文件中出現的次數成正比增加,但同時會隨著它在語料庫中出現的頻率成反比下降。A中應是成正比,C中應是成反比,B正確。[單選題]30.關于長短時神經網絡的敘述中錯誤的是()。A)引用自循環思想B)產生梯度長時間持續流動的路徑C)積累的時間尺度不可以因輸入序列而改變D)可應用于語音識別和機器翻答案:C解析:LSTM累積的時間尺度也可以因輸入序列而改變,因為時間常數是模型本身的輸出。[單選題]31.相對于HadoopMapReduce1.0,Spark的特點不包括()。A)速度快B)并發多C)通用性D)易用性答案:B解析:相較于HadoopMapReduce,Spark的特點為速度快、通用性和易用性。[單選題]32.將Python中的.py文件轉換為.pyc文件的組件為()。A)編輯器B)編譯器C)虛擬機D)解釋器答案:B解析:將Python中的.py文件轉換為.pyc文件的組件為編譯器。[單選題]33.解決Master故障的方法是設置檢查點,當Master失效時,從()檢查點開始啟動另一個Master進程。A)第一個B)中間一個C)最后一個D)隨機選擇一個答案:C解析:從最后一個檢查點開始啟動另一Master進程使得因故障產生的影響更小。[單選題]34.Python使用()符號標示注釋。A)&B)*C)#D)//答案:C解析:單行注釋使用#號。[單選題]35.循環神經網絡適合處理什么數據()A)節點數據B)序列數據C)結構化數據D)圖像數答案:B解析:循環神經網絡是一種用于處理序列數據的神經網絡,相比一般的神經網絡來說,他能夠處理序列變化的數據。比如某個單詞的意思會因為上文提到的內容不同而有不同的含義,RNN就能夠很好地解決這類問題。[單選題]36.下面算法屬于局部處理的是()。A)灰度線性變換B)二值化C)傅里葉變換D)中值濾答案:D解析:中值濾波是將每一像素點的灰度值設置為該點某鄰域窗口內的所有像素點灰度值的中值,在圖像處理中常用于保護邊緣信息,是一種局部處理方法。[單選題]37.有三個表,它們的記錄行數分別是10行、2行和6行,三個表進行交叉連接后,結果集中共有多少行數據A)18B)26C)不確定D)12答案:D解析:[單選題]38.通常,()主要指的是關系數據庫中存儲、計算和管理的數據。A)結構化數據B)海量數據C)半結構化數據D)非結構化數據答案:A解析:通常,結構化數據是指直接可以用傳統關系數據庫存儲和管理的數據。[單選題]39.TF-IDF中的TF是指()。A)某個詞在文檔中出現的次數B)文章的總次數C)某個詞在文檔中出現的次數/文章的總次數D)以上答案都不正答案:C解析:TF意思是詞頻(TermFrequency),表示某個詞出現頻率,也就是某個詞在文檔中出現的次數/文章的總次數[單選題]40.下面說法錯誤的是()。A)可以利用統計量對缺失值進行填補B)可以利用K近鄰值對缺失值進行填補C)只要有缺失值就必須把對應記錄刪除D)對于缺失值較多的屬性可以考慮刪除答案:C解析:缺失值可以通過刪除、填補等方法進行處理。[單選題]41.屬于卷積神經網絡應用方向的是(__)。A)圖像分類B)目標檢測C)圖像語義分割D)以上答案都正答案:D解析:卷積神經網絡應用于圖像分類,目標檢測及圖像語義分割。[單選題]42.數據清洗的方法不包括()。A)缺失值處理B)噪聲數據清除C)一致性檢查D)重復數據記錄處理答案:D解析:本題考查信息處理基本概念。剛收集得到的原始數據很可能有一部分是臟的,需要清洗才能使用。例如,有些是重復的數據,有些是含有矛盾的數據(回答的多個問題中發現有矛盾),有些是填寫錯誤的數據(包括格式錯誤、數字錯誤)。對以上不同的情況要做不同的處理,這屬于數據清洗工作。對過大的或者過小的異常數據要慎重處理,有可能是錯誤數據,但也有可能是正確的非常重要的超常數據。分析處理異常數據需要專業水平,不屬于數據清洗工作。[單選題]43.下列場景中最有可能應用人工智能的是()。A)刷臉辦電B)輿情分析C)信通巡檢機器人D)以上答案都正答案:D解析:人工智能應用的范圍很廣,包括:計算機科學,金融貿易,醫藥,診斷,重工業,運輸,遠程通訊,在線和電話服務,法律,科學發現,玩具和游戲,音樂等諸多方面,刷臉辦電、輿情分析、信通巡檢機器人當然都能很好的應用到人工智能,選D。[單選題]44.BP神經網絡具有很的表示能力,它經常遭遇(),其訓練誤差持續降低,但測試誤差卻可能上升。A)欠擬合B)誤差過大C)誤差過小D)過擬答案:D解析:由于其強大的表示能力,BP神經網絡經常遭遇過擬合,其訓練誤差持續降低,但測試誤差卻可能上升。[單選題]45.stats()函數不能求以下哪個值()。A)均值B)方差C)峰度D)眾數答案:D解析:stats作為一個函數可以返回均值,方差,(費舍爾)偏態,(費舍爾)峰度等值,不包括眾數等值。[單選題]46.table1是根據dt分區的數據表,dt例如:20220101,下列加載數據的SQL正確的是(),要求可重跑、寫入分區要求當前天執行時寫入至前一天的分區A)LOADDATAINPATH'filepath'OVERWRITEINTOTABLEtable1PARTITION(dt='{{yyyymmdd}}')B)LOADDATAINPATH'filepath'INTOTABLEtable1PARTITION(dt='{{yyyymmdd}}')C)LOADDATAINPATH'filepath'INTOTABLEtable1PARTITION(dt='{{yyyyMMdd}}')D)LOADDATAINPATH'filepath'OVERWRITEINTOTABLEtable1PARTITION(dt='{{yyyyMMdd-1d}}'答案:D解析:[單選題]47.MapReduce編程模型中以下組件哪個是最后執行的()A)MapperB)PartitionerC)ReducerD)RecordReader答案:C解析:以上這四個MapReduce編程模型中的執行順序是recordReader-->mapper-->partitioner-->reducer[單選題]48.()是Spark中的抽象數據模型。A)RDDB)SchedulerC)StorageD)Shuffl答案:A解析:RDD(ResilientDistributedDataset)是Spark的抽象數據模型。Scheduler、Storage和Shuffle是Spark的關鍵技術。[單選題]49.隨機森林是在()上的一個擴展變體。A)BoostingB)AdaBoostC)RFD)Bagging答案:D解析:隨機森林是在Bagging上的一個擴展變體。[單選題]50.下列算法中,不屬于外推法的是()。A)移動平均法B)回歸分析法C)指數平滑法D)季節指數法答案:B解析:外推法(Extrapolation)是根據過去和現在的發展趨勢推斷未來的一類方法的總稱,回歸分析法不屬于外推法。[單選題]51.依托(),結合應用推進數據歸集,形成統一的數據資源中心。A)全業務數據中心和數據中臺B)營銷基礎數據平臺和大數據平臺C)全業務中心和營銷基礎數據平臺D)全業務數據中心和大數據平答案:A解析:詳見互聯數據〔2019〕14號國網互聯網部關于加強數據管理的通知P5[單選題]52.使用交互式的和可視化的技術,對數據進行探索屬于數據挖掘的哪一類任務?()A)探索性數據分析B)建模描述C)預測建模D)尋找模式和規則答案:A解析:[單選題]53.輸入圖片大小為37×37,經過第一層卷積(thenumberoffilters=25,kernelsize=5×5,padding=valid,stride=1),與池化層maxpooling(kernelsize=3×3,padding=valid),輸出特征圖大小為?(__)A)10×10B)11×11C)12×12D)13×1答案:B解析:(37-5+1)/3=11。[單選題]54.下列關于支持向量回歸說法錯誤的是()。A)支持向量回歸是將支持向量的方法應用到回歸問題中B)支持向量回歸同樣可以應用核函數求解線性不可分的問題C)同分類算法不同的是,支持向量回歸要最小化一個凹函數D)支持向量回歸的解是稀疏答案:C解析:支持向量機最大間隔模型是一個凸二次規劃問題。[單選題]55.在Spark中,()是指RDD的每個分區都只被子RDD的一個分區所依賴。A)子分區B)父分區C)寬依賴D)窄依賴答案:D解析:窄依賴定義。[單選題]56.下面關于Hive的SequenceFile格式描述正確的是()A)SequenceFile是二進制文件格式,以list的形式序列化到文件中B)SequenceFile存儲方式:列存儲C)SequenceFile不可分割、壓縮D)SequenceFile優勢是文件和Hadoopapi中的MapFile是相互兼容答案:D解析:[單選題]57.在線遷移同步過程中可能因數據沖突、數據加工、異構類型轉化、對象缺失等因素導致數據異常,用戶可以通過?異常數據?頁簽查看,以幫助異常寫入的排查。下列同步過程中,支持異常診斷的是:()。A)Postgres->GaussDBB)Oracle->RDSforMySQLC)Mysql->GaussDB(forMySQL)D)Postgres->GaussD答案:B解析:[單選題]58.scipy庫中用于物理和數學常量計算的模塊是()。A)scipy.clusterB)scipy.ioC)scipy.constantsD)scipy.linalg答案:C解析:scipy中,constants是常量計算模塊。[單選題]59.劃分聚類算法是一種簡單的較為基本的重要聚類方法。它的主要思想是通過將數據點集分為()個劃分,并使用重復的控制策略使某個準則最優化,以達到最終的結果A)DB)KC)ED)F答案:B解析:劃分聚類算法K-Means將數據點集分為K個子集。[單選題]60.根據數據管理計劃,設計或選擇具體方法實行計劃中的工作內容,屬于數據治理的哪一步()。A)計劃B)執行C)檢查D)改進答案:B解析:數據治理并不是一次性工作,而是一種循序漸進的過程,主要包含計劃、執行、檢查和改進等基本活動,即數據治理的PDCA模型,其中:1)計劃(Plan):數據管理方針和目標的確定,明確組織機構的數據管理的目的、邊界和工作內容。2)執行(Do):根據數據管理計劃,設計或選擇具體的方法、技術、工具等解決方案,實現計劃中的工作內容。3)檢查(Check):定期檢查執行效果,進行績效評估,并發現存在問題與潛在風險。4)改進(Action):根據檢查結果中發現的問題與風險,進一步改進自己的數據管理工作。[單選題]61.采用模板[-11]主要檢測()方向的邊緣。A)水平B)45°C)垂直D)135答案:C解析:[-11]是用右邊的像素減去左邊的像素,當左右像素差別大也就是存在垂直方向邊緣時,模板作用在圖像上的值會較大。[單選題]62.輸入圖像已被轉換為大小為28×28的矩陣和大小為7×7的步幅為1的核心/濾波器。卷積矩陣的大小是多少()A)22X22B)21X21C)28X28D)7X答案:A解析:28-7+1=22。[單選題]63.統計描述的種類主要包括均值、百分位數、中位數、眾數、全距和方差等,()是指如果將一組數據從小到大排序,并計算相應的累計百分位,則某一百分位所對應數據的值.A)均值B)百分位數C)中位數D)眾數答案:B解析:百分位數是指如果將一組數據從小到大排序,并計算相應的累計百分位,則某一百分位所對應數據的值。[單選題]64.Hadoop中,()執行文件系統命名空間操作。A)DatanodeB)NamenodeC)JobTrackerD)TaskTracker答案:B解析:NameNode在hdfs這種文件系統中充當著master的角色,負責的功能有很多,比如文件系統目錄管理(命名空間管理)、數據塊管理、數據節點管理、租約管理、緩存管理等等。第2部分:多項選擇題,共22題,每題至少兩個正確答案,多選或少選均不得分。[多選題]65.以下屬于自然語言處理范疇的是()。A)情感傾向分析B)評論觀點抽取C)文章分類D)新聞摘要抽答案:ABCD解析:自然語言處理涉及的內容較多,主要技術范疇包括、語音合成、語音識別、中文自動、詞性標注、句法分析、文本分類、文本挖掘、信息抽取、問答系統、機器翻譯、文本情感分析、自動摘要、文字蘊涵等。[多選題]66.MapReduce中運行程序副本程序的機器為()。A)Map服務器B)Master服務器C)Worker服務器D)Reduce服務器答案:BC解析:MapReduce中,運行程序副本程序的機器分為兩類:一個Master服務器和若干個Worker服務器。[多選題]67.下面不是Python關鍵字的是()。A)noB)NoneC)nullD)none答案:ACD解析:詳見Python關鍵字列表。[多選題]68.Web內容挖掘實現技術()。A)文本總結B)文本分類C)文本機器學習D)關聯規答案:ABCD解析:Web內容挖掘實現技術包含文本總結,文本分類,文本機器學習和關聯規則等。[多選題]69.已測量級(MeasuredLevel)的主要特點包括()。A)已構建了關鍵過程矩陣。B)已定義了變革管理的正式流程。C)已實現用定量化方式計算關鍵過程的質量和效率。D)關鍵過程的質量和效率的管理涉及整個生命周期答案:ABCD解析:DMM的已測量級(MeasuredLevel):組織機構已用?定量化?的方式管理其關鍵過程的執行過程。主要特點如下:1)已構建了關鍵過程矩陣;2)已定義了變革管理的正式流程;3)已實現用定量化方式計算關鍵過程的質量和效率;4)關鍵過程的質量和效率的管理涉及其全生命周[多選題]70.下面導入模塊正確的是()。A)importnumpyB)importnumpyasnpC)frommatplotlibimportpyplotD)frommatplotlibimportpyplotasplt答案:ABCD解析:本題考查模塊導入方法。[多選題]71.以下關于MapReduce1.0版本說法正確的是()。A)擴展性差B)可靠性差C)資源利用率低D)無法支持多種計算框架答案:ABCD解析:MRv1存在的局限性包括擴展性差、可靠性差、資源利用率低、無法支持多種計算框架[多選題]72.創建API時,需要填寫()信息。A)API名稱B)API目錄C)請求PathD)請求方答案:ABCD解析:[多選題]73.下列關于集合操作結果正確的有()。A)name={?d?,?s?}nameadd(?sd?)name值為:{?sd?,?d?,?s?}B)name={?sd?,d?,?s?}nameremove(?s?)name值為:{?sd?,?d?}C)name={?sd?,d?,?s?}nameclear()name值為:{}D)name={?sd?,d?,?s?}nameupdate(?df?)name值為:{?sd?,?d?,?f?,?s?,?j?}答案:ABC解析:D結果應為{'d','f','s','sd'}。[多選題]74.下面對LDA判別分析的思想描述正確的是()。A)同類樣例的投影點盡可能近B)異類樣例的投影點盡可能遠C)同類樣例的投影點盡可能遠D)異類樣例的投影點盡可能答案:AB解析:LDA的思想非常樸素:給定訓練樣例集,設法將樣例投影到一條直線上,使得同類樣例的投影點盡可能接近、異類樣例的投影點盡可能遠離;在對新樣本進行分類時,將其投影到同樣的這條直線上,再根據投影點的位置來確定新樣本的類別。[多選題]75.列存表有以下哪些特性:A)insert效率高B)適用于OLAPC)select效率高D)update效率答案:BC解析:[多選題]76.正則表達式可以用非常靈活的方式來處理字符串,在大數據計算服務SQL中的正則函數支持POSIX格式,以下對正則表達式描述正確的有:()。A)[[:blank::]]匹配空格和TAB制表符B)$匹配行尾C)[[:alnum:]]匹配字母字符和數字字符D)[[:digint:]]匹配數字字符答案:ABCD解析:[多選題]77.數據可視化中,從數據到知識的轉換途徑()。A)可視化分析B)自動化建模C)用戶交互D)參數優化答案:AB解析:數據可視化中,從數據到知識的轉換途徑強調可視化分析與自動化建模之間的相互作用。強調數據映射和數據挖掘的重要性。強調數據預處理工作的必要性。強調人機交互的重要性。[多選題]78.特征工程一般需要做哪些工作()。A)正則化B)標準化C)特征處理D)特征選擇答案:CD解析:特征工程包括特征選擇、特征處理、特征變換、特征衍生等。[多選題]79.最常見的分詞算法可以分為哪三大類()。A)基于字符串匹配的分詞方法B)基于理解的分詞方法C)基于統計的分詞方法D)基于閱讀的分詞方答案:ABC解析:無基于閱讀的分詞方法。[多選題]80.pandas中主要的數據結構是()。A)DataB)DataFrameC)FrameD)Series答案:BD解析:pandas的兩種主要數據結構為Series和DataFrame。[多選題]81.GTM負責生成和維護下列哪些信息:A)全局事務IDB)事務快照C)時間戳D)執行計答案:ABC解析:[多選題]82.下列屬于描述gensim庫的特性的是()。A)訓練語料的預處理B)主題向量的變換C)文檔相似度的計算D)文章切分詞語統計計算答案:ABC解析:gensim不用于分詞。[多選題]83.數據挖掘的挖掘方法包括()。A)聚類分析B)回歸分析C)神經網絡D)決策樹算答案:ABCD解析:利用數據挖掘進行數據分析常用的方法主要有分類、回歸分析、聚類、關聯規則、特征、變化和偏差分析、Web頁挖掘等.分類方法有決策樹、KNN法(K-NearestNeighbor)、SVM法、VSM法、Bayes法、神經網絡等。聚類算法分為:基于密度,基于層次,基于模型,基于網格等。關聯規則算法有:Apriori算法,FP-Growth算法[多選題]84.大數據的參考架構分為哪三個層次()A)角色B)活動C)邏輯構件D)功能組件答案:ABD解析:《GB/T35589-2017信息技術大數據技術參考模型》描述了大數據的參考架構,包括角色、活動的功能組件以及它們之間的關系[多選題]85.關于卷積神經網絡的敘述中正確的是()。A)可用于處理時間序列數據B)可用于處理圖像數據C)卷積網絡中使用的卷積運算就是數學中的卷積計算D)至少在網絡的一層中使用卷答案:ABD解析:神經網絡中的卷積:我們通常是指由多個并行卷積組成的運算。(因為單個核只能特區一種類型的特征,我們usually希望可以在多個位置提取多個特征)輸入也不僅僅是實值的網格,而是由一系列觀測數據的向量構成的網格。我們有的時候會希望跳出核中的一些位置來降低計算的開銷(相應的代價是提取特征沒有先前那么好了)我們就把這個過程看作對全卷積函數輸出的下采樣(downsampling).如果只是在輸出的每個方向上每間隔s個像素進行采樣,那么可重新定義一個下采樣卷積函數。我們把s

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論