




版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
大數據競賽理論題每日一側-9月29日[復制]您的姓名:[填空題]*_________________________________1.卷積神經網絡能通過卷積以及池化等操作將不同種類的鳥歸為一類,下列關于卷積神經網絡能達到該效果的原因的描述不正確的是()。[單選題]*A.同樣模式的內容(如鳥嘴)在圖像不同位置可能出現B.池化之后的圖像主體內容基本不變C.不同種類鳥的相同部位(如鳥嘴)形狀相似D.池化作用能使不同種類鳥變得相似(正確答案)答案解析:特征維數的減少并不會讓之前的特征丟失。2.常見的圖像預處理方法不包括()[單選題]*A.圖像降噪B.圖像增強C.圖像尺寸歸一化D.圖像標注(正確答案)答案解析:圖像預處理的主要目的是消除圖像中無關的信息,恢復有用的真實信息,主要包括去噪、對比度增強。圖像尺寸歸一化也是為了增強對比度。圖像標注是圖像處理方法。3.下列關于Python語言特點的描述錯誤的是()。[單選題]*A.Python語言是非開源語言(正確答案)B.Python語言是跨平臺語言C.Python語言是多模型語言D.Python語言是腳本語言答案解析:Python是免費開源的編程語言。4.python字符串切片時,S[0,10]下標的取值范圍為()。[單選題]*A.[0,10]B.(0,10)C.[0,10)(正確答案)D.(0,10]答案解析:切片為左閉右開。5.與HMM和MEMM模型相比,CRF模型的優勢不包含()[單選題]*A.特征靈活B.速度快(正確答案)C.可容納較多上下文信息D.全局最優答案解析:CRF模型的優點①與HMM相比,CRF沒有HMM那樣嚴格的獨立性假設條件,因而可以容納任意的上下文信息,特征設計靈活;②與MEMM相比,由于CRF計算全局最優輸出節點的條件概率,還克服了MEMM模型標記偏置的缺點。CRF模型的缺點:訓練代價大,復雜度高。6.對文本數據處理通常采用()核函數。[單選題]*A.多項式B.SigmoidC.線性(正確答案)D.拉普拉斯7.對連續圖像的離散化采樣決定了圖像的()[單選題]*A.空間分辨率(正確答案)B.時間分辨率C.地面分辨率D.灰度值答案解析:連續圖像變為離散圖像需要每隔一定距離取一次樣,這里的一定距離就是采樣距離,采樣距離越大,像素點越少,圖像越模糊,反之亦然。8.列表中可以放()個字符串。[單選題]*A.1B.255C.無限個(正確答案)D.由用戶自己定義答案解析:列表中的元素個數不限制。9.在深度學習中,我們經常會遇到收斂到localminimum,下列不屬于解決localminimum問題的方法是()。[單選題]*A.隨機梯度下降B.設置MomentumC.設置不同初始值D.增大batchsize(正確答案)答案解析:增大batchsize無法解決localminimum問題。10.屬于卷積神經網絡應用方向的是()。[單選題]*A.圖像分類B.目標檢測C.圖像語義分割D.以上答案都正確(正確答案)答案解析:卷積神經網絡應用于圖像分類、目標檢測及圖像語義分割。11.HBase依靠()存儲底層數據。[單選題]*A.HDFS(正確答案)B.HadoopC.MemoryD.MapReduce答案解析:HBase位于結構化存儲層,HDFS為HBase提供了高可靠性的底層存儲支持。12.隨機森林中的隨機是指()[單選題]*A.隨便構建樹模B.隨機選擇一個樹模型C.隨機選擇多個樹模型D.在構建每個樹模型時隨機選擇樣本和特征(正確答案)答案解析:隨機森林里的隨機包含的意思是樣本隨機、特征隨機、參數隨機、模型隨機(ID3,C4.5)。13.二值圖像中的分支點的連接數為()。[單選題]*A.0B.1C.2D.3(正確答案)答案解析:二值圖像中連接數為0的像素為孤立點或內點。連接數為1的像素為端點或邊界點,連接數為2的像素為連接點,連接數為3的像素為分支點。14.下列不屬于模型集成方法的是()。[單選題]*A.直接集成法B.增強法C.堆疊法D.遞歸法(正確答案)答案解析:模型集成方法包括直接集成法、自助法、隨機森林、增強法和堆疊法等。15.下列關于Python內存管理的說法錯誤的是()。[單選題]*A.變量不必事先聲明B.變量無須先創建和賦值而直接使用(正確答案)C.變量無須指定類型D.可以使用del釋放資源答案解析:Python變量需要事先聲明并賦值才能使用。16.給定詞匯表如下:{Bob,ok,likes,football,car}。則下面句子Boblikesfootball的詞袋模型表示為()。[單選題]*A.[11100]B.[10110](正確答案)C.[10010]D.[01101]答案解析:統計句子(Boblikesfootball)中每個詞出現的數量,并查看這些詞在給定詞匯表中的數量和位置,按照給定詞匯表出現的順序排列,得出一個向量即為答案。17.Python中用()快捷鍵表示運行當前程序。[單選題]*A.Ctrl+F10B.Ctrl+Alt+F10C.Shift+F10D.Ctrl+Shift+F10(正確答案)答案解析:Python中表示運行當前程序的快捷鍵是Ctrl+Shift+F10。18.一般而言,在個體學習器性能相差較大與個體學習器性能相近時宜分別使
用()。[單選題]*A.簡單平均法,加權平均法B.加權平均法,簡單平均法(正確答案)C.簡單平均法,簡單平均法D.加權平均法,加權平均法19.采用模板[-11]主要檢測()方向的邊緣。[單選題]*A.水平B.450C.垂直(正確答案)D.1350答案解析:[-11]是用右邊的像素減去左邊的像素,當左右像素差別大也就是存在垂直方向邊緣時,模板作用在圖像上的值會較大。20.下列關于Python的說法不正確的是()。[單選題]*A.Python是一門面向對象的解釋性程序設計語言B.Python程序可以在IDLE和pycharm里進行開發C.Python功能很強大,可以編寫網頁和游戲D.Python只能在Windows系統下編寫(正確答案)答案解析:Python在Windows、Linux、Mac等系統下均可編寫。21.Python安裝擴展庫常用的是()工具。[單選題]*A.pyinstallB.pip(正確答案)C.popD.post22.輸人圖像為32x32,經過步長為1、不進行padding、卷積核為5x5的卷積層后,得到的特征圖尺寸是()。[單選題]*A.28x28(正確答案)B.27X27C.29x29D.32x32答案解析:(32+0-5)/1+1=28.23.()是Spark的核心數據結構。[單選題]*A.彈性分布式數據集(正確答案)B.列表C.元組D.字典答案解析:彈性分布式數據集(RDD)是Spark的核心數據結構。24.數據科學基本原則中,基于數據的智能的主要特點是()。[單選題]*A.數據簡單,但算法簡單B.數據復雜,但算法簡單(正確答案)C.數據簡單,但算法復雜D.數據復雜,但算法復雜答案解析:數據科學對智能的實現方式有了新的認識一從基于算法的智能到基于數據的智能過渡。基于數據的智能的重要特點是數據復雜,但算法簡單。25.MapReduce計算框架的輸人數據結構是()。[單選題]*A.key-value(正確答案)B.input-outputC.map-reduceD.key-column答案解析:MapReduce計算框架的輸入是鍵值對,即key-value。26.在圖集合中發現一組公共子結構,這樣的任務稱為()。[單選題]*A.頻繁子集挖掘B.頻繁子圖挖掘(正確答案)C.頻繁數據項挖掘D.頻繁模式挖掘答案解析:頻繁子圖挖掘是指在圖集合中挖掘公共子結構。27.Python運算符中用來計算集合并集的是()。[單選題]*A.|(正確答案)B.&C.||D.+答案解析:Python運算符中用來計算集合并集的是|28.下列說法不正確的是()。[單選題]*A.卷積神經網絡主要用于目標識別、圖像分割等方面B.循環神經網絡主要用于處理序列數據C.長短時記憶神經網絡主要用于處理序列數據D.長短時記憶神經網絡是和循環神經網絡完全不同的一種新型神經網絡(正確答案)答案解析:長短時記憶神經網絡是一種改進的循環神經網絡。29.下列關于MapReduce說法不正確的是()。[單選題]*A.MapReduce是一種計算框架B.MapReduce來源于Google的學術論文C.MapReduce程序只能用java語言編寫(正確答案)D.MapReduce隱藏了并行計算的細節,方便使用答案解析:MapReduce程序可用多種語言編寫,如Ruby、Python、Java等。30.通常落伍者是影響MapReduce總執行時間的主要影響因素之一,為此MapReduce采用()機制來解決。[單選題]*A.分布式計算B.惰性計算C.推測性執行的任務備份(正確答案)D.先進先出答案解析:MapReduce采用推測性執行的任務備份機制,當作業中大多數的任務都已經完成時,系統在幾個空閑的節點上調度執行剩余任務的備份,并在多個Worker上同時進行相同的剩余任務。31.關聯規則的評價指標是()。[單選題]*A.均方誤差、均方根誤差B.Kappa統計、顯著性檢驗C.支持度、置信度(正確答案)D.平均絕對誤差、相對誤差答案解析:支持度、置信度是關聯規則的評價指標。32.常用的灰度內插值法不包括()。[單選題]*A.最近鄰內插法B.三次內插法C.雙線性內插值法D.三次樣條插值法(正確答案)答案解析:常用的灰度內插值法有最近鄰內插法、三次內插法、雙線性內插值法。33.下列關于計算機編程語言的說法錯誤的是()。[單選題]*A.編程語言是用于書寫計算機程序的語言B.計算機語言可分為機器語言、匯編語言、高級語言C.計算機能識別和執行所有編程語言寫的程序(正確答案)D.C/C++、pascal、java、Python都屬于高級編程語言答案解析:只有機器語言才能被計算機直接識別,Python等高級語言源程序不能直接運行,必須翻譯成機器語言才能執行。34.在多元線性回歸模型中,若某個解釋變量對其余解釋變量的判定系數接近于1,則表明模型中存在()。[單選題]*A.異方差B.序列相關C.多重共線性(正確答案)D.高擬合優度35.為了降低MapReduce兩個階段之間的數據傳遞量,一般采用()函數對map階段的輸出進行處理。[單選題]*A.sort()B.combiner()(正確答案)C.join()D.gather()答案解析:為了降低數據傳遞量,采用combiner()函數對map()函數的數據結果進行合并處理。36.神經網絡感知機只有()神經元進行激活函數處理,即只擁有一層功能神經元。[單選題]*A、輸出層(正確答案)B.輸入層C.感知層D.網絡層答案解析:神經網絡感知機由兩層神經元組成,輸入層接收外界輸入信號以后傳遞給輸出層,其中,僅輸出層進行激活函數處理。37.對文本數據處理通常采用()核函數。[單選題]*A.多項式B.SigmoidC.線性(正確答案)D.拉普拉斯38.arr=np.arange(9).reshape(3,3),使數組arr交換列1和列2的操作是()。[單選題]*A.arr[:,[1,0,2]](正確答案)B.arr[:,[1,0,3]]C.arr[:,[1,0,1]]D.arr[:,[1,0]]答案解析:交換前兩列相當于依次選取2、1、3列。39.a=1,b=2,c=3,則下列表達式結果為True的是()。[單選題]*A.a>=bor(c+5)%3==1B.not(a==1andb!=c)C.notaandb==cD.aanda+b>=c(正確答案)答案解析:注意優先級。40.下列關于深度學習中sigmoid函數的說法錯誤的是()[單選題]*A.存在梯度爆炸的問題(正確答案)B.不是關于原點對稱C.計算exp比較耗時D.存在梯度消失的問題答案解析:sigmoid函數存在的是梯度消失問題。41.下列說法中:①R-Squared和AdjustedR-squared都是遞增的;②R-Squared是常量的,AdjustedR-squared是遞增的;③R-Squared是遞減的,AdjustedR-squared也是遞減的;④R-Squared是遞減的,AdjustedR-squared是遞增的。對于線性回歸模型,包括附加變量在內,可能正確的是()。[單選題]*A.①②B.①③C.②④D.以上都不是(正確答案)答案解析:R-squared不能決定系數估計和預測偏差。每次在模型中加入預測器,R-squared遞增或不變。42.下列關于情感分析的描述正確的是()。[單選題]*A.情感分析的難點是語句太長導致精度降低(正確答案)B.為了降低復雜度,循環神經網絡無須添加LSTM結構C.對文本進行停用詞處理不可以提高情感分析的計算精度D.對文本進行無關詞處理不可以提高情感分析的計算精度43.使用pip工具查看當前已安裝的Python擴展庫的完整命令是()。[單選題]*A.pipupdateB.piplist(正確答案)C.pipinstallD.pipshowall答案解析:使用pip工具查看當前已安裝的Python擴展庫的完整命令piplist.44.下列不屬于深度學習內容的是()。[單選題]*A.深度置信網絡B.受限玻爾茲曼機C.卷積神經網絡D.貝葉斯學習(正確答案)答案解析:貝葉斯學習屬于傳統的機器學習算法。45.Spark的()組件用于支持實時計算需求。[單選題]*A.SparkSQLB.SparkStreaming(正確答案)C.SparkGraphXD.SparkMLLib答案解析:SparkStreaming組件用于實時處理。46.下列關于集成學習模型中弱學習者的描述錯誤的是()。[單選題]*A.經常不會過擬合B.通常帶有高偏差,所以其并不能解決復雜學習問題C.通常會過擬合(正確答案)D.通常擁有低方差答案解析:弱學習者是問題的特定部分。所以他們通常不會過擬合,這也就意味著弱學習者通常擁有低方差和高偏差。47.下列關于Boosting算法的描述錯誤的是()[單選題]*A.可將強學習器降為弱學習器(正確答案)B.從初始訓練集訓練基學習器C.對訓練樣本分布進行調整D.做錯的訓練樣本多次訓練答案解析:Boosting是一種集成學習算法,由一系列基本分類器按照不同的權重組合成為一個強分類器。48.可用作數據挖掘分析中的關聯規則算法有()。[單選題]*A.機器學習、對數回歸、關聯模式B.K均值法、SOM機器學習C.Apriori算法、FP-Tree算法(正確答案)D.RBF機器學習、K均值法、機器學習答案解析:關聯規則包括Apriori、FP-Tree等算法。49.a=[1,2,3.4,5],切片時如果要取[2,3.4],則下列結果正確的是()[單選題]*A.a[1:4]B.a[-2:]C.a[1:-1](正確答案)D.a[::2]答案解析:此題應注意是“3.4”而不是“3,4”,因此有以下取法:a[1:3]、a[1:-1]。50.當構建一個神經網絡進行圖片的語義分割時,通常采用的順序是()。[單選題]*A.先用卷積神經網絡處理輸入,再用反卷積神經網絡得到輸出(正確答案)B.先用反卷積神經網絡處理輸入,再用卷積神經網絡得到輸出C.不能確定答案解析:處理圖片需要先使用卷積神經網絡對圖像局部特征進行提取和分割,然后反卷積還原圖像信息,卷積類似于編碼,反卷積類似于解碼。51.彩色圖像增強時,()處理可以采用RGB。[單選題]*A.直方圖均衡化B.同態濾波C.均值濾波(正確答案)D.中值濾波答案解析:RGB是彩色圖像的三通道像素值,均值濾波進行的是線性操作,不影響原本圖像的相對亮度。52.在Windows系統中,關閉Python終端會話常用的快捷鍵是()。[單選題]*A.Ctrl+CB.Ctrl+DC.Ctrl+ED.Ctrl+Z(正確答案)答案解析:在Windows系統中,關閉Python終端會話常用快捷鍵是Ctrl+Z。53.相對于HadoopMapReduce1.0,Spark的特點不包括()[單選題]*A.速度快B.并發多(正確答案)C.通用性D.易用性答案解析:相較于HadoopMapReduce,Spark的特點為速度快、通用性和易用性。54.通過K-means算法進行聚類分析后得出的聚類結果的特征是()。[單選題]*A.同一聚類中的對象間相似度高,不同聚類中的對象間相似度高B.同一聚類中的對象間相似度高,不同聚類中的對象間相似度低(正確答案)C.同一聚類中的對象間相似度低,不同聚類中的對象間相似度低D.同一聚類中的對象間相似度低,不同聚類中的對象間相似度高55.對數值型輸出,最常見的結合策略是()。[單選題]*A.投票法B.平均法(正確答案)C.學習法D.排序法56.在MapReduce中,reduce()函數可以將()值相同的輸入進行合并處理。[單選題]*A.inputB.key(正確答案)C.valueD.number答案解析:reduce()函數根據key值合并value值。57.運行下面程序的輸出的結果是()。x=np.arange(32).reshape(8,4)print(x[[-4,-2,-1,-7]])"[單選題]*A.[[16171819][24252627][28293031][4567]](正確答案)B.[[16171819][891011][4567][28293031]C.[[891011][4567]]D.error答案解析:二維數組只傳入一個列表進行索引時,是對行進行選取。58.若arr=np.array([[1,2,3],[4,5,6],[7,8,9]]),則arr[:2,1:]的輸出是()[單選題]*A.([[2,3],[5,6]])(正確答案)B.([[1][6]])C.([[5,6],[8,9]])D.([[1,2],[4,5]])答案解析:索引時如果不指定冒號旁邊的數值,則默認從開頭開始或至結尾結束,此處為前兩行后兩列。59.下列關于Python注釋的描述錯誤的是()。[單選題]*A.Python注釋語句不被解釋器過濾掉,也不被執行(正確答案)B.注釋可以輔助程序調試C.注釋可用于標明作者和版權信息D.注釋用于解釋代碼原理或者用途答案解析:Python注釋語句會被解釋器過濾掉,不被執行。60.詞袋模型中的文本向量每個元素表示該詞的()。[單選題]*A.頻率(正確答案)B.順序C.含義D.語義關系答案解析:詞袋模型是最基礎的文本表示模型,就是把每一篇文章看成一袋子單詞,并忽略每個詞出現的順序。每篇文章可以表示成一個長向量,向量中的每一維代表一個單詞,而該維對應的權重代表這個詞在文章中的重要程度,重要程度是由頻率來衡量的。61.大數據處理流程可以概括為()。*A.數據分析與挖掘(正確答案)B.數據采集(正確答案)C.數據儲存(正確答案)D.結果展示(正確答案)62.下列對模型性能提高有幫助的有()。*A.數據預處理(正確答案)B.特征工程(正確答案)C.機器學習算法(正確答案)D.模型集成(正確答案)答案解析:數據預處理、特征工程、機器學習算法、模型集成均可提高模型性能。63.下列關于reduce函數功能的描述正確的有()。*A.合并value值,形成較小集合(正確答案)B.采用迭代器將中間值提供給reduce()函數(正確答案)C.map()函數處理后結果才會傳輸給reduce()函數(正確答案)D.內存中不會存儲大量的value值(正確答案)64.下列關于負荷Python的模塊的說法正確的有()。*A.模塊能夠用來有邏輯地組織Python代碼段(正確答案)B.Python擁有豐富的模塊,不支持自定義模塊C.把相關的代碼分配到一個模塊里能讓代碼更好用、更易懂(正確答案)D.模塊能定義函數、類和變量,模塊里也能包含可執行的代碼(正確答案)65.下面定義函數正確的有()。*A.defcalc(*numbers):sum=0forninnumbers:sum=sumtn*nreturnsum(正確答案)B.defcalc(**numbers):sum=0forninnumbers:sum=sum+n*nreturnsum(正確答案)C.defcalc(**numbers,n):sum=0forninnumbers:sum=sum+n*nreturmnsumD.defcalc(**numbers,n=0):sum=0forninnumbers:sum=sum+n*nreturnsum答案解析:函數不定長參數*args和**kwargs只能放在形參的末尾,因此AB正確,CD錯誤。66.假設目標遍歷的類別非常不平衡,即主要類別占據了訓練數據的99%,假設現在模型在訓練集上表現為99%的準確度,那么下列說法正確的有()。*A.準確度并不適合衡量不平衡類別問題(正確答案)B.準確度適合衡量不平衡類別問題C.精確度和召回率適合于衡量不平衡類別問題(正確答案)D.精確度和召回率不適合衡量不平衡類別問題答案解析:精確度和召回率適合于衡量不平衡類別問題,準確度并不適合衡量不平衡類別問題。67.下列中屬于MapReduce特征的有()*A.以主從結構的形式運行(正確答案)B.容錯機制的復雜性(正確答案)C.任務備份機制的必要性(正確答案)D.數據存儲位置固定答案解析:數據存儲位置具有多樣性,并非固定,所以D錯。68.下列函數屬于二元通用函數(binaryuniversalfunctions)的有()。*A.add(正確答案)B.substract(正確答案)C.multiply(正確答案)D.power(正確答案)答案解析:二元函數是指函數方程式中包含兩個自變量,ABCD都滿足。69.Numpy支持的統計函數有()。*A.min(正確答案)B.max(正確答案)C.median(正確答案)D.mean(正確答案)答案解析:這些都是Numpy支持的統計函數。70.()是scipy.stats可實現的連續隨機變量方法。*A.rVS(正確答案)B.pdf(正確答案)C.ppf(正確答案)D.cdf(正確答案)答案解析:Scipy基礎知識。71.與全連接的DNN,CNN的優勢有()。*A.參數更少(正確答案)B.泛化更好(正確答案)C.訓練更快(正確答案)D.更容易搭建答案解析:DNN直接對數據做加權線性連接,CNN則是移動卷積核,并對圖像中的各區域做卷積操作。因此,DNN更容易搭建,D錯誤。72.在數據科學中,計算模式發生了根本性的變化--從集中式計算、分布式計算、網格計算等傳統計算過渡至云計算,有一定的代表性的是Google云計算三大技術,這三大技術包括()。*A.HadoopYARN資源管理器B.GFS分布式存儲系統(正確答案)C.MapReduce分布式處理技術(正確答案)D.BigTable分布式數據庫(
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 糖果與巧克力行業市場調研方法與數據分析技巧考核試卷
- 四川省德陽中學江縣2025屆初三5月第一次聯考化學試題試卷含解析
- 松原職業技術學院《家具設計與制作》2023-2024學年第二學期期末試卷
- 天津市職業大學《水工鋼筋混凝土結構學》2023-2024學年第二學期期末試卷
- 六枝特區2025屆數學三下期末學業水平測試模擬試題含解析
- 駕駛員安全責任協議書
- 房產產權轉讓協議二零二五年
- 二零二五融資及管理服務協議書
- 二零二五版房子抵押合同
- 種植業年度盤點
- 酒店報銷水單經典模板
- 給水泵檢修方案
- 《運營管理》第2版題庫與參考答案
- KEGG代謝通路中文翻譯
- GB∕T 17832-2021 銀合金首飾 銀含量的測定 溴化鉀容量法(電位滴定法)
- 低成本自動化的開展與案例77頁PPT課件
- 梅州市部分飲用水源保護區調整方案
- 地面沉降監測技術要求
- 基本建設項目建設成本管理規定解讀
- 金色的魚鉤課本劇
- 印刷機周保養記錄
評論
0/150
提交評論