




版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
試卷科目:人工智能機器學習技術練習人工智能機器學習技術練習(習題卷16)PAGE"pagenumber"pagenumber/SECTIONPAGES"numberofpages"numberofpages人工智能機器學習技術練習第1部分:單項選擇題,共58題,每題只有一個正確答案,多選或少選均不得分。[單選題]1.以下哪個操作可能會產生大量小文件A)mapper數較多的map-only任務B)reduer數較多的任務C)從海量數據中過濾出符合條件的少量數據答案:C解析:[單選題]2.線性回歸和邏輯回歸中,關于損失函數對權重系數的偏導數,下列說法正確的是?A)兩者不一樣B)兩者一樣C)無法確定答案:B解析:[單選題]3.正常建立一條TCP連接需要()個步驟,正常關閉一個TCP連接需要()個步驟A)3,3B)3,4C)4,4D)4,3答案:B解析:[單選題]4.讓學習器不依賴外界交互、自動地利用未標記樣本來提升學習性能,就是(__)。A)有監督學習B)全監督學習C)無監督學習D)半監督學習答案:D解析:[單選題]5.關于OLAP和OLTP的說法,下列不正確的是:A)OLAP事務量大,但事務內容比較簡單且重復率高.B)OLAP的最終數據來源與OLTP不一樣.C)OLTP面對的是決策人員和高層管理人員.D)OLTP以應用為核心,是應用驅動的.答案:A解析:[單選題]6.關于基本數據的元數據是指:A)基本元數據與數據源,數據倉庫,數據集市和應用程序等結構相關的信息;B)基本元數據包括與企業相關的管理方面的數據和信息;C)基本元數據包括日志文件和簡歷執行處理的時序調度信息;D)基本元數據包括關于裝載和更新處理,分析處理以及管理方面的信息.答案:D解析:[單選題]7.Zookeeper-Stat結構體中dataLength是()A)znode數據變化號B)znode訪問控制列表的變化號C)znode子節點數量D)znode的數據長度答案:D解析:[單選題]8.關于k折交叉驗證,下列說法正確的是?A)k值并不是越大越好,k值過大,會降低運算速度B)選擇更大的k值,會讓偏差更小,因為k值越大,訓練集越接近整個訓練樣本C)選擇合適的k值,能減小驗方差D)以上說法都正確答案:D解析:機器學習中,在樣本量不充足的情況下,為了充分利用數據集對算法效果進行測試,將數據集隨機分為k個包,每次將其中一個包作為測試集,剩下k-1個包作為訓練集進行訓練。K折交叉驗證的的k值不能太大,也不能太小。k值過大,會降低運算速度。若k與樣本數量N相同,則是留一法(Leave-One-Out)。k值較大,訓練集越接近整個訓練樣本,有利于減小模型偏差(bias)。一般可以將k作為超參數調試,根據表現選擇合適的k值。K折交叉驗證能夠有效提高模型的學習能力,類似于增加了訓練樣本數量,使得學習的模型更加穩健,魯棒性更強。選擇合適的k值能夠有效避免過擬合。[單選題]9.()不可以直接來對文本分類。A)K-meansB)決策樹C)支持向量機D)KNN答案:A解析:K-means是聚類方法,屬于無監督學習。BCD都是常見的分類方法。[單選題]10.以下描述不正確的是()。A)文本是半結構化數據B)非結構化數據是數據科學與傳統數據管理的主要區別C)視頻是非結構化數據D)目前,非結構化數據占比最大答案:A解析:[單選題]11.Keras主要用于哪一方面A)神經網絡B)非結構化數據存儲C)數據可視化D)數據管理答案:A解析:[單選題]12.主成分分析的優化目標是一個(__)。A)不含約束條件的二次規劃問題B)含有約束條件的二次規劃問題C)不含約束條件的線性規劃問題D)含有約束條件的線性規劃問題答案:B解析:[單選題]13.已知數組trans_cnt[1,2,3,4],trans_cnt[2]代表的是哪一個元素:A)1B)2C)3D)4答案:C解析:[單選題]14.多項式分布的共軛分布是()A)正態分布B)Dirichlet分布C)Beta分布D)指數分布答案:B解析:[單選題]15.(__)假設聚類結構能通過一組原型刻畫,在顯示聚類任務中極為常用。A)原型聚類B)密度聚類C)層次聚類D)AGNES答案:A解析:[單選題]16.標準AdaBoost只適用于____任務A)多分類B)二分類C)回歸D)分類答案:A解析:[單選題]17.以下哪一項給出了邏輯回歸與LDA之間的差異?A)1B)2C)1和2D)都不是答案:C解析:[單選題]18.可用信息增益來進行決策樹的()。A)樹高B)葉子結點數C)總結點數D)劃分屬性選擇答案:D解析:[單選題]19.GRU和LSTM的說法正確的是()A)GRU通過outputgate控制memory;B)LSTM對memory不做控制,直接傳遞給下一個unitC)GRU不對上一時刻的信息做任何控制;D)GRU的參數比LSTM的參數少;答案:D解析:[單選題]20.以下有關機器學習理解不正確的是()。A)查詢大量的操作數據去發現新的信息B)從大量的業務數據中分析有興趣的新穎知識輔助決策的過程C)機器學習的結果不一定能輔助決策D)需要借助統計學或機器學習的一些算法答案:A解析:[單選題]21.以下表達式書寫錯誤的是A)year('2015-12-3112:21')B)month(2015-10-31)C)day('2015-12-11')D)date_sub('2015-12-01',3)答案:B解析:[單選題]22.如果我們現有一個安裝2.6.5版本的hadoop集群,在不修改默認配置的情況下存儲200個每個200M的文本文件,請問最終會在集群中產生多少個數據塊(包括副本)?A)200B)40000C)400D)1200答案:D解析:[單選題]23.決策樹中不包含以下哪種結點A)根節點B)內部結點C)葉節點D)外部結點答案:D解析:[單選題]24.未來房價的預測,這種屬于數據挖掘的哪類問題?()A)分類B)聚類C)關聯規則D)回歸分析答案:D解析:[單選題]25.對于任意值?x?,考慮到Logistic(x):是任意值?x?的邏輯(Logistic)函數Logit(x):是任意值?x?的logit函數Logit_inv(x):是任意值?x?的逆邏輯函數以下哪一項是正確的?A)Logistic(x)=Logit(x)B)Logistic(x)=Logit_inv(x)C)Logit_inv(x)=Logit(x)D)都不是答案:B解析:[單選題]26.屬于無監督學習的機器學習算法是()A)支持向量機B)Logistic回歸C)層次聚類D)決策樹答案:C解析:[單選題]27.線性回歸是一種(),它分為簡單線性回歸和多元線性回歸A)無監督學習算法B)有監督學習算法C)強化學習D)聚類算法答案:B解析:[單選題]28.如果需要訓練的特征維度成千上萬,在高維情形下出現的數據樣本稀疏、距離計算困難。我們通過()可以緩解這個問題。A)K均值算法B)支持向量機C)降維D)以上答案都不正確答案:C解析:[單選題]29.?哪些機器學習模型經過訓練,能夠根據其行為獲得的獎勵和反饋做出一系列決策?A)無監督學習B)監督學習C)強化學習D)以上全部答案:C解析:[單選題]30.假設你有以下數據:輸入和輸出都只有一個變量。使用線性回歸模型(y=wx+b)來擬合數據。那么使用留一法(Leave-OneOut)交叉驗證得到的均方誤差是多少?X(independentvariable)023Y(dependentvariable)221A)10/27B)39/27C)49/27D)55/27答案:C解析:[單選題]31.假設使用邏輯回歸進行n多類別分類,使用One-vs-rest分類法。下列說法正確的是?A)對于n類別,需要訓練n個模型B)對于n類別,需要訓練n-1個模型C)對于n類別,只需要訓練1個模型D)以上說法都不對答案:A解析:One-vs-rest分類法中,假設有n個類別,那么就會建立n個二項分類器,每個分類器針對其中一個類別和剩余類別進行分類。進行預測時,利用這n個二項分類器進行分類,得到數據屬于當前類的概率,選擇其中概率最大的一個類別作為最終的預測結果。舉個簡單的例子,3分類,類別分別是{-1,0,1}。構建3個二分類器:-1與0,1與-1,11與-1,0若第1個二分類器得到-1的概率是0.7,第2個二分類器得到0的概率是0.2,第3個二分類器得到1的概率是0.4,則最終預測的類別是-1。[單選題]32.以下描述中,屬于決策樹策略的是()A)最優投影方向B)梯度下降方法C)最大特征值D)最大信息增益答案:D解析:[單選題]33.關于數據規范化,下列說法中錯誤的是()。A)標準化實際上是將數據在樣本的標準差上做了等比例的縮放操作B)歸一化利用了樣本中的最大值和最小值C)包含標準化和歸一化D)標準化在任何場景下受異常值的影響都很小答案:D解析:[單選題]34.下面哪些可能是一個文本語料庫的特征()1一個文檔中的詞頻統計2文檔中單詞的布爾特征3詞向量4詞性標記5基本語法依賴6整個文檔A)123B)1234C)12345D)123456答案:C解析:[單選題]35.圖像降噪的作用(__)。A)改變圖像大小B)將圖像分成多個小單位C)去除干擾信號D)使圖像變得更加豐富答案:C解析:[單選題]36.已知一組數據的協方差矩陣P,下面關于主分量說法錯誤的是()。A)主分量分析的最佳準則是對一組數據進行按一組正交基分解,在只取相同數量分量的條件下,以均方誤差計算截尾誤差最小B)在經主分量分解后,協方差矩陣成為對角矩陣C)主分量分析就是K-L變換D)主分量是通過求協方差矩陣的特征值得到答案:C解析:主分量分析的變換矩陣是協方差矩陣,K-L變換的變換矩陣可以有很多種(二階矩陣、協方差矩陣、總類內離散度矩陣等)。當K-L變換矩陣為協方差矩陣時,等同于PCA。[單選題]37.Fisher線性判別函數的求解過程是將N維特征矢量投影在()中進行求解?A)一維空間B)N-1維空間C)三維空間D)二維空間答案:A解析:[單選題]38.關于OLAP和OLTP的區別描述,不正確的是:A)OLAP主要是關于如何理解聚集的大量不同的數據.它與OTAP應用程序不同.B)與OLAP應用程序不同,OLTP應用程序包含大量相對簡單的事務.C)OLAP的特點在于事務量大,但事務內容比較簡單且重復率高.D)OLAP是以數據倉庫為基礎的,但其最終數據來源與OLTP一樣均來自底層的數據庫系統,兩者面對的用戶是相同的.答案:D解析:[單選題]39.下列代碼實現的功能是:>>>fromsklearn.naive_bayesimportGaussianNB>>>gnb=GaussianNB()>>>y_pred=gnb.fit(iris.data,iris.target).predict(iris.data)A)創建高斯樸素貝葉斯模型并對模型進行訓練B)創建高斯樸素貝葉斯模型并對模型進行預測C)創建高斯樸素貝葉斯模型并對模型進行訓練和預測D)創建高斯樸素貝葉斯模型并對模型進行訓練和評測答案:C解析:[單選題]40.下面不屬于云計算技術的有(__)。A)HadoopB)SparkC)YARND)集中式計算答案:D解析:[單選題]41.下圖顯示的機器學習使用的激活函數(Activationfunction)的圖形,是下列哪一個函數的圖形?()A)B)C)D)答案:C解析:[單選題]42.()是二維隨機變量的分布。A)正態分布B)二項分布C)邊緣分布D)指數分布答案:C解析:二維隨機變量的分布有邊緣分布和條件分布。[單選題]43.下列中為判別模型的是()A)高斯混合模型B)隱含馬爾科夫模型C)GAN模型D)邏輯回歸模型答案:D解析:[單選題]44.()在劃分屬性時是在當前結點的屬性集合中選擇一個最優屬性。A)AdaBoostB)RFC)BaggingD)傳統決策樹答案:D解析:[單選題]45.在支持向量機中,?間隔?是指(__)。A)非支持向量到劃分超平面間的距離之和B)支持向量之間的距離C)支持向量和非支持向量之間的距離D)支持向量到超平面的距離之和答案:D解析:[單選題]46.以下兩種描述分別對應哪兩種對分類算法的評價標準?(a)警察抓小偷,描述警察抓的人中有多少個是小偷的標準。(b)描述有多少比例的小偷給警察抓了的標準。A)Precision,RecallB)Recall,PrecisionC)Precision,ROCD)Recall,ROC答案:A解析:[單選題]47.FOIL是()的學習算法A)命題規則B)剪枝優化C)一階規則D)序貫覆蓋答案:C解析:[單選題]48.以下哪項不屬于知識發現的過程?()A)數據清理B)數據挖掘C)知識可視化表達D)數據測試答案:D解析:[單選題]49.下列激活函數中,能夠實現將特征限制到區間[-1,1]的是哪一個A)TanhB)LogisticC)ReLUD)Sigmoid答案:A解析:[單選題]50.變量之間的關系可以分為()兩大類。A)函數關系與相關關系B)線性相關關系和非線性相關關系C)正相關關系和負相關關系D)簡單相關關系和復雜相關關系答案:A解析:[單選題]51.(__)是一門以可視化交互為基礎,綜合運用圖形學、數據挖掘和人機交互等多個領域的知識,以實現人機協同完成可視化任務為主要目的的分析推理性學科。A)信息可視化B)科學可視化C)可視分析學D)數據可視化答案:C解析:[單選題]52.圖像在opencv中的數據存儲結構是()。A)tensorB)numpyC)linkD)Mat答案:D解析:[單選題]53.在測試一假設h時,發現在一包含n=1000個隨機抽取樣例的樣本s上,它出現r=300個錯誤,計算Errors(h)的標準差()A)0.0145B)0.145C)1.45D)14.5答案:A解析:[單選題]54.下列表示Pandas類別統計函數的是()。A)value_Counts()B)Value_Counts()C)values_counts()D)value_counts()答案:D解析:[單選題]55.對于分類任務來說,在所有相關概率都已知的理想情形下,(__)考慮如何基于這些概率和誤判損失來選擇最優的類別標記。A)支持向量機B)間隔最大化C)線性分類器D)貝葉斯決策論答案:D解析:[單選題]56.下面的代碼中,不是用來用來評價所訓練模型的預測準確性的是:A)fromsklearn.metricsimportaccuracy_scoreB)fromsklearn.model_selectionimporttrain_test_splitC)fromsklearn.metricsimportmean_squared_errorD)fromsklearn.metricsimportmean_absolute_error答案:B解析:[單選題]57.以下描述正確的是()。A)非結構化數據是先有結構,后有數據B)XML是非結構化數據C)結構化數據是先有數據,后有結構D)非結構化數據是數據科學與傳統數據管理的主要區別答案:D解析:[單選題]58.k-NN最近鄰方法在什么情況下效果較好?A)樣本較多但典型性不好B)樣本較少但典型性好C)樣本呈團狀分布D)樣本呈鏈狀分布答案:B解析:K近鄰算法主要依靠的是周圍的點,因此如果樣本過多,則難以區分,典型性好的容易區分。樣本呈團狀或鏈狀都具有迷惑性,這樣kNN就發揮不出其求近鄰的優勢了,整體樣本應該具有典型性好,樣本較少,比較適宜。第2部分:多項選擇題,共21題,每題至少兩個正確答案,多選或少選均不得分。[多選題]59.在決策樹基本算法中,有三種情形會導致遞歸返回,這三種情形分別是(__)。A)當前結點包含的樣本全屬于同一類別,無需劃分B)當前屬性集為空,或是所有樣本在所有屬性上取值相同,無法劃分C)當前結點包含的樣本集合為空,不能劃分D)當前結點包含的樣本不屬于同一類別,不可劃分答案:ABC解析:[多選題]60.可用于貝葉斯決策的函數()A)AB)BC)CD)D答案:ABC解析:[多選題]61.下面不屬于探索性統計中常用數據分布統計量的是(__)。A)殘差B)偏態C)峰態D)眾數答案:AD解析:[多選題]62.KNN的主要優點是()A)理論成熟,思想簡單,既可以用來做分類也可以用來做回歸B)訓練時間復雜度比支持向量機之類的算法低,僅為O(n)C)與樸素貝葉斯之類的算法比,對數據沒有假設,準確度高,對異常點不敏感D)可用于非線性分類答案:ABCD解析:[多選題]63.()是卷積神經網絡的池化層。A)convolutionB)maxpoolingC)averagepoolingD)fullconnection答案:BC解析:[多選題]64.在hive中下列哪些命令可以實現去重()A)distinctB)groupbyC)row_numberD)Having答案:ABC解析:[多選題]65.支持向量機中定義的間隔值為w的二范式的-2次方,這樣看間隔貌似僅與權重w有關,這意味著偏置項b(__)。A)沒有任何意義B)對間隔不會產生影響C)通過約束隱式地影響著w的取值D)對間隔會產生影響答案:CD解析:[多選題]66.Spark可以采用幾種不同的部署方式A)SparkonYARNB)SparkonMesosC)onyarn模式D)Standalone答案:ABD解析:[多選題]67.機器學習算法按學習任務分類可分為A)分類B)回歸C)聚類D)強化學習答案:ABC解析:[多選題]68.(__)是數據科學的主要理論基礎之一。A)機器學習B)統計學C)數據D)黑客精神與技能答案:AB解析:[多選題]69.對單層感知機判別分類,描述正確的是()A)線性分類B)監督學習C)錯誤誤差最小D)錯誤誤差最大答案:ABC解析:[多選題]70.下列關于支持向量回歸機說法正確的是(__)。A)支持向量回歸機希望學得一個回歸模型,使得預測值f(x)與真實值x盡可能接近B)在傳統回歸模型中,當且僅當預測值f(x)與真實值x完全相同時,損失才為0C)支持向量回歸假設我們能夠容忍預測值f(x)與真實值x之間最多有特定值的誤差D)支持向量回歸以決策函數為中心,構建了一個特定寬度的間隔帶,若訓練樣本落入此間隔帶,則認為是被預測正確的答案:ABCD解析:[多選題]71.假設你有一個非常大的訓練集合,如下機器學習算法中,你覺著有哪些是能夠使用map-reduce框架并能將訓練集劃分到多臺機器上進行并行訓練()A)邏輯斯特回歸(LR),以及隨機梯度下降(SGD)B)線性回歸及批量梯度下降(BGD)C)神經網絡及批量梯度下降(BGD)D)針對單條樣本進行訓練的在線學習答案:BC解析:LR,SVM,NN,KNN,KMeans,DT,NB都可以用mapreduce并行。[多選題]72.聚類性能度量大致有兩類,一類是(__),另一類是(__)。A)外部指標B)內部指標C)簇內相似度D)簇間相似度答案:AB解析:[多選題]73.以下關于Zookeeper的Leader選舉說法正確的是?()A)當實例n為奇數時,假定n=2x+1,則成為leader節點需要x+1票B)Zookeeper選舉leader時,需要半數以上的票數C)當實例數為8時,則成為leader節點需要5票,容災能力為4D)當實例數n為奇數時,假定n=2x+1,則成為leader節點需要x票答案:AB解析:[多選題]74.數據科學的基本流程包含(__)。A)數據化B)探索性分析C)數據分析D)數據存儲答案:ABC解析:[多選題]75.哪些項不屬于使用池化層相比于相同步長的卷積層的優勢?()A)參數更少B)可以獲得更大下采樣C)速度更快D)有助于提升精度答案:BCD解析:第3部分:判斷題,共12題,請判斷題目是否正確。[判斷題]76.硬投票計算出每個類別的平均估算概率,然后選出概率最高的類別。A)正確B)錯誤答案:錯解析:[判斷題]77.決策樹通過預剪枝和后剪枝提升模型的泛化能力。()A)正確B)錯誤答案:對解析:[判斷題]78.Bagging是一個低效的集成學習算法A)正確B)錯誤答案:錯解析:[判斷題]79.準確率是所有正確識別的樣本占樣本總量的比例。當所有類別都同等重要時,采用準確率最為簡單直觀。A)正確B)錯誤答案:對解析:[判斷題]80.機器學習的核心是?使用算法解析數據,從中學習,然后對世界上的某件事情做出決定或預測A)正確B)錯誤答案:對解析:[判斷題]81.極大似然法估計參數的核心思想是:選擇參數,使得當前已經觀測到的數據(訓練集中的m個樣本)最有可能出現(概率最大)。A)正確B)錯誤答案:對解析:[判斷題]82.Boosting的訓練過程是有序的。A)正確B)錯誤答案:對解析:[判斷題]83.卷積操作的本質特性包括稀疏交互和參數共享。()A)正確B)錯誤答案:對解析:[判斷題]84.決策樹是基于樹結構來進行決策的,決策樹學習的目的是為了產生一棵泛化能力強的決策樹。A)正確B)錯誤答案:對解析:[判斷題]85.兩個變量相關,它們的相關系數r可能為0。這句話是否正確?A)正確B)錯誤答案:對解析:一般來說,相關系數r=0是兩變量相互獨立的必要不充分條件。也就是說,如果兩個變量相互獨立,那么相關系數r一定為0,如果相關系數r=0,則不一定相互獨立。相關系數r=0只能說明兩個變量之間不存在線性關系,仍然可能存在非線性關系。那么,若兩個變量相關,存在非線性關系,那么它們的相關系數r就為0。[判斷題]86.逆歸結的一大特點是能自動發明新謂詞,這些謂詞可能對應于樣例屬性和背景知識中不存在的新知識A)正確B)錯誤答案:對解析:[判斷題]87.LabelEncoder是將原為0或1的布爾值轉換為字符串(str)A)正確B)錯誤答案:錯解析:第4部分:問答題,共9題,請在空白處填寫正確答案。[問答題]88.如果訓練集有100萬個實例,訓練決策樹(無約束)大致的深度是多少?答案:答:一個包含m個葉節點的均衡二叉樹的深度等于log2(m)的四舍五入。通常來說,二
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 節能型風機企業ESG實踐與創新戰略研究報告
- 產品市場調研方法重點基礎知識點
- 三年級語文學習提升計劃
- 弱電智能化工程的物資采購計劃
- 2025年增敏化學發光免疫分析儀合作協議書
- 教師團隊合作與專業發展的心得體會
- 小學二年級班主任2024-2025學年度課外拓展計劃
- 立德樹人視角下的課程改革心得體會
- 企業員工音樂素養提升計劃
- 九年級上冊仁愛版英語個性化學習計劃
- (新版)重癥專科護士考試題庫(含答案)
- (完整)人力資源六大模塊ppt
- 老舊小區房屋改造工程監理大綱
- 小學四年級下學期英語閱讀理解
- 房地產廣告圍擋施工投標文件范本
- 食品添加劑、食品污染物的本底與轉化來源
- DB43∕T 498-2009 博落回葉-行業標準
- 大慶油田第五采油廠杏四聚聯合站工程轉油放水站二期工程施工組織設計
- 心力衰竭病人的護理查房pptppt(ppt)課件
- 大年初一沒下雪 短文小說
- 中小學生守則ppt課件(18頁PPT)
評論
0/150
提交評論