《機器學習-Python實踐》試卷及答案 共10套_第1頁
《機器學習-Python實踐》試卷及答案 共10套_第2頁
《機器學習-Python實踐》試卷及答案 共10套_第3頁
《機器學習-Python實踐》試卷及答案 共10套_第4頁
《機器學習-Python實踐》試卷及答案 共10套_第5頁
已閱讀5頁,還剩75頁未讀, 繼續免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

第1頁,共1頁一、單項選擇題(本大題共10小題,每題3分,共30分)試卷(試卷(學年第1學期)考試科目機器學習-Python實踐(A卷)適用專業班級(年級)得分命題人:審閱人:班級學號姓名考試科目裝訂線1、關于支持向量機SVM,下列說法錯誤的是()A.L2正則項,作用是最大化分類間隔,使得分類器擁有更強的泛化能力B.Hinge損失函數,作用是最小化經驗分類錯誤C.分類間隔為1||w||1||w||,||w||代表向量的模D.當參數C越小時,分類間隔越大,分類錯誤越多,趨于欠學習2、假定某同學使用NaiveBayesian(NB)分類模型時,不小心將訓練數據的兩個維度搞重復了,那么關于NB的說法中正確的是:()A.這個被重復的特征在模型中的決定作用會被加強B.模型效果相比無重復特征的情況下精確度會降低C.如果所有特征都被重復一遍,得到的模型預測結果相對于不重復的情況下的模型預測結果一樣。D.當兩列特征高度相關時,無法用兩列特征相同時所得到的結論來分析問題3、關于Logit回歸和SVM不正確的是()A.Logit回歸本質上是一種根據樣本對權值進行極大似然估計的方法,而后驗概率正比于先驗概率和似然函數的乘積。logit僅僅是最大化似然函數,并沒有最大化后驗概率,更談不上最小化后驗概率。A錯誤B.Logit回歸的輸出就是樣本屬于正類別的幾率,可以計算出概率,正確C.SVM的目標是找到使得訓練數據盡可能分開且分類間隔最大的超平面,應該屬于結構風險最小化。D.SVM可以通過正則化系數控制模型的復雜度,避免過擬合。4、以下哪些方法不可以直接來對文本分類?()A、KmeansB、決策樹C、支持向量機D、KNN正確答案:A分類不同于聚類。5、關于Logit回歸和SVM不正確的是()A.Logit回歸本質上是一種根據樣本對權值進行極大似然估計的方法,而后驗概率正比于先驗概率和似然函數的乘積。logit僅僅是最大化似然函數,并沒有最大化后驗概率,更談不上最小化后驗概率。A錯誤B.Logit回歸的輸出就是樣本屬于正類別的幾率,可以計算出概率,正確C.SVM的目標是找到使得訓練數據盡可能分開且分類間隔最大的超平面,應該屬于結構風險最小化。D.SVM可以通過正則化系數控制模型的復雜度,避免過擬合。6、下列不是SVM核函數的是()A.多項式核函數B.logistic核函數C.徑向基核函數D.Sigmoid核函數7、模型的高bias是什么意思,我們如何降低它?機器學習ML基礎易()A.在特征空間中減少特征B.在特征空間中增加特征C.增加數據點D.B和C8、當你使用Boosting提升算法時,你會考慮弱學習器,以下哪項是使用弱學習器的主要原因?()A.防止過擬合B.防止欠擬合C.防止過擬合和防止欠擬合D.都不對9、梯度提升中,利用學習率來獲得最優輸出是非常重要的,在選擇學習速率時, 下列描述正確的是:()A.學習率越大越好B.學習率越小越好C.學習率應該小一點但是不能太小D.學習率不能太大也不能太小,根據情況而定10、下列哪個算法不是集成學習算法的例子:()A.RandomForestB.AdaBoostC.GBDTD.XgboostE.DecisionTree二、判斷題(本大題共10小題,每題1分,共10分)1、錯誤率(ErrorRate)是分類錯誤的樣本數占樣本總數的比例。()2、決策樹算法可以用于小數據集。()3、支持向量是SVM的訓練結果,在SVM分類決策中起決定作用的是支持向量。()4、SVM在小樣本訓練集上能夠得到比其它算法好很多的結果。()5、最大似然估計的目的就是:利用已知的樣本結果,反推最有可能(最大概率)導致這樣結果的參數值。()6、決策樹只能處理數據型屬性。()7、邏輯回歸計算速度快。()8、集成學習(ensemblelearning)通過構建并結合多個學習器(learner)來完成學習任務()9、集成學習可獲得比單一學習器更良好的泛化性能(特別是在集成弱學習器(weaklearner)時)。()10、集成學習以bagging、RandomForest等算法為代表的,各個學習器之間相互獨立、可同時生成的并行化方法。()三、填空(本大題共10小題,每題3分,共30分)1、熵指的是體系的的程度。2、算法利用信息增益進行特征的選擇,信息增益反映的是給定條件后不確定性減少的程度。3、算法在決策樹生成的過程中,用信息增益比來選擇特征。4、p(x|θ)是給定參數θ的概率分布:。5、線性回歸如果是泊松分布,那就是。6、回歸常用評估方法:,,。7、基尼指數(基尼不純度)=*。8、聚類(Clustering)是指把相似的數據劃分到一起,具體劃分的時候并不關心這一類的標簽,目標就是把相似的數據聚合到一起,聚類是一種。9、分類(Classification):是把不同的數據劃分開,其過程是通過訓練數據集獲得一個分類器,再通過分類器去預測未知數據,分類是一種。10、聚類的一般過程數據準備:和。四、簡答題(本大題共3小題,共30分)1、L1和L2正則先驗分別服從什么分布?什么是最小二乘法?常用的降維技術有哪些?一、選擇題1.C 2.BD 3.A 4.A 5.A 6.B 7.B 8.B 9.D 10.E二、判斷題1.對 2.對 3.對 4.對 5.對 6.錯 7.對 8.對 9.對 10.對 三、填空題1.混亂 2.ID3 3.C4.5 4.似然函數 5.泊松回歸 6.平均誤差絕對值誤差R2 7.樣本被選中的概率樣本被分錯的概率 8.無監督學習(UnsupervisedLearning)方法 9.監督學習(SupervisedLearning)方法 10.特征標準化降維四、簡答題1、答:L1和L2正則先驗分別服從什么分布,L1是拉普拉斯分布,L2是高斯分布。2、答:最小二乘法(又稱最小平方法)是一種數學優化技術。它通過最小化誤差的平方和尋找數據的最佳函數匹配。利用最小二乘法可以簡便地求得未知的數據,并使得這些求得的數據與實際數據之間誤差的平方和為最小。3、答:(1)主成分分析(PCA)在PCA中,數據從原來的坐標系轉換到新的坐標系,由數據本身決定。轉換坐標系時,以方差最大的方向作為坐標軸方向,因為數據的最大方差給出了數據的最重要的信息。第一個新坐標軸選擇的是原始數據中方差最大的方法,第二個新坐標軸選擇的是與第一個新坐標軸正交且方差次大的方向。重復該過程,重復次數為原始數據的特征維數。大部分方差都包含在最前面的幾個新坐標軸中,因此,可以忽略余下的坐標軸,即對數據進行了降維處理。(2)因子分析(FA)在因子分析中,假設在觀察數據的生成中有一些觀察不到的隱變量;假設觀察數據是這些隱變量和某些噪聲的線性組合;那么隱變量的數據可能比觀察數據的數目少,也就是說通過找到隱變量就可以實現數據的降維。(3)獨立成分分析(ICA)ICA假設數據是從N個數據源生成的,這一點和因子分析有些類似。假設數據為多個數據源的混合觀察結果,這些數據源之間在統計上是相互獨立的,而在PCA中只假設數據是不相關的。同因子分析一樣,如果數據源的數目少于觀察數據的數目,則可以實現降維過程。本篇以下內容主要介紹PCA。優點:降低數據的復雜性,識別最重要的多個特征。缺點:不一定需要,且可能損失有用信息。一、單項選擇題(本大題共10小題,每題3分,共30分)試卷(試卷(學年第1學期)考試科目機器學習-Python實踐(A卷)適用專業班級(年級)得分命題人:審閱人:班級學號姓名考試科目裝訂線1、假設,現在我們已經建了一個模型來分類,而且有了99%的預測準確率,我們可以下的結論是:()A.模型預測準確率已經很高了,我們不需要做什么了B.模型預測準確率不高,我們需要做點什么改進模型C.無法下結論D.以上都不對2、我們想在大數據集上訓練決策樹,為了使用較少時間,我們可以:()A.增加樹的深度B.增加學習率(learningrate)C.減少樹的深度D.減少樹的數量3、對于線性回歸,我們應該有以下哪些假設?()1.找到離群點很重要,因為線性回歸對利群點很敏感2.線性回歸要求所有變量必須符合正態分布3.線性回歸假設數據沒有多重線性相關性A.1和2B.2和3C.1,2和3D.以上都不是4、關于正態分布,下列說法錯誤的是:()A.正態分布具有集中性和對稱性B.正態分布的均值和方差能夠決定正態分布的位置和形態C.正態分布的偏度為0,峰度為1D.標準正態分布的均值為0,方差為15、決策樹的父節點和子節點的熵的大小關系是什么?()A.決策樹的父節點更大B.子節點的熵更大C.兩者相等D.根據具體情況而定6、下列關于極大似然估計(MaximumLikelihoodEstimate,MLE),說法正確的是(多選)?()A.MLE可能并不存在B.MLE總是存在C.如果MLE存在,那么它的解可能不是唯一的D.如果MLE存在,那么它的解一定是唯一的7、一般來說,下列哪種方法常用來預測連續獨立變量?()A.線性回歸B.邏輯回顧C.線性回歸和邏輯回歸都行D.以上說法都不對8、你使用隨機森林生成了幾百顆樹(T1,T2,...,Tn),然后對這些樹的預測結果進行綜合,下列說法正確的是:()1、每棵樹是通過所有數據的子集構建而成的2、每棵樹學習的樣本數據都是通過隨機有放回采樣而得的3、每棵樹是通過數據集的子集和特征的子集構建而成的4、每棵樹是通過所有的數據構建而成的A.1和2B.2和4C.1、2和3D.2和39、下面關于隨機森林和GBDT的說法正確的是:()①這兩種方法都可以用來解決分類問題②隨機森林解決分類問題,GBDT解決回歸問題③隨機森林解決回歸問題,GBDT解決分類問題④這兩種方法都可以用來解決回歸問題A.①B.②C.③D.④E.①和④10、關于隨機森林和GBDT,下列說法錯誤的是:()A.隨機森林中每個學習器是相互獨立的B.隨機森林利用了bagging的思想來構建強學習器C.GBDT利用了Boosting的思想來構建強學習器D.GBDT中每個學習器之間沒有任何聯系二、判斷題(本大題共10小題,每題1分,共10分)1、SVM是一個凸優化問題,因此局部最優解一定是全局最優解的優點。()2、錯誤否定(FalseNegative,FN):預測為假,實際為真。()3、邏輯回歸的因變量可以是二分類的,也可以是多分類的,但是二分類的更為常用,也更加容易解釋。所以實際中最常用的就是二分類的邏輯回歸。()4、決策樹只能處理數據型屬性。()5、樸素貝葉斯適合高維數據。()6、隨機事件X所包含的信息量與其發生的概率有關。發生的概率越小,其信息量就越小。()7、決策樹短時間內處理大量數據,得到可行且效果較好的結果。()8、集成學習以boosting、Adaboost等算法為代表的,個體學習器不是串行序列化生成的、具有依賴關系。()9、Adaboost算法流程給數據中的每一個樣本一個權重。()10、Adaboost算法流程訓練數據中的每一個樣本,得到第一個分類器()三、填空(本大題共10小題,每題3分,共30分)1、評判分類效果好壞的三個指標就是上面介紹的三個指標:,,。2、提取出的正確信息條數/提取出的信息條數是。3、模型把訓練樣本學習“太好了”,可能把一些訓練樣本自身的特性當做了所有潛在樣本都有的一般性質,導致泛化能力下降叫。4、分類是預測,比如把人分為好人和壞人之類的學習任務。5、訓練用到的每個樣本叫。6、訓練過程中用到的數據叫。7、在某些情況下,我們會討論坐標超過兩維的數組。一般地,一個數組中的元素分布在若干維坐標的規則網格中,我們將其稱之為。8、聚類的特征選擇:從最初的特征中選擇最有效的特征,并將其存儲在?中。9、聚類的特征提?。和ㄟ^對進行轉換形成新的突出特征。10、聚類的聚類:基于某種距離函數進行相似度度量,獲取。四、簡答題(本大題共3小題,共30分)1、為什么樸素貝葉斯如此“樸素”?2、簡單說下有監督學習和無監督學習的區別?3、特征選擇與數據降維(特征提取)?一、選擇題1.B 2.C 3.D 4.C 5.B 6.AC 7.A 8.D 9.E 10.D二、判斷題1.對 2.對 3.對 4.錯 5.錯 6.錯 7.對 8.錯 9.對 10.對 三、填空題1.正確率召回率F值 2.正確率 3.過擬合 4.離散值5.訓練樣本 6.訓練集 7.張量 8.向量 9.選擇的特征 10.簇四、簡答題1、因為它假定所有的特征在數據集中的作用是同樣重要和獨立的。正如我們所知,這個假設在現實世界中是很不真實的,因此,說樸素貝葉斯真的很“樸素”。2、答:有監督學習:對具有標記的訓練樣本進行學習,以盡可能對訓練樣本集外的數據進行分類預測。(LR,SVM,BP,RF,GBDT)無監督學習:對未標記的樣本進行訓練學習,比發現這些樣本中的結構知識。(KMeans,DL)3、答:降維的方法:結合專業知識剔除或合并類別通過數據概要來發現變量間的信息重疊(并剔除或合并類別)對數據進行轉換,例如將分類型變量轉換為數值型變量使用如主成分分析(PCA)這樣的自動降維技術來創建一系列新的變量(原變量的加權平均)。這些變量互不相關,并且其中很小的一個子集就包含了原始數據中很大一部分信息(因此我們可以只使用新變量集的一個子集來實現降維)??梢岳靡恍祿诰虻姆椒ǎ喝缁貧w模型、分類和回歸樹等,這些方法可以用于剔除冗余變量,以及合并分類型變量中的相似類別。一、單項選擇題(本大題共10小題,每題3分,共30分)試卷(試卷(學年第1學期)考試科目機器學習-Python實踐(A卷)適用專業班級(年級)得分命題人:審閱人:班級學號姓名考試科目裝訂線1、個人健康和年齡的相關系數是-1.09。根據這個你可以告訴醫生哪個結論?()A.年齡是健康程度很好的預測器B.年齡是健康程度很糟的預測器C.以上說法都不對D:兩者沒關系2、假如我們利用Y是X的3階多項式產生一些數據(3階多項式能很好地擬合數據)。那么,下列說法正確的是(多選)?()A.簡單的線性回歸容易造成高偏差(bias)、低方差(variance)B.簡單的線性回歸容易造成低偏差(bias)、高方差(variance)C.3階多項式擬合會造成低偏差(bias)、高方差(variance)D.3階多項式擬合具備低偏差(bias)、低方差(variance)3、假如你在訓練一個線性回歸模型,有下面兩句話:()1.如果數據量較少,容易發生過擬合。2.如果假設空間較小,容易發生過擬合。關于這兩句話,下列說法正確的是?A.1和2都錯誤B.1正確,2錯誤C.1錯誤,2正確D.1和2都正確4、假如我們使用Lasso回歸來擬合數據集,該數據集輸入特征有100個(X1,X2,…,X100)。現在,我們把其中一個特征值擴大10倍(例如是特征X1),然后用相同的正則化參數對Lasso回歸進行修正。那么,下列說法正確的是?()A.特征X1很可能被排除在模型之外B.特征X1很可能還包含在模型之中C.無法確定特征X1是否被舍棄D.以上說法都不對5、假如使用邏輯回歸對樣本進行分類,得到訓練樣本的準確率和測試樣本的準確率?,F在,在數據中增加一個新的特征,其它特征保持不變。然后重新訓練測試。則下列說法正確的是?()A.訓練樣本準確率一定會降低B.訓練樣本準確率一定增加或保持不變C.測試樣本準確率一定會降低D.測試樣本準確率一定增加或保持不變6、下面這張圖是一個簡單的線性回歸模型,圖中標注了每個樣本點預測值與真實值的殘差。計算SSE(平方誤差和)為多少?()A.3.02B.0.75C.1.01D.0.6047、關于“回歸(Regression)”和“相關(Correlation)”,下列說法正確的是?注意:x是自變量,y是因變量。()A.回歸和相關在x和y之間都是互為對稱的B.回歸和相關在x和y之間都是非對稱的C.回歸在x和y之間是非對稱的,相關在x和y之間是互為對稱的D.回歸在x和y之間是對稱的,相關在x和y之間是非對稱的8、關于AdaBoost,下列說法中正確的是(多選):()A.它是一種集成學習算法B.每個分類器的權重和被它正確分類的樣本的權重相同C.后一個基學習器要依賴于前一個基學習器的分類錯誤率和樣本的權重D.后一個基學習器每次只學習前一個基學習器被分錯的樣本9、集成學習策略有哪些() A.投票法B.平均法C.學習法D.上述都有10、集成學習策略常用于分類的是:()A.投票法B.平均法C.學習法D.上述都有二、判斷題(本大題共10小題,每題1分,共10分)1、決策樹短時間內處理大量數據,得到可行且效果較好的結果。()樸素貝葉斯適合高維數據。()標量是0階張量。()協方差是衡量兩個變量線性相關性強度及變量尺度。()聯合分布可求邊緣分布,但若只知道邊緣分布,無法求得聯合分布。()隨機變量可以分為離散型隨機變量和連續型隨機變量。()矩陣的L0范數:矩陣的非0元素的個數,通常用它來表示稀疏,L0范數越小0元素越多,也就越稀疏。()Adaboost算法流程計算該分類器的錯誤率,根據錯誤率計算要給分類器分配的權重。()9、Adaboost算法流程將第一個分類器分錯誤的樣本權重增加。()10、Adaboost算法流程然后再用新的樣本權重訓練數據,得到新的分類器。()三、填空(本大題共10小題,每題3分,共30分)1、一個表示一個單獨的數,它不同于線性代數中研究的其他大部分對象(通常是多個數的數組)。2、馬式距離的特征則是:。3、p(x|θ)是給定參數θ的概率分布:。4、基尼指數(基尼不純度)=*。5、Gini指數越小表示集合中被選中的樣本被分錯的概率越小,也就是說集合的純度。6、表示在樣本集合中一個隨機選中的樣本被分錯的概率。7、算法在決策樹生成的過程中,用信息增益比來選擇特征。8、聚類結果評估:分析結果,如距離誤差和(SSE)等。9、人工神經網絡(ArtificialNeuralNetworks,ANNs),也簡稱為神經網絡(NNs),是模擬進行信息處理的一種數學模型,以對大腦的生理研究成果為基礎,其目的在于模擬大腦的某些機理與機制,實現一些特定的功能。10、生物神經元主要由,,,組成。四、簡答題(本大題共3小題,共30分)1、梯度下降法找到的一定是下降最快的方向么?2、什么是最小二乘法?3、K-Means和KNN算法的區別是什么?一、選擇題1.C 2.AD 3.B 4.B 5.B 6.A 7.C 8.AC 9.D 10.A二、判斷題1.對 2.錯 3.對 4.對 5.對 6.對 7.對 8.對 9.對 10.對 三、填空題1.標量 2.平移不變性、旋轉不變性、尺度不變性 3.似然函數 4.樣本被選中的概率樣本被分錯的概率 5.越高 6.基尼指數(基尼不純度) 7.C4.5 8.聚類 9.生物神經網絡的結構和功能 10.細胞體樹突軸突突觸四、簡答題1、答:梯度下降法并不是下降最快的方向,它只是目標函數在當前的點的切平面(當然高維問題不能叫平面)上下降最快的方向。在PracticalImplementation中,牛頓方向(考慮海森矩陣)才一般被認為是下降最快的方向,可以達到Superlinear的收斂速度。梯度下降類的算法的收斂速度一般是Linear甚至Sublinear的(在某些帶復雜約束的問題)。2、答:最小二乘法(又稱最小平方法)是一種數學優化技術。它通過最小化誤差的平方和尋找數據的最佳函數匹配。利用最小二乘法可以簡便地求得未知的數據,并使得這些求得的數據與實際數據之間誤差的平方和為最小。3、首先,這兩個算法解決的是數據挖掘中的兩類問題。K-Means是聚類算法,KNN是分類算法。其次,這兩個算法分別是兩種不同的學習方式。K-Means是非監督學習,也就是不需要事先給出分類標簽,而KNN是有監督學習,需要我們給出訓練數據的分類標識。最后,K值的含義不同。K-Means中的K值代表K類。KNN中的K值代表K個最接近的鄰居。一、單項選擇題(本大題共10小題,每題3分,共30分)試卷(試卷(學年第1學期)考試科目機器學習-Python實踐(A卷)適用專業班級(年級)得分命題人:審閱人:班級學號姓名考試科目裝訂線1、關于“回歸(Regression)”和“相關(Correlation)”,下列說法正確的是?注意:x是自變量,y是因變量。()A.回歸和相關在x和y之間都是互為對稱的B.回歸和相關在x和y之間都是非對稱的C.回歸在x和y之間是非對稱的,相關在x和y之間是互為對稱的D.回歸在x和y之間是對稱的,相關在x和y之間是非對稱的2、邏輯回歸將輸出概率限定在[0,1]之間。下列哪個函數起到這樣的作用?()A.Sigmoid函數B.tanh函數C.ReLU函數D.LeakyReLU函數3、關于兩個邏輯回歸模型中的β0、β1值,下列說法正確的是?注意:y=β0+β1*x,β0是截距,β1是權重系數。()A.綠色模型的β1比黑色模型的β1大B.綠色模型的β1比黑色模型的β1小C.兩個模型的β1相同D.以上說法都不對4、在n維空間中(n>1),下列哪種方法最適合用來檢測異常值?()A.正態概率圖B.箱形圖C.馬氏距離D.散點圖5、邏輯回歸與多元回歸分析有哪些不同之處?()A.邏輯回歸用來預測事件發生的概率B.邏輯回歸用來計算擬合優度指數C.邏輯回歸用來對回歸系數進行估計D.以上都是6、如果一個SVM模型出現欠擬合,那么下列哪種方法能解決這一問題?()A.增大懲罰參數C的值B.減小懲罰參數C的值C.減小核系數(gamma參數)D.以上都不是7、我們知道二元分類的輸出是概率值。一般設定輸出概率大于或等于0.5,則預測為正類;若輸出概率小于0.5,則預測為負類。那么,如果將閾值0.5提高,例如0.6,大于或等于0.6的才預測為正類。則準確率(Precision)和召回率(Recall)會發生什么變化(多選)?()A.準確率(Precision)增加或者不變B.準確率(Precision)減小C.召回率(Recall)減小或者不變D.召回率(Recall)增大8、集成學習策略常用于處理數值問題的是:()A.投票法B.平均法C.學習法D.上述都有9、關于學習法表述正確的事()A.平均法和投票法是對弱學習器的結果做平均或者投票,相對比較簡單,但是可能學習誤差較大,于是就有了學習法。B.學習法是一種更為強大的結合策略,即通過另一個學習器來進行結合。C.Stacking是學習法的典型代表。Stacking先從初級數據集訓練出初級學習器,然后“生成”一個新數據集用于訓練次級學習器。在這個新數據集中,初級學習器的輸出被當作樣例輸入特征。D.上述都對10、以下關于Bagging算法的特點描述正確的是()A.Bagging通過降低基學習器的方差改善了泛化誤差B.bagging對樣本進行有放回的重采樣,學習結果是各個學習模型的平均值C.由于重采樣的樣本集具有相似性以及使用相同的學習器模型,因此,各學習模型的結果相近,即模型有近似相等的偏差和方差。D.以上描述都對二、判斷題(本大題共10小題,每題1分,共10分)1、矩陣的L0范數:矩陣的非0元素的個數,通常用它來表示稀疏,L0范數越小0元素越多,也就越稀疏。()2、隨機事件X所包含的信息量與其發生的概率有關。發生的概率越小,其信息量就越小。()3、SVM通過尋找使得訓練數據盡可能分開且分類間隔最大的超平面實現結構風險最小化。()4、logit回歸輸出的是Y屬于某一類的概率,也可以表示某事件發生的概率。()5、P(θ|x)是在數據X的支持下,θ發生的概率:后驗概率。()6、P(θ)是在沒有數據支持下,θ發生的概率:先驗概率。()7、F1值定義為:F1=2PR/(P+R)。()8、Adaboost算法流程將所有弱分類器加權求和,得到分類結果(注意是分類器權重)。()9、集成學習通過將多個單個學習器集成/組合在一起,使它們共同完成學習任務,以達到提高預測準確率的目的。()10、Boosting是一個順序過程,每個后續模型都會嘗試糾正先前模型的錯誤,后續的模型依賴于之前的模型。()三、填空(本大題共10小題,每題3分,共30分)1、算法利用信息增益進行特征的選擇,信息增益反映的是給定條件后不確定性減少的程度。2、機器學習中做特征選擇時,可能用到的、、、。3、已知坐標軸中兩點A(2,?2)B(?1,2),這兩點的曼哈頓距離(L1距離)是。4、求函數機制的方法有兩大類,分別是和。5、損失函數也叫或。6、從已有的M個特征(Feature)中選擇N個特征使得系統的特定指標最優化叫。7、回歸問題對數值型連續隨機變量進行預測和建模的監督學習算法。回歸往往會通過計算來確定模型的精確性。8、人工神經元模型可以看成是由3種基本元素組成,,。9、學習算法是指針對學習問題的明確規則,學習類型是由參數變化發生的形式決定的,不同的學習算法對神經元的權值調整的表達式是不同的。人工神經網絡常用的算法有,,。10、在最基本的BP算法中,學習率在整個訓練過程是保持不變的,學習率過,算法可能振蕩而不穩定;學習率過,則收斂速度慢,訓練時間。四、簡答題(本大題共3小題,共30分)1、簡單介紹下Logistics回歸。?2、常見的分類算法有哪些?3、機器學習能解決哪些問題?每一類使用的常用方法有哪些?舉例說明其應用?一、選擇題1.C 2.A 3.B 4.C 5.D 6.A 7.AC 8.B 9.D 10.D二、判斷題1.對 2.錯 3.對 4.對 5.對 6.對 7.對 8.對 9.對 10.對三、填空題1.ID3 2.卡方信息增益平均互信息期望交叉熵 3.7 4.解析解(閉式解)數值解 5.代價函數目標函數 6.特征選擇 7.誤差(Error) 8.一組連接一個加法器一個激活函數 9.有監督Hebb算法單層感知器梯度LMS算法 10.大小長四、簡答題1、答:Logistic回歸目的是從特征學習出一個0/1分類模型,而這個模型是將特性的線性組合作為自變量,由于自變量的取值范圍是負無窮到正無窮。因此,使用logistic函數(或稱作sigmoid函數)將自變量映射到(0,1)上,映射后的值被認為是屬于y=1的概率。2、答:SVM、神經網絡、隨機森林、邏輯回歸、KNN、貝葉斯等。3、答:監督學習:分類:邏輯回歸、決策樹、KNN、隨機森林、支持向量機、樸素貝葉斯數字預測:線性回歸、KNN、GradientBoosting*AdaBoost無監督學習:聚類、關聯分析強化學習一、單項選擇題(本大題共10小題,每題3分,共30分)試卷(試卷(學年第1學期)考試科目機器學習-Python實踐(A卷)適用專業班級(年級)得分命題人:審閱人:班級學號姓名考試科目裝訂線1、點擊率預測是一個正負樣本不平衡問題(例如99%的沒有點擊,只有1%點擊)。假如在這個非平衡的數據集上建立一個模型,得到訓練樣本的正確率是99%,則下列說法正確的是?()A.模型正確率很高,不需要優化模型了B.模型正確率并不高,應該建立更好的模型C.無法對模型做出好壞評價D.以上說法都不對2、如果在大型數據集上訓練決策樹。為了花費更少的時間來訓練這個模型,下列哪種做法是正確的?()A.增加樹的深度B.增加學習率C.減小樹的深度D.減少樹的數量3、我們想要訓練一個ML模型,樣本數量有100萬個,特征維度是5000,面對如此大數據,如何有效地訓練模型?()A.對訓練集隨機采樣,在隨機采樣的數據上建立模型B.嘗試使用在線機器學習算法C.使用PCA算法減少特征維度D.以上都對4、機器學習中做特征選擇時,可能用到的方法有?(多選)()a.卡方b.信息增益c.平均互信息d.期待交叉熵5、如何在監督式學習中使用聚類算法(多選)?()A.首先,可以創建聚類,然后分別在不同的集群上應用監督式學習算法B.在應用監督式學習算法之前,可以將其類別ID作為特征空間中的一個額外的特征C.在應用監督式學習之前,不能創建聚類D.在應用監督式學習算法之前,不能將其類別ID作為特征空間中的一個額外的特征6、下面哪句話是正確的?()A.機器學習模型的精準度越高,則模型的性能越好B.增加模型的復雜度,總能減小測試樣本誤差C.增加模型的復雜度,總能減小訓練樣本誤差D.以上說法都不對7、如果使用線性回歸模型,下列說法正確的是?()A.檢查異常值是很重要的,因為線性回歸對離群效應很敏感B.線性回歸分析要求所有變量特征都必須具有正態分布C.線性回歸假設數據中基本沒有多重共線性D.以上說法都不對8、以下關于Bagging特點的描述不正確的是()A.Bagging是一個很低效的集成學習算法B.Bagging復雜度與基學習器同階C.由于每一個樣本被選中的概率相同,因此bagging并不側重于訓練數據集中的任何特定實例。D.對于噪聲數據,bagging不太受過分擬合的影響。9、下面哪個選項中哪一項屬于確定性算法?()A.隨機森林B.PCAC.KmeansD.GBDT10、下列屬于無監督學習的是()A、k-meansB、SVMC、最大熵D、CRF二、判斷題(本大題共10小題,每題1分,共10分)1、FP——將負類預測為正類數。()2、交叉熵損失函數的好處是可以克服方差代價函數更新權重過慢的問 題。()3、邏輯回歸假設數據服從伯努利分布,通過極大化似然函數的方法,運用梯度下降來求解參數,來達到將數據二分類的目的。()4、決策樹容易發生欠擬合。()5、決策樹容易發生過擬合。()6、SVM無法做多分類。()7、SVM自帶正則項。()8、先從初始訓練集訓練出一個基學習器,再根據基學習器的表現對訓 練樣本分布進行調整,使得先前基學習器做錯的訓練樣本在后續受到更多的 關注,然后基于調整后的樣本分布來訓練下一個基學習器。()9、Boosting是一個迭代的過程,通過改變訓練樣本的分布,使得基分 類器聚焦在那些很難分的樣本上。()10、Boosting結合了很多弱學習器來形成一個強學習器,單個模型表 現不佳,但它們在數據集的某些部分表現很好。()三、填空(本大題共10小題,每題3分,共30分)1、回歸問題對數值型連續隨機變量進行預測和建模的監督學習算法?;貧w往往會通過計算來確定模型的精確性。2、評判分類效果好壞的三個指標就是上面介紹的三個指標:,,。3、提取出的正確信息條數/提取出的信息條數是。4、模型把訓練樣本學習“太好了”,可能把一些訓練樣本自身的特性當做了所有潛在樣本都有的一般性質,導致泛化能力下降叫。5、模型沒有很好地捕捉到數據特征,不能夠很好地擬合數據叫。6、分類是預測,比如把人分為好人和壞人之類的學習任務。7、訓練用到的每個樣本叫。8、boosting算法得基本原理,以及的三種典型算法原理:,,。9、Adaboost提供一種,在框架內可以使用各種方法構建子分類器,可以使用簡單的弱分類器,不用對特征進行篩選,也不存在過擬合的現象。10、Adaboost算法不需要的先驗知識,最后得到的強分類器的分類精度依賴于所有弱分類器。無論是應用于人造數據還是真實數據,Adaboost都能顯著的提高學習精度。四、簡答題(本大題共3小題,共30分)1、常見的監督學習算法有哪些?帶核的SVM為什么能分類非線性問題?3、舉例說明機器學習的基本過程,并舉例說明基本步驟各有哪些方法?一、選擇題1.B 2.C 3.D 4.ABCD 5.AB 6.C 7.A 8.A 9.B 10.A二、判斷題1.對 2.對 3.對 4.對 5.對 6.錯 7.對 8.對 9.對 10.對 三、填空題1.誤差(Error) 2.正確率召回率F值 3.正確率 4.過擬合 5.欠擬合 6.離散值 7.訓練樣本 8.adaboostGBM(Gradientbosstingmachine)XGBoost 9.框架 10.弱分類器四、簡答題1、答:感知機、SVM、人工神經網絡、決策樹、邏輯回歸2、答:核函數的本質是兩個函數的內積,而這個函數在SVM中可以表示成對于輸入值的高維映射。注意核并不是直接對應映射,核只不過是一個內積。3、答:定義分析目標、收集數據、數據預處理、數據建模、模型訓練、模型評估、模型應用一、單項選擇題(本大題共10小題,每題3分,共30分)試卷(試卷(學年第1學期)考試科目機器學習-Python實踐(A卷)適用專業班級(年級)得分命題人:審閱人:班級學號姓名考試科目裝訂線1、下列哪一項能反映出X和Y之間的強相關性?()A.相關系數為0.9B.對于無效假設β=0的p值為0.0001C.對于無效假設β=0的t值為30D.以上說法都不對2、機器學習中做特征選擇時,可能用到的方法有?(多選)()A.卡方B.信息增益C.平均互信息D.期望交叉熵3、以下說法中正確的是()A.SVM對噪聲(如來自其他分部的噪聲樣本)具備魯棒性B.在adaboost算法中,所有被分錯樣本的權重更新比例相同C.boosting和bagging都是組合多個分類器投票的方法,二者都是根據單個分類器的正確率確定其權重D.給定n個數據點,如果其中一半用于訓練,一半用戶測試,則訓練 誤差和測試誤差之間的差別會隨著n的增加而減少4、以下描述錯誤的是()A.SVM是這樣一個分類器,它尋找具有最小邊緣的超平面,因此它也經常被稱為最小邊緣分類器B.在聚類分析當中,簇內的相似性越大,簇間的差別越大,聚類的效果就越差C.在決策樹中,隨著樹中結點輸變得太大,即使模型的訓練誤差還在繼續降低,但是檢驗誤差開始增大,這是出現了模型擬合不足的原因D.聚類分析可以看作是一種非監督的分類5、若在二維空間中線性不可分,SVM算法會通過()方法解決。A.核函數B.激活函數C.剪枝D.特征選擇6、線性回歸能完成的任務是()A.預測離散值B.預測連續值C.分類D.聚類7、產量(X,臺)與單位產品成本(y,元/臺)之家你的回歸方程為y=356-1.5x,這說明()A.產量每增加一臺,單位產品成本增加356元B.產品每增加一臺,單位產品的成本減少1.5元C.產量每增加一臺,單位產品的成本平均增加356元D.產量每增加一臺,單位產品成本平均減少1.5元8、下面哪個是通用的模型逼近器?

()

A.KernelSVM

B.NeuralNetworks

C.BoostedDecisionTrees

D.Alloftheabove

9、下面那個問題可以用深度學習來解決?()

A.蛋白質結構預測

B.化學反應的預測

C.外來粒子的檢測

D.以上所有

10、當您在CNN中使用1×1卷積時,以下哪個語句是真實的?()A.Itcanhelpindimensionalityreduction

B.Itcanbeusedforfeaturepooling

C.Itsufferslessoverfittingduetosmallkernelsize

D.Alloftheabove

二、判斷題(本大題共10小題,每題1分,共10分)1、邏輯回歸的目的就是提高二分類的效率。()2、SGD計算根據全部樣本構造出來的代價函數的梯度。()3、用線性代數的方式描述函數或者方程的好處之一是書寫方便。()4、Π是求積符號。()5、Σ是求和符號。()6、回歸任務是預測連續值。()7、分類任務是預測連續值。()8、集成學習:可以用作抽樣分布,從原始數據集中提取出自主樣本集。 ()9、基學習器可以使用權值學習有利于高權值樣本的模型。()10、Boosting:每一輪的訓練集不變,只是訓練集中每個樣本的權重發生變化,權值根據上一輪的預測結果進行調整。()三、填空(本大題共10小題,每題3分,共30分)1、求函數機制的方法有兩大類,分別是和。2、機器學習中做特征選擇時,可能用到的、、、。3、算法在決策樹生成的過程中,用信息增益比來選擇特征。4、Gini指數越小表示集合中被選中的樣本被分錯的概率越小,也就是說集合的純度。5、p(x|θ)是給定參數θ的概率分布:。6、馬式距離的特征則是:。7、一個表示一組有序排列的數。通過次序中的索引,我們可以確定每個單獨的數。8、Adaboost算法不需要預先知道的錯誤率上限,且最后得到的的分類精度依賴于所有弱分類器的分類精度,可以深挖分類器的能力,Adaboost可以根據弱分類器的反饋,自適應地調整假定的錯誤率,執行的效率高。9、Adaboost可以在不改變訓練數據,只改變,使得數據在不同學習器中產生不同作用,類似于重采樣。10、關聯規則挖掘問題可以劃分成兩個子問題:發現和生成。四、簡答題(本大題共3小題,共30分)1、有數據集D1,其中樣本的特征是離散取值(可以簡單地考慮取二值),數據集D2和D1基本一樣,唯一的區別是D2中每個樣本的某個特征被重復了100次,請問在這兩個數據集上訓練的樸素貝葉斯分類器是否一樣,請給出具體分析?2、一元線性回歸有哪些基本假定?3、討論數據數量和質量對機器學習的影響?一、選擇題1.A 2.ABCD 3.C 4.C 5.A 6.B 7.D 8.D 9.D 10.D二、判斷題1.對 2.錯 3.對 4.對 5.對 6.對 7.錯 8.對 9.對 10.對 三、填空題1.解析解(閉式解)數值解 2.卡方信息增益平均互信息期望交叉熵 3.C4.5 4.越高 5.似然函數 6.平移不變性、旋轉不變性、尺度不變性 7.向量 8.弱分類器強分類器 9.數據權值分布 10.頻繁項目集關聯規則四、簡答題1、解:分類器是不一樣的。因為樸素貝葉斯方法假設了特征間的獨立性,但D2中的100個特征彼此不獨立,因此不在適用,如果用了兩者的結果不等。在D2上訓練,被重復的特征的概率會被乘100次,放大了它的影響。2、答:假設1、解釋變量X是確定性變量,Y是隨機變量;假設2、隨機誤差項ε具有零均值、同方差和不序列相關性:E(εi)=0i=1,2,…,n3、答:機器學習需要一定數量的數據作為支揮。數據量:過多會耗費更多的計算資源,還可能有不平衡數據集、維度災難等問題。數據量過少會導致機器學習的準確率下降,甚至不能完成學習的目標。數據數量和質量問題會導致過擬合或欠擬合的現象,優秀的數據集對機器學習的結果影響是決定性的。一、單項選擇題(本大題共10小題,每題3分,共30分)試卷(試卷(學年第1學期)考試科目機器學習-Python實踐(A卷)適用專業班級(年級)得分命題人:審閱人:班級學號姓名考試科目裝訂線1、如果使用線性回歸模型,下列說法正確的是?()A.檢查異常值是很重要的,因為線性回歸對離群效應很敏感B.線性回歸分析要求所有變量特征都必須具有正態分布C.線性回歸假設數據中基本沒有多重共線性D.以上說法都不對2、建立線性模型時,我們看變量之間的相關性。在尋找相關矩陣中的相關系數時,如果發現3對變量(Var1和Var2、Var2和Var3、Var3和Var1)之間的相關性分別為-0.98、0.45和1.23。我們能從中推斷出什么呢?()A.Var1和Var2具有很高的相關性B.Var1和Var2存在多重共線性,模型可以去掉其中一個特征C.Var3和Var1相關系數為1.23是不可能的D.以上都對3、下列哪種方法可以用來減小過擬合?(多選)()A.更多的訓練數據B.L1正則化C.L2正則化D.減小模型的復雜度4、向量X=[1,2,3,4,-9,0]的L1范數為?()A.1B.19C.6D.√1115、關于L1、L2正則化下列說法正確的是?()A.L2正則化能防止過擬合,提升模型的泛化能力,但L1做不到這點B.L2正則化技術又稱為LassoRegularizationC.L1正則化得到的解更加稀疏D.L2正則化得到的解更加稀疏6、有N個樣本,一般用于訓練,一般用于測試。若增大N值,則訓 練誤差和測試誤差之間的差距會如何變化?()A.增大B.減小C.不變D.以上均不對7、在回歸模型中,下列哪一項在權衡欠擬合(under-fitting)和過擬 合(over-fitting)中影響最大?()A.多項式階數B.更新權重w時,使用的是矩陣求逆還是梯度下降C.使用常數項D.學習率8、輸入層中的節點數為10,隱層為5。從輸入層到隱層的最大連接數 為?

()

A.50

B.Lessthan50

C.Morethan50

D.Itisanarbitraryvalue

9、如果我們希望預測n個類(p1,p2..pk)的概率,使得所有n的p 的和等于1,則以下哪個函數可以用作輸出層中的激活函數?

()

A.Softmax

B.ReLu

C.Sigmoid

D.Tanh

10、采取什么措施不可以防止過擬合?()

A.數據壓縮;

B.權值共享;

C.提前結束模型迭代;

D.采用dropout;二、判斷題(本大題共10小題,每題1分,共10分)1、FP——將負類預測為正類數。()2、交叉熵損失函數的好處是可以克服方差代價函數更新權重過慢的問 題。()3、邏輯回歸假設數據服從伯努利分布,通過極大化似然函數的方法, 運用梯度下降來求解參數,來達到將數據二分類的目的。()4、SVM無法做多分類。()5、SVM不涉及核函數。()6、BGD計算根據全部樣本的構造出來的代價函數的梯度。()7、SGD計算根據全部樣本構造出來的代價函數的梯度。()8、Bagging:訓練集是在原始集中有放回抽取的,從原始集中選出的訓練集之間是獨立的。()9、Boosting:根據錯誤率不斷調整樣本的權值,錯誤率越大則權值越大。()10、Bagging:每個樣本的權重相等。()三、填空(本大題共10小題,每題3分,共30分)1、熵指的是體系的的程度。2、信息越有序,信息熵越。3、訓練過程中用到的數據叫。4、分類是預測,比如把人分為好人和壞人之類的學習任務。5、模型把訓練樣本學習“太好了”,可能把一些訓練樣本自身的特性當做了所有潛在樣本都有的一般性質,導致泛化能力下降叫。6、評判分類效果好壞的三個指標就是上面介紹的三個指標:,,。7、從已有的M個特征(Feature)中選擇N個特征使得系統的特定指標最優化叫。8、Appriori屬性1:如果項目集X是頻繁項目集,那么它的所有非空子集都是。9、分類分析的三個步驟:、、。10、決策樹包含三種結點:、、。四、簡答題(本大題共3小題,共30分)1、決策樹的剪枝方法有哪些?2、SVM的超參數有哪些?3、討論深度學習的發展對推動機器學習的意義?一、選擇題1.A 2.D 3.ABCD 4.B 5.C 6.B 7.A 8.A 9.A 10.A二、判斷題1.對 2.對 3.對 4.錯 5.錯 6.對 7.錯 8.對 9.對 10.對 三、填空題1.混亂 2.低 3.訓練集 4.離散值 5.過擬合 6.正確率召回率F值 7.特征選擇 8.頻繁項目集 9.挖掘分類規則分類規則評估分類規則應用 10.根結點(矩形表示)內部結點(矩形表示)葉結點/終結點(橢圓表示)四、簡答題1、答:預剪枝:提前結束決策樹的增長:類目數量、方差性能提升。2、答:C和gamma,C正則系數,gamma決定支持向量的數量。3、答:深度學習需要大量的標記數據并需要大量的計算能力,因此深度學習可以較好地應對機器學習中大規模數據集,為機器學習提供了解決復雜問題的方法。一、單項選擇題(本大題共10小題,每題3分,共30分)試卷(試卷(學年第1學期)考試科目機器學習-Python實踐(A卷)適用專業班級(年級)得分命題人:審閱人:班級學號姓名考試科目裝訂線1、產量(X,臺)與單位產品成本(y,元/臺)之家你的回歸方程為y=356-1.5x,這說明()A。產量每增加一臺,單位產品成本增加356元B。產品每增加一臺,單位產品的成本減少1.5元C.產量每增加一臺,單位產品的成本平均增加356元D。產量每增加一臺,單位產品成本平均減少1.5元2、直線方程y=wx+b,其中b表示()A.系數B截距C.斜率D權重3、以下描述中,對梯度解釋正確的是(多選)()A梯度是一個向量,有方向有大小B求梯度就是對梯度向量的各個元素求偏導C梯度只有大小沒有方向D梯度只有方向沒有大小4、關于誤差ε的說法正確的是(多選)()A誤差可以看做隨機比變量B誤差的概率分布符合正態分布C誤差的概率分布符合均勻分布D如果模型設計優良,誤差可以避免5、標準差與方差的關系是(多選)()A標準差是方差的算術平方根B標準差可以反映離散程度,也可以反映出樣本的量綱C方差只能反映離散程度D標準差的平方是方差6、SVM中的核技巧(Kernaltrick)的作用包括以下哪項?()A.特征升維B.特征降維C.防止過擬合D.處理離散數據7、在數據預處理階段,我們常常對數值特征進行歸一化或標準化 (standardization,normalization)處理。這種處理方式理論上不會對下列 哪個模型產生很大影響?()A.k-MeansB.k-NNC.決策樹D.譜聚類8、下面哪個激活函數在圖像分類中不能作為輸出層?()

A.sigmoid

B.Tanh

C.ReLU

D.If(x>5,1,0)

9、使用batchnormalization可以解決以下哪一個神經網絡訓練中的 問題?

()

A.防止梯度消失

B.防止激活過高或者過低

C.網絡訓練太慢

D.B和C10、感知器不包括下面那個結構:()A.輸入層B.隱藏層C.輸出層D.計算層二、判斷題(本大題共10小題,每題1分,共10分)1、預剪枝是在決策樹生成過程中,對樹進行剪枝,提前結束樹的分支 生長。()2、決策樹的剪枝基本策略有預剪枝(Pre-Pruning)和后剪枝。()3、常見的決策樹算法是ID3,C4.5,CART樹。()4、決策樹的剪枝是為了簡化決策樹模型,避免過擬合。()5、最小二乘法(又稱最小平方法)是一種數學優化技術。它通過最小化誤差的平方和尋找數據的最佳函數匹配。()6、樸素貝葉斯(分類器)是一種生成模型,它會基于訓練樣本對每個可能的類別建模。()7、P(A|B)表示事件B已經發生的前提下,事件A發生的概率,叫做事件B發生下事件A的條件概率。()8、Boosting:串行,各個及學習器順序生成,因為后一個模型參數依賴于前一輪模型的預測結果。()9、Bagging:各個學習器可以并行生成。()10、Adaboost采用迭代的思想,繼承了Boosting算法,每次迭代只訓練一個弱學習器,訓練好的弱學習器將參與下一次迭代。()三、填空(本大題共10小題,每題3分,共30分)1、在某些情況下,我們會討論坐標超過兩維的數組。一般地,一個數組中的元素分布在若干維坐標的規則網格中,我們將其稱之為。2、回歸常用評估方法:,,。3、信息越有序,信息熵越。4、訓練用到的每個樣本叫。5、模型沒有很好地捕捉到數據特征,不能夠很好地擬合數據叫。6、提取出的正確信息條數/提取出的信息條數是。7、回歸問題對數值型連續隨機變量進行預測和建模的監督學習算法?;貧w往往會通過計算來確定模型的精確性。8、AdaBoost很好的利用了進行級聯。9、AdaBoost可以將不同的作為弱分類器。10、AdaBoost具有很高的精度;相對于和,AdaBoost充分考慮的每個分類器的權重。四、簡答題(本大題共3小題,共30分)1、SVM、LR、決策樹的對比?2、樸素貝葉斯的特點是?3、討論目前機器學習應用中存在的主要問題?一、選擇題1.D 2.B 3.AB 4.AB 5.ABC 6.C 7.C 8.D 9.A 10.D二、判斷題1.對 2.對 3.對 4.對 5.對 6.對 7.對 8.對 9.對 10.對 三、填空題1.張量 2.平均誤差絕對值誤差R2 3.低 4.訓練樣本 5.欠擬合 6.正確率 7.誤差(Error) 8.弱分類器 9.分類算法 10.bagging算法RandomForest算法四、簡答題1、模型復雜度:SVM支持核函數,可處理線性非線性問題;LR模型簡單,訓練速度快,適合處理線性問題;決策樹容易過擬合,需要進行剪枝。損失函數:SVMhingeloss;LRL2正則化;Adaboost指數損失。數據敏感度:SVM添加容忍度對outlier不敏感,只關心支持向量,且需要先做歸一化;LR對遠點敏感。數據量:數據量大就用LR,數據量小且特征少就用SVM非線性核。2、答:優點:在數據較少的情況下仍然有效,可以處理多類別問題。缺點:對于輸入數據的準備方式較為敏感。適用數據類型:標稱型數據。3、答:選擇什么模型或算法、選擇什么優化方法、如何對數據進行預處理、目標函數是什么、過擬合與欠擬合的處理、維度爆炸。一、單項選擇題(本大題共10小題,每題3分,共30分)試卷(試卷(學年第1學期)考試科目機器學習-Python實踐(A卷)適用專業班級(年級)得分命題人:審閱人:班級學號姓名考試科目裝訂線1、選擇Logistic回歸中的One-Vs-All方法中的哪個選項是真實的。()A我們需要在n類分類問題中適合n個模型B我們需要適合n-1個模型來分類為n個類C我們需要只適合1個模型來分類為n個類D這些都沒有2、假設對給定數據應用了Logistic回歸模型,并獲得了訓練精度X和測試精度Y?,F在要在同一數據中添加一些新特征,以下哪些是錯誤的選項。()注:假設剩余參數相同。A訓練精度提高B訓練準確度提高或保持不變C測試精度提高或保持不變3、假定特征F1可以取特定值:A、B、C、D、E和F,其代表著學生在大學所獲得的評分。在下面說法中哪一項是正確的?()A特征F1是名義變量(nominalvariable)的一個實例。B特征F1是有序變量(ordinalvariable)的一個實例。C該特征并不屬于以上的分類。D以上說法都正確。4、下面哪一項對梯度下降(GD)和隨機梯度下降(SGD)的描述是正確的?()1在GD和SGD中,每一次迭代中都是更新一組參數以最小化損失函數。2在SGD中,每一次迭代都需要遍歷訓練集中的所有樣本以更新一次參數。3在GD中,每一次迭代需要使用整個訓練集的數據更新一個參數。A只有1B只有2C只有3D都正確5、假定你正在處理類屬特征,并且沒有查看分類變量在測試集中的分 布?,F在你想將onehotencoding(OHE)應用到類屬特征中。()那么在訓練集中將OHE應用到分類變量可能要面臨的困難是什么?A.分類變量所有的類別沒有全部出現在測試集中B.類別的頻率分布在訓練集和測試集是不同的C.訓練集和測試集通常會有一樣的分布D.A和B都正確6、假定你現在解決一個有著非常不平衡類別的分類問題,即主要類別 占據了訓練數據的99%?,F在你的模型在測試集上表現為99%的準確度。 那么下面哪一項表述是正確的?()1準確度并不適合于衡量不平衡類別問題2準確度適合于衡量不平衡類別問題3精確率和召回率適合于衡量不平衡類別問題4精確率和召回率不適合于衡量不平衡類別問題A1and3B1and4C2and3D2and47、假設我們有一個數據集,在一個深度為6的決策樹的幫助下,它可 以使用100%的精確度被訓練?,F在考慮一下兩點,并基于這兩點選擇正確 的選項。()注意:所有其他超參數是相同的,所有其他因子不受影響。1深度為4時將有高偏差和低方差2深度為4時將有低偏差和低方差A只有1B只有2C1和2D沒有一個8、與人類神經元相比,人工神經元的輸入類比于什么?()A.樹突B.軸突C.細胞核D.細胞膜9、與人類神經元相比,人工神經元的輸出類比于什么?()A.樹突B.軸突C.細胞核D.細胞膜10、以下關于感知器中的鏈接方式表示正確的是?()A.輸入層與隱藏層相連B.輸入層與輸出層相連C.隱藏層與細胞核相連D.輸入層與輸入層相連二、判斷題(本大題共10小題,每題1分,共10分)1、P(A|B)表示事件B已經發生的前提下,事件A發生的概率,叫做事 件B發生下事件A的條件概率。()2、輸出變量為連續變量的預測問題是分類問題。()3、回歸及分類常用的評估指標都是準確率和召回率。()4、決策樹只用來分類。()5、一般來說,回歸不用在分類問題上,但也有特殊情況,邏輯回歸可 以用來解決0/1分類問題。()6、回歸問題與分類問題都有可能發生過擬合。()7、如果一個經過訓練的機器學習模型在測試集上達到100%的準確率, 這是否意味著該模型將在另外一個新的測試集上也能得到100%的準確率。 ()8、序列數據沒有時間戳。()9、定量屬性可以是整數值或者是連續值。()10、可視化技術對于分析的數據類型通常不是專用性的。()三、填空(本大題共10小題,每題3分,共30分)1、損失函數也叫或。2、已知坐標軸中兩點A(2,?2)B(?1,2),這兩點的曼哈頓距離(L1距離)是。3、算法利用信息增益進行特征的選擇,信息增益反映的是給定條件后不確定性減少的程度。4、表示在樣本集合中一個隨機選中的樣本被分錯的概率。5、基尼指數(基尼不純度)=*。6、歐式距離的特征是:、。7、一個表示一個單獨的數,它不同于線性代數中研究的其他大部分對象(通常是多個數的數組)。8、AdaBoost迭代次數也就是數目不太好設定,可以使用交叉驗證來進行確定;

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論