




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
機(jī)器學(xué)習(xí)中評(píng)估分類模型性能的重要指標(biāo)分析總結(jié)構(gòu)建機(jī)器學(xué)習(xí)模型的想法應(yīng)基于建設(shè)性的反饋原則。你可以構(gòu)建模型,從指標(biāo)得到反饋,不斷改進(jìn),直到達(dá)到理想的準(zhǔn)確度。評(píng)估指標(biāo)能體現(xiàn)模型的運(yùn)轉(zhuǎn)情況。評(píng)估指標(biāo)的一個(gè)重要作用在于能夠區(qū)分眾多模型的結(jié)果。很多分析師和數(shù)據(jù)科學(xué)家甚至都不愿意去檢查其模型的魯棒性。一旦完成了模型的構(gòu)建,他們就會(huì)急忙將預(yù)測(cè)值應(yīng)用到不可見的數(shù)據(jù)上。這種方法不正確。我們的目的不能是簡(jiǎn)單地構(gòu)建一個(gè)預(yù)測(cè)模型。目的是關(guān)于創(chuàng)建和選擇一個(gè)對(duì)樣本以外數(shù)據(jù)也能做到高精度的模型。因此,在計(jì)算預(yù)測(cè)值之前,檢查模型的準(zhǔn)確性至關(guān)重要。在這個(gè)行業(yè)中,大家會(huì)考慮用不同類型的指標(biāo)來評(píng)估模型。指標(biāo)的選擇完全取決于模型的類型和執(zhí)行模型的計(jì)劃。模型構(gòu)建完成后,這11個(gè)指標(biāo)將幫助評(píng)估模型的準(zhǔn)確性。考慮到交叉驗(yàn)證的日益普及和重要性,本文中也提到了它的一些原理。預(yù)測(cè)模型的類型說到預(yù)測(cè)模型,大家談?wù)摰囊词腔貧w模型(連續(xù)輸出),要么是分類模型(離散輸出或二進(jìn)制輸出)。每種模型中使用的評(píng)估指標(biāo)都不同。在分類問題中,一般使用兩種類型的算法(取決于其創(chuàng)建的輸出類型):.類輸出:SVM和KNN等算法創(chuàng)建類輸出。例如,在二進(jìn)制分類問題中,輸出值將為0或1。但如今,有算法可以將這些類輸出轉(zhuǎn)換為概率輸出。但是,統(tǒng)計(jì)圈并不是很樂意接受這些算法。.概率輸出:邏輯回歸(LogisticRegression),隨機(jī)森林(RandomForest),梯度遞增(GradientBoosting),Adaboost等算法會(huì)產(chǎn)生概率輸出。將概率輸出轉(zhuǎn)換為類輸出只是創(chuàng)建一個(gè)閾值概率的問題。在回歸問題中,輸出時(shí)不會(huì)出現(xiàn)這種不一致性。輸出本來就是一直連續(xù)的,不需要進(jìn)一步處理。例證關(guān)于分類模型評(píng)估指標(biāo)的討論,筆者已在Kaggle平臺(tái)上對(duì)BCI挑戰(zhàn)做了預(yù)測(cè)。問題的解決方案超出了此處討論的范圍。但是,本文引用了訓(xùn)練集的最終預(yù)測(cè)。通過概率輸出預(yù)測(cè)該問題,假設(shè)閾值為0.5的情況下,將概率輸出轉(zhuǎn)換為類輸出。.混淆矩陣混淆矩陣是一個(gè)NXN矩陣,N是預(yù)測(cè)的類的數(shù)量。針對(duì)目前的問題,有N=2,因此得到一個(gè)2X2的矩陣。你需要記住以下這些關(guān)于混淆矩陣的定義:準(zhǔn)確性:正確預(yù)測(cè)的結(jié)果占總預(yù)測(cè)值的比重陽性預(yù)測(cè)值或查準(zhǔn)率:預(yù)測(cè)結(jié)果是正例的所有結(jié)果中,正確模型預(yù)測(cè)的比例陰性預(yù)測(cè)值:預(yù)測(cè)結(jié)果是負(fù)例的所有結(jié)果中,錯(cuò)誤模型預(yù)測(cè)的比例。敏感度或查全率:在真實(shí)值是正例的結(jié)果中,正確模型預(yù)測(cè)的比重。特異度:在真實(shí)值是負(fù)例的所有結(jié)果中,正確模型預(yù)測(cè)的比重。ConiusionMatrixTargetPositiveNegativeModelPositiveabPositivePredictiveValuea/(a+b)NegativecdNegotivePredictrveValued/^c+d)SensitivitySpecificityAccuracy=^a4-d)/(a+b+c4-d)a/(a-c)d/(b+d)CountofIOTarget▼Modal ▼1OGrandTotalO -ZL 1-了舶GrandTotal 4dzL9* ]目前案例的準(zhǔn)確率達(dá)到88%。從以上兩個(gè)表中可以看出,陽性預(yù)測(cè)值很高,但陰性預(yù)測(cè)值很低,而敏感度和特異度一樣。這主要由選擇的閾值所造成,如果降低閾值,兩對(duì)截然不同的數(shù)字將更接近。通常,大家關(guān)注上面定義的指標(biāo)中的一項(xiàng)。例如,一家制藥公司,更關(guān)心的是最小錯(cuò)誤陽性診斷。因此,他們會(huì)更關(guān)注高特異度。另一方面,消耗模型會(huì)更注重敏感度。混淆矩陣通常僅用于類輸出模型。.F1分?jǐn)?shù)在上一節(jié)中,討論了分類問題的查準(zhǔn)率和查全率,也強(qiáng)調(diào)了在用例中選擇查準(zhǔn)率和查全率的重要性。如果對(duì)于一個(gè)用例,想要試圖同時(shí)獲得最佳查準(zhǔn)率和查全率呢? F1-Score是分類問題查準(zhǔn)率和查全率的調(diào)和平均值。其公式如下:F /recall_1+precision1\12precisioii?recall\ 2 I precision+recall現(xiàn)在,一個(gè)顯而易見的問題是,為什么采用調(diào)和平均值而不是算術(shù)平均值呢?這是因?yàn)檎{(diào)和平均值可以解決更多極值。通過一個(gè)例子來理解這一點(diǎn)。有一個(gè)二進(jìn)制分類模型的結(jié)果如下:查準(zhǔn)率:0,查全率:1這里,如果采用算術(shù)平均值,得到的結(jié)果是 0.5。很明顯,上面的結(jié)果是一個(gè)“傻子”分類器處理的,忽略了輸入,僅將其預(yù)測(cè)的其中一個(gè)類作為輸出。現(xiàn)在,如果要取調(diào)和平均值,得到的結(jié)果就會(huì)是0,這是準(zhǔn)確的,因?yàn)檫@個(gè)模型對(duì)于所有的目的來說都是無用的。這看似很簡(jiǎn)單。然而在有些情況下,數(shù)據(jù)科學(xué)家更關(guān)心查準(zhǔn)率和查全率的問題。稍稍改變上面的表達(dá)式,包含一個(gè)可調(diào)參數(shù)B來實(shí)現(xiàn)該目的,得出:
Fbeta衡量模型對(duì)用戶的有效性,用戶對(duì)查全率的重視程度是查準(zhǔn)率的8倍。3.增益圖和提升圖增益圖和提升圖主要用于檢查概率的順序。以下是構(gòu)建提升圖/增益圖的步驟:步驟1:計(jì)算每個(gè)樣本的概率。步驟2:按降序排列這些概率。步驟3:每組構(gòu)建十分位數(shù)時(shí)都有近10%的樣本。步驟4:計(jì)算每個(gè)十分位數(shù)的響應(yīng)率,分為Good(Responders)、Bad(Non-responders)和總數(shù)。你會(huì)獲得下表,需要據(jù)此繪制增增益圖或提升圖:lih/GalnCoIlhihaLabels,LlRi8111HkWrongs^PopulACicnCum拈Curri^PopLih^decileTotalLiftVW .0lgndTotal□%OH謁口為1Ml54M14?睇141%141%225425441或次闔坨141^141%3753714%嘛1碘42K13S9&141%弓152刈1疏曬10^X%13幅愴5卻524544[雌班1056小£42如S4412%㈱10%82%120%[正/710444054d11K7%1<?534流IM怕134%83451995?盜22H1滁MraK124k.9$3529.S411%32M[調(diào)1W%明111帆UO加50%i4%10%156100%GrandToCal193.350WKI表格提供了大量信息。累積增益圖介于累計(jì) %Right和累計(jì)%Population圖之間。下面是對(duì)應(yīng)的案例圖:1DDY90%ac%tdJpEod發(fā)嗣70%tdJpEod發(fā)嗣SO%40%KM2C%10%0%30% 100%0% 2C% 40K 30% 100%KPopulation該圖會(huì)告訴你的模型responders與non-responders的分離程度。例如,第一個(gè)十分位數(shù)有10%的數(shù)量,和14%的responders。這意味著在第一個(gè)十分位數(shù)時(shí)有140%的升力。在第一個(gè)十分位數(shù)可以達(dá)到的最大升力是多少?從第一個(gè)表中可以知道responders的總數(shù)是3,850人,第一個(gè)十分位數(shù)也包含543個(gè)樣本。因此,第一個(gè)十分位數(shù)的最大升力值可能是543/3850約為14.1%。所以該模型近乎完美。現(xiàn)在繪制升力曲線。升力曲線是總升力和%population之間的關(guān)系曲線。注意:對(duì)于隨機(jī)模型,此值始終穩(wěn)定在100%處。這是目前案例對(duì)應(yīng)的提升圖:也可以使用十分位數(shù)繪制十分位升力:這個(gè)圖說明什么?這表示模型運(yùn)行到第7個(gè)十分位數(shù)都挺好。每個(gè)十分位數(shù)都會(huì)傾向non-responders。在3分位數(shù)和7分位數(shù)之間,任何升力在100%以上的模型(@十分位數(shù))都是好模型。否則可能要先考慮采樣。提升圖或增益圖表廣泛應(yīng)用于目標(biāo)定位問題。這告訴我們,在特定的活動(dòng)中,可以鎖定客戶在哪個(gè)十分位數(shù)上。此外,它會(huì)告訴你對(duì)新目標(biāo)數(shù)據(jù)期望的響應(yīng)量。K-S圖K-S或Kolmogorov-Smirnov圖表衡量分類模型的性能。更準(zhǔn)確地說,K-S是衡量正負(fù)例分布分離程度的指標(biāo)。如果分?jǐn)?shù)將人數(shù)劃分為單獨(dú)兩組,其中一組含所有正例,另一組含所有負(fù)例,則K-S值為100。另一方面,如果模型不能區(qū)分正例和負(fù)例,那么就如同模型從總體中隨機(jī)選擇案例一樣,K-S為0。在大多數(shù)分類模型中,K-S值將從0和100之間產(chǎn)生,并且值越高,模型對(duì)正例和負(fù)例的區(qū)分越好。對(duì)于以上案例,請(qǐng)看表格:
還可以繪制%CumulativeGood和Bad來查看最大分離。下面是示例圖:130%90%SO%70%60%50%40%30%20%10%0%1 2 3 1 2 3 4 5 6 7S3 13 11AUC曲線(AUC-ROC)這又是業(yè)內(nèi)常用的指標(biāo)之一。使用ROC曲線的最大優(yōu)點(diǎn)是不受responders比例變化的影響。下文會(huì)講得更清楚。首先試著去理解什么是ROC(接收器操作特性)曲線。如果看下面的混淆矩陣,就會(huì)觀察到對(duì)于概率模型,每個(gè)指標(biāo)的值不同。Con■fusionMatrixTargetPositive NegativeModelPositiveabPositivePredictiveValuea/(a+b)NegativecdNegativePredictiveValued/^c+d)SensitivitySpecificityAccuracy=相)a/(a-c)d/(b+d)因此,對(duì)于每種敏感度,都會(huì)有不同的特異度。兩者差異如下:ROC曲線是敏感度和(1-特異度)之間的曲線。(1-特異性)也稱為假正率,敏感度也稱為真正率。下圖本案例的ROC曲線。如你所見,此時(shí)敏感度為99.6%,(1-特異性)大約為60%。該坐標(biāo)在ROC曲線中成為點(diǎn)。為了將該曲線表達(dá)成數(shù)值,就要計(jì)算該曲線下的面積(AUC)。注意,整個(gè)正方形的面積是1*1=1。因此,AUC本身就是曲線下的比值和總面積。對(duì)于那個(gè)案例,得到 AUCROC的值為96.4%。以下是一些拇指規(guī)則(thumbrules):0.90-1=優(yōu)秀(A)0.80-0.90=良好(B)0.70-0.80=一般(C)0.60-0.70二差(D)0.50-0.60=失敗(F)可以看出,目前的模型屬于優(yōu)秀范圍。但也可能只是過度擬合。這種情況下,驗(yàn)證顯得迫在眉睫了。以下幾點(diǎn)需注意:一1.對(duì)于作為類輸出的模型,將在 ROC圖中用單個(gè)點(diǎn)表示。.這些模型無法相互比較,因?yàn)樾枰趩蝹€(gè)指標(biāo)基礎(chǔ)上進(jìn)行判斷而不是多個(gè)指標(biāo)。例如,具有參數(shù)(0.2,0.8)的模型和具有參數(shù)(0.8,0.2)的模型可以來自相同的模型,因此不應(yīng)直接比較這些指標(biāo)。.在概率模型的情況下,有幸能得到一個(gè)AUC-ROC的單個(gè)數(shù)字。但是,仍然需要查看整個(gè)曲線去做最終決定。又可能是一個(gè)模型在某些范圍中性能更好,其他的在別的范圍中更好。使用ROC的優(yōu)點(diǎn)為什么要使用ROC而不是升力曲線等指標(biāo)?升力取決于人口的總響應(yīng)率。因此,如果人口的響應(yīng)率發(fā)生變化,同一模型將帶來不同的升力圖。解決這種問題的方案可以是真正的升力圖(在每個(gè)十分位數(shù)處找到升力值和完美模型升力值的比率)。但這種比例很少對(duì)企業(yè)有價(jià)值。另一方面,ROC曲線幾乎與響應(yīng)率無關(guān)。這是因?yàn)樗袃蓚€(gè)來自混淆矩陣柱狀計(jì)算中的軸。在響應(yīng)率變化的情況下,x軸和y軸的分子和分母也會(huì)有相應(yīng)的改變。.對(duì)數(shù)損失確定模型性能時(shí)AUC-ROC會(huì)考慮預(yù)測(cè)概率。然而,AUCROC存在一個(gè)問題,就是只考慮概率的順序,因此忽略了模型對(duì)更可能是正樣本預(yù)測(cè)更高概率的能力。這種情況下,可以采取對(duì)數(shù)損失,它只是每個(gè)案例修正預(yù)測(cè)概率的對(duì)數(shù)的負(fù)平均值。—\」。俱網(wǎng)必})+。-月)比雙】一同為))p(yi)是正類預(yù)測(cè)概率1-p(yi)是負(fù)類預(yù)測(cè)概率yi=1表示正類,0表示負(fù)類(實(shí)際值)隨機(jī)計(jì)算幾個(gè)值的對(duì)數(shù)損失,得出上述數(shù)學(xué)函數(shù)的要點(diǎn).八、、:Logloss(1,0.1)=2.303Logloss(1,0.5)=0.693Logloss(1,0.9)=0.105如果繪制這種關(guān)系,曲線圖如下:從斜率向右下方逐漸平緩可以明顯看出,隨著預(yù)測(cè)概率的提高,對(duì)數(shù)損失值逐漸下降。不過反方向移動(dòng)時(shí),對(duì)數(shù)損失快速增加而預(yù)測(cè)概率趨近于0。因此,降低對(duì)數(shù)損失,對(duì)模型更好。但是,對(duì)于好的對(duì)數(shù)損失沒有絕對(duì)的衡量標(biāo)準(zhǔn),它取決于用例或者應(yīng)用程序。雖然AUC是根據(jù)具有不同決策閾值的二進(jìn)制分類計(jì)算的,但對(duì)數(shù)損失實(shí)際上考慮了分類的“確定性”。.基尼系數(shù)基尼系數(shù)有時(shí)用于分類問題。基尼系數(shù)可由AUCROC數(shù)直接導(dǎo)出。基尼只是ROC曲線和diagnol線之間的面積與上述三角形的面積之比。下面是使用公式:Gini=2*AUC-1基尼系數(shù)高于60%,模型就很好。對(duì)于目前的情況而言,基尼系數(shù)的值為92.7%。.Concordant-Discordantratio對(duì)于任何分類預(yù)測(cè)問題,這也是最重要的指標(biāo)之一。想要理解這個(gè),先假設(shè)有3名學(xué)生今年有可能通過。以下是預(yù)測(cè):A—0.9B-0.5C-0.3現(xiàn)在想象一下。如果從這三個(gè)學(xué)生中挑兩對(duì),會(huì)有多少對(duì)?將有3種組合:AB、BC和CA。現(xiàn)在,年底結(jié)束后,A和C通過了,而B沒有。不行,選擇所有配對(duì),找到一個(gè)responder和其他non-responder。這樣的配對(duì)有多少?有兩對(duì):AB和BC。現(xiàn)在對(duì)于2對(duì)中的每一對(duì),一致對(duì)(concordantpair)是responder的概率高于nonresponder的。而不一致的對(duì)(discordantpair)雖情況相反但也是如此。如果兩個(gè)概率相等,就稱之為相當(dāng)?shù)摹,F(xiàn)在來看看案例中發(fā)生了什么:AB-ConcordantBC-Discordant因此,在這個(gè)例子中50%的一致案例。一致率超過60%會(huì)被視為好模型。在決定鎖定客戶數(shù)量時(shí),通常不使用此指標(biāo)標(biāo)準(zhǔn)。它主要用于測(cè)試模型的預(yù)測(cè)能力。像鎖定客戶數(shù)量的話,就再次采用KS圖或者提升圖。.均方根誤差RMSE是回歸問題中最常用的評(píng)估指標(biāo)。它遵循一個(gè)假設(shè),即誤差無偏,遵循正態(tài)分布。以下是RMSE需要注意的要點(diǎn):.“平方根”使該指標(biāo)能夠顯示很多偏差。.此指標(biāo)的“平方”特性有助于提供更強(qiáng)大的結(jié)果,從而防止取消正負(fù)誤差值。換句話說,該指標(biāo)恰當(dāng)?shù)仫@示了錯(cuò)誤術(shù)語的合理幅度。.它避免使用絕對(duì)誤差值,這在數(shù)學(xué)計(jì)算中是極不希望看到的。.有更多樣本時(shí),使用RMSE重建誤差分布被認(rèn)為更可m靠。.RMSE受異常值的影響很大。因此,請(qǐng)確保在使用此指標(biāo)之前已從數(shù)據(jù)集中刪除了異常值。.與平均絕對(duì)誤差相比,RMSE提供更高的權(quán)重并懲罰大錯(cuò)誤。RMSE指標(biāo)由以下公式給出:|N£iPredfctedj—Acfuo/J2RMSE=j- 其中,N是樣本總數(shù)。10.均方根對(duì)數(shù)誤差在均方根對(duì)數(shù)誤差的情況下,采用預(yù)測(cè)和實(shí)際值的對(duì)數(shù)。基本上,正在測(cè)量的方差就是變化。預(yù)測(cè)值和真值都很龐大時(shí)不希望處理預(yù)測(cè)值和實(shí)際值存在的巨大差異話通常采用RMSLE。RootMeanSquaredError(RMSE)RootMeanSquaredLogError(RMSLE)actual;畢三別RootMeanSquaredError(RMSE)RootMeanSquaredLogError(RMSLE)actual;畢三別1.如果預(yù)測(cè)值和實(shí)際值都很小:RMSE和RMSLE相同。.如果預(yù)測(cè)值或?qū)嶋H值很大:RMSE>RMSLE.如果預(yù)測(cè)值和實(shí)際值都很大:RMSE>RMSLE(RMSLE幾乎可以忽略不計(jì))11.R-Squared/AdjustedR-Squared已經(jīng)知道RMSE降低時(shí),模型的性能將會(huì)提高。但僅憑這些值并不直觀。在分類問題的情況下,如果模型的準(zhǔn)確度為0.8,可以衡量模型對(duì)隨機(jī)模型的有效性,哪個(gè)準(zhǔn)確度為0.5。因此,隨機(jī)模型可以作為基準(zhǔn)。但是在談?wù)揜MSE指標(biāo)時(shí),卻沒有比較基準(zhǔn)。這里可以使用R-Squared指標(biāo)。R-Squared的公式如下:9 ]MSE(niGtlel)MSE(baseline)"(照-仍產(chǎn)MSE(moclrl) gJMSE(bas^litic) 拜£to-吊產(chǎn)MSE(模型):預(yù)測(cè)值與實(shí)際值的平均誤差MSE(基線):平均預(yù)測(cè)值與實(shí)際值的平均誤差換言之,與一個(gè)非常簡(jiǎn)單的模型相比,回歸模型可以說很不錯(cuò)了,一個(gè)簡(jiǎn)單的模型只能預(yù)測(cè)訓(xùn)練集中目標(biāo)的平均值作為預(yù)測(cè)。AdjustedR-Squared調(diào)整后的可決系數(shù)(參考)模型表現(xiàn)與baseline相同時(shí),R-Squared為0。模型越好,R2值越高。最佳模型含所有正確預(yù)測(cè)值時(shí),R-Squared為1。但是,向模型添加新功能時(shí),R-Squared值會(huì)增加或保持不變。R-Squared不會(huì)因添加了對(duì)模型無任何價(jià)值的功能而被判“處罰”。因此,R-Squared的改進(jìn)版本是經(jīng)過調(diào)整的R-Squared。調(diào)整后的R-Squared的公式如下:k:特征數(shù)量n:樣本數(shù)量如你所見,此指標(biāo)會(huì)考慮特征的數(shù)量。添加更多特征時(shí),分母項(xiàng)n-(k+1)減小,因此整個(gè)表達(dá)式在增大。如果R-Squared沒有增大,那意味著添加的功能對(duì)模型沒有價(jià)值。因此總的來說,在1上減去一個(gè)更大的值,調(diào)整的r2,反而會(huì)減少。除了這11個(gè)指標(biāo)之外,還有另一種檢驗(yàn)?zāi)P托阅堋_@7種方法在數(shù)據(jù)科學(xué)中具有統(tǒng)計(jì)學(xué)意義。但是,隨著機(jī)器學(xué)習(xí)的到來,我們現(xiàn)在擁有更強(qiáng)大的模型選擇方法。沒錯(cuò)!現(xiàn)在來談?wù)撘幌陆徊骝?yàn)證。雖然交叉驗(yàn)證不是真正的評(píng)估指標(biāo),會(huì)公開用于傳達(dá)模型的準(zhǔn)確性。但交叉驗(yàn)證提供了足夠直觀的數(shù)據(jù)來概括模型的性能。現(xiàn)在來詳細(xì)了解交叉驗(yàn)證。12.交叉驗(yàn)證(雖然不是指標(biāo)!)首先來了解交叉驗(yàn)證的重要性。由于日程緊張,這些天筆者沒有太多時(shí)間去參加數(shù)據(jù)科學(xué)競(jìng)賽。很久以前,筆者參加了Kaggle的TFI比賽。這里就不相信介紹筆者競(jìng)賽情況了,我想向大家展示個(gè)人的公共和私人排行榜得分之間的差異。以下是Kaggle得分的一個(gè)例子!對(duì)于TFI比賽,以下是個(gè)人的三個(gè)解決方案和分?jǐn)?shù)(越小越好):可以注意到,公共分?jǐn)?shù)最差的第三個(gè)條目成為了私人排行榜上的最佳模型。"submission_all.csv”之前有20多個(gè)模型,但筆者仍然選擇“submission_all.csv”作為最終條目(實(shí)踐證明確實(shí)很有效)。是什么導(dǎo)致了這種現(xiàn)象?筆者的公共和私人排行榜的差異是過度擬合造成的。模型變得高度復(fù)雜時(shí),過度擬合也會(huì)開始捕捉噪音。這種“噪音”對(duì)模型沒有任何價(jià)值,只會(huì)讓其準(zhǔn)確度降低。下一節(jié)中,筆者將討論在真正了解測(cè)試結(jié)果之前,如何判斷解決方案是否過度擬合。概念:交叉驗(yàn)證交叉驗(yàn)證是任何類型數(shù)據(jù)建模中最重要的概念之一。就是說,試著留下一個(gè)樣本集,但并不在這個(gè)樣本集上訓(xùn)練模型,在最終確定模型之前測(cè)試依據(jù)該樣本集建立的模型。TrainingPoRidationIn-Time阮i/idationTrainingPoRidationIn-Time阮i/idationTrain上圖顯示了如何使用及時(shí)樣本集驗(yàn)證模型。簡(jiǎn)單地將人口分成2個(gè)樣本,在一個(gè)樣本上建立模型。其余人口用于及時(shí)驗(yàn)證。上述方法會(huì)有不好的一面嗎?這種方法一個(gè)消極面就是在訓(xùn)練模型時(shí)丟失了大量數(shù)據(jù)。因此,模型的偏差會(huì)很大。這不會(huì)給系數(shù)做出最佳估測(cè)。那么下一個(gè)最佳選擇是什么?如果,將訓(xùn)練人口按50:50的比例分開,前50用于訓(xùn)練,后50用于驗(yàn)證。然后兩組顛倒過來進(jìn)行實(shí)驗(yàn)。通過這種方式,在整個(gè)人口基礎(chǔ)上訓(xùn)練模型,但一次只借用50%。這樣可以減少偏差,因?yàn)闃悠愤x擇在一定程度上可以提供較小的樣本來訓(xùn)練模型。這種方法稱為2折交叉驗(yàn)證。k折交叉驗(yàn)證最后一個(gè)例子是從2折交叉驗(yàn)證推斷到k折交叉驗(yàn)證。現(xiàn)在,嘗試將k折交叉驗(yàn)證的過程可視化。這是一個(gè)7折交叉驗(yàn)證。真實(shí)情況是這樣:將整個(gè)人口劃分為7個(gè)相同的樣本集。現(xiàn)在在6個(gè)樣本集(綠色框)上訓(xùn)練模型,在1個(gè)樣本集(灰色框)上進(jìn)行驗(yàn)證。然后,在第二次迭代中,使用不同的樣本集訓(xùn)練模型作為驗(yàn)證。在7次迭代中,基本上在每個(gè)樣本集上都構(gòu)建了模型,同時(shí)作為驗(yàn)證。這是一種降低選擇偏差、減少預(yù)測(cè)方差的方法。一旦擁有所有這7個(gè)模型,就可以利用平均誤差項(xiàng)找到最好的模型。這是如何幫助找到最佳(非過度擬合)模型的?k折交叉驗(yàn)證廣泛用于檢查模型是否是過度擬合。如果k次建模中的每一次的性能指標(biāo)彼此接近,那么指標(biāo)的均值最高。在Kaggle比賽中,你可能更多地依賴交叉驗(yàn)證分?jǐn)?shù)而不是Kaggle公共分?jǐn)?shù)。這樣就能確保公共分?jǐn)?shù)不單單是偶然出現(xiàn)。如何使用任何型號(hào)實(shí)現(xiàn)k折?R和Python中的k折編碼非常相似。以下是在Python中編碼k-fold的方法:fromsklearnimportcross_validationmodel=RandomForestClassifier(n_estimators=100)#S
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 居間方房屋出租合同
- 關(guān)聯(lián)企業(yè)借款合同協(xié)議書
- 工廠臨時(shí)工勞動(dòng)合同
- 影視動(dòng)畫制作合同書
- 個(gè)體采購合同
- 職代會(huì)協(xié)議工資合同
- 申通快遞承包協(xié)議合同
- 合同解除退費(fèi)協(xié)議
- 工程合同附加協(xié)議
- 鋼筋班組分包合同協(xié)議書
- 全國身份證前六位、區(qū)號(hào)、郵編-編碼大全
- 外包服務(wù)行業(yè)糾紛處理方案
- 電子商務(wù)安全導(dǎo)論
- 2024年廢品收購合同轉(zhuǎn)讓協(xié)議
- 深圳市保障性住房標(biāo)準(zhǔn)化設(shè)計(jì)圖集(一)
- 擔(dān)保合同范本
- 鋼結(jié)構(gòu)吊裝技術(shù)交底
- 二年級(jí)上冊(cè)《勞動(dòng)教育》教材分析
- n3護(hù)士崗位競(jìng)聘范文
- 中國普通食物營養(yǎng)成分表(修正版)
- (新版)高級(jí)考評(píng)員職業(yè)技能鑒定考試題庫(含答案)
評(píng)論
0/150
提交評(píng)論