大數據技術與應用項目R語言分類預測的基本流程原理1_第1頁
大數據技術與應用項目R語言分類預測的基本流程原理1_第2頁
大數據技術與應用項目R語言分類預測的基本流程原理1_第3頁
大數據技術與應用項目R語言分類預測的基本流程原理1_第4頁
大數據技術與應用項目R語言分類預測的基本流程原理1_第5頁
已閱讀5頁,還剩6頁未讀 繼續免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

大數據技術與應用項目——R語言分類預測的基本流程原理1

項目來自北京諾程佳華教育科技有限公司教學目標?熟悉分類預測的基本流程;?熟悉在R語言中使用程序包caret做分類預測。

R語言分類預測的基本流程原理1.分類預測的基本流程和要素分類預測的基本流程可以歸納為:數據總體->按一定概率隨機分成訓練集和測試集->用訓練集建立分類預測模型->用測試集評估模型效果。分類預測模型的各組成部分包括:問題的提出->輸入數據->特征提取->算法選擇->參數確定->分類預測效果的評估。

R語言分類預測的基本流程原理1.分類預測的基本流程和要素在選取數據過程中,需要注意輸入數據與問題是否相關,且數據是否正確,否則會出現“垃圾進,垃圾出”的效果。在特征提取過程中,需要提取適合的特征,能夠壓縮數據,保留相關信息,且利用領域知識。不能盲目采用自動化特征選擇。算法對于分類預測的效果并不如預期那樣重要。選擇算法時需要考慮的因素包括可解釋性、準確性、可擴展性和時間性能等。可解釋性的重要性在于,可以表達特征是如何得到結果的。而可擴展性的重要性在于,算法最終是需要在大數據集上運行,并且計算代價不應該太高。

R語言分類預測的基本流程原理2.分類預測錯誤和模型評價指標預測錯誤分為兩種:樣本內錯誤(insampleerror)和樣本外錯誤(outofsampleerror)。樣本內錯誤是預測模型在訓練模型所用的數據集上得到的錯誤率,樣本外錯誤是預測模型在新數據集上得到的錯誤率。真正需要關注的是樣本外誤差。一般情況下,樣本內誤差會小于樣本外誤差,而這源于過擬合(overfitting)。數據都是由兩部分組成:信號和噪聲。而預測模型的目的是僅僅捕捉信號。我們總是可以設計一個完美的模型使得樣本內誤差為0,但這會將信號和噪聲都捕捉到,因此這樣的模型在新樣本上性能會下降。

R語言分類預測的基本流程原理對于僅有兩類(陽性類和陰性類)的分類問題,則預測值和實際值總共有4種可能的組合情況。?正確的陽性類(truepositive,簡稱TP),例如在臨床診斷中將病人正確診斷為病人;?錯誤的陽性類(falsepositive,簡稱FP),例如在臨床診斷中將健康人錯誤診斷為病人;?正確的陰性類(truenegative,簡稱TN),例如在臨床診斷中將健康人正確診斷為健康人;?錯誤的陰性類(falsenegative,簡稱FN),例如在臨床診斷中將病人錯誤診斷為健康人。

R語言分類預測的基本流程原理

R語言分類預測的基本流程原理根據上圖定義,可以得到預測模型的其他主要評價指標的計算公式。靈敏度(sentitivity):TP/(TP+FN)特異度(specificity):TN/(FP+TN)精確度(precision):TP/(TP+FP)召回率(recall):TP/(TP+FP)正確陽性率(TPR):TP/(TP+FN)錯誤陽性率(FPR):FP/(FP+TN)準確度(accuracy):(TP+TN)/(TP+FP+FN+TN)

R語言分類預測的基本流程原理而不同的指標間又存在折衷和權衡。例如,提升靈敏度的同時必然會降低特異度,提升陽性預測正確率的同時必然會降低陰性預測正確率。可以用曲線圖表現不同指標的權衡:?ROC曲線:橫坐標是陽性預測正確率,縱坐標是陰性預測正確率;?精確度-召回率曲線:橫坐標是精確度,縱坐標是召回率;?靈敏度-特異度曲線:橫坐標是靈敏度,縱坐標是特異度。

R語言分類預測的基本流程原理R語言中可調用程序包ROCR畫出這些曲線圖:pred<-prediction(predictions,labels)perf<-performance(pred,measure,x.measure)plot(perf)其中參數predictions表示預測值,參數labels表示真實值,參數measure和x.measure指定曲線類型,常用組合包括:?參數measure="tpr",x.measure="fpr"表示ROC曲線;?參數m

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論