




版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
大數據技術與應用項目——R語言分類預測的基本流程原理1
項目來自北京諾程佳華教育科技有限公司教學目標?熟悉分類預測的基本流程;?熟悉在R語言中使用程序包caret做分類預測。
R語言分類預測的基本流程原理1.分類預測的基本流程和要素分類預測的基本流程可以歸納為:數據總體->按一定概率隨機分成訓練集和測試集->用訓練集建立分類預測模型->用測試集評估模型效果。分類預測模型的各組成部分包括:問題的提出->輸入數據->特征提取->算法選擇->參數確定->分類預測效果的評估。
R語言分類預測的基本流程原理1.分類預測的基本流程和要素在選取數據過程中,需要注意輸入數據與問題是否相關,且數據是否正確,否則會出現“垃圾進,垃圾出”的效果。在特征提取過程中,需要提取適合的特征,能夠壓縮數據,保留相關信息,且利用領域知識。不能盲目采用自動化特征選擇。算法對于分類預測的效果并不如預期那樣重要。選擇算法時需要考慮的因素包括可解釋性、準確性、可擴展性和時間性能等。可解釋性的重要性在于,可以表達特征是如何得到結果的。而可擴展性的重要性在于,算法最終是需要在大數據集上運行,并且計算代價不應該太高。
R語言分類預測的基本流程原理2.分類預測錯誤和模型評價指標預測錯誤分為兩種:樣本內錯誤(insampleerror)和樣本外錯誤(outofsampleerror)。樣本內錯誤是預測模型在訓練模型所用的數據集上得到的錯誤率,樣本外錯誤是預測模型在新數據集上得到的錯誤率。真正需要關注的是樣本外誤差。一般情況下,樣本內誤差會小于樣本外誤差,而這源于過擬合(overfitting)。數據都是由兩部分組成:信號和噪聲。而預測模型的目的是僅僅捕捉信號。我們總是可以設計一個完美的模型使得樣本內誤差為0,但這會將信號和噪聲都捕捉到,因此這樣的模型在新樣本上性能會下降。
R語言分類預測的基本流程原理對于僅有兩類(陽性類和陰性類)的分類問題,則預測值和實際值總共有4種可能的組合情況。?正確的陽性類(truepositive,簡稱TP),例如在臨床診斷中將病人正確診斷為病人;?錯誤的陽性類(falsepositive,簡稱FP),例如在臨床診斷中將健康人錯誤診斷為病人;?正確的陰性類(truenegative,簡稱TN),例如在臨床診斷中將健康人正確診斷為健康人;?錯誤的陰性類(falsenegative,簡稱FN),例如在臨床診斷中將病人錯誤診斷為健康人。
R語言分類預測的基本流程原理
R語言分類預測的基本流程原理根據上圖定義,可以得到預測模型的其他主要評價指標的計算公式。靈敏度(sentitivity):TP/(TP+FN)特異度(specificity):TN/(FP+TN)精確度(precision):TP/(TP+FP)召回率(recall):TP/(TP+FP)正確陽性率(TPR):TP/(TP+FN)錯誤陽性率(FPR):FP/(FP+TN)準確度(accuracy):(TP+TN)/(TP+FP+FN+TN)
R語言分類預測的基本流程原理而不同的指標間又存在折衷和權衡。例如,提升靈敏度的同時必然會降低特異度,提升陽性預測正確率的同時必然會降低陰性預測正確率。可以用曲線圖表現不同指標的權衡:?ROC曲線:橫坐標是陽性預測正確率,縱坐標是陰性預測正確率;?精確度-召回率曲線:橫坐標是精確度,縱坐標是召回率;?靈敏度-特異度曲線:橫坐標是靈敏度,縱坐標是特異度。
R語言分類預測的基本流程原理R語言中可調用程序包ROCR畫出這些曲線圖:pred<-prediction(predictions,labels)perf<-performance(pred,measure,x.measure)plot(perf)其中參數predictions表示預測值,參數labels表示真實值,參數measure和x.measure指定曲線類型,常用組合包括:?參數measure="tpr",x.measure="fpr"表示ROC曲線;?參數m
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025年中國機房橋架數據監測研究報告
- 2025年中國木工機械刀片市場調查研究報告
- 2025-2030年中國中藥黨參行業市場需求預測與投資潛力研究報告
- 2025年中國料門式干燥機市場調查研究報告
- 2025年中國數字地感檢測器數據監測報告
- 2025年中國精梳精漂汗布圓領短袖男衫數據監測研究報告
- 2025年中國正時槍市場調查研究報告
- 新疆交通職業技術學院《形體與舞蹈IV》2023-2024學年第二學期期末試卷
- 肇慶市實驗中學高中歷史三:第2課西學東漸(第2課時)高效課堂教學設計
- 新疆師范大附屬中學2025年初三下學期3月模擬考試化學試題含解析
- 保密管理與人工智能技術發展
- 毒理學新技術
- 新生兒貧血護理查房課件
- 電信電源專業應急預案
- “0”何去何從-小數近似數的教學思考與實踐 論文
- GMW 17408-2017 Flexible Expanded Rubber And Rubber-Like Materials原版完整文件
- 上市公司固定資產減值研究 -以美的集團股份有限公司為例
- DB14T+2779-2023營造林工程監理規范
- 2023年中考任務型閱讀真題(20+)
- 新團員入團儀式PPT模板
- 電力拖動自動控制系統-運動控制系統期末試卷附答案共6套
評論
0/150
提交評論