2023學年完整公開課版模型訓練_第1頁
2023學年完整公開課版模型訓練_第2頁
2023學年完整公開課版模型訓練_第3頁
2023學年完整公開課版模型訓練_第4頁
2023學年完整公開課版模型訓練_第5頁
已閱讀5頁,還剩11頁未讀 繼續免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

主講:某某某請輸入您的標題內容1請輸入您的標題內容2請輸入您的標題內容3請輸入您的標題內容4目錄Contents訓練前準備01數據集數據集是你構建機器學習模型歷程中的起點。簡單來說,數據集本質上是一個M×N矩陣,其中M代表列(特征),N代表行(樣本)。列可以分解為X和Y,首先,X是幾個類似術語的同義詞,如特征、獨立變量和輸入變量。其次,Y也是幾個術語的同義詞,即類別標簽、因變量和輸出變量。應該注意的是,一個可以用于監督學習的數據集(可以執行回歸或分類)將同時包含X和Y,而一個可以用于無監督學習的數據集將只有X。此外,如果Y包含定量值,那么數據集(由X和Y組成)可以用于回歸任務,而如果Y包含定性值,那么數據集(由X和Y組成)可以用于分類任務。

探索性數據分析進行探索性數據分析(EDA)是為了獲得對數據的初步了解。在一個典型的數據科學項目中,我會做的第一件事就是通過執行EDA來"盯住數據",以便更好地了解數據。

我通常使用的三大EDA方法包括:

描述性統計:平均數、中位數、模式、標準差。

數據可視化:熱力圖(辨別特征內部相關性)、箱形圖(可視化群體

差異)、散點圖(可視化特征之間的相關性)、主成分分析(可視化

數據集中呈現的聚類分布)等。

數據整形:對數據進行透視、分組、過濾等。數據預處理數據預處理(又稱數據清理、數據整理或數據處理)是指對數據進行各種檢查和審查的過程,以糾正缺失值、拼寫錯誤、使數值正常化/標準化以使其具有可比性、轉換數據(如對數轉換)等問題。"Garbagein,Garbageout.“正如上面的引言所說,數據的質量將對生成模型的質量產生很大的影響。因此,為了達到最高的模型質量,應該在數據預處理階段花費大量精力。一般來說,數據預處理可以輕松地占到數據科學項目所花費時間的80%,而實際的模型建立階段和后續的模型分析僅占到剩余的20%。數據分割在機器學習模型的開發過程中,希望訓練好的模型能在新的、未見過的數據上表現良好。為了模擬新的、未見過的數據,對可用數據進行數據分割,從而將其分割成2部分(有時稱為訓練—測試分割)。特別是,第一部分是較大的數據子集,用作訓練集(如占原始數據的80%),第二部分通常是較小的子集,用作測試集(其余20%的數據)。需要注意的是這種數據拆分只進行一次。接下來,利用訓練集建立預測模型,然后將這種訓練好的模型應用于測試集(即作為新的、未見過的數據)上進行預測。根據模型在測試集上的表現來選擇最佳模型,為了獲得最佳模型,還可以進行超參數優化。交叉驗證為了最經濟地利用現有數據,通常使用N倍交叉驗證(CV),將數據集分割成N個折(即通常使用5倍或10倍CV)。在這樣的N倍CV中,其中一個折被留作測試數據,而其余的折則被用作建立模型的訓練數據。例如,在5倍CV中,有1個折被省略,作為測試數據,而剩下的4個被集中起來,作為建立模型的訓練數據。然后,將訓練好的模型應用于上述遺漏的折(即測試數據)。這個過程反復進行,直到所有的折都有機會被留出作為測試數據。因此,我們將建立5個模型(即5個折中的每個折都被留出作為測試集),其中5個模型中的每個模型都包含相關的性能指標(我們將在接下來的部分討論)。最后,度量(指標)值是基于5個模型計算出的平均性能。模型建立02學習算法監督學習:是一種機器學習任務,建立輸入X和輸出Y變量之間的數學(映射)關系。這樣的X、Y對構成了用于建立模型的標簽數據,以便學習如何從輸入中預測輸出。無監督學習:是一種只利用輸入X變量的機器學習任務。這種X變量是未標記的數據,學習算法在建模時使用的是數據的固有結構。強化學習:是一種決定下一步行動方案的機器學習任務,它通過試錯學習來實現這一目標,努力使回報最大化。參數調優超參數本質上是機器學習算法的參數,直接影響學習過程和預測性能。由于沒有"一刀切"的超參數設置,可以普遍適用于所有數據集,因此需要進行超參數優化(也稱為超參數調整)。我們以隨機森林為例。在使用randomForestR包時,通常會對兩個常見的超參數進行優化,其中包括mtry和ntree參數(這對應于scikit-learnPython庫中RandomForestClassifier()和RandomForestRegressor()函數中的nestimators和maxfeatures)。mtry(maxfeatures)代表在每次分裂時作為候選變量隨機采樣的變量數量,而ntree(nestimators)代表要生長的樹的數量。另一種流行的機器學習算法是支持向量機。需要優化的超參數是徑向基函數(RBF)內核的C參數和gamma參數(即線性內核只有C參數;多項式內核的C和指數)。C參數是一個限制過擬合的懲罰項,而gamma參數則控制RBF核的寬度。如上所述,調優通常是為了得出超參數的最佳值集,盡管如此,也有一些研究旨在為C參數和gamma參數找到良好的起始值(Alvarsson等人,2014)學習算法顧名思義,特征選擇從字面上看就是從最初的大量特征中選擇一個特征子集的過程。除了實現高精度的模型外,機器學習模型構建最重要的一個方面是獲得可操作的見解,為了實現這一目標,能夠從大量的特征中選擇出重要的特征子集非常重要。特征選擇的任務本身就可以構成一個全新的研究領域,在這個領域中,大量的努力都是為了設計新穎的算法和方法。從眾多可用的特征選擇算法中,一些經典的方法是基于模擬退火和遺傳算法。除此之外,還有大量基于進化算法(如粒子群優化、蟻群優化等)和隨機方法(如蒙特卡洛)的方法。機器學習任務03回歸簡而言之,可以通過以下簡單等式很好地總結訓練有素的回歸模型:Y=f(X)。其中,Y對應量化輸出變量,X指輸入變量,f指計算輸出值作為輸入特征的映射函數(從訓練模型中得到)。上面的回歸例子公式的實質是,如果X已知,就可以推導出Y。一旦Y被計算出來(我們也可以說是“預測”),一個流行的可視化方式是將實際值與預測值做一個簡單的散點圖

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論