機(jī)器學(xué)習(xí)原理及應(yīng)用 課件 第一章 緒論_第1頁
機(jī)器學(xué)習(xí)原理及應(yīng)用 課件 第一章 緒論_第2頁
機(jī)器學(xué)習(xí)原理及應(yīng)用 課件 第一章 緒論_第3頁
機(jī)器學(xué)習(xí)原理及應(yīng)用 課件 第一章 緒論_第4頁
機(jī)器學(xué)習(xí)原理及應(yīng)用 課件 第一章 緒論_第5頁
已閱讀5頁,還剩27頁未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

第一章緒論思維導(dǎo)圖1.1機(jī)器學(xué)習(xí)的定義機(jī)器學(xué)習(xí)(MachineLearning)是一種人工智能(AI)分支,關(guān)注如何設(shè)計(jì)和開發(fā)算法和模型,使計(jì)算機(jī)系統(tǒng)能夠從數(shù)據(jù)中學(xué)習(xí),不斷改進(jìn)和優(yōu)化,以完成特定任務(wù),而無須明確的程序指令。數(shù)據(jù)驅(qū)動(dòng)自動(dòng)學(xué)習(xí)泛化能力任務(wù)多樣性迭代改進(jìn)1.2機(jī)器學(xué)習(xí)的發(fā)展歷史(1)起始階段(1950s—1960s):開始探索用機(jī)器來模擬人類智能的可能性,如邏輯推理和符號(hào)處理知識(shí)表達(dá)與專家系統(tǒng)(1970s—1980s):基于人類專家的知識(shí)構(gòu)建規(guī)則來做推理。連接主義與神經(jīng)網(wǎng)絡(luò)(1980s—1990s):通過模擬人腦神經(jīng)元的連接方式,研究人員開發(fā)出一些用于模式識(shí)別和分類任務(wù)的神經(jīng)網(wǎng)絡(luò)模型。統(tǒng)計(jì)機(jī)器學(xué)習(xí)(1990s—2000s):統(tǒng)計(jì)方法在機(jī)器學(xué)習(xí)中變得更加流行。支持向量機(jī)(SVM)、決策樹、隨機(jī)森林等算法被廣泛應(yīng)用于分類、回歸和聚類問題。深度學(xué)習(xí)復(fù)興(2010s):隨著大規(guī)模數(shù)據(jù)集和強(qiáng)大的計(jì)算資源的可用性,深度學(xué)習(xí)在圖像識(shí)別、自然語言處理、語音識(shí)別等領(lǐng)域取得了突破性成果。特別是卷積神經(jīng)網(wǎng)絡(luò)(CNN)和循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)等架構(gòu)對(duì)這一進(jìn)展起到了關(guān)鍵作用。強(qiáng)化學(xué)習(xí)和自動(dòng)化(2010s—至今):強(qiáng)化學(xué)習(xí)關(guān)注智能體如何在環(huán)境中采取行動(dòng)以最大化累積獎(jiǎng)勵(lì)。這個(gè)領(lǐng)域在游戲、機(jī)器人控制和金融交易等領(lǐng)域有著廣泛應(yīng)用。解釋性和可解釋性(2010s—至今):隨著機(jī)器學(xué)習(xí)應(yīng)用的增多,人們開始關(guān)注模型的解釋性和可解釋性。特別是在涉及法律、醫(yī)療等對(duì)解釋性有要求的領(lǐng)域,解釋模型的決策過程變得至關(guān)重要。1.2機(jī)器學(xué)習(xí)的發(fā)展歷史(2)1.3機(jī)器學(xué)習(xí)的分類監(jiān)督學(xué)習(xí)無監(jiān)督學(xué)習(xí)半監(jiān)督學(xué)習(xí)強(qiáng)化學(xué)習(xí)根據(jù)學(xué)習(xí)方式:1.3.1

監(jiān)督學(xué)習(xí)監(jiān)督學(xué)習(xí)是指在給定輸入和輸出數(shù)據(jù)的情況下,學(xué)習(xí)輸入與輸出之間的映射關(guān)系,以便對(duì)未知數(shù)據(jù)進(jìn)行預(yù)測(cè)。輸入數(shù)據(jù)通常稱為特征輸出數(shù)據(jù)通常稱為標(biāo)簽或目標(biāo)變量監(jiān)督是指已經(jīng)知道訓(xùn)練數(shù)據(jù)中期待的標(biāo)簽帶有離散分類標(biāo)簽的監(jiān)督學(xué)習(xí)任務(wù)被稱為分類任務(wù)帶有連續(xù)的數(shù)值標(biāo)簽的監(jiān)督學(xué)習(xí)任務(wù)被稱為回歸任務(wù)監(jiān)

學(xué)

習(xí)

程1.用于預(yù)測(cè)離散結(jié)果的分類給定新的數(shù)據(jù)x1和x2的值,可以通過此決策邊界對(duì)其進(jìn)行預(yù)測(cè)預(yù)

測(cè)

別0250個(gè)訓(xùn)練樣本34個(gè)標(biāo)簽為負(fù)類(0)16個(gè)標(biāo)簽為正類(1)紅色虛線為決策邊界訓(xùn)

練012.用于預(yù)測(cè)連續(xù)結(jié)果的回歸給定新的數(shù)據(jù)x的值,通過直線可以得到預(yù)測(cè)的連續(xù)數(shù)據(jù)均方誤差:(真實(shí)值-預(yù)測(cè)值)2預(yù)

測(cè)

歸02藍(lán)色圓圈:訓(xùn)練數(shù)據(jù)紅色直線:擬合直線訓(xùn)

練011.3.2無監(jiān)督學(xué)習(xí)無監(jiān)督學(xué)習(xí)是關(guān)注從無標(biāo)簽數(shù)據(jù)中發(fā)現(xiàn)模式、結(jié)構(gòu)和關(guān)系,而無須提供明確的輸出標(biāo)簽。算法的目標(biāo)是從數(shù)據(jù)中學(xué)習(xí)數(shù)據(jù)的內(nèi)在結(jié)構(gòu),以便進(jìn)行數(shù)據(jù)的聚類、降維、密度估計(jì)等任務(wù)。與監(jiān)督學(xué)習(xí)不同,無監(jiān)督學(xué)習(xí)沒有預(yù)先標(biāo)記的輸出結(jié)果無監(jiān)督學(xué)習(xí)通常用于探索數(shù)據(jù)的特征、發(fā)現(xiàn)隱藏的關(guān)系,以及生成新的有關(guān)數(shù)據(jù)的見解。1.用聚類尋找子群分為4個(gè)簇紅色五角星為聚類中心聚

果02簇內(nèi)的數(shù)據(jù)點(diǎn)應(yīng)該盡可能相似,而簇之間的數(shù)據(jù)點(diǎn)應(yīng)該有明顯的差異。聚

類01在市場(chǎng)分析中,將購買行為相似的客戶劃分為不同的市場(chǎng)細(xì)分,以便更好地定位市場(chǎng)營銷策略;在社交網(wǎng)絡(luò)中,識(shí)別具有相似興趣和關(guān)系的用戶群體;在圖像分割中,將圖像中相似顏色和紋理的像素分組,從而實(shí)現(xiàn)圖像的分割。2.2.通過降維壓縮數(shù)據(jù)無監(jiān)督降維是特征預(yù)處理中一種常用的數(shù)據(jù)去噪方法,用于減少數(shù)據(jù)的特征維度,保留最重要的信息,同時(shí)降低數(shù)據(jù)的復(fù)雜性。無監(jiān)督降維02高維數(shù)據(jù)指的是具有大量特征(維度)的數(shù)據(jù)集。高維數(shù)據(jù)集011.3.3半監(jiān)督學(xué)習(xí)在半監(jiān)督學(xué)習(xí)中,訓(xùn)練數(shù)據(jù)集同時(shí)包含有標(biāo)簽(已標(biāo)記)和無標(biāo)簽(未標(biāo)記)的樣本。目標(biāo)是利用這些未標(biāo)記樣本的信息來提高模型的性能和泛化能力。自訓(xùn)練(Self-Training)偽標(biāo)簽(Pseudo-Labeling)圖半監(jiān)督學(xué)習(xí)半監(jiān)督SVM生成模型半監(jiān)督學(xué)習(xí)1.3.3半監(jiān)督學(xué)習(xí)---自訓(xùn)練(Self-Training)使用已標(biāo)記數(shù)據(jù)訓(xùn)練初始模型,然后使用這個(gè)模型來預(yù)測(cè)未標(biāo)記數(shù)據(jù)的標(biāo)簽,并將其作為新的已標(biāo)記數(shù)據(jù)。這樣迭代多次,逐漸提高模型性能。自訓(xùn)練的一般步驟如下:

初始模型訓(xùn)練:使用帶標(biāo)簽的數(shù)據(jù)標(biāo)記未標(biāo)記的數(shù)據(jù):利用初始模型對(duì)未標(biāo)記的數(shù)據(jù)進(jìn)行預(yù)測(cè),得到每個(gè)樣本的類別預(yù)測(cè)概率或類別標(biāo)簽。

再訓(xùn)練模型:將帶有偽標(biāo)簽的未標(biāo)記數(shù)據(jù)與帶標(biāo)簽的數(shù)據(jù)一起,作為新的訓(xùn)練數(shù)據(jù),對(duì)模型進(jìn)行再訓(xùn)練。重復(fù)步驟2和3:迭代執(zhí)行步驟2和3,直到收斂或達(dá)到預(yù)設(shè)的迭代次數(shù)。1.3.3半監(jiān)督學(xué)習(xí)---偽標(biāo)簽(Pseudo-Labeling)偽標(biāo)簽方法類似于自訓(xùn)練,但在每次迭代時(shí),將模型對(duì)未標(biāo)記數(shù)據(jù)的預(yù)測(cè)作為“偽標(biāo)簽”來處理。這樣可以將未標(biāo)記數(shù)據(jù)轉(zhuǎn)化為帶標(biāo)簽的數(shù)據(jù),并與已標(biāo)記數(shù)據(jù)一起訓(xùn)練模型。自訓(xùn)練的一般步驟如下:

初始模型訓(xùn)練:使用帶標(biāo)簽的數(shù)據(jù)

標(biāo)記未標(biāo)記的數(shù)據(jù):利用初始模型對(duì)未標(biāo)記的數(shù)據(jù)進(jìn)行預(yù)測(cè),通常會(huì)選擇預(yù)測(cè)概率高于某個(gè)閾值或置信度高的樣本,將其視為可靠的偽標(biāo)簽。(篩選)

再訓(xùn)練模型:將帶有偽標(biāo)簽的未標(biāo)記數(shù)據(jù)與帶標(biāo)簽的數(shù)據(jù)一起,作為新的訓(xùn)練數(shù)據(jù),對(duì)模型進(jìn)行再訓(xùn)練。重復(fù)步驟2和3:迭代執(zhí)行步驟2和3,直到收斂或達(dá)到預(yù)設(shè)的迭代次數(shù)。1.3.4強(qiáng)化學(xué)習(xí)強(qiáng)化學(xué)習(xí)是一種機(jī)器學(xué)習(xí)方法,它通過智能體(Agent)與環(huán)境的交互,在不斷試錯(cuò)中學(xué)習(xí)如何采取行動(dòng)以最大化獎(jiǎng)勵(lì)信號(hào),從而實(shí)現(xiàn)自主決策。定義環(huán)境初始化選擇動(dòng)作與環(huán)境交互更新策略迭代學(xué)習(xí)訓(xùn)練終止評(píng)估性能它不需要給定數(shù)據(jù)的標(biāo)簽或類別,也不需要直接對(duì)數(shù)據(jù)進(jìn)行處理,而是通過智能體與環(huán)境的交互,學(xué)習(xí)如何從環(huán)境中獲取最大的獎(jiǎng)勵(lì)信號(hào)。以一個(gè)智能體學(xué)習(xí)在迷宮中找到寶藏為例來說明強(qiáng)化學(xué)習(xí)的過程:1.4

基本術(shù)語與符號(hào)(1)標(biāo)簽Dataset也稱為類別或目標(biāo)變量,是描述數(shù)據(jù)的一個(gè)變量FeatureLabel特征也稱為屬性,是描述數(shù)據(jù)的一些量。數(shù)據(jù)集機(jī)器學(xué)習(xí)模型需要從數(shù)據(jù)中學(xué)習(xí),數(shù)據(jù)集是機(jī)器學(xué)習(xí)模型使用的數(shù)據(jù)集合。1.4

基本術(shù)語與符號(hào)(2)模型TrainingSet模型是根據(jù)訓(xùn)練數(shù)據(jù)學(xué)習(xí)到的數(shù)據(jù)模式和規(guī)律的表示。它可以用于進(jìn)行預(yù)測(cè)、分類、聚類等任務(wù)。TestSetModel測(cè)試集測(cè)試集是用于評(píng)估機(jī)器學(xué)習(xí)模型性能的數(shù)據(jù)子集。模型在測(cè)試集上進(jìn)行預(yù)測(cè),以衡量其在未見過的數(shù)據(jù)上的泛化能力。(高考真題)訓(xùn)練集訓(xùn)練集是用于訓(xùn)練機(jī)器學(xué)習(xí)模型的數(shù)據(jù)子集。模型根據(jù)訓(xùn)練集中的樣本學(xué)習(xí)數(shù)據(jù)的模式和規(guī)律。(高考模擬題)1.4

基本術(shù)語與符號(hào)(3)特征工程Training特征工程是指選擇、提取、轉(zhuǎn)換和創(chuàng)造特征,以改善模型的性能和泛化能力。TestingFeatureEngineering測(cè)試使用訓(xùn)練好的模型對(duì)未知數(shù)據(jù)進(jìn)行預(yù)測(cè)的過程。訓(xùn)練使用數(shù)據(jù)集來學(xué)習(xí)模型的過程。1.4

基本術(shù)語與符號(hào)(4)標(biāo)簽OverfittingUnderfitting欠擬合指機(jī)器學(xué)習(xí)模型在訓(xùn)練集和測(cè)試集上表現(xiàn)都不好的情況,這是因?yàn)槟P瓦^于簡(jiǎn)單,無法捕捉數(shù)據(jù)中的復(fù)雜性和變化。過擬合指機(jī)器學(xué)習(xí)模型在訓(xùn)練集上表現(xiàn)非常好,但在測(cè)試集上表現(xiàn)不佳的情況,這是因?yàn)槟P瓦^度擬合了訓(xùn)練集中的噪聲和隨機(jī)性。1.4.2基本符號(hào)1.5機(jī)器學(xué)習(xí)的過程1.6

將Python用于機(jī)器學(xué)習(xí)Python作為一種編程語言,為機(jī)器學(xué)習(xí)提供了便捷的實(shí)現(xiàn)工具。語法簡(jiǎn)潔易懂豐富的庫和框架跨平臺(tái)易于集成龐大的社區(qū)支持搭建實(shí)驗(yàn)環(huán)境1.6.1安裝Python解釋器1.6.2安裝PyCharm1.6.3安裝Anaconda/downloads/windows/https://www.jetbrains.com/pycharm/download/CommunityEdition是免費(fèi)的/products/distribution1.6.4用于科學(xué)計(jì)算、數(shù)據(jù)科學(xué)和機(jī)器學(xué)習(xí)的軟件包NumPy:一個(gè)用于科學(xué)計(jì)算的庫,提供了高性能的多維數(shù)組對(duì)象及其相關(guān)操作。pandas:一個(gè)用于數(shù)據(jù)處理和分析的庫,提供了數(shù)據(jù)結(jié)構(gòu)和函數(shù),用于處理結(jié)構(gòu)化數(shù)據(jù)。Matplotlib:一個(gè)數(shù)據(jù)可視化庫,支持繪制各種圖表,如折線圖、散點(diǎn)圖、柱狀圖等。011.6.4用于科學(xué)計(jì)算、數(shù)據(jù)科學(xué)和機(jī)器學(xué)習(xí)的軟件包Seaborn:Seaborn是基于Matplotlib的高級(jí)繪圖庫,專注于統(tǒng)計(jì)數(shù)據(jù)可視化。scikit-learn:一個(gè)提供了各種機(jī)器學(xué)習(xí)算法的庫,如分類、回歸、聚類、降維等。TensorFlow:Google開發(fā)的一個(gè)開源機(jī)器學(xué)習(xí)框架,可以用于構(gòu)建、訓(xùn)練和部署深度學(xué)習(xí)模型。021.6.4用于科學(xué)計(jì)算、數(shù)據(jù)科學(xué)和機(jī)器學(xué)習(xí)的軟件包Keras:一個(gè)基于TensorFlow的高級(jí)神經(jīng)網(wǎng)絡(luò)API,提供了簡(jiǎn)潔易用的界面,用于構(gòu)建和訓(xùn)練深度學(xué)習(xí)模型。PyTorch:Facebook開發(fā)的一個(gè)開源機(jī)器學(xué)習(xí)框架,提供了靈活且易用的深度學(xué)習(xí)API。XGBoost:一個(gè)高效的梯度提升樹(GradientBoostingTree)實(shí)現(xiàn),適用于各種監(jiān)督學(xué)習(xí)任務(wù)。LightGBM:一個(gè)高效的梯度提升樹實(shí)現(xiàn),具有較低的內(nèi)存占用和更快的訓(xùn)練速度。spaCy:一個(gè)用于自然語言處理的庫,提供了詞性標(biāo)注、命名實(shí)體識(shí)別、依存關(guān)系解析等功能。03使用scikit-learn庫進(jìn)行鳶尾花分類任務(wù)(1)#導(dǎo)入所需的庫importnumpyasnpfromsklearn.datasetsimportload_irisfromsklearn.model_selectionimporttrain_test_splitfromsklearn.preprocessingimportStandardScalerfromsklearn.neighborsimportKNeighborsClassifierfromsklearn.metricsimportaccuracy_score#加載數(shù)據(jù)iris=load_iris()X=iris.datay=iris.target#劃分訓(xùn)練集和測(cè)試集X_train,X_test,y_train,y_test=train_test_split(X,y,test_size=0.3,random_state=42)python代碼實(shí)現(xiàn)使用scikit-learn庫進(jìn)行鳶尾花分類任務(wù)(1)#數(shù)據(jù)預(yù)處理scaler=StandardScaler()X_train=scaler.fit_transform(X_train)X_test=scaler.

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論