




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
3-1認識機器學習模塊?線性回歸:預測未來趨勢目錄CONTENTS機器如何學習01機器學習算法02一.機器如何學習1.機器學習的一般流程機器通過學習,就具備了可以自主獲得事物規(guī)律或解決問題的能力一.機器如何學習2.機器學習的三要素經(jīng)驗數(shù)據(jù)從哪學?算法怎么學?模型學到什么?以算力作為支撐二.機器學習算法1.監(jiān)督學習所謂監(jiān)督學習:是指機器在有已知輸入值xi和輸出值y的經(jīng)驗數(shù)據(jù)(樣本)的情況下開展的學習。學習方法特點:(1)訓練的數(shù)據(jù)有標簽(label)。(2)樣本的特征和標簽已知。(3)學習的目的就是建立一個將輸入準確映射到輸出的模型。基于動物特征的貓鼠分類的監(jiān)督學習二.機器學習算法2.無監(jiān)督學習無監(jiān)督學習:就是指機器在學習過程中不受監(jiān)督,學習模型不斷提高自我認知和不斷鞏固,最后進行自我歸納來達到學習目的。學習方法特點:(1)無需大量的標注數(shù)據(jù)。(2)以更接近人類的學習方式不斷自我發(fā)現(xiàn)、學習和調(diào)整。不同分類結(jié)果的無監(jiān)督學習人工智能基礎與應用Thankyouverymuch!3-2認識線性回歸模塊?線性回歸:預測未來趨勢目錄CONTENTS線性回歸的數(shù)學表達式01梯度下降法03線性回歸的幾個概念02一.線性回歸的數(shù)學表達式定義及表達式線性回歸(linearregression)是一種通過擬合自變量xi與因變量y之間的最佳線性關(guān)系,來預測目標變量的方法。如果上式中只包括一個自變量x和一個因變量y,且二者的關(guān)系可用一條直線近似表示,則這種回歸分析被稱為一元線性回歸分析。如果回歸分析中包括兩個或兩個以上的自變量xi,且因變量y和自變量xi之間是線性關(guān)系,則稱其為多元線性回歸分析。二.線性回歸的幾個概念1.方差衡量誤差真實值:預測值:y二.線性回歸的幾個概念2.總平方和SST:衡量了所有觀測值相對于整體均值的離散程度。其值越大,說明原始的樣本本身具有越大的波動,這種波動反映了因變量的整體偏差。如何評價上述直線對真實值擬合的好壞程度二.線性回歸的幾個概念3.擬合優(yōu)度R2:稱為判斷系數(shù)或擬合優(yōu)度。由右式可知,線性回歸方程以外的其他因素引起的誤差SSE越小,R2就越接近1,表示此線性回歸方程可以很好地解釋因變量的變化;反之,如果SSE越大,接近總體偏差SST,R2就越接近0,說明此問題可能不適合采用線性回歸模型解決。盡可能最小y=+三.梯度下降法1.定義?梯度下降法:?是一種用于求解函數(shù)最小值的優(yōu)化算法。其基本思想是通過迭代的方式,沿著函數(shù)的負梯度方向逐步減小函數(shù)值,直到達到局部最小值。梯度下降法適用于求解無約束優(yōu)化問題,常用于機器學習中的參數(shù)優(yōu)化。損失函數(shù)L可以理解為系數(shù)b和w的函數(shù),記為尋找損失函數(shù)L(b,w)的最小值的過程,實際就是按照某種方向,不斷去微調(diào)b和w的值,一步一步嘗試找到這個最小值。Min()三.梯度下降法2.求解過程三.梯度下降法3.線性回歸解決問題一般步驟01根據(jù)問題構(gòu)建一個線性回歸模型,即構(gòu)建一個函數(shù)。02用樣本訓練模型,使用梯度下降法調(diào)整模型參數(shù),目標使損失函數(shù)最小。03重復步驟(2),直至找到損失函數(shù)的最小值。04用驗證集測試模型的精度,評價指標常為均方誤差MSE。05如預測結(jié)果不滿意,則需要改進模型(如加大訓練集、改變學習率等)。06回到步驟(2),重新訓練模型,直至獲得滿意的模型。07利用自變量xi和滿意的模型去計算預測值y,從而解決預測問題。人工智能基礎與應用Thankyouverymuch!3-3項目1—預測二手車價格模塊?線性回歸:預測未來趨勢目錄CONTENTS提出問題01預備知識03解決方案02任務1—準備訓練集和測試集04任務3—模型的測試及評估06任務2—模型的構(gòu)建與訓練05一.提出問題問題描述
市面上二手車種類繁多,又涉及到汽車的諸多專業(yè)知識,對于多數(shù)人而言,購買一輛與實際價格相符、車型適中的二手車,并不是一件輕松的事情。如果能從二手車交易的歷史記錄中發(fā)現(xiàn)某種規(guī)律,如何合理評估一臺二手車的預交易價格呢?讓機器幫你找到這個問題的答案二.解決方案1.問題本質(zhì)二手車價格預測問題,其實是尋找二手車的基本特征(如汽車品牌、變速箱類型、已使用年限等)與價格之間的關(guān)系多元線性回歸的機器學習問題二.解決方案2.解決方案三.預備知識1.數(shù)據(jù)歸一化(1)min-max標準化(2)零均值標準化三.預備知識2.線性回歸模型如何訓練1)定義模型:假設有9個自變量x(品牌、車身類型等)影響二手車的價格,模型的輸出值是價格y。因此,模型的假設函數(shù)表達式如下。2)構(gòu)造損失函數(shù):
3)開始訓練:初始化參數(shù),包括參數(shù)φ、學習率和迭代次數(shù)n。將樣本數(shù)據(jù)輸入模型,計算損失函數(shù)。利用學習算法如梯度下降法尋找損失函數(shù)的最小值,并依次更新模型的參數(shù)。不斷重復步驟(2)、(3),直到模型收斂于或訓練迭代次數(shù)達到設定閾值n即停止。四.任務1——準備訓練集和測試集1.樣本數(shù)據(jù)結(jié)構(gòu)四.任務1——準備訓練集和測試集2.數(shù)據(jù)集歸一化處理切分數(shù)據(jù)切分數(shù)據(jù)四.任務1——準備訓練集和測試集2.數(shù)據(jù)集歸一化處理歸一化后的樣本數(shù)據(jù)四.任務1——準備訓練集和測試集3.數(shù)據(jù)集分成訓練集和測試集訓練集測試集五.任務2——模型的構(gòu)建與訓練1.了解模型參數(shù)五.任務2——模型的構(gòu)建與訓練2.代碼實現(xiàn)構(gòu)建模型五.任務2——模型的構(gòu)建與訓練2.代碼實現(xiàn)模型訓練后的結(jié)果為啥模型得分不高?六.任務3——模型的測試及評估1.計算均方誤差代碼執(zhí)行后的結(jié)果六.任務3——模型的測試及評估2.繪制預測效果圖實現(xiàn)代碼六.任務3——模型的測試及評估2.繪制預測效果圖運行結(jié)果六.任務3——模型的測試及評估3.誤差原因分析01異常值對預測結(jié)果的影響。02樣本集特征值個數(shù)過少對預測結(jié)果的影響。03樣本的規(guī)模對預測結(jié)果的影響。04其它,如模型類型等。人工智能基礎與應用Thankyouverymuch!3-4項目2—預測投保人醫(yī)療費用模塊?線性回歸:預測未來趨勢目錄CONTENTS提出問題01預備知識03解決方案02任務1—加載數(shù)據(jù)并進行數(shù)據(jù)預處理04任務3—進一步改善模型性能06任務2—訓練和測試醫(yī)療費用預測模型05一.提出問題問題描述我國農(nóng)村醫(yī)療保險和全民醫(yī)保制度的全面實施,緩解了廣大人民群眾“看病貴”的問題,提高了人民群眾的生活質(zhì)量,也改變了人們對保險的認識,越來越多人的接受和認可商業(yè)保險。與此同時,醫(yī)療保險公司作為一種商業(yè)經(jīng)營實體,對投保人在未來可能發(fā)生的醫(yī)療費用進行預測,這是醫(yī)療保險公司回避風險、提高經(jīng)營利潤的一種保障措施。如何能得到一個較為精準的醫(yī)療費用預測模型呢機器如何去學習預測?二.解決方案1.問題本質(zhì)醫(yī)療費用預測問題,就是試圖從投保人的特征變量入手,通過機器學習提供的某種模型,如線性回歸等,來尋找一個醫(yī)療費用與投保人特征相關(guān)的函數(shù)表達式。仍然采用多元線性回歸來求解問題二.解決方案2.解決方案三.預備知識1.DataFrame數(shù)據(jù)的檢索用途:從數(shù)據(jù)集中切分出需要的數(shù)據(jù)loc方法使用名稱檢索iloc方法使用索引號檢索三.預備知識1.DataFrame數(shù)據(jù)的檢索示例:運行結(jié)果三.預備知識2.DataFrame數(shù)據(jù)的更改1)按索引條件直接更改:結(jié)果三.預備知識2.DataFrame數(shù)據(jù)的更改2)用apply方法更改:結(jié)果四.任務1——加載數(shù)據(jù)并進行數(shù)據(jù)預處理1.導入相關(guān)庫并加載數(shù)據(jù)讀取的數(shù)據(jù)四.任務1——加載數(shù)據(jù)并進行數(shù)據(jù)預處理2.數(shù)據(jù)清洗和轉(zhuǎn)換對數(shù)據(jù)進行轉(zhuǎn)換,以方便機器學習四.任務1——加載數(shù)據(jù)并進行數(shù)據(jù)預處理3.數(shù)據(jù)的歸一化處理歸一化后的樣本數(shù)據(jù)五.任務2——訓練和測試醫(yī)療費用預測模型1.構(gòu)建線性回歸模型構(gòu)建線性回歸模型五.任務2——訓練和測試醫(yī)療費用預測模型2.準備訓練集和測試集按7∶3的比例分為訓練集和測試集五.任務2——訓練和測試醫(yī)療費用預測模型3.模型訓練和測試運行結(jié)果五.任務2——訓練和測試醫(yī)療費用預測模型4.預測結(jié)果可視化可視化結(jié)果六.任務3——進一步改善模型性能1.改進方向01分析樣本特征的相關(guān)性。Age與bmi強相關(guān)六.任務3——進一步改善模型性能1.改進方向02考慮模型中是否存在非線性變量。處理辦法六.任務3——進一步改善模型性能1.改進方向03評估連續(xù)性變量的影響是否也是連續(xù)的。處理辦法六.任務3——進一步改
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 江蘇省大豐市2025屆初三第一次十校聯(lián)考(語文試題)試題含解析
- 吳江市2024-2025學年數(shù)學四年級第二學期期末調(diào)研試題含解析
- 廣告設計承包合同
- 柳州市鹿寨縣2025年數(shù)學三下期末聯(lián)考模擬試題含解析
- 智慧農(nóng)業(yè)農(nóng)田生態(tài)系統(tǒng)的未來趨勢
- 版二手房代理銷售合同
- 2025年度公立醫(yī)院房地產(chǎn)租賃合同目錄
- 統(tǒng)編版三年級語文下冊第一單元測試卷(B)(含答案)
- 河南省安陽市滑縣師達學校2024-2025學年七年級下學期期中地理試題(A)(含答案)
- 2024-2025學年度江西省南昌新民外語學校高一下學期期中考試歷史試題(含答案)
- GB/T 25085.1-2024道路車輛汽車電纜第1部分:術(shù)語和設計指南
- 2024新版《藥品管理法》培訓課件
- 制冷與空調(diào)設備運行操作作業(yè)安全技術(shù)實際操作考試標準
- 安踏組織架構(gòu)分析
- 2024新版(閩教版)三年級英語上冊單詞帶音標
- 有限空間中毒窒息事故警示教育
- 2024年國家公務員考試《行測》真題卷(行政執(zhí)法)答案和解析
- DB12∕T 947-2020 城市道路交通指引標志設置規(guī)范
- 生豬屠宰獸醫(yī)衛(wèi)生檢驗人員理論考試題庫及答案
- ISO9001-ISO14001-ISO45001三體系內(nèi)部審核檢查表
- T-SHZSAQS 00278-2024 智慧農(nóng)場水肥一體化系統(tǒng)運行技術(shù)規(guī)程
評論
0/150
提交評論