《機器學習-Python實戰(微課版)》全套教學課件_第1頁
《機器學習-Python實戰(微課版)》全套教學課件_第2頁
《機器學習-Python實戰(微課版)》全套教學課件_第3頁
《機器學習-Python實戰(微課版)》全套教學課件_第4頁
《機器學習-Python實戰(微課版)》全套教學課件_第5頁
已閱讀5頁,還剩658頁未讀 繼續免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

第一章機器學習入門基礎第1章機器學習入門基礎第2章機器學習數學基礎第3章線性回歸第4章樸素貝葉斯第5章決策樹算法第6章Logistic回歸第7章支持向量機第8章?隨機森林第9章AdaBoost第10章聚類第11章降維技術與關聯規則挖掘第12章神經網絡綜合案例1綜合案例2綜合案例3全套可編輯PPT課件本章主要講述機器學習相關的概念、基本框架、實施流程以及應用領域等。通過本章學習可以:熟悉機器學習的相關概念理解機器學習的原理熟悉機器學習的四種類型掌握機器學習的實施流程了解機器學習的應用領域了解機器學習的開發工具學習目標機器學習的概念人工智能、機器學習、深度學習的關系機器學習的概念機器學習的原理機器學習的四種類型機器學習的實施流程機器學習的應用領域機器學習的開發工具Python人工智能、機器學習、深度學習的關系1、機器學習和深度學習都屬于AI的范疇2、機器學習是AI的一個分支技術3、深度學習是機器學習里的特定分支技術總結:三者是包含關系,不沖突也不并列機器學習的概念人工智能、機器學習、深度學習的關系機器學習的概念機器學習的原理機器學習的四種類型機器學習的實施流程機器學習的應用領域機器學習的開發工具Python機器學習的概念美國作家PeterHarrington在他的《機器學習實戰》一書中是這么說的:“機器學習就是把無數的數據轉換成有用的信息。”機器學習的概念英國作家PeterFlach在他的《機器學習》一書中,把機器學習的概念概括為:“使用正確的特征來構建正確的模型,以完成指定任務”。機器學習的概念人工智能、機器學習、深度學習的關系機器學習的概念機器學習的原理機器學習的四種類型機器學習的實施流程機器學習的應用領域機器學習的開發工具Python經驗規律歸納預測輸入新的問題未來機器學習的原理機器學習,顧名思義就是讓機器進行學習,學習的目的是實現對世界上的人事物進行預測或者判斷,這就是機器學習的主要作用。機器學習的原理小孩子通過不斷地試錯,學會哪些東西能吃,哪些東西不能吃。機器學習的原理機器學習過程機器學習的原理機器學習并不是任何情況下都能預測或者判斷的,也不是每次都能夠判斷準確的,這與數據的特性和準確性有非常大的關系。搜索推薦機器學習的原理醫療機器學習的原理機器學習本質上是一個提高效率的工具。機器學習的本質上是什么?機器學習的概念人工智能、機器學習、深度學習的關系機器學習的概念機器學習的原理機器學習的四種類型機器學習的實施流程機器學習的應用領域機器學習的開發工具Python機器學習的四種類型機器學習可分為四大類:監督學習、無監督學習、半監督學習和增強學習。監督學習:通過學習已有的標記數據樣本構建模型,再利用模型對新的數據進行預測。無監督學習(非監督學習):通過學習沒有標記的數據樣本,發掘未知數據間的隱藏結構關系,從而實現預測。半監督學習:它是一種在預測時,既使用已標記的樣本數據,也使用未標記的樣本數據的方法。增強學習,指通過與環境的交互,以推測和優化實際的動作,從而實現決策。機器學習的四種類型監督學習監督學習是通過學習已有的標記數據樣本構建模型,再利用模型對新的數據進行預測。例如,為了預測某位患者在一年內是否會心臟病發作,監督學習可以利用以前就醫患者的相關數據(包括年齡、體重、身高和血壓)生成一個模型,用來預測心臟病發作的概率。常見的監督學習主要分為回歸和分類兩種形式,回歸可用于預測連續值的結果(如預測未來房價走勢),分類可用于預測離散值的結果(如判斷圖片上的動物是貓還是狗)。機器學習的四種類型無監督學習無監督學習也可稱為非監督學習,通過學習沒有標記的數據樣本,發掘未知數據間的隱藏結構關系,從而實現預測。聚類學習就是一種比較常用的無監督學習,聚類的目的是把相似的對象聚在一起,構成不同的集合,例如基因序列分析等應用。機器學習的四種類型半監督學習半監督學習,它是一種在預測時,既使用已標記的樣本數據,也使用未標記的樣本數據的方法,通常情況下,無標記樣本的數量遠超過有標記樣本,因為有時候獲得有標記數據的成本很高,所以在訓練分類器模型時,先使用部分已經標記的數據,在學習了數據的內在結構聯系以后,再使用大量無標記的數據進一步學得更好的模型,從而實現對數據的有效預測。機器學習的四種類型增強學習所謂增強學習,是通過與環境的交互,以推測和優化實際的動作,從而實現決策。和上述學習類型相比,增強學習法輸入的數據,將直接反饋到模型,與此同時,模型作出相應調整并依據狀態的變化來獲得強化后的信號,從而完成和環境的交互。例如自動駕駛汽車通過不斷與環境交互來學習。在此,我們只需要知道機器學習整體框架的基本概念即可,實際應用場景中,使用最多的主要是監督學習和無監督學習兩大類。機器學習的概念人工智能、機器學習、深度學習的關系機器學習的概念機器學習的原理機器學習的四種類型機器學習的實施流程機器學習的應用領域機器學習的開發工具Python機器學習的實施流程機器學習的一般實施流程,包括數據收集、數據清洗、特征提取與選擇、模型訓練、模型評估測試、模型部署應用等步驟。機器學習的實施流程第一步:數據收集應用機器學習解決問題,在明確目標任務(即明確要解決的問題和業務需求)之后,首先需要進行數據收集。收集數據有多種不同的方式,如制作網絡爬蟲從網站上抽取數據、服務器中存儲的應用數據、設備發送過來的測試數據等,在機器學習任務中使用的數據稱為數據集。典型的數據集類似于一個二維的電子表格或數據庫表,每一行稱為一個數據樣本,每一列的屬性稱為特征(如身高、體重等)序號姓名性別身高(cm)體重(kg)喜歡的顏色1001張三男17560藍色1002李四女16048紅色1003王五男18065黑色1004趙六女16550黑色機器學習的實施流程第二步:數據清洗大部分情況下,收集得到的數據需要經過清洗后才能夠為算法所使用,真實的數據中通常會出現一些數據質量問題,比如:①不完整:數據中缺少屬性或者包含一些缺失的值。②多噪音:數據包含錯誤的記錄或者異常點。③不一致:數據中存在矛盾的、有差異的記錄。序號姓名性別身高(cm)體重(kg)喜歡的顏色1001張三男17560藍色1002李四女160Null紅色1003王五男25065黑色1004趙六女16550趙六機器學習的實施流程第三步:特征提取與選擇對數據進行初步的清洗后,需要將其轉換為一種適合機器學習模型的表示形式,并且轉換后一樣準確地表示數據。例如通過人的身高、體重、喜歡的顏色這些特征屬性來預測性別,我們不會把“藍色”、“紅色”、“黑色”直接輸入給模型,因為機器學習的模型算法均要求輸入的數據必須是數值型的,在此分類問題中,需要將類別數據編碼成為對應的數值表示,可以采用啞編碼,它是一種常用的將特征數字化的方式。序號姓名性別身高(cm)體重(kg)藍色紅色黑色1001張三男175601001002李四女160480101003王五男180650011004趙六女16550001機器學習的實施流程特征選擇的必要性主要在于以下幾點:①減少訓練的時間,能使用較少的特征更快地生成模型。②簡化模型,使模型更容易被使用者所解釋。③使模型的泛化能力更好,避免過擬合。特征選擇的方法有:過濾法(filter)、包裹法(wapper)、嵌入法(Embedded)等。機器學習的實施流程第四步:模型訓練數據經過預處理之后,就可以用來訓練模型,一般會把數據集分為訓練集和測試集,或對訓練集再細分為訓練集和驗證集,訓練模型是在訓練數據集上進行的。在模型訓練過程中,需要對模型超參進行調優,如果不了解算法原理,往往無法快速定位能決定模型優劣的模型參數,所以在訓練過程中,對機器學習算法原理的要求較高,理解越深入,就越容易發現問題的原因,從而快速找到合理的調優方法。機器學習的實施流程第五步:模型評估測試利用訓練數據生成模型后,使用驗證集來驗證模型的有效性,使用測試集來評估模型在真實環境中的泛化能力。如果測試結果不理想,則分析原因并進行模型優化。過擬合、欠擬合是模型診斷中常見的問題,如果出現過擬合(指所訓練的模型在訓練集上表現得非常優秀,可以有效地區分每一個樣本,但在測試集上表現得很差),可以通過增加數據量和降低模型復雜度來優化,如果出現欠擬合(指所訓練的模型在訓練集中就已經表現得很差,準確度很低),可以通過提高特征數量和質量,增加模型復雜度來優化。模型評估針對分類、回歸等不同類型的機器學習問題,評估指標的選擇也有所不同。所以,需要熟悉每種評估指標的精確定義,有針對性地選擇合適的評估指標,并根據評估指標的反饋進行模型調整。一般情況下,模型調整后,需要重新訓練和評估,所以機器學習的模型建立過程就是不斷地嘗試,并最終達到最優狀態。機器學習的實施流程第六步:模型部署應用通過在測試集上完成評估的模型,就可以用來預測新數據的值。這時,需要將該模型部署到實際的生產場景中,并根據業務場景的真實數據對模型進行不斷的微調。機器學習的概念人工智能、機器學習、深度學習的關系機器學習的概念機器學習的原理機器學習的四種類型機器學習的實施流程機器學習的應用領域機器學習的開發工具Python機器學習的應用領域智能汽車智能汽車通過機器學習技術整合物聯網資源,智能了解車主及周邊的環境,自動根據司機的需求靈活調整車內設置,比如座椅位置、溫度、音響,等等;甚至還可以報告故障和智能修復故障。在自動駕駛方面,可以為駕駛者提供交通和道路狀況方面的實時建議及事故預警。機器學習的應用領域氣象預測氣象預報主要分為短時預測和長期預測。短時預測指未來幾小時到幾天不等的天氣預測,長期預測指的是厄爾尼諾(ElNino)、拉尼娜(LaNina)等氣候現象。短期預測通常基于地區內的氣象站所提供的多種實時數據進行分析,如當地的氣溫、濕度、氣壓、風速、雷達圖等,以復雜的物理模型綜合運算得出結果。傳統方法通常需要為模型設定大氣物理的先驗知識,而機器學習方法選擇避開物理因素,嘗試利用大量數據驅動機器從算法訓練中“習得”大氣物理學的原理。目前機器學習在氣象的短期預測領域已有較為成熟的應用,在長期的氣象預測上科學家也正在開發相應的模型來做各種嘗試。機器學習的應用領域個性化營銷推廣商家對顧客越了解,就越能夠為顧客提供更好的服務,因而賣出的東西也就會越多,這是個性化營銷的基礎。我們曾碰到過這樣的情況:在網上商店上瀏覽某件產品,但沒有買,而過了幾天后,再去瀏覽各個不同的網站時都會看到那款產品的數字廣告。這種個性化營銷其實只是冰山一角,企業能夠進行全方位的個性化營銷,如具體給顧客發送什么樣的電子郵件,給他們提供什么樣的優惠券,還有給他們推薦什么產品等等,這一切都是為了提高交易達成的可能性。機器學習的應用領域自然語言處理(NLP)自然語言處理正被用于各個領域的很多項應用當中。有自然語言的機器學習算法能夠替代客戶服務人員,快速地給客戶提供他們所需的信息。它正被用于將合同中艱深晦澀的法律措辭轉變成簡單易懂的普通語言,也被用于幫助律師整理大量的信息,提高案件準備效率。機器學習的應用領域數據安全性惡意軟件是一個越來越嚴峻的問題。2014年,卡巴斯基實驗室稱,它每天檢測到的新惡意軟件文件數量達到32.5萬。不過,以色列深度學習技術公司DeepInstinct公司指出,各個新惡意軟件通常都有跟舊版本一樣的代碼——只有2%到10%的惡意軟件文件出現迭代變化。他們的學習模型能夠辨別那2%到10%的變異惡意軟件,在預測哪些文件是惡意軟件上有著很高的準確率。在其他情況下,機器學習算法能夠發現云端數據如何被訪問方面的模式,能夠報告或可預測安全問題的異常情況。機器學習的概念人工智能、機器學習、深度學習的關系機器學習的概念機器學習的原理機器學習的四種類型機器學習的實施流程機器學習的應用領域機器學習的開發工具Python機器學習的開發工具PythonPython開發環境的搭建使用的工具/環境工具/環境說明Windows1064bit操作系統此項實訓所使用的計算機操作系統Google、火狐等此項實訓所使用的瀏覽器一站式開發環境AnacondaAnaconda是一個基于Python的數據處理和科學計算平臺,它已經內置了許多非常有用的第三方庫,裝上Anaconda,就相當于把Python和一些如Numpy、Pandas、Matplotlib等常用的庫自動安裝好了,使得安裝比常規python安裝要容易。因而建議直接安裝Anaconda。集成開發環境PyCharmPyCharm是一種PythonIDE(IntegratedDevelopmentEnvironment,集成開發環境),帶有一整套可以幫助用戶在使用Python語言開發時提高其效率的工具,比如調試、語法高亮、Project管理、代碼跳轉、智能提示、自動完成、單元測試、版本控制。JupyterNotebookJupyterNotebook的本質是一個Web應用程序,便于創建和共享文學化程序文檔,支持實時代碼,數學方程,可視化和markdown。用途包括:數據清理和轉換,數值模擬,統計建模,機器學習等等。SpyderSpyder是Python(x,y)的作者為它開發的一個簡單的集成開發環境。和其他的Python開發環境相比,它最大的優點就是模仿MATLAB的“工作空間”的功能,可以很方便地觀察和修改數組的值。Spyder的界面由許多窗格構成,用戶可以根據自己的喜好調整它們的位置和大小。當多個窗格出現在一個區域時,將使用標簽頁的形式顯示。1.(單選)通過學習已有的標記數據樣本構建模型,再利用模型對新的數據進行預測,這是屬于哪種機器學習類型?A.監督學習B.無監督學習C.半監督學習D.增強學習

講解人工智能、機器學習、深度學習的關系講解機器學習的原理講解機器學習的基本框架體系講解機器學習的實施流程講解機器學習的應用領域講解機器學習的開發工具謝謝第二章機器學習數學基礎本章主要講述機器學習中相關的數學概念、包括線性代數,多元微積分及概率統計等相關知識。通過本節學習可以:熟悉機器學習中數學的用法熟悉機器學習中線性代數熟悉機器學習中多元微積分熟悉機器學習中概率與統計相關知識點學習目標線性代數向量空間矩陣分析概率與統計多元微積分在機器學習的科學研究與工程實踐中,經常會遇到m*n線性方程組。它使用m個方程描述個n未知量之間的線性關系。這一線性方程組很容易用矩陣-向量形式簡記為:向量空間??1,??2,?,????線性相關

?至少有一個向量可以用其余向量線性表示。??1,??2,?,????線性無關,??1,??2,?,????,??線性相關

???可以由??1,??2,?,????唯一線性表示。??可以由??1,??2,?,????線性表示

???(??1,??2,?,????)=??(??1,??2,?,????,??)。向量組的線性表示設??(????×??)=??,則??的秩??(??)與??的行列向量組的線性相關性關系為:若??(????×??)=??=??,則??的行向量組線性無關。若??(????×??)=??<??,則??的行向量組線性相關。若??(????×??)=??=??,則??的列向量組線性無關。若??(????×??)=??<??,則??的列向量組線性相關。向量組的秩與矩陣的秩之間的關系若??1,??2,?,????與??1,??2,?,????是向量空間??的兩組基,則基變換公式為:其中??是可逆矩陣,稱為由基??1,??2,?,????到基??1,??2,?,????的過渡矩陣。??維向量空間的基變換公式及過渡矩陣線性代數向量空間矩陣分析概率與統計多元微積分A稱為矩陣,是一個按照長方陣列排列的復數或實數集合。x跟b代表n*1向量和m*1向量。矩陣向量矩陣A可以是線性系統、濾波器、無線信道等的符號表示;而科學和工程中遇到的向量可分為三種:物理向量:泛指既有幅值,又有方向的物理量,如速度、加速度、位移等。幾何向量:為了將物理向量可視化,常用帶方向的(簡稱有向)線段表示,這種有向線段稱為幾何向量。代數向量:兒何向量可以用代數形式表示。向量矩陣的加法設??=(

),??=(

)是兩個??×??矩陣,則??×??矩陣??=(

)=

+

稱為矩陣??與??的和,記為??+??=??。矩陣的數乘設??=(aij)是??×??矩陣,??是一個常數,則??×??矩陣(kaij)稱為數??與矩陣??的數乘,記為k??。矩陣的乘法設??=(aij)是??×??矩陣,??=(bij)是??×??矩陣,那么??×??矩陣??=(cij),其中cij=ai1b1j+ai2b2j

+?+ainbnj

=

稱為????的乘積,記為??=????。矩陣線性運算(????)??=??,(????)??=????????,(????)??=??????,(??±??)??=????±????

????、?????、???三者之間的關系??可逆?????=??;?|??|≠0;???(??)=??;

???可以表示為初等矩陣的乘積;

???無零特征值;

?Ax=0只有零解。有關?????的結論這里A,B均可為逆矩陣。分塊求逆公式線性代數向量空間矩陣分析概率與統計多元微積分統計學是研究如何搜集資料、整理資料和進行量化分析、推斷的一門科學,在科學計算、工業和金融等領域有著重要應用,統計分析是機器學習的基本方法與統計分析相關的基本概念有以下幾個總體:根據定目的確定的所要研究事物的全體樣本:從總體中隨機抽取的若干個體構成的集合推斷:以樣本所包含的信息為基礎對總體的某些特征作出判斷、預測和估計推斷可靠性:對推斷結果從概率上的確認,作為決策的重要依據統計分析分為描述性統計和推斷性統計,描述性統計是通過對樣本進行整理、分析并就數據的分布情況獲取有意義的信息,從而得到結論。推斷統計又分為參數估計和假設檢驗,參數估計是對樣本整體中某個數值進行估計,如推斷總體平均數等,而假設檢驗是通過對所做的推斷驗證,從而進擇行才方案統計分析

統計基礎議程

統計基礎議程均值、標準差、方差、協方差均值描述的是樣本集合的平均值標準差描述是樣本集合的各個樣本點到均值的距離分布,描述的是樣本集的分散程度在機器學習中的方差就是估計值與其期望值的統計方差。如果進行多次重復驗證的過程,就會發現模型在訓練集上的表現并不固定,會出現波動,這些波動越大,它的方差就越大協方差主要用來度量兩個隨機變量關系,如果結果為正值,則說明兩者是正相關的;結果為負值,說明兩者是負相關的;如果為0,就是統計上的“相互獨立”統計基礎議程

統計基礎

正則化與交叉驗證L0正則化L1正則化L2正則化HoldOut檢驗簡單交叉檢驗K折交叉檢驗留一交叉檢驗統計基礎議程

常見概率分布議程參數估計是用樣本統計量去估計總體的參數,即根據樣本數據選擇統計量去推斷總體的分布或數字特征。估計參數的目的,是希望用較少的參數去描述數據的總體分布,前提是要了解樣本總體分布(如正態分布),這樣就只需要估計其中參數的值。如果無法確認總體分布,那就要采用非參數估計的方法。參數估計是統計推斷的種基本形式,分為點估計和區間估計兩部分。其中有多種方法,除了最基本的最小二乘法和極大似然法、貝葉斯估計、極大后驗估計,還有矩估計、一致最小方差無偏估計、最小風險估計、最小二乘法、最小風險法和極小化極大熵法等。參數估計議程

假設檢驗議程

假設檢驗議程線性代數向量空間矩陣分析概率與統計多元微積分導數和微分的概念或者導數函數的可導性與連續性之間的關系:函數??(??)在x0處可微???(??)在x0處可導。若函數在點x0處可導,則??=??(??)在點x0處連續,反之則不成立。即函數連續不一定可導。??′(x0)存在???′?(x0)=??′+(x0)高等數學切線方程:法線方程:平面曲線的切線和法線設函數??=??(??),??=??(??)在點??可導,則:??±??′=??′±??′(????)′=????′+????′??(????)=??????+??????四則運算復合函數,反函數,隱函數以及參數方程所確定的函數的微分法反函數的運算法則:設??=??(??)在點??的某鄰域內單調連續,在點??處可導且??′(??)≠0,則其反函數在點??所對應的??處可導,并且有復合函數的運算法則:若??=??(??)在點??可導,而??=??(??)在對應點??(??=??(??))可導,則復合函數??=??(??(??))在點??可導,且復合函數費馬定理若函數??(??)滿足條件:函數??(??)在x0的某鄰域內有定義,并且在此鄰域內恒有??(??)≤??(x0)或??(??)≥??(x0),??(??)在x0處可導,則有??′(x0)=0微分中值定理設函數??(??)滿足條件:在[??,??]上連續;在(??,??)內可導;則在(??,??)內存在一個??,使拉格朗日中值定理設函數??(??),??(??)滿足條件:在[??,??]上連續;在(??,??)內可導且??′(??),??′(??)均存在,且??′(??)≠0則在(??,??)內存在一個??,使柯西中值定理設函數??(??)在(??,??)區間內可導,如果對???∈(??,??),都有??′(??)>0(或??′(??)<0),則函數??(??)在(??,??)內是單調增加的(或單調減少)。(取極值的必要條件)設函數??(??)在??0處可導,且在??0處取極值,則??′(??0)=0。函數單調性的判斷設函數??′(x)在x0的某一鄰域內可微,且??′(??0)=0(或??(??)在x0處連續,但??′(x0)不存在)。若當??經過x0時,??′(??)由“+”變“-”,則??(x0)為極大值;若當??經過x0時,??′(??)由“-”變“+”,則??(x0)為極小值;若??′(x)經過??=??0的兩側不變號,則??(x0)不是極值。設??(??)在點x0處有??″(??)≠0,且??′(??0)=0,則當??′′(x0)<0時,??(x0)為極大值;當??′′(x0)>0時,??(x0)為極小值。注:如果??′′(x0)=0,此方法失效。極值充分條件(凹凸性的判別定理)若在I上??″(??)<0(或??″(??)>0),則??(??)在I上是凸的(或凹的)。(拐點的判別定理1)若在x0處??″(??)=0,(或??″(??)不存在),當??變動經過x0時,??″(??)變號,則(x0,??(x0))為拐點。(拐點的判別定理2)設??(??)在x0點的某鄰域內有三階導數,且??″(??)=0,???(??)≠0,則(x0,??(x0))為拐點。函數凹凸性的判斷(簡答題)如何判斷函數凹凸性。講解機器學習中會用到的高等數學,線性代數及概率論的相關知識。謝謝第三章線性回歸本章主要講述機器學習中回歸概念,并展開介紹線性回歸。通過本節學習可以:熟悉機器學習中線性回歸熟悉一元線性回歸掌握梯度下降方法熟悉多元線性回歸及非線性回歸學習目標一元線性回歸代價函數梯度下降法標準方程法多元線性回歸非線性回歸介紹利用該數據集,我們可以訓練一個線性方程,無限逼近所有數據點,然后利用該方程與給定的某一自變量(本例中為面積),可以預測因變量。(本例中為房價)回歸分析案例

預測二手車價格的系統。該系統的輸入是我們認為會影響車價的屬性信息:品牌、年齡、發動機性能、里程以及其他信息。輸出是車的價格。這種輸出為數值的問題是回歸問題。回歸預測線性回歸是種通過擬合自變量與因變量之間最佳線性關系,來預測目標變量的方法。回歸過程是給出一個樣本集,用函數擬合這個樣本集,使樣本集與擬合函數間的誤差最小。回歸分析包括以下內容:確定輸入變量與目標變量間的回歸模型,即變量間相關關系的數學表達式。根據樣本估計并檢驗回歸模型及未知參數。從眾多的輸入變量中,判斷哪些變量對目標變量的影響是顯著的。根據輸入變量的已知值來估計目標變量的平均值并給出預測精度。線性回歸概念線性回歸的類型包括簡單線性回歸和多元線性回歸。簡單線性回歸使用一個自變量,通過擬合最佳線性關系來預測因變量。多元線性回歸使用多個獨立變量,通過擬合最佳線性關系來預測因變量。線性回歸分類汽車賣家通過電視廣告數量來預測賣出的汽車數量,如下圖所示,可以預測廣告數量為“6”時,賣出的汽車數量是多少。一元線性回歸案例一元線性回歸包含一個自變量(X)和一個因變量(Y)。一元線性回歸方程:這個方程對應的圖像是一條直線,稱作回歸線,其中

是回歸線的截距,是回歸線的斜率,E(y)是在一個給定x值下y的期望值(均值)。一元線性回歸一元線性回歸代價函數梯度下降法標準方程法多元線性回歸非線性回歸介紹法國數學家,阿德里安-馬里·勒讓德(1752-1833)提出讓總的誤差的平方最小的y就是真值,這是基于如果誤差是隨機的,應該圍繞真值上下波動。最小二乘法圖1中各個點沿y軸到那條直線的距離更遠,而圖2中各個點到線的距離更近。損失函數定義在單個樣本上的,計算一個樣本的誤差。代價函數是定義在整個訓練集上的,是所有樣本誤差的平均。公式如下:代價函數(損失函數)一元線性回歸代價函數梯度下降法標準方程法多元線性回歸非線性回歸介紹梯度下降法是一個最優化算法,通常也稱為最速下降法。最速下降法是求解無約束優化問題最簡單和最古老的方法之一,雖然現在已經不具有實用性,但是許多有效算法都是以它為基礎進行改進和修正而得到的。最速下降法是用負梯度方向為搜索方向的,最速下降法越接近目標值,步長越小,前進越慢。可以用于求解非線性方程組。梯度下降假設一個場景:一個人需要從山的某處開始下山,盡快到達山底。在下山之前他需要確認兩件事:下山的方向下山的距離梯度下降步長(Learningrate)特征(feature)假設函數(hypothesisfunction)損失函數(lossfunction)梯度下降相關概念批量梯度下降法(BGD)隨機梯度下降法(SGD)小批量梯度下降法(MBGD)常用梯度下降方法一元線性回歸代價函數梯度下降法標準方程法多元線性回歸非線性回歸介紹假設我們有一個n*n的矩陣,這個矩陣代表著每個因子具體的值,比如有一個關于身高預測的模型,其中一個人的身高的影響因素有:父親升高,母親升高,以及自己年齡的大小。標準方程法每一行代表一組數據,跟我們真實數據很像,每一行第一個是father身高,第二列是mother身高,第三列是孩子現在年齡。得到矩陣:標準方程法一元線性回歸代價函數梯度下降法標準方程法多元線性回歸非線性回歸介紹在線性回歸中,我們通過建立自變量x的一次方程來擬合數據。而非線性回歸中,則需要建立因變量和自變量之間的非線性關系。多元回歸導入線性擬合

非線性擬合機器學習中一種常見的模式,是使用線性模型訓練數據的非線性函數。這種方法保持了一般快速的線性方法的性能,同時允許它們適應更廣泛的數據范圍。在標準線性回歸的情況下,你可能有一個類似于二維數據的模型:

多元回歸介紹如果我們想把拋物面擬合成數據而不是平面,我們可以結合二階多項式的特征,使模型看起來像這樣:仔細觀察這兩個模型會發現,我們可以想象創造一個新的變量:多元回歸有了這些重新標記的數據,我們可以將原多項式問題寫成:因此我們可以將原始數據轉換后再使用線性回歸訓練構成多項式回歸模型,其中PolynomialFeatures方法將數據進行轉換。多元回歸介紹

多元線性回歸案例年份人均耐用消費品支出

y人均全年可支配收入x1耐用消費品價格指數x21988137.161181.4115.961989124.561375.7133.351990107.911510.2128.211991102.961700.6124.851992125.242026.6122.491993162.452577.4129.861994217.433496.2139.521995253.424283.0140.441996251.074838.9139.121997285.855160.3133.351998327.265425.1126.39多元線性回歸案例估計的回歸方程

線性回歸檢驗

議程一元線性回歸代價函數梯度下降法標準方程法多元線性回歸非線性回歸介紹在統計學中,非線性回歸是回歸分析的一種形式,非線性模型是由一個或多個自變量非線性組合。一些常見非線性模型:階躍函數分段函數樣條曲線廣義加性模型非線性回歸非線性回歸是指在因變量與一系列自變量之間建立非線性模型。線性與非線性并不是說因變量與自變量間是直線或曲線關系,而是說因變量是否能用自變量的線性組合來表示。如果經過變量轉換,兩個變量可以用線性來表達去關系,那么可以用之前章節中介紹的方法進行擬合回歸方程。但經過變量變化后,兩個變量關系仍然不能用線性形式來表達,則就會用到本節介紹的非線性回歸分析方法。非線性回歸模型一般可表示為:非線性回歸判斷題:簡單線性回歸使用一個自變量,通過擬合最佳線性關系來預測因變量。(

)講解線性回歸的關系講解梯度下降相關知識講解一元線性回歸、多元線性回歸、非線性回歸謝謝第四章樸素貝葉斯貝葉斯分類是一類分類算法的總稱,這類算法均以貝葉斯定理為基礎,故統稱為貝葉斯分類。而樸素樸素貝葉斯分類是貝葉斯分類中最簡單,也是常見的一種分類方法。通過本節學習可以:學習貝葉斯分類器概念。掌握高斯樸素貝葉斯及多項式樸素貝葉斯。學習目標樸素貝葉斯貝葉斯分類器的分類原理貝葉斯定理貝葉斯定理的一個簡單例子貝葉斯分類的原理與特點樸素貝葉斯分類高斯樸素貝葉斯分類算法高斯樸素貝葉斯分類算法的原理多項式樸素貝葉斯分類算法伯努利樸素貝葉斯分類算法貝葉斯要解決的問題:使正向概率:假設袋子里有N個白球,M個黑球,隨機摸一個,摸出黑球的概率有多大逆向概率:如果事先不知道袋子里黑白球的比例,隨機摸出幾個球,根據這些球的顏色,可以推測袋子里面的黑白球比例。貝葉斯分類器的分類原理用p1(x,y)表示數據點(x,y)屬于類別1(圖中用圓點表示的類別)的概率,用p2(x,y)表示數據點(x,y)屬于類別2(圖中三角形表示的類別)的概率,那么對于一個新數據點(x,y),可以用下面的規則來判斷它的類別:如果p1(x,y)>p2(x,y),那么類別為1如果p2(x,y)>p1(x,y),那么類別為2貝葉斯理論有一個裝了7塊石頭的罐子,其中3塊是白色的,4塊是黑色的。如果從罐子中隨機取出一塊石頭,那么是白色石頭的可能性是多少?由于取石頭有7種可能,其中3種為白色,所以取出白色石頭的概率為3/7。那么取到黑色石頭的概率是4/7。我們使用P(white)來表示取到白色石頭的概率,其概率值可以通過白色石頭數目除以總的石頭數目來得到。條件概率貝葉斯分類:貝葉斯分類是一類分類算法的總稱,這類算法均以貝葉斯定理為基礎,故統稱為貝葉斯分類。先驗概率:根據以往經驗和分析得到的概率。我們用??(??)來代表在沒有訓練數據前假設??擁有的初始概率。后驗概率:根據已經發生的事件來分析得到的概率。以??(??|??)代表假設??成立的情下觀察到??數據的概率,因為它反映了在看到訓練數據??后??成立的置信度。聯合概率:聯合概率是指在多元的概率分布中多個隨機變量分別滿足各自條件的概率。??與??的聯合概率表示為????,??、??(????)或??(??∩??)。假設??和??都服從正態分布,那么??(??<5,??<0)就是一個聯合概率,表示??<5,??<0兩個條件同時成立的概率。表示兩個事件共同發生的概率。貝葉斯方法背景知識貝葉斯公式條件概率的貝葉斯估計:式中

。當

時,是極大似然估計;當

時,稱為拉普拉斯平滑。先驗概率的貝葉斯估計:貝葉斯估計樸素貝葉斯貝葉斯分類器的分類原理貝葉斯定理貝葉斯定理的一個簡單例子貝葉斯分類的原理與特點樸素貝葉斯分類高斯樸素貝葉斯分類算法高斯樸素貝葉斯分類算法的原理多項式樸素貝葉斯分類算法伯努利樸素貝葉斯分類算法樸素貝葉斯法是典型的生成學習方法。生成方法由訓練數據學習聯合概率分布??(??,??),然后求得后驗概率分布??(??|??)。具體來說,利用訓練數據學習??(??|??)和??(??)的估計,得到聯合概率分布:??(??,??)=??(??|??)??(??)貝葉斯公式:貝葉斯定理樸素貝葉斯貝葉斯分類器的分類原理貝葉斯定理貝葉斯定理的一個簡單例子貝葉斯分類的原理與特點樸素貝葉斯分類高斯樸素貝葉斯分類算法高斯樸素貝葉斯分類算法的原理多項式樸素貝葉斯分類算法伯努利樸素貝葉斯分類算法男生總是穿長褲,女生則一半穿長褲一半穿裙子,男生占比60%,女生占比40%:正向概率:隨機選取一個學生,穿長褲的概率和穿裙子的概率是多大?逆向概率:迎面走來一個穿長褲的學生,無法確定該學生的性別,請問該學生是女生的概率有多大?假設學校里面人的總數是U。穿長褲的男生:U*P(Boy)*P(Pants|Boy),P(Boy)是男生的概率=60%。P(Pants|Boy)是條件概率,即在Boy的條件下,穿長褲的概率是多大,這里是100%穿長褲的女生:U*P(Girl)*P(Pants|Girl)。求解:穿長褲的總數:U*P(Boy)*P(Pants|Boy)+U*P(Girl)*P(Pants|Girl)?與總人數有關嗎?貝葉斯案例如果一對男女朋友,男生想女生求婚,男生的四個特點分別是不帥,性格不好,身高矮,不上進,請你判斷一下女生是嫁還是不嫁?貝葉斯案例數學問題就是比較p(嫁|(不帥、性格不好、身高矮、不上進))與p(不嫁|(不帥、性格不好、身高矮、不上進))。解決方法求p(嫁|(不帥、性格不好、身高矮、不上進),這是我們不知道的,但是通過樸素貝葉斯公式可以轉化為好求的三個量,p(不帥、性格不好、身高矮、不上進|嫁)、p(不帥、性格不好、身高矮、不上進)、p(嫁)。其中p(不帥、性格不好、身高矮、不上進|嫁)=p(不帥|嫁)*p(性格不好|嫁)*p(身高矮|嫁)*p(不上進|嫁)。樸素貝葉斯案例公式整理如下:p(嫁)=6/12(總樣本數)=1/2樸素貝葉斯案例p(不帥|嫁)=3/6=1/2在嫁的條件下,看不帥的數據。樸素貝葉斯案例帥性格好身高上進是否嫁不帥好高上進嫁不帥好中上進嫁不帥不好高上進嫁=(1/2*1/6*1/6*1/6*1/2)/(1/3*1/3*7/12*1/3)樸素貝葉斯案例用同樣方法來求p(不嫁|不帥,性格不好,身高矮,不上進)。p(不嫁|不帥、性格不好、身高矮、不上進)=((1/6*1/2*1*1/2)*1/2)/(1/3*1/3*7/12*1/3)(1/6*1/2*1*1/2)>(1/2*1/6*1/6*1/6*1/2)于是有p(不嫁|不帥、性格不好、身高矮、不上進)>p(嫁|不帥、性格不好、身高矮、不上進)。樸素貝葉斯案例樸素貝葉斯貝葉斯分類器的分類原理貝葉斯定理貝葉斯定理的一個簡單例子貝葉斯分類的原理與特點樸素貝葉斯分類高斯樸素貝葉斯分類算法高斯樸素貝葉斯分類算法的原理多項式樸素貝葉斯分類算法伯努利樸素貝葉斯分類算法優點:在數據較少的情況下仍然有效,可以處理多類別問題。缺點:對于輸入數據的準備方式較為敏感。適用數據類型:標稱型數據。貝葉斯原理特點

樸素貝葉斯貝葉斯分類器的分類原理貝葉斯定理貝葉斯定理的一個簡單例子貝葉斯分類的原理與特點樸素貝葉斯分類高斯樸素貝葉斯分類算法高斯樸素貝葉斯分類算法的原理多項式樸素貝葉斯分類算法伯努利樸素貝葉斯分類算法樸素貝葉斯(NaiveBayes)模型,它是一種基于概率的學習方法,“樸素”指的是條件的獨立性。由訓練數據學習聯合概率分布??(??,??),然后求得后驗概率分布??(??|??)。具體來說,利用訓練數據學習??(??|??)和??(??)的估計,得到聯合概率分布:??(??,??)=??(??)??(??|??)概率估計方法是極大似然估計或貝葉斯估計。樸素貝葉斯分類器樸素貝葉斯法的基本假設是條件獨立性。P(X=x|Y=ck)=Px(1),?,x(n)|yk=?jn=1Px(j)|Y=ckck代表類別,k代表類別個數。這是一個較強的假設。由于這一假設,模型包含的條件概率的數量大為減少,樸素貝葉斯法的學習與預測大為簡化。因而樸素貝葉斯法高效,且易于實現。其缺點是分類的性能不一定很高。樸素貝葉斯原理樸素貝葉斯貝葉斯分類器的分類原理貝葉斯定理貝葉斯定理的一個簡單例子貝葉斯分類的原理與特點樸素貝葉斯分類高斯樸素貝葉斯分類算法高斯樸素貝葉斯分類算法的原理多項式樸素貝葉斯分類算法伯努利樸素貝葉斯分類算法高斯樸素貝葉斯適用于連續變量,其假定各個特征

在各個類別y下是服從正態分布的,算法內部使用正態分布的概率密度函數來計算概率。公式如下:其中

:在類別為y的樣本中,特征

的均值。

:在類別為y的樣本中,特征

的標準差。高斯樸素貝葉斯分類算法原理樸素貝葉斯貝葉斯分類器的分類原理貝葉斯定理貝葉斯定理的一個簡單例子貝葉斯分類的原理與特點樸素貝葉斯分類高斯樸素貝葉斯分類算法高斯樸素貝葉斯分類算法的原理多項式樸素貝葉斯分類算法伯努利樸素貝葉斯分類算法多項式貝葉斯基于原始的貝葉斯理論,但假設概率分布是服從一個簡單多項式分布。多項式分布來源于統計學中的多項式實驗,這種實驗可以具體解釋為:實驗包括n次重復試驗,每項試驗都有不同的可能結果。在任何給定的試驗中,特定結果發生的概率是不變的。多項式樸素貝葉斯算法原理測試編號X1:出現正面X2:出現反面001110210樸素貝葉斯貝葉斯分類器的分類原理貝葉斯定理貝葉斯定理的一個簡單例子貝葉斯分類的原理與特點樸素貝葉斯分類高斯樸素貝葉斯分類算法高斯樸素貝葉斯分類算法的原理多項式樸素貝葉斯分類算法伯努利樸素貝葉斯分類算法伯努利樸素貝葉斯分類器主要用于文本分類。伯努利樸素貝葉斯,其實應該叫"Multi-variateNaiveBayes",假設P(X=x|Y=c_k)是多變量伯努利分布。伯努利分布,又叫做兩點分布或0-1分布,是一個離散型概率分布,稱隨機變量X有伯努利分布,參數為p(0<p<1),它分別以概率p和1-p取1和0為值。伯努利樸素貝葉斯分類算法簡答題:樸素貝葉斯的優缺點是什么?本章節從樸素貝葉斯的概念進行切入,展開講解高斯樸素貝葉斯,多項式樸素貝葉斯。謝謝第五章決策樹算法本章主要講述機器學習中決策樹算法概念。通過本節學習可以:熟悉決策樹算法的基礎知識。學習如何給決策樹剪枝等相關知識。學習ID3,C4.5及CART樹等相關知識。了解剪枝的原理。學習目標決策樹分類算法原理以信息論為基礎的分類原理決策樹分類算法框架衡量標準:信息熵決策樹算法的簡化決策樹算法的優、缺點與應用決策樹分類算法決策樹剪枝當信息被擁有它的實體傳遞給接收它的實體時,僅當接收實體不知道信息的先驗知識時信息才得到傳遞。如果接收實體事先知道了消息的內容,這條消息所傳遞的信息量就是0。只有當接收實體對消息的先驗知識掌握少于100%時,消息才真正傳遞信息。信息論

信息論信息熵解決的是對信息的度量問題。信息量和事件發生的概率有關,當事件發生的概率越低,傳遞的信息量越大。信息量應當是非負的,必然發生的信息量為0。兩個事件的信息量可以相加,并且兩個獨立事件的聯合信息量應該是他們各自信息量的和。信息量決策樹分類算法原理以信息論為基礎的分類原理決策樹分類算法框架衡量標準:信息熵決策樹算法的簡化決策樹算法的優、缺點與應用決策樹分類算法決策樹剪枝分類算法是利用訓練樣本集獲得分類函數即分類模型(分類器),從而實現將數據集中的樣本劃分到各個類中。分類模型通過學習訓練樣本中屬性集與類別之間的潛在關系,并以此為依據對新樣本屬于哪一類進行預測。決策樹算法決策樹簡單來說就是帶有判決規則(if-then)的一種樹,可以依據樹中的判決規則來預測未知樣本的類別和值。用一個網上通俗易懂的例子(相親)來說明:女兒:年紀多大了?母親:26女兒:長相如何?母親:挺帥的女兒:收入如何?母親:不算很高,中等情況女兒:是公務員不?母親:是,在稅務局上班女兒:那好,我去見見決策樹案例決策樹是一個屬性結構的預測模型,代表對象屬性和對象值之間的一種映射關系。它由節點(node)和有向邊(directededge)組成,其節點有兩種類型:內節點(internalnode)和葉節點(leafnode),內部節點表示一個特征或屬性,葉節點表示一個類。如上圖所示的相親例子,藍色的橢圓內節點表示的是對象的屬性,橘黃色的矩形葉節點表示分類結果(是否相親),有向邊上的值則表示對象每個屬性或特征中可能取的值。決策樹定義決策樹通過把數據樣本分配到某個葉子結點來確定數據集中樣本所屬的分類。決策樹由決策結點、分支和葉子結點組成。決策結點表示在樣本的一個屬性上進行的劃分。分支表示對于決策結點進行劃分的輸出。葉結點代表經過分支到達的類。從決策樹根結點出發,自頂向下移動,在每個決策結點都會進行次劃分,通過劃分的結果將樣本進行分類,導致不同的分支,最后到達個葉子結點,這個過程就是利用決策樹進行分類的過程。決策樹決策樹分類算法原理以信息論為基礎的分類原理決策樹分類算法框架衡量標準:信息熵決策樹算法的簡化決策樹算法的優、缺點與應用決策樹分類算法決策樹剪枝信息和抽象該如何來度量?1948年香農提出“信息熵(entropy)”的概念。一條信息的信息量大小和他的不確定性有直接的關系,要搞清楚一件非常非常不確定的事情,或者是我們一無所知的事情需要了解大量信息,信息量的度量就等于不確定性的多少。例如:猜世界杯冠軍,假如是一無所知,需要猜多少次?每個隊奪冠的幾率不是相等的。比特(bit)來衡量信息的多少,變量的不確定性越大,熵也就越大。決策樹須知概念-信息熵信息熵解決的是對信息的度量問題。信息量和事件發生的概率有關,當事件發生的概率越低,傳遞的信息量越大。信息量應當是非負的,必然發生的信息量為0。兩個事件的信息量可以相加,并且兩個獨立事件的聯合信息量應該是他們各自信息量的和。信息熵決策樹分類算法原理以信息論為基礎的分類原理決策樹分類算法框架衡量標準:信息熵決策樹算法的簡化決策樹算法的優、缺點與應用決策樹分類算法決策樹剪枝決策樹算法的思想是,先從一個特征入手,就如同我們上面的游戲中一樣,既然無法直接分類,那就先根據一個特征進行分類,雖然分類結果達不到理想效果,但是通過這次分類,我們的問題規模變小了,同時分類后的子集相比原來的樣本集更加易于分類了。然后針對上一次分類后的樣本子集,重復這個過程。在理想的情況下,經過多層的決策分類,我們將得到完全純凈的子集,也就是每一個子集中的樣本都屬于同一個分類。決策樹算法的簡化決策樹學習算法包含特征選擇、決策樹生成與決策樹的剪枝。決策樹表示的是一個條件概率分布,所以深淺不同的決策樹對應著不同復雜程度的概率模型。決策樹的生成對應著模型的局部選擇(局部最優),決策樹的剪枝對應著全局選擇(全局最優)。決策樹常用的算法有ID3,C4.5,CART。決策樹優點:它構成一個簡單的決策過程,使決策者可以按順序有步驟地進行。決策樹法有直觀的圖形,便于決策者進行科學的分析、周密的思考。將決策樹圖形畫出后,便于集體討論和共同分析,有利于進行集體決策。決策樹法對比較復雜問題進行決策,特別是對多級決策問題尤感方便,甚至在決策過程中,通過畫決策樹逐級思考可以走一步看一步,三思后行。缺點:在分析的過程中有些參數沒有包括在樹中,顯得不全面。如果分級太多或出現的分枝太多,畫起來就不方便。決策樹優缺點決策樹分類算法原理以信息論為基礎的分類原理決策樹分類算法框架衡量標準:信息熵決策樹算法的簡化決策樹算法的優、缺點與應用決策樹分類算法決策樹剪枝決策樹學習算法包含特征選擇、決策樹生成與決策樹的剪枝。決策樹表示的是一個條件概率分布,所以深淺不同的決策樹對應著不同復雜程度的概率模型。決策樹的生成對應著模型的局部選擇(局部最優),決策樹的剪枝對應著全局選擇(全局最優)。決策樹常用的算法有ID3,C4.5,CART。決策樹ID3算法是在每個結點處選取能獲得最高信息增益的分支屬性進行分裂。在每個決策結點處劃分分支、選取分支屬性的目的是將整個決策樹的樣本純度提升衡量樣本集合純度的指標則是熵:舉例:如果有一個大小為10的布爾值樣本集S_b,其中有6個真值、4個假值,那么該布爾型樣本分類的熵為:ID3

計算分支屬性對于樣本集分類好壞程度的度量——信息增益。由于分裂后樣本集的純度提高,則樣本集的熵降低,熵降低的值即為該分裂方法的信息增益。ID3算法

脊椎動物分類訓練樣本集:ID3算法動物飲食習性胎生動物水生動物會飛哺乳動物人類雜食動物是否否是野豬雜食動物是否否是獅子肉食動物是否否是蒼鷹肉食動物否否是否鱷魚肉食動物否是否否巨蜥肉食動物否否否否蝙蝠雜食動物是否是是野牛草食動物是否否是麻雀雜食動物否否是否鯊魚肉食動物否是否否海豚肉食動物是是否是鴨嘴獸肉食動物否否否是袋鼠草食動物是否否是蟒蛇肉食動物否否否否此樣本集有“飲食習性”、“胎生動物”、“水生動物”、“會飛”四個屬性可作為分支屬性,而“哺乳動物”作為樣本的分類屬性,有“是”與“否”兩種分類,也即正例與負例。共有14個樣本,其中8個正例,6個反例,設此樣本集為S,則分裂前的熵值為:ID3算法

脊椎動物訓練樣本集以“飲食習性”作為分支屬性的分裂情況。“飲食習性”為“肉食動物”的分支中有3個正例、5個反例,其熵值為:ID3算法

同理,計算出“飲食習性”分類為“草食動物”的分支與分類為“雜食動物”的分支中的熵值分別為:設“飲食習性”屬性為Y,由此可以計算得出,作為分支屬性進行分裂之后的信息增益為:ID3算法

同理,可以算出針對其他屬性作為分支屬性時的信息增益。計算可得,以“胎生動物”“水生動物”“會飛”作為分支屬性時的信息增益分別為0.6893、0.0454、0.0454。由此可知“胎生動物”作為分支屬性時能獲得最大的信息增益,即具有最強的區分樣本的能力,所以在此處選擇使用“胎生動物”作為分支屬性對根結點進行劃分。ID3算法由根結點通過計算信息增益選取合適的屬性進行分裂,若新生成的結點的分類屬性不唯一,則對新生成的結點繼續進行分裂,不斷重復此步驟,直至所有樣本屬于同一類,或者達到要求的分類條件為止。常用的分類條件包括結點樣本數最少于來設定的值、決策樹達到預先設定的最大深度等。在決策樹的構建過程中,會出現使用了所有的屬性進行分支之后,類別不同的樣本仍存在同一個葉子結點中。當達到了限制條件而被強制停止構建時,也會出現結點中子樣本集存在多種分類的情況。對于這種情況,一般取此結點中子樣本集占數的分類作為結點的分類。分支多的屬性并不一定是最優的,就如同將100個樣本分到99個分支中并沒有什么意義,這種分支屬性因為分支太多可能相比之下無法提供太多的可用信息,例如個人信息中的“省份”屬性。ID3算法

C4.5算法

CART算法采用的是一種二分循環分割的方法,每次都把當前樣本集劃分為兩個子樣本集,使生成的決策樹的結點均有兩個分支,顯然,這樣就構造了一個二叉樹。如果分支屬性有多于兩個取值,在分裂時會對屬性值進行組合,選擇最佳的兩個組合分支。假設某屬性存在q個可能取值,那么以該屬性作為分支屬性,生成兩個分支的分裂方法共有

種。CART算法在分支處理中分支屬性的度量指標是Gini指標。在前面例子中,假設選擇“會飛”作為分支屬性,其Gini指標為:CART樹算法

決策樹分類算法原理以信息論為基礎的分類原理決策樹分類算法框架衡量標準:信息熵決策樹算法的簡化決策樹算法的優、缺點與應用決策樹分類算法決策樹剪枝訓練誤差代表分類方法對于現有訓練樣本集的擬合程度。泛化誤差代表此方法的泛化能力,即對于新的樣本數據的分類能力如何。模型的訓練誤差比較高,則稱此分類模型欠擬合。模型的訓練誤差低但是泛化誤差比較高,則稱此分類模型過擬合。對于欠擬合問題,可以通過增加分類屬性的數量、選取合適的分類屬性等方法,提高模型對于訓練樣本的擬合程度。過擬合對口罩銷售定價進行分類樣本集測試集過擬合產品名功能是否為純色銷售價位加厚口罩防塵否低保暖口罩保暖否高護耳口罩保暖是高活性炭口罩防霧霾是中三層防塵口罩防塵否低藝人同款口罩防塵是高呼吸閥口罩防霧霾是中產品名功能是否為純色銷售價位兒童口罩防塵是低情侶口罩保暖否高一次性口罩防塵否低無紡布口罩防塵是低顆粒物防護口罩防霧霾否中三層決策樹,訓練誤差為0,測試誤差高達2/5。兩層決策樹,訓練集擬合程度相比較低,但測試集表現更好。過擬合問題過擬合現象會導致隨著決策樹的繼續增長,盡管訓練誤差仍在下降,但是泛化誤差停止下降,甚至還會提升。決策樹誤差曲線:過擬合問題決策樹的剪枝有兩種思路:預剪枝(Pre-Pruning)和后剪枝(Post-Pruning)。決策樹剪枝后剪枝算法有很多種,這里簡要總結如下:Reduced-ErrorPruning(REP,錯誤率降低剪枝)PessimisticErrorPruning(PEP,悲觀剪枝)Cost-ComplexityPruning(CCP,代價復雜度剪枝)后剪枝錯誤率降低剪枝(REP)是后剪枝策略中最簡單的算法之一,該算法從葉子結點向上,依次將決策樹的所有子樹用其樣本中最多的類替換,使用一個測試集進行測試,記錄下對于決策樹的每棵子樹剪枝前后的誤差數之差,選取誤差數減少最少的子樹進行剪枝,將其用子樣本集中最多的類替換。按此步驟自底向上,遍歷決策樹的所有子樹,當發現沒有可替換的子樹時,即每棵子樹剪枝后的誤差數都會增多,則剪枝結束。REP剪枝方法簡單、快速,在數據集較大時效果不錯,但由于需要比對模型子樹替換前后的預測錯誤率,因此需要從數據集中劃分出單獨的測試集,故而當數據集較小時,REP剪枝策略的效果會有所下降。錯誤率降低剪枝悲觀剪枝(PEP)與REP相比,PEP不再需要構建一個單獨的測試集。其假設某葉子結點t中有N(t)個樣本,其中有e(t)個被錯誤分類的樣本,則此葉子結點誤分類率定義:其中0.5為修正因子。對于一棵有著N個葉子結點的子樹T,其誤分類率計算公式如下:由于修正因子的存在,有時即便子樹的誤差數要小于剪枝后的誤差,仍有可能進行剪枝操作,因為誤分類率的計算公式中考慮到了葉子結點樹大小(N)的影響。悲觀剪枝

代價復雜度剪枝策略(CCP)定義了代價與復雜度的概念,代價是指在剪枝過程中因為子樹被替換而增加的錯分樣本,復雜度表示剪枝后減少的葉結點數。CCP算法使用α作為衡量代價與復雜度之間關系的值,其計算公式如下:CCP的具體方法為,計算決策樹T的每個非葉子結點的α值,每次計算之后剪掉具有最小α值的子樹,循環此過程直至只剩下根結點,進行n次剪枝,生成n個決策樹,從這n個決策樹中根據真實誤差估計選擇最佳決策樹。代價復雜度剪枝策略

1.多擇題:決策樹的劃分方式有哪些?(

A.信息增益。

B.信息增益率。

C.Gini系數

D.梯度下降。決策樹作為一類基礎而且常用的非線性分類和回歸方法,本章介紹了決策樹常用的構建方法,包括其中幾種代表性的特征選擇度量:信息增益、信息增益比、基尼指數和平方誤差,以及根據損失函數進行剪枝的方法,并結合起來介紹了由此衍生的代表性決策樹算法:ID3、C4.5和CART。謝謝第六章Logistic回歸本章主要講述Logistic回歸算法的基礎知識、模型優化、多項式邏輯回歸以及具體實現。學習目標通過本章學習可以:Logistic回歸概述Logistic回歸原理Logistic回歸模型的訓練和優化多項式Logistic回歸Logistic回歸概述分類問題Logistic回歸原理Logistic回歸模型Logistic訓練和優化多項式Logistic回歸Logistic回歸概述LogisticRegression雖然被稱為回歸,但其實際上是分類模型,并常用于二分類。LogisticRegression因其簡單、可并行化、可解釋強深受工業界喜愛。Logistic回歸的本質是:假設數據服從這個分布,然后使用極大似然估計做參數的估計。Logistic回歸是機器學習從統計學領域借鑒過來的另一種技術。它是二分類問題的首選方法。像線性回歸一樣,Logistic回歸的目的也是找到每個輸入變量的權重系數值。但不同的是,Logistic回歸的輸出預測結果是通過一個叫作「logistic函數」的非線性函數變換而來的。分類問題監督學習的最主要類型——分類(Classification)定義:所謂分類,就是根據數據的特征或屬性,劃分到已有的類別中。從功能上看,分類問題就是預測數據所屬的類別分類的輸入變量可以是離散的也可以是連續的,標簽是離散的。已知某個人存款金額是10000元,這個人沒有結婚,并且有一輛車,沒有固定住房,估計判斷這個人是否會涉嫌信用欺詐問題。根據腫瘤的體積、患者的年齡來判斷良性或惡性。分類問題二分類用藍色圓形數據定義為類別1,其余三角形數據為類型2;只需要分類一次就可以步驟:①->②分類問題多分類先定義其中一類為類型1(正類),其余數據為負類(rest);接下來去掉類型1數據,剩余部分再次進行二分類,分成類型2和負類;如果有n類,則需要分類n-1次步驟:①->②->③->…..Logistic回歸概述分類問題Logistic回歸原理Logistic回歸模型Logistic訓練和優化多項式Logistic回歸Logistic回歸原理Logistic回歸的本質是:假設數據服從這個分布,然后使用極大似然估計做參數的估計。Logistic分布是一種連續型的概率分布,其分布函數和密度函數分別為:邏輯分布深度學習中的常用到的Sigmoid函數就是Logistic的分布函數在的特殊形式Sigmoid函數

Logistic回歸學習策略模型中的參數常常使用極大似然估計法來求解,即找到一組參數,使得在這組參數下,使得數據的似然度(概率)最大。設:似然函數:

等式兩邊取對數:

平均對數似然損失:Logistic回歸概述分類問題Logistic回歸原理Logistic回歸模型Logistic訓練和優化多項式Logistic回歸Logistic回歸優化算法

Logistic回歸優化算法正則化目的是為了防止過擬合。沒有正則化,過擬合正則化過度,欠擬合適當的正則化Logistic回歸優化算法L1正則化LASSO回歸,相當于為模型添加先驗知識:w服從零均值拉普拉斯分布。拉普拉斯分布:引入正則項后,似然函數改寫為:Logistic回歸優化算法L1正則化對似然函數取log再取負,得到目標函數:等價于原始損失函數后面加上L1正則化。本質上L1正則本質其實是為模型增加了模型參數服從零均值拉普拉斯分布的先驗知識。Logistic回歸優化算法L2正則化Ridge回歸,相當于為模型添加先驗知識:w服從零均值正態分布。正態分布:引入正則項后,似然函數改寫為:Logistic回歸優化算法L2正則化對似然函數取ln再取負,得到目標函數:等價于原始損失函數后面加上L2正則化。本質上L2正則本質其實是為模型增加了模型參數服從零均值正態分布的先驗知識。右圖為L1和L2正則化對比目標函數-平方誤差項的等值線和L1、L2范數等值線(左邊是L1),我們正則化后的代價函數需要求解的目標就是在經驗風險和模型復雜度之間的平衡取舍,在圖中形象地表示就是黑色線與彩色線的交叉點。Logistic回歸優化算法Logistic回歸概述分類問題Logistic回歸原理Logistic回歸模型Logistic訓練和優化多項式Logistic回歸多項式Logistic回歸當Y只有兩個選項時,可使用二分類Logistic,當Y有三項或更多時,則應該使用多分類Logistic回歸。二元邏輯回歸和多分類邏輯回歸的對比多項式Logistic回歸解決多分類問題,可把Sigmoid函數換成Softmax函數。Softmax回歸是直接對邏輯回歸在多分類的推廣。Softmax函數為:整體目標函數1.(單選)Logistic回歸適用于因變量為(

)?A.二分類變量

B.多分類有序變量

C.多分類無序變量D.連續型定量變量E.

A、B、C均可

講解邏輯回歸的基礎概念講解邏輯回歸的二分類和多分類問題講解邏輯回歸的模型原理和Sigmoid函數講解邏輯回歸的優化方法L1,L2正則化謝謝第七章支持向量機本章主要講述支持向量機算法的基礎知識、線性以及非線性情況下的支持向量機和支持向量回歸機的算法知識。學習目標通過本章學習可以:支持向量機的基本知識線性可分下的支持向量機線性不可分下的支持向量機支持向量機的核函數多類分類支持向量機支持向量回歸機支持向量機的基本知識超平面間隔與間隔最大化函數間隔和幾何間隔不同情形下的支持向量機線性可分下的支持向量機線性不可分下的支持向量機非線性支持向量機非線性支持向量機之核函數多類分類支持向量機支持向量回歸機支持向量機概述支持向量機(SupportVectorMachine,SVM)是一種按照監督學習方式對數據進行二元分類的廣義線性分類器(generalizedlinearclassifier),其決策邊界是對學習樣本求解的最大邊距超平面(maximum-marginhyperplane)。與邏輯回歸和神經網絡相比,支持向量機,在學習復雜的非線性方程時提供一種更為清晰,更加強大的方式支持向量機概述算法思想找到集合邊緣上的若干數據(稱為支持向量),用這些點找出一個平面(稱為決策面),使得支持向量到該平面距離最大。支持向量機的基本知識超平面間隔與間隔最大化函數間隔和幾何間隔不同情形下的支持向量機線性可分下的支持向量機線性不可分下的支持向量機非線性支持向量機非線性支持向量機之核函數多類分類支持向量機支持向量回歸機支持向量機概述硬間隔、軟間隔硬間隔軟間隔硬間隔指的是完全分類正確,不能存在分類錯誤情況。軟間隔指的是允許一定量的樣本分類錯誤。支持向量機概述svm算法,就是找一分割線將兩類樣本分開,問題是如圖三條顏色都可以把點和星分開。但哪條最優呢?假設一條直線為W?X+b=0為最優的分割線,把兩類分開如下圖所示,那我們就要解決的是怎么獲取這條最優直線呢?及W和b的值;在SVM中最優分割面(超平面)就是:能使支持向量和超平面最小距離的最大值;目標是尋找一個超平面,使得離超平面比較近的點能有更大的間距。也就是我們不考慮所有的點都必須遠離超平面,我們關心求得的超平面能夠讓所有點中離它最近的點具有最大間距。支持向量機概述間隔超平面

如圖所示,支持向量到超平面的距離為d,其他點到超平面距離大于d。每個支持向量到超平面的距離可寫為:支持向量機概述間隔最大化根據支持向量到超平面的距離d,其他點到超平面距離大于d。于是得到如下公式:我們令d=1(令它為1,為了便于推導和優化,且不會影響目標函數的優化)將以上方程合并,簡寫為:至此得到最大間隔超平面的上下兩個超平面:支持向量機的基本知識超平面間隔與間隔最大化函數間隔和幾何間隔不同情形下的支持向量機線性可分下的支持向量機線性不可分下的支持向量機非線性支持向量機非線性支持向量機之核函數多類分類支持向量機支持向量回歸機支持向量機概述函數間隔

支持向量機概述幾何距離

支持向量機概述函數距離VS幾何距離從函數間隔和幾何間隔的定義可以看出:幾何間隔就是函數間隔處理||w||,而且函數間隔y*(wx+b)=y*f(x)實際上是|f(x)|,是人為定義的間隔度量,而幾何間隔|f(x)|/||w||才是直觀上的點到超平面的距離。函數間隔作用:表示分類預測的正確性的準確度函數間隔

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論