模式識別與機器學習全套教學課件_第1頁
模式識別與機器學習全套教學課件_第2頁
模式識別與機器學習全套教學課件_第3頁
模式識別與機器學習全套教學課件_第4頁
模式識別與機器學習全套教學課件_第5頁
已閱讀5頁,還剩350頁未讀 繼續免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

緒論第一章模式識別與機器學習【ch01】緒論.pptx【ch02】貝葉斯統計決策.pptx【ch03】概率密度函數的估計.pptx【ch04】線性分類與回歸模型.pptx【ch05】其他分類方法.pptx【ch06】無監督學習和聚類.pptx【ch07】核方法和支持向量機.pptx【ch08】神經網絡和深度學習.pptx【ch09】特征選擇與提取.pptx全套可編輯PPT課件01引言尋找數據中的模式是一個歷史悠久的基本問題。例如,16世紀丹麥天文學家第谷·布拉赫(TychoBrahe,1546-1601)進行的大量天文觀測為開普勒發現行星運動的經驗規則奠定了基礎,也為古典力學的發展提供了跳板。同樣,原子光譜規律的發現在20世紀早期量子物理的發展和驗證階段扮演了關鍵角色。引言考慮識別手寫數字的例子,如圖1.1所示。引言每個數字都相當于一幅28×28像素的圖像,因此可將數字圖像表示成由784(即28×28)個數字組成的向量x。我們的目標是建立一臺機器,用這樣一個向量x作為其輸入,而用識別得到的數字0,…,9作為其輸出。引言02模式識別的基本概念模式和模式識別在人們的日常生活中,模式識別是普遍存在和經常進行的過程。首先,我們來看一個簡單的例子——魚的品種分類問題。一家魚類加工廠希望能夠自動執行傳送帶上的魚的品種的分類過程,這時要如何做呢?模式識別的基本概念假設我們已經完成上述工作,并且兩種魚的長度特征直方圖如圖1.2所示。模式識別的基本概念模式空間、特征空間和類空間一般來說,模式識別必須經歷從模式空間到特征空間再到類空間的過程。為了說明這些概念,首先解釋“物理上可察覺的世界”。在客觀世界中存在一些物體和事件,它們都可以被合適的和足夠多的函數描述,也就是說,它們在物理上是可以被測量的,它們的可測數據的集合稱為物理上可察覺的世界。模式識別的基本概念顯然,這些可測數據,或者說這個世界的維數是無限多的。在物理上可察覺的世界中,所選的某些物體和事件稱為樣本。對樣本進行觀測得到觀測數據,每個樣本觀測數據的綜合都構成模式,所有樣本的觀測數據則構成模式空間。模式識別的基本概念預處理在模式空間中,針對具體的研究對象:往往需要進行適當的預處理。預處理的作用如下:消除或者減少模式采集中的噪聲和其他干擾,提高信噪比;消除或者減少數據圖像的模糊和幾何失真,提高清晰度;轉換模式的結構(譬如將非線性模式轉換為線性模式)以便于后續處理。模式識別的基本概念預處理方法包括濾波、變換、編碼、標準化等。為了方便計算機處理,往往需要將模擬量轉換為數字量,也就是進行模數(AD)轉換。在模數轉換過程中,必須考慮兩個問題,即采樣間隔與量化等級。采樣間隔(采樣頻率)表示單位時間內要有多少個采樣值,量化等級表示每個采樣值要有多少個級別才能滿足要求。模式識別的基本概念特征提取/選擇一般來說,當人們對客觀世界中的具體物體或事件進行模式采集時,總會盡可能多地采集測量數據,導致樣本在模式空間中的維數很大。當模式的維數很大時,帶來的問題是處理困難、處理時間長、處理費用高,甚至有時不能直接用于分類,這就是所謂的“維數災難”。模式識別的基本概念另外,在過多的數據坐標中,有些坐標對表征事物的本質貢獻不大,甚至很小。因此,特征提取/選擇十分必要。特征提取/選擇的目的是壓縮模式的維數,使之便于處理,減少消耗。特征提取往往以分類時使用的某種判別規則為準則,而提取的特征則會使某種準則下的分類錯誤最小。模式識別的基本概念分類分類的目標如下:將特征空間劃分成類空間,將未知類屬性的樣本賦給類空間中的某個類,以及在給定條件下否定樣本屬于某個類。分類的難易程度取決于如下兩個因素:一是來自同一類的不同個體之間的特征值波動,二是屬于不同類的樣本的特征值之間的差異。模式識別的基本概念在實際的分類過程中,對于預先給定的條件,分類出現錯誤是不可避免的。因此,分類過程只能以某種錯誤率完成。顯然,錯誤率越小越好。模式識別的基本概念03模式識別系統模式識別系統的功能包括模式采集、特征提取/選擇、分類等。模式識別系統的框圖如圖1.7所示。模式識別系統特征提取組合特征提取組合實現從模式空間到特征空間的轉換,有效壓縮維數。分類器訓練分類器訓練/學習也是模式識別中的一個重要概念。模式采集組合模式采集組合完成模式的采集。分類器分類器實現對未知類屬性樣本的分類判別。模式識別系統04機器學習的主要方法監督學習監督學習根據給定的訓練數據集學習出一個函數,當新數據到來時,可以根據這個函數預測結果。監督學習的訓練集要求包括輸入和輸出,也就是特征和目標。訓練集中的目標是由人標注的。常見的監督學習算法包括回歸分析和統計分類。機器學習的主要方法為了解決一個給定的監督學習問題(如手寫辨識),需要考慮如下步驟。02收集訓練資料。01決定訓練資料的范例的形態。機器學習的主要方法030504決定學習函數的輸入特征的表示法。決定要學習的函數和對應學習算法所用的數據結構。完成設計。機器學習的主要方法無監督學習與監督學習相比,無監督學習的訓練集中不存在人為標注的結果。常見的無監督學習算法是聚類,如k均值算法。無監督學習對原始資料進行分類,以便了解資料的內部結構,具有聚類、密度估計、可視化三種形式。機器學習的主要方法半監督學習半監督學習介于監督學習與無監督學習之間。在機器學習領域中,傳統學習方法有兩種,即監督學習和無監督學習。半監督學習(Semi-supervisedLeaming)是模式識別和機器學習領域研究的重點問題,是監督學習和無監督學習相結合的一種學習方法,主要考慮如何用少量標注樣本和大量未標注樣本進行訓練與分類。機器學習的主要方法半監督學習對于降低標注代價、提高機器性能具有重大的實際意義。半監督學習的主要算法分為5類:基于概率的算法;在現有監督算法基礎上迸行修改的方法;直接依賴于聚類假設的方法;基于多視圖的方法;基于圖的方法。機器學習的主要方法集成學習集成學習(EnsembleLearning)的思路是在對新實例進行分類時,集成若干分類器,通過對多個分類器的分類結果進行組合來決定最終的分類,進而取得比單個分類器更好的性能。若將單個分類器比作一名決策者,則集成學習方法相當于多名決策者共同進行決策。機器學習的主要方法圖1.8所示為人工神經網絡集成示意圖。機器學習的主要方法強化學習強化學習通過觀察來學習如何做出動作。每個動作都對環境造成影響,學習對象則根據觀察到的周圍環境的反饋來做出判斷。機器學習的主要方法強化學習(Q-Learning)要解決的問題是,一個能感知環境的自治智能體(Agent)怎樣通過學習選擇達到其目標的最優動作。這個具有普遍性的問題應用于學習控制移動機器人,在工廠中學習最優操作工序及學習棋類對弈等。機器學習的主要方法05概率分布隨機變量及分布在隨機試驗中,試驗的結果可用一個數x來表示,數x是隨試驗結果的不同而變化的,是樣本點的一個函數。我們將這種數稱為隨機變量(RandomVariable)。概率分布離散隨機變量圖1.9給出了λ分別取1,4,10時,泊松分布的概率密度函數圖。概率分布連續隨機變量圖1.10(a)和(b)分別顯示了均勻分布和正態分布的概率密度函數。概率分布累積分布函數圖1.11顯示了標準正態分布的概率密度函數和累積分布函數。概率分布隨機向量及分布隨機向量是指由一組隨機變量構成的向量。如果X1,…,XK為K個隨機變量,那么稱x=[X1,…,XK]為一個K維隨機向量。隨機向量分為離散隨機向量和連續隨機向量。概率分布邊際分布對于二維離散隨機向量(X,Y),假設x的取值空間為Ωx,Y的取值空間為Ωy,則其聯合概率分布滿足概率分布條件概率分布對于離散隨機向量(X,Y),若已知X=x,則隨機變量Y=y的條件概率(ConditionalProbability)為概率分布感謝觀看貝葉斯統計決策第二章模式識別與機器學習新工科建設·人工智能與智能科學系列教材01引言在可以察覺的客觀世界中,存在大量的物體和事件,當基本條件不變時,它們具有某種不確定性,即每次觀測的結果沒有重復性,這種模式就是隨機模式。雖然隨機模式樣本的測量值具有不確定性,但同類抽樣試驗的大量樣本的觀測值具有某種統計特性,這種統計特性是建立各種分類方法的基本依據。下面介紹確定性模式判別函數的問題。引言理想的概率分布如圖2.1所示。引言通過判別函數,特征空間被區分界面劃分成兩類區域A和B。由于模式樣本的觀測值是確定的,因此常被正確地分配給區域A和B。若用概率的形式來表達,則有:在類A的條件下觀測模式樣本x時,x位于區域A中的概率為1,而位于區域B中的概率為0。引言02最小錯誤率判別規則最小錯誤率判別規則的目標是盡可能地減少錯誤分類的情況。為此,我們需要一個確定測得的變量屬于哪個類的規則。最小錯誤率判別規則這個規則將輸入空間劃分為幾個決策區域尺,每個區域對應一個類,如果變量落在Rk中,就判別它屬于類Ck。一個決策區域沒有必要是連通的,而可以由幾個區域聯合組成。最小錯誤率判別規則如圖2.2所示,選定兩個判別門限。最小錯誤率判別規則03最小風險判別規則最小風險判別規則也是一種貝葉斯分類方法。最小錯誤率判別規則未考慮錯誤判別帶來的“風險”,或者說未考慮某種判別帶來的損失。最小風險判別規則在同一個問題中,某種判別總有一定的損失,特別是錯誤判別會帶來風險。不同的錯誤判別會帶來不同的風險,例如,判別細胞是否為癌細胞可能有兩種錯誤判別。最小風險判別規則①正常細胞被錯判為癌細胞;②癌細胞被錯判為正常細胞。兩種錯誤判別帶來的風險是不同的,①會給健康人帶來不必要的精神負擔,②會使患者失去進一步檢查、治療的機會,造成嚴重后果。顯然,②的風險大于①。最小風險判別規則表2.1中列出了一般風險矩陣。最小風險判別規則04最大似然比判別規則類概率密度ρ(x|ωi)又稱似然函數,兩個類概率密度之比稱為似然比函數。最大似然比判別規則也是一種貝葉斯分類方法,其描述如下。最大似然比判別規則如果類ωi與其他類ωj(j=1,2,…,c,j≠i的似然比均大于相應的門限值。而其他類ωj,與ωi的似然比均小于相應的門限值,那么樣本x∈ωi。最大似然比判別規則1)由最小錯誤率判別規則引出最大似然比判別規則2)由最小風險判別規則引出最大似然比判別規則總結:最大似然比判別規則是最小錯誤率判別規則和最小風險判別規則的變體,它們的基本理論是一樣的。最大似然比判別規則05Neyman-Pearson判別規則在兩類決策問題中,存在犯兩種錯誤分類的可能性。一種是在采用決策ω1時,其實際自然狀態為ω2;另一種是在采用決策ω2時,其實際自然狀態為ω1。Neyman-Pearson判別規則在實際應用中,有時不知道先驗概率,而只知道類概率密度,這時如何確定判別門限?假設在處理過程中先驗概率保持不變,這時可以使用Neyman-Pearson(N-P)判別規則。Neyman-Pearson判別規則在兩類問題中,N-P判別示意圖如圖2.3所示。Neyman-Pearson判別規則06最小最大判別規則在實際應用中,有時分類器處理的各類樣本的“先驗概率是變化的”。這時按照某個固定P(ωi)條件下的決策規則進行決策,將得不到最小錯誤率或最小風險所需要的結果,而要使用“最小最大判別規則”。最小最大判別規則2.3節介紹了最小風險判別規則,研究了條件平均風險R(αi|x)的概念和計算公式:最小最大判別規則并將模式樣本劃分給條件平均風險R(αi|x)最小的那個類。由上式可以看出,R(αi|x)與類概率密度ρ(x|ωi)、損失函數L(αi|ωi)和先驗概率P(ωj)有關。如果上述因素是不變的,那么用足夠多的樣本對分類器進行訓練,就可將特征空間劃分成不同的類區域Ri。最小最大判別規則07分類器設計判別函數和決策面用于表達決策規則的函數稱為判別函數,而用于劃分決策區域的邊界面則稱為決策面。我們可以使用數學表達式來表達決策面方程。分類器設計01多類判別函數和分類器:判別函數一般定義一組函數gi(x),i=1,2,…,c表示多類決策規則:03分類器設計分類器的設計步驟是,首先設計出c個判別函數gi(x),然后從中選出對應于判別函數為最大值的類作為決策結果。02決策面方程各個決策區域尺被決策面分割,而決策面是特征空間中的超曲面。分類器設計兩類情況判別函數:判別函數為g(x)=g1(x)-g2(x)。決策面方程:決策面方程為g(x)=0。分類器設計分類器設計:先計算g(x),再根據計算結果的符號對x分類,如圖2.9所示。分類器設計08正態分布中的貝葉斯分類方法統計決策理論涉及類條件概率密度函數P(x|ωi)。對于許多實際的數據集,正態分布通常是合理的近似。在特征空間中,如果某類樣本較多地分布在該類的均值附近,而遠離均值的樣本較少,那么用正態分布作為該類的概率模型是合理的。正態分布中的貝葉斯分類方法另外,正態分布概率模型的如下良好性質有利于進行數學分析。①物理上的合理性;②數學上的簡單性。正態分布中的貝葉斯分類方法第1章中已將基于貝葉斯公式的幾種分類判別規則抽象為相應的判別函數和決策面方程。在這幾種方法中,貝葉斯最小錯誤率判別規則是一種最基本的方法。如果取0-1損失函數,那么最小風險判別規則和最大似然比判別規則均與最小錯誤判別規則等價。為方便起見,我們以最小錯誤判別規則為例來研究貝葉斯分類方法在正態分布中的應用。正態分布中的貝葉斯分類方法09小結本章首先研究了基于貝葉斯決策理論的貝葉斯分類方法,主要包括最小錯誤率判別規則、最小風險判別規則和最大似然比判別規則等;接著研究了貝葉斯分類方法在正態分布中的應用。貝葉斯決策論的基本思想非常簡單。小結為了最小化總風險,總是選擇那些能最小化條件風險R(α|x)的行為;為了最小化分類問題中的誤差概率,總是選擇那些使后驗概率ρ(ωi|x)最大的類。貝葉斯公式允許我們通過先驗概率和條件密度來計算后驗概率。如果對類ωi所做的誤分懲罰與對類ωj所做的誤分懲罰不同,那么在做出判別行為之前,必須先根據該懲罰函數對后驗概率加權。小結感謝觀看概率密度函數的估計第三章模式識別與機器學習新工科建設·人工智能與智能科學系列教材01引言第2章介紹了基于貝葉斯決策理論的貝葉斯分類方法,而貝葉斯決策理論的基礎是概率密度函數的估計,即根據一定的訓練樣本來估計統計決策中用到的先驗概率P(ωi)和類條件概率密度p(x|ωi)。其中,先驗概率的估計比較簡單,通常只需根據大量樣本計算出各類樣本在其中所占的比例,或者根據對所研究問題的領域知識事先確定。引言因此,本章重點介紹類條件概率密度的估計問題。這種先通過訓練樣本估計概率密度函數、后用統計決策進行類判定的方法,稱為基于樣本的兩步貝葉斯決策。引言這樣得到的分類器性能與第2章中的理論貝葉斯分類器有所不同。我們希望當樣本數N→∞時,基于樣本的分類器能收斂到理論結果。引言02最大似然估計最大似然估計基礎最大似然估計(MaximumLikelihoodEstimation)的思想是,隨機試驗有若干可能的結果。如果在一次試驗中出現了某一結果,就認為這一結果出現的概率較大,進而假設該結果是所有可能出現的結果中最大的一個。最大似然估計我們將待估計的參數記為θ,它是確定但未知的量(有多個參數時,其為向量)。共有c個類,每個類的樣本集記為xi,i=1,2…,c,樣本都是從密度為p(x|ωi)的總體中獨立抽取出來的,即滿足獨立同分布條件。最大似然估計類條件概率密度p(x|ωi)具有某種確定的函數表達式,只是其中的參數θ未知。為了強調概率密度中待估計的參數,也可將p(x|ωi)寫為p(x|ωi,θi)或p(x|θi)。各個類的樣本只包括本類的部分信息,即不同類的參數是獨立的,這樣就可單獨處理每個類。最大似然估計正態分布下的最大似然估計首先考慮正態分布下僅有一個參數未知的情況。假設參數μ未知,對于單變量(樣本特征只有一個維度)的正態分布來說,其分布密度函數為最大似然估計在這樣的條件下,我們假設一個樣本點xk,則有對上述對數似然函數求導得最大似然估計對于有N個樣本點的樣本集來說,對μ的似然估計值^μ的最大似然估計必須滿足整理得最大似然估計03貝葉斯估計與貝葉斯學習貝葉斯估計貝葉斯估計(BayesianEstimation)是概率密度估計的另一種主要參數估計方法。其結果在很多情況下與最大似然法的相同或者幾乎相同,但是兩種方法對問題的處理角度是不同的,在應用上也各有特點。貝葉斯估計與貝葉斯學習似然估計將參數當作未知但固定的量,并且根據觀測數據估計該量的取值。而貝葉斯估計將未知參數視為隨機變量,并且根據觀測數據和參數的先驗分布來估計參數的分布。貝葉斯估計與貝葉斯學習在用于分類的貝葉斯決策中,最優條件是最小錯誤率或最小風險。在貝葉斯估計中,我們假設將連續變量θ估計成^θ的損失為λ(^θ,θ),也稱損失函數。貝葉斯估計與貝葉斯學習正態分布下的貝葉斯估計下面以一維正態分布模型為例來說明貝葉斯估計的應用。假設σ2已知且均值μ的先驗分布為正態分布N(u0,σ20)。x的分布密度可以寫為貝葉斯估計與貝葉斯學習μ的分布密度為求得μ的后驗概率分布為上式的分母部分是歸一化的常數項,記為a。貝葉斯估計與貝葉斯學習貝葉斯學習已知各個類的訓練樣本子集X={x1,x2,…,xN},每次訓練試驗都是獨立進行的,類ωi的參數與類ωj的樣本無關。已知類概率分布密度函數p(x|θ),但是參數向量θ未知(θ屬于某個類)。貝葉斯估計與貝葉斯學習關于未知參數θ的一般性信息包含在其先驗分布密度p(θ)中。關于未知參數θ的其余信息要從訓練樣本集X中提取。貝葉斯估計與貝葉斯學習貝葉斯學習和貝葉斯估計聯系密切,但貝葉斯學習最關心的不是某個具體參數的估計,而是獲得后驗分布密度p(x|X)。具體地說,在貝葉斯估計的4個步驟中,貝葉斯學習要執行前三個步驟,得到未知參數的后驗分布p(θ|x)后,不必真正求出^θ,而直接求后驗分布密度p(x|X)。貝葉斯估計與貝葉斯學習04EM估計方法EM算法期望最大化(ExpectationMaximization,EM)算法是當數據存在缺失時,極大似然估計的一種常用迭代算法,因為它操作簡便、收斂穩定,并且適用性很強。EM算法主要在如下兩種情況下估計參數:①由于數據丟失或觀測條件受限,觀測數據不完整;②似然函數不是顯然的,或者函數的形式非常復雜,導致難以用極大似然法進行估計。EM估計方法EM算法采用啟發式的迭代方法。既然無法直接求出模型分布參數,那么可以首先猜想隱含數據(EM算法的E步),接著基于觀測數據和猜測的隱含數據來極大化對數似然,求解模型參數(EM算法的M步)。EM估計方法因為之前的隱藏數據是猜測的,所以此時得到的模型參數一般還不是可行的結果。基于當前得到的模型參數,繼續猜測隱含數據(EM算法的E步),接著繼續極大化對數似然,求解模型參數(EM算法的M步)。EM估計方法混合正態分布的EM估計混合正態分布或混合高斯分布(GaussianMixtureDistribution)是指EM估計方法式中,K可視為混合正態分布中的正態分布的個數。直接對其對數似然函數求導來求極值是不可行的。然而,如果知道每個觀測值具體來自哪個正態分布,問題的難度就會下降很多。EM估計方法05非參數估計方法前面介紹了三種參數估計方法,這些方法的前提都是類概率密度函數形式是已知的。然而,在大多數模式分類問題中,往往不知道類概率密度函數的形式,而常見的函數形式并不適合實際的密度分布。非參數估計方法非參數估計的基本方法與限制條件非參數估計不需要假設類概率密度函數的形式是已知的,而由訓練樣本集直接估計總體密度分布,不但適用于單峰的密度估計,而且可以估計多峰的概率分布。估計未知概率密度函數的方法很多,它們的基本思想都很簡單,但要嚴格證明它們的收斂性卻要十分小心。非參數估計方法最根本的技術依賴于樣本x落在區域R中的概率p,即非參數估計方法Parzen窗法估計x點的概率密度時,可以假設x是一個d維向量。且圍繞x點的區域R是一個超立方體,它的每個維度的棱長都為h,于是超立方體的體積V為V=hd。非參數估計方法為了考察訓練樣本xi是否落在這個超立方體內,需要檢查向量x-xi的每個分量值,若所有分量值均小于h/2,則該樣本在R內,否則在R外。為了計算n個樣本訓練落入R內的數量K,我們定義窗函數非參數估計方法圖3.3顯示了一個二維Parzen窗法的兩類分類器的判別邊界,其中窗寬h不同。非參數估計方法kN近鄰估計方法在Parzen窗法中,我們固定了窗口的大小,即把體積呸作為VN的函數。如VN=V1|√N,導致V1的選擇對估計結果的影響很大。非參數估計方法在kN近鄰估計方法中,我們采用可變大小的區域的密度估計方法,即選擇kN是N的函數,如kN=k1√N。我們集中關注圍繞x點的小區域,并且逐漸擴大這個區域,使之包含x的kN個近鄰樣本。非參數估計方法圖3.4給出了不同樣本數和不同參數下kN近鄰估計的效果。非參數估計方法06小結本章首先介紹了概率密度函數的估計方法,包括參數估計法和非參數估計法,然后著重指出了無論使用哪種估計方法,最終都要得到總體類概率密度函數的估計p(x|ωj,Xj),j=1,2,…,c。小結感謝觀看線性分類與回歸模型第四章模式識別與機器學習新工科建設·人工智能與智能科學系列教材01引言模式是取自客觀世界中的一次抽樣試驗樣本的被測量值的綜合。如果試驗對象和測量條件相同,那么所有測量值就都具有重復性,即在多次測量中它們的結果不變,這樣的模式稱為確定性模式。引言否則,測量值是隨機的,這樣的模式稱為隨機性模式,簡稱隨機模式。下面介紹確定性模式的分類方法。前幾章中討論的分類器設計方法在已知類條件概率密度P(x|ωi)和先驗概率P(ωi)的條件下,使用貝葉斯定理求出后驗概率P(ωi|x),并根據后驗概率的大小進行分類決策。引言在解決實際問題時,類條件概率密度P(x|ωi)很難求出,用非參數估計方法又需要大量的樣本。實際上,我們可以不求P(x|ωi),而用樣本集直接設計分類器,即首先給定某個判別函數類,然后利用樣本集確定判別函數中的未知參數。引言針對不同的要求,由這種方法設計的分類器應該盡可能地滿足這些要求,“盡可能好”的結果則對應于判別規則函數取最優值。前面介紹的貝葉斯分類器是使錯誤率或風險達到最小的分類器,常稱這種分類器為最優分類器。引言相對而言,在其他規則函數下得到的分類器就是“次優”的。采用線性判別函數產生的錯誤率或風險雖然要比貝葉斯分類器的大,但是線性判別簡單、易實現,且需要的計算量和存儲量小,所以線性判別函數是統計模式識別的基本方法之一,也是實際中最常用的方法之一。引言02線性判別函數和決策面兩類情況在兩類情況下,只使用一個判別函數:g(x)=g1(x)-g2(x)判別規則如下:線性判別函數和決策面二維樣本的兩類分布如圖4.1所示。線性判別函數和決策面一般來說,g(x)=0稱為決策面方程。在三維空間中,它是區分界面;在二維空間中,它退化成區分界線;在一維空間中,它退化成區分點。由判別函數g(x)的數學表達式可以看出,既有線性判別函數,又有非線性判別函數。然而,非線性判別函數一般都可變換為線性判別函數(又稱廣義線性判別函數)。線性判別函數和決策面多類問題中的線性判別函數假設有c個類ω1,ω2,…,ωc,其中c≥3。將所有類分開的技術有三種,分別適用于三種不同的情況。線性判別函數和決策面第一種情況第二種情況通過唯一一個線性判別函數,將屬于i類的模式與其余不屬于i類的模式分開。對c個類中的任意兩個類ωi和ωj建立一個判別函數gij(x),決策面方程gij(x)=0可將這兩個類分開,但對其他類則不提供任何信息。線性判別函數和決策面第三種情況觀察圖4.4所示的五類問題。線性判別函數和決策面設計線性分類器的主要步驟前面討論了線性判別函數,并且假設樣本是線性可分的。一般來說,當屬于兩個類的抽樣試驗樣本在特征空間中可被一個超平面區分時,這兩個類就是線性可分的。線性判別函數和決策面進一步推論,對于一個已知容量為N的樣本集,若有一個線性分類器可將每個樣本正確地分類,則稱這組樣本集是線性可分的。在實際問題中,怎樣判別樣本集的線性可分性呢?線性判別函數和決策面如果容量為N的樣本集中的每個模式是d維向量,那么首先將N個樣本畫到d維空間中,然后向低維空間投影就可觀察其線性可分性。事后,可以根據分類情況評價樣本的線性可分性。線性判別函數和決策面03廣義線性判別函數前面介紹了線性判別函數的理論和分類方法,它們的優點是簡單且可行。然而,實際應用中卻常常遇到非線性判別函數,如果可將非線性函數變換為線性判別函數,那么線性判別函數的理論和分類方法的應用會更加廣泛。廣義線性判別函數例如,有一個非線性判別函數g(x),如圖4.7所示。廣義線性判別函數在y的特征空間中,區分直線為y1(a+b)y2+ab=0,如圖4.8所示。廣義線性判別函數04最小均方誤差判別最小均方和準則假設有n個訓練樣本,則wTx=b可以寫成n個聯立方程組的形式:式中,bi>0,i=1,2,…,n。上述方程組可以簡寫為xw=b最小均方誤差判別式中,x為訓練樣本的增廣矩陣:最小均方誤差判別至此,我們就建立了最小均方誤差(LeastMeanSquareError,LMSE)算法,該算法也稱H-K算法,主要內容為最小均方誤差判別H-K算法①由訓練樣本集構成增廣矩陣x,求偽逆x#=(xTx)-1xT。②賦初值b(1),使其各分量為正值。選擇常數c,置k=1。最小均方誤差判別③計算w(k)=x#b(k),ek=xw(k)-b(k)。④判斷:若ek的各分量停止變為正值或者不全部為0,則線性不可分,終止迭代。否則,若ek的各分量均接近0,即ek→0,則迭代過程完成,結束。否則,算法繼續。最小均方誤差判別⑤計算w(k+1)=w(k)+cx#(ek+|ek|)=w(k)+cx#|ek|,b(k+1)=b(k)+c(ek+|ek|)。令k=k+1,返回步驟③。最小均方誤差判別H-K算法的多類推廣前面講過,多類問題可分為多個兩類問題來解決。4.1節將多類問題分為三種情況進行了討論。最小均方誤差判別這里利用第一種情況,將c類問題分為c個ωi/ωi兩類問題。分別對c個ωi/ωi兩類問題進行訓練,得到c個解向量,進而建立c個判別函數。對ωi/ωi兩類問題進行訓練時,要在除ωi類外的訓練樣本中抽取足夠的樣本,與ωi類的訓練樣本共同構成訓練樣本集Xi。最小均方誤差判別05線性回歸模型多元線性回歸模型的一般形式是假設多元樣本回歸函數為線性回歸模型因為有n個訓練樣本,該模型實際上包含n個方程:線性回歸模型寫成矩陣形式為這樣,回歸殘差向量就為線性回歸模型06正則化線性回歸最小二乘法的基本要求是各個特征之間相互獨立,保證xxT可逆。然而,即使xxT可逆,如果特征之間有較大的多重共線性(Multicollinearity),也會使得xxT的逆在數值上無法準確計算。正則化線性回歸數據集X上的一些較小擾動就會導致(xxT)-1發生較大的變化,進而使得最小二乘法的計算變得很不穩定。為了解決這個問題,引入了正則化方法——嶺回歸(Ridge

Regression)與拉索回歸(LassoRegression)。正則化線性回歸這兩種正則化方法專用于共線性數據分析的,有偏估計回歸方法,實質上是一種改良的最小二乘估計法,通過放棄最小二乘法的無偏性。以損失部分信息、降低精度為代價獲得回歸系數更符合實際、更可靠的回歸方法,對病態數據的擬合要強于最小二乘法。正則化線性回歸06小結線性分類與回歸模型是機器學習中的基礎方法之一,包括線性判別函數、廣義線性判別函數、最小均方誤差判別、線性回歸模型、正則化線性回歸等方法。可用于解決二分類、多分類和回歸問題。在應用線性分類和回歸模型時,需要考慮數據的特點和類數,根據情況選擇合適的模型,并且進行參數調整。小結線性判別函數和決策面用于解決二分類和多分類問題。在二分類情況下,線性判別函數可用一條直線表示;而在多分類問題中,判別函數需要用一個多重決策面表示。為了克服線性判別函數的缺點,人們提出了廣義線性判別函數。廣義線性判別函數采用非線性變換的方式來實現線性可分和非線性可分數據的分類。小結最小均方誤差判別是一種基于最小均方誤差原則的分類方法,它可以解決連續分類問題。最小均方誤差判別模型首先估計出不同類數據的概率密度函數。然后根據最小均方誤差原則確定決策邊界。常見的最小均方誤差判別方法包括最小均方誤差準則、交叉驗證、H-K算法等。小結線性回歸模型是一種用于預測連續數值的回歸模型。線性回歸假設目標變量與特征之間存在線性關系,通過對訓練數據進行擬合,得到回歸系數的最優估計值。線性回歸模型可以采用普通最小二乘法或梯度下降法等方法求解,具有很好的可解釋性和可解性。小結正則化線性回歸模型是一種在線性回歸模型中加入正則項的方法,旨在減小回歸系數的值,降低過擬合的風險。常見的正則化線性回歸模型包括嶺回歸、拉索回歸等。這些方法可在保持較高預測精度的同時,降低過擬合的風險,對高維數據的處理效果較好。小結感謝觀看其他分類方法第五章模式識別與機器學習新工科建設·人工智能與智能科學系列教材01近鄰法近鄰法使用最簡單的分段線性分類器將各個類劃分為若干子類。以子類的中心作為類代表點,考察新樣本到各代表點的距離,據此將其分給最近代表點所代表的類。近鄰法最近鄰法最近鄰法將與測試樣本最近的類作為決策結果。假設在c類問題中,抽樣試驗樣本集為X={x1,x2,…,xN}。1-NN規則為近鄰法式中,D(x,xki)是樣本x到類ωi的第k個樣本的距離,這個距離一般采用歐氏距離,也可采用其他距離。這個規則表明,只要樣本x到某個類的某個樣本的距離最近,就將樣本x分給該類,也就是說,將樣本xki分給離它最近的那個樣本對所屬的類ωi,因此又稱最近鄰判別規則。近鄰法近鄰法不難將1-NN規則推廣到k-NN規則。在5.1.1節的條件下,對每個待分類的樣本x,找出k個最近鄰,它們分別屬于c個類。令k=k1+k2+…+kc,其中k1為類ω1的樣本數,k2為類ω2的樣本數……kc為類ωc的樣本數,于是k-NN規則為近鄰法簡單地說,就是將樣本x分給k個最近鄰中的多數所屬的那個類。在實際應用中,往往規定這個多數不能低于某個最低數,否則就拒絕判別而將該樣本x排除。這種判別規則又稱k近鄰判別規則。近鄰法可以看出,為了執行近鄰法分類,需要將已分類的樣本集X={x1,x2…xn}存入計算機;對每個待分類的樣本x,要求計算x到樣本集x中的所有樣本的距離,然后進行距離比較。為了減小錯誤率,要求n很大,這就使得這種分類方法的存儲量和計算量都很大。近鄰法距離度量特征空間中兩個實例點的距離是兩個點的相似度的反映。k近鄰模型的特征空間一般是n維實數向量空間Rn,使用的距離是歐氏距離,但也可使用其他距離,例如更一般的Lp距離,近鄰法01k值的選擇k值的選擇對結果有很大的影響。03kd樹為了提高k近鄰搜索的效率,減少計算距離的次數,k近鄰算法一般采用kd樹來存儲訓練數據。02決策規則k近鄰分類決策規則往往是多數表決,即由輸入實例的k個近鄰訓練實例中的多數類決定輸入實例的類。近鄰法02邏輯斯蒂回歸一般情況下,我們關心的變量可能與多個自變量有關,這就是多元線性回歸問題,即y=w0+w1x1+…+wnxn+b。其中y是我們要回歸的變量,b是回歸的殘差,即用x的線性函數w0+w1x1+…+wnxn估計y帶來的誤差。邏輯斯蒂回歸系數wi的直觀解釋是,當其他因素不變時,特征xi增加一個單位給y帶來的變化。然而,在模式識別問題中,我們關心的是分類,譬如是否患某種病,這時不能用簡單的線性回歸方法研究特征與分類之間的關系。邏輯斯蒂回歸考慮兩分類任務。設x∈R是樣本的特征,y∈{0,1}是樣本的類標記,在這種情況下,很難用一個線性模型來表示y和x之間的關系。但是可以找到一個函數將分類任務的真實標記y與線性回歸模型的預測值聯系起來,即將線性回歸模型產生的預測值z=wTx+b轉換為兩分類的0/1值。邏輯斯蒂回歸邏輯斯蒂函數的圖像如圖5.4所示。邏輯斯蒂回歸03決策樹與隨機森林決策樹是一種十分常用的分類方法。決策樹是一個預測模型,代表對象屬性與對象值之間的一種映射關系。通常使用ID3、C4.5和CART等算法生成樹。決策樹與隨機森林非數值特征:定名特征只能比較相同/不同,無法比較相似性/大小。例如,顏色、形狀、性別、民族、職業、字符串中的字符、DNA序列中的核酸類(A、C、G、T)等。決策樹與隨機森林定序特征一種數值,可能有順序,但不能視為歐氏空間中的數值,如序號、分級等。決策樹與隨機森林定距特征與研究目標之間呈非線性關系的數值特征,需要分區段處理,可以比較大小,但沒有“自然的”零,如年齡、考試成績、溫度等。決策樹與隨機森林決策樹決策樹是類似于流程圖的樹形結構,其中樹的每個內部節點代表對一個屬性(取值)的測試,每個分支代表測試的一個結果,每個葉節點代表一個類。樹的最高層節點是根節點。決策樹與隨機森林圖5.5所示為示意性決策樹,它描述的是購買電腦的分類模型,利用它可對一名學生是否在商場購買電腦進行分類預測。決策樹的中間節點常用矩形表示,而葉節點常用橢圓表示。決策樹與隨機森林為了對未知數據對象進行分類識別,可以根據決策樹的結構對數據集中的屬性值進行測試。從決策樹的根節點到葉節點的一條路徑,形成對相應對象的類預測。決策樹可以很容易地轉換為分類規則。決策樹與隨機森林下面的算法5.1是學習構造決策樹的一個基本歸納算法。構造決策樹時,有許多由數據集中的噪聲或異常數據產生的分支。樹枝修剪(TreePruning)是指識別并消除這類分支,以幫助改善對未知對象分類的準確性。決策樹與隨機森林屬性選擇方法在決策樹歸納方法中,通常使用信息增益方法來幫助確定生成每個節點時所應采用的合適屬性。這樣,就可以選擇具有最高信息增益(熵減少的程度最大)的屬性作為當前節點的測試屬性,以便分類之后劃分得到訓練樣本子集時所需要的信息最小。決策樹與隨機森林也就是說,利用該屬性進行當前(節點所含)樣本集劃分,會使得產生的各樣本子集中的“不同類混合程度”降至最低。因此,采用這樣一種信息論方法可以有效減少對象分類所需的次數,確保產生的決策樹最簡單,盡管不一定是最簡單的。決策樹與隨機森林設S是一個包含s個數據樣本的集合,且類屬性可以取m個不同的值,它們對應于m個不同的類Ci,i∈{1,2,3,…,m}。假設si為類Ci中的樣本數。于是,對一個給定數據對象進行分類所需的信息量為決策樹與隨機森林式中,pi是任意一個數據對象屬于類Ci的概率,可按si/s計算;之所以出現以2為底的對數,是因為在信息論中信息都是按位進行編碼的。設屬性A取v個不同的值{a1,a2,a3…,av}。決策樹與隨機森林過學習與決策樹的剪枝決策樹建立后,許多分支都是根據訓練樣本集中的異常數據構造出來的。樹枝修剪就是針對這類數據的過擬合問題而提出的。樹枝修剪方法通常利用統計方法刪去最不可靠的分支(樹枝),以提高分類識別的速度和分類識別新數據的能力。決策樹與隨機森林事前修剪(Prepruning)方法:該方法提前停止分支生成過程,即在當前節點上判斷是否需要繼續劃分該節點所含的訓練樣本集。一但停止分支,當前節點就成為一個葉節點,該葉節點中可能包含多個不同類的訓練樣本。決策樹與隨機森林在建造一棵決策樹時,可以利用卡方檢驗或信息增益等來對分支生成情況(優劣)進行評估。在一個節點上劃分樣本集時,如果節點中的樣本數少于指定的閾值,就要停止分解樣本集。然而,確定這樣一個合理的閾值通常比較困難。閾值過大會使得決策樹過于簡單化,閾值過小又會使得多余的樹枝無法修剪。決策樹與隨機森林事后修剪(Postpruning)方法該方法從一棵“充分生長”樹中修剪掉多余的樹枝(分支)。基于代價成本的修剪算法就是一種事后修剪方法。被修剪(分支)的節點成為一個葉節點,并標記為其所包含樣本中類數最多的類。決策樹與隨機森林對于樹中的每個非葉節點,計算出該節點(分支)被修剪后所發生的預期分類錯誤率,同時根據每個分支的分類錯誤率及每個分支的權重(樣本分布),計算該節點不被修剪時的預期分類錯誤率。如果修剪導致預期分類錯誤率變大,就放棄修剪,保留相應節點的各個分支,否則就將相應的節點分支剪掉。決策樹與隨機森林產生一系列經過修剪的決策樹候選后,利用一個獨立的測試數據集對這些經過修剪的決策樹的分類準確性進行評價,保留預期分類錯誤率最小的(修剪后)決策樹。除了利用預期分類錯誤率進行決策樹修剪,還可利用決策樹的編碼長度來修剪決策樹。所謂最佳修剪樹,是指編碼長度最短的決策樹。決策樹與隨機森林該修剪方法利用最短描述長度(MinimumDescriptionLength,MDL)原則來修剪決策樹,基本思想是:最簡單的就是最好的。與基于代價成本的方法相比,利用MDL進行決策樹修剪不需要額外的獨立測試數據集。當然,事前修剪可以與事后修剪相結合,可以構成混合修剪方法。事后修剪比事前修剪需要更多的計算時間,因此可以獲得更可靠的決策樹。決策樹與隨機森林隨機森林基于數據結構的模式識別方法面臨著一個共同的問題,即數據的隨機性問題。該方法的任何一次實現都是基于一定數據集的,這個數據集只是所有可能數據中的一次隨機抽樣。決策樹與隨機森林很多方法的結果受這種隨機性的影響,訓練得到的分類器也有一定的偶然性,當樣本量比較少時,情況更是如此。在訓練過程中,決策樹根據每個節點下的局部劃分準則進行學習,受樣本隨機性的影響可能更大一些,容易導致過學習。決策樹與隨機森林隨機森林是指建立很多決策樹,組成決策樹的“森林”,通過多棵樹投票來進行決策。理論和試驗研究都表明,這種方法能夠有效提高對新樣本的分類準確度,也就是推廣能力。決策樹與隨機森林04小結本章首先簡要介紹了近鄰法、邏輯斯蒂回歸、決策樹與隨機森林,然后介紹了為快速求解近鄰法而構造kd樹的詳細過程。以及邏輯斯蒂回歸的原理和過程;最后描述了構造決策樹的算法過程。小結感謝觀看無監督學習和聚類第六章模式識別與機器學習新工科建設·人工智能與智能科學系列教材01引言前面在設計分類器時,一直假設訓練樣本集中每個樣本的類標記都是已知的。這種利用已標記樣本集的方法稱為監督方法。本章介紹一些無監督方法,以處理未被標記樣本類的樣本集。引言收集并標記大型樣本集是件非常費力的事情,如果能夠首先在一個較小的樣本空間中粗略地訓練一個分類器。然后讓它自適應地處理大量的無監督樣本,我們就可節省大部分時間和精力。引言此外,在一些應用中,因為我們往往不知道數據的具體情況,所以首先要用大量未標記的數據集自動地訓練分類器,然后人工地標記數據分組的結果。這些問題都需要我們在未知樣本標記的情況下建立一個分類器,以對樣本集中的數據做一定的分類,或者得到樣本集中數據的某種基本特征。引言02混合模型的估計無監督最大似然估計考慮由n個樣本組成的樣本集D={x1,x2…,xn},這些樣本都是未標記的,且是獨立地對一個混合密度采樣得到的。這個混合密度為混合模型的估計式中,參數向量θ具有確定但未知的值。于是,樣本集的似然函數就具有如下聯合概率密度形式:使得該密度函數最大的參數值^θ就是θ的最大似然估計值。混合模型的估計正態分布下的無監督參數估計在很多情況下,我們都假設樣本服從正態分布。在聚類分析中引入混合模型后,樣本服從混合正態分布。分布的每個分量密度都是多元正態分布的,即p(x|ωi,θi)~N(μi,∑i)。混合模型的估計在混合正態分布的參數估計中,我們將引出幾種不同情況下的參數估計:第一種是只有均值向量是未知的,而方差向量和類的先驗知識是已知的。第二種是只有樣本集中數據所屬的類數是已知的,而每個類分布的均值、方差、類先驗知識都是未知的;第三種是,第二種情況下樣本集中數據所屬的類數也是未知的。混合模型的估計03動態聚類算法在聚類分析中,動態聚類算法被普遍采用,該算法首先選擇某種樣本相似性度量和適當的聚類準則函數。使用迭代算法,在初始劃分的基礎上逐步優化聚類結果,使準則函數達到極值。動態聚類算法對于動態聚類算法,要解決的關鍵問題如下。02代表點選好后,如何將所有樣本區分到以代表點為初始聚類中心的范圍內,形成初始劃分,是算法的另一個關鍵問題。01首先選擇有代表性的點作為起始聚類中心。動態聚類算法均值聚類算法c均值聚類算法使用的聚類準則函數是誤差平方和準則Jc:動態聚類算法式中,X={xi,i=1,2,…,N}是所給樣本集的N個樣本,rkj表示樣本xk是否被分配到以m為聚類中心的聚類中。M={mj,j=1,2,…,K}是需要求解的c個聚類中心。為了優化聚類結果,應使準則Jc最小。動態聚類算法ISODATA聚類算法ISODATA算法:英文全稱為IterativeSelf-OrganizingDataAnalysisTechniquesAlgorithm,中文全稱為迭代自組織數據分析技術算法。ISODATA算法的特點:可以通過類的自動合并與分裂得到較合理的類數c。動態聚類算法ISODATA算法的流程框圖如圖6.4所示。動態聚類算法04層次聚類算法凝聚的層次聚類算法自底向上的層次聚類過程是相似類之間的凝聚過程。它首先將每個對象作為一個類,然后將這些類合并為越來越大的類,直到所有樣本都在同一個類中,或者滿足某個終止條件。層次聚類算法分裂的層次聚類算法分裂的層次聚類算法與凝聚的層次聚類算法相反。這種算法采用自頂向下的策略,首先將所有樣本設為同一個類,然后逐漸細分為越來越多的小類,直到每個樣本都自成一個類,或者達到某個終止條件。層次聚類算法圖6.5顯示了凝聚和分裂的層次聚類。層次聚類算法05譜聚類譜聚類是一種基于圖論的聚類方法,它使用關聯矩陣的譜分解所傳達的信息,選擇合適的特征向量聚類不同的數據點。聚類算法將數據集中的每個樣本都視為圖的一個頂點V,將頂點間的相似性度量作為相應頂點連接邊E的權值。譜聚類到一個基于相似度的無向加權圖,進而將聚類問題轉化為圖的劃分問題。基于圖論的最優劃分準則使得所劃分的子圖內部相似度最大,子圖之間的相似度最小。譜聚類如圖6.6所示,最小劃分準則會使得兩個聚類被虛線分開,但實線是更優的劃分。譜聚類06模糊聚類方法前幾章中介紹的聚類算法主要分為兩大類。一類算法根據已知樣本分布概率密度的基本形式來估計概率密度的各個參數,使得某個樣本以一定的概率屬于某個類,如高斯混合模型;另一類算法不使用概率密度,但每個樣本都確定地屬于某個類,而在其他類中沒有分布,如c均值聚類。模糊聚類方法基于概率的聚類方法的難點是,使用概率密度函數時要假設合適的模型,不易處理聚類不致密的情形。對于c均值聚類來說,確定地將某個樣本歸入某個類可能會引入錯誤。模糊聚類算法可以擺脫這些限制。模糊聚類方法模糊集基本知識模糊集的定義如下:設U是一個論域,U到區間[0,1]的一個映射μ:U→[0,1]確定U的一個模糊子集A。映射μ稱為A的隸屬函數,記為μA(u)。對于任意u∈U,μA(u)∈[0,1]稱為u屬于模糊子集A的程度,簡稱隸屬度。模糊聚類方法模糊c均值算法大多數模糊聚類算法是通過使如下代價函數式最小得到的:模糊聚類方法07相似性傳播聚類相似性傳播聚類算法是以因子圖上的最大積置信傳播為基礎的聚類算法。該算法根據樣本與樣本構成的相似矩陣,構建有向連通圖G=(V,E),其中V表示圖中的所有頂點集,E表示圖中的所有邊集,邊的權值為節點之間的相似度。相似性傳播聚類相似性傳播聚類算法同時將所有樣本點視為潛在的聚類中心,得到一個較好的聚類中心集。在每次迭代過程中,各個點傳遞的信息量反映當前一個數據點支持另一個數據點作為其聚類中心的程度。相似性傳播聚類08小結本章介紹了無監督學習中的分布參數估計方法和聚類方法。當不確定每個訓練樣本的類屬性而又要對分類器進行訓練時,就要采用無監督訓練。小結本章首先介紹了無監督訓練中的分布參數估計方法,主要針對隨機模式分類器,包含無監督最大似然估計和正態分布情況下的無監督參數估計。訓練結果是完全確定c個類的分量密度,進而完全確定分類器的性能。小結然而,當預先不知道類數時,或者使用參數估計或非參數估計難以分辨不同類的類概率密度函數時,為了確定分類性能,可以采用聚類分析方法。本章介紹了幾種比較成熟的聚類算法,包括動態聚類算法、層次聚類算法、譜聚類算法、模糊聚類算法和相似性傳播聚類算法。小結對于動態聚類算法,介紹了均值聚類算法和ISODATA算法。對于層次聚類算法,介紹了基于凝聚和分裂的層次聚類算法。在介紹這些算法的同時,著重說明了對聚類方法有較大影響的關鍵問題。小結感謝觀看核方法和支持向量機第七章模式識別與機器學習新工科建設·人工智能與智能科學系列教材01引言在機器學習與模式識別中,如在回歸與分類問題的線性參數模型中,從輸入x到輸出y的映射y(x,w)由自適應參數w控制。在學習階段,一組訓練數據被用于參數向量的點估計,或用于判別參數向量的后驗分布。引言然后,丟棄訓練數據,對新輸入的預測僅依賴于被學習的參數向量w。這一方法同樣適用于非線性參數模型,如神經網絡。引言然而,在另一類模式識別技術中,訓練數據點或者其中的一個子集在預測階段仍被保留或應用。例如,Parzen概率密度模型包含核函數的線性組合,其中的每個核函數都以一個訓練數據點為中心。引言類似地,“最近鄰域”這樣的簡單分類技術對每個新測試向量分配訓練集中與其最接近例子的相同標簽。基于記憶的方法存儲整個數據集,以便對未來數據點做出預測。這類方法的特點是,需要預先定義一個度量標準來測量輸入空間中兩個向量的相似度,訓練速度通常很快,但對測試數據點做出預測的速度很慢。引言02核學習機大多數線性參數模型都采用對偶形式表達為核函數的形式。其中預測根據核函數的線性組合得到,核函數則通過訓練數據點估計。核學習機如將要看到的那樣,對于依賴不變非線性特征空間的映射φ(x),核函數由如下關系式給出:由以上定義可以看出,核是關于其參數的一個對稱函數,于是有k(x,x')=k(x',x)。核學習機考慮式(7.1)中特征空間的恒等映射,即φ(x)=x,有k(x,x')=xTx',我們將其稱為線性核,這是最簡單的核函數。核被表述為特征空間內積的概念可讓我們擴展許多被人熟知的算法,方法是采用核決策或者核置換。核學習機核方法是解決非線性模式分析問題的有效途徑之一,其核心思想如下:首先,通過某個非線性映射將原始數據嵌入合適的高維特征空間。然后,利用通用線性學習器在這個新空間中分析和處理模式。核方法基于如下假設:在低維空間中不能線性分割的點集,轉換為高維空間中的點集后,很可能變成線性可分的。核學習機相對于使用通用非線性學習器直接在原始數據上進行分析的范式,核方法具有如下優點:首先,通用非線性學習器不便反映具體應用問題的特性,而核方法的非線性映射因面向具體應用問題設計而便于集成問題相關的先驗知識。線性學習器相對于非線性學習器有更好的過擬合控制,因此可以更好地保證泛化性能。核學習機03支持向量機支持向量機(SupportVectorMachines)是一種二分類模型,目的是尋找一個超平面來分割樣本。分割的原則是間隔最大化,最終轉換為一個凸二次規劃問題來求解。支持向量機由簡至繁的模型包括:當訓練樣本線性可分時,通過硬間隔最大化,學習一個線性可分支持向量機。當訓練樣本近似線性可分時,通過軟間隔最大化,學習一個線性支持向量機。當訓練樣本線性不可分時,通過核技巧和軟間隔最大化,學習一個非線性支持向量機。支持向量機線性可分支持向量機支持向量機通過間隔的概念來解決這個問題,間隔定義為兩個異類支持向量到超平面的距離之和,如圖7.1所示。支持向量機在支持向量機中,決策邊界選為間隔最大的那個。最大間隔的解受計算學習理論的推動。然而,了解最大間隔的起源后,就會發現旱在2000年它就被Tong和Koller提出他們考慮了一個基于生成和判別方法的分類框架。支持向量機軟間隔線性支持向量機在前面的討論中,我們假設訓練樣本在樣本空間或特征空間中是線性可分的。但在現實任務中往往很難確定合適的核函數使訓練集在特征空間中線性可分。支持向量機即使找到了這樣的核函數使得樣本在特征空間中線性可分,也很難判斷其是否由過擬合造成。因此,人們提出了線性支持向量機(軟間隔支持向量機)。支持向量機為了解決該問題,可對每個樣本點引入一個松弛變量(見圖7.2)。支持向量機非線性支持向量機到目前為止,我們都假設訓練數據點在特征空間q(x)中是線性可分的。盡管相應的決策邊界是非線性的,支持向量機的結果仍會在原始輸入空間x中給出訓練數據的準確分類。支持向量機實際上,類條件分布可能是重疊的,這時訓練數據的準確分類會導致較差的推廣。對于非線性問題,線性可分支持向量機并不能有效地解決,需要使用非線性模型。支持向量機非線性問題往往不好求解,因此希望能用解線性分類問題的方法求解。于是,我們可以采用非線性變換將非線性問題變換成線性問題。支持向量機對于這樣的問題,可將訓練樣本從原始空間映射到一個高維空間,使樣本在高維空間中線性可分。如果原始空間的維數是有限的,即屬性是有限的,就一定存在一個高維特征空間是樣本可分的。支持向量機于是,在特征空間中劃分超平面對應的模型就可以表示為最小化函數為支持向量機04支持向量回歸機下面將支持向量機擴展到回歸問題,同時保留稀疏性。在簡單的線性回歸中,我們用式(7.39)最小化一個正規化誤差函數:支持向量回歸機ε不敏感誤差函數的一個簡單例子如下,它與不敏感區域外誤差相比有一個線性損失,如圖7.3所示:支持向量回歸機奇異值分解回歸示意圖,如圖7.4所示:支持向量回歸機圖7.5采用正弦數據集顯示了如何用支持向量機解決回歸分析問題,其中參數v和C是人為選擇的。支持向量回歸機05小結本章介紹了核方法和支持向量機的相關知識,并且基于核學習機的定義和核函數重點介紹了支持向量機在分類核回歸問題上的應用。即線性可分支持向量機、線性與非線性支持向量機和線性與非線性支持向量回歸機。小結感謝觀看神經網絡和深度學習第八章模式識別與機器學習新工科建設·人工智能與智能科學系列教材01引言簡單來說,人工神經網絡是指模仿生物大腦的結構和功能,采用數學和物理方法進行研究而構成的一種信息處理系統或計算機。人是地球上具有最高智慧的生物,而人的智能均來自大腦,人類靠大腦進行思考、聯想、記憶和推理判斷,這些功能是任何被稱為電腦的計算機都無法取代的。引言長期以來,很多科學家一直致力于人腦內部結構和功能的研究,試圖建立模仿人類大腦的計算機。截至目前,雖然人們對大腦的內部工作原理還不甚清楚,但對其結構已有所了解。引言02感知器感知器的概念美國學者F.Rosenblatt在1957年提出了感知器模型,如圖8.1所示。感知器因此,它實質上是一種線性閾值計算單元,如圖8.2所示。感知器感知器訓練算法及其收斂性通過上面的定義,感知器問題就變成了ωi/ωj,兩類問題。因此,感知器的自組織、自學習思想可用于確定性分類器的訓練。這就是感知器訓練方法。感知器針對ωi/ωj兩類問題,可以利用增廣模式向量、增廣加權向量和判決規則感知器感知器準則函數及梯度法我們知道,一個函數的梯度指明了其自變量增加時該函數的最大增大率方向,負梯度則指明了同樣條件下函數的最陡下降方向。基于梯度函數這一重要性質,下面介紹梯度法。感知器求函數f(w)的數值解時,通常只能求出某種意義下的最優解,即首先定義一個準則函數,然后在使此準則函數最大或最小的情況下,求出f(w)的解。梯度法首先確定一個準則函數J(w),然后選擇一個初值w(1),通過迭代方法找到w的數值解。感知器03多層前向神經網絡一般來說,一個人工神經元網絡由多層神經元結構組成,而每層神經元都包含輸入和輸出兩部分。每層神經網絡Iayer(i)(i表示網絡層數)由Ni個網絡神經元組成,layer(i-1)層神經元的輸出是layer(i)層神經元的輸入。多層前向神經網絡多層前向神經網絡神經網絡的設計涉及網絡的結構、神經元的數量,以及網絡的層數、神經元的激活函數、初始值和學習算法等。對于多層感知器網絡來說,輸入層和輸出層的神經元數量可以根據需要求解的問題來確定。多層前向神經網絡因此,多層感知器網絡的設計一般應從網絡的層數、隱藏層中的神經元數量、神經元的激活函數、初始值和學習率等方面來考慮。在設計過程中,應當盡可能地減小神經網絡模型的規模,以便縮短網絡的訓練時間。多層前向神經網絡BP神經網絡基本BP算法包括兩個方面:信號的正向傳播和誤差的反向傳播。也就是說,計算實際輸出時按從輸入到輸出的方向進行,而權值和閾值的修正從輸出到輸入的方向進行。多層前向神經網絡網絡結構:BP神經網絡結構示意圖如圖8.6所示。多層前向神經網絡RBF神經網絡徑向基函數(RedialBasisFunction,RBF)神經網絡是由J.Moody和C.Darken于20世紀80年代末提出的一種神經網絡模型。它是由輸入層、隱藏層(徑向基層)和線性輸出層組成的前向神經網絡。多層前向神經網絡04自組織特征映射神經網絡生物學研究表明,在人腦的感覺通道上,神經元的組織原理是有序排列的。當外界的特定時空信息輸入時,大腦皮層的特定區域興奮,而且類似的外界信息在對應的區域中是連續映像的。自組織特征映射神經網絡生物視網膜中有許多特定的細胞對特定的圖形比較敏感,當視網膜中有若干接收單元同時受特定模式刺激時;就使大腦皮層中的特定神經元開始興奮,輸入模式接近,與之對應的興奮神經元也接近。在聽覺通道上,神經元在結構排列上與頻率的關系十分密切,對于某個頻率,特定的神經元具有最大的響應,位置相鄰的神經元具有相近的頻率特征,而相互遠離的神經元具有的頻率特征差別也較大。自組織特征映射神經網絡SOM神經網絡結構輸入層:通過加權向量將外界信息匯集到輸出層的各神經元。輸入層的形式與BP神經網絡的相同,節點數與樣本維數相同。輸出層:輸出層也是競爭層。其神經元的排列有多種形式,分為一維線陣、二維平面陣和三維柵格陣。自組織特征映射神經網絡最典型的結構是二維形式,它更具大腦皮層的形象,如圖8.11所示。自組織特征映射神經網絡05深度學習深度學習是機器學習的一個分支,主要是傳統神經網絡的進一步發展,現已廣泛應用于人工智能的很多方面。如圖像分類、目標檢測、景深估計、超分辨重建等,并取得了非常好的效果。深度學習在機器學習的發展歷程中,人工神經網絡曾是非常熱的一個領域,但是后來由于人工神經網絡的理論分析較為困難。在當時的計算機等硬件水平下,其他一些人工智能方法有著不輸人工神經網絡的效率,人工神經網絡的研宄逐漸退出了人們的視野。深度學習2006年,Hinton提出了逐層訓練的思想,并且利用逐層訓練建立的網絡模型在分類方面取得了很好的效果,使得深度學習被研究人員所關注。2012年,Krizhevsky等人提出了深度網絡模型AlexNet,該網絡模型在2012年的Imagenet挑戰中取得了最好的分類效果。深度學習深度學習的應用范圍十分廣泛,在圖像處理方面,有2012年用于圖片級別分類(確定整張圖片包含的內容屬于什么類)的AlexNet。有2014年用于像素級別分類(確定一張圖片中的每個像素屬于什么類)的全卷積網絡FCN,還有2015年用于圖像超分辨重建和單張圖片景深估計方面的深度卷積網絡。深度學習自2016年以來,一些基于深度學習的圖像問答研究取得了一定的進展。在工業界,各種IT巨頭也對深度學習表現出了足夠的重視。Google、Baidu、Microsoft等公司均成立了專門的研究院,并且取得了有意義的研究成果。深度學習研究深度學習的相關模型對計算機的硬件水平有一定的要求,而現在的計算機硬件發展十分迅速。各種高性能的CPU處理器、強大的GPU運算單元、存儲量巨大的硬盤等,都為深度學習的發展建立了理想的平臺,深度學習領域的相關研究成果呈現出爆炸式增長。深度學習近年來,深度學習發展十分迅速,研究人員提出了大量的深度學習模型。本節詳細介紹深度學習的幾個常用模型。包括堆棧式自編碼網絡、深度置信網絡、卷積神經網絡、循環神經網絡和生成對抗網絡。深度學習堆棧式自編碼網絡(SAE)前面在對比淺層學習和深度學習時說過,簡單地增加淺層人工神經網絡的層數并不能得到深度學習模型。原因是簡單增加層數后,訓練時會出現梯度擴散(膨脹)問題。深度學習深度置信網絡(DBN)RBM結構示意圖如圖8.16所示。深度學習卷積神經網絡(CNN)卷積神經網絡(ConvolutionalNeuralNetwork,CNN)是另一種深度學習模型,現已成為語音分析和圖像識別領域的研究熱點。它的權值共享網絡結構使之更加類似于生物神經網絡,因此降低了網絡模型的復雜度,減少了權值的數量。深度學習循環神經網絡(RNN)RNN是一種特殊的神經網絡結構,它是根據“人的認知基于過往的經驗和記憶”這一觀點提出的。與CNN不同的是,它不僅考慮前一時刻的輸入,而且賦予網絡對前面的內容的一種“記憶”功能。深度學習生成對抗網絡(GAN)圖8.26中顯示了GAN模型中的生成模型和判別模型。深度學習擴散模型擴散模型(DiffusionModel)是深度生成模型中最先進的模型之一。擴散模型在圖像合成任務上超越了GAN模型,且在其他多項任務上也表現出了較大的潛力,如計算機視覺、自然語言處理和多模態建模等。深度學習Transformer模型Transformer模型是一種基于注意力機制的深度學習模型,最初用于自然語言處理(NLP)任務,在機器翻譯中表現尤其出色。Transformer的主要貢獻是提出了自注意力(Self-Attention)機制和多頭(Multi-Head)注意力機制。深度學習06小結人類關于認知的探索由來已久。早在公元前400年左右,希臘哲學家柏拉圖和亞里士多德等就對人類認知的性質和起源進行過思考,并且發表了有關記憶和思維的論述。在此及以后很長的一段時間內,由于受限于科學技術發展水平,人們對人腦的認識主要停留在觀察和猜測之上,缺乏對人腦內部結構及工作原理的了解。小結直到20世紀40年代,隨著神經解剖學、神經生理學及神經元的電生理過程等的研究取得突破性進展,人們對人腦的結構、組成及最基本工作單元才有了越來越充分的認識。在此基本認識的基礎上,綜合數學、物理學及信息處理等學科的方法對人腦神經網絡進行抽象,并且建立簡化的模型——人工神經網絡。小結感謝觀看特征選擇與提取第九章模式識別與機器學習新工科建設·人工智能與智能科學系列教材01引言模式識別中的特征選擇問題,是指在模式識別問題中,采用計算的方法從一組給定的特征中選擇部分特征進行分類。這是降低特征空間維數的一種基本方法,重點在于從D個特征中選出d(<D)個特征。引言另一種降低特征空間維數的方法是特征提取,即采用適當的變換將D個特征變換成d(<D)個新特征。這樣做的目的有二:一是降低特征空間的維數,使后續分類器設計在計算上更易實現;二是消除特征之間可能存在的相關性,減少特

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論