支持向量機入門_第1頁
支持向量機入門_第2頁
支持向量機入門_第3頁
支持向量機入門_第4頁
支持向量機入門_第5頁
已閱讀5頁,還剩27頁未讀 繼續免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

支持向量機入門第1頁,共32頁,2023年,2月20日,星期五內容SVM的理論基礎線性判別函數和判別面最優分類面支持向量機LIBSVM簡介實驗第2頁,共32頁,2023年,2月20日,星期五SVM的理論基礎傳統的統計模式識別方法只有在樣本趨向無窮大時,其性能才有理論的保證。統計學習理論(STL)研究有限樣本情況下的機器學習問題。SVM的理論基礎就是統計學習理論。傳統的統計模式識別方法在進行機器學習時,強調經驗風險最小化。而單純的經驗風險最小化會產生“過學習問題”,其推廣能力較差。推廣能力是指:將學習機器(即預測函數,或稱學習函數、學習模型)對未來輸出進行正確預測的能力。

第3頁,共32頁,2023年,2月20日,星期五SVM的理論基礎

“過學習問題”:某些情況下,當訓練誤差過小反而會導致推廣能力的下降。例如:對一組訓練樣本(x,y),x分布在實數范圍內,y取值在[0,1]之間。無論這些樣本是由什么模型產生的,我們總可以用y=sin(w*x)去擬合,使得訓練誤差為0.第4頁,共32頁,2023年,2月20日,星期五SVM的理論基礎根據統計學習理論,學習機器的實際風險由經驗風險值和置信范圍值兩部分組成。而基于經驗風險最小化準則的學習方法只強調了訓練樣本的經驗風險最小誤差,沒有最小化置信范圍值,因此其推廣能力較差。Vapnik與1995年提出的支持向量機(SupportVectorMachine,SVM)以訓練誤差作為優化問題的約束條件,以置信范圍值最小化作為優化目標,即SVM是一種基于結構風險最小化準則的學習方法,其推廣能力明顯優于一些傳統的學習方法。第5頁,共32頁,2023年,2月20日,星期五SVM的理論基礎由于SVM的求解最后轉化成二次規劃問題的求解,因此SVM的解是全局唯一的最優解SVM在解決小樣本、非線性及高維模式識別問題中表現出許多特有的優勢,并能夠推廣應用到函數擬合等其他機器學習問題中.第6頁,共32頁,2023年,2月20日,星期五線性判別函數和判別面一個線性判別函數(discriminantfunction)是指由x的各個分量的線性組合而成的函數

兩類情況:對于兩類問題的決策規則為如果g(x)>=0,則判定x屬于C1,如果g(x)<0,則判定x屬于C2第7頁,共32頁,2023年,2月20日,星期五線性判別函數和判別面方程g(x)=0定義了一個判定面,它把歸類于C1的點與歸類于C2的點分開來。當g(x)是線性函數時,這個平面被稱為“超平面”(hyperplane)。當x1和x2都在判定面上時,這表明w和超平面上任意向量正交,并稱w為超平面的法向量。超平面第8頁,共32頁,2023年,2月20日,星期五線性判別函數和判別面

判別函數g(x)是特征空間中某點x到超平面的距離的一種代數度量.第9頁,共32頁,2023年,2月20日,星期五線性判別函數和判別面廣義線性判別函數

在一維空間中,沒有任何一個線性函數能解決下述劃分問題(黑紅各代表一類數據),可見線性判別函數有一定的局限性。第10頁,共32頁,2023年,2月20日,星期五線性判別函數和判別面廣義線性判別函數如果建立一個二次判別函數g(x)=(x-a)(x-b),則可以很好的解決上述分類問題。決策規則仍是:如果g(x)>=0,則判定x屬于C1,如果g(x)<0,則判定x屬于C2。第11頁,共32頁,2023年,2月20日,星期五線性判別函數和判別面第12頁,共32頁,2023年,2月20日,星期五線性判別函數和判別面廣義線性判別函數第13頁,共32頁,2023年,2月20日,星期五最優分類面SVM是從線性可分情況下的最優分類面發展而來的,基本思想可用下圖的兩維情況說明.圖中,方形點和圓形點代表兩類樣本,H為分類線,H1,H2分別為過各類中離分類線最近的樣本且平行于分類線的直線,它們之間的距離叫做分類間隔(margin)。

所謂最優分類線就是要求分類線不但能將兩類正確分開(訓練錯誤率為0),而且使分類間隔最大.推廣到高維空間,最優分類線就變為最優分類面。

第14頁,共32頁,2023年,2月20日,星期五最優分類面

設線性可分的樣本集:D維空間中的線性判別函數:

這樣分類間隔就等于,因此要求分類間隔最大,就要求最大.而要求分類面對所有樣本正確分類,就是要求滿足

第15頁,共32頁,2023年,2月20日,星期五最優分類面求最優分類面(最大間隔法)已知:求解:目標:最優分類面這是一個二次凸規劃問題,由于目標函數和約束條件都是凸的,根據最優化理論,這一問題存在唯一全局最小解.原問題第16頁,共32頁,2023年,2月20日,星期五最優分類面凸集和凸函數凸函數的極小:若問題有局部解,則這個局部解是整體解.

第17頁,共32頁,2023年,2月20日,星期五最優分類面首先建立Lagrange函數

最終可得到對偶問題第18頁,共32頁,2023年,2月20日,星期五最優分類面線性不可分的情況下,可以條件中增加一個松弛項成為已知:求解:目標:最優分類面折衷考慮最少錯分樣本和最大分類間隔,就得到廣義最優分類面,其中,C>0是一個常數,它控制對錯分樣本懲罰的程度。第19頁,共32頁,2023年,2月20日,星期五支持向量機上節所得到的最優分類函數為:該式只包含待分類樣本與訓練樣本中的支持向量的內積運算,可見,要解決一個特征空間中的最優線性分類問題,我們只需要知道這個空間中的內積運算即可。

對非線性問題,可以通過非線性變換轉化為某個高維空間中的線性問題,在變換空間求最優分類面.這種變換可能比較復雜,因此這種思路在一般情況下不易實現.第20頁,共32頁,2023年,2月20日,星期五支持向量機核:第21頁,共32頁,2023年,2月20日,星期五支持向量機第22頁,共32頁,2023年,2月20日,星期五支持向量機核函數的選擇第23頁,共32頁,2023年,2月20日,星期五支持向量機SVM方法的特點①

非線性映射是SVM方法的理論基礎,SVM利用內積核函數代替向高維空間的非線性映射;②

對特征空間劃分的最優超平面是SVM的目標,最大化分類邊界的思想是SVM方法的核心;③

支持向量是SVM的訓練結果,在SVM分類決策中起決定作用的是支持向量。

SVM是一種有堅實理論基礎的新穎的小樣本學習方法。它基本上不涉及概率測度及大數定律等,因此不同于現有的統計方法。從本質上看,它避開了從歸納到演繹的傳統過程,實現了高效的從訓練樣本到預報樣本的“轉導推理”(transductiveinference),大大簡化了通常的分類和回歸等問題。第24頁,共32頁,2023年,2月20日,星期五支持向量機SVM方法的特點SVM的最終決策函數只由少數的支持向量所確定,計算的復雜性取決于支持向量的數目,而不是樣本空間的維數,這在某種意義上避免了“維數災難”。

少數支持向量決定了最終結果,這不但可以幫助我們抓住關鍵樣本、“剔除”大量冗余樣本,而且注定了該方法不但算法簡單,而且具有較好的“魯棒”性。這種“魯棒”性主要體現在:①增、刪非支持向量樣本對模型沒有影響;②支持向量樣本集具有一定的魯棒性;③有些成功的應用中,SVM方法對核的選取不敏感。第25頁,共32頁,2023年,2月20日,星期五支持向量機SVM本質上是兩類分類器.常用的SVM多值分類器構造方法有:

第26頁,共32頁,2023年,2月20日,星期五LIBSVM簡介

LIBSVM是臺灣大學林智仁(LinChih-Jen)副教授等開發設計的一個簡單、易于使用和快速有效的SVM模式識別與回歸的軟件包,他不但提供了編譯好的可在Windows系列系統的執行文件,還提供了源代碼,方便改進、修改以及在其它操作系統上應用;該軟件還有一個特點,就是對SVM所涉及的參數調節相對比較少,提供了很多的默認參數,利用這些默認參數就可以解決很多問題.第27頁,共32頁,2023年,2月20日,星期五支持向量機第28頁,共32頁,2023年,2月20日,星期五支持向量機前面介紹的C-SVM,有兩個相互矛盾的目標:最大化間隔和最小化訓練錯誤.其中的常數C起著調和這兩個目標的作用.定性地講,C值有著明確的含義:選取大的C值,意味著更強調最小化訓練錯誤.但定量地講,C值本身并沒有確切的意義,所以C值的選取比較困難.為此,人們提出了這個改進的方法.1、間隔錯誤樣本的個數所占總樣本數的份額的上界;2、支持向量的個數所占總樣本點數的份額的下界.第29頁,共32頁,2023年,2月20日,星

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論