徑向基核函數(radialbasisfunction)–rbf_第1頁
徑向基核函數(radialbasisfunction)–rbf_第2頁
徑向基核函數(radialbasisfunction)–rbf_第3頁
徑向基核函數(radialbasisfunction)–rbf_第4頁
徑向基核函數(radialbasisfunction)–rbf_第5頁
已閱讀5頁,還剩1頁未讀 繼續免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

1、徑向基核函數(RadialBasisFunction)-RBF發表于297天前?技術,科研?評論數8?被圍觀3526views+論文中又提到了RBF雖然是個簡單的核函數,但是也再總結一下。關于SVMfr的核函數的選擇,比較簡單和應用比較廣的是RBE所謂徑向基函數(RadialBasisFunction簡稱RBF),就是某種沿徑向對稱的標量函數。通常定義為空間中任一點x到某一中心xc之間歐氏間隔的單調函數,可記作k(|x-xc|),其作用往往是局部的,即當x遠離xc時函數取值很小。最常用的徑向基函數是高斯核函數,形式為k(|x-xc|)=exp-|x-xc11A2/(2*(t)a2)其中xc為核

2、函數中心,(T為函數的寬度參數,控制了函數的徑向作用范圍。建議首選RBF核函數,因為:1 .可以實現非線性映射;線性核函數可以證明是他的一個特例;SIGMOID核函數在某些參數上近似RBF的功能。2 .參數的數量影響模型的復雜程度,多項式核函數參數較多。3 .theRBFkernelhaslessnumericaldifficulties.那么,還記得為何要選用核函數么?對于這個問題,在Jasper'sJavaJacal博客?SVMK門七為彳需要核函數?中做了很詳細的闡述,另外博主對于SVM惠入門學習也是做了很詳細的闡述,有興趣的可以去學習,丕子覺得這個文章寫得相當好,特意轉載了過來,

3、紀念一下。假設提供的樣本線性不可分,結果很簡單,線性分類器的求解程序會無限循環,永遠也解不出來。這必然使得它的適用范圍大大縮小,而它的很多優點我們實在不原意放棄,怎么辦呢?是否有某種方法,讓線性不可分的數據變得線性可分呢?例子是下面這張圖:我們把橫軸上端點a和b之間紅色局部里的所有點定為正類,兩邊的黑色局部里的點定為負類。試問能找到一個線性函數把兩類正確分開么?不能,因為二維空間里的線性函數就是指直線,顯然找不到符合條件的直線。但我們可以找到一條曲線,例如下面這一條:顯然通過點在這條曲線的上方還是下方就可以判斷點所屬的類別你在橫軸上隨意找一點,算算這一點的函數值,會發現負類的點函數值一定比0大

4、,而正類的一定比0小。這條曲線就是我們熟知的二次曲線,它的函數表達式可以寫為:問題只是它不是一個線性函數,但是,下面要注意看了,新建一個向量y和a:這樣g(x)就可以轉化為f(y)=<a,y>,你可以把y和a分別回帶一下,看看等不等于原來的g(x)o用內積的形式寫你可能看不太清楚,實際上f(y)的形式就是:g(x)=f(y)=ay在任意維度的空間中,這種形式的函數都是一個線性函數只不過其中的a和y都是多維向量罷了,因為自變量y的次數不大于1。看出妙在哪了么?原來在二維空間中一個線性不可分的問題,映射到四維空間后,變成了線性可分的!因此這也形成了我們最初想解決線性不可分問題的根本思路

5、一一向高維空間轉化,使其變得線性可分。而轉化最關鍵的局部就在于找到x到y的映射方法。遺憾的是,如何找到這個映射,沒有系統性的方法也就是說,純靠猜和湊。詳細到我們的文本分類問題,文本被表示為上千維的向量,即使維數已經如此之高,也常常是線性不可分的,還要向更高的空間轉化。其中的難度可想而知。小Tips:為什么說f(y)=ay是四維空間里的函數?大家可能一時沒看明白。回想一下我們二維空間里的函數定義g(x)=ax+b變量x是一維的,為什么說它是二維空間里的函數呢?因為還有一個變量我們沒寫出來,它的完好形式其實是y=g(x)=ax+b即y=ax+b看看,有幾個變量?兩個,二維。再看看f(y)=ay里面

6、的y是三維的變量,再加上f(y)成為四維的了。用一個詳細文本分類的例子來看看這種向高維空間映射從而分類的方法如何運作,想象一下,我們文本分類問題的原始空間是1000維的即每個要被分類的文檔被表示為一個1000維的向量,在這個維度上問題是線性不可分的。如今我們有一個2000維空間里的線性函數f(x)=<w,x>+b注意向量的右上角有個哦。它可以將原問題變得可分。式中的w和x都是2000維的向量,只不過w是定值,而x是變量女?吧,嚴格說來這個函數是2001維的,哈哈,如今我們的輸入呢,是一個1000維的向量x,分類的過程是先把x變換為2000維的向量x,然后求這個變換后的向量x與向量w

7、的內積,再把這個內積的值和b相加,就得到了結果,看結果大于閾值還是小于閾值就得到了分類結果。你發現了什么?我們其實只關心那個高維空間里內積的值,那個值算出來了,分類結果就算出來了。而從理論上說,x是經由x變換來的,因此廣義上可以把它叫做x的函數有一個x,就確定了一個x,對吧,確定不出第二個,而w是常量,它是一個低維空間里的常量w經過變換得到的,所以給了一個w和x的值,就有一個確定的f(xj值與其對應。這讓我們夢想,是否能有這樣一種函數K(w,x),他承受低維空間的輸入值,卻能算出高維空間的內積值<w,x>?假設有這樣的函數,那么當2&了一個低維空間的輸入x以后,g(x)=K

8、(w,x)+bf(x)=<w,x>+b這兩個函數的計算結果就完全一樣,我們也就用不著費力找那個映射關系,直接拿低維的輸入往g(x)里面代就可以了再次提醒,這回的g(x)就不是線性函數啦,因為你不能保證K(w,x)這個表達式里的x次數不高于1哦。萬幸的是,這樣的K(w,x)確實存在發現但凡我們人類能解決的問題,大都是巧得不能再巧,特殊得不能再特殊的問題,總是恰好有些能投機取巧的地方才能解決,由此感到人類的渺小,它被稱作核函數核,kernel,而且還不止一個,事實上,只要是滿足了Mercer條件的函數,都可以作為核函數。核函數的根本作用就是承受兩個低維空間里的向量,可以計算出經過某個變

9、換后在高維空間里的向量內積值。幾個比較常用的核函數,俄,教課書里都列過,我就不敲了懶!。回想我們上節說的求一個線性分類器,它的形式應該是:如今這個就是高維空間里的線性函數為了區別低維和高維空間里的函數和向量,我改了函數的名字,并且給w和x都加上了,我們就可以用一個低維空間里的函數再一次的,這個低維空間里的函數就不再是線性的啦來代替,g(力二£&況£也產)+£=1又發現什么了?f(x')和g(x)里的a,y,b全都是一樣一樣的!這就是說,盡管給的問題是線性不可分的,但是我們就硬當它是線性問題來求解,只不過求解過程中,但凡要求內積的時候就用你選定的核函

10、數來算。這樣求出來的a再和你選定的核函數一組合,就得到分類器啦!明白了以上這些,會自然的問接下來兩個問題:1 .既然有很多的核函數,針對詳細問題該怎么選擇?2 .假設使用核函數向高維空間映射后,問題仍然是線性不可分的,那怎么辦?第一個問題如今就可以答復你:對核函數的選擇,如今還缺乏指導原那么!各種實驗的觀察結果不光是文本分類確實說明,某些問題用某些核函數效果很好,用另一些就很差,但是一般來講,徑向基核函數是不會出太大偏向的一種,首選。我做文本分類系統的時候,使用徑向基核函數,沒有參數調優的情況下,絕大局部類別的準確和召回都在85犯上,可見。雖然libSVM的作者林智仁認為文本分類用線性核函數效

11、果更佳,待考證對第二個問題的解決那么引出了我們下一節的主題:松弛變量。核函數有很多種,如線性核、多項式核、Sigmoid核和RBFRadialBasisfunction核。本文選定RBF核為SVM的核函數RBF核K(x,y)=exp(Y|x-y|的平方),T>0。因為RBF核可以將樣本映射到一個更高維的空間,可以處理當類標簽ClassLabels和特征之間的關系是非線性時的樣例。Keerthi等25證明了一個有懲罰參數C的線性核同有參數(C,丫)其中C為懲罰因子,T為核參數的RBF核具有一樣的性能。對某些參數,Sigmoid核同RBF核具有相似的性能26。另外,RBF核與多項式核相比具有參數少的優點。因為參數的個數直接影響到模型選擇的復雜性。非常重要的一點是0<Kij與多項式核相反,核值可能趨向無限(xixj+r>1)或者0<yxixj+r<1,跨度非常大。而且,必須注意的是Sigmoid核在某些參數下是不正確的例如,沒有兩個向量的內積。用穿插驗證找到最好的參數C和丫。使用RBF核時,要考慮兩個參數C和Y。因為參數的選擇并沒有一定的先驗知識,必須做某種類型的模型選擇參數搜索。目的是確定好的(C,丫)使得分類器能正確的預測未知數據即

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論