第5章近鄰法則和集群_第1頁
第5章近鄰法則和集群_第2頁
第5章近鄰法則和集群_第3頁
第5章近鄰法則和集群_第4頁
第5章近鄰法則和集群_第5頁
已閱讀5頁,還剩80頁未讀 繼續免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

1、第第5 5章章 近鄰法則和集群近鄰法則和集群 近鄰法則近鄰法則 近鄰法則的錯誤率近鄰法則的錯誤率 K-近鄰法則近鄰法則 快速近鄰算法快速近鄰算法 集群的準則函數集群的準則函數 迭代最優化方法迭代最優化方法 等級集群方法等級集群方法 一一. 近鄰法則近鄰法則 設有一個已知類別的樣本集:設有一個已知類別的樣本集:樣本集中的樣本分別屬于樣本集中的樣本分別屬于 個類別個類別:設每類的樣本數分別為設每類的樣本數分別為:如果這如果這n個樣本中與待分類樣本個樣本中與待分類樣本X距離最近的距離最近的一個樣本為一個樣本為X,則把,則把X分到分到X所屬的類別。所屬的類別。12,.,nXXXc12,.,.ic 12

2、,.,.icnnnn近鄰法則的判別函數為近鄰法則的判別函數為:決策規則決策規則:若若 則把則把 分到分到 類。類。 可以看出近鄰法則計算非常簡單,但是這個方可以看出近鄰法則計算非常簡單,但是這個方法如何?法如何?(1)分類能力如何?)分類能力如何?(2)分類錯誤率如何?)分類錯誤率如何?能否給出定性與定量的解釋?能否給出定性與定量的解釋?nkciXXXgkii, 2 , 1, 2 , 1min)(,),()(jiXgXgjiXi二二. 近鄰法則的分類能力近鄰法則的分類能力 中有中有 個類別的樣本個類別的樣本,每個類別有每個類別有 個樣本個樣本,每次從每次從 中取出一個樣本中取出一個樣本,比較與

3、比較與 的的相近程度相近程度,由于每次取出的樣本是隨機的由于每次取出的樣本是隨機的,因而樣本的類別因而樣本的類別狀態也是隨機的。把狀態也是隨機的。把 的最近鄰的最近鄰 的類別狀態看成一個的類別狀態看成一個隨機變量隨機變量 ( 可能是可能是 中的任意一個)。中的任意一個)。 于是,于是, 的概率就是后驗概率的概率就是后驗概率 ,當樣本,當樣本的數目越來越多時,可以認為的數目越來越多時,可以認為 的最近鄰的最近鄰 離它越來越離它越來越近,從而:近,從而: 這樣,就可以把近鄰法則看成是由概率這樣,就可以把近鄰法則看成是由概率 來決定來決定 的類別。的類別。12,.,nXXXc,1,2,.,in ic

4、iXX X)|(XPi)|()|(XPXPiiXX )|(XPiXc,21(1)在近鄰法則中,)在近鄰法則中, 的最近鄰的類別狀態為的最近鄰的類別狀態為 的的概率為概率為 ,所以,所以 分到分到 類的概率類的概率為為 ,而不分到的概率為,而不分到的概率為(2)我們已經知道,在)我們已經知道,在Bayes決策中決策中,有有 取取 作為作為 的類別。的類別。 比較比較Bayes決策和近鄰法則,可以看出:決策和近鄰法則,可以看出: 按按Bayes決策法則:以概率決策法則:以概率1決策決策 按最近鄰法則:以概率按最近鄰法則:以概率 決策決策mmmmmXXX)|(XPm)|(XPm)|(1XPm)|(X

5、Pm)|(max)|(XPXPim舉例說明舉例說明:設在三個類別問題中,設在三個類別問題中, 的后驗概率分別為:的后驗概率分別為:按按Bayes決策:決策:因為因為所以所以按近鄰法則決策:按近鄰法則決策:有有0.4的概率的概率 有有0.3的概率的概率 有有0.3的概率的概率123|0.4|0.3|0.3pXpXpX123|0.4|0.3pXpXpX1X123XXXX(1 1)當)當 接近接近1 1時,近鄰法則的錯誤概率時,近鄰法則的錯誤概率, ,與與BayesBayes決策的結果幾乎相同,說明這兩種方法決策的結果幾乎相同,說明這兩種方法同樣同樣“好好”。(2 2)當)當 ,兩者的錯誤概率都接,

6、兩者的錯誤概率都接 近近 ,說明兩種方法同樣,說明兩種方法同樣“壞壞”。 由于由于BayesBayes分類器是最優分類器,與分類器是最優分類器,與BayesBayes分類分類器的比較可以看出,近鄰法則有較好的分類性器的比較可以看出,近鄰法則有較好的分類性質。質。|mPX1|mPXc11c5.1.2 近鄰法則的錯誤率近鄰法則的錯誤率回顧回顧:最小錯誤概率的最小錯誤概率的Bayes決策中的有關內容決策中的有關內容 模式特征模式特征 是一個隨機變量,用后驗概率是一個隨機變量,用后驗概率 作出分類決策時,會有錯誤分類的可能性作出分類決策時,會有錯誤分類的可能性,對于對于每個不同的每個不同的 值值,其其

7、 也不同也不同,從而分類錯誤從而分類錯誤概率也不同概率也不同,所以分類錯誤概率所以分類錯誤概率 可以看作是可以看作是 的函數的函數. 如果已知連續隨機變量如果已知連續隨機變量 的概率密度函數為的概率密度函數為 的數學期望的數學期望 為為:x|iPxx|iPx|P e xx|P e x p e |P eP e x p x dxx)(xp 對于模式向量對于模式向量 , ,由于由于 是一個是一個隨機變量隨機變量, , 所以有所以有: : 對于每個觀察向量對于每個觀察向量 , 如果使如果使 盡可能盡可能小的話,則上式積分也必定盡可能小。從而錯小的話,則上式積分也必定盡可能小。從而錯誤概率誤概率 就達到

8、極小。若記就達到極小。若記 是是 的極小值,的極小值, 是是 的極小值,則:的極小值,則: |P eP e X p X dX*|Pe X P e|P e X|P e X*P P e*|1|mPe XPX *|PPe X p X dX12,.,TnXx xxXX 在什么情況下可以取得最小值?在什么情況下可以取得最小值? 在在 ,A為小于為小于1的正常的正常數下,數下, 最小。最小。 也就是說,一個最大,其余都相等時,有最小值。也就是說,一個最大,其余都相等時,有最小值。這樣就有:這樣就有:miciAXPi, 2 , 1,)|()|(12XPcii*(|)1(|)( |)imi mPXPXP e

9、X )|(12XPcii對于近鄰法則對于近鄰法則,設設 是采用是采用 個樣本時的錯誤個樣本時的錯誤概率,并設概率,并設則有近鄰法則錯誤率的上下限:則有近鄰法則錯誤率的上下限:先求先求 limnnPP e*21cPPPPcn nPeP 設用某一組設用某一組N個已知類別的樣本對個已知類別的樣本對 分類,如分類,如果果 的最近鄰樣本為的最近鄰樣本為 ,則把,則把 分到分到 所屬所屬的類別。的類別。 如果用不同組的如果用不同組的N個樣本對個樣本對 分類,則分類,則 的最的最近鄰近鄰 可能是完全不同的可能是完全不同的 。由于近鄰決策完全。由于近鄰決策完全取決于取決于 的最近鄰樣本,所以錯誤概率與的最近鄰

10、樣本,所以錯誤概率與 , 有關,即有關,即 。 每次取一組樣本做最近鄰決策,每次都有一定每次取一組樣本做最近鄰決策,每次都有一定的錯誤概率,如果對的錯誤概率,如果對 取平均,則有:取平均,則有:XXXXXXXnXnXnXnX),|(nnXXeP)|(),|()|(nnnnndXXXpXXePXePnX對于對于 數學表達式是難以獲得的。數學表達式是難以獲得的。如何考慮解決求如何考慮解決求 的問題呢?的問題呢? )|(),|()|(nnnnndXXXpXXePXeP( |)nP e X 如果如果 能夠趨近于一個中心在能夠趨近于一個中心在 的的 函函數,則該式的計算就可以大大簡化了。數,則該式的計算

11、就可以大大簡化了。設想:設想:因為因為 是是 的最近鄰,可以期望密度函數的最近鄰,可以期望密度函數 在在 的附近有一個陡峭的峰,而在其它的附近有一個陡峭的峰,而在其它地方則很小。地方則很小。這是什么含義呢?這是什么含義呢? 在已知在已知 的條件下,的條件下, 的最近鄰的最近鄰 在在 的附的附近的概率密度最大。近的概率密度最大。可以這樣設想的依據:可以這樣設想的依據: 相同類別的樣本特征相同或相近,分布最集中。相同類別的樣本特征相同或相近,分布最集中。X)|(XXpnnXX)|(XXpnXXXXnX舉例說明:舉例說明:XX)|(XXpn 為了證明當為了證明當n趨于無窮大時,趨于無窮大時, 可能趨

12、可能趨于一個中心在于一個中心在 的的 函數,我們設對于給定函數,我們設對于給定的的 ,概率密度是連續的且不為零。這樣,任何,概率密度是連續的且不為零。這樣,任何樣本落在以樣本落在以 為中心的一個超球為中心的一個超球S中的概率記為:中的概率記為: 落在落在S以外的概率為以外的概率為 , 當樣本獨立抽取時,全部當樣本獨立抽取時,全部n個獨立抽取的樣本落個獨立抽取的樣本落在在S以外的概率就為以外的概率就為 )|(XXpnXXX)(dXXpPSXS)1 (SPnSP )1 ( 當當 時時這就是說,總有一個以上的樣本落在這就是說,總有一個以上的樣本落在S內的概率為內的概率為1.由于由于S可以任意小,所以

13、當可以任意小,所以當S很小時,只要樣本數很小時,只要樣本數n足夠大,總有足夠大,總有 的近鄰在的近鄰在S內,所以,內,所以, 以概率以概率1收斂于收斂于 。 這就證明了當這就證明了當n趨于無窮大時,趨于無窮大時, 趨于趨于 函數。函數。 即即 n0)1 (nSP)()|(limXXXXpnnnnXX)|(XXpnX下面討論錯誤概率下面討論錯誤概率將將n個獨立抽取的已知類別的樣本表示成二元對的個獨立抽取的已知類別的樣本表示成二元對的形式:形式:其中其中 是是C個類別狀態個類別狀態 中的任意一個。中的任意一個。現在假定抽取一對現在假定抽取一對 ,并假定,并假定 是是 的最近的最近鄰,類別為鄰,類別

14、為 ,即,即 是是 的最近鄰,的最近鄰,由于由于 和和 是獨立抽取的,是獨立抽取的, 的類別狀態和的類別狀態和 的類別狀態無關,因此就有:的類別狀態無關,因此就有:當采用近鄰法則時,如果當采用近鄰法則時,如果 就會產生分類錯誤,就會產生分類錯誤,),|(nnXXeP),( ,),(),(2211nnXXXc,21i),(XnXXn),(nnX),(XXnXnXX)|()|(),|,(nnnnnXPXPXXPn因為當因為當 時有時有 ( 以概率以概率1收斂于收斂于 )所以所以n),|,(1),|(1ninciinnXXPXXeP)|()|(11niciiXPXP)|()|(XPXPininXX)

15、|(1),|(12limXPXXePciinnn錯誤概率為錯誤概率為 對于對于當當 可以寫成:可以寫成:這樣,近鄰法則的錯誤率為這樣,近鄰法則的錯誤率為)|(),|()|(nnnnndXXXpXXePXePn)|(),|()|(limlimnnnnnnndXXXpXXePXeP12)()|(1 nnciidXXXXP)|(112XPcii( )( |) ()limlimnnnnPP eP e X p X dXdXXpXPcii)()|(1 12下面我們開始證明最近鄰法則錯誤率下面我們開始證明最近鄰法則錯誤率 的上下界。的上下界。要證明要證明 的下界為的下界為 ,只要指出在某些特定情況,只要指出

16、在某些特定情況下存在下存在 就可以了就可以了。(為什么,請思考)(為什么,請思考)1. 在在 時(時( , ) 所以在這種情況下成立。所以在這種情況下成立。P*PP*PP 1)|(XPm0)|(XPimi dXXpXPPcii)()|(1 12dXXp)( 11 0dXXpXPdXXpXePPm)()|(1 )()|(*02. 在在 時(各后驗概率都相等)時(各后驗概率都相等) 所以在這種情況下也成立。所以在這種情況下也成立。 CXPi1)|(dXXpXPPcii)()|(1 12dXXpCci)()1(1 212111() ()cip X dXCCC1dXXpCdXXpXePP)()11 (

17、)()|(*CC1 思考:思考: 通過通過P的下界的證明,可以采用在特殊情況有的下界的證明,可以采用在特殊情況有P=P*就可以。那么對于就可以。那么對于P的上界的證明可不可以的上界的證明可不可以也這樣做?也這樣做? 下面證明下面證明P的上界。的上界。 要證明要證明P的上界,關鍵的問題是如何將最近鄰法的上界,關鍵的問題是如何將最近鄰法則的錯誤率則的錯誤率P和最小錯誤概率的貝葉斯錯誤率和最小錯誤概率的貝葉斯錯誤率P*聯系起來。聯系起來。由前面的推導已經知道了最近鄰法則的錯誤率為:由前面的推導已經知道了最近鄰法則的錯誤率為:由最小錯誤概率的由最小錯誤概率的Bayes決策決策( )可知最小錯誤概率為:

18、可知最小錯誤概率為:這兩個公式對我們的啟發是:這兩個公式對我們的啟發是:對已知的對已知的 而言,而言, 的最小值對應著的最小值對應著P的最大值,如果能求得的最大值,如果能求得P的最大值,就把的最大值,就把P*和和P聯系起來了。聯系起來了。dXXpXPPcii)()|(1 12)|(1)|(*XPXePm)|(XPm)|(12XPcii)|(max)|(, 2, 1XPXPicim由數學知識可知:由數學知識可知: 在在 ,A為小于為小于1的正常的正常數下,數下, 最小。最小。 這樣就有:這樣就有:而而所以,所以,miciAXPi, 2 , 1,)|()|(12XPcii)|() 1() 1()|

19、(XPcAcXPimii*(|)1(|)( |)imi mPXPXP e X miXePmicXePXPi),|(1,1)|()|(*從而可得:從而可得: )|()|()|(2212XPXPXPimimciimicXePXeP22*2*) 1()|()|(1 1)|()|(1 2*2*cXePXeP)|(1)|(212*XePccXeP極小時得出極小時得出即即整理得:整理得: 由于由于根據方差的定義:根據方差的定義: 有:有:)|(1)|(21)|(2*12XePccXePXPciidXXpXePP)()|(*)|(PXePEdXXpX)()(22dXXpPXePXePVar)()|()|(2

20、*)|(1)|(2)|(12*12XePccXePXPcii(5-15)把右式展開,把右式展開,dXXpPdXXpXePPdXXpXeP)()()|(2)()|(2*2*dXXpPXePPXeP)()|(2)|(2*2*2*2*2*2)()|(PPdXXpXeP2*2*)()|(PdXXpXeP由于方差非負,所以由于方差非負,所以從而,從而,如果如果 ,對下式(,對下式(5-15)兩邊取積分,)兩邊取積分,得得0)()|(2*2*PdXXpXePdXXpXePP)()|(2*2*dXXpXePccXePdXXpXPcii)()|(1)|(2)()|(1 2*12等號只在方差等號只在方差為為0時

21、成立時成立0)(Xp)|(1)|(2)|(12*12XePccXePXPcii可以看出,左式可以看出,左式=P,所以,所以dXXpXePccXePP)()|(1)|(22*dXXpXePccdXXpXeP)()|(1)()|(22*2*12PccP)12(*PccP*(2)1cPPPc5.1.3 K -近鄰法則近鄰法則 K- -近鄰法是最近鄰法的一個改進。近鄰法是最近鄰法的一個改進。 有有 個已知類別的樣本,個已知類別的樣本, 的的 個近鄰中,個近鄰中, N12,.,NXXX1212,.,.ccNNN12.cNNNNXk1212,.,.cckkk12.ckkkk1,2,.maxmiickkmX

22、用判別函數表示:用判別函數表示:決策規則為:決策規則為: 若若 則則 取待識別樣本取待識別樣本 的的 個近鄰,看這個近鄰,看這 個近鄰中個近鄰中多數樣本屬于哪一類,就把多數樣本屬于哪一類,就把 歸為那一類。歸為那一類。,1,2,.,iigXk icXkXk1,2,.maxmiickkmX最近鄰法則和最近鄰法則和 K-近鄰法則的優缺點:近鄰法則的優缺點:優點:優點:算法簡單算法簡單缺點缺點:(1)每次需要計算)每次需要計算 x 與全部樣本間的距離與全部樣本間的距離 并進行比較。計算機存儲容量和計算量都并進行比較。計算機存儲容量和計算量都 很大。很大。 (2)沒有考慮決策的風險,如果錯誤代)沒有考

23、慮決策的風險,如果錯誤代 價很大時,會產生很大風險。價很大時,會產生很大風險。 (3)錯誤率分析是)錯誤率分析是 情況下得出的,而情況下得出的,而 對有限樣本集理論依據不充分。對有限樣本集理論依據不充分。 可以看出,(可以看出,(2)和()和(3)是近鄰法則的固有問)是近鄰法則的固有問題,題,那么通過什么方法可以改善缺點那么通過什么方法可以改善缺點(1)呢呢? N 5.1.5 快速近鄰算法快速近鄰算法 1.分量鄰域法分量鄰域法 思路:近鄰法則思路:近鄰法則與與 的近鄰樣本有的近鄰樣本有關,那就關注近鄰關,那就關注近鄰樣本。樣本。方法:方法: 是待分類的是待分類的模式,以模式,以 為中心,為中心

24、,構造邊長為構造邊長為 的鄰域,的鄰域, 逐漸擴大該鄰域,逐漸擴大該鄰域, 直直至有一個樣本至有一個樣本 落入這個鄰域時為止。落入這個鄰域時為止。X2dXXX算法:算法: 輸入輸入: 維訓練樣本集維訓練樣本集, ,待分類樣本待分類樣本 ;輸出輸出: 的最近鄰的最近鄰 ;步驟步驟:(1)以以 為中心為中心,構造一個構造一個 為邊長的鄰域為邊長的鄰域 。(2)在在 中找出落入的訓練集中找出落入的訓練集 的樣本,如果的樣本,如果 為空,為空,則增加則增加 一個級差一個級差 , 轉步驟轉步驟(1)。(3)對全部對全部 計算距離計算距離 ,最小者即為,最小者即為 的最近鄰。的最近鄰。該算法存在一個什么問

25、題?該算法存在一個什么問題?n12,.,mX XXXXXX2dCCC2dXXX X算法:算法: 輸入輸入: 維訓練樣本集維訓練樣本集, ,待分類樣本待分類樣本 ;輸出輸出: 的最近鄰的最近鄰 ;步驟步驟:(1)以以 為中心為中心,構造一個構造一個 為邊長的鄰域為邊長的鄰域 。(2)在在 中找出落入的訓練集中找出落入的訓練集 的樣本,如的樣本,如 為空,則增為空,則增加加 一個級差一個級差 ,轉轉(1)。(3)擴大鄰域擴大鄰域 到到 ,找出全部落入這個鄰域中訓練,找出全部落入這個鄰域中訓練集集 的樣本,即的樣本,即 的一個子集的一個子集 。(4)對全部對全部 計算距離計算距離 ,最小者即為,最小

26、者即為 的最近鄰。的最近鄰。算法優點:簡單,快速。缺點:特征維數高時,效率低。算法優點:簡單,快速。缺點:特征維數高時,效率低。n12,.,mX XXXXXX2dCCC2d2d2 ndXXX X2.列表法列表法(1)預處理階段預處理階段 在模式空間指定任意三個點在模式空間指定任意三個點 。分別。分別計算這三個點到訓練樣本集中全部成員的距離。計算這三個點到訓練樣本集中全部成員的距離。對對 以以從近到遠從近到遠的順序列出所有的成員。的順序列出所有的成員。 構成三個表構成三個表 。, ,A B C, ,A B C, ,A B C A1aX2aXiaX1bX1iaX1naXnaXB 2bXjbX1jb

27、X1nbXnbXC 1cX2cXkcX1kcX3cX2ncX1ncXncX計算待分類模式計算待分類模式 到到 的距離的距離, 。在表在表 中分別按中分別按 將將 嵌入相應的嵌入相應的位置上。位置上。 A1aX2aXiaXX1bX1iaX1naXnaXB 2bXjbXX1jbX1nbXnbXC 1cX2cXkcXX1kcX3cX2ncX1ncXncXX, ,A B C,ABCddd, ,A B C,ABCdddX(2)搜索階段搜索階段 在表在表 中取中取 的近鄰形成三個子集的近鄰形成三個子集 若若 非空非空,則交集中的元素就可能包含則交集中的元素就可能包含 的最近鄰。的最近鄰。若若 為空為空,

28、則逐步擴大則逐步擴大 的鄰的鄰域的范圍。域的范圍。直至直至 非空非空, 找到找到 的最近鄰。的最近鄰。, ,A B CX,ABC ABCXABCXABCX5.2 集群(聚類集群(聚類 clustering) 采用有類別標識的訓練樣本集來實現對待識別模采用有類別標識的訓練樣本集來實現對待識別模式式 的分類,稱為的分類,稱為有監督學習或有教師學習有監督學習或有教師學習。如線性判別函數,如線性判別函數,Bayes決策,近鄰法則等。決策,近鄰法則等。 把沒有訓練樣本集時的分類方法,即無監督的把沒有訓練樣本集時的分類方法,即無監督的或無教師的分類方法叫做或無教師的分類方法叫做集群集群。 集群問題中有兩種

29、情況:集群問題中有兩種情況:預先指定分群的數目預先指定分群的數目1.預先不知道分群的數目預先不知道分群的數目X 面對一組待分類的模式,根據什么分類呢?面對一組待分類的模式,根據什么分類呢? 實際上,集群的目的就是要在一組數據中找出實際上,集群的目的就是要在一組數據中找出自然形成的數據群,而一群中的樣本彼此之間應自然形成的數據群,而一群中的樣本彼此之間應該比其它群的樣本之間更相像一些。該比其它群的樣本之間更相像一些。 也就是說,也就是說,根據各個待分類的模式特征的相似根據各個待分類的模式特征的相似程度進行分類,把相似的歸為一類。程度進行分類,把相似的歸為一類。 因此,集群應該解決兩個問題:因此,

30、集群應該解決兩個問題: (1)如何評定樣本之間的相似程度?)如何評定樣本之間的相似程度? (2)如何根據相似程度將給定樣本集劃分為不同)如何根據相似程度將給定樣本集劃分為不同的群?的群?樣本間相似性的度量樣本間相似性的度量 一個模式向量一個模式向量 是特征空間的是特征空間的一個點,如果兩個樣本在特征空間相距很近,一個點,如果兩個樣本在特征空間相距很近,它們的各個特征也應該相差不大,因此,它們的各個特征也應該相差不大,因此,兩個兩個樣本在特征空間的距離可以作為樣本間相似性樣本在特征空間的距離可以作為樣本間相似性的一種度量。的一種度量。 常用的方法是先定義一個適當的距離來度量常用的方法是先定義一個

31、適當的距離來度量相似性。如果這個距離是相似性的一個好的度相似性。如果這個距離是相似性的一個好的度量,那么我們就可以期望在同一群內樣本之間量,那么我們就可以期望在同一群內樣本之間的距離將明顯小于不同群的樣本之間的距離。的距離將明顯小于不同群的樣本之間的距離。 12,.TnXx xx歐氏距離:歐氏距離:用距離來度量相似性,存在閾值用距離來度量相似性,存在閾值 的選擇問題。的選擇問題。 如果太大如果太大 ,則可能把全部,則可能把全部 樣本歸到同一個群中去。樣本歸到同一個群中去。 如果太小如果太小 ,則每個樣本為,則每個樣本為 一個群。一個群。 顯然,上述兩種情況都失去了分群顯然,上述兩種情況都失去了

32、分群 的意義。的意義。d1d21221,niiiSX XXXxx0d01dd02dd 為了得到合適的自然數據群,閾值為了得到合適的自然數據群,閾值 應當選得應當選得大于可作為代表的群內距離和小于可作為代表大于可作為代表的群內距離和小于可作為代表的群間距離。的群間距離。 (群內距離),(群內距離), (群間距離)(群間距離) 兩向量間的距離度量有許多種,除了歐氏距兩向量間的距離度量有許多種,除了歐氏距離外還有幾個常用距離:離外還有幾個常用距離:dd 0dd 01. Mahalanobis距離距離 式中式中 為樣本各特征的協方差矩陣。為樣本各特征的協方差矩陣。2. Minkovsky距離距離 式中

33、式中 為樣本維數。為樣本維數。3. Camberra距離距離4. Chebychev距離距離121,TS X XXXWXXW1,diiiS X Xxxd1,diiiiixxS X Xxx,maxjjjS X Xxx5.2.2 集群的準則函數集群的準則函數 前面介紹了如何評定樣本間的相似性,現在討前面介紹了如何評定樣本間的相似性,現在討論如何根據樣本間的相似性把一組樣本劃分為不同論如何根據樣本間的相似性把一組樣本劃分為不同的群的方法。的群的方法。 假設有樣本集假設有樣本集 ,要求把它分成,要求把它分成 c 個不相交的子集個不相交的子集 ,每個子集表示一群樣本。,每個子集表示一群樣本。對這個劃分的

34、要求是:對這個劃分的要求是:在同一群內的樣本比不同群在同一群內的樣本比不同群的樣本更相像一些。的樣本更相像一些。 由于距離閾值由于距離閾值 的選取不同,分群的結果也不的選取不同,分群的結果也不同。同。群的劃分具有人為規定性。群的劃分具有人為規定性。12,.,nx xx 12,.c 0d 所以需要定義一個準則函數,利用它來度量數所以需要定義一個準則函數,利用它來度量數據劃分所形成的群的性質,據劃分所形成的群的性質,這樣就把分群的問題這樣就把分群的問題變成使這個準則函數取極值的問題。變成使這個準則函數取極值的問題。 誤差平方準則誤差平方準則設是設是 中樣本的數目,中樣本的數目, 是這些樣本的均值是

35、這些樣本的均值向量,向量, 總的誤差平方和為:總的誤差平方和為:iniim1iiximxn21iceiixJxm2iiixJxm 度量了用度量了用 個群的中心個群的中心 來代表來代表 個樣本子集時所產生的總的誤差的平方。個樣本子集時所產生的總的誤差的平方。 個群的劃分可能是不同的,對應于每一種劃個群的劃分可能是不同的,對應于每一種劃分,都有一個誤差平方和分,都有一個誤差平方和 。所以,。所以, 的值依的值依賴于樣本的劃分,使賴于樣本的劃分,使 最小的一種劃分就定義最小的一種劃分就定義為為最小誤差劃分最小誤差劃分。 誤差平方準則函數的性能:誤差平方準則函數的性能: 當各群的樣本都很密集,且彼此之

36、間明顯分當各群的樣本都很密集,且彼此之間明顯分開時,開時, 是一種合適的準則函數。是一種合適的準則函數。eJc12,.cm mmcceJeJeJeJ 當各群中樣本數目相差很大時,用誤差平方當各群中樣本數目相差很大時,用誤差平方和準則分群有時會產生一些問題,有可能把大和準則分群有時會產生一些問題,有可能把大的自然群拆成兩個。的自然群拆成兩個。迭代最優化方法迭代最優化方法 集群劃分的準則函數選定后,就要找出樣本集群劃分的準則函數選定后,就要找出樣本的一種劃分,使準則函數取極值,這樣集群問題的一種劃分,使準則函數取極值,這樣集群問題就變成了一個組合優化問題。就變成了一個組合優化問題。 由于樣本數目有

37、限,所以可能的劃分也是有由于樣本數目有限,所以可能的劃分也是有限的,我們首先想到的方法是限的,我們首先想到的方法是窮舉法窮舉法,即遍歷各,即遍歷各種劃分,使準則函數取極值的劃分為最優劃分。種劃分,使準則函數取極值的劃分為最優劃分。 窮舉法只適合數據規模比較小的場合。窮舉法只適合數據規模比較小的場合。 設有設有 個樣本,要求分為個樣本,要求分為 組,使每組都不組,使每組都不 為空的劃分大約有為空的劃分大約有 種,如果種,如果 將有將有 種分法,顯然這時用窮舉法是不可取的。種分法,顯然這時用窮舉法是不可取的。 迭代最優化方法是尋找最優分劃的常用方法。迭代最優化方法是尋找最優分劃的常用方法。 基本思

38、想:基本思想:是找一個合理的初始劃分,然后試是找一個合理的初始劃分,然后試探性地將樣本從一個群搬到另一個群。只要某次探性地將樣本從一個群搬到另一個群。只要某次搬動能使準則函數的值有所改進的話,就認為這搬動能使準則函數的值有所改進的話,就認為這次搬動是正確的,然后選擇下一個樣本繼續如法次搬動是正確的,然后選擇下一個樣本繼續如法進行。如果某次搬動使準則函數的值變壞,則樣進行。如果某次搬動使準則函數的值變壞,則樣本退回到原來的群中去。本退回到原來的群中去。 nc!ncc100,5nc6710如圖示:如圖示:初始劃分初始劃分搬動一個樣本搬動一個樣本 下面我們通過誤差平方和準則函數的極小化下面我們通過誤

39、差平方和準則函數的極小化來說明來說明迭代最優化算法迭代最優化算法。 其中其中 假定我們把原來在假定我們把原來在 中的一個樣本中的一個樣本 試探性試探性地搬到地搬到 中去,則中去,則 變成:變成: 1ceiiJJijixiimxJ2ixiixnm1x jmjxjjxxnm) (11*上式可寫成:上式可寫成:而而)(11) (11*jjjjjjjjjmxmmnnxmnnm1jjjnmxm2*2*jxjjmxmxJj2*2*jxjjmxmxJj22)1()1(jjjxjjjnmxmxnmxmxj222)(1)(1)(2)(11jjjjjjjjxjmxnnmxnmxmxnmxj22)(11jjjxjj

40、jmxnnnmxmxj 22222()1()()(1)1()1jjjjjjjxxxjjjjjxmxmxmxmnnnxmn22222) 1() 1(jjjjjjjmxnnmxnnJ2) 1(jjjjmxnnJ 對于對于 ,取,取 ,就是說,只有一個樣本的,就是說,只有一個樣本的群不要取消掉,則類似上面的推導方法,可得群不要取消掉,則類似上面的推導方法,可得 如果把如果把 從第從第 群搬到第群搬到第 群后,群后, 減少的量減少的量比比 增加的量多,即:增加的量多,即: 則說明對這次搬動改進了準則函數的值。則說明對這次搬動改進了準則函數的值。 1in ijiJjJ1*iiiinmxmmx 2211j

41、iijijnnxmxmnn2*1iiiiimxnnJJi算法步驟:算法步驟:Step1 選擇把個樣本分成個群的初始分劃,選擇把個樣本分成個群的初始分劃,計算計算 ;Step2 選擇下一個備選樣本,設從選擇下一個備選樣本,設從 中選出中選出 ;Step3 若若 ,則轉向,則轉向Step6,否則計算,否則計算Step4 對于一切對于一切 ,若,若 ,則將,則將 放到放到 中;中;nc,1,2,.,eiJ m icXX1in 22,1,1jjjjiiinXmjinnXmjinjkjikStep5 修改修改 和和 的值;的值;Step6 若經過若經過 次試驗后,次試驗后, 不變,則停止,不變,則停止,

42、 否則轉否則轉Step2 。這種方法的缺陷:這種方法的缺陷:(1)對初始劃分敏感;)對初始劃分敏感;(2)結果與備選樣本的次序有關,會陷入)結果與備選樣本的次序有關,會陷入局部局部極值極值。,eiJ mkmneJC-均值算法均值算法(基于最近距離的聚類方法基于最近距離的聚類方法)1. 根據指定群數根據指定群數 ,任選,任選 個代表點作為個代表點作為 群群的群心的群心 , 一般以開頭一般以開頭 個樣本作為初始群個樣本作為初始群心。心。2. 逐個將樣本集中的每個樣本歸入與之最近的群逐個將樣本集中的每個樣本歸入與之最近的群心所代表的群,形成心所代表的群,形成 個群,即在第個群,即在第 次迭次迭代時,

43、代時, 若若 則則 表示第表示第 次迭代時,以第次迭代時,以第 個群心為代表群。個群心為代表群。cccc12(1),(1),(1)czzzcm( )( ) ,1,2,., ,jixzmxz mic ij( ),( )jjxfmfmmj3. 計算新的群心,即計算新的群心,即 為第為第 個群域中的樣本個數。個群域中的樣本個數。4. 若若 ,算法收斂,算法收斂,算法停止,否則轉步驟算法停止,否則轉步驟2。()1(1),1,2,.,iixfmiz mx icNiNi(1)( ),1,2,.,iiz mz m ic均值算法舉例均值算法舉例 C=2設樣本集中的樣設樣本集中的樣本為二維模式樣本,表示如下:本

44、為二維模式樣本,表示如下:12345678,x x x x x x x x 123456780,0,1,0,0,1,1,13,3,3, 4,4,3,4, 4TTTTTTTTxxxxxxxxx1x21x3x5x6x7x8x4x2x 22z 12z2.672.5Step 1 取取 Step 2 分群分群 112210,0,11,0TTzxzx 111211212222313231414242515252818282111111111111111111xzxzxfxzxzxfxzxzxfxzxzxfxzxzxfxzxzxfStep3 計算新的群心計算新的群心 11322456781,1,fx xfx

45、 x x x x x 111311112()(0,0.5)2TxfzxxxN 2224567812112()611,01,13,33,44,34,462.67,2.5xfTTTTTTTzxxxxxxxNStep4 判斷判斷 Step2 分群分群 112221212zzzzStep及返回 111211212221313231414241222222222222xzxzxfxzxzxfxzxzxfxzxzxf 11234256782,2,fx xx xfx x xx )2()2(2515zxzx)2(25fx )2()2(2616zxzx)2(26fx )2()2(2717zxzx)2(27fx

46、)2()2(2818zxzx)2(28fx Step 3 計算新的群心計算新的群心 Step 判斷判斷 12112343125678321130.5,0.541133.5,3.54TxfTxfzxxxxxNzxxxxxN 112232322zzzzStep及返回 Step 分群分群 Step 計算新的群心計算新的群心 Step 判斷判斷 因為因為 及及 所以所以 算法收斂,分群結束。算法收斂,分群結束。) 3()4(11zz) 3()4(22zzC-均值算法的結果受到下列因素的影響均值算法的結果受到下列因素的影響:vC個初始分群中心的選取;個初始分群中心的選取;v與樣本的選取次序有關;與樣本的

47、選取次序有關;v與樣本的幾何分布有關;與樣本的幾何分布有關;v與樣本數量差異的大小有關;與樣本數量差異的大小有關;一般地,對于給定樣本集,分群結果是唯一的嗎?一般地,對于給定樣本集,分群結果是唯一的嗎?等級集群方法等級集群方法問題:問題:當不知道要分成幾群時,而要把一些未分當不知道要分成幾群時,而要把一些未分類的樣本分成若干合理的群時,如何做呢?類的樣本分成若干合理的群時,如何做呢?在沒有指定群數的情況下,在沒有指定群數的情況下,n個樣本至少可以個樣本至少可以分成一個群,這就是樣本的全體;最多可以把它分成一個群,這就是樣本的全體;最多可以把它們分成們分成n個群,每個群只有一個樣本。個群,每個群

48、只有一個樣本。 顯然,這顯然,這樣的分群沒有意義。樣的分群沒有意義。 但是,我們可以由此考慮但是,我們可以由此考慮(n個群個群 一個群)的一個群)的過程,這樣,我們就可以把集群看作是一個把過程,這樣,我們就可以把集群看作是一個把 n個樣本聚集成個樣本聚集成 K個群的個群的集群序列集群序列的結果。的結果。 反之,把反之,把(一個群一個群 n個群),看做把個群),看做把n個樣本劃個樣本劃分成分成K個群的個群的劃分序列劃分序列的結果。的結果。 這樣,可以有兩種產生序列的方法:這樣,可以有兩種產生序列的方法:凝聚法凝聚法從從n個樣本劃分為個樣本劃分為n個群開始,每個群中只有個群開始,每個群中只有一個樣

49、本,然后通過不斷的合并而形成一個聚一個樣本,然后通過不斷的合并而形成一個聚合的序列,最后凝聚成一個包含全部樣本的大合的序列,最后凝聚成一個包含全部樣本的大群。群。 這種方法效果比較好,容易實現,是經常使這種方法效果比較好,容易實現,是經常使用的方法之一。用的方法之一。. 分解法凝聚法的反方向分解法凝聚法的反方向我們主要討論凝聚法我們主要討論凝聚法這種等級集群方法可以表示成一棵分類樹,來這種等級集群方法可以表示成一棵分類樹,來實現樣本分群的過程。實現樣本分群的過程。聚類聚類水平水平高高相似度相似度 相似聚類,用距離度量,距離可以有不同的相似聚類,用距離度量,距離可以有不同的度量方法,采用的類間距

50、離不同,聚類過程是度量方法,采用的類間距離不同,聚類過程是不一樣的。不一樣的。 (1)近點距離法)近點距離法 (2)遠點距離法)遠點距離法min, (,)minijijxxdxx max, (,)maxijijxxdxx (3)平均法)平均法 (4)離差平方和法)離差平方和法 關于近點距離法和遠點距離法的性能請參考教關于近點距離法和遠點距離法的性能請參考教材的材的87-89頁的內容。頁的內容。 1,ijavgijxxijdxxnn min,ijijdmm 基于近點距離的等級集群算法步驟基于近點距離的等級集群算法步驟 對于樣本集對于樣本集 ,設,設 表示第表示第 次次合并時的第合并時的第 類類(

51、1)初始分類,令)初始分類,令 , ,(2)計算各類間的距離)計算各類間的距離 ,由此生成一個對稱的,由此生成一個對稱的 距離矩陣距離矩陣 , 為類的個數。為類的個數。 (初始時(初始時 )(3)找出矩陣)找出矩陣 中的最小元素,設它是中的最小元素,設它是 和和 間的距離;間的距離;12,.,Nx xx kiGkiijD kijm mDDmmN1,2,.,iN kD kiG kjG(0) iiGx0k 將將 和和 兩類合并成一類,于是產生新的聚兩類合并成一類,于是產生新的聚類類(4)檢查類的個數,如果類數)檢查類的個數,如果類數 大于大于 2,轉,轉(2), 否則停止。否則停止。 kiG kjG111121,.,kkkmGGGm 例例 六個樣本六個樣本 按近點距離法分類按近點距離法分類 解:解: (1)初始時)初始時10,3,1,2

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論