




版權(quán)說(shuō)明:本文檔由用戶(hù)提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
第9章聚類(lèi)分析9.1聚類(lèi)分析概述9.2聚類(lèi)統(tǒng)計(jì)量9.3無(wú)量綱化方法9.4Q型系統(tǒng)聚類(lèi)法9.5R型系統(tǒng)聚類(lèi)法9.6快速聚類(lèi)法9.7SPSS操作實(shí)例12引入案例——體操裁判打分傾向聚類(lèi)案例背景第32屆夏季奧林匹克運(yùn)動(dòng)會(huì),即2020年?yáng)|京奧運(yùn)會(huì),是由日本奧林匹克委員會(huì)舉辦的國(guó)際性運(yùn)動(dòng)會(huì),于2021年7月23日開(kāi)幕、8月8日閉幕。其中,體操賽事受到了廣泛關(guān)注。體操比賽包括自由體操、鞍馬、吊環(huán)、跳馬、雙杠、單杠、高低杠、平衡木等,由裁判根據(jù)運(yùn)動(dòng)員的動(dòng)作呈現(xiàn)進(jìn)行打分。此次東京奧運(yùn)會(huì)上,因裁判判罰引起的爭(zhēng)議不少。按照國(guó)際體操聯(lián)合會(huì)的規(guī)定,在大型比賽中,每個(gè)項(xiàng)目的裁判員人數(shù)為9人,其中裁判長(zhǎng)1人,A組裁判員2人(2人中包括技術(shù)助理1人),B組裁判員6人。裁判長(zhǎng)的任務(wù)是指導(dǎo)和監(jiān)督本組裁判員的評(píng)分工作。A組裁判員主要是根據(jù)運(yùn)動(dòng)員的一套動(dòng)作的難度、特殊要求和加分等計(jì)算出起評(píng)分。B組裁判員主要是對(duì)運(yùn)動(dòng)員動(dòng)作的完成情況進(jìn)行扣分。另外,裁判組還包括記錄員:如果運(yùn)動(dòng)員越過(guò)邊線(xiàn),記錄員及時(shí)用信號(hào)通知裁判長(zhǎng),裁判長(zhǎng)將根據(jù)規(guī)則予以扣分。3引入案例——體操裁判打分傾向聚類(lèi)數(shù)據(jù)說(shuō)明研究者收集了中、美、法等7個(gè)國(guó)家的裁判和未經(jīng)嚴(yán)格訓(xùn)練的體育愛(ài)好者在評(píng)判體育比賽中對(duì)選手的評(píng)分情況。所收集的數(shù)據(jù)如圖9-1所示(詳細(xì)數(shù)據(jù)見(jiàn)附件表格)。根據(jù)評(píng)分上的差異可以將它們聚為適當(dāng)?shù)念?lèi)。具體聚類(lèi)方法本章將會(huì)詳細(xì)介紹。第1節(jié)聚類(lèi)分析概述9.1.1起源和基本思想9.1.2數(shù)據(jù)的適用范圍45聚類(lèi)分析是根據(jù)“物以類(lèi)聚”的道理,對(duì)樣品或指標(biāo)進(jìn)行分類(lèi)的一種多元統(tǒng)計(jì)分析方法。分類(lèi)問(wèn)題是各個(gè)領(lǐng)域普遍存在的問(wèn)題,如市場(chǎng)營(yíng)銷(xiāo)學(xué)中進(jìn)行市場(chǎng)分層、人口學(xué)中研究人口生育分類(lèi)模式、醫(yī)學(xué)中對(duì)各種疾病特征進(jìn)行分析等等,這些都需要對(duì)研究對(duì)象進(jìn)行分類(lèi)。聚類(lèi)分析是應(yīng)用非常廣泛的分類(lèi)方法,它將性質(zhì)相近的個(gè)體分為一類(lèi),使得同類(lèi)中的個(gè)體具有高度同質(zhì)性,不同類(lèi)中的個(gè)體具有高度異質(zhì)性。9.1.1起源和基本思想6聚類(lèi)分析起源于分類(lèi)學(xué),在古老的分類(lèi)學(xué)中,人們主要依靠經(jīng)驗(yàn)和專(zhuān)業(yè)知識(shí)來(lái)實(shí)現(xiàn)分類(lèi),很少利用數(shù)學(xué)工具進(jìn)行定量的分類(lèi)。隨著人類(lèi)科學(xué)技術(shù)的發(fā)展,人們對(duì)分類(lèi)的要求越來(lái)越高,有時(shí)僅憑經(jīng)驗(yàn)和專(zhuān)業(yè)知識(shí)難以確切地進(jìn)行分類(lèi),于是逐漸將數(shù)學(xué)工具引用到了分類(lèi)學(xué)中,形成了數(shù)值分類(lèi)學(xué);之后又將多元分析的技術(shù)引入到數(shù)值分類(lèi)學(xué),形成了聚類(lèi)分析。聚類(lèi)分析是無(wú)先驗(yàn)信息的分類(lèi)方法;第10章將要介紹的判別分析是有先驗(yàn)信息,通過(guò)訓(xùn)練樣本集合的分類(lèi)方法。9.1.1起源和基本思想7聚類(lèi)分析的基本思想是認(rèn)為研究的樣本或變量之間存在著不同程度的相似性,根據(jù)一批樣本的多個(gè)觀(guān)測(cè)指標(biāo),具體找出一些能夠度量樣本或指標(biāo)之間相似程度的統(tǒng)計(jì)量,以這些統(tǒng)計(jì)量為劃分類(lèi)型的依據(jù),把一些相似程度較大的樣本或變量歸為一類(lèi),把另外一些彼此之間相似程度較大的樣本或變量也歸為一類(lèi),關(guān)系密切(距離較近)的歸到一個(gè)小的分類(lèi)單位,關(guān)系疏遠(yuǎn)(距離較遠(yuǎn))的歸到一個(gè)大的分類(lèi)單位,直到把所有的樣本或變量都聚合完畢。聚類(lèi)時(shí),由于目的、要求不同,因而會(huì)產(chǎn)生各種不同的聚類(lèi)方法,包括由小類(lèi)合并到大類(lèi)的方法、由大類(lèi)分解為小類(lèi)的方法、靜態(tài)聚類(lèi)法、動(dòng)態(tài)聚類(lèi)法、按樣本聚類(lèi)(Q)和按指標(biāo)聚類(lèi)(R)。9.1.2數(shù)據(jù)的適用范圍8聚類(lèi)分析的研究對(duì)象是樣品或指標(biāo),對(duì)定性數(shù)據(jù)和定類(lèi)數(shù)據(jù)都適用。從目前的聚類(lèi)方法看,大多數(shù)的方法是當(dāng)研究對(duì)象是樣品時(shí),基于數(shù)據(jù)間的距離來(lái)分析;當(dāng)研究對(duì)象是指標(biāo)時(shí),基于相似度來(lái)進(jìn)行分析。這要求所分析的數(shù)據(jù)必須是可以測(cè)度的,必須是定量的數(shù)據(jù),這導(dǎo)致傳統(tǒng)的聚類(lèi)方法無(wú)法有效地處理定性數(shù)據(jù)。對(duì)定性數(shù)據(jù)進(jìn)行聚類(lèi)分析處理,可以將定性數(shù)據(jù)看作離散型數(shù)據(jù),轉(zhuǎn)換為可以測(cè)度的數(shù)據(jù)后再進(jìn)行聚類(lèi)分析,具體方法見(jiàn)9.2.3。第2節(jié)聚類(lèi)統(tǒng)計(jì)量9.2.1Q型聚類(lèi)統(tǒng)計(jì)量9.2.2R型聚類(lèi)統(tǒng)計(jì)量9.2.3定性數(shù)據(jù)聚類(lèi)統(tǒng)計(jì)量910設(shè)有n個(gè)樣本單位,每個(gè)樣本測(cè)得p項(xiàng)指標(biāo),則原始資料矩陣為聚類(lèi)分析可采用不同類(lèi)型的統(tǒng)計(jì)量,通常Q型聚類(lèi)以距離作為統(tǒng)計(jì)量,R型聚類(lèi)以相似系數(shù)作為統(tǒng)計(jì)量。9.2.1Q型聚類(lèi)統(tǒng)計(jì)量11Q型聚類(lèi)通常以距離作為統(tǒng)計(jì)量。每個(gè)樣本點(diǎn)有
p個(gè)變量,因此可以將
n個(gè)樣本點(diǎn)看作
p維空間的
n個(gè)點(diǎn),那么各個(gè)樣本點(diǎn)間的接近程度可以用距離來(lái)度量。以
dij作為第
i樣本點(diǎn)與第
j樣本點(diǎn)間的距離,距離越短表示兩樣本點(diǎn)之間的相似程度越高,常見(jiàn)的距離指標(biāo)有以下6個(gè)。歐氏距離(EuclideanDistance)絕對(duì)距離(ManhattanDistance)明考斯基距離(MinkowskiDistance)蘭氏距離(LanceandWilliamsDistance)馬氏距離(MahalanobisDistance)切比雪夫距離(ChebychevDistance)9.2.1Q型聚類(lèi)統(tǒng)計(jì)量12歐氏距離(EuclideanDistance)定義9.1歐氏距離:也稱(chēng)為歐幾里得度量(EuclideanMetric),是一個(gè)通常采用的距離定義,指在m維空間中兩個(gè)點(diǎn)之間的真實(shí)距離,或者向量的自然長(zhǎng)度(即該點(diǎn)到原點(diǎn)的距離)。在二維和三維空間中的歐氏距離就是兩點(diǎn)之間的實(shí)際距離。其計(jì)算公式為:式中,dij為樣本點(diǎn)
i和樣本點(diǎn)
j之間的距離;xjk為第
i個(gè)樣本點(diǎn)在第
k個(gè)變量上的值。歐氏距離是聚類(lèi)分析中用得最廣泛的距離。9.2.1Q型聚類(lèi)統(tǒng)計(jì)量132.絕對(duì)距離(ManhattanDistance)定義9.2絕對(duì)距離:也稱(chēng)為曼哈頓距離(ManhattanDistance),表示兩個(gè)點(diǎn)在標(biāo)準(zhǔn)坐標(biāo)系上的絕對(duì)軸距之和。其計(jì)算公式為:絕對(duì)值距離是另一個(gè)應(yīng)用很廣泛的距離。使用時(shí)要注意的一個(gè)問(wèn)題是,它假設(shè)變量之間是不相關(guān)的,如果變量之間相關(guān),則聚類(lèi)結(jié)果不可信。9.2.1Q型聚類(lèi)統(tǒng)計(jì)量143.明考斯基距離(MinkowskiDistance)定義9.3明考斯基距離:兩個(gè)n維變量之間的明考斯基距離為:明考斯基距離是個(gè)通用的距離測(cè)度公式,當(dāng)q=1時(shí)為絕對(duì)值距離,當(dāng)q=2時(shí)為歐氏距離。9.2.1Q型聚類(lèi)統(tǒng)計(jì)量154.蘭氏距離(LanceandWilliamsDistance)定義9.4蘭氏距離:是聚類(lèi)分析中用于確定樣本間距離的一種常見(jiàn)方法,由Lance和Williams最早提出的。這個(gè)距離克服了量綱的影響,但沒(méi)有考慮指標(biāo)間的相關(guān)性。主要用于數(shù)理統(tǒng)計(jì)多元分析中心聚類(lèi)。其計(jì)算公式為:9.2.1Q型聚類(lèi)統(tǒng)計(jì)量165.馬氏距離(MahalanobisDistance)定義9.5馬氏距離:是由印度統(tǒng)計(jì)學(xué)家馬哈拉諾比斯(P·C·Mahalanobis)提出的,表示數(shù)據(jù)的協(xié)方差距離。它是一種有效的計(jì)算兩個(gè)未知樣本集的相似度的方法。其計(jì)算公式為:式中,xi、xj分別為點(diǎn)i和點(diǎn)j在各個(gè)變量上的值所組成的向量;S-1為聚類(lèi)變量協(xié)方差陣的逆矩陣。和前面所定義的距離測(cè)度所不同的是,馬氏距離考慮了聚類(lèi)變量之間的相關(guān)。9.2.1Q型聚類(lèi)統(tǒng)計(jì)量176.切比雪夫距離(ChebychevDistance)定義9.6切比雪夫距離:是向量空間中的一種度量,兩個(gè)點(diǎn)之間的距離定義是其各坐標(biāo)數(shù)值差絕對(duì)值的最大值。其計(jì)算公式為:9.2.2R型聚類(lèi)統(tǒng)計(jì)量18R型聚類(lèi)統(tǒng)計(jì)量以相似系數(shù)作為統(tǒng)計(jì)量。對(duì)于p維總體,由于它是由p個(gè)變量構(gòu)成的,而且變量之間一般都存在內(nèi)在聯(lián)系,因此往往可以用相似系數(shù)來(lái)度量p個(gè)變量之間的相似刻度。相似系數(shù)的絕對(duì)值越接近于1,表示指標(biāo)間的關(guān)系越密切;絕對(duì)值越接近于0,表示指標(biāo)間的關(guān)系越疏遠(yuǎn)。9.2.2R型聚類(lèi)統(tǒng)計(jì)量19常見(jiàn)的相似系數(shù)及其公式如下(具體應(yīng)用見(jiàn)9.5節(jié))夾角余弦相關(guān)系數(shù)9.2.3定性數(shù)據(jù)聚類(lèi)統(tǒng)計(jì)量20定性數(shù)據(jù)也可以看作離散型數(shù)據(jù),一般用描述性術(shù)語(yǔ)來(lái)區(qū)分?jǐn)?shù)值,通常包括名義數(shù)據(jù)和有序數(shù)據(jù)兩大類(lèi),所對(duì)應(yīng)的變量為定類(lèi)變量和定序變量。因此,定性數(shù)據(jù)間的距離是無(wú)法準(zhǔn)確地測(cè)量的,可以說(shuō),傳統(tǒng)的聚類(lèi)分析方法已經(jīng)無(wú)法直接對(duì)定性數(shù)據(jù)進(jìn)行處理。在目前的一些多元統(tǒng)計(jì)教材中,給出的關(guān)于定性數(shù)據(jù)的聚類(lèi)方法分為以下兩種:定類(lèi)變量和定序變量。9.2.3定性數(shù)據(jù)聚類(lèi)統(tǒng)計(jì)量21定類(lèi)變量定義9.7定類(lèi)變量:彼此互斥,但不是有序數(shù)據(jù)的變量,又稱(chēng)“名義變量”。例如,可用數(shù)字來(lái)對(duì)某五種基因型進(jìn)行編碼,但順序任意,任何計(jì)算(如計(jì)算平均值)均無(wú)意義。若兩個(gè)樣品xi、xj取值相同的變量數(shù)為a,全部變量數(shù)為b,則xi、xj的相似度用簡(jiǎn)單匹配方法度量:然后通過(guò)對(duì)相似度閾值的設(shè)定來(lái)確定樣品之間的相似程度,從而得到聚類(lèi)結(jié)果。9.2.3定性數(shù)據(jù)聚類(lèi)統(tǒng)計(jì)量222.定序變量定義9.8定序變量:順序重要但值之間的差異不重要的變量。例如,要求患者用1~10分的評(píng)分來(lái)表達(dá)他們感受到的疼痛程度。7分意味著疼痛程度高于5分,5分高于3分。但7分和5分之間的差別可能與5分和3分之間的差別不同。這些值只是表示一個(gè)順序。定序?qū)傩缘拿總€(gè)屬性值都代表了一種秩序,因此,不論是用數(shù)字表示的還是用文字表示的,都可以表示成數(shù)字的形式。9.2.3定性數(shù)據(jù)聚類(lèi)統(tǒng)計(jì)量232.定序變量例如,一個(gè)對(duì)象的某個(gè)屬性有“大”“中”“小”3個(gè)可能的屬性值,我們可以用相應(yīng)的1、2、3來(lái)替代這種文字?jǐn)⑹觥.?dāng)轉(zhuǎn)換成對(duì)應(yīng)的整數(shù)之后,為了使每個(gè)屬性都有相同的權(quán)重,將通過(guò)以下公式將每個(gè)整數(shù)型的屬性值映射到[0,1]區(qū)間上。式中,x為整數(shù)型的屬性值;m為這個(gè)屬性總共有多少種可能的屬性。因此,對(duì)于上述例子,假如現(xiàn)在一個(gè)對(duì)象這個(gè)屬性對(duì)應(yīng)的屬性值為“中”,那么做歸一化之后的屬性值即為(2-1)/(3-1)=0.5。第3節(jié)無(wú)量綱化方法在原始數(shù)據(jù)矩陣中,同一變量單位不同會(huì)導(dǎo)致不同的距離。其次,不同變量的度量不一致,無(wú)法判斷哪個(gè)變量的值更大,哪個(gè)變量更重要,也就無(wú)法判斷距離的意義了。下面通過(guò)一個(gè)具體例子說(shuō)明有量綱化所帶來(lái)的問(wèn)題。249.3無(wú)量綱化方法25【例9.1】假設(shè)A、B、C三個(gè)案例在受教育年限和年收入兩個(gè)變量上的值如表9-2所示。年收入可以分別用萬(wàn)元和元兩種單位計(jì)量,表9-3所示為分別用這兩種單位的簡(jiǎn)單歐氏距離。9.3無(wú)量綱化方法26【例9.1】當(dāng)以萬(wàn)元為單位時(shí),A和C之間的相似性最高,其次是A和B與B和C之間的相似性最低,受教育年限變量在距離測(cè)度中起了主導(dǎo)作用。當(dāng)年收入以元為單位計(jì)量時(shí),A和C之間的相似性變成了最低,A和B與B和C之間的相似性相同,年收入的差異在相似性測(cè)度中占了絕對(duì)主導(dǎo)作用。9.3無(wú)量綱化方法27為了克服有量綱化的影響,在計(jì)算聚類(lèi)統(tǒng)計(jì)量之前,一般需要對(duì)數(shù)據(jù)作無(wú)量綱化處理。所謂無(wú)量綱化處理,是將原始數(shù)據(jù)矩陣中每個(gè)元素按照某種特定的運(yùn)算把它變成一個(gè)新值,且是數(shù)值的變化不依賴(lài)于原始數(shù)據(jù)中其他數(shù)據(jù)的新值。無(wú)量綱化方法主要有以下幾種:(1)極差正規(guī)化:(2)標(biāo)準(zhǔn)化變換:9.3無(wú)量綱化方法28
第4節(jié)Q類(lèi)系統(tǒng)聚類(lèi)法9.4.1最短距離法9.4.2最長(zhǎng)距離法9.4.3中間距離法9.4.4重心距離法9.4.5類(lèi)平均法9.4.6離差平方和法29Q型系統(tǒng)聚類(lèi)法30Q型系統(tǒng)聚類(lèi)法是對(duì)樣本進(jìn)行分類(lèi)處理的聚類(lèi)方法。在聚類(lèi)分析的開(kāi)始,每個(gè)樣本自成一類(lèi);然后,按照某種方法度量所有樣本之間的親疏程度,并把最相似的樣本首先聚成一小類(lèi);接下來(lái),度量剩余的樣本和小類(lèi)間的親疏程度,并將當(dāng)前最接近的樣本或小類(lèi)再聚成一類(lèi);再接下來(lái),再度量剩余的樣本和小類(lèi)間的親疏程度,并將當(dāng)前最接近的樣本或小類(lèi)再聚成一類(lèi);如此反復(fù),直到所有樣本聚成一類(lèi)為止。Q型系統(tǒng)聚類(lèi)法31聚類(lèi)的具體步驟為:(1)對(duì)數(shù)據(jù)進(jìn)行變換處理,消除量綱;(2)構(gòu)造n個(gè)類(lèi),每個(gè)類(lèi)只包含一個(gè)樣本計(jì)算;(3)計(jì)算n個(gè)樣本兩兩間的距離dij;(4)合并距離最近的兩類(lèi)為一新類(lèi);(5)計(jì)算新類(lèi)與當(dāng)前各類(lèi)的距離,重復(fù)步驟(4);(6)畫(huà)聚類(lèi)圖;(7)決定類(lèi)的個(gè)數(shù)和類(lèi)。其中,類(lèi)與類(lèi)之間的距離的確定方法主要有最短距離法、最長(zhǎng)距離法、中間距離法、重心距離法、類(lèi)平均法和離差平方和法。9.4.1最短距離法32以當(dāng)前一個(gè)小類(lèi)與另外的小類(lèi)中的各樣本距離中的最小值作為當(dāng)前小類(lèi)與該小類(lèi)之間的距離,并依次選擇“最近”的類(lèi)聚集的方法,稱(chēng)為最短距離法。下面以一個(gè)簡(jiǎn)單例子說(shuō)明最短距離法的聚類(lèi)過(guò)程。【例9.2】為了研究遼寧省等5省區(qū)某年城鎮(zhèn)居民生活消費(fèi)的分布規(guī)律,根據(jù)調(diào)査資料做類(lèi)型劃分,具體數(shù)據(jù)如表9-4所示。9.4.1最短距離法33解:同理可得:9.4.1最短距離法34解:河南與甘肅的距離最近,先將二者(3和4)合為一類(lèi)G6={G3,G4},則9.4.1最短距離法35解:河南、甘肅、青海并為一新類(lèi)G7={G6,G5}={G3,G4,G6},則遼寧和浙江并為一類(lèi)G8
={G1,G2},則9.4.1最短距離法36解:最終,再將G7和G8合并成一個(gè)類(lèi),由此完成了整個(gè)聚類(lèi)過(guò)程。相應(yīng)的譜系圖如圖9-1所示,從中可以清楚地看到整個(gè)聚類(lèi)的過(guò)程。本題計(jì)算出各項(xiàng)之間的距離后選取最短距離的項(xiàng)進(jìn)行聚類(lèi),根據(jù)SPSS計(jì)算得出的圖形可知,可以根據(jù)城鎮(zhèn)居民生活消費(fèi)的分布規(guī)律將5個(gè)省區(qū)分為2類(lèi)或3類(lèi),即將{河南、甘肅、青海}、{遼寧、浙江}分別聚為一類(lèi)或?qū)河南、甘肅、青海}、{遼寧}、{浙江}分別聚為一類(lèi)。9.4.2最長(zhǎng)距離法37最長(zhǎng)距離法與最短距離法的聚類(lèi)方式相同,所不同的是最長(zhǎng)距離法是以當(dāng)前一個(gè)小類(lèi)與另外的小類(lèi)中的各樣本距離中的最大值作為當(dāng)前小類(lèi)與該小類(lèi)之間的距離。【例9.3】對(duì)例9.2的數(shù)據(jù)以最長(zhǎng)距離法聚類(lèi)。9.4.2最長(zhǎng)距離法38解:河南與甘肅的距離最近,先將二者(3和4)合為一類(lèi)G6={G3,G4},則9.4.2最長(zhǎng)距離法39解:河南、甘肅、青海并為一新類(lèi)G7={G6,G5}={G3,G4,G6},則遼寧和浙江并為一類(lèi)G8
={G1,G2},則9.4.3中間距離法40類(lèi)與類(lèi)之間的距離如果不取兩類(lèi)元素之間的最短距離,也不取最長(zhǎng)距離,而是用兩個(gè)類(lèi)的中位數(shù)間的距離作為兩類(lèi)的距離,則稱(chēng)為中間距離法。例如,假定在聚類(lèi)的過(guò)程中兩個(gè)類(lèi)Gl和Gm合并成一個(gè)新類(lèi)Gr
=(Gl,Gm),那么Gr和其他任意一類(lèi)Gt的距離就定義為如圖9-2所示的三角形的中線(xiàn)的平方。類(lèi)間距離為:需要注意的是,采用中間距離法進(jìn)行聚類(lèi)時(shí),一般都采用距離(歐氏距離)的平方。9.4.4重心距離法41重心距離法將兩個(gè)類(lèi)之間的距離定義為兩個(gè)類(lèi)的重心之間的距離。聚類(lèi)過(guò)程與前面三種方法相同。例如,假定在聚類(lèi)的過(guò)程中兩個(gè)類(lèi)Gl和Gm合并成一個(gè)新類(lèi)Gr
=(Gl,Gm),那么Gr和其他任意一類(lèi)Gt的距離就定義為如圖9-3所示的距離。類(lèi)間距離為:9.4.5類(lèi)平均法42類(lèi)平均法將兩個(gè)類(lèi)之間的距離定義為這兩個(gè)類(lèi)中的樣本對(duì)(兩個(gè)元素)之間的平均距離。聚類(lèi)過(guò)程也與前面的幾種方法相同。類(lèi)間距離它利用了所有樣本對(duì)距離的信息,對(duì)所有樣本對(duì)的距離求平均值,包括小類(lèi)之間的樣本對(duì)和小類(lèi)內(nèi)的樣本對(duì)。9.4.6離差平方和法43離差平方和法是使小類(lèi)內(nèi)各樣本的歐氏距離總離差平方和增加最小的兩小類(lèi)合并為一類(lèi)。其分類(lèi)的思想和方差分析的思想類(lèi)似,在分類(lèi)過(guò)程中,使類(lèi)內(nèi)元素間的離差平方和盡可能小,而類(lèi)與類(lèi)之間的離差平方和盡可能大。將q固定時(shí),要選擇使S達(dá)到極小的分類(lèi),一切可能的分法有:9.4.6離差平方和法44先將n個(gè)樣本各成一類(lèi),然后每次縮小一類(lèi),每縮小一類(lèi)離差平方和就增大,選擇使離差平方和S增加最小的兩類(lèi)合并,直至所有樣本歸為一類(lèi)為止。類(lèi)間距離為:第5節(jié)R型系統(tǒng)聚類(lèi)法9.5.1最小系數(shù)法9.5.2最大系數(shù)法9.5.3中間系數(shù)法45R型系統(tǒng)聚類(lèi)法的步驟與Q型系統(tǒng)聚類(lèi)法的步驟相似,R型聚類(lèi)方法以相似系數(shù)作為聚類(lèi)統(tǒng)計(jì)量,按照相似系數(shù)的取值方法不同分為最小系數(shù)法、最大系數(shù)法和中間系數(shù)法三種方法。9.5.1最小系數(shù)法46計(jì)算相似系數(shù),形成相似系數(shù)矩陣,在相似系數(shù)矩陣中,將非對(duì)角線(xiàn)元素的最大者合并;計(jì)算新類(lèi)與其他類(lèi)之間的距離,計(jì)算時(shí)將新并類(lèi)的兩類(lèi)與其他類(lèi)的相似系數(shù)的最小者作為新類(lèi)和其他類(lèi)的相似系數(shù),即,這就是最小系數(shù)法。【例9.4】為對(duì)某地區(qū)經(jīng)濟(jì)效益進(jìn)行綜合評(píng)價(jià),調(diào)査了該地區(qū)25個(gè)單位的6項(xiàng)指標(biāo),通過(guò)計(jì)算它們的樣本相關(guān)系數(shù)矩陣為:用最小系數(shù)法對(duì)這6個(gè)指標(biāo)進(jìn)行聚類(lèi)。9.5.1最小系數(shù)法47解:第一,因?yàn)镃(0)中非對(duì)角線(xiàn)元素的最大者為0.9802,所以將G2與G3并為新類(lèi)G7,用最小系數(shù)法計(jì)算G7與其他類(lèi)的相關(guān)系數(shù),得C(1):第二,因?yàn)镃(1)中非對(duì)角線(xiàn)最大元素為0.7579,所以將G7與G1并為新類(lèi)G8,用最小系數(shù)法計(jì)算G8與其他類(lèi)的相關(guān)系數(shù),得C(2):9.5.1最小系數(shù)法48解:第三,因?yàn)镃(2)中非對(duì)角線(xiàn)最大元素為0.6802,所以將G5與G6并為新類(lèi)G9,用最小系數(shù)法計(jì)算G9與其他類(lèi)的相關(guān)系數(shù),得C(3):9.5.1最小系數(shù)法49解:第四,因?yàn)镃(3)中非對(duì)角線(xiàn)最大元素為0.3930,所以將G8與G9并為新類(lèi)G10,用最小系數(shù)法計(jì)算G10與其他類(lèi)的相關(guān)系數(shù),得C(4):最后將G4與G10聚為一類(lèi)。整個(gè)聚類(lèi)的過(guò)程如圖9-4所示。9.5.1最小系數(shù)法50根據(jù)相關(guān)系數(shù)的矩陣選取最小系數(shù)進(jìn)行聚類(lèi),根據(jù)SPSS計(jì)算所得的聚類(lèi)圖可知,可以根據(jù)實(shí)際需求將這6項(xiàng)指標(biāo)聚為3類(lèi)或2類(lèi)。即將{X1,X2,X3},{X5,X6},{X4}各聚為一類(lèi)或?qū)X1,X2,X3,X5,X6},{X4}各聚為一類(lèi)。9.5.2最大系數(shù)法51最大系數(shù)法是把新并類(lèi)的兩類(lèi)與其他類(lèi)的相似系數(shù)的最大者作為新類(lèi)與其他類(lèi)的相似系數(shù)。即。
【例9.5】已知5個(gè)變量的樣本相似系數(shù)矩陣為:用最大系數(shù)法對(duì)這5個(gè)指標(biāo)進(jìn)行聚類(lèi)。9.5.2最大系數(shù)法52解:第一,因?yàn)镃(0)中最大的元素為0.72,所以將G2與G4并為新類(lèi)G6,用最大系數(shù)法計(jì)算G6與其他類(lèi)的相關(guān)系數(shù),得C(1):第二,因?yàn)镃(1)中最大的元素為0.62,所以將G1與G6并為新類(lèi)G7,用最大系數(shù)法計(jì)算G7與其他類(lèi)的相關(guān)系數(shù),得C(2):9.5.2最大系數(shù)法53解:第三,因?yàn)镃(2)中最大的元素為0.57,所以將G5與G7并為新類(lèi)G8,用最大系數(shù)法計(jì)算G8與其他類(lèi)的相關(guān)系數(shù),得C(3):9.5.2最大系數(shù)法54解:最后將G3和G8聚為一類(lèi),整個(gè)聚類(lèi)的過(guò)程如圖9-5所示。根據(jù)相關(guān)系數(shù)的矩陣選取最大系數(shù)進(jìn)行聚類(lèi),根據(jù)SPSS計(jì)算所得的聚類(lèi)圖可知,可以根據(jù)實(shí)際需求將這5項(xiàng)指標(biāo)聚為3類(lèi)或2類(lèi)。即將{X1,X2,X4},{X5},{X3}各聚為一類(lèi)或?qū)X1,X2,X4,X5},{X3}各聚為一類(lèi)。9.5.3中間系數(shù)法55中間系數(shù)法是把新并類(lèi)的兩類(lèi)與其他類(lèi)的相似系數(shù)加權(quán)平均得到新并類(lèi)和其他的類(lèi)相似系數(shù),即。
【例9.6】對(duì)例9.5用中間系數(shù)法進(jìn)行聚類(lèi)。9.5.3中間系數(shù)法56解:第一,因?yàn)镃(0)中最大的元素為0.72,所以將G2與G4并為新類(lèi)G6,用平均系數(shù)法計(jì)算G6與其他類(lèi)的相關(guān)系數(shù),得C(1):9.5.3中間系數(shù)法57解:第二,因?yàn)镃(1)中最大的元素為0.57,所以將G1與G5并為新類(lèi)G7,用平均系數(shù)法計(jì)算G7與其他類(lèi)的相關(guān)系數(shù),得C(2):9.5.3中間系數(shù)法58解:第三,因?yàn)镃(2)中最大的元素為0.315,所以將G6與G7并為新類(lèi)G8,用平均系數(shù)法計(jì)算G8與其他類(lèi)的相關(guān)系數(shù),得C(3):9.5.3中間系數(shù)法59解:最后將G3和G8聚為一類(lèi),整個(gè)聚類(lèi)的過(guò)程如圖9-6所示。根據(jù)相關(guān)系數(shù)的矩陣選取中間系數(shù)進(jìn)行聚類(lèi),根據(jù)SPSS計(jì)算所得的聚類(lèi)圖可知,此題使用中間系數(shù)法的結(jié)果與最大系數(shù)法的結(jié)果有所不同。可以根據(jù)實(shí)際需求將這5項(xiàng)指標(biāo)聚為3類(lèi)或2類(lèi)。即將{X1,X5},{X2,X4},{X3}各聚為一類(lèi)或?qū)X1,X2,X4,X5},{X3}各聚為一類(lèi)。小結(jié)60在R型聚類(lèi)分析的三種方法中,相似系數(shù)的取值不同:最小系數(shù)法,最大系數(shù)法,中間系數(shù)法。因此,對(duì)于同一組數(shù)據(jù)而言,使用不同的R型聚類(lèi)方法將會(huì)得到不同的矩陣,最終會(huì)產(chǎn)生不同的聚類(lèi)。第6節(jié)快速聚類(lèi)法9.6.1凝聚點(diǎn)選擇9.6.2快速聚類(lèi)的步驟6162當(dāng)變量復(fù)雜和數(shù)據(jù)量大時(shí),系統(tǒng)聚類(lèi)法的聚類(lèi)速度較慢。此時(shí),若使用快速聚類(lèi)法,不僅可快速處理大數(shù)據(jù),還能夠解決數(shù)據(jù)量大或復(fù)雜時(shí)系統(tǒng)聚類(lèi)法無(wú)法聚類(lèi)的問(wèn)題。快速聚類(lèi)法的基本思想是,當(dāng)樣本容量較大時(shí),選擇一批凝聚點(diǎn)或給岀一個(gè)初始的分類(lèi),讓樣品按照某種原則向凝聚點(diǎn)凝聚,對(duì)凝聚點(diǎn)進(jìn)行不斷的更新或迭代,直至分類(lèi)比較合理或迭代穩(wěn)定為止。快速聚類(lèi)法63快速聚類(lèi)法也稱(chēng)為K型聚類(lèi)法。大多數(shù)情況下需要聚類(lèi)的數(shù)據(jù)較多,系統(tǒng)聚類(lèi)法較為復(fù)雜,因此使用K型聚類(lèi)法將數(shù)據(jù)聚為有限的K類(lèi)。如果選擇了N個(gè)數(shù)值型變量參與聚類(lèi)分析,最后要求聚類(lèi)數(shù)為K,那么可以由系統(tǒng)首先選擇K個(gè)觀(guān)測(cè)量作為聚類(lèi)的種子,也稱(chēng)初始類(lèi)中心、凝聚點(diǎn),按照距這幾個(gè)類(lèi)中心的距離最小原則把觀(guān)測(cè)量分到各類(lèi)中心所在的類(lèi)中去,形成第一次迭代形成的K類(lèi)。根據(jù)組成每一類(lèi)的觀(guān)測(cè)量計(jì)算各變量均值,每一類(lèi)中的n個(gè)均值在N
維空間中又形成K個(gè)點(diǎn),這就是第二次迭代的類(lèi)中心。按照這種方法依次迭代下去直到分類(lèi)比較合理為止。快速聚類(lèi)法9.6.1凝聚點(diǎn)選擇64(1)經(jīng)驗(yàn)選擇。(2)對(duì)樣本人為分類(lèi)或隨機(jī)分類(lèi),以每類(lèi)的重心作為凝聚點(diǎn)。(3)最小最大距離法。①
先選擇兩個(gè)距離最大的點(diǎn),即
。②
再選擇第3個(gè)點(diǎn)xi3,滿(mǎn)足③
一般設(shè)已選l個(gè)點(diǎn),則
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶(hù)所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶(hù)上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶(hù)上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶(hù)因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 女企業(yè)家法律課件百度云
- 兒科護(hù)理年終述職報(bào)告
- 眼科手術(shù)室管理
- 客戶(hù)關(guān)系管理溝通技巧
- 2025工程合同成本管理
- 2025汽車(chē)租賃評(píng)估合同
- 信息通信運(yùn)行管理練習(xí)測(cè)試卷
- 消防培訓(xùn)課件視頻案例
- 2025-2030植物飲料產(chǎn)品入市調(diào)查研究報(bào)告
- 消防培訓(xùn)課件背景
- GB 6245-2006消防泵
- 中考道德與法治復(fù)習(xí)要點(diǎn)+九年級(jí)中考道德與法治復(fù)習(xí)題
- SMT通用作業(yè)指導(dǎo)書(shū)
- 領(lǐng)導(dǎo)干部重大事項(xiàng)報(bào)告登記表
- 環(huán)境有害物質(zhì)管理標(biāo)準(zhǔn)
- 三年級(jí)下冊(cè)口算天天100題(A4打印版)
- 理正基坑支護(hù)設(shè)計(jì)計(jì)算書(shū)
- 城市道路照明工程施工及驗(yàn)收規(guī)程
- 廣東省潮州市各縣區(qū)鄉(xiāng)鎮(zhèn)行政村村莊村名明細(xì)
- 人教版PEP英語(yǔ)3年級(jí)全部單詞默寫(xiě)表格以及背誦版本
- 人際關(guān)系與溝通技巧全書(shū)ppt完整版課件整本書(shū)電子教案最全教學(xué)教程
評(píng)論
0/150
提交評(píng)論