復習-聚類分析課件_第1頁
復習-聚類分析課件_第2頁
復習-聚類分析課件_第3頁
復習-聚類分析課件_第4頁
復習-聚類分析課件_第5頁
已閱讀5頁,還剩65頁未讀 繼續免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

復習-聚類分析聚類分析clusteranalysis概述距離與相似系數系統聚類法(hierarchicalclustering

)快速聚類法(k-meansclustering)聚類分析是多元分析的主要方法之一,主要用來對大量的樣品或變量進行分類,是初步數據分析的重要工具之一。復習-聚類分析“物以類聚,人以群分”,科學研究在揭示對象特點及其相互作用的過程中,不惜花費時間和精力進行對象分類,以揭示其中相同和不相同的特征。在心理學研究中,經常遇到的分類包括兩種情況:一是對研究樣本或個案的分類,即根據每個個案的一系列觀測指標,將那些在這些觀測量方面表現相近的個案歸為一類,將那些在這些觀測量方面的表現很不相同的個案歸為不同類,類似于判別分析;二是對觀測量的分類,即將一系列的觀測量歸類合并為性質明顯不同的少數幾個方面,類似于因素分析。但是聚類分析不同于因素分析:因素分析是根據所有變量間的相關關系提取公共因子;聚類分析是先將最相似的兩個變量聚為一小類,再去與最相似的變量或小類合并,如此分層依次進行;聚類分析也不同于判別分析:判別分析是要先知道各種類,然后判斷某個案是否屬于某一類。復習-聚類分析一、概述聚類的實質根據樣本(變量)間的親疏關系將樣本(變量)分為類,相近的歸為一類,差別較大的歸為另一類。所獲得的分類應有一定的意義。聚類分析的關鍵親疏關系的判別:相似性與距離(不相似性)分類數的確定:分多少類合適復習-聚類分析聚類分析的基本原理

聚類分析是一種數值分類方法(即完全是根據數據關系)。要進行聚類分析就要首先建立一個由某些事物屬性構成的指標體系,或者說是一個變量組合。入選的每個指標必須能刻畫事物屬性的某個側面,所有指標組合起來形成一個完備的指標體系,它們互相配合可以共同刻畫事物的特征。所謂完備的指標體系,是說入選的指標是充分的,其它任何新增變量對辨別事物差異無顯著性貢獻。如果所選指標不完備,則導致分類偏差。比如要對家庭教養方式進行分類,就要有描述家庭教育方式的一系列變量,這些變量能夠充分地反映不同家庭對子女的教養方式。簡單地說,聚類分析的結果取決于變量的選擇和變量值獲取的兩個方面。變量選擇越準確、測量越可靠,得到的分類結果越是能描述事物各類間的本質區別。復習-聚類分析

聚類分析完全是根據數據情況來進行的。就一個由n個個案、k個變量組成的數據文件來說,當對個案進行聚類分析時,相當于對k維坐標系中的n個點進行分組,所依據的是它們的距離;當對變量進行聚類分析時,相當于對n維坐標系中的k個點進行分組,所依據的也是點距。所以距離或相似性程度是聚類分析的基礎。點距如何計算呢?拿連續測量的變量來說,可以用歐氏距離平方計算:即各變量差值的平方和。復習-聚類分析6特征量的類型物理量:直接反映特征的實際物理意義

如:長度、重量、速度等。處理前需要離散化。次序量:按某種規則確定的只反映特征的次序關系或等級

如:產品的等級、病癥的級或期。已是離散量。名義量:反映樣本的狀態特征非數值的,

如男性與女性、事物的狀態、種類等。需要數值化。這些特征的數值指標既無數量含義,也無次序關系,只是用數字代表各種狀態。復習-聚類分析7方法的有效性(1)特征選取不當或不足使分類無效;(2)特征選取過多可能有害無益,且增加分析負擔。復習-聚類分析8(3)特征量綱對聚類結果的影響財富(萬)510年齡6030財富(十萬)年齡6030510復習-聚類分析9聚類準則對聚類結果的影響羊,狗,貓,鯊魚蜥蜴,蛇,

麻雀,海鷗,

金魚,青蛙(a)繁衍后代的方式金魚,

鯊魚羊,狗,貓,蜥蜴,蛇,麻雀,海鷗,青蛙(b)肺的存在金魚,

鯊魚羊,狗,貓,蜥蜴,蛇,麻雀,海鷗,

青蛙(c)生存環境金魚蜥蜴,蛇,麻雀,海鷗,青蛙(d)繁衍后代的方式和是否存在肺鯊魚羊,狗,貓,復習-聚類分析聚類分析的應用不同地區城鎮居民收入和消費狀況的分類研究。

區域經濟及社會發展水平的分析及全國區域經濟綜合評價產品市場細分:按照消費者的需求特征分成不同的細分市場在兒童生長發育研究中,把以形態學為主的指標歸于一類,以機能為主的指標歸于另一類復習-聚類分析聚類分析的類型根據分類的對象Q型聚類(即樣品聚類clusteringforindividuals)R型聚類(指標聚類clusteringforvariables)根據分類的方法:系統聚類(hierarchicalclustering

)快速聚類(k-meansclustering)復習-聚類分析聚類分析數據格式k復習-聚類分析二、距離與相似系數樣本間的親疏關系通常用距離描述,變量間的親疏關系通常用相似系數或相關系數描述不同測量尺度的數據,其距離的計算方法不同復習-聚類分析(一)、距離:樣本間的親疏關系距離的定義:假使每個樣品由p個變量描述,則每個樣品都可以看成p維空間中的一個點,n個樣品就是p維空間中的n個點,則第i樣品與第j樣品之間的距離記為dijdij滿足下列條件

dij≥0

dii=0

dij=dji

dij≤dik+dkj復習-聚類分析1.歐式(Euclidian

)距離x1x2①②x12x22x11x21x21-x11x22-x12復習-聚類分析2.明氏(Minkowski

)距離q=1q=2q=∞當q=1,為絕對值距離,SPSS稱為block當q=2,即為歐式距離當q=∞,有,稱為切比雪夫(Chebychev)距離復習-聚類分析實例計算品距離矩陣復習-聚類分析絕對值距離品復習-聚類分析Euclidian距離的平方2復習-聚類分析Euclidian距離復習-聚類分析明氏距離的缺點各指標同等對待(權數相同),不能反映各指標變異程度上的差異距離的大小與各指標的觀測單位有關,有時會出現不合理結果(p7,圖1-1例)沒有考慮指標之間的相關性當各指標的測量值相差懸殊時,可以先對數據標準化,然后用標準化后的數據計算距離復習-聚類分析3.馬氏(Mahalanobis)

距離明氏距離沒有考慮數據中的協方差模式,馬氏距離則考慮了協方差,且不受指標測量單位的影響:已知一二維正態總體G的分布為:G~N(

,),其中分別求點A=(1,1)’,和點B=(1,-1)到均值的歐式距離和馬氏距離

歐式等距離線馬氏等距離線Mahalanobis

距離例AB復習-聚類分析歐氏距離、標準化變量的歐式距離與馬氏距離的比較復習-聚類分析4.Lance和Williams

距離對標準化變量:復習-聚類分析5.

配合距離前幾類距離多用于定距和定比尺度數據,對于定類和定序變量:復習-聚類分析配合距離例4種品牌的軟飲料在4個方面的特性:是否可樂口味?是否含有咖啡因?是否節食飲料?是否可口可樂公司產?可樂味咖啡因節食可口可樂Coke1101Pepsi1100DietCoke1111Caffeine-freeDietCoke1011距離矩陣復習-聚類分析1.夾角余弦(Cosine)(二)相似系數:變量間的親疏關系受相似形的啟發而來,AB和CD盡管長度不一,但形狀相似ABDC復習-聚類分析2.Pearson相關系數(二)相似系數復習-聚類分析三、系統聚類法聚合法分解法通常分為兩步:先做出類別距離譜系圖,再根據譜系圖的特點確定分類數并分類復習-聚類分析復習-聚類分析Agglomerative系統聚類法基本步驟步驟1:將n個樣品各作為一類,共n類:C1、C2、…、Cn。計算各類之間的距離,構成距離矩陣:dcicj=dij步驟2:找到距離最近的兩類合并為一新類步驟3:計算新類與當前各類的距離。重復步驟2、3,直至合并成一類為止,形成譜系圖根據譜系圖確定如何分類單樣本類,類與類之間的距離為樣品距離類間距離復習-聚類分析類與類間距離復習-聚類分析

類與類之間的距離

1.最短距離法(singlelinkage)2.最長距離法(completelinkage)3.中間距離法(medianmethod)4.類平均法(averagelinkage)5.可變類平均法(flexible-betamethod)6.重心法(centroidmethod)7.Ward離差平方和法(Ward'sminimum-variancemethod)AgglomerativeMethods:各種不同方法的基本步驟相同,只是類與類之間距離的計算方法不同。復習-聚類分析(一)最短距離法類與類之間的距離是兩類間兩兩樣品間的最短距離復習-聚類分析6個民族的粗死亡率與期望壽命復習-聚類分析哈薩克與藏族的距離最短,最先合并形成新類CL7新類CL7和其余四類的距離復習-聚類分析第二次合并新類和各類的距離復習-聚類分析第三次合并復習-聚類分析第四次合并復習-聚類分析最后合并成一類復習-聚類分析譜系圖不顯示實際距離,顯示0-25的比例距離樹狀圖復習-聚類分析冰柱圖12345融合在一起的為一類復習-聚類分析(二)最長距離法類與類之間的距離是兩類間兩兩樣品間的最長距離復習-聚類分析前例:最長距離法第1次合并仍取最短歐式距離新類和各類的距離:取最大值復習-聚類分析第2次合并新類和各類的距離:取最大值復習-聚類分析第3次合并復習-聚類分析第4次合并復習-聚類分析最后合并復習-聚類分析復習-聚類分析(三)中間距離法

(medianmethod)

最長距離夸大了類間距離,最短距離低估了類間距離。介于兩者間的距離即為中間距離KLJM復習-聚類分析(四)類平均法

(averagelinkagebetweengroup)SPSS作為默認方法,稱為between-groupslinkageKLJM復習-聚類分析(五)重心法(centroidmethod)

類與類間的距離用各自重心間的歐式距離表示

KLJM復習-聚類分析(六)Ward最小方差法

(Ward’minimumvariancemethod)

源于方差分析。類內離差平方和:類中各樣品到類重心(均值)的平方歐式距離之和。基本思路:兩類合并后,離差平方和就會增加。每次選擇使離差平方和增加(SSM-SSK-SSL)最小的兩類進行合并,直至所有的樣品歸為一類。復習-聚類分析(七)各種系統聚類方法的統一

以上聚類方法的計算步驟完全相同,僅類與類之間的定義不同。Lance和Williams于1967年將其統一為:復習-聚類分析八種系統聚類法公式的參數

注意:幾種聚類方法獲得的結果不一定相同復習-聚類分析最長距離法最短距離法分類數的確定及類別的解釋系統聚類法給我們提供了一個類別距離譜系,最終樣本如何分類、分成幾類需要我們自己根據研究的目的確定。3類2類2類復習-聚類分析三、快速聚類法(k-means)

也叫動態聚類、逐步聚類、迭代聚類與系統聚類的主要區別非層次性遞推過程從初始分類開始不斷優化的過程當樣本量很大時,用系統聚類法的計算工作量極大,作出的樹狀圖也十分復雜,不便于分析,用快速聚類較好。復習-聚類分析K-meansprocessImportant:initialcentroidsorclustercentersandthenumberofclusters注意:快速聚類需事先確定分幾類復習-聚類分析復習-聚類分析容易產生局部最優而非全局最優,初始分類很重要復習-聚類分析初始凝聚點的確定自動選擇

必須給出允許分類的最大個數k憑經驗選擇可以先選取部分樣本作系統聚類(例如用Ward‘s方法,它與K-means的分類原則很相似),以得到初始分類的凝聚點(并確定分類數),建立一個初始凝聚點數據文件,復習-聚類分析聚類分析小結1.聚類分析的概念

2.兩種聚類思想:系統聚類、快速聚類譜系圖確定分類數

3.Q-型聚類分析

4.R-型聚類分析

5.SPSS的聚類分析過程

6.聚類分析的結果評述復習-聚類分析系統聚類的統計思想

對于位置類別的樣本或變量,依據相應的定義把它們分為若干類,分類過程是一個逐步減少類別的過程,在每一個聚類層次,必須滿足“類內差異小,類間差異大”原則,直至歸為一類。評價聚類效果的指標一般是方差,距離小的樣品所組成的類方差較小。復習-聚類分析快速聚類的基本思想動態聚類的方法源于數學中的迭代算法,就是當樣品進行聚類時,先給定一個比較粗糙的初始分類,然后設計某種原則進行類別的修改,不斷調整和改正這些類別的樣品組成,直到比較合理為止。為了迅速找到一種初始分類,我們一般先選擇一些凝聚點,讓樣品依照某種規則向凝聚點凝聚。動態凝聚的一般步驟是:選凝聚點初始分類分類是否合理?最終分類修改分類復習-聚類分析聚類分析的特點不同聚類方法所得到的分類結果可能不同。統計的優勢在于每一種聚類過程可以在瞬間完成,因此可以進行大量嘗試性的分析,并對結果進行比較,以便我們對數據做出更加合理的結論。

復習-聚類分析

實例分析:為反映員工心理因素方面的差異性,某研究者調研了一工廠36名員工的6項心理因素,如下表所示。請根據這一分數對員工進行分類,并回答:員工分成幾類比較理想?Z1Z2Z3Z4Z5Z6Z1Z2Z3Z4Z5Z6666462505856536653595545555059595351615558615861504749454646596460525456555950545269556072605567555948564750565268405155625468464651595161565256606056535251605362554763525269585762525157455559565557394446565757525955505068464556685871685361585460595251605361605651535255576564645674505957525653576351675360535351566552516247565667675652506359535548534649435048635760665156535765526759564658504552604071575658475057495048544544494246復習-聚類分析練習題1.為研究不同公司的運營特點,調查

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論