




下載本文檔
版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
1、Chapter 7 聚類分析及R使用【目的要求】要求學生理解聚類分析的目的和意義及其統計思想,了解變量類型的幾種尺度定義;熟悉Q型和R型聚類分析常用的距離和相似系數的定義,特別是Minkowski距離;了解教材中介紹的6中系統聚類方法,以及他們的統一公式;熟悉軟件中最長(短)距離法、重心法和Ward(離差平方和)法的具體使用步驟。【教學內容】聚類分析的目的和意義;聚類分析中所使用的幾種尺度的定義;6種系統聚類方法的定義及其基本性質;計算程序中有關聚類分析的算法基礎;在理解系統聚類方法基本性質基礎上,初步掌握實際問題中選用聚類方法與對應的測量距離的原則。7.1 聚類分析的概念和類型1、聚類分析法
2、的概念聚類分析法(cluster analysis)是研究“物以類聚”的一種現代統計分析方法,在社會生活的眾多領域中,都需要采用聚類分析作分類研究。過去人們主要靠經驗和專業(yè)知識做定性分類處理,很少使用數學方法,致使許多分類帶有主觀性和任意性,不能很好地揭示客觀事物內在的本質差別和聯系,特別是對于多因素、多指標的分類問題,定性分類更難以實現準確分類。為了克服定性分類的不足,多元統計分析逐漸被引進數值分類學,形成了聚類分析這個分支。聚類分析方法近十年來發(fā)展很快,并且在經濟、管理、地質勘探、天氣預報、生物分類、考古學、醫(yī)學、心理學以及制定國家標準和區(qū)域標準等許多方面的應用都卓有成效,因而成為目前國外
3、較為流行的多變量統計分析方法之一。聚類分析的目的是把分類對象按一定規(guī)則分成若干類,這些類不是事先給定的,而是根據數據特征確定的。在同一類中這些對象在某種意義上趨于彼此相似,而在不同類中對象趨于不相似。聚類分析方法包括:系統聚類法、快速聚類法和模糊聚類法。2、聚類分析法的類型在實際問題中,經常要對一些東西進行分類。例如、在古生物研究中,通過挖掘出來的一些骨骼的形狀和大小對他們進行科學分類;在地質勘探中,通過礦石標本的物探、化探指標對標本進行分類;在經濟區(qū)域的劃分中,根據各種主要經濟指標將全國各省區(qū)分為幾個區(qū)域。這里,骨骼的形狀和大小,標本的物探、化探指標記憶經濟指標是我們用來分類的依據,稱為指標
4、(或變量),用X1,X2,X3, ,Xp表示,p是變量的個數;需要進行分類的骨骼、礦石和地區(qū)稱為樣品,用1,2,3, ,n表示,n是樣品的個數。聚類分析的數據結構見下表在聚類分析中,基本的思想是認為所研究的樣品或指標(變量)之間存在著程度不同的相似性(親疏關系)。于是根據一批樣品的多個觀測指標,具體找出一些能夠度量樣品(或指標)之間的相似程度的統計量,以這些統計量為劃分類型的依據,把一些相似程度較大的樣品(或指標)聚合為一類,把另外一些彼此之間相似程度較大的樣品(或指標)又聚合為另一類,關系密切的聚合到一個小的分類單位,關系疏遠的聚合到一個大的分類單位,直到把所有樣品(或指標)都聚合完畢,把不
5、同的類型一一劃分出來,形成一個由小到大的分類系統。自后把整個分類系統化成一張聚類圖,用它把所有樣品(或指標)間的親疏關系表示出來。通常根據分類對象的不同可將聚類分析分為兩類:一類是對樣品進行分類處理,叫Q型;一類是對變量進行分類處理,叫R型。Q型聚類又叫樣品分類,就是對觀測對象進行分類,是根據被觀測的對象的各種特征進行分類。在經濟管理中多用Q型聚類方法。反映同一事物特點的變量有很多,我們往往根據所研究的問題選擇部分變量對事物的某一方面進行研究。由于人類對客觀事物的認識和研究,因此往往先進行變量聚類,這樣既能找出彼此獨立且有代表性的自變量,而又不丟失大部分信息。7.2、聚類統計量聚類分析的基本原
6、則是將有較大相似性的對象歸為同一類,而將差異較大的個體歸為不同的類。為了將樣品聚類,就需要研究樣品之間的關系。一種方法是將每一個樣品看做p維空間的一個點,并在空間定義距離,距離較近的點歸為一類,距離較遠的點則屬于不同的類。對變量通常計算它們的相似系數,性質越接近的變量,它們的相似系數愈接近與1或-1,彼此無關的變量相似系數接近于0,比較相似的變量歸為一類,不怎么相似的變量屬于不同的類。可進行聚類的統計量有距離和相似系數,距離常見的有歐氏距離、馬氏距離和蘭氏距離。相似系數常見的有夾角余弦和相關系數。對樣品進行聚類時,我們將把樣品間的“靠近”程度用某種距離來刻畫;對指標聚類,往往用某種相似系數來刻
7、畫。一般來說,距離越小,兩樣品之間關系越密切,而相似系數越大,兩變量之間關系越密切。為了聚類分析方便起見,可以用下面的通用公式得到變量間的距離:d(i,j)2 = 1 C(i,j)2.7.3 系統聚類法7.3.1 系統聚類法的基本思想確定了距離和相似系數后就要進行分類。分類有許多種方法,最常用的一種方法是在樣品距離的基礎上定義類與類之間的距離。首先將n個樣品分成n類,每個樣品自成一類,然后每次講具有最小距離的兩類合并,合并后重新計算類與類之間的距離,這個過程一直持續(xù)到將所有的樣品歸為一類為止,并把這個過程畫成一張聚類圖,由聚類圖可方便地進行分類。因為聚類圖很像一張系統圖,所以這種方法就叫系統聚
8、類法(hierachical clustering method)。系統聚類的方法是目前在實際中使用最多的一種方法。從上面的分析可以看出,雖然我們已給出了計算樣品之間的距離,但在實際計算過程中還要定義類與類之間的距離。如何定義類與類之間的距離,也有很多方法,不同的方法就產生了不同的系統聚類方法,常用的如下六種:(1)最短距離法:類與類之間的距離等于兩類最近樣品之間的距離。(2)最長距離法:類與類之間的距離等于兩類最遠樣品之間的距離。(3)類平均法:類與類之間的距離等于各類元素兩兩之間的平方距離的平均。(4)重心法:類與類之間的距離定義為對應這兩類重心之間的距離。對樣品分類來說,每一類的類重心就
9、是該類樣品的均值。(5)中間距離法:最長距離夸大了類間距離,最短距離低估了類間距離。介于兩者之間的距離法即為中間距離法,類與類之間的距離既不采用兩類之間最近距離,也不采用最遠距離,而是采用介于最遠和最近之間的距離。(6)離差平方和(Ward法):基于方差分析的思想,如果類分的正確,同類樣品之間的離差平方和應當最小,類與類之間的離差平方和應當較大。7.3.3 系統聚類的基本步驟(1)計算n個樣品兩兩間的距離dij,記作D。(2)構造n個類,每個類只包含一個樣品。(3)合并距離最近的兩類為一個新類。(4)計算新類與當前各類的距離,若類個數為1,轉到步驟(5),否則回到步驟(3)。(5)畫聚類圖。(
10、6)決定類的個數和類。7.4 kmeans聚類法7.4.1 kmeans聚類的概念系統聚類法需要計算出不同樣品或變量的距離,還要在聚類的每一步都計算“類間距離”,相應的計算量自然比較大,特別是當樣本的容量很大時,需要占據非常大的計算機內存空間,這給應用帶來了一定的困難。而kmeans法是一種快速聚類法,采用該方法得到的結果比較簡單易懂,對計算機的性能要求不高,因此應用也比較廣泛。kmeans法(K均值法)是麥奎因(Mac Queen,1967)提出的,這種算法的基本思想是將每一個樣品分配給最近中心(均值)的類中,具體的算法至少包括一下三個步驟:(1)將所有的樣品分為k個初始類。(2)通過歐氏距
11、離將某個樣品劃入離中心最近的類中,并對獲得樣品與市區(qū)樣品的類重新計算中心坐標。(3)重復步驟(2),直到所有的樣品都不能再分配為止。kmeans法和系統聚類法一樣,都是以距離的遠近親疏為標準進行聚類的。但是兩者的不同之處也很明顯:系統聚類對不同的類數產生一系列的聚類結果,而K均值法只能產生指定類數的聚類結果。具體類數的確定,離不開實踐經驗的積累。有時也可借助系統聚類法,以一部分樣品為對象進行聚類,其結果作為K均值法確定類數的參考。7.4.2 kmeans聚類的原理與計算kmeans算法以k為參數,把n個對象分成k個聚類,以使聚類內具有較高的相似度,而聚類間的相似度較低。相似度的計算是根據一個聚
12、類中對象的均值來進行的。kmeans算法的處理流程如下:首先,隨機地選擇k個對象,每個對象初始地代表了一個簇的平均值或中心。對剩余的每個對象,根據其與各個聚類中心的距離將其賦給最近的簇。然后重新計算每個簇的平均值作為聚類中心進行聚類。這個過程不斷重復,直到準則函數收斂。通常,采用平方誤差準則,其定義如下:E=i=1kp=Cip-mi2其中,E為數據中所有對象與相應聚類中心的均方差之和,p為代表對象中間中的一個點,m_i 為C_i的均值(p和m_i都是多維的)。該式所示聚類標準旨在使所有獲得的聚類有以下特點:各類本身盡可能地緊湊,而各類之間盡可能地分開。kmeans迭代圖例如下圖:根據聚類中的均
13、值進行聚類劃分的kmeans算法如下。(1)從n個數據對象中取任意k個對象作為初始簇中心。(2)循環(huán)下述流程(3)到(4),知道每個聚類不再發(fā)生變化為止。(3)根據每個簇中對象的均值(中心對象),計算每個對象與這些中心對象的距離,并根據最小距離重新對相應的對象進行劃分。(4)重新計算每個(有變化)簇的均值。kmeans(x,centers,)x為數據矩陣或數據框centers為聚類數或初始聚類中心。7.5 聚類分析的一些問題1、系統聚類分析的一些特點系統聚類分析方法與傳統的統計分組方法相比具有如下特點:(1)綜合性:聚類分析可以利用多個變量的信息對樣品進行分類,克服單一指標分類的弊端。(2)形
14、象性:聚類分析可以利用聚類圖直觀地表現其分類形態(tài)及類之間的內在關系。(3)客觀性:聚類分析的結果克服了主觀因素,比傳統分類方法更客觀、細致、全面和合理。2、關于kmeans算法kmeans算法只有再類的平均值被定義的情況下才能使用,這可能不適用于某些應用,例如,涉及有分類屬性的數據,要求用戶必須實現給出k(要生成的類的數目)。這可以算是該方法的一個缺點。另外,kmeans算法不適合于分析非凸面形狀的類,或者大小差別很大的類,而且,它對于噪聲和孤立點數據是敏感的,少量的該類數據能夠對均值產生極大的影響。kmeans算法有很多變種。他們可能在初始k個平均值的選擇、相異度的計算和計算聚類平均值的策略
15、上有所不同。經常會產生較好的聚類結果的一個有趣策略是:首先采用層次凝聚算法,決定結果類的數目,并找到一個初始的聚類,然后用迭代重新定位來改進聚類結果。3、關于變量變換在實際問題中,不同的變量一般取的量綱不同,為了使不同的量綱也能放在一起比較,通常需要對數據做一些變換,有時即使變量用的是同一量綱,為了使數據更適合某種數學模型,也需要對數據進行變換,常用的變換有:(1)平移變換:將某一個指標的數據同減去一個數,一般是減去均值。(2)極差變換:將某一個指標的數據同除以該指標的極差。(3)標準差變換:將某一個指標的數據同除以該指標的標準差。(4)主成分變換:將數據用它們的主成分代替,有時為了簡化,只取前幾個主成分,舍去次要的主成分。(5)對數變換:將數據取對數,當數據之間數量級相差較大時常采用這一變換。以上變換有時同時采用,例如將數據標準化,就是先做變換(1),后做變換(3)。4、聚類分析總結(1)聚類分析根據分類對象
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 紡織設備質量控制體系與認證考核試卷
- 疫苗冷鏈管理與優(yōu)化考核試卷
- 冷凍飲品生產過程中的節(jié)能減排考核試卷
- 搪瓷表面裝飾工藝與設備考核試卷
- 生物制藥用儀器儀表制造技術考核試卷
- 纖維素纖維的生產過程與質量控制考核試卷
- 兒童游樂設備教育意義探討考核試卷
- 礦石提取與回收利用技術考核試卷
- 江蘇省常州市金壇區(qū)2025年數學四下期末達標檢測模擬試題含解析
- 濟寧職業(yè)技術學院《大學生職業(yè)規(guī)劃》2023-2024學年第一學期期末試卷
- 編劇助理合同協議
- 2025屆黑龍江省大慶市高三下學期第三次模擬考試歷史試題(含答案)
- 血液透析常用藥物知識及管理
- 災害自救互救與應急逃生知識培訓
- Revision Going to a school fair Lesson 1(教學設計)-2024-2025學年人教PEP版(2024)英語三年級下冊
- 養(yǎng)老院火災事故防范重點培訓課件
- 便秘的評估與護理
- 人才招聘中的社交媒體運用與效果評估
- 2025就業(yè)指導課件
- 2025-2030中國菊粉行業(yè)市場發(fā)展趨勢與前景展望戰(zhàn)略研究報告
- 新能源電池材料回收行業(yè)深度調研及發(fā)展戰(zhàn)略咨詢報告
評論
0/150
提交評論