《多元統(tǒng)計(jì)分析》課程實(shí)施大綱_第1頁(yè)
《多元統(tǒng)計(jì)分析》課程實(shí)施大綱_第2頁(yè)
《多元統(tǒng)計(jì)分析》課程實(shí)施大綱_第3頁(yè)
《多元統(tǒng)計(jì)分析》課程實(shí)施大綱_第4頁(yè)
《多元統(tǒng)計(jì)分析》課程實(shí)施大綱_第5頁(yè)
已閱讀5頁(yè),還剩48頁(yè)未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

《多元統(tǒng)計(jì)分析》課程實(shí)施大綱1.教學(xué)理念 12.課程介紹 22.1課程的性質(zhì) 22.2課程在學(xué)科專業(yè)結(jié)構(gòu)中的地位、作用 22.3課程的前沿及發(fā)展趨勢(shì) 22.4學(xué)習(xí)本課程的必要性 23.教師簡(jiǎn)介 33.1教師的職稱、學(xué)歷 33.2教育背景 33.3研究興趣(方向) 34.先修課程 45.課程目標(biāo) 45.1知識(shí)與技能方面 45.2過程與方法方面 45.3情感、態(tài)度與價(jià)值觀方面 46.課程內(nèi)容 56.1課程的內(nèi)容概要 56.2教學(xué)重點(diǎn)、難點(diǎn) 66.3學(xué)時(shí)安排 77.課程實(shí)施 87.1教學(xué)單元一多元正態(tài)分布、均值向量和協(xié)方差陣的檢驗(yàn) 87.2教學(xué)單元二聚類分析 107.3教學(xué)單元三判別分析 157.4教學(xué)單元四主成分分析 187.5教學(xué)單元四因子分析 277.6教學(xué)單元四對(duì)應(yīng)分析 317.7教學(xué)單元四典型相關(guān)分析 447.8教學(xué)單元四多重線性分析 498.課程要求 518.1學(xué)生自學(xué)要求 518.2課外閱讀要求 528.3課堂討論要求 528.4課程實(shí)踐要求 529.課程考核 529.1出勤(遲到、早退等)、作業(yè)、報(bào)告等的要求 529.2成績(jī)的構(gòu)成與評(píng)分規(guī)則說明 529.3考試形式及說明 5210.學(xué)術(shù)誠(chéng)信 5210.1考試違規(guī)與作弊處理 5210.2杜撰數(shù)據(jù)、信息處理等 5210.3學(xué)術(shù)剽竊處理等 5211.課堂規(guī)范 5211.1課堂紀(jì)律 5211.2課堂禮儀 5312.課程資源 5312.1教材與參考書 5312.2專業(yè)學(xué)術(shù)著作 5312.3專業(yè)刊物 5312.4網(wǎng)絡(luò)課程資源 5312.5課外閱讀資源 5313.教學(xué)合約 5313.1閱讀課程實(shí)施大綱,理解其內(nèi)容 5313.2同意遵守課程實(shí)施大綱中闡述的標(biāo)準(zhǔn)和期望 5314.其他說明 53PAGE511.教學(xué)理念1.1全面貫徹以學(xué)生為主體的教學(xué)策略。關(guān)注學(xué)生現(xiàn)有基礎(chǔ)和認(rèn)知發(fā)展水平,在課堂中講授真正能讓學(xué)生的進(jìn)步和發(fā)展的多元統(tǒng)計(jì)知識(shí)技能和思維方式。首先,在課前做到“備學(xué)生”認(rèn)真、充分。其次,本課程要促進(jìn)學(xué)生全面的發(fā)展。不僅傳授多元統(tǒng)計(jì)學(xué)學(xué)科的發(fā)展,而且向?qū)W生傳遞多元統(tǒng)計(jì)思想方法、分析問題的思維角度等。1.2關(guān)注教學(xué)活動(dòng)的效益。授課時(shí)不能以最短時(shí)間講授最多內(nèi)容為衡量效益的標(biāo)準(zhǔn),而要時(shí)刻考查學(xué)生的習(xí)得情況(根據(jù)課堂提問、隨堂練習(xí)、課后作業(yè)、輔導(dǎo)答疑來實(shí)現(xiàn)),來指導(dǎo)教學(xué),故而效益的衡量標(biāo)準(zhǔn)應(yīng)該是在有限的時(shí)間內(nèi)讓學(xué)生學(xué)到、學(xué)懂更多的知識(shí)。對(duì)教授的要有詳略處理知識(shí),那些有效知識(shí)、在學(xué)生以后的學(xué)習(xí)、生活中起重要作用的知識(shí)要重點(diǎn)講、哪怕會(huì)多花些時(shí)間也是值得的。總之一句話:在有限時(shí)間內(nèi)讓學(xué)生掌握更多的有效知識(shí)是衡量教學(xué)效益的標(biāo)準(zhǔn)。1.3關(guān)注教學(xué)的量化。“知己知彼,百戰(zhàn)不殆”,量化是了解你從事工作有無效果、將來如何采取措施的前提。量化分為對(duì)學(xué)生的量化和對(duì)教師的量化。如對(duì)學(xué)生的量化,課后習(xí)題一定要有針對(duì)性,主要瞄準(zhǔn)你所教授的有效知識(shí)來設(shè)置。對(duì)教師的量化,如教學(xué)目標(biāo)盡可能明確與具體,以便檢測(cè)教師的工作效益。但是并不能簡(jiǎn)單地說量化就是好的、科學(xué)的。應(yīng)該科學(xué)地對(duì)待定量與定性、過程與結(jié)果的結(jié)合,全面地反映學(xué)生的學(xué)業(yè)成就與教師的工作表現(xiàn)。因此,有效教學(xué)既要反對(duì)拒絕量化,又要反對(duì)過于量化。1.4課后反思教學(xué)。對(duì)教學(xué)活動(dòng)勤于反思,教學(xué)活動(dòng)效果好,總結(jié)為什么會(huì)好?有沒有會(huì)更好的教學(xué)方式?教學(xué)活動(dòng)效果差,尋找差的原因,如何在今后的教學(xué)中避免類似的問題。2.課程介紹2.1課程的性質(zhì)本課程為統(tǒng)計(jì)學(xué)專業(yè)學(xué)生的限選課,考核方式為閉卷考試。2.2課程在學(xué)科專業(yè)結(jié)構(gòu)中的地位、作用多元統(tǒng)計(jì)分析是從經(jīng)典統(tǒng)計(jì)學(xué)中發(fā)展起來的一個(gè)分支,是一種綜合分析方法,它能夠在多個(gè)對(duì)象和多個(gè)指標(biāo)互相關(guān)聯(lián)的情況下分析它們的統(tǒng)計(jì)規(guī)律,很適合現(xiàn)代科學(xué)研究的特點(diǎn)。主要內(nèi)容包括多元正態(tài)分布及其抽樣分布、多元正態(tài)總體的均值向量和協(xié)方差陣的假設(shè)檢驗(yàn)、多元方差分析、直線回歸與相關(guān)、多元線性回歸與相關(guān)(Ⅰ)和(Ⅱ)、主成分分析與因子分析、判別分析與聚類分析、Shannon信息量及其應(yīng)用。簡(jiǎn)稱多元分析。當(dāng)總體的分布是多維(多元)概率分布時(shí),處理該總體的數(shù)理統(tǒng)計(jì)理論和方法。數(shù)理統(tǒng)計(jì)學(xué)中的一個(gè)重要的分支學(xué)科。2.3課程的前沿及發(fā)展趨勢(shì)多元統(tǒng)計(jì)分析有狹義與廣義之分,當(dāng)假定總體分布是多元正態(tài)分布時(shí),稱為狹義的,否則稱為廣義的。近年來,狹義多元分析的許多內(nèi)容已被推廣到更廣的分布之中,特別是推廣到一種稱為橢球等高分布族之中。隨著“大數(shù)據(jù)”時(shí)代的到來,人們有原來注重因果分析轉(zhuǎn)移到注重相關(guān)關(guān)系分析分析,多元統(tǒng)計(jì)分析勢(shì)必會(huì)在該領(lǐng)域取得更大的發(fā)展。2.4學(xué)習(xí)本課程的必要性作為統(tǒng)計(jì)學(xué)專業(yè)本科生專業(yè)限選課程,《多元統(tǒng)計(jì)分析》無論從夯實(shí)學(xué)生理論基礎(chǔ)、完善學(xué)生知識(shí)結(jié)構(gòu)還是從培養(yǎng)學(xué)生思維方式等角度看,都是非常重要的。多元統(tǒng)計(jì)分析知識(shí)與實(shí)際問題銜接非常緊密,是學(xué)生將來從事專業(yè)工作的基本方法和基本的思維方法。4.先修課程高等代數(shù)、數(shù)學(xué)分析、概率論與數(shù)理統(tǒng)計(jì)、統(tǒng)計(jì)學(xué)導(dǎo)論等5.課程目標(biāo)5.1知識(shí)與技能方面掌握現(xiàn)代統(tǒng)計(jì)學(xué)重要方法——多元統(tǒng)計(jì)方法體系的具體方法:多元正態(tài)總體的均值向量和協(xié)方差陣的假設(shè)檢驗(yàn)、多元方差分析、直線回歸與相關(guān)、多元線性回歸與相關(guān)(Ⅰ)和(Ⅱ)、主成分分析與因子分析、判別分析與聚類分析、Shannon信息量。會(huì)對(duì)簡(jiǎn)單的理論進(jìn)行證明分析。技能方面:能運(yùn)用相關(guān)知識(shí)結(jié)合Spss軟件對(duì)數(shù)據(jù)進(jìn)行分析,書寫數(shù)據(jù)分析報(bào)告。5.2過程與方法方面在學(xué)習(xí)過程中讓學(xué)生體會(huì)甚至能吸收掌握運(yùn)用多元統(tǒng)計(jì)分析的基本統(tǒng)計(jì)思想:抓數(shù)據(jù)信息的主要矛盾、正交變換等重要思想,體會(huì)這些思想如何用統(tǒng)計(jì)的工具去實(shí)現(xiàn),體會(huì)知識(shí)創(chuàng)造的過程。5.3情感、態(tài)度與價(jià)值觀方面在學(xué)習(xí)過程中可以貫穿一些科學(xué)研究的奇聞?shì)W事和豐富的實(shí)際例子來激發(fā)學(xué)生對(duì)統(tǒng)計(jì)學(xué)的學(xué)習(xí)熱情、對(duì)本專業(yè)的熱愛。培養(yǎng)學(xué)生對(duì)統(tǒng)計(jì)科學(xué)的嚴(yán)謹(jǐn)態(tài)度和尊重?cái)?shù)據(jù)客觀性的態(tài)度。6.課程內(nèi)容6.1課程的內(nèi)容概要多元統(tǒng)計(jì)分析研究客觀事物中多個(gè)變量(或多個(gè)因素)之間相互依賴的統(tǒng)計(jì)規(guī)律性。它的重要基礎(chǔ)之一是多元正態(tài)分析。又稱多元分析

。如果每個(gè)個(gè)體有多個(gè)觀測(cè)數(shù)據(jù),或者從數(shù)學(xué)上說,如果個(gè)體的觀測(cè)數(shù)據(jù)能表為P維歐幾里得空間的點(diǎn),那么這樣的數(shù)據(jù)叫做多元數(shù)據(jù),而分析多元數(shù)據(jù)的統(tǒng)計(jì)方法就叫做多元統(tǒng)計(jì)分析。它是數(shù)理統(tǒng)計(jì)學(xué)中的一個(gè)重要的分支學(xué)科。20世紀(jì)30年代,R.A.費(fèi)希爾,H.霍特林,許寶碌以及S.N.羅伊等人作出了一系列奠基性的工作,使多元統(tǒng)計(jì)分析在理論上得到迅速發(fā)展。50年代中期,隨著電子計(jì)算機(jī)的發(fā)展和普及,多元統(tǒng)計(jì)分析在地質(zhì)、氣象、生物、醫(yī)學(xué)、圖像處理、經(jīng)濟(jì)分析等許多領(lǐng)域得到了廣泛的應(yīng)用,同時(shí)也促進(jìn)了理論的發(fā)展。各種統(tǒng)計(jì)軟件包如SAS,SPSS等,使實(shí)際工作者利用多元統(tǒng)計(jì)分析方法解決實(shí)際問題更簡(jiǎn)單方便。重要的多元統(tǒng)計(jì)分析方法有:多重回歸分析(簡(jiǎn)稱回歸分析)、判別分析、聚類分析、主成分分析、對(duì)應(yīng)分析、因子分析、典型相關(guān)分析、多元方差分析等。多重回歸分析簡(jiǎn)稱回歸分析。其特點(diǎn)是同時(shí)處理多個(gè)因變量。回歸系數(shù)和常數(shù)的計(jì)算公式與通常的情況相仿,只是由于因變量不止一個(gè),原來的每個(gè)回歸系數(shù)在此都成為一個(gè)向量。因此,關(guān)于回歸系數(shù)的檢驗(yàn)要用T2統(tǒng)計(jì)量;對(duì)回歸方程的顯著性檢驗(yàn)要用Λ統(tǒng)計(jì)量。判別分析由k個(gè)不同總體的樣本來構(gòu)造判別函數(shù),利用它來決定新的未知類別的樣品屬于哪一類,這是判別分析所處理的問題。它在醫(yī)療診斷、天氣預(yù)報(bào)、圖像識(shí)別等方面有廣泛的應(yīng)用。聚類分析又稱數(shù)值分類。聚類分析和判別分析的區(qū)別在于,判別分析是已知有多少類和樣本來自哪一類,需要判別新抽取的樣本是來自哪一類;而聚類分析則既不知有幾類,也不知樣本中每一個(gè)來自哪一類。例如,為了制定服裝標(biāo)準(zhǔn),對(duì)N個(gè)成年人,測(cè)量每人的身高(x1)、胸圍(x2)、肩寬(x3)、上體長(zhǎng)(x4)、手臂長(zhǎng)(x5)、前胸(x6)、后背(x7)、腰圍(x8)、臀圍(x9)、下體長(zhǎng)(x10)等部位,要將這N個(gè)人進(jìn)行分類,每一類代表一個(gè)號(hào)型;為了使用和裁剪的方便,還要對(duì)這些變量(x1,x2,…,x10)進(jìn)行分類。聚類分析就是解決上述兩種分類問題。主成分分析又稱主分量分析,是將多個(gè)變量通過線性變換以選出較少個(gè)數(shù)重要變量的一種方法。設(shè)原來有p個(gè)變量x1,x2,…,xp,為了簡(jiǎn)化問題,選一個(gè)新變量z。要求z盡可能多地反映p個(gè)變量的信息,以此來選擇l1,l2,…,lp,當(dāng)l1,l2,…,lp選定后,稱z為x1,x2,…,xp的主成分(或主分量)。有時(shí)僅一個(gè)主成分不足以代表原來的p個(gè)變量,可用q(<p)個(gè)互不相關(guān)的呈上述形式的主成分來盡可能多地反映原p個(gè)變量的信息。對(duì)應(yīng)分析這是70年代地質(zhì)學(xué)家提出的方法。對(duì)非負(fù)值指標(biāo)的樣本資料矩陣作適當(dāng)?shù)奶幚砗?同時(shí)進(jìn)行R型與Q型的主成分分析,將結(jié)果綜合在圖上進(jìn)行解釋,可以得到指標(biāo)隨時(shí)間、空間位置變化的規(guī)律。它的理論正在引起多方面的重視。因子分析它是由樣本的資料將一組變量分解為一些公共因子f與特殊因子s的線性組合,即有常數(shù)矩陣A使у=Af+s。公共因子f的客觀內(nèi)容有時(shí)是明確的,如在心理研究中,根據(jù)學(xué)生的測(cè)驗(yàn)成績(jī)(指標(biāo))來分析他的反應(yīng)快慢、理解深淺(公共因子);有時(shí)則是不明確的。為了尋求易于解釋的公共因子,往往對(duì)因子軸進(jìn)行旋轉(zhuǎn),旋轉(zhuǎn)的方法有正交旋轉(zhuǎn),斜旋轉(zhuǎn),極大變差旋轉(zhuǎn)等。典型相關(guān)分析它是尋求兩組變量各自的線性函數(shù)中相關(guān)系數(shù)達(dá)到最大值的一對(duì),這稱為第一對(duì)典型變量,還可以求第二對(duì),第三對(duì),等等,這些成對(duì)的變量,彼此是不相關(guān)的。各對(duì)的相關(guān)系數(shù)稱為典型相關(guān)系數(shù)。通過這些典型變量所代表的實(shí)際含意,可以找到這兩組變量間的一些內(nèi)在聯(lián)系。典型相關(guān)分析雖然30年代已經(jīng)出現(xiàn),但至今未能廣泛應(yīng)用。多元方差分析它是處理多變量方差分析的方法。6.2教學(xué)重點(diǎn)、難點(diǎn)重點(diǎn):聚類分析、主成分分析和因子分析難點(diǎn):多元統(tǒng)計(jì)分析的理論基礎(chǔ)、矩陣論相關(guān)知識(shí)、主成分分析6.3學(xué)時(shí)安排第一章多元正態(tài)分布3學(xué)時(shí)

1.1多元分布的基本概念

1.2統(tǒng)計(jì)距離

1.3多元正態(tài)分布

1.4均值向量和協(xié)方差陣的估計(jì)

1.5常用分布及抽樣分布第二章均值向量和協(xié)方差陣的檢驗(yàn)3學(xué)時(shí)

2.1均值向量的檢驗(yàn)

2.2協(xié)方差陣的檢驗(yàn)

2.3有關(guān)檢驗(yàn)的上機(jī)實(shí)現(xiàn)第三章聚類分析6學(xué)時(shí)

3.1聚類分析的基本思想

3.2相似性度量

3.3類和類的特征

3.4系統(tǒng)聚類法

3.5模糊聚類分析

3.6K-均值聚類和有序樣品的聚類

3.7計(jì)算步驟與上機(jī)實(shí)現(xiàn)

3.8社會(huì)經(jīng)濟(jì)案例研究第四章判別分析4學(xué)時(shí)

4.1判別分析的基本思想

4.2距離判別

4.3貝葉斯判別

4.4費(fèi)歇判別

4.5逐步判別

4.6判別分析應(yīng)用的幾個(gè)例子第五章主成分分析6學(xué)時(shí)

5.1主成分分析的基本原理

5.2總體主成分及其性質(zhì)

5.3樣本主成分的導(dǎo)出

5.4有關(guān)問題的討論

5.5主成分分析步驟及框圖

5.6主成分分析的上機(jī)實(shí)現(xiàn)第六章因子分析4學(xué)時(shí)

6.1因子分析的基本理論

6.2因子載荷的求解

6.3因子分析的步驟與邏輯框圖

6.4因子分析的上機(jī)實(shí)現(xiàn)第七章對(duì)應(yīng)分析4學(xué)時(shí)

7.1列聯(lián)表及列聯(lián)表分析

7.2對(duì)應(yīng)分析的基本理論

7.3對(duì)應(yīng)分析的步驟及邏輯框圖

7.4對(duì)應(yīng)分析的上機(jī)實(shí)現(xiàn)第八章典型相關(guān)分析4學(xué)時(shí)

8.1典型相關(guān)分析的基本理論及方法

8.2典型相關(guān)分析的步驟及邏輯框圖

8.3典型相關(guān)分析的上機(jī)實(shí)現(xiàn)

8.4社會(huì)經(jīng)濟(jì)案例研究

第九章多重線性分析4學(xué)時(shí)

9.1對(duì)數(shù)線性模型基本理論和方法

9.2對(duì)數(shù)線性模型的上機(jī)實(shí)現(xiàn)

9.3Logistic回歸基本理論和方法

9.4Iogistic回歸的方法及步驟課堂討論與習(xí)題解答7學(xué)時(shí)7.課程實(shí)施7.1教學(xué)單元一多元正態(tài)分布、均值向量和協(xié)方差陣的檢驗(yàn)7.1.1教學(xué)日期2015-2016學(xué)年第一學(xué)期第九周周二、周四、周五7.1.2教學(xué)目標(biāo)掌握多元統(tǒng)計(jì)分析基本理論、會(huì)進(jìn)行均值向量和協(xié)方差陣的檢驗(yàn)7.1.3教學(xué)內(nèi)容(含重點(diǎn)、難點(diǎn))重點(diǎn):常用分布及抽樣分布,難點(diǎn):協(xié)方差陣的檢驗(yàn)7.1.4教學(xué)過程1.1多元正態(tài)分布如同一元統(tǒng)計(jì)分析中一元正態(tài)分布的重要地位一樣,多元正態(tài)分布在多元統(tǒng)計(jì)分析分析中占有重要的地位,因?yàn)槎嘣y(tǒng)計(jì)分析中的許多重要理論和方法都是直接或間接建立在正態(tài)分布的基礎(chǔ)上,多元正態(tài)分布是多元統(tǒng)計(jì)分析的基礎(chǔ)。在實(shí)用中遇到的隨機(jī)向量常常是服從正態(tài)分析或近似正態(tài)分布。因此現(xiàn)實(shí)世界中許多實(shí)際問題的解決辦法都是以總體服從正態(tài)分布或近似正態(tài)分布為前提的。多元正態(tài)分布是一元正態(tài)分布的推廣,多元分析中的很多統(tǒng)計(jì)方法,大都假定數(shù)據(jù)來自多元正態(tài)總體,但要判斷已有的一批數(shù)據(jù)是否來自多元正態(tài)總體,并不是一件容易的事。可是反過來要肯定數(shù)據(jù)不是來自多元正態(tài)總體,我們可對(duì)各個(gè)分量做正態(tài)檢驗(yàn),如果各個(gè)分量不服從一元正態(tài)分布,我們可以斷定這批數(shù)據(jù)不服從多元正態(tài)分布。§1.1.1隨機(jī)向量§1.1.2分布函數(shù)與密度函數(shù)§1.1.3多元變量的獨(dú)立性定義1.4:兩個(gè)隨機(jī)向量和稱為是相互獨(dú)立的,若§1.1.4隨機(jī)向量的數(shù)字特征§1.2統(tǒng)計(jì)距離和馬氏距離設(shè)X、Y從均值向量為μ,協(xié)方差陣為∑的總體G中抽取的兩個(gè)樣品,定義X、Y兩點(diǎn)之間的馬氏距離為§1.3多元正態(tài)分布§1.4均值向量和協(xié)方差陣的估計(jì)§1.5常用分布及抽樣分布1.5.1分布與Wishart分布1.5.2分布與分布1.5.3F中心分布與Wilks分布§1.6均值向量和協(xié)方差陣的檢驗(yàn)§1.6.1均值向量的檢驗(yàn)§1.6.2多元均值檢驗(yàn)§1.6.3兩總體均值的比較§1.6.4多總體均值的檢驗(yàn)7.1.5教學(xué)方法講授為主、課堂討論相結(jié)合的方法7.1.6作業(yè)安排及課后反思布置作業(yè)5題:基本概念2題,上機(jī)檢驗(yàn)問題3題7.1.7課前準(zhǔn)備情況及其他相關(guān)特殊要求課前布置學(xué)生預(yù)習(xí)所講內(nèi)容7.1.8參考資料(具體到哪一章節(jié)或頁(yè)碼)1、方開泰《多元統(tǒng)計(jì)分析》第一章全部7.2教學(xué)單元二聚類分析7.2.1教學(xué)日期第十周周二、周四、周五7.2.2教學(xué)目標(biāo)通過本章的教學(xué)應(yīng)使學(xué)生了解聚類分析的原理和作用,了解聚類分析中常用的距離和相似系數(shù)以及它們各自的特點(diǎn)及適用范圍。掌握系統(tǒng)聚類法,能夠應(yīng)用系統(tǒng)聚類法解決實(shí)際數(shù)據(jù)分析問題。7.2.3教學(xué)內(nèi)容(含重點(diǎn)、難點(diǎn))重點(diǎn):系統(tǒng)聚類法,難點(diǎn):模糊聚類分析7.2.4教學(xué)過程第一節(jié)什么是聚類分析一﹑聚類分析的概念聚類分析又稱群分析、點(diǎn)群分析,是定量研究樣品或指標(biāo)分類問題的一種多元統(tǒng)計(jì)方法。其中類指相似元素的集合。二﹑聚類分析的基本思想認(rèn)為所研究的樣品或指標(biāo)之間存在著程度不同的相似性,根據(jù)一批樣品的多個(gè)觀測(cè)指標(biāo),找出能夠度量樣品或變量之間相似程度的統(tǒng)計(jì)量,并以此為依據(jù),采用某種聚類法,將所有的樣品或變量分別聚合到不同的類中,使同一類中的個(gè)體有較大的相似性,不同類中的個(gè)體差異較大。第二節(jié)距離與相似系數(shù)聚類分析的目的是將研究對(duì)象進(jìn)行分類。它是在事先不知類別的情況下對(duì)數(shù)據(jù)進(jìn)行分類的分析方法。分類的依據(jù)有兩類:距離與相似系數(shù)。常用的距離有以下幾種:1﹑明考夫斯基距離2﹑絕對(duì)距離3﹑歐氏距離4﹑切比雪夫距離5﹑馬氏距離6﹑蘭氏距離常用的相似系數(shù)有以下幾種:1﹑夾角余弦2﹑相關(guān)系數(shù)聚類分析根據(jù)所用方法不同可分為系統(tǒng)聚類法、有序樣品聚類法、動(dòng)態(tài)聚類法、模糊聚類法等等;根據(jù)分類對(duì)象不同又分為對(duì)樣品聚類(又稱Q型聚類分析)以及對(duì)變量進(jìn)行聚類(又稱R型聚類分析)。對(duì)前者聚類多用距離,而后者聚類時(shí)多用相似系數(shù)。系統(tǒng)聚類法一﹑系統(tǒng)聚類法的基本思路首先,將n個(gè)樣品看成n類,定義各樣品之間的距離(此時(shí)其亦為類間距離);其次,按照某種原則將最接近的兩類合并為一個(gè)新類,于是得到n-1類,定義并計(jì)算各類間距離,然后再?gòu)闹姓页鲎罱咏膬深惡喜⒊梢粋€(gè)新類,重復(fù)以上步驟,直到全部樣品合并成一類為止,將上述合并過程畫成聚類譜系圖,據(jù)此圖可將全部樣品分類。二﹑八種系統(tǒng)聚類方法正如樣品之間的距離可以有不同的定義方法一樣,類與類之間的距離也有各種定義。類與類之間用不同的方法定義距離,就產(chǎn)生了不同的系統(tǒng)聚類方法,系統(tǒng)聚類方法包括最短距離法﹑最長(zhǎng)距離法﹑類平均法﹑重心法﹑WARD法等八種不同的方法,但這些方法聚類的步驟是完全一樣的。當(dāng)采用歐氏距離時(shí),八種并類方法可歸結(jié)為統(tǒng)一的遞推公式。三﹑譜系圖及利用譜系圖進(jìn)行分類根據(jù)譜系圖確定分類個(gè)數(shù)的準(zhǔn)則:Bemirmen于1972年提出了應(yīng)根據(jù)研究的目的來確定適當(dāng)?shù)姆诸惙椒ǎ⑻岢隽艘恍└鶕?jù)譜系圖來分析的準(zhǔn)則。準(zhǔn)則A:各類重心之間的距離必須很大;準(zhǔn)則B:確定的類中,各類所包含的元素都不要太多;準(zhǔn)則C:類的個(gè)數(shù)必須符合實(shí)用目的;準(zhǔn)則D:若采用幾種不同的聚類方法處理,則在各自的聚類圖中應(yīng)發(fā)現(xiàn)相同的類。應(yīng)該指出,關(guān)于類的個(gè)數(shù)如何確定的問題,至今還沒有一個(gè)合適的標(biāo)準(zhǔn),也就是說對(duì)任何觀測(cè)數(shù)據(jù)都沒有唯一正確的分類方法。第四節(jié)聚類分析的微機(jī)實(shí)現(xiàn)一﹑系統(tǒng)聚類分析在SPSS中的實(shí)現(xiàn)在SPSS主菜單中選擇Analyze→Classify→HierarchicalCluster,可實(shí)現(xiàn)系統(tǒng)聚類分析。二﹑系統(tǒng)聚類分析在SAS中的實(shí)現(xiàn)在SAS/ASSIST模塊中沒有現(xiàn)成的菜單操作,須通過編程來實(shí)現(xiàn)聚類分析。SAS/STAT模塊中的Cluster過程可實(shí)現(xiàn)系統(tǒng)聚類分析,可調(diào)用Tree過程生成聚類譜系圖。1.CLUSTER過程的一般格式為:PROCCLUSTERDATA=輸入數(shù)據(jù)集METHOD=聚類方法選項(xiàng);VAR聚類用變量;COPY復(fù)制變量;RUN;其中的VAR語(yǔ)句指定用來聚類的變量。COPY語(yǔ)句把指定的變量復(fù)制到OUTTREE=的數(shù)據(jù)集中。PROCCLUSTER語(yǔ)句的主要選項(xiàng)有:(1)METHOD=選項(xiàng),這是必須指定的,此選項(xiàng)決定我們要用的聚類方法,主要由類間距離定義決定。方法有AVERAGE、CENTROID、COMPLETE、SINGLE、DENSITY、WARD、EML、FLEXIBLE、MCQUITTY、MEDIAN、TWOSTAGE等,其中DENSITY、TWOSTAGE等方法還要額外指定密度估計(jì)方法(K=、R=或HYBRID)。(2)DATA=輸入數(shù)據(jù)集,可以是原始觀測(cè)數(shù)據(jù)集,也可以是距離矩陣數(shù)據(jù)集。(3)OUTTREE=輸出數(shù)據(jù)集,把繪制譜系聚類樹的信息輸出到一個(gè)數(shù)據(jù)集,可以用TREE過程調(diào)用此數(shù)據(jù)集繪圖樹形圖并實(shí)際分類。(4)STANDARD選項(xiàng),把變量標(biāo)準(zhǔn)化為均值為0,標(biāo)準(zhǔn)差為1。(5)PSEUDO選項(xiàng)和CCC選項(xiàng)。PSEUDO選項(xiàng)要求計(jì)算偽F和偽統(tǒng)計(jì)量,CCC選項(xiàng)要求計(jì)算、半偏和CCC統(tǒng)計(jì)量。其中CCC統(tǒng)計(jì)量也是一種考察聚類效果的統(tǒng)計(jì)量,CCC較大的聚類水平是較好的。2.TREE過程用法TREE過程可以把CLUSTER過程產(chǎn)生的OUTTREE=數(shù)據(jù)集作為輸入數(shù)據(jù)集,畫出譜系聚類的樹形圖,并按照用戶指定的聚類水平(類數(shù))產(chǎn)生分類結(jié)果數(shù)據(jù)集。其一般格式如下: PROCTREEDATA=數(shù)據(jù)集OUT=輸出數(shù)據(jù)集NCLUSTER=類數(shù)選項(xiàng); COPY復(fù)制變量; RUN;其中COPY語(yǔ)句把輸入數(shù)據(jù)集中的變量復(fù)制到輸出數(shù)據(jù)集(實(shí)際上這些變量也必須在CLUSTER過程中用COPY語(yǔ)句復(fù)制到OUTTREE=數(shù)據(jù)集)。PROCTREE語(yǔ)句的重要選項(xiàng)有:(1)DATA=數(shù)據(jù)集,指定從CLUSTER過程生成的OUTTREE=數(shù)據(jù)集作為輸入數(shù)據(jù)集。(2)OUT=數(shù)據(jù)集,指定包含最后分類結(jié)果(每一個(gè)觀測(cè)屬于哪一類,用一個(gè)CLUSTER變量區(qū)分)的輸出數(shù)據(jù)集。(3)NCLUSTERS=選項(xiàng),由用戶指定最后把樣本觀測(cè)分為多少個(gè)類(即聚類水平)。(4)HORIZONTAL,畫樹形圖時(shí)沿水平方向畫,即繪制水平方向的樹形圖,系統(tǒng)默認(rèn)繪制垂直方向的樹形圖。3.例題我們以多元統(tǒng)計(jì)分析中一個(gè)經(jīng)典的數(shù)據(jù)作為例子,這是Fisher分析過的鳶尾花數(shù)據(jù),有三種不同鳶尾花(Setosa、Versicolor、Virginica),種類信息存入了變量SPECIES,并對(duì)每一種測(cè)量了50棵植株的花瓣長(zhǎng)(PETALLEN)、花瓣寬(PETALWID)、花萼長(zhǎng)(SEPALLEN)、花萼寬(SEPALWID)。這個(gè)數(shù)據(jù)已知分類,并不屬于聚類分析的研究范圍。這里我們?yōu)榱耸纠傺b不知道樣本的分類情況(既不知道類數(shù)也不知道每一個(gè)觀測(cè)屬于的類別),用SAS去進(jìn)行聚類分析,如果得到的類數(shù)和分類結(jié)果符合真實(shí)的植物分類,我們就可以知道聚類分析產(chǎn)生了好的結(jié)果。這里我們假定數(shù)據(jù)已輸入SASUSER.IRIS中(見系統(tǒng)幫助菜單的“SamplePrograms|SAS/STAT|DocumentationExample3fromProcCluster”)。為了進(jìn)行譜系聚類并產(chǎn)生幫助確定類數(shù)的統(tǒng)計(jì)量,編寫如下程序:procclusterdata=sasuser.irismethod=wardouttree=otreepseudoccc;varpetallenpetalwidsepallensepalwid;copyspecies;run;可以顯示如下的聚類過程(節(jié)略):TPseudoPseudoiNCL-ClustersJoined-FREQSPRSQRSQERSQCCCFt**2e149OB16OB7620.0000001.0000....148OB2OB5820.0000071.0000..1854.1.T147OB96OB10720.0000071.0000..1400.1.T146OB89OB11320.0000071.0000..1253.1.T145OB65OB12620.0000071.0000..1182.9.T………………………25CL50OB5770.0006340.98240.9733356.446291.05.624CL78CL6270.0007420.98170.9722546.430293.59.823CL68CL3890.0008050.98090.9711016.404296.06.922CL30OB13760.0008960.98000.9698686.352298.35.121CL70CL3340.0009760.97900.9685456.290300.73.220CL36OB25100.0010870.97790.9671196.206302.99.819CL40CL22190.0011410.97680.9655796.146306.17.718CL25CL39100.0012490.97550.9639066.082309.56.217CL29CL45160.0013510.97420.9620816.026313.58.216CL34CL32150.0014620.97270.9600795.984318.49.015CL24CL28150.0016410.97110.9578715.929323.79.814CL21CL5370.0018730.96920.9554185.850329.25.113CL18CL48150.0022710.96690.9526705.690333.88.912CL16CL23240.0022740.96470.9495414.632342.49.611CL14CL43120.0025000.96220.9458864.675353.35.810CL26CL20220.0026940.95950.9415474.811368.112.99CL27CL17310.0030600.95640.9362965.018386.617.88CL35CL15230.0030950.95330.9297915.443414.113.87CL10CL47260.0058110.94750.9214965.426430.119.16CL8CL13380.0060420.94140.9105145.806463.116.35CL9CL19500.0105320.93090.8952325.817488.543.24CL12CL11360.0172450.91370.8723313.987515.141.03CL6CL7640.0300510.88360.8266644.329558.157.22CL4CL31000.1110260.77260.6968713.833502.8115.61CL5CL21500.7725950.00000.0000000.000.502.8偽F圖形7.2.5教學(xué)方法講授、操作演示和課堂討論7.2.6作業(yè)安排及課后反思1﹑簡(jiǎn)述系統(tǒng)聚類法的基本思路。2﹑寫出樣品間相關(guān)系數(shù)公式。3﹑常用的距離及相似系數(shù)有哪些?它們各有什么特點(diǎn)?4﹑利用譜系圖分類應(yīng)注意哪些問題?5﹑在SAS和SPSS中如何實(shí)現(xiàn)系統(tǒng)聚類分析?7.2.7課前準(zhǔn)備情況及其他相關(guān)特殊要求課前預(yù)習(xí)7.2.8參考資料(具體到哪一章節(jié)或頁(yè)碼)1﹑于秀林﹑任雪松,多元統(tǒng)計(jì)分析,中國(guó)統(tǒng)計(jì)出版社,1999第五章2﹑王學(xué)民,應(yīng)用多元分析,上海財(cái)經(jīng)大學(xué)出版社,1999第六章7.3教學(xué)單元三判別分析7.3.1教學(xué)日期第十一周周二、周四7.3.2教學(xué)目標(biāo)通過本章的教學(xué)應(yīng)使學(xué)生了解判別分析的基本思想和幾種常用判別分析方法,能夠用這些方法分析解決實(shí)際問題。7.3.3教學(xué)內(nèi)容(含重點(diǎn)、難點(diǎn))判別分析的基本思想;幾種常用判別分析方法的微機(jī)實(shí)現(xiàn);用判別分析方法分析解決實(shí)際問題。7.3.4教學(xué)過程第一節(jié)什么是判別分析一﹑判別分析的基本思想判別分析是用于判斷個(gè)體所屬類別的一種統(tǒng)計(jì)方法。根據(jù)已知觀測(cè)對(duì)象的分類和若干表明觀測(cè)對(duì)象特征的變量值,建立判別函數(shù)和判別準(zhǔn)則,并使其錯(cuò)判率最小,對(duì)于一個(gè)未知分類的樣本,將所測(cè)指標(biāo)代入判別方程,從而判斷它來自哪個(gè)總體。當(dāng)然,這種準(zhǔn)則在某種意義上是最優(yōu)的,如錯(cuò)判概率最小或錯(cuò)判損失最小等。其前提是總體均值有顯著差異,否則錯(cuò)分率大,判別分析無意義。二﹑判別分析與聚類分析的關(guān)系區(qū)別:判別分析是在研究對(duì)象分類已知的情況下,根據(jù)樣本數(shù)據(jù)推導(dǎo)出一個(gè)或一組判別函數(shù),同時(shí)指定一種判別準(zhǔn)則,用于確定待判樣品的所屬類別,使錯(cuò)判率最小。聚類分析預(yù)先不知道分類,它要解決的問題,正是對(duì)給定的未知分類的樣品進(jìn)行分類,它是一種純統(tǒng)計(jì)技術(shù),只要有多指標(biāo)存在,就能根據(jù)各觀測(cè)的變量值近似程度排序,只是描述性的統(tǒng)計(jì),而判別分析能對(duì)未知分類觀測(cè)判別分類,帶有預(yù)測(cè)性質(zhì)。聯(lián)系:兩者都是研究分類問題,兩種方法往往聯(lián)合起來使用。樣品聚類是進(jìn)行判別分析之前的必要工作,根據(jù)樣品聚類的結(jié)果進(jìn)行判別分析。第二節(jié)距離判別法一﹑距離判別法的基本思想如果事先已有m類的先驗(yàn)知識(shí),將每一類視為一個(gè)總體,計(jì)算各樣品與各總體之間的距離,將各樣品分別歸入與其距離最近的類。二﹑兩總體距離判別設(shè)有兩個(gè)總體G1、G2,X為一樣品,定義X到兩總體的距離分別為d(X,G1)和d(X,G2),判別準(zhǔn)則為:判別準(zhǔn)則的直觀表述即樣品離哪個(gè)總體最近,則判該樣品屬于哪個(gè)總體。與上述準(zhǔn)則等價(jià)的想法,就是算出樣品到各總體間距離的差,根據(jù)差值來判斷樣品的歸屬。三﹑兩總體距離判別的幾何意義四﹑多總體距離判別分為協(xié)方差陣相同和協(xié)方差陣不同兩種情況,它們的判別函數(shù)有差異,而判別準(zhǔn)則無差異。第三節(jié)費(fèi)歇判別法一﹑費(fèi)歇判別法的基本思想從兩類總體中抽取具有p個(gè)指標(biāo)的樣品的觀測(cè)數(shù)據(jù),借助于方差分析的思想構(gòu)造一個(gè)判別函數(shù),即y=c1x1+c2x2+…+CPXP,其中系數(shù)c1,c2,…,cp的確定原則是使兩組間的區(qū)別達(dá)到最大,而使兩組內(nèi)部的離差達(dá)到最小。二﹑判別函數(shù)費(fèi)歇準(zhǔn)則下的線性判別函數(shù)y(x)=cx的解應(yīng)為方程|B—λE|=0的最大特征根λ1對(duì)應(yīng)的特征向量ι1。三﹑判別準(zhǔn)則對(duì)于待判樣品,將樣品的P個(gè)變量值代入判別函數(shù)中求出K個(gè)判別分Y值,比較結(jié)果大小,將樣品分入最大判別值對(duì)應(yīng)的組中去。貝葉斯判別法一﹑貝葉斯判別法的基本思想貝葉斯判別法是源于貝葉斯統(tǒng)計(jì)思想的一種判別分析法。這種方法先假定對(duì)研究對(duì)象已有一定的認(rèn)識(shí),這種認(rèn)識(shí)以先驗(yàn)概率來描述,然后取得一個(gè)樣本,用樣本來修正已有的認(rèn)識(shí),得到后驗(yàn)概率分布,利用后驗(yàn)概率分布進(jìn)行統(tǒng)計(jì)推斷。二﹑判別規(guī)則1﹑后驗(yàn)概率最大2﹑錯(cuò)判的平均損失最小逐步判別法從模型中沒有任何變量開始,每一步都對(duì)模型進(jìn)行檢驗(yàn),將模型外對(duì)模型的判別貢獻(xiàn)大的變量加入到模型中去,同時(shí)也檢驗(yàn)在模型中是否存在由于新變量的引入而對(duì)判別貢獻(xiàn)不太顯著的變量,如果有,將其從模型中刪除,直到模型中的所有變量都符合引入模型的條件,而模型外的變量都不符合引入模型的條件為止,整個(gè)過程結(jié)束。整個(gè)篩選過程實(shí)質(zhì)就是作假設(shè)檢驗(yàn),通過檢驗(yàn)引入顯著性變量,剔除不顯著變量。反映在輸出結(jié)果上,通常可以用F值的大小作為變量引入模型的標(biāo)準(zhǔn),即一個(gè)變量是否能進(jìn)入模型主要取決于協(xié)方差分析的F檢驗(yàn)的顯著水平。逐步判別過程本身并不建立判別函數(shù),篩選出重要變量后,可用前面所講的方法建立判別函數(shù)和判別準(zhǔn)則,對(duì)新樣品進(jìn)行判別歸類。第六節(jié)判別分析的微機(jī)實(shí)現(xiàn)一﹑判別分析在SPSS中的實(shí)現(xiàn)在SPSS主菜單中選擇Analyze→Classify→Discriminant,可實(shí)現(xiàn)判別分析。二﹑判別分析在SAS中的實(shí)現(xiàn)在SAS/ASSIST模塊中沒有現(xiàn)成的菜單操作,須通過編程來實(shí)現(xiàn)判別分析。SAS/STAT模塊中實(shí)現(xiàn)判別分析的過程有:Discrim,實(shí)現(xiàn)最基本的判別分析;Candisc,將判別分析與典型相關(guān)分析相結(jié)合;Stepdisc,逐步判別分析,是一個(gè)變量的篩選過程。1.SAS/STAT的DISCRIM過程一般格式如下: PROCDISCRIMDATA=輸入數(shù)據(jù)集選項(xiàng); CLASS分類變量; VAR判別用自變量集合; RUN; 其中,PROCDISCRIM語(yǔ)句的選項(xiàng)中“輸入數(shù)據(jù)集”為訓(xùn)練數(shù)據(jù)的數(shù)據(jù)集,包括一個(gè)分類變量(在CLASS語(yǔ)句中說明)和用來建立判別公式的自變量集合(在VAR語(yǔ)句中說明)。可以用“TESTDATA=數(shù)據(jù)集”選項(xiàng)指定一個(gè)檢驗(yàn)數(shù)據(jù)集,檢驗(yàn)數(shù)據(jù)集必須包含與訓(xùn)練數(shù)據(jù)集相同的自變量集合,用訓(xùn)練數(shù)據(jù)集產(chǎn)生判別準(zhǔn)則后將對(duì)檢驗(yàn)數(shù)據(jù)集中的每一個(gè)觀測(cè)給出分類值,如果這個(gè)檢驗(yàn)數(shù)據(jù)集中有表示真實(shí)分類的變量可以在過程中用“TESTCLASS分類變量”語(yǔ)句指定,這樣可以檢驗(yàn)判別的效果如何。用“OUTSTAT=數(shù)據(jù)集”指定輸出判別函數(shù)的數(shù)據(jù)集,后面可以再次用DISCRIM過程把輸出的判別函數(shù)作為輸入數(shù)據(jù)集(DATA=)讀入并用它來判別檢驗(yàn)數(shù)據(jù)集(TESTDATA=)。用“OUT=數(shù)據(jù)集”指定存放訓(xùn)練樣本及后驗(yàn)概率、交叉確認(rèn)分類的數(shù)據(jù)集。用“OUTD=數(shù)據(jù)集”指定訓(xùn)練樣本及組密度估計(jì)數(shù)據(jù)集。用“TESTOUT=數(shù)據(jù)集”指定檢驗(yàn)數(shù)據(jù)的后驗(yàn)概率及分類結(jié)果。用“TESTOUTD=數(shù)據(jù)集”輸出檢驗(yàn)數(shù)據(jù)及組密度估計(jì)。PROCDISCRIM語(yǔ)句還有一些指定判別分析方法的選項(xiàng)。用METHOD=NORMAL或NPAR選擇參數(shù)方法或非參數(shù)方法。用POOL=NO或TEST或YES表示不用合并協(xié)方差陣、通過檢驗(yàn)決定是否使用合并協(xié)方差陣、用合并協(xié)方差陣。如果使用非參數(shù)方法,需要指定“R=核估計(jì)半徑”選項(xiàng)來規(guī)定核估計(jì)方法或者指定“K=最近鄰個(gè)數(shù)”來規(guī)定最近鄰估計(jì)方法。PROCDISCRIM語(yǔ)句有一些規(guī)定顯示結(jié)果的選項(xiàng)。用LISTERR顯示訓(xùn)練樣本錯(cuò)判的觀測(cè)。用CROSSLISTERR顯示用刀切法對(duì)訓(xùn)練樣本判別錯(cuò)判的觀測(cè)。用LIST對(duì)每一觀測(cè)顯示結(jié)果。用NOCLASSIFY取消對(duì)訓(xùn)練樣本的分類檢驗(yàn)。用CROSSLIST顯示對(duì)訓(xùn)練樣本的刀切法的判別結(jié)果。用CROSSVALIDATE要求進(jìn)行交叉核實(shí)。當(dāng)有用“TESTDATA=”指定的檢驗(yàn)數(shù)據(jù)集時(shí)用TESTLIST選項(xiàng)顯示檢驗(yàn)數(shù)據(jù)集的檢驗(yàn)結(jié)果,當(dāng)有TESTCLASS語(yǔ)句時(shí)用TESTLISTERR可以列出檢驗(yàn)樣本判錯(cuò)的觀測(cè),用POSTERR選項(xiàng)可以打印基于分類結(jié)果的分類準(zhǔn)則的后驗(yàn)概率錯(cuò)誤率估計(jì)。用NOPRINT選項(xiàng)可以取消結(jié)果的顯示。在DISCRIM過程中還可以使用PRIORS語(yǔ)句指定先驗(yàn)概率的取法。“PRIORSEQUAL”指定先驗(yàn)概率相等。“PRIORSPROPORTIONAL”指定先驗(yàn)概率與各類個(gè)數(shù)成正比。“PRIORS概率值表”可以直接指定各組的先驗(yàn)概率值。7.3.5教學(xué)方法講授、操作演示和課堂討論7.3.6作業(yè)安排及課后反思1﹑簡(jiǎn)述距離判別法的基本思路,圖示其幾何意義。2﹑判別分析與聚類分析有何異同?3﹑簡(jiǎn)述貝葉斯判別的基本思路。4﹑簡(jiǎn)述費(fèi)歇判別的基本思路。5在SPSS軟件中如何實(shí)現(xiàn)判別分析?7.3.7課前準(zhǔn)備情況及其他相關(guān)特殊要求課前預(yù)習(xí)7.3.8參考資料(具體到哪一章節(jié)或頁(yè)碼)1﹑于秀林﹑任雪松,多元統(tǒng)計(jì)分析,中國(guó)統(tǒng)計(jì)出版社,1999第六章2﹑王學(xué)民,應(yīng)用多元分析,上海財(cái)經(jīng)大學(xué)出版社,1999第五章7.4教學(xué)單元四主成分分析7.4.1教學(xué)日期第十一周周五第十二周周二、周四7.4.2教學(xué)目標(biāo)通過本章的教學(xué)應(yīng)使學(xué)生了解主成分分析的基本原理及其作用,掌握主成分分析的方法,能夠應(yīng)用這一方法分析數(shù)據(jù),解決實(shí)際問題。7.4.3教學(xué)內(nèi)容(含重點(diǎn)、難點(diǎn))主成分分析的作用及其應(yīng)用;貢獻(xiàn)率、累計(jì)貢獻(xiàn)率的意義及其在實(shí)際應(yīng)用中的作用;主成分分析的微機(jī)實(shí)現(xiàn);應(yīng)用主成分分析方法分析數(shù)據(jù),解決實(shí)際問題。7.4.4教學(xué)過程第一節(jié)主成分分析及基本思想一﹑主成分分析的概念主成分分析的工作對(duì)象是樣本點(diǎn)*定量變量類型的數(shù)據(jù)表。主成分分析的工作目標(biāo),就是要對(duì)這種多變量的平面數(shù)據(jù)表進(jìn)行最佳綜合簡(jiǎn)化。也就是說,要在力保數(shù)據(jù)信息丟失最少的原則下,對(duì)高維變量空間進(jìn)行降維處理。很顯然,在一個(gè)低維空間分析問題要比在一個(gè)高維空間中分析容易的多。英國(guó)統(tǒng)計(jì)學(xué)家斯格特(scott)在1961年對(duì)157個(gè)英國(guó)城鎮(zhèn)發(fā)展水平進(jìn)行調(diào)查時(shí),原始測(cè)量的變量有57個(gè)。通過主成分分析發(fā)現(xiàn),只需5個(gè)新的綜合變量(他們是原變量的線性組合),就可以95%的精度表示原數(shù)據(jù)的變異情況,這樣,對(duì)問題的研究一下子從57維降到了5維。可以想象,在5維空間對(duì)系統(tǒng)進(jìn)行任何分析,都比在57維中更加快捷和有效。另一項(xiàng)十分著名的工作是美國(guó)的統(tǒng)計(jì)學(xué)家斯通(STONE)在1947年關(guān)于國(guó)民經(jīng)濟(jì)的研究。他曾利用美國(guó)1929-1938年各年的數(shù)據(jù),得到了17個(gè)反映國(guó)民收入與支出的變量要素,例如雇主補(bǔ)貼﹑消費(fèi)資料和生產(chǎn)資料﹑純公共支出﹑凈增庫(kù)存﹑股息﹑利息和外貿(mào)平衡等。在進(jìn)行主成分分析后,竟以97.4%的精度,用3個(gè)新變量就取代了原17個(gè)變量。根據(jù)經(jīng)濟(jì)學(xué)知識(shí),斯通給這三個(gè)新變量分別命名為總收入﹑總收入變化率和經(jīng)濟(jì)發(fā)展或衰退的趨勢(shì)。這樣,用3個(gè)綜合變量取代了原來的17個(gè)變量,問題得到了極大的簡(jiǎn)化。一個(gè)多變量的高維系統(tǒng)如何進(jìn)行降維處理,可以用幾個(gè)最直觀的例子來說明主成分分析的工作思路。假設(shè)有一個(gè)二維數(shù)據(jù)表,表中數(shù)據(jù)點(diǎn)的分布如圖所示,重心為g,很顯然,在長(zhǎng)軸方向上,數(shù)據(jù)的離差最大,因此,所反映的數(shù)據(jù)信息也最多,這個(gè)方向被稱為數(shù)據(jù)變異的最大方向。如果將原點(diǎn)平移到g,并且做旋轉(zhuǎn)變換,便得到一個(gè)正交坐標(biāo)系。可以看出,若省略短軸,將數(shù)據(jù)點(diǎn)在長(zhǎng)軸上投影,就會(huì)得到一個(gè)簡(jiǎn)化的一維數(shù)據(jù)系統(tǒng)。因此,降維處理的核心思想,就是省卻變異不大的變量方向。又如,一個(gè)三維數(shù)據(jù)群點(diǎn)的分布是球形的,假若這個(gè)球是餅狀的,其變異較大的方向?yàn)閡1和u2,而u3方向的變異很小,即在該方向上各樣本點(diǎn)取值沒有很大的差別,就可以不考慮u3方向,三維空間的數(shù)據(jù)點(diǎn)就可以在二維平面圖上得以顯示。達(dá)到降維的目的。從中也可以看出主成分分析從幾何上看是尋找p維空間中橢球體的主軸問題。主成分分析是考察多個(gè)定量(數(shù)值)變量間相關(guān)性的一種多元統(tǒng)計(jì)方法。它是研究如何通過少數(shù)幾個(gè)主成分來解釋多變量的方差—協(xié)方差結(jié)構(gòu),其功能在于簡(jiǎn)化原有的變量群。具體地說,就是設(shè)法將原來多個(gè)指標(biāo)重新組合成一組新的相互無關(guān)的綜合指標(biāo),來代替原來指標(biāo),同時(shí)根據(jù)實(shí)際需要從中可取幾個(gè)較少的綜合指標(biāo)盡可能多的反映原來指標(biāo)的信息。這些綜合指標(biāo)是原來指標(biāo)的線性組合,我們稱之為主成分。通過這種方法可以降低數(shù)據(jù)維數(shù),消除原始變量之間的相關(guān)性以便進(jìn)一步利用其他方法對(duì)數(shù)據(jù)進(jìn)行分析。二﹑主成分分析的基本思想各指標(biāo)間既然有一定的相關(guān)性,就必然存在著起支配作用的共同因素,根據(jù)這一點(diǎn),通過對(duì)原始變量相關(guān)矩陣內(nèi)部結(jié)構(gòu)關(guān)系的研究,找出影響某一過程的幾個(gè)綜合指標(biāo),使綜合指標(biāo)為原來變量的線性組合,并使其盡可能多的反映原來指標(biāo)的信息,綜合指標(biāo)反映的信息量用其方差來表達(dá),即綜合指標(biāo)的方差越大,表示其包含的信息越多。在所有的線性組合中方差最大的稱為第一主成分,如果第一主成分不足以代表原來P個(gè)指標(biāo)的信息,再選取第二個(gè)線性組合作為第二主成分,第一主成分已有的信息就不需要再出現(xiàn)在第二主成分中,依次可造出P個(gè)主成分。這些主成分之間不僅不相關(guān),而且它們的方差依次遞減。在解決實(shí)際問題時(shí),一般不是取P個(gè)主成分,而是根據(jù)累計(jì)貢獻(xiàn)率的大小取前幾個(gè)最大主成分,既保留了原指標(biāo)大部分的信息,又達(dá)到降維的目的。第二節(jié)主成分分析模型及幾何解釋一﹑主成分分析的數(shù)學(xué)模型設(shè)原始變量為x1,x2,…,xp,考慮它們的線性變換yi=a1ix1+a2ix2+…+apixp(i=1,2,…,p)其中y1,y2,…,yp滿足以下條件:(1)cov(yi,yj)=0,(i≠j);(2)D(y1)≥D(y2)≥…≥D(yp)即y1是x1,x2,…,xp的一切線性組合中方差最大者,y2是方差次大者,依此類推,稱y1為x1,x2,…xp的第一主成分,y2為第二主成分,…,yp為第p個(gè)主成分。二﹑主成分的幾何意義主成分分析從幾何上看是尋找p維空間中橢球體的主軸問題。第三節(jié)主成分的計(jì)算一﹑主成分的概念主成分其實(shí)就是原來指標(biāo)的一些特殊的線性組合,這些線性組合的系數(shù)就是原指標(biāo)協(xié)方差矩陣特征值所對(duì)應(yīng)的特征向量。用數(shù)學(xué)語(yǔ)言來描述即:設(shè)D(X)=V,則隨機(jī)向量X=(x1,x2,…,xp)ˊ的第i個(gè)主成分yi=aˊiX(i=1,2,…,p),其中ai為V的第i大特征根λi對(duì)應(yīng)的單位特征向量。求主成分關(guān)鍵在于求出協(xié)方差陣V的特征向量,但實(shí)際中V是未知的,一般可用S作為V的估計(jì)求出S的特征值和特征向量作為V的特征值和特征向量的估計(jì)。通常,在進(jìn)行數(shù)據(jù)分析之前,為了消除量綱影響要先將數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化,而對(duì)于標(biāo)準(zhǔn)化數(shù)據(jù)來說,其S與R相同,故在實(shí)際中常由樣本相關(guān)陣去估計(jì)V的特征值和特征向量。二﹑貢獻(xiàn)率和累計(jì)貢獻(xiàn)率貢獻(xiàn)率即λk在特征值總和中所占的比重;累計(jì)貢獻(xiàn)率即前m個(gè)特征值在特征值總和中所占的比重。累計(jì)貢獻(xiàn)率表達(dá)了前m個(gè)主成分對(duì)原始變量x1,x2,…,xp的信息提取率。通常取k使得前k個(gè)主成分的累計(jì)貢獻(xiàn)率達(dá)到70%至80%即可。第四節(jié)主成分分析的微機(jī)實(shí)現(xiàn)一﹑主成分分析在SPSS中的實(shí)現(xiàn)在SPSS主菜單中選擇Analyze→DataReduction→Factor,可借用因子分析過程實(shí)現(xiàn)主成分分析。二﹑主成分分析在SAS中的實(shí)現(xiàn)1.SAS中的PRINTCOMP過程有如下功能:(1)完成主成份分析。(2)主成份的個(gè)數(shù)可以由用戶自己確定,主成份的名字可以由用戶自己規(guī)定,主成份得分是否標(biāo)準(zhǔn)化可自己規(guī)定。(3)輸入數(shù)據(jù)集可以是原始數(shù)據(jù)集、相關(guān)陣、協(xié)方差陣或叉積陣。輸入為原始數(shù)據(jù)時(shí),用戶還可以規(guī)定從協(xié)方差陣出發(fā)還是從相關(guān)陣出發(fā)進(jìn)行分析。由協(xié)方差陣出發(fā)時(shí)方差大的變量在分析中起到更大的作用。(4)計(jì)算結(jié)果有:簡(jiǎn)單統(tǒng)計(jì)量,相關(guān)陣或協(xié)方差陣,從大到小排序的特征值和相應(yīng)特征向量,每個(gè)主成份解釋的方差比例,累計(jì)比例等。可生成兩個(gè)輸出數(shù)據(jù)集:一個(gè)包含原始數(shù)據(jù)及主成份得分,另一個(gè)包含有關(guān)統(tǒng)計(jì)量,類型為TYPE=CORR或COV。(5)可揭示變量間的共線關(guān)系。若某特征值特別接近0說明變量線性相關(guān),這時(shí)用這些變量作回歸自變量可能得到錯(cuò)誤的結(jié)果。2.主成分分析在SAS中的實(shí)現(xiàn)有窗口菜單操作,在SAS主菜單中選擇Solutions→ASSIST→DataAnalysis→Multivariate→PrincipalComponents,可實(shí)現(xiàn)主成分分析。下面是主成分分析中經(jīng)常用到的一些選項(xiàng)。PRINCOMP主要使用PROCPRINCOMP語(yǔ)句與VAR語(yǔ)句。PROCPRINCOMP語(yǔ)句用來規(guī)定輸入輸出和一些運(yùn)行選項(xiàng),包括:DATA=輸入數(shù)據(jù)集,可以是原始數(shù)據(jù)集,也可以是TYPE=CORR,COV的數(shù)據(jù)集;OUT=輸出包含原始數(shù)據(jù)和主成份得分的數(shù)據(jù)集;OUTSTAT=統(tǒng)計(jì)量輸出數(shù)據(jù)集;COV要求從協(xié)方差陣出發(fā)計(jì)算主成份。缺省為從相關(guān)陣出發(fā)計(jì)算。N=要計(jì)算的主成份個(gè)數(shù)。缺省時(shí)全算。STD要求在OUT=的數(shù)據(jù)集中把主成份得分標(biāo)準(zhǔn)化為單位方差。不規(guī)定時(shí)方差為相應(yīng)特征值。用VAR語(yǔ)句指定原始變量。必須為數(shù)值型變量。3.例題(1)美國(guó)各種類型犯罪的主成份分析在數(shù)據(jù)集CRIME中有美國(guó)各個(gè)州的各種類型犯罪的犯罪率數(shù)據(jù)。希望對(duì)這些犯罪率數(shù)據(jù)進(jìn)行主成份分析以概括犯罪情況。程序如下:/*EXAMPLE2*/DATACRIME;TITLE'各州每十萬人的犯罪率';INPUTCARDS;ALABAMA14.225.296.8278.31135.51881.9280.7ALASKA10.851.696.8284.01331.73369.8753.3ARIZONAARKANSAS8.827.683.2203.4972.61862.1183.4CALIFORNIA11.549.4287.0358.02139.43499.8663.5COLORADO6.342.0170.7292.91935.23903.2477.1CONNECTICUT4.216.8129.5131.81346.02620.7593.2DELAWARE6.024.9157.0194.21682.63678.4467.0FLORIDA10.239.6187.9449.11859.93840.5351.4GEORGIA11.731.1140.5256.51351.12170.2297.9HAWAII7.225.5128.064.11911.53920.4489.4IDAHOILLINOIS9.921.8211.3209.01085.02828.5528.6INDIANA7.426.5123.2153.51086.22498.7377.4IOWA2.310.641.289.8812.52685.1219.9KANSAS6.622.0100.7180.51270.42739.3244.3KENTUCKY10.119.181.1123.3872.21662.1245.4LOUISIANA15.530.9142.9335.51165.52469.9337.7MAINE2.413.538.7170.01253.12350.7246.9MARYLAND8.034.8292.1358.91400.03177.7428.5MASSACHUSETTSMICHIGAN9.338.9261.9274.61522.73159.0545.5MINNESOTA2.719.585.985.81134.72559.3343.1MISSISSIPPI14.319.665.7189.1915.61239.9144.4MISSOURI9.628.3189.0233.51318.32424.2378.4MONTANA5.416.739.2156.8804.92773.2309.2NEBRASKA3.918.164.7112.7760.02316.1249.1NEVADA15.849.1323.1355.02453.14212.6559.2NEWHAMPSHIRE3.210.723.276.01041.72343.9293.4NEWJERSEY5.621.0180.4185.11435.82774.5511.5NEWMEXICO8.839.1109.6343.41418.73008.6259.5NEWYORK10.729.4472.6319.11728.02782.0745.8NORTHCAROLINA10.617.061.3318.31154.12037.8192.1NORTHDAKOTA0.99.013.343.8446.11843.0144.7OHIO7.827.3190.5181.11216.02696.8400.4OKLAHOMA8.629.273.8205.01288.22228.1326.8OREGON4.939.9124.1286.91636.43506.1388.9PENNSYLVANIA5.619.0130.3128.0877.51624.1333.2RHODEISLAND3.610.586.5201.01489.52844.1791.4SOUTHCAROLINA11.933.0105.9485.31613.62342.4245.1SOUTHDAKOTA2.013.517.9155.7570.51704.4147.5TENNESSEE10.129.7145.8203.91259.71776.5314.0TEXAS13.333.8152.4208.21603.12988.7397.6UTAH3.520.368.8147.31171.63004.6334.5VERMONT1.415.930.8101.21348.22201.0265.2VIRGINIA9.023.392.1165.7986.22521.2226.7WASHINGTON4.339.6106.2224.81605.63386.9360.3WESTVIRGINIA6.013.242.290.9597.41341.7163.3WISCONSIN2.812.952.263.7846.92614.2220.7WYOMING5.421.939.7173.9811.62772.2282.0;PROCPRINCOMPOUT=CRIMCOMP;RUN;PROCSORT;BYPRIN1;PROCPRINT;IDSTATE;VARPRIN1PRIN2MURDERRAPEROBBERYASSAULTBURGLARYLARCENYAUTO;TITLE2'各州按第一主成份作為總犯罪率排列';PROCSORT;BYPRIN2;PROCPRINT;IDSTATE;VARPRIN1PRIN2MURDERRAPEROBBERYASSAULTBURGLARYLARCENYAUTO;TITLE2'各州按第二主成份作為金錢犯罪與暴力犯罪對(duì)比的排列';輸入數(shù)據(jù)后,用PROCPRINCOMP對(duì)數(shù)據(jù)進(jìn)行主成份分析,結(jié)果先給出了各變量的簡(jiǎn)單統(tǒng)計(jì)量,變量的相關(guān)陣,其特征值和特征向量結(jié)果如下:EigenvaluesoftheCorrelationMatrixEigenvalueDifferenceProportionCumulativePRIN14.114962.876240.5878510.58785PRIN21.238720.512910.1769600.76481PRIN30.725820.409380.1036880.86850PRIN40.316430.058460.0452050.91370PRIN50.257970.035930.0368530.95056PRIN60.222040.097980.0317200.98228PRIN70.12406.0.0177221.00000EigenvectorsPRIN1PRIN2PRIN3PRIN4PRIN5PRIN6PRIN7MURDER0.300279-.6291740.178245-.2321140.5381230.2591170.267593RAPE0.431759-.169435-.2441980.0622160.188471-.773271-.296485ROBBERY0.3968750.0422470.495861-.557989-.519977-.114385-.003903ASSAULT0.396652-.343528-.0695100.629804-.5066510.1723630.191745BURGLARY0.4401570.203341-.209895-.0575550.1010330.535987-.648117LARCENY0.3573600.402319-.539231-.2348900.0300990.0394060.601690AUTO0.2951770.5024210.5683840.4192380.369753-.0572980.147046第一主成份貢獻(xiàn)率只有59%,前兩個(gè)主成份累計(jì)貢獻(xiàn)率達(dá)到76%,可以用前兩個(gè)主成份。前三個(gè)主成份累計(jì)貢獻(xiàn)率已達(dá)到87%,所以前三個(gè)主成份可以表現(xiàn)犯罪率的大部分信息。第一主成份的計(jì)算系數(shù)都是正數(shù),所以它是一個(gè)州的犯罪率的一個(gè)加權(quán)平均,代表這個(gè)州的總的犯罪情況。第二主成份在入室盜竊(BURGLARY)、盜竊罪(LARCENY)、汽車犯罪(AUTO)上有較大的正系數(shù),在謀殺(MURDER)、強(qiáng)奸(RAPE)、攻擊(ASSAULT)上有較大的負(fù)系數(shù),所以代表了暴力犯罪與其它犯罪的一種對(duì)比。第三主成份為搶劫、汽車犯罪等與盜竊罪、入室盜竊、強(qiáng)奸的對(duì)比,其意義不易解釋。為了看出各州按第一主成份和第二主成份由低到高排列的情況,先用SORT過程對(duì)主成分得分排了序,然后用PRINT過程打印了結(jié)果(結(jié)果略)。在按第一主成份排序中,NorthDakota、SouthDakota、WestVirginia排列在前,說明其犯罪率最低,Nevada、California排列在后,說明其犯罪率最高。在按第二主成份排列的結(jié)果中,Mississippi排在最前,說明其暴力犯罪最高,Massachusetts最后,說明其暴力犯罪最低。(2)一月和七月平均氣溫的主成份分析在數(shù)據(jù)集TEMPERAT中存放著美國(guó)一些城市一月和七月的平均氣溫。我們希望對(duì)這兩個(gè)氣溫進(jìn)行主成分分析,希望用一個(gè)統(tǒng)一的溫度來作為總的可比的溫度,所以進(jìn)行主成份分析。程序如下:/*EXAMPLE1*/DATATEMPERAT;INPUTCARDS;MOBILE51

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論