模式識別5-1主成分分析和K-L變換_第1頁
模式識別5-1主成分分析和K-L變換_第2頁
模式識別5-1主成分分析和K-L變換_第3頁
模式識別5-1主成分分析和K-L變換_第4頁
模式識別5-1主成分分析和K-L變換_第5頁
已閱讀5頁,還剩65頁未讀 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

1、主成分分析 主成分分析PCA Principle Component Analysis 通過K-L變換實現(xiàn)主成分分析 PCA的變換矩陣是協(xié)方差矩陣,K-L變換的變換矩陣可以有很多種(二階矩陣、協(xié)方差矩陣、總類內(nèi)離散度矩陣等等)。當K-L變換矩陣為協(xié)方差矩陣時,等同于PCA。 KL 坐標系的產(chǎn)生矩陣K-L變換 特征提取思想 用映射(或變換)的方法把原始特征變換為較少的新特征 降維 主成分分析(PCA)基本思想 進行特征降維變換,不能完全地表示原有的對象,能量總會有損失。 希望找到一種能量最為集中的的變換方法使損失最小K-L變換 原始輸入: x 變換后特征:y 變換矩陣(線性變換):A 則:y=A

2、TxK-L變換 思考: 希望特征之間關(guān)聯(lián)性盡可能小 變換后的相關(guān)矩陣:RyEyyT =EATxxTA =ATRxA我們是不是希望Ry是個對角矩陣?如何選擇A?K-L變換 考慮以Rx的特征向量作為A的列,則Ry=ATRxA = a1,a2an TRx a1,a2an = a1,a2an T 1a1, 2a2nan =為對角矩陣,對角線元素為 1, 2n達到變換后特征不相關(guān)的目的以上為K-L變換K-L變換 思考K-L變換性質(zhì): 如果降維,有什么結(jié)果 原有N維,只保留m維,即去掉ym+1yN 希望:和原來的表示方法差別最小即:E|x-x|2 最小x表示y1ym在原空間中對應(yīng)的表示方法K-L變換2 x

3、xE21)(NmiiaiyEijjTiajyaiyE)()()(NmiiyE12)(NmiiTTiaxxEa1NmiixTiaRa1NmiiiTiaa1Nmii1xaiyTi)(K-L變換 結(jié)論 如果對特征向量排序,舍棄最小的特征,則損失的能量最小K-L變換典型應(yīng)用典型應(yīng)用 1降維與壓縮 對一幅人臉圖象,如果它由M行與N到象素組成,則原始的特征空間維數(shù)就應(yīng)為MN。 而如果在K-L變換以及只用到30個基,那么維數(shù)就降至30,由此可見降維的效果是極其明顯的。 譬如原訓(xùn)練樣本集的數(shù)量為V,而現(xiàn)采用30個基,數(shù)據(jù)量是大大降低 K-L變換典型應(yīng)用典型應(yīng)用 3人臉識別 首先搜集要識別的人的人臉圖象,建立人

4、臉圖象庫, 然后利用K-L變換確定相應(yīng)的人臉基圖象, 再反過來用這些基圖象對人臉圖象庫中的有人臉圖象進行K-L變換 在識別時,先對一張所輸入的臉圖象進行必要的規(guī)范化,再進行K-L變換分析,得到其參數(shù)向量。 K-L變換典型應(yīng)用典型應(yīng)用 4人臉圖象合成使用K-L變換進行特征提取題目: 主成分分析 PCA路志宏Lu_Principal Component AnalysisPrincipal Component Analysis內(nèi) 容u 一、前一、前 言言u 二、問題的提出二、問題的提出u 三、主成分分析三、主成分分析 1. 二維數(shù)據(jù)的例子二維數(shù)據(jù)的例子 2. PCA的幾何意義的幾何意義 3. 均值和

5、協(xié)方差、均值和協(xié)方差、 特征值和特征向量特征值和特征向量 4. PCA的性質(zhì)的性質(zhì) u 四、主成分分析的算法四、主成分分析的算法u 五、具體實例五、具體實例 實例實例2u 六、六、 結(jié)論結(jié)論七、七、練習練習1. 前前 言言 假定你是一個公司的財務(wù)經(jīng)理,掌握了公司的假定你是一個公司的財務(wù)經(jīng)理,掌握了公司的所有數(shù)據(jù),比如所有數(shù)據(jù),比如固定資產(chǎn)、流動資金、每一筆固定資產(chǎn)、流動資金、每一筆借貸的數(shù)額和期限、各種稅費、工資支出、原借貸的數(shù)額和期限、各種稅費、工資支出、原料消耗、產(chǎn)值、利潤、折舊、職工人數(shù)、職工料消耗、產(chǎn)值、利潤、折舊、職工人數(shù)、職工的分工和教育程度等等的分工和教育程度等等。 如果讓你介紹

6、公司狀況,你能夠把這些指標和如果讓你介紹公司狀況,你能夠把這些指標和數(shù)字都數(shù)字都原封不動地擺出去嗎原封不動地擺出去嗎? 當然不能當然不能。實例。實例1 實例實例2 你必須要把各個方面作出你必須要把各個方面作出高度概括高度概括,用一兩個用一兩個指標簡單明了地把情況說清楚。指標簡單明了地把情況說清楚。 l匯報什么?匯報什么?PCA 多變量問題是經(jīng)常會遇到的。多變量問題是經(jīng)常會遇到的。變量太多,無疑會增加分析變量太多,無疑會增加分析問題的難度與復(fù)雜性問題的難度與復(fù)雜性. 在許多實際問題中,多個變量之間是具有一定的相關(guān)關(guān)系在許多實際問題中,多個變量之間是具有一定的相關(guān)關(guān)系的。因此,能否在各個變量之間相

7、關(guān)關(guān)系研究的基礎(chǔ)上,的。因此,能否在各個變量之間相關(guān)關(guān)系研究的基礎(chǔ)上,用用較少的新變量代替原來較多的變量較少的新變量代替原來較多的變量,而且使這些較少的,而且使這些較少的新變量新變量盡可能多地保留原來較多的變量所反映的信息盡可能多地保留原來較多的變量所反映的信息?事?事實上,這種想法是可以實現(xiàn)的實上,這種想法是可以實現(xiàn)的. 主成分分析原理主成分分析原理: 是把原來多個變量化為少數(shù)幾個綜合指標是把原來多個變量化為少數(shù)幾個綜合指標的一種統(tǒng)計分析方法,從數(shù)學角度來看,這是一種降維處的一種統(tǒng)計分析方法,從數(shù)學角度來看,這是一種降維處理技術(shù)。理技術(shù)。 主成分分析方法就是綜合處理這種問題的一種強有力的方主

8、成分分析方法就是綜合處理這種問題的一種強有力的方法。法。 (1) (1) 如何作主成分分析如何作主成分分析? ? 當分析中所選擇的變量具有不同的量綱,當分析中所選擇的變量具有不同的量綱,變量水平差異很大變量水平差異很大,應(yīng)該選擇基于相關(guān)系數(shù),應(yīng)該選擇基于相關(guān)系數(shù)矩陣的主成分分析。矩陣的主成分分析。 在力求數(shù)據(jù)信息丟失最少的原則下,對高維的在力求數(shù)據(jù)信息丟失最少的原則下,對高維的變量空間降維,即研究指標體系的少數(shù)幾個線性組變量空間降維,即研究指標體系的少數(shù)幾個線性組合,并且這幾個線性組合所構(gòu)成的綜合指標將盡可合,并且這幾個線性組合所構(gòu)成的綜合指標將盡可能多地保留原來指標變異方面的信息。這些綜合指

9、能多地保留原來指標變異方面的信息。這些綜合指標就稱為主成分。標就稱為主成分。要討論的問題是:要討論的問題是:2. 問題的提出問題的提出各個變量之間差異很大各個變量之間差異很大 (2 2) 如何選擇幾個主成分。如何選擇幾個主成分。 主成分分析的目的是簡化變量,一般情主成分分析的目的是簡化變量,一般情況下主成分的個數(shù)應(yīng)該小于原始變量的個數(shù)。況下主成分的個數(shù)應(yīng)該小于原始變量的個數(shù)。關(guān)于保留幾個主成分,應(yīng)該權(quán)衡主成分個數(shù)關(guān)于保留幾個主成分,應(yīng)該權(quán)衡主成分個數(shù)和保留的信息。和保留的信息。 (3 3)如何解釋主成分所包含的幾何意義如何解釋主成分所包含的幾何意義或經(jīng)濟意義或其它。或經(jīng)濟意義或其它。 美國的統(tǒng)

10、計學家斯通美國的統(tǒng)計學家斯通(Stone)(Stone)在在19471947年關(guān)于國民年關(guān)于國民經(jīng)濟的研究是經(jīng)濟的研究是一項十分著名的工作一項十分著名的工作。他曾利用美國。他曾利用美國19291929一一19381938年各年的數(shù)據(jù),得到了年各年的數(shù)據(jù),得到了1717個反映國民收個反映國民收入與支出的變量要素,例如入與支出的變量要素,例如雇主補貼、消費資料和雇主補貼、消費資料和生產(chǎn)資料、純公共支出、凈增庫存、股息、利息、生產(chǎn)資料、純公共支出、凈增庫存、股息、利息、外貿(mào)平衡等等。外貿(mào)平衡等等。l 在進行主成分分析后,竟以在進行主成分分析后,竟以97.4的精度,用的精度,用三個新變量就取代了原三個

11、新變量就取代了原17個變量。個變量。實例實例1: 經(jīng)濟分析經(jīng)濟分析 根據(jù)經(jīng)濟學知識,斯通給這三個新根據(jù)經(jīng)濟學知識,斯通給這三個新變量分別命名為變量分別命名為總收入總收入F1F1、總收入變化、總收入變化率率F2F2和經(jīng)濟發(fā)展或衰退的趨勢和經(jīng)濟發(fā)展或衰退的趨勢F3F3。更有。更有意思的是,這三個變量其實都是可以直意思的是,這三個變量其實都是可以直接測量的。接測量的。 主成分分析就是試圖在力保數(shù)據(jù)信息丟主成分分析就是試圖在力保數(shù)據(jù)信息丟失最少的原則下,對這種多變量的數(shù)據(jù)表進失最少的原則下,對這種多變量的數(shù)據(jù)表進行最佳綜合簡化,也就是說,行最佳綜合簡化,也就是說,對高維變量空對高維變量空間進行降維處理

12、。間進行降維處理。 很顯然,識辨系統(tǒng)在一個低維空間要比很顯然,識辨系統(tǒng)在一個低維空間要比在一個高維空間容易得多。在一個高維空間容易得多。實例實例2: 成績數(shù)據(jù)成績數(shù)據(jù) 100個學生的數(shù)學、物理、化學、語文、歷個學生的數(shù)學、物理、化學、語文、歷史、英語的成績?nèi)缦卤恚ú糠郑J贰⒂⒄Z的成績?nèi)缦卤恚ú糠郑?從本例可能提出的問題從本例可能提出的問題 目前的問題是,能不能把這個數(shù)據(jù)的目前的問題是,能不能把這個數(shù)據(jù)的6 6個變量用一兩個綜合變量來表示個變量用一兩個綜合變量來表示呢?呢? 這一兩個綜合變量這一兩個綜合變量包含有多少原來的包含有多少原來的信息信息呢?呢? 能不能能不能利用找到的綜合變量來對學

13、生利用找到的綜合變量來對學生排序排序呢?這一類數(shù)據(jù)所涉及的問題可呢?這一類數(shù)據(jù)所涉及的問題可以推廣到對企業(yè),對學校進行分析、以推廣到對企業(yè),對學校進行分析、排序、判別和分類等問題。排序、判別和分類等問題。 例中的的數(shù)據(jù)點是六維的;也就是說,每個觀測例中的的數(shù)據(jù)點是六維的;也就是說,每個觀測值是值是6維空間中的一個點。維空間中的一個點。我們希望把我們希望把6維空間用維空間用低維空間表示。低維空間表示。3.1 PCA: 二維數(shù)據(jù)分析二維數(shù)據(jù)分析平均成績73.769.861.372.577.272.36372.370單科平均成績74.1747066.473.663.36466687072747678

14、8082846065707580859095100dataM 先假定數(shù)據(jù)只有二維,即只有兩個先假定數(shù)據(jù)只有二維,即只有兩個變量,它們由橫坐標和縱坐標所代表;變量,它們由橫坐標和縱坐標所代表;因此每個觀測值都有相應(yīng)于這兩個坐因此每個觀測值都有相應(yīng)于這兩個坐標軸的兩個坐標值;標軸的兩個坐標值; 如果這些數(shù)據(jù)形成一個如果這些數(shù)據(jù)形成一個橢圓形狀橢圓形狀的的點陣(這在變量的二維正態(tài)的假定下點陣(這在變量的二維正態(tài)的假定下是可能的)是可能的). .2x1x1F2F3.23.2主成分分析的幾何解釋主成分分析的幾何解釋平移、旋轉(zhuǎn)坐標軸2x1x1F2F主成分分析的幾何解釋平移、旋轉(zhuǎn)坐標軸2x1x1F2F 主成

15、分分析的幾何解釋平移、旋轉(zhuǎn)坐標軸2x1x1F2F主成分分析的幾何解釋平移、旋轉(zhuǎn)坐標軸3.2. PCA: 進一步解釋進一步解釋-4-2024-4-2024 橢圓有一個長軸和一橢圓有一個長軸和一個短軸。在短軸方向上,個短軸。在短軸方向上,數(shù)據(jù)變化很少;在極端的數(shù)據(jù)變化很少;在極端的情況,短軸如果退化成一情況,短軸如果退化成一點,那只有在長軸的方向點,那只有在長軸的方向才能夠解釋這些點的變化才能夠解釋這些點的變化了;這樣,由二維到一維了;這樣,由二維到一維的降維就自然完成了。的降維就自然完成了。-4-2024-4-2024二維數(shù)據(jù)二維數(shù)據(jù)進一步解釋進一步解釋PCA 當坐標軸和橢圓的長短軸平行,那么代

16、表長軸當坐標軸和橢圓的長短軸平行,那么代表長軸的變量就描述了數(shù)據(jù)的主要變化,而代表短軸的變量就描述了數(shù)據(jù)的主要變化,而代表短軸的變量就描述了數(shù)據(jù)的次要變化。的變量就描述了數(shù)據(jù)的次要變化。 但是,但是,坐標軸通常并不和橢圓的長短軸平行坐標軸通常并不和橢圓的長短軸平行。因此,需要尋找橢圓的長短軸,并進行變換,因此,需要尋找橢圓的長短軸,并進行變換,使得新變量和橢圓的長短軸平行。使得新變量和橢圓的長短軸平行。 如果長軸變量代表了數(shù)據(jù)包含的大部分信息,如果長軸變量代表了數(shù)據(jù)包含的大部分信息,就用該變量代替原先的兩個變量(舍去次要的就用該變量代替原先的兩個變量(舍去次要的一維),降維就完成了。一維),降

17、維就完成了。 橢圓(球)的長短軸相差得越大,降維也越有橢圓(球)的長短軸相差得越大,降維也越有道理。道理。進一步解釋進一步解釋PCA(續(xù)續(xù)) 對于多維變量的情況和二維類似,也對于多維變量的情況和二維類似,也有高維的橢球,只不過無法直觀地看有高維的橢球,只不過無法直觀地看見罷了。見罷了。 首先把高維橢球的主軸找出來,再用首先把高維橢球的主軸找出來,再用代表大多數(shù)數(shù)據(jù)信息的最長的幾個軸代表大多數(shù)數(shù)據(jù)信息的最長的幾個軸作為新變量;這樣,主成分分析就基作為新變量;這樣,主成分分析就基本完成了。本完成了。 注意,和二維情況類似,高維橢球的注意,和二維情況類似,高維橢球的主軸也是互相垂直的。這些互相正交主

18、軸也是互相垂直的。這些互相正交的新變量是原先變量的線性組合,叫的新變量是原先變量的線性組合,叫做主成分做主成分(principal component)。 正如二維橢圓有兩個主軸,三維橢球正如二維橢圓有兩個主軸,三維橢球有三個主軸一樣,有幾個變量,就有有三個主軸一樣,有幾個變量,就有幾個主成分。幾個主成分。 選擇越少的主成分,降維就越好。什選擇越少的主成分,降維就越好。什么是標準呢?那就是這些被選的主成么是標準呢?那就是這些被選的主成分所代表的主軸的長度之和占了主軸分所代表的主軸的長度之和占了主軸長度總和的大部分。長度總和的大部分。有些文獻建議,有些文獻建議,所選的主軸總長度占所有主軸長度之所

19、選的主軸總長度占所有主軸長度之和的大約和的大約85%85%即可,即可,其實,這只是一個其實,這只是一個大體的說法;具體選幾個,要看實際大體的說法;具體選幾個,要看實際情況而定。情況而定。3.3. 均值和協(xié)方差均值和協(xié)方差 特征值和特征向量特征值和特征向量-4-2024-4-2024111221221212pnpnppnnnppxxxxxxxxxXXXX設(shè)有設(shè)有n個樣本,每個樣本觀測個樣本,每個樣本觀測p個指標(變量):個指標(變量):X1,X2,Xn, 得到原始數(shù)據(jù)矩陣:得到原始數(shù)據(jù)矩陣:.1()nn12MX + X + XkkX= X- M1. 樣本均值樣本均值顯然顯然,樣本均值是數(shù)據(jù)散列圖

20、的樣本均值是數(shù)據(jù)散列圖的中心中心.于是于是 p*n 矩陣的列矩陣的列B具有零樣本均值具有零樣本均值,稱為平均偏差形式稱為平均偏差形式12,nBX XX-4-2024-4-2024M11TnSBB2. 樣本協(xié)方差樣本協(xié)方差 中心中心中心中心 協(xié)方差的大小在一定程度上反映了多變協(xié)方差的大小在一定程度上反映了多變量之間的關(guān)系,但它還受變量自身度量量之間的關(guān)系,但它還受變量自身度量單位的影響單位的影響.注意:協(xié)方差注意:協(xié)方差是對稱矩陣且半正定是對稱矩陣且半正定為階方陣,為階方陣,為數(shù),為數(shù),X為維非零向量,為維非零向量,AXX 若若則則稱為稱為的的特征值特征值,X稱為稱為的的特征向量特征向量并不一定

21、唯一;并不一定唯一;,X 階方陣階方陣的特征值,就是使齊次線性方程組的特征值,就是使齊次線性方程組特征向量特征向量 ,特征值問題只針對與方陣;,特征值問題只針對與方陣;0X 0IA x 有非零解的有非零解的值,即滿足值,即滿足的的都是都是方陣方陣的特征值的特征值0IA 0IA 稱以稱以為未知數(shù)的一元次方程為未知數(shù)的一元次方程為為的的特征方程特征方程 例例1:1: 從一個總體中隨機抽取從一個總體中隨機抽取4 4個樣本作三個樣本作三次測量次測量, ,每一個樣本的觀測向量為每一個樣本的觀測向量為: :123414782 ,2 ,8 ,411315 XXXX 計算樣本均值計算樣本均值M M和協(xié)方差矩陣

22、和協(xié)方差矩陣S S以以及及S S的特征值和特征向量的特征值和特征向量. .11niinMX11TnSBBSXX Syntax C = cov(X)AlgorithmThe algorithm for cov is n,p = size(X);X = X - ones(n,1) * mean(X);Y = X*X/(n-1);See Also corrcoef, mean, std, var2x1x1F2F平移、旋轉(zhuǎn)坐標軸M 為了方便,我們在二維空間中討論主成分的幾何意義。為了方便,我們在二維空間中討論主成分的幾何意義。 設(shè)有設(shè)有n個樣本,每個樣本有兩個觀測變量個樣本,每個樣本有兩個觀測變量xl

23、和和x2,在由變,在由變量量xl和和x2 所確定的二維平面中,所確定的二維平面中,n個樣本點所散布的情況個樣本點所散布的情況如橢圓狀如橢圓狀。由圖可以看出這。由圖可以看出這n個樣本點無論是沿著個樣本點無論是沿著xl 軸方軸方向或向或x2軸方向都具有較大的離散性,其離散的程度可以分軸方向都具有較大的離散性,其離散的程度可以分別用觀測變量別用觀測變量xl 的方差和的方差和x2 的方差定量地表示。顯然,的方差定量地表示。顯然,如果只考慮如果只考慮xl和和x2 中的任何一個,那么包含在原始數(shù)據(jù)中中的任何一個,那么包含在原始數(shù)據(jù)中的信息將會有較大的損失。的信息將會有較大的損失。 如果我們將如果我們將xl

24、 軸和軸和x2軸先平移,再同時按軸先平移,再同時按逆時針方向旋轉(zhuǎn)逆時針方向旋轉(zhuǎn) 角度,得到新坐標軸角度,得到新坐標軸Fl和和F2。Fl和和F2是兩個新變量是兩個新變量。 Fl,F(xiàn)2除了可以對包含在除了可以對包含在Xl,X2中的信息起著濃中的信息起著濃縮作用之外,還具有不相關(guān)的性質(zhì),這就使得在縮作用之外,還具有不相關(guān)的性質(zhì),這就使得在研究復(fù)雜的問題時避免了信息重疊所帶來的虛假研究復(fù)雜的問題時避免了信息重疊所帶來的虛假性。性。二維平面上的個點的方差大部分都歸結(jié)在二維平面上的個點的方差大部分都歸結(jié)在Fl軸上,而軸上,而F2軸上的方差很小。軸上的方差很小。Fl和和F2稱為原始變量稱為原始變量x1和和x

25、2的綜合變量。的綜合變量。 F簡化了系統(tǒng)結(jié)構(gòu),抓住了主要矛盾。簡化了系統(tǒng)結(jié)構(gòu),抓住了主要矛盾。 稍事休息稍事休息3.4 PCA3.4 PCA的性質(zhì)的性質(zhì) 一、兩個線性代數(shù)的結(jié)論一、兩個線性代數(shù)的結(jié)論 1、若A是p階實對稱陣,則一定可以找到正交陣U,使ppp00000021AUU1pii. 2 . 1, 其中 是A A的特征根。 2、若上述矩陣的特征根所對應(yīng)的單位特征向量為 ppppppuuuuuuuuu212222111211),(p1uuU 則實對稱陣 屬于不同特征根所對應(yīng)的特征向量是正交的,即有p1uu,令A(yù)IUUUU 3.4 PCA的性質(zhì)的性質(zhì)(續(xù)續(xù))3 3、均值、均值()TTExMUU

26、4 4、方差為所有特征根之和、方差為所有特征根之和1()piiVar F2221212pp 說明主成分分析把說明主成分分析把P P個隨機變量的總方差分解成為個隨機變量的總方差分解成為P P個不相關(guān)的隨機變量的方差之和。個不相關(guān)的隨機變量的方差之和。 協(xié)方差矩陣協(xié)方差矩陣 的的對角線上的元素之和等于特征根對角線上的元素之和等于特征根之和。之和。 3.4 3.4、精度分析、精度分析 1)貢獻率:第i個主成分的方差在全部方差中所占比重 ,稱為貢獻率 ,反映了原來P個指標多大的信息,有多大的綜合能力 。piii1 2)累積貢獻率:前k個主成分共有多大的綜合能力,用這k個主成分的方差和在全部方差中所占比

27、重來描述,稱為累積貢獻率。piikii11PCA常用統(tǒng)計量: .特征根i .各成分貢獻率 .前各成分累計貢獻率 .特征向量 各成分表達式中標準化原始變量的系數(shù)向量,就是各成分的特征向量。ii 我們進行主成分分析的目的之一是希望用我們進行主成分分析的目的之一是希望用盡可能少的盡可能少的主成分主成分F F1 1,F(xiàn) F2 2,F(xiàn) Fk k(kpkp)代替)代替原來的原來的P P個指標個指標。到底應(yīng)該選擇多少個主成分,。到底應(yīng)該選擇多少個主成分,在實際工作中,主成分個數(shù)的多少取決于能夠在實際工作中,主成分個數(shù)的多少取決于能夠反映原來變量反映原來變量80%80%以上的信息量為依據(jù),即當累以上的信息量為

28、依據(jù),即當累積貢獻率積貢獻率80%80%時的主成分的個數(shù)就足夠了。最時的主成分的個數(shù)就足夠了。最常見的情況是主成分為常見的情況是主成分為2 2到到3 3個。個。 例例 設(shè) 的協(xié)方差矩陣為 321,xxx200052021 解得特征根為 , ,83. 51 00. 22 17. 03 ,000. 0924. 0383. 01U1002U000. 0383. 0924. 03U 第一個主成分的貢獻率為5.83/(5.83+2.00+0.17)=72.875%,盡管第一個主成分的貢獻率并不小,但應(yīng)該取兩個主成分。97.88%4 4 主成分分析的步驟主成分分析的步驟)21(21nlxxxplll,lX

29、ppjjlnliilxxxxxn)(111 第一步:由X的協(xié)方差陣x,求出其特征根,即解方程 ,可得特征根 。021p 一、基于協(xié)方差矩陣0I 第二步:求出分別所對應(yīng)的特征向量U1,U2,Up, 12TiipiuuuiU, ,第三步:計算累積貢獻率,給出恰當?shù)闹鞒煞謧€數(shù)。1 2()TFik kpiiUX, ,第四步:計算所選出的k個主成分的得分。將原始數(shù)據(jù)的中心化值: 代入前k個主成分的表達式,分別計算出各單位k個主成分的得分,并按得分值的大小排隊。*1122TiipipxxxxxxiiXXX, , 例例 應(yīng)收賬款是指企業(yè)因?qū)ν怃N售產(chǎn)品、材料、提供勞務(wù)及應(yīng)收賬款是指企業(yè)因?qū)ν怃N售產(chǎn)品、材料、提

30、供勞務(wù)及其它原因,應(yīng)向購貨單位或接受勞務(wù)的單位收取的款項,包括應(yīng)其它原因,應(yīng)向購貨單位或接受勞務(wù)的單位收取的款項,包括應(yīng)收銷貨款、其它應(yīng)收款和應(yīng)收票據(jù)等。出于擴大銷售的競爭需要,收銷貨款、其它應(yīng)收款和應(yīng)收票據(jù)等。出于擴大銷售的競爭需要,企業(yè)不得不以賒銷或其它優(yōu)惠的方式招攬顧客,由于銷售和收款企業(yè)不得不以賒銷或其它優(yōu)惠的方式招攬顧客,由于銷售和收款的時間差,于是產(chǎn)生了應(yīng)收款項。應(yīng)收款賒銷的效果的好壞,不的時間差,于是產(chǎn)生了應(yīng)收款項。應(yīng)收款賒銷的效果的好壞,不僅依賴于企業(yè)的信用政策,還依賴于顧客的信用程度。由此,僅依賴于企業(yè)的信用政策,還依賴于顧客的信用程度。由此,評評價顧客的信用等級,了解顧客的

31、綜合信用程度,做到價顧客的信用等級,了解顧客的綜合信用程度,做到“知己知彼,知己知彼,百戰(zhàn)不殆百戰(zhàn)不殆”,對加強企業(yè)的應(yīng)收賬款管理大有幫助,對加強企業(yè)的應(yīng)收賬款管理大有幫助。某企業(yè)為了。某企業(yè)為了了解其客戶的信用程度,采用西方銀行信用評估常用的了解其客戶的信用程度,采用西方銀行信用評估常用的5C5C方法,方法,5C5C的目的是說明顧客違約的可能性。的目的是說明顧客違約的可能性。 5 PCA的應(yīng)用的應(yīng)用 1、品格(用品格(用X1表示),表示),指顧客的信譽,履行償還義指顧客的信譽,履行償還義務(wù)的可能性。企業(yè)可以通過過去的付款記錄得到此務(wù)的可能性。企業(yè)可以通過過去的付款記錄得到此項。項。2、能力(

32、用能力(用X2表示),表示),指顧客的償還能力。即其流指顧客的償還能力。即其流動資產(chǎn)的數(shù)量和質(zhì)量以及流動負載的比率。顧客的動資產(chǎn)的數(shù)量和質(zhì)量以及流動負載的比率。顧客的流動資產(chǎn)越多,其轉(zhuǎn)化為現(xiàn)金支付款項的能力越強。流動資產(chǎn)越多,其轉(zhuǎn)化為現(xiàn)金支付款項的能力越強。同時,還應(yīng)注意顧客流動資產(chǎn)的質(zhì)量,看其是否會同時,還應(yīng)注意顧客流動資產(chǎn)的質(zhì)量,看其是否會出現(xiàn)存貨過多過時質(zhì)量下降,影響其變現(xiàn)能力和支出現(xiàn)存貨過多過時質(zhì)量下降,影響其變現(xiàn)能力和支付能力。付能力。3、資本(用資本(用X3表示),表示),指顧客的財務(wù)勢力和財務(wù)狀指顧客的財務(wù)勢力和財務(wù)狀況,表明顧客可能償還債務(wù)的背景。況,表明顧客可能償還債務(wù)的背景

33、。4、附帶的擔保品(用附帶的擔保品(用X4表示),表示),指借款人以容易出指借款人以容易出售的資產(chǎn)做抵押。售的資產(chǎn)做抵押。5 5、環(huán)境條件(用環(huán)境條件(用X5表示),表示),指企業(yè)的外部因素,即指企業(yè)的外部因素,即指非企業(yè)本身能控制或操縱的因素。指非企業(yè)本身能控制或操縱的因素。 首先并抽取了10家具有可比性的同類企業(yè)作為樣本,又請8位專家分別給10個企業(yè)的5個指標打分,然后分別計算企業(yè)5個指標的平均值,如表。 76.581.57675.871.78579.280.384.476.570.67367.668.178.5949487.589.59290.787.39181.58084.666.96

34、8.864.866.477.573.670.969.874.857.760.457.460.86585.668.57062.276.57069.271.764.968.9; Eigenvalues of the Covariance Matrix Eigenvalue Difference Proportion Cumulative PRIN1 410.506 367.242 0.845854 0.84585 PRIN2 43.264 22.594 0.089146 0.93500 PRIN3 20.670 12.599 0.042591 0.97759 PRIN4 8.071 5.266 0

35、.016630 0.99422 PRIN5 2.805 0. 0 0.005779 1.00000 Eigenvectors PRIN1 PRIN2 PRIN3 PRIN4 PRIN5 X1 0.468814 -.830612 0.021406 0.254654 -.158081 X2 0.484876 0.329916 0.014801 -.287720 -.757000 X3 0.472744 -.021174 -.412719 -.588582 0.509213 X4 0.461747 0.430904 -.240845 0.706283 0.210403 X5 0.329259 0.1

36、22930 0.878054 -.084286 0.313677 第一主成份的貢獻率為第一主成份的貢獻率為84.6%84.6%,第一主成份,第一主成份 Z Z1 1=0.469X=0.469X1 1+0.485X+0.485X2 2+0.473X+0.473X3 3+0.462X+0.462X4 4+0.329X+0.329X5 5 的各項系數(shù)大致相等,且均為正數(shù),說明第一的各項系數(shù)大致相等,且均為正數(shù),說明第一主成份是對所有指標的一個綜合測度,可以作為主成份是對所有指標的一個綜合測度,可以作為綜合的信用等級指標。可以用來排序。將原始數(shù)綜合的信用等級指標。可以用來排序。將原始數(shù)據(jù)的值中心化后,

37、代入第一主成份據(jù)的值中心化后,代入第一主成份Z Z1 1的表示式,的表示式,計算各企業(yè)的得分,并按分值大小排序計算各企業(yè)的得分,并按分值大小排序: : 在正確評估了顧客的信用等級后,就能正確制定出對在正確評估了顧客的信用等級后,就能正確制定出對其的信用期、收帳政策等,這對于加強應(yīng)收帳款的管理其的信用期、收帳政策等,這對于加強應(yīng)收帳款的管理大有幫助。大有幫助。序號序號1 12 23 34 45 56 67 78 89 91010得分得分3.163.1613.613.6- -9.019.0135.935.925.125.1-10.3-10.3- -4.364.36-33.8-33.8- -6.41

38、6.41-13.8-13.8排序排序4 43 37 71 12 28 85 510106 69 9例二例二 基于相關(guān)系數(shù)矩陣的主成分分析。對美國紐約上市的有關(guān)化學產(chǎn)業(yè)的三個證券和石油產(chǎn)業(yè)的2個證券做了100周的收益率調(diào)查。下表是其相關(guān)系數(shù)矩陣。 1)利用相關(guān)系數(shù)矩陣做主成分分析。 2)決定要保留的主成分個數(shù),并解釋意義。10.5770.5090.00630.00370.57710.5990.3890.520.5090.59910.4360.4260.3870.3890.43610.5230.4620.3220.4260.5231 Eigenvalues of the Correlation M

39、atrix Eigenvalue Difference Proportion Cumulative PRIN1 2.85671 2.04755 0.571342 0.57134 PRIN2 0.80916 0.26949 0.161833 0.73317 PRIN3 0.53968 0.08818 0.107935 0.84111 PRIN4 0.45150 0.10855 0.090300 0.93141 PRIN5 0.34295 0. 0 0.068590 1.00000 Eigenvectors PRIN1 PRIN2 PRIN3 PRIN4 PRIN5 X1 0.463605 -.240339 -.611705 0.386635 -.451262 X2 0.457108 -.509305 0.178189 0.206474 0.676223 X3 0.470

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論