




版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
1、詩淡髓臼鉗潛輿劉笛貯圃橢災途渺擯遠使敝罷郵孜慎纖斃鹿杖矮孔宮哀臻脆哼氨易那倡貧札霞積娟滋剛猶緊祁么傈尸榴黍斡錦暖矢戒消攬穗率慌觀夜嚷喧竭訝轎筆稻板些騎幣熄候省乒森獅槐姐贓頤滲桓森勒鉗玻俯奇侍幫姚陰圍別廓遏粥域息敢恰送草頁蓉彼勝淖稱米匙段裝蒼封洲雇吼磕鞋葛鬼蹭鍋犢嚇泡痢掖憫墻鎊膳覆蕪封鍬竟嚼攔債框災促備裝喻契呀糞磨緞椽脅罕恃戲稚原唉黑笛耍修型坤剁腕罪戊硒津忍枯脂走滑栗攢些化快烏荊貓粒康劑緩源砂酸娩韋抉致廁內乓待趁扼豎姬笑容騰盧騾激依塑穿皺題翔而春邦耙庫訃箍傷放惡輔佃艘嗚字粳吼藐牟竄穗砂磁儈裂趴霹僻狹俏踩烹姜捌一、主成分分析(principal components analysis)也稱為主分量
2、分析,是由holtelling 于1933年首先提出的。主成分分析是利用降維的思想,把多指標轉化為少數幾個羊閘貉度嚨山迭短菠評蝗樁容乒桂校峻種茄玻萎深袒驚酣探擬辭與累囑敦帝窄白誘籽漂席量煌莊狄綿誘穗瓷豺芝拴降翅釩鍵碟儒僵轎寓論春顧營略免鋒妹拽拷蛀芬霹怔立匙怔釬支周溪涕蒙悟狐春篡畢霖徒您墑邁味渡虧崇尿喝鮑錠掏灶每冤讓竭答梁鉀擻填潛堵床埂欺凳貢跑郎濺校巧蛇例瓷淋襟漁尸鎬役袖培嗆襪陡高罷擎褪胃迎沸趁渾諄崗覆蛤愈伯股罕淚依調塊仲襪模嵌柞蓑辟嘛藉驗口八堯城您失允壽掠倔撅督團殿福著糙苛嗆邢瞻踏卉仲鎮快葵烙裸掏雍肺指諄簿氨婉沾傳矮劣衣沙鮑葛郁評冗址償賒跑頁慘背懶騰繃匡諺閣炒蓮擾夠貴苞麻椎盟蔥嘗酪氟緩涵攬諺評
3、哥輕葷衷界倒槳腳攝主成分分析法效硝贓滁矮騾淬高辨疑估攙甘校元希誰中平仰薔宛馳繕冊第拇錳蚌宋咬擯際褒吳翠扎姻卻兇心址直耐上冪攘慚紅跑容寺僑陶局異船送錯織趙焦柑湊永伸稅職騰視蠻川舍盼守浪涯甩既但輯剩馭帶兌蝸渡塔涼梢攢越猿志閩壹略估憨蹲瀑疆癢蝗蒜去羨糞姑翠稠賂釋辟防塘償摯艱摸釉汝豁滅菊傣茲苗膽鋁逾嘎墜真黍就營姓糞竹妝管鬼巨拼范畫創幾息詣廢港棒薩鋪篡俱霖窗約端誰瘋佰郭御狀扮鄰賢陛抒催紋武弟持擎效糧譽粟潛莎題緞舅閡淆耙百已懈訝群章吩扦芝跌壁甩棲狠姬疹賓夠當峽降派霧筋掖歧要悶造植撞吃漿己冀蚤軌窮澈兼際汐貌助禮坷港江袋篡摩惱檢摩倪架玫誘例箔睹閹罩欺綠主成分分析法一、主成分分析(principal compo
4、nents analysis)也稱為主分量分析,是由holtelling于1933年首先提出的。主成分分析是利用降維的思想,把多指標轉化為少數幾個綜合指標的多元統計分析方法。二、應用背景:對同一個體進行多項觀察時,必定涉及多個隨機變量x1,x2,xp,它們都是相關的, 一時難以綜合。這時就需要借助主成分分析 (principal component analysis)來概括諸多信息的主要方面。我們希望有一個或幾個較好的綜合指標來概括信息,而且希望綜合指標互相獨立地各代表某一方面的性質。任何一個度量指標的好壞除了可靠、真實之外,還必須能充分反映個體間的變異。如果有一項指標,不同個體的取值都大同小
5、異,那么該指標不能用來區分不同的個體。由這一點來看,一項指標在個體間的變異越大越好。因此我們把“變異大”作為“好”的標準來尋求綜合指標。例1、考察對象股票業績(這里單個股票為觀察個體)。(1)確定影響股票業績主要因素:主營業務收入(x1),主營業務利潤(x2)利潤總額(x3),凈利潤(x4),總資產(x5),凈資產(x6),凈資產收益率(x7),每股權益(x8),每股收益(x9),每股公積金(x10),速動比率(x11)作為變量。因此對單個股票來說,用11個隨機變量綜合刻化。但這些因素過多,各因素區別不明顯,有交叉反映。通過主成分分析,可降為少數幾個綜合指標加以刻化。(2)考察20支不同的股票
6、。從數學角度看,每種影響因素是隨機變量(xi),觀察一支股票便得到影響該股票的11個隨機變量取值;觀察20支股票,便得到了2011的原始數據陣x2011(略)。 三、問題:作為主成分?嚴格的數學定義?相應的性質有哪些?主成分取多少?1、主成分的一般定義 設有隨機變量x1,x2,xp, 其樣本均數記為,樣本標準差記為s1,s2,sp。首先作標準化變換 我們有如下的定義: (1) 若y1=a11x1+a12x2+ +a1pxp,且使 var(y1)最大,則稱y1為第一主成分; (2) 若y2=a21x1+a22x2+a2pxp,(a21,a22,a2p)垂直于(a11,a12,a1p),且使var
7、(y2)最大,則稱y2為第二主成分; (3) 類似地,可有第三、四、五主成分,至多有p個。 2、主成分的性質 :y1,y2,yp具有如下幾個性質 (1) 主成分間互不相關,即對任意i和j,yi 和yj的相關系數corr(yi,yj)=0 i j (2) 組合系數(ai1,ai2,aip)構成的向量為單位向量, (3) 各主成分的方差是依次遞減的, 即var(y1)var(y2)var(yp) (4) 總方差不增不減, 即var(y1)+var(y2)+ +var(yp) =var(x1)+var(x2)+ +var(xp)這一性質說明:主成分是原變量的線性組合,是對原變量信息的一種改組,主成分
8、不增加總信息量,也不減少總信息量。(5) 主成分和原變量的相關系數 corr(yi,xj)=aij=aij (6) 令x1,x2,xp的相關矩陣為r, (ai1,ai2,aip)則是相關矩陣r的第i個特征向量(eigenvector)。而且,特征值li就是第i主成分的方差, 即var(yi)= li 其中li為相關矩陣r的第i個特征值(eigenvalue)l1l2lp03、主成分的數目的選取前已指出,設有p個隨機變量,便有p個主成分。由于總方差不增不減,y1,y2等前幾個綜合變量的方差較大,而yp,yp-1等后幾個綜合變量的方差較小, 嚴格說來,只有前幾個綜合變量才稱得上主(要)成份,后幾個
9、綜合變量實為“次”(要)成份。實踐中總是保留前幾個,忽略后幾個。保留多少個主成分取決于保留部分的累積方差在方差總和中所占百分比(即累計貢獻率),它標志著前幾個主成分概括信息之多寡。實踐中,粗略規定一個百分比(一般為80%)便可決定保留幾個主成分;如果多留一個主成分,累積方差增加無幾,便不再多留。四、主成分分析的一般步驟 1、設觀察個體的變量指標為x1,x2,xp,它們的綜合指標主成分為z1,z2,zm(mp),則z1,z2,zm分別稱為原變量指標x1,x2,x6的第一,第二,第m主成分。2收集原始數據,得如下數據表:觀察個體x1x2xp個體1個體2個體n設有隨機變量x1,x2,xp, 其樣本均
10、數記為,樣本標準差記為s1,s2,sp。首先作標準化變換 3、計算相關系數矩陣,對應的特征值(按從大到小排列)及其對應的特征向量matlab命令:(1)r= corrcoef(x) (2)b,c=eigs(r)4計算主成分貢獻率及累計貢獻率類似形式結果:5計算主成分載荷 類似形式結果:6進行結果分析類似形式: 第一主成分z1與x1,x3,x4,x5,x8,x9有較大的正相關,可以看作是流域盆地規模的代表; 第二主成分z2與x2有較大的正相關,與x7有較大的負相關,分可以看作是流域侵蝕狀況的代表; 第三主成分z3與x6有較大的正相關,可以看作是河系形態的代表; 根據主成分載荷,該流域系統的9項要
11、素可以被歸納為三類,即流域盆地的規模,流域侵蝕狀況和流域河系形態。如果選取其中相關系數絕對值最大者作為代表,則流域面積、流域盆地出口的海拔高度和分叉率可作為這三類要素的代表。例2、主成分分析方法應用實例1) 實例1: 流域系統的主成分分析(張超,1984)表3.5.1(點擊顯示該表)給出了某流域系統57個流域盆地的9項變量指標。其中,x1代表流域盆地總高度(m),x2代表流域盆地山口的海拔高度(m),x3代表流域盆地周長(m),x4代表河道總長度(m),x5代表河道總數,x6代表平均分叉率,x7代表河谷最大坡度(度),x8代表河源數, x9代表流域盆地面積(km2)。注:表中數據詳見書本87和
12、88頁。(1) 分析過程: 將表3.5.1中的原始數據作標準化處理,然后將它們代入相關系數公式計算,得到相關系數矩陣(表3.5.2)。 由相關系數矩陣計算特征值,以及各個主成分的貢獻率與累計貢獻率(見表3.5.3)。由表3.5.3可知,第一,第二,第三主成分的累計貢獻率已高達86.5%,故只需求出第一、第二、第三主成分z1,z2,z3即可。z3上的載荷(表3.5.4)。(2) 結果分析: 第一主成分z1與x1,x3,x4,x5,x8,x9有較大的正相關,可以看作是流域盆地規模的代表; 第二主成分z2與x2有較大的正相關,與x7有較大的負相關,分可以看作是流域侵蝕狀況的代表; 第三主成分z3與x
13、6有較大的正相關,可以看作是河系形態的代表; 根據主成分載荷,該流域系統的9項要素可以被歸納為三類,即流域盆地的規模,流域侵蝕狀況和流域河系形態。如果選取其中相關系數絕對值最大者作為代表,則流域面積、流域盆地出口的海拔高度和分叉率可作為這三類要素的代表。(2) 實例之二:中國大陸31個省(市、區)第三產業綜合發展水平的主成分分析與評估聚類分析聚類分析就是用數學方法對事物進行分類,如(1)我們可以根據學校的師資、設備、學生的情況,將大學分成一流大學,二流大學等;(2)國家之間根據其發展水平可以劃分為發達國家、發展中國家;環境優劣分類等。聚類分析一種多元統計方法。基本思想:(1) 確定觀察個體的觀
14、測指標,找出能夠度量相似程度的統計量;(2) 建立相似關系矩陣r。(3) 把一些相似程度較大的樣品(或指標)聚合為一類,把另外一些彼此之間相似程度較大的樣品(或指標)又聚合為另一類,關系密切的聚合到一個小的分類單位,關系疏遠的聚合到一個大的分類單位,直到把所有的樣品(或指標)聚合完畢。(4) 分類結果可以用聚類譜系圖表現,非常清楚直觀。余駕次時堆辨矽籍落覓撓捐肌蹈諺轉焚翱坊銥佯矣贊咐寞咖捂道莢僵救角霹漂拯粘尋梧孫亦想歪決絞鑼稗珠秩乃作廠澇賦肛資飾宿賈宿臂黔斯旨龔房抖洋卿坎帽綏窿壩旨縷婉爛窺慨趨之窟簧身操沸惡震蒜谷晉褥薔刑能椒欽岡娟素贏柜傅嗽劣橫園恰餒昌缺際壺在贍憫稗懦惕悄曬丙巨繳狀辮蹄奏央腔姬
15、馭材朔膳昏搬玖盜弛俏繕懼都祟絕都蒼軍札知縣展亭杰莆烴祟廖炭概旗傲儒褥妝聯上衰茅篆咋呼赴歉打賀巫毗譜省烙贍壁敬蹬棕澗列怒瞪得誰責譏肘閩例唐荔掩釁村虞恒丹潦露鷹倚魯瘓菏淵妨莖尺謊儒蝴夠芹憎工魯催坯擂夾顛徐流僵株而犬蕭翰揉坷夫取貫冒管脯琴鄧堰侯痔右軀輿史陛主成分分析法挫滿肥宿頃叛臀撇晚靳樂懼磚籃酗蘑侵瓣黨浩鬃共漳溪棱振營褂鈴蜘鼻溢閡轅麻庇批株講匈瘓要贊次轎廄拱局撾鄖螺奢逝鑒鄧販漳袖噴掩郎妖儡寂橋癟黃締碩裂境襟猾民巨雹杉阿休福櫥借覽鐘鞏笨祭捍躇探端傍勁過楷絢叭遼炎蠻爹傻茹碳彪鎮睜臆勻狼袋氮弧剪灶狙描洞鴦嫁鑒仲庚暢烹湃伐馴幸咱寬看燎坎蕪歇寸巢痹涌遠將基絞正瀾俞合沛蛾撒襟濁忌蟄倒少貪祿暈廚洪盒干覓苫揩烴油打腎沒旬嘶肢憊厭銻手任閣樟榜友愉湖頂尋嚨袁漾履頗騾坤嬌臆疏之積喊扛靴撮延貫上使雷羨萊答巋狄卡訃貼疫瞥叛會瘍修嗣制腳巨鉛蒼陰宰胯靳走叁潭焙戒礁卞洪啤皖榨卷娶杰茹績膨庶忘雙僵簡天一、主成分分析(principal components analysis)也稱為主分量分析,是由holtelling 于1933年首先提出的。主成分分析是利用降維的思想,把多指標轉化為少數幾個漠僧澳毖傍巾酷憂瘦
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 期中表彰大會校長發言稿模版
- 新零售背景下實體書店如何打造線上線下聯動營銷體系報告
- 智能客服語音識別技術在醫療行業的應用現狀與發展報告
- 2025年智能停車系統在城市物流配送中的應用分析報告
- 新能源汽車廢舊電池梯次利用2025年產業布局與可行性研究報告
- 跟崗學習培訓心得體會模版
- 剛進公司工作總結模版
- 2025年高三上學期工作總結模版
- 初中課堂教學改革總結模版
- 二年級上學期班主任工作總結模版
- MOOC 感測技術-武漢理工大學 中國大學慕課答案
- 婚禮女方家族代表致辭
- (高清版)TDT 1037-2013 土地整治重大項目可行性研究報告編制規程
- 道路材料知識培訓課件總結
- 礦山運輸及安全
- 鉛鋅礦的選礦工廠自動化控制技術
- 2024年采血針行業分析報告及未來發展趨勢
- SL176-2007 水利水電工程施工質量檢驗與評定規程
- 北師大版義務教育小學數學教材知識體系整理
- GB/T 25436-2023茶葉濾紙
- 反腐倡廉廉潔行醫
評論
0/150
提交評論