




版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
1、!塑!至箜!塑!塑垡笪堡型蘭主成分分析和因子分析曼魚塞翌窒在評價區域經濟發展水平中的應用賈萬敬何建敏摘要:文章從主成分分析、因子分析的發展過程、基本原理應用等方面出發來全面地介紹多元數據處理的主要方法。文章以江蘇省各地市經濟發展水平為例,根據江蘇省各市卑的國民經濟主要統計指標,利用軟件赴理的結果來說明上述方法在評價江蘇省各地市的經濟發展水平中的應用。關鍵詞:主成分分析;因子分析;區域經濟一、引言我國是一個經濟與社會發展水平資源與環境稟賦情況在各區域間差異非常大的國家。自科學發展觀提出以來,區域經濟協調發展的研究得到了充分的重視。要制訂出促進區域經濟協調發展的有效政策,首先必需對區域經濟發展的水
2、平做出合理的評價。從中找出形成區域經濟發展水平差異的關鍵因素。主成分分析和因子分析是多元統計中十分常用的兩種方法,本文將著重介紹這兩種方法的基本原理、數學模型以便從根本上揭示出這兩種方法的區別。本文還將介紹主成分分析和因子分析的發展歷程和應用領域。結臺江蘇省區域經濟發展的現狀,選取反映年江蘇省個地級市經濟發展水平的個主要統計指標。運用因子分析方法對江蘇省輯地級市的經濟發展的基本狀況進行綜合評價。二、分析方法簡介統計推斷的理論工作大多數都是基于總體為多元正態的假定,然而在高于一維的情況下,要說明一組樣本來自多元正態總體是非常困難的,而且多個變量使用的測量單位也可能各不相同或者變量聞的數值大小相差
3、很大。因此,要對多元數據進行處理,通常將初始變量標準化。主成分分析。()主成分綜臺評價的產生和發展。主成分分析( )的概念最早在年由皮爾遜( )首先引人對非隨機變量討論,年數學家霍特林()把它推廣到隨機向量。和 對主成分分析進行了較為系統地分析和闡述,而郭軍教授系統地論述了綜合評價的理論和方法,雖然目前還沒有關于主成分綜合評價方法的專著但很多專家學者對其進行了探討和研究。一些學者不同的角度提出的穩健性問題,對此進行了研究,并且提出了各自的改進算法。有學者提出丁獨立主成分分析()的概念,弓人非線性算法。也有學者從如何去除或減弱有限的樣本集中少量“劣點”樣本的影響從而獲得準確主方向。常用的主成分分
4、析是從樣本協方差矩陣來計算的而協方差矩陣對劣點值相當敏感,為了增強主成分分析的穩健性,對協方差進行算法改進,從而提高主成分分析的穩健性。主成分綜合評價應用中也存在很大爭議,有的學者就提出了究竟應選取多少個主成分來對樣本進行排序的問題。一般來說,主要有兩種觀點:一是只用第一主成分,英國統計學家肯德爾認為:第一主成分能夠最大限度地反映樣本間的差異是概括指標差異信息的晟佳線性函數。因此只能用第一主成分對樣本綜合排序。我國也有部分學者持這種觀點南開大學盂生旺老師從幾何投影角度闡明在多指標綜合評價中,只有第一主成分結合原始數據的信息最多,因而也就只能以第一主成分值作為綜合評價值才合理。另一種觀點則認為,
5、不僅要充分重視第一主成分而且也要顧及其它主成分在綜臺評價中所起的作用,否則損失的信息較多,有時甚至回歪曲樣本間的實際相對地位。提出的改進辦法是:先按累積方差貢獻率不低于某個棚值(比如)的原則確定前幾個主成分,然后以每個主成分各自的貢獻率為權數將選定主成分線性加權求和來綜合評價樣本的優劣。()主成分分析的原理。主成分分析是一種通過降維技術把多個變量把多個變量化為少數幾個主成分的統計分析分析方法。這些主成分能夠反映原始變量的絕大部分信息,它們通常表示為原始變量的某種線形組臺。當原來個變量的總變差能夠由少數幾個線形組合來概括的話那么這些線形組合中包含的信息與原來個變量幾乎一樣多可以用這些線形組合替代
6、原來的個變量,這樣會是觀測數據從高維降到低維,簡化了數據。主成分就是個變量。:,的一些特殊線形組合,這些線形組合把,:,。構成的坐標系旋轉產生新的坐標系,在新坐標系中提供了協差陣的簡潔表示。以(,)表示標準化的原變量,(,)表示主成分,(江,;,)表示組合系數,主成分分析的模型為:汁冰磷。一!壘窒翌窒!塑垡笪翌型堂!堡翌!塑u65291X()主成分分析的應用。主成分分析一般不是目的,而足研究的某個巾間環節通過這一處理來發現重要的變量和變量間的某種關系。在網于分析法中,通常用主成分分析法來確定公共網子。因子分析。()咼子分析方法的產生和發展。因子分析()方法最早是在年由斯皮爾曼()和皮爾遜( )
7、在一篇著名論文對智力測驗得分進行統計分析中提出,之后被用于解決心理學和教育學方面的問題。由于這種方法計算量大,到了世紀年代得益于計算機的應用才有新的發展。型因子分析認為變量中存在一些不可觀測的共同因素同時對原始變量產生影響需要通過一定的方法提取“重要”的公共因子;“重要性”取決于困子對變量的影響程度,用二者之間的相關系數(因子載荷)表示。根據變量與各因子的“緊密”程度,把原始變量歸結到各因子中,通過這些“精煉”的因子認識復雜現象。因子分析的目的是用幾個不可觀測的隱變量來解釋原始變量間的協方差關系。()因子分析的原理。因子分析是假定個變量的變異主要是一些共同的因子引起的希望用少數幾個公共因子來解
8、釋變量中的主要變化。由于樣本內含樣品和指標的兩維性,因子分析分為型和型,前者足基于指標的分析,而后者是基于樣品的分析。因子分析的數學模型(正交因子模型)為:是,口u8216X島當,。表示個指標時該模型為型模型,當,:,。表示個樣品時該模型為型模型。式中:(,。)是可測個指標構成的維隨機向量;(,)是不可觀測的向量,稱為的公共因子;,稱為因于載荷,它是第個變量在第個公共因子上的負荷矩陣稱為因子載荷矩陣;稱為的特殊因子中包括隨機誤差。因于分析可以分解為確定因子載荷、園子旋轉及糾算因子得分三個步驟。系數陣帥是初始因子載荷陣,因子載荷,的統計意義就足第個變量與第個公共因子之間的相關系數。估計一有多種方
9、法,如主成分分析法、主軸因子法、晟小二乘法、極大似然法、因子提取法等。其主成分法應用最為廣泛,因子分析與主成分分析并沒有原理上的實質聯系主要是外觀的聯系。因為用主成分法得到初始載荷陣。(、。,、凡,一,、。),是的特征根凡。對應的單位特征向量,它也是主成分分析系數陣啪。第個系數向量,所以曲第列系數向量與一第行系數向量僅相差倍數。用主成分法確定因子載荷的方法比較簡單,但是這種方法所得到的特殊因子。,島,毛之間并不相互獨立,因此用主成分法確定因子載荷不完全符合因子模型的假設前提,也就是說所得的因子載荷并不完全正確。但是當共同度較大時,特殊因子所引起的作用較小,因而特殊因子之間的相關性所帶來的影響就
10、幾乎可以忽略。由于滿足上述模型的系數陣帥不唯一,這成為因子載荷陣旋轉的理論依據。一般情況下,初始因子載荷陣中各變量對因子的系數沒有靠近兩極數值和,說明各變量在每個因子上“分量”差不多。備因子并不“偏向”某些變量這樣很難提煉公共困子的意義,因此要旋轉咖。改變它的坐標系,使變量“偏向”不同的因子,并根據系數絕對值對變量歸類袁年江蘇省各市國民經濟主要統計指標人均高新技術第二產第產第三產城鎮固定地方財政規模以規模以上社會消費消費品增長率產業產業產值業產值 業產值資產投資總收入上工業工業利稅品零售總零售總(元人)()值(億元)(億元)(億元) 增長率(億元)(億元)增加值總額額(億元)額增長()(億元)
11、(億元)率(),】南京 無錫 徐州 常州 蘇州 南通 “連云港 淮安 。鹽城 揚州 鎮江 泰州 宿遷, 一?。褐馏?!塑!型垡篁堡登堂!墨量塑塹命名,最常爿的旋轉方法是最大方差正交旋轉。()因子分析的應用。近年來隨著現代高速電子計算機的出現,人們將因子分析的理論成功地應用于心理學、社會學、經濟學、人口學、地質學,甚至在化學和物理學中也得到成功地運用這使得因子分析的理論和方法更加豐富。三、實證研究本文選取年江封、省各地級市的個國民經濟主要統計指標(資料來源:江蘇省統計局,),相關數據見袁。利用統計軟件對表的數據進行處理,在因子分析的過程中使用主成分法提取公共因子。(注:,表示原始變量,表示標準化后
12、的變量)表因子旋轉后的栽荷矩陣、特征值貢獻率和累計貢獻率驗目的是確定所要求的數據是否取白多元正態分布的總體,若差異檢驗的值顯著,表示所取的數據來自正態分布總體可以做進一步分析;檢驗目的是分析觀測變量之間的簡單相關系數和偏相關系數的相對大小來確定該數據是否適臺進行因子分析取值變化在之間,若過小說明變量之間的榴天小能被其他變量解釋進行網子分析不適臺。通過軟件計算得到以上數據的檢驗的值等于表明所取的數據來自正態分布的總體;檢驗值為。因此適合做因子分析。本文使用 對數據進行因子分析,采用主成分法提取特征值大于的主成分作為公共因子,得到方差最大正交旋轉后的因子載荷矩陣、特征值、貢獻率和累計貢變量(:)第
13、一主因子第二主因子獻率。特征值大于的前兩個公因子的累計貢獻率已達到人均增率高新技術產值第二產業產值第三產業產值第三產業產值增長率一城市固定資產投資地方財政總收人規模以上工業增加值規模以上利稅總額社會消費品零售總額 ()。可見提取個因子后,它們反映了原始變量的大部分信息。從旋轉后的因子載荷矩陣可咀得到個原始變量與這個因子之間的表達式如下:廣 一從表可以看出,第一主因子在規模以上工業利稅總額、地方財政總收入、第二產業產值、第三產業產值等指標上具有較大的載荷,這些指標均反映地區的經濟總量,因此可以將第一主因子命名為“經濟總量因子”。而第二主社會消費品零售總額增妊率特征值【貢獻率()累計貢獻率()表因
14、子得分及綜合排名因子在第三產業產值增長率上具有較大的載荷這是反映經濟增長速度的指標因此可以將第二主因子命名為“經濟增長速度因子”。從表三的綜合因子的分的數值來看,得分值大的三個地區為蘇州、南京、無錫,它們的綜合網子得分值大于可見這三個地區的經濟發展水平居于前列,明顯好于其它地區的經濟發展狀況。而位于蘇北地區的宿城市因子得分綜合因綜合排名遷、淮安、連云港三個地區,其綜合園子得分的分值很低,子得分說明它們的經濟發展水平與蘇州、南京、無錫三個地區相南京 無錫 徐州】 常州 蘇州 “ 南通 一 連云港 淮安 】鹽城 揚州一 鎮江一 泰州一 宿遷一 因子分析要求原始變量之間有比較強的相關性,如果原始變量
15、之間不存在較強的相關關系那么就無法從中綜合出共同特征的少數因子來。因此,在作因子分析時。需要對原始變量做相關分析。數據處理系統提供和檢驗來判斷變量是否適合做因子分析:檢比要落后很多,屬于經濟欠發達地區,其它地膩的經濟發展處于居中水平。參考文獻: , ,( ):, , ,葉其孝,沈永歡應用數學手冊(第版)北京:科學出版社,重點項目:江蘇區域經濟協調發展水平剝度與促進政策研究項目()。作者簡介:何建敏,東南大學經濟管理學院教授、博士生導師;賈萬教,東南大學經濟管理學院管理科學與工程碩士生。收稿日期:一主成分分析和因子分析在評價區域經濟發展水平中的應用作者:作者單位:刊名:英文刊名:年,卷(期):被引用次數:參考文獻(3條)賈萬敬,何建敏東南大學經濟管理學院現代管理科學MODERN MANAGEMENT SCIENCE2007(9)4次1.Jean Boivin.Serena Ng Are more data always better for factor analysis? 2006(132)2.Congde Lu.Chunmei Zhang.Taiyi Zhang.Wei Zhang Kernel based symmetrical principal componentanalysis for face 20063.葉其孝.沈永歡 應用數學手冊 2006引證文獻
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 情景模擬金融理財師考試試題及答案
- 2024項目管理考試綜合分析試題及答案
- 2024年項目管理考試應對策略試題及答案
- 2025年國際金融理財師考試知識架構與內容廣度試題及答案
- 明確路徑2024年福建事業單位考試試題及答案
- 項目管理需求變更控制技巧試題及答案
- 鐵路防護棚搭設施工方案
- 2024年微生物檢驗學前沿試題及答案
- 2025注冊會計師考試技巧與方法論試題及答案
- 2024年農藝師考試的科目覆蓋概要 知識面試題及答案
- 2024年山東交通技師學院招聘筆試真題
- 北京市豐臺區2022-2023學年高二下學期期中考試地理試題(含答案)
- 電信運營商客戶流失管理手冊
- 2025年-安徽省建筑安全員-C證考試(專職安全員)題庫附答案
- 老年患者營養護理
- 綠色金融產品創新與風險管理-全面剖析
- 電纜火災事故專項應急預案
- 山西省朔州市懷仁縣2025屆小學六年級第二學期小升初數學試卷含解析
- 東北三省三校2025屆高三下學期第二次聯合模擬考試物理試題及答案
- 2025年安徽物理中考模擬練習卷(含答案)
- 2025年山東省濟南市萊蕪區中考一模地理試卷(原卷版+解析版)
評論
0/150
提交評論