多元統計分析期末復習_第1頁
多元統計分析期末復習_第2頁
多元統計分析期末復習_第3頁
多元統計分析期末復習_第4頁
多元統計分析期末復習_第5頁
免費預覽已結束,剩余2頁可下載查看

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

1、第一章:多元統計分析研究的內容(5點) 1、簡化數據結構(主成分分析)2、分類與判別(聚類分析事判別分析)r3、變量間的保NP(抽)目關分析、多滅取妙析乂 4、多維數據的到阻斷N5、多元統計分諭戒論NM , * ) A A ' Ns(Ad,A三 A)、多維隨機變量的數字特征1、隨機向量的數字特征隨機向量X均值向量:隨機向量X X Y的協戈矩陣:當 X=Y 時 CoJ1)(X, Y) =D (X);當 Cov (X, Y) =0 ,稱 X, Y 不相關。隨機向量X與丫的相差系數矩陣:_Xn (X1,X2, ,Xp)'2、均值向量協方差矩陣的蛙質丫 汽 丫" 廠丫一(X(

2、i) X )( X(i) X )(1) .設X,"為隨機向量,ijjA, B ?常數矩陣E (Ax ) =AE (X);1Np(,一三)nE-GAXB1) =AE (X) B; 一Cov(AX,BY尸DXX尸ad(X)A : ;X! v XB '';'(2) .若X, Y獨立,則Cov(X,Y) = 0,反之不成立.X的協方差陣D(X)是對稱非負定矩陣。例2.見黑板三、多元正態分布的參數估計2、多元正態分布的性質.若特別地,當.若AX+ d ,則 E(X)=為對角陣時,,A為,D(X尸相互獨立。sxp階常數矩陣,d為s階向量,(3) .多元正態分布的邊緣分布是

3、正態分布,(4) .多元正態分布的不相關與獨立等價.例3 .見黑板.三、多元正態分布的參數估計即正態分布的線性函數仍是正態分布.反之不成立.為來自p元總體X的(簡單)樣本”的理解 -獨立同截面.(2)多元分布樣本的數字特征樣本均值向量=樣本離差陣S =EX多野&1,EX2, ,EX p) = (L,2,., I)'E ( Xs 一;品目關)(工EY )',V分別是估計的性質是的無偏估計;S第五章聚類分析:一、什么是聚類分析的最大似然估計;一.(X,Y) = (rj)pq,v分別是和的有效和一致估計;與S相互獨立;:聚類分析是根據“物以類聚”的道理,對樣品或指標進行分類的

4、一種多元統計分析方法。用于對事物類別不清楚,甚至事物總共可能有幾類都不能確定的情況下進行事物分類的場合。聚類方法:系統聚類法(直觀易懂)、動態聚類法(快)、有序聚類法(保序)Q-型聚類分析(樣品)R-型聚類分析(變量)變量按照測量它們的尺度不同,可以分為三類:間隔尺度、有序尺度、名義尺度。二、常用數據的變換方法 :中心化變換、標準化變換、極差正規化變換、對數變換(優缺點)1、中心化變換(平移變換):中心化變換是一種坐標軸平移處理方法,它是先求出每個變量的樣本平 均值,再從原始數據中減去該變量的均值,就得到中心化變換后的數據。不改變樣本間的相互位置,也不 改變變量間的相關性。2、標準化變換:首先

5、對每個變量進行中心化變換,然后用該變量的標準差進行標準化。經過標準化變換處理后,每個變量即數據矩陣中每列數據的平均值為0,方差為1,且也不再具有量綱,同樣也便于不同變量之間的比較。3、極差正規化變換(規格化變換):規格化變換是從數據矩陣的每一個變量中找出其最大值和最小 值,這兩者之差稱為極差,然后從每個變量的每個原始數據中減去該變量中的最小值,再除以極差。經過 規格化變換后,數據矩陣中每列即每個變量的最大數值為1,最小數值為 0,其余數據取值均在0-1之間;且變換后的數據都不再具有量綱,便于不同的變量之間的比較。4、對數變換:對數變換是將各個原始數據取對數,將原始數據的對數值作為變換后的新值。

6、它將具 有指數特征的數據結構變換為線性數據結構。三、樣品間相近性的度量研究樣品或變量叫親疏程度的鰲量指標有兩種距離,它是將每一個樣品看作p維空間的一個點,并用某種度量啰量點與點石(Ox必離,xiGfcx近的歸xP類,距離較遠的點應屬于不同的類;相似系數,性 質越接由信量甘耿)曾邸好炳竹奧枚( XJ普一 1,而彼此無關的變量或樣品它們的相似系數則越 接近于0,相偵的k聲類:不相而勺為后1類。“J樣品之間的聚類即 Q型聚類分析,則常用距離(統計量)來測度樣品之間的親疏程度;而變量之間的 聚類即R型聚類分析,常用相似系數(統計量)來測度變量之間的親疏程度。1、距離的算法:明氏距離蘭氏距離斜交空間距離

7、馬氏距離2、相似系數的算法:夾角余弦相似系數3、樣品分類和指標分類:對樣品分類常用距離,對指標分類常用相似系數4、明氏(Minkowski )距離的兩個缺點:明氏距離的值與各指標的量綱有關,而各指標計量單位的選擇 有一定的人為性和隨意性,各變量計量單位的不同不僅使此距離的實際意義難以說清,而且,任何一個變 量計量單位的改變都會使此距離的數值改變從而使該距離的數值依賴于各變量計量單位的選擇。明氏距 離的定義沒有考慮各個變量之間的相關性和重要性。實際上,明考夫斯基距離是把各個變量都同等看待, 將兩個樣品在各個變量上的離差簡單地進行了綜合.5、相似系數:通常所說相關系數,一般指變量間的相關系數,作為

8、刻劃樣品間的相似關系也可類似給出 定義,即第i個樣品與第j個樣品之間的相似系數定義為:實際上,就是兩個向量中心化后的夾角余弦6、距離和相似系數選擇的原則:(1)所選擇的親疏測度指標在實際應用中應有明確的意義。(2)親疏測度指標的選擇要綜合考慮已對樣本觀測數據實施了的變換方法和將要采用的聚類分析方法。(3)適當地考慮計算工作量的大小。練習:1 .聚類分析是建立一種分類方法,它將一批樣品或變量按照它們在性質上的進行科學的分類.2. Q型聚類法是按進行聚類,R型聚類法是按 進行聚類。3. Q型聚類統計量是 ,而R型聚類統計量通常 采用 o4. 在聚類分析中需要對原始數據進行無量綱化處理,以消除不同量

9、綱或數量級的影響,達到數據間可同度量的目的。常用的無量綱化方法有以下幾種:、O5. Q型聚類方法有 等。第六章判別分析:1 .四種判別方法:距離判別法、費歇判別法、貝葉斯判別法、逐步判別法。2 .貝葉斯Bayes判別法:距離判別方法簡單實用,但沒有考慮到每個總體出現的機會大小,即先驗概率, 沒有考慮到錯判的損失;Fisher判別法隨著總體個數的增加,建立的判別式也增加,計算量加大,如果考 慮各總體的重要性,問題會突出而簡單許多。既要考慮到各個總體出現的先驗概率,又要考慮到錯判造成的損失,Bayes判別就具有這些優點,其判別效果更加理想,應用也更廣泛。基本思想:總是假定對所研究的對象已有一定的認

10、識,常用先驗分布來認識它,然后,基于抽取的樣 本對先驗概率作修正,得到后驗概率,最后采用相應的判別準則(如誤判率最小準則,后驗概率最大準則 等)進行判別。Bayes判別法,對各類(總體)的分布有特定的要求,即已知先驗概率和分布密度函數。 4.各判別法之間的聯系:在正態等協方差陣及先驗概率相等的條件下貝葉斯判別與距離判別等價;不加權 的F i s h e r判別法等價于距離判別法練習:1.判別分析是要解決在研究對象已 的情況下,確定新的觀測數據屬于已知類別中哪一類 的多元統計方法。2 .用判別分析方法處理問題時,通常以 作為衡量新樣本點與各已知組別接近程度的指標。3 .進行判別分析時,通常指定一

11、種判別規則,用來判定新樣本的歸屬,常見的判別準則有 4 .在p維空間 Rp中,點與點之間的接近和疏遠尺度用 來衡量,最簡單的就是 或5 .類內樣本點接近,類間樣本點疏遠的性質,可以通過 與 的大小差異表現出來,而兩者的比值能把不同的類區別開來。這個比值越大,說明類與類間的差異越,分類效果越 o6 . Fisher判別法是找一個由 p個變量組成的 ,使得各自組內點的 盡可能接近,而不同組間點的簡答題:1 .判別分析的分類:距離判別法、費歇判別法、貝葉斯判別法、逐步判別法。2 .判別的基本思想:是根據已掌握的、歷史上若干樣本的p個指標數據及所屬類別的信息,總結出該事物分類的規律性,建立判別公式和判

12、即隹哈什明牌伊成泰胞唧隙D浮吸的2),判別未知類別的樣本 點所屬的類別。x e G2 若 D2(x,G1) A D2(x,G2)3 .簡述兩個總體的判別及判別準則:基本思路:(1)統計模型:設 G1,G2是兩個不同的 P維已知總體,x= (x1,,xp)T是一個待判樣品; (2)距離判別準則: (3)判別函數:4 .簡述Fisher判別法及具體判別步驟:Fisher判別的思想是投影,將k組p維數投影到某一個方向,使得他們的投影組與組之間盡可能的分開。5 .簡述逐步判別基本原理:逐步引入變量,每次把一個判別能力最強的變量引入,每引入一個新的變量,對老變量又逐個進行檢驗,如其判別能力因新變量的引入

13、而變得不顯著,應把它從判別式中剔除,最 終建立的判別函數中僅保留判別能力顯著的變量。6 .簡述BAYES判別分析與其它判別方法的優劣:(1)與距離判別的優劣比較:距離判別優于兩個總體情況下的判別,對兩個總體幾乎沒有任何要求,簡捷,實用,易懂;距離判別法在多個總體時,沒有考慮 各總體出現的概率,對各個變量的重要T一視同仁,難免產生誤判。Bayes判別法對的理論與方法嚴密而完善,對研究對象的信息利用充分,誤判率大大降低,但計算較復雜。(2)與B a y e s判別法的比較:B a y e s判別與F i s h e r判別的比較:對總體的分布要求不同;多個總體下,F i s h e r判別的 計算

14、量大,但均值向量共線性程度較好時,可以考慮用F i s h e r判別;各總體出現的重要性不同時應 使用是B a y e s判別。第七章、主成分分析1 .主成分分析就是設法將原來變量重新組合成一組新的相互無關的綜合變量來代替原來的變量,并盡可能 多地反映原來變量的信息。數學表現為: Var (Yj)最大;cov(Yi , Yj)=0 ;2 .主成分就是以協方差陣的特征向量為系數的線性組合,它們互不相關,其方差的特征根。 主成分的名次是按特征根取值大小的順序排列的。3 .主成分模型中各統計量的意義:1)貢獻率:第i個主成分的方差在全部方41所占比重X2,稱為陶率,反映了原來P個指標多大的信息,有

15、多大的綜合能力。.pp2)累積貢獻率:前 k個主成分共有多大的綜合能力,用這k個士/頹內差和在全部方差中所占比重來描述,稱為累積貢獻率。一例:設的現方差矩陣為解得特征根為,kP第一個主成分的置僦率為A 5.83/ (5.83+2.00+0.17 ) =72.875%,盡管第一個主成分的貢獻率并不小,但 i 1 i 11=5.832=2.00在本題中第一主成分不含第&5原始變量2掙信息5所以應該助6個主成分。4. 1)從協方差陣和相關系數矩陣出發計算主成分一般是不同的 2)主成分是原始變量的線性組合,故而起著原始變量的綜合作用3)對總體分布類型沒有特定要求。4)主成分個數的確定。5)主成

16、分用于系統評估。6)除主成分分析之外,還有主成分回歸和加權主成分分析。填空:1、對P元正態分布變量來說,找主成分的問題就是找P維空間中的橢球體的主軸問題。2、樣本主成分的總方差等于 o3、原始變量協方差矩陣的特征根的統計含義是 o4、主成分表達式的系數向量是協方差陣的特征向量。5、主成分分析就是通過適當的變量替換,使新變量成為原變量的線性組合,并尋求主成分 來分析事物的一種方法。第八章、因子分析1.什么是因子分析及基本思想多元數據常常包含大量的測量變量,有時這些變量是相互重疊,存在相關性。因子分析的目的就是從2 m 2實驗所得的數據樣本中概括和提取出較少量的關鍵因素,它們能反映和解釋所得的大量

17、觀測事實,從而建hi =£aj。j 1立最簡潔、最基本的概念系統,揭示出事物之間最本質的聯系。因子分析的基本思想是通過變量(或樣品)的相關系數矩陣內部結構的研究,找出能控制所有變量的少數幾個隨機變量去描述多個變量(或樣品)之間的相關關系。2 .主成分分析與因子分析的聯系與區別?相同之處:都是多元數據處理降維的統計方法;求解過程的出發點是一樣的; 不同之處:主成分分析是變量變換:原始變量的線性組合表示新的綜合變量,即主成分;而因子分析需要 構造因子模型:潛在的假想變量和隨機影響變量的線性組合表示原始變量;主成分的系數是唯一的;而因 子分析的載荷系數是不唯一的;3 .因子載荷aij的統計

18、意義:因子載荷aj是第i個變量與第j個公共因子的相關系數載荷矩陣中第i行,第j列的元素)反映了第 i個變量與第j個公共因子的相關重要性。絕對值越大,相關的密切程度越高。例題:假定某地固定資產投資率,通貨膨脹率,失業率 ,相關系數矩陣為試用主成分分析法求因子分析模型。特征根為:可取前兩個因子 F1和F2為公共因子,第一公因子F1物價就業因子,對 X的貢獻為1.55。第一公因子F2為投資因子,對 X的貢獻為0.85。共同度分別為 1, 0.706, 0.706o4 .為什么要旋轉因子:由于因子載荷陣是不惟一的,所以應該對因子載荷陣進行旋轉。目的是使因子載荷陣的結構簡化,使載荷矩陣每列或行的元素平方

19、值向0和1兩極分化。有三種主要的正交旋轉法:四次方最大法、方差最大法和等量最大法。5 .因子分析通常包括以下五個步驟:選擇分析的變量;計算所選原始變量的相關系數矩陣;提取公共因子;因子旋轉;計算因子得分。6.變量共同度的統計意義:變量的共同度是因子載荷矩陣的第i行的元素的平方和。記為公共因子,另一部分為特殊因子7.因子分析數學模型:X =AF +w填空:1.因子分析是把每個原始變量分解為兩部分因素,一部分是O2 .變量共同度是指因子載荷矩陣中變量所在行元素平方和。3 .公共因子方差與特殊因子方差之和為1 o4因子分析和主成分分析在求解過程中都是從出發簡答:1 .比較因子分析和主成分分析模型的關

20、系,說明它們的相似和不同之處2 .能否將因子旋轉的技術用于主成分分析,使主成分有更鮮明的實際背景:不能,用了就是因子分析,旋轉之后不叫主成分(這一句就行),公因子的方差不等于特征值,因此不能旋轉。3 .因子分析中為什么要進行因子旋轉?通過因子旋轉,可以使每個變量只在一個公共因子上有色V 的載荷,因此因子分析模型是適用的。4 .什么是因子得分?因子得分有何作用?在因子分析中,得出公共因子后,可以根據原始變量計算 出各個樣本(個體)在每個因子上的得分,稱為因子得分,因子得分可以有多種求解方法,計算出因子得 分后,可以把各個因子作為新的變量用于其他分析,也可以來進行綜合評價等。第九章、對應分析1 .

21、對應分析:也稱關聯分析、R-Q型因子分析,通過分析由定性變量構成的交互匯總表來揭示變量間聯系。可以揭示同一變量的各個類別之間的差異,以及不同變量各個類別之間的對應關系。對應分析的基本思想是將一個聯列表的行和列中各元素的比例結構以點的形式在較低維的空間中表示出來。它最大特點是 能把眾多的樣品和眾多的變量同時作到同一張圖解上,將樣品的大類及其屬性在圖上直觀而又明了地表示 出來,具有直觀性。2 .對應分析方法的優缺點:(1)定性變量劃分的類別越多,這種方法的優越性越明顯(2)揭示行變量類間與列變量類間的聯系(3)將類別的聯系直觀地表現在圖形中(4)不能用于相關關系的假設檢驗(5)維數有研究者自定(6)受極端值的影響第十章:Xi1 .研究兩組隨機變量之間的相關性用典型相關分析。典型相關分析就是分別構造各組變量的適當線性組合,將兩組變量的相關性轉化為兩個變量的相關性。數學表現為:最大;U和V分別來自兩組變量的線性組合。2 .課件P21頁例題。第十一章多重多元回歸分析一.回歸分析的功能及涵義:回歸分析是研究一個(或多個)因變量對于一個或多個其他變量(即自變量) 的依存關系,并用數學模型加以模擬,目的在于根據已知的或在多次重復抽樣中固定的解釋變量之值,估 計、預測因變量的總體平均值。二.回歸分析的研究思路和步驟:根據研究問題的

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論