




版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
第六章多元統計分析初步一、多元正態分布的參數估計與檢驗二、判別分析三、主成分分析四、因子分析五、典型相關分析一、多元正態分布的參數估計與檢驗1、多元正態分布2、參數的估計3、參數的檢驗如果維隨機向量(隨機變量)1、多元正態分布定義(聯合)概率密度函數為則稱隨機向量為維正態隨機向量,其中稱為均值向量,為協方差矩陣(協差陣),且對于一般情形仍可定義多維正記為?!珣B隨機向量,當時,假設令多元正態分布的性質:〔1〕維正態分布由其均值向量和協方差陣唯一確定?!?〕對于任一維向量及階非負定矩陣,〔3〕設,是常數矩陣,~是維向量,~則必存在維正態隨機向量。~有前面的密度表示,而當時,的分布是退化的正態分布?!?〕為維正態隨機向量的充要條件為對任一維向量,是一維正態隨機變量?!?〕設為多維正態隨機向量,則與互不相關的充要條件是與相互獨立。注:假設,則稱與互不相關?!?〕設,~則的充要條件是存在矩陣使得其中。~證明充分性由性質3立得。下證必要性。由于是秩為的非負定陣,則必存在正交矩陣使得其中。令則有令則由性質3知,~且,~由上式可得假設記它是矩陣,即有〔7〕假設,~且,則~證明由可知是正定矩陣,所以存在且為對稱矩陣,這樣令則~且由性質3知的每個分量服從標準正態分布,且相互獨立,故分布的定義知~2、參數的估計在此給出多元正態分布的參數和的估計。為簡單計,僅考慮的情形。設是來自多元正態總體的簡單樣本,令——樣本均值向量—樣本離差陣定理18.1則是設是來自多元正態總體的簡單樣本,且,的極大似然估計,是的極大似然估計。定理18.2則是設是來自多元正態總體的簡單樣本,且,的一致最小方差無偏估計,是的一致最小方差無偏估計。3、均值的檢驗〔一〕協差陣時,均值的檢驗設是來自多元正態總體的簡單樣本,其中??紤]假設檢驗問題令則可以證明當成立時,即時,~而當不成立時,有偏大的趨勢。因此,對給定的顯著性水平,當時拒絕,否則接受,即拒絕域為〔二〕協差陣未知時,均值的檢驗設是來自多元正態總體的簡單樣本,其中未知。考慮假設檢驗問題令則可以證成立時,即時,~明當而當不成立時,有偏大的趨勢。因此,對給定的顯著性水平,當時拒絕,否則接受,即拒絕域為〔三〕兩個正態總體均值相等的檢驗設是來自多元正態總體的簡單樣本,考慮假設檢驗問題是來自多元正態總的簡單樣本,且兩個樣本相互獨立,協方差陣。根據協方差陣和未知分兩種情形:〔1〕檢驗統計量可以證明當成立時,即時,~而當不成立時,有偏大的趨勢。因此,對給定的顯著性水平,當時拒絕,否則接受,即拒絕域為〔2〕未知檢驗統計量可以證明當成立時,即時,其中是協方差陣的估計量?!敳怀闪r,有偏大的趨勢。因此,對給定的顯著性水平,拒絕域為二、判別分析1、距離判別2、Bayes判別3、Fisher判別1、距離判別定義18.1〔一〕馬氏距離設和是總體中抽取的樣品,稱的均值和協方差陣分別為和為與之間的馬氏距離,記為,即為與總體的馬氏距離,容易證明滿足距離的三條根本公里:稱〔1〕非負性:〔2〕自反性:且當且僅當時,〔3〕三角不等式:對任意三個點及有〔二〕兩個總體的判別設有兩個總體為和,對于給定的樣品需要判斷它來自哪個總體?判別的規則是:當時,判定;否則判定。定理18.1當參數及時,判別準則是:當時,判定;否則,判定,其中,兩個總體協方差陣相同的情形:證明因為令所以當時,有判定;否則判定由于函數是的線性函數,故稱為的線性判別函數,稱為判別系數。在實際應用中,參數及往往是未知的,此時需要根據收集到的樣本資料對參數作出估計,然后將其相應的估計值代入線性判別函數中。下面就給出參數的估計。設是來自總體的樣本,是來自總體的樣本,且兩樣本相互獨立,則樣本平均值分別是總體均值和的無偏估計。的估計為這樣的估計可取為其中故當參數均未知時,判別函數為其中判別系數為注:距離判別法沒有要求知道總體的分布。兩個總體協方差陣不等的情形:設兩個總體和的協方差陣為和,且所有的參數均,這時就直接用樣品到總體的馬氏距離來判別,即判別規則為當時,當時,其中當參數未知時,需用來自兩個總體的相互獨立的樣本來估計這些參數,即將這些估計值代入上述判別法即可進行判別。通常為了初略了解所建立的判別方法的誤判率,需進行回報判別,即對已給的兩個樣本逐個進行判別,可以計算出回報誤判率。假設回報的誤判率較大,則說明所建立的判別規則不適用,分析其原因,重新建立恰當的判別規則。注:回報的誤判率并不是錯判概率,一般情形下,前者比后者小,這種衡量標準僅供參考。〔三〕多個總體的判別設有個總體:其均值和協方差陣分別為及且所有的。當這些參數都時,計算假設存在某個使得成立,則判別。同樣地當總體的參數是未知的時,應先利用來自個總體的相互獨立的樣本給出所有未知參數的估計,再利用上述判別法進行判別。對同協方差陣的情形,可以由個樣本給出的估計具體判別過程不再贅述。2、Bayes判別〔一〕Bayes判別法的根本概念設有個總體,其概率密度分別為且是互不相同的。進一步假設個總體各自發生的概率為這個的概率稱為先驗概率,它可以由經驗給出,也可以由收集到的歷史資料確定。定義損失函數,表示將本來屬于的樣品錯判為屬于所造成的損失,規定顯然應有當然也可用矩陣表示,即其中或,由于一個判別規則實質上是就是對維空間劃分成個互不相交的局部,即滿足和故為了方便起見,可簡記一個的樣品判為屬于的〔錯判概率〕概率記為判別規則為那么將屬于即注意這里的積分是重積分。這樣在判別規則下,錯判來自總體的個這時表示正確判別的概率,即因此有體所造成的平均損失為其中表示損失矩陣的第行元素,而表示矩陣的第行元素。由于每個總體發生的概率為所以通過判別規則來進行判別所造成的總平均損失為Bayes方法的原理是尋求使平均損失到達最小的規則或一種劃分這種規則或劃分稱為Bayes判別法。并將〔二〕兩個總體的判別設有兩個總體其密度函數分兩個總體的先驗概率為損失函數矩陣為定理18.2別為則Bayes判別法具有如下形式在實際使用Bayes判別法時,并不需要求出集合而只要將需判別的樣品代入假設該不等式成立,則判定否則,判定如果總體分別服從協方差陣相同的正態分布則Bayes判別法有更簡便的形式,依定理形式給出如下。定理18.3設總體分別服從協方差陣相Bayes判別法同的正態分布且則當參數均時,具有如下形式其中注:從的表達式可知Bayes判別函數與距離判別函數完全相同,只是臨界值有所不同,領先驗概率,即任取一個樣品,它等可能地來自總體或,且錯判損失時,有這說明在種情況下Bayes判別與距離判別等價。其它情形下兩者并不等價。當參數均時,定理18.3中的Bayes判別法的所產生的錯判概率為其中在實際應用中,參數及往往是未知的,此時需要根據收集到的樣本資料對參數作出估計,然后將其相應的估計值代入線性判別函數中不再贅述。例子可參見P316?!踩扯鄠€總體的判別設有個總體,其概率密度分別為且各個總體出現的先驗概率為錯判造成的損失為假設為維空間的一個劃分,則在規則下,錯判的平均損失為如何尋找一個劃分,使到達最小呢?我們有如下的定理。定理18.4設有個總體,其概率密度分別為且各個總體出現的先驗概率為錯判造成的損失為則使到達最小的劃分為其中由定理所獲得的劃分稱為劃分的Bayes解。定理18.4給出了實際可行的具體判別方法。對給定的樣品,計算個錯判平均損失然后比較他們的大小,假設最小,則判定。推論18.1在定理18.4的條件下,假設(即錯判的損失均相同),則Bayes解為此推論說明當錯判損失相同時,Bayes解具有上述更簡單的形式。3、Fisher判別設有個總體:其均值和協方差陣分別為及任給一個樣品,考慮它的線性函數,則在來自的條件下有假設令其中判別函數中的系數的選取應使目標函數到達極大,此時極大值稱為判別效率。定理18.5設有個總體:其均值和協方差陣分別為及任給一個樣品,在下,使得正是矩陣的最大特征值所對應的特征到達最大的線性判別函數中的系數向量,其中是所有元素都是的矩陣。判別方法:對給定的樣品,計算假設存在使得成立,則判定。如果認為這種判別法還不很好的區分各個總體,還可以由的前個特征值所對應的特征向量建立個線性判別函數這樣就相當于把原來的個指標壓縮成個指標,再用這個指標,根據歐氏距離的大小來規定的范圍,即對維空間作劃分其中當樣品時,則判定。方法。所研究的問題是:設有某個維總體三、主成分分析主成分分析是一種將多個指標化為少數幾個指標以便揭示問題背后隱藏深層次原因的統計每個樣品都測得個指標,而這個指標往往互有影響。能否將這個指標綜合成很少幾個綜合性指標(或特征),要求這幾個綜合既能盡可能充分反映原來個指標的信息,且彼此間互不相關。〔一〕從個指標求主元的方法設為維隨機向量,那么如何將這個指標綜合成很少的幾個指標且要盡可能反映原來指標的作用,又彼此不相關呢?一個自然的方法是尋找指標線性組合(線性變換)。我們先來考慮第一個總合指標,令其中是待定的常向量。現在的任務是選取適當的使得最大限度地反映原來指標的作用,這就相當于要求要有盡可能大的方差,即選取使得盡可能地大。說明是的無界函數。然而不能通過加大向量的長度使的方差變因為對任意的常數,有因此如果對不加大,即只要變長倍,相應的方差就擴大倍,也限制,問題就會變得毫無意義。一個自然的限制是令即要求是單位向量。從而問題變為:在的條件下,求使到達最大的。定理19.1設總體的均值和協方差陣分別為是總體的個指標,令其中,則使得的方差和到達最大的正好是矩陣的最大特征根所對應的特征向量。證明用Lagrange乘數法來證明。令則有令可得這樣就有由于根據克萊姆法則知,上述齊次線性方程有非零解的充要條件是系數行列式為零,即這說明是矩陣的特征根,且由可知是對應于特征根的特征向量。又由可知欲使的方差最大,只要取為的最大特征根即可,這樣就是對應的單位特征向量。由定理19.1可知,第一個綜合指標為其中是的對應于矩陣最大特征值的單位特征向量,稱為第一主成分(或第一主元)。假設協方差矩陣即是非負定的,由矩陣論知它有個非負的特征根,不妨設為且是對應的個特征向量。自然應為的第二大特征根所對應的單位特征向量,并稱為第二主成分。類似地,第二個綜合指標可以取為重復以上過程,可得的第個綜合指標稱為的第個主成分??傊?,我們可得到個主成分且其中是協方差陣的非零特征根并有而是對應的單位特征向量。假設用矩陣可表示如下其中且即矩陣是行正交矩陣。因此,所謂的主成分分析也可以看作是對原來的個指標進行了一次正交變換而得到個互不相關的綜合指標,即主成分這樣關于尋找總體的綜合指標——主成分的問題就轉化為求的協方差矩陣的特征值和標準正交特征向量的問題,歸納為如下幾個步驟:1.求的協方差陣的特征值,記為2.求對應的單位特征向量且要求正交。3.獲得第個主成分注:假設,則可得到的個主成分;當
有重特征值時,主成分不唯一。實際應用時到底應取多少個主成分作為分析問題的綜合指標的問題留在后面討論。在實際應用時,經常會遇到個指標的量綱不盡相同或取值彼此差異很大的問題,處理的一般方法是先將各指標進行標準化,即其中的協方差陣為但應注意這時即為相關矩陣其中因此求的主成分就是求的特征值和相應的單位特征向量,然后可得的分量的線性組合,即為所求的主成分。協方差陣和相關矩陣往往是未知的。這時在實際問題中,所研究的總體的均值需對總體進行抽樣,設樣本為取和的估計分別為——樣本均值〔二〕樣本主成分——樣本相關矩陣設的特征值為對應的單位特征向量為則稱為的第個樣本主成分。——樣本協方差陣同樣地,假設記的特征值為對應的單位特征向量為則稱為標準化變量的第個樣本主成分,其中對于樣本可以得到相應的主成分的樣本為了區別起見,將這小節的主成分統稱為樣本主成分;而上一小節的主成分統稱為總體主成分。〔二〕奉獻率和主成分的解釋構造綜合指標的目的是想用盡可能少的主成分來代替原有的個指標,且能對原始資料所具有的意義做出合理的解釋。那么到底應該選擇多少主成分才合理呢?下面就來討論總體主成分個數的選取問題,對樣本主成分也有類似的分析。設維總體的協方差陣為的第個主成分為由于這些主成分時互不相關的,因此有這說明的“總方差〞(即個分量的方差之和)等于個互不相關的隨機變量的方差之和,其中具有最大的方差,次之且有方差具有最小方差這樣主成分依次集中了各分量的變化的主要局部,第一主成分的方差最大,即是以變化最大的方向向量為系數所得到的線性函數作為比值說明了方差在“全部方差〞中所占的比重,顯然這個比值越大,說明這個變量“綜合〞原始資料的能力越強。通常稱這個比值為第一主成分的奉獻率。類似地稱為第個主成分的奉獻率。而稱為前個主成分的累計奉獻率。這就是說,奉獻率約達,則對應的主成分反映的能力就越強,反之則弱。因此,在實用常常略去那些奉獻率小的主成分。經驗指出:一般只要前個主成分的累計奉獻率超過85%就足夠了。這樣就可以用前個不相關的主成分的變化來刻畫的個相關分量的變化,即就是說可以用低維指標來反映高維指標的變化特性。例子參見P340.例某還海灣地區生物和地理環境之間的關系分析,在某海灣地區設置了274塊地,調查了8個環境變量和7個物種。環境變量的選擇是根據預備調查資料分析而確定的,變量名稱和物種名稱如表所示。由于量綱不同,現將它們進行標準化。環境因子(%)平均標準差物種平均(個/m2)標準差>250μm顆粒1.214.479Macomabalthica23255996125-250顆粒20.3123.27Tellinatenuis49.254462.5-125顆粒53.6721.36Hydrobiaulvae374.21014<62.5顆粒24.7420.77Corophiumvolutator540.51180燃燒損失1.5040.555Nereisdiversicolor63.5116Ca2.4010.704Arenicolamarina16.726P0.0280.056Nephthyshomergii4.9417N0.0130.0093某海灣地區環境與物種關系調查因子表四、因子分析因子分析法是用盡可能少的不可觀測的所謂的“公共因子〞的線性函數與特定因子之和來描述原來觀測的每一分量。其目的是盡可能合理地解釋存在于原始變量之間的相關性,且簡化變量的維數與結構。〔一〕因子模型模型稱為因子模型,其中假設1.是可觀測的向量,且均值協方差陣等于其相關矩陣2.是不可觀測的向量,其均值協方差陣是3.與相互獨立,且的協方差陣為對角矩陣用矩陣可將因子模型表示為其中滿足前面的三個假設條件,是矩陣,即模型中叫做公共因子,它們是在各個原變量的表達式中都共同出現的因子,是相互獨立的不可觀測的理論變量。叫做特殊因子,是原單一變量(各分量)所特有因子,各特殊因子之間以及特殊因子與公共因子之間都是相互獨立的。矩陣的元素叫做因子載荷,當的絕對值大時()說明與的相依程度大,或說公共因子對于的載荷量大,因此稱為公共因子載荷量,簡稱因子載荷,而矩陣稱為因子載荷矩陣。所謂因子分析,就是如何從一組資料出發,分析出公共因子與特殊因子來,并求出相應的〔二〕因子載荷矩陣的統計意義載荷矩陣,最后解釋各個公共因子的含義。1.因子載荷的統計意義因為且因此既是與協方差,又是它們的相關系數,即就是說是用來度量可用線性組合表示的程度,這樣稱因子載荷叫做權,表示與的依賴程度。2.變量共同度的統計意義稱因子載荷矩陣中各行的平方和為變量的共同度。由于即上式說明變量的方差有兩局部組成:其一是它是全部公共因子對于變量的總方差所作出的奉獻;其二是它是變量的特殊因子所產生的方差,僅與變量的本身變化有關,而與公共因子無關,常稱為剩余方差。3.公共因子的方差奉獻統計意義將載荷矩陣的各列元素平方和稱為公共因子對的奉獻?!捕骋蜃虞d荷矩陣得求法五、典型相關分析典型相關分析是一種研究兩個隨機向量的相關關系的統計方法。類似于主成分分析,它是將兩個隨機向量的相關變為兩個新隨機變量之間的相關來進行討論,同時又盡可能保存原變量的信息,即就是分別對兩個隨機向量構造其分量的線性組合,并使兩個線性組合所形成為典型相關,形成的兩個新變量為典型變量。進而還可
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 上海對外經貿大學《小學課程與教學研究》2023-2024學年第二學期期末試卷
- 2025年數字營銷基礎知識考試題及答案
- 2025年藥物經濟學考試試卷及答案
- 2025年圖書情報專業考研試題及答案
- 四川省遂寧市2025年初三1月月考物理試題試卷含解析
- 麗江文化旅游學院《排水管網系統》2023-2024學年第二學期期末試卷
- 無錫科技職業學院《單片機與接口技術》2023-2024學年第二學期期末試卷
- 天津市津南區市級名校2025屆初三中考沖刺第二次考試生物試題試卷含解析
- 內蒙古烏蘭察布市重點達標名校2025年初三第一次調研測化學試題含解析
- 高清影視后期特效渲染農場租賃合同模板
- 電力增容項目施工組織設計
- 2024年河北省中職高考對口升學考試語文試卷真題(打印版)
- 職業衛生技術服務機構檢測人員考試真題題庫
- DB35T 2212-2024消防遠程監控系統技術要求
- 超市保證食品安全的規章制度
- 微風發電審批流程詳解
- 【課件】人居與環境-詩意的棲居+課件高中美術人美版(2019)+必修+美術鑒賞
- 抖音本地生活商家直播培訓
- 6.3基層群眾自治制度 說課課件高中政治統編版必修三政治與法治
- 2023北京順義區招錄鄉村振興協理員及考察筆試歷年典型考題及考點剖析附答案帶詳解
- 傳統文化醒獅模板
評論
0/150
提交評論