同濟大學(xué)多元統(tǒng)計學(xué)復(fù)習(xí)總概要_第1頁
同濟大學(xué)多元統(tǒng)計學(xué)復(fù)習(xí)總概要_第2頁
同濟大學(xué)多元統(tǒng)計學(xué)復(fù)習(xí)總概要_第3頁
同濟大學(xué)多元統(tǒng)計學(xué)復(fù)習(xí)總概要_第4頁
同濟大學(xué)多元統(tǒng)計學(xué)復(fù)習(xí)總概要_第5頁
已閱讀5頁,還剩6頁未讀 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認(rèn)領(lǐng)

文檔簡介

1、多元統(tǒng)計復(fù)習(xí)概要 1考試范圍 本次考試共分作9個考點,其中有4個考點:抽樣分布、方差分析、卡方檢 驗以及回歸分析是老師課件上的內(nèi)容,多元正態(tài)分布、均值向量、協(xié)方差矩陣、 聚類分析、主成分分析以及因子分析5個考點均為書本上的內(nèi)容。看上去內(nèi)容很 多,實質(zhì)上除了最后兩個考點計算涉及到矩陣和行列式的運算外,其他的都基本 只是將數(shù)值代入公式進行計算,掌握其原理就行了。 2題型 A卷:1道簡答題,7道計算題 B卷:3道簡答題,5道計算題 根據(jù)本校生透露,同濟考試一般來說都采用A卷 3預(yù)備知識 數(shù)理統(tǒng)計: (1) 假設(shè)檢驗:Z檢驗、t檢驗都可以針對均值的檢驗,卡方(x2)檢驗是針 對方差的檢驗,Z檢驗是針對

2、樣本比例的檢驗。 (2) 點佔計以及區(qū)間佔計:與參數(shù)的假設(shè)檢驗是一個問題的兩個方面。 線性代數(shù): 矩陣的基本運算法則 矩陣的相關(guān)性質(zhì),如(正交矩陣、對稱矩陣、逆矩陣、相似矩陣等性 (1) (2) 質(zhì)) 行列式的基本運算法則及基本變換 齊次方程的求解方法 (3) (4) H 4考試內(nèi)容: lx抽樣分布 a)比例的區(qū)間估計、精度、樣本容量的確定 說明:1)比例的區(qū)間佔計。這是本科學(xué)的數(shù)理統(tǒng)計的內(nèi)容,有時間的同學(xué)可以 對照任一本數(shù)理統(tǒng)計的書中“參數(shù)檢驗”章節(jié)進行學(xué)習(xí),區(qū)間估計與單總體的參 數(shù)檢驗其實是一個問題的兩個方面,前者是以一定的把握(如95%)估計理想的 總體參數(shù)(未知)存在于以我們所得的樣本

3、參數(shù)(如平均值、方差、比例)什么 樣的允許誤差范圍內(nèi);后者則是已知理想的總體參數(shù),以一定的把握檢驗所得的 樣本參數(shù)是否在此把握對應(yīng)的誤差范H內(nèi)。 2)精度。即d,佔計區(qū)間的誤差大小 n. 3)樣本容量。即n,即需要抽樣的個數(shù),越大越能達(dá)到精度的要求。 公式:d=ZaJp其中,Z為標(biāo)準(zhǔn)正態(tài)分布的分位點,P為 樣本比例,n為樣本容量,d為誤差大小 例題:“抽樣分布和參數(shù)估計”課件p6061頁、p70 2、多元正態(tài)分布 a) b) c) 說明: 數(shù)字特征、性質(zhì) 馬氏距離、歐氏距離 均值向量和協(xié)方差陣的估計 a)因為隨機抽樣的樣本是隨機的,只能山不同的統(tǒng)il數(shù)字表示,所以我們 可用統(tǒng)計的參數(shù)來代表所有

4、的統(tǒng)計樣本,稱作數(shù)字特征。一般來說,有三個參數(shù) 最重要,平均值、方差以及樣本比例。從概率論的理想角度來說,對應(yīng)分別就是 均值、方差、總體比例。樣本向量指的是有許多個變量的樣本,于是就成為了向 量。對應(yīng)這個向量X,于是它的數(shù)字特征也成為了向量,分別對應(yīng)為均值向量、 協(xié)方差矩陣(無論及樣本比例向量了)。性質(zhì)是不必死記的,考試也不會直接考, 但可通過概率論的基礎(chǔ)知識類比得出(參看書本P4P5)。 b)歐氏距離就是n維空間里的距離,沒有考慮到統(tǒng)計樣本的概率分布悄況, 馬氏距離相當(dāng)于是空間距離與概率單位距離的比值。不理解不要緊,直接代入公 式計算就行了。但在這里還要記清楚二元正態(tài)方差的逆矩陣表達(dá)式以及矩

5、陣的相 關(guān)運算。 C)對應(yīng)一元統(tǒng)計的參數(shù)估計,對于均值向量用平均值的矩陣估計,對于協(xié) 方差均值則用離差陣估計,不過貌似都不考 公式:馬氏距離p9:正態(tài)分布的協(xié)方差逆矩陣pH 例題:課本p63 3、均值向量和協(xié)方差陣的檢驗 說明:其實原理與一元參數(shù)檢驗的方法是一致的,只是所用到的檢驗函數(shù)不一樣 (如t檢驗變成了 T檢驗)。但考試應(yīng)該只考p26的均值檢驗步驟。 4、方差分析1 a) b) c) 說明: 方差分析的u的、原理 單因素方差分析表 雙因素方差分析表 a)本章節(jié)十分重要,是對那些具有多種影響水平的因素對實際試驗的影 響,簡而言之,前面的章節(jié)著眼與對單個正態(tài)總體的數(shù)字特征的研究;而本章節(jié) 則

6、涉及到因變量以及統(tǒng)計變量(即具有不同水平的W素)之間的關(guān)系,確定因素 變量對因變量的影響顯著性。但是,方差分析并不能得出因變量與自變量的具體 線性關(guān)系,只能基于對統(tǒng)計數(shù)總偏差平方和的分解而進行方差分析,進而確定 其對試驗影響的顯著性。而回歸分析則補充了單純的方差分析所帶來的缺陷,能 夠得出具體的回歸方程。因此,有些教材J概率論與數(shù)理統(tǒng)計,劉次華,高等敎 育出版社、將方差分析與回歸分析合在一起作為一個章節(jié)。 b)單因素分析是指僅對一種影響因素的影響顯著性進行分析,U標(biāo)是為了 清楚到底試驗的總體偏差是山于不同水平效應(yīng)差異(組間平均和)引起的還是曲 隨機誤差(組內(nèi)平均和)引起的,于是我們將兩者相除得

7、出F值,看F值是否 能通過F檢驗,如果能則說明該因素對試驗影響十分顯著。 C)雙因素分析與單因素分析的原理是一樣的,只是多了一個因素,公式 上有所調(diào)整。而考慮到因素與因素之間的交互作用的雙因素分析是我們的考試內(nèi) 容。的確,在這個分析里,因素與因素之間的交互作用是最值得我們注意的地方, 但是課件上已經(jīng)沒有將這種交互作用的量化公式給出,證明這題的計算過程在考 試中是不必考的。對統(tǒng)計學(xué)有興趣的同學(xué)可以隨便借一本統(tǒng)計學(xué)的教材看交互作 用效應(yīng)差異是如何用統(tǒng)計數(shù)據(jù)表示的(統(tǒng)計學(xué),賈俊平,清華大學(xué)出版社,p270 但是,我們起碼應(yīng)該將方差分析表中各個字母代表的含義記住,分別是a、b、n; 以及記住自山度和F

8、值的計算公式。 呢H 公式或表格: 來源 平方和 iMrti 度 均方和 A Sa a- /(41) B Sb b-i Sb/a AyzB SaxB (41)(01) 1)3-1) 誤差 I ab(n-1) Se /abn-1) 總和 St abn-1 s/a-i) S/agV) 彳/如一1) SgJ fD 1) 孚/a如一D 其中,a為A因素的樣本的影響水平,b為B因素的樣本的影響水平,n為 每個交互作用的試驗結(jié)果的樣本容量 例題:“方差分析”課件:p3538 5v回歸分析1 a) b) c) d) e) f) 回歸分析的主要內(nèi)容和分析步驟 一元部分: 回歸方程的顯著性檢驗、方差分析表 預(yù)測

9、區(qū)間的近似計算、精度控制、 控制:以案例1為例。 曲線回歸的分析步驟、線性化 回歸方程的標(biāo)準(zhǔn)誤差 回歸分析是統(tǒng)訃學(xué)里三大分析之首 (主成分分析、判別分析),因為既簡 因為大家都學(xué)了這么久了。B0, 0 1 說明: 單乂實用。過程和原理我就不必多說了, 是不必我們手算的。只是增加了方程的檢驗、預(yù)測和控制,也是考試的重點所在。 C)方程的顯著性檢驗其實就是上一章單因素分析的一個特例,其中參數(shù)的個 數(shù)就是因素的水平個數(shù)。此時,我們可以注意到9對于一元回歸分析:方差分析 二 11 表中對應(yīng)3=2 (對應(yīng)兩個參數(shù)00, P 1);對于多元回歸分析,a=p+l, P為解釋 變量的個數(shù)。同樣地,我們需要知道

10、方差分析表的各項指標(biāo)需要我們知道是怎么 得來的。 d)方程的預(yù)測區(qū)間估計比樣本的區(qū)間估計要來的復(fù)雜,有比較多繁瑣的證明, 所以同學(xué)們只要記住公式就行了。在運用公式的時候,記得所查t函數(shù)的自山度 為N-2, 乂因為我們所要做的雙邊區(qū)間估汁(即d),所以用到對應(yīng)的分位點為 0/2.這在我們査表時是需要注意:到的。至于Se ,即我們所說的殘差平方和,是很 容易通過統(tǒng)計數(shù)據(jù)計算出來的(見“一元回歸”課件p21) e)預(yù)測與控制是回歸分析里的同一個問題的兩個方面。前者是已知解釋變量 求因變量的區(qū)間;后者是預(yù)設(shè)了因變量的區(qū)間反求解釋變量的控制區(qū)間。控制的 計算方法是建立在區(qū)間預(yù)測的基礎(chǔ)上的(此時假定每一點

11、的區(qū)間估計值都是常量 d),然后將預(yù)設(shè)W變量y代入控制的不等式來求X。我們需要注意的是分位點選 取問題以及不等式的建立問題,當(dāng)雙側(cè)控制需要用Z檢驗的1/2分位點,當(dāng)單側(cè) 控制是用單側(cè)分位點;建立控制不等式時,y的可能最小值(y-d)應(yīng)大于控制值 下界;最大值(y+d)應(yīng)小于控制值上界。 f)考試基本不考,大家注重曲線回歸的分析步驟和線性化的方法即可。 公式或表格: 1、方程檢驗的方差分析表(一元回歸分析) ms 尸匕匕 fil 耳二 鼻 1 TVS Sr Se/(N-2) $ yvi 注:多元回歸的將自由度1改作P,N2改作N-P-1 2、一元回歸的區(qū)間預(yù)測以及控制: dZadSE/(N- 注

12、:Se為殘差平方和,N為樣本容量(取的點個數(shù)),Z為標(biāo)準(zhǔn)正態(tài)分布的分位點值,雙側(cè) 控制時用1/2分位點0/2,單側(cè)控制時則改用單側(cè)分位點a。 例題:書本:P7173,老師所給的K聚類例題 7、卡方檢驗 a) b) c) d) 總體分布的卡方檢驗、思想原理 兩個比例差異的檢驗 獨立性檢驗 兩個相關(guān)樣本比例差異檢驗 a)在以往我們學(xué)過的但總體正態(tài)分布的比例檢驗當(dāng)中,對比例的檢驗用 說明: 到的還是Z檢驗,如今從另一個角度出發(fā),針對多個正態(tài)總體的比例進行卡方 檢驗,不僅僅大大降低了計算強度,還能夠?qū)哂卸嘀笜?biāo)的正態(tài)主體進行檢驗, 其參數(shù)檢驗的范W可以說是大大擴展了。 b)在復(fù)習(xí)總體間的比例差異檢驗的

13、時候,不妨可以對比一下這個與方差 分析的差別(形式相似但實質(zhì)差異很大),在兩個總體的比例檢驗中,其實只有 一個因子(酒店),每個存在兩個水平(酒店1和2),但是這兩個水平是獨立的, 其和是一個常數(shù)ni (即樣本i的容fi),我們的研究對象是在每個水平下的結(jié)果 (成功或失敗)。而且,它并非如方差分析那樣是分析樣本的具體指標(biāo)值,而是 分析樣本的頻數(shù)。有了這樣的類比之后,可能對兩種統(tǒng)計分析方法都會有比較清 楚的理解。 C)相較于比例差異檢驗,獨立性檢驗就是多引入了一個因子(例題中是 不入住的理111),而且每個因子都有2個或2個以上的水平(酒店n),我們研究 的對象是在不同因子的不同水平下的頻數(shù)大小

14、,從而分析這兩種因子是否獨立。 還得注意卡方檢驗函數(shù)的自山度為(a-1) (b-1), a、b為兩個因子的水平多少。 d)因為引入一個條件,這個條件使得原來的一個的因子(酒店)變作了兩 個(改革前的酒店和改革后的酒店),并且這兩個因子(即樣本)存在相關(guān)關(guān)系, 如今的研究U的就集中在了二者之間的差異性上。還有另一個區(qū)別就是最后的檢 驗用到的方法是Z檢驗,在通過顯著性檢驗后,我們還可以通過比較樣本比例 得出樣本比例的變化趨勢。 公式:1、兩個比例差異檢驗: 桝11 火7小$出72、, 注:其中fo為歹轡表中特定單元的觀測頻數(shù),fe為列聯(lián)表中特定單元的期 望頻數(shù)。=. ni為第i個因子的樣本容量,

15、_ =召+ X2 =蘭 + Z?2 Z? 即為比例估計值 2、獨立性檢驗 ;譏護八尸山皆X瞬容量 行總計 SXX n 行總計X列總計 其他同比例差異檢驗,只是對于每一個單元格來說,都有各自不一樣的期 望頻數(shù)。 3、相關(guān)樣本的比例差異檢驗 條住g)2 是 Ait 是 A B A-B 否 C D C*D 總計 aY B-D McNEMAR拔嘶 22列$賽 0 O 剛樣本比例是 上三為對條件1艮應(yīng)為是的比例, /,匕1為對條件2反應(yīng)為昱的比例, 8 n 為此,定義統(tǒng)計S 檢驗此統(tǒng)計量Z能否通過Z檢驗,能通過則說明兩個樣本存在顯著差異。 例題:“卡方檢驗與非參數(shù)檢驗”課件pM17: P25-29; P

16、3334 8、主成分分析1 e) 思想、累計貢獻率、信息提取率 f)計算過程、例題 9、因子分析1 a) b) c) 說明: 因子分析模型 各個符號(阿、hi2、gj2)的統(tǒng)計學(xué)意義 利用主成分法尋找因子分析模型、計算 這兩章聯(lián)系的太緊密了,必須合起來講。 1)這是本次考試當(dāng)中技術(shù)含量比較拓的章節(jié),詳細(xì)原理什么的我就直接略 去了,因為說起來乂一大通了,大家容易煩。簡單來說,主成分分析就是用兒個 X的線性組合來表示幾個Y,因子分析則用兒個X的線性組合來表示幾個Y。 詢者是為了能將指標(biāo)減少到兒個(即方差的重新分配);后者則是為了能夠找到指 標(biāo)之間的共性(同樣是方差的重新分配)。共同點是同樣用方差來

17、表示指標(biāo)的信 息量,原始方差損失越少代表信息損失越少。課件上說,因子分析比主成分分析 更加有實際的意義,這個問題可以留待大家去挖掘。 2)概念說明: 累計貢獻率:每個Yi特征值通過排序所加起來占總方差的百分比(可以證 明Yi的總方差等于Xi的總方差),表示從詢兒個主成分中提取總信息的白分比。 信息提取率:每個主成分對Xi貢獻的方差與Xi總方差的比值,表示前兒個 主成分提取了某個變量的信息的百分比 aij: Xi與Fj之間的協(xié)方差。若Xi為各分量已標(biāo)準(zhǔn)化了的隨機變量,貝呃ij 為Xi與Fj之間的相關(guān)系數(shù) hi?:反映了公共因子對Xi的影響,可以看成是公共因子對Xi的方差貢獻, 稱為共性方差(co

18、ininunality) gj-:反映了公共因子Fj對所有指標(biāo)變量XI、X2的影響,可視為公共因子 Fj對XI、X2的總方差貢獻。其實這兩個很容易分辨,慣例上i為行,j為列, 因此含有i的字母自然是表示對行的影響(每一行代表一個Xi);含有j的字 母表示對列的影響(每一列代表一個公共因子Fj) 3)計算過程:求解兩個分析模型的荷載矩陣的方法是一致的,但實際上主 成分法求解因子分析模型是有問題的(課本上有介紹,P198),有興趣的同學(xué)可 以自行研究一下。現(xiàn)在總結(jié)一下求解步驟: (1)利用協(xié)方差矩陣Z,列行列式方程求解特征值入。別看這個很簡單,但 如果這協(xié)方差陣變得一般化以后就必須解三次方程了。對于較為特殊的協(xié)方差 陣,如“主成分分析”課件P10的例題,可以通過行列式的行列變換先將行列式 化簡,再用行或列展開行列式,避免入三次方的出現(xiàn)。本例題的特殊性在于矩陣 11 對角線上存在兩個相同的數(shù)值,因此可以通過用第3行加上第2行(性質(zhì):行列 式值不變),使得2行1列的值為0,2行2列與3列的數(shù)值相同,然后乂可以用 第3列減去第2列,使得2行3列的值為0,此時我們就可以用第2行進行行列 式展開,避免了三次項的出現(xiàn)。不過這個只是個特例,對于一般的

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論