多元統計分析及R語言建模考試試卷_第1頁
多元統計分析及R語言建??荚囋嚲韄第2頁
多元統計分析及R語言建模考試試卷_第3頁
多元統計分析及R語言建模考試試卷_第4頁
多元統計分析及R語言建??荚囋嚲韄第5頁
已閱讀5頁,還剩9頁未讀, 繼續免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

1、多元統計分析及R語言建模考試試卷得分評閱人、簡答題(共5小題,每小題6分,共30分)教師填寫課程名稱:多元統計分析 授課教師姓名:王斌會考試時間:_ _年月日課程類別必修選修考試方式開卷閉卷試卷類別(A、B)A 共_8_頁考生填寫學院(校)專業班(級)姓名學號題號一一三四五六七八九十總分得分1.常用的多元統計分析方法有哪些(1)多元正態分布檢驗(2)多元方差-協方差分析(3)聚類分析(4)判別分析(5)主成分分析( 6)因子分析( 7)對應分析( 8)典型相關性分析( 9)定性數據建模分析( 10)路徑分析(又稱多重回歸、聯立方程)( 11)結構方程模型( 12)聯合分析( 13)多變量圖表示

2、法( 14)多維標度法2. 簡單相關分析、復相關分析和典型相關分析有何不同并舉例說明之。簡單相關分析:簡單相關分析是研究現象之間是否存在某種依存關系,并對具體有依存關系的現象探討其相關方向以及相關程度,是研究隨機變量之間的相關關系的一種統計方法。例如,以 X、Y分別記小學生的數學與語文成績,感 興趣的是二者的關系如何,而不在于由 X去預測Y。復相關分析;研究一個變量x0與另一組變量(x1,x2,,xn)之間的相關 程度。例如,職業聲望同時受到一系列因素(收入、文化、權力)的影響, 那么這一系列因素的總和與職業聲望之間的關系,就是復相關。復相關系數n的測定,可先求出x0對一組變量x1, x2,,

3、xn的回歸直線,再計算x0與用 回歸直線估計值憫之間的簡單直線回歸。 復相關系數為 n的取值范圍為00 - n <1o復相關系數值愈大,變量間的關系愈密切。典型相關分析就是利用綜合變量對之間的相關關系來反映兩組指標之間的整體相關性的多元統計分析方法。它的基本原理是:為了從總體上把握兩組指標之間的相關關系,分別在兩組變量中提取有代表性的兩個綜合變量U1和V1 (分別為兩個變量組中各變量的線性組合),利用這兩個綜合變量之間的相關關系來反映兩組指標之間的整體相關性。3. 試說明主成分分析和因子分析不同點和相同之處。主成分分析和因子分析的相同之處1. 都可以降維、分析多個變量的基本結構2. 因子

4、分析是主成分分析的進一步推廣。主成分分析可被視為一種固定效應的因子分析,是因子分析的特列3. 都是利用變量之間的相關性將它們進行分類4. 主成分分析中,各個主成分之間互不相關;因子分析中,公因子之間不相關、特殊因子之間不相關、公因子與特殊因子之間不相關主成分分析和因子分析的區別1、因子分析中是把變量表示成各因子的線性組合,而主成分分析中則是把主成分表示成個變量的線性組合。2、主成分分析的重點在于解釋個變量的總方差,而因子分析則把重點放在解釋各變量之間的協方差。3、主成分分析中不需要有假設(assumptions), 因子分析則需要一些假設。因子分析的假設包括:各個共同因子之間不相關,特殊因子(

5、specific factor )之間也不相關,共同因子和特殊因子之間也不相關。4、主成分分析中,當給定的協方差矩陣或者相關矩陣的特征值是唯一的時候,的主成分一般是獨特的;而因子分析中因子不是獨特的,可以旋轉得到不同的因子。 1、因子分析中是把變量表示成各因子的線性組合,而主成分分析中則是把主成分表示成個變量的線性組合。4.判別分析以及Fisher判別和Bayes判別的基本思想是什么判別分析:根據判別中的組數,可以分為兩組判別分析和多組判別分析;根據判別函數的形式,可以分為線性判別和非線性判別;根據判別式處理變量的方法不同,可以分為逐步判別、序貫判別等;根據判別標準不同,可以分為距離判別、Fi

6、sher判別、Bayes判別法等Fisher 判別法;通過將多維數據投影到某一方向上,使得投影之后類與類之間盡可能分開,然后再尋找合適的判別準則。Bayes 判別法:假設已知對象的先驗概率和“先驗條件概率”, 而后得到后驗概率 , 由后驗概率作出判別。5. 指出綜合評價中指標的標準化方法及其優缺點和有哪些綜合評價方法。標準化方法(1) 主成分分析法。主成分分析是多元統計分析的一個分支。是將其分量相關的原隨機向量,借助于一個正交變換,轉化成其分量不相關的新隨機向量,并以方差作為信息量的測度,對新隨機向量進行降維處理。再通過構造適當的價值函數,進一步做系統轉化。(2)數據包絡分析法。它是創建人以其

7、名字命名的DEA型一一CR模型。DEA去不僅可對同一類型各決策單元的相對有效性做出評價與排序,而且還可進一步分析各決策單元非DE有效的原因及其改進方向,從而為決策者提供重要的管理決策信息。(3) 模糊評價法。模糊評價法奠基于模糊數學。它不僅可對評價對象按綜合分值的大小進行評價和排序,而且還可根據模糊評價集上的值按最大隸屬度原則去評定對象的等級。綜合評價方法1、計分法2、綜合指數法3、 Topsis 法4、秩和比(RSR)法5、層次分析(AHP)法6、模糊評價方法7、多元統計分析方法8、灰色系統評價方法得分評閱人、證明題(共1小題,共20分),x = (Xi,設 y = aiXi+ 22X2+a

8、pXpa x, 其中 a = (abX2,,Xp),求主成分就是尋找X的線性函數a X使相應的方差達到最大, 即Var(a x) = a a達到最大,且a a =1,此處 為x的協方差陣。設£的特征根為Ai>A2>至4,> II。試證明下面性質:(1) y=U x, U U=I,這里U為x的協方差陣的特征向量(單位化的)組 成的正交陣。(2) y的各分量之間是互不相關的。(3) y的p個分量是按方差大小、由大到小排列的。(4) y的協方差陣為對角陣。pp(5) ii i ,這里 =(")p p i 1i 1(6)叼)=i,j = L2./J證明(1) (2

9、) (3):設H的特征向量為U= (u,比,Up),則U U=I,即U為一正交陣,且i Ui Ui=U U = U diag( 1, 2,L , p)U因止匕 a a= i a ur a = i (a Ui) ( a u0= i (a Ui)i 1i 1i 1P于是 a a i (a Ui)2= i(a U) ( aU)= 1a UU a=a a= 1i 1應取 a u1 時,U1U1= u 11 u產 1故y產u x就是第一主成分,其方差最大,Var(y1)= Var(u1 x )=1同理,Var(yi) = Var( Ui x ) = i另外,Cov(yi, yj)= Cov(ux, Uj

10、x)= Ui 5= Ui j 5= j u iUj=0,i ;因此,有上述可得變量x的主成分是以的特征向量為系數的線性組合,且主成分y之間互不相關,y的p個分量是按方差大小、由大到小排列的。性質(1) (2) (3)得證。性質(4)可有(1) (2) (3)得到。證明性質(5):由 U=(U1,U2,L ,Up),則有=U U于是 ii =tr ( )=tr(U U )= tr ( U U)= tr ( )= i i 1i 1證明性質(6): (6) a(y;.Xj) = y/XiUij/y/ajj ij = 1.2p由前面的證明得知,var(yi). i , var(xj); 令ej=(0,

11、L ,0,1,0,L ,0)為單位向量,則xj = e j x, yi = u i xCov(yi, xj),var(yi) . var(xj)所以,Cov(yi, Xj)= Cov(u x, e j x)= ej D(x) 5= ejuF i ej Ui= i uja(yi,xj)性質(6)得證得分評閱人三、運算題(共3小題,共20分)卜面左表為五個觀察值,兩個變量的數據,右表為用歐氏距離計算的距離矩陣,x1x21572713324655661 (10分)寫出用R語言分析的命令(1) 請將數據x1和x2寫入R向量中:x1=c(5,7,3,6,6);x1x2=c(7,1,2,5,6);x2(2

12、) 寫出繪制上面散點圖的R命令:x1=c(5,7,3,6,6);x1x2=c(7,1,2,5,6);x2plot(x1,x2)(3) 寫出繪制系統聚類圖的R命令:X=(x1,x2);XD=dist(X,diag=TRUE,upper=TRUE);Dhc=hclust(D,'complete');hcplot(hc)2 ( 5 分)(1) 寫出計算下面絕對距離陣的R命令:x1=c(5,7,3,6,6)x2=c(7,1,2,5,6)X=(x1,x2);XD=dist(X,diag=TRUE,upper=TRUE,p=1);D1 2 3 4 51 087322 805563 7506

13、74 356015 26710( 2)試在圖中標出這些距離3. ( 5 分)試用最長距離法對其進行聚類分析,畫出聚類圖,并按二類、三類進行分類第一步:計算距離陣X=(x1,x2);XD=dist(X,diag=TRUE,upper=TRUE);D第二步:進行系統聚類(最長距離法)hc=hclust(D,'complete');hc第三步:畫出聚類圖(1)按二類進行分類plot(hc); (hc,2)(2)按三類進行分類plot(hc); (hc,3)得分 評閱人四、案例分析題(共 2小題,共30分)我們知道,財政收入與國民生產總值和稅收等經濟指標有密切的依存關系。今收集了我國改

14、革開放以來財政收入(y :百億元),國民生產總值(x1:百億元), 稅收(x2:百億元),進出口貿易總額(x3:百億元),經濟活動人口(x4:百萬人)的 部分數據,見下表所示,分析財政收入和國民生產總值、稅收、進出口貿易總額、 經濟活動人口之間的關系。表1財政收入多因素分析數據yx1x2x3x41991199219931994199519961997199819992000200120022003200420052006200720081 .基本統計分析和R語言命令(15分)(1)如果將該數據存入到一個文本文件中,寫出將該文本數據讀入數據框 dat 中的 R命令:dat=("&quo

15、t;,header=T) (1 分)(2)如果將該數據拷貝到剪切板中,寫出將該數據讀入數據框dat中的R 命令:dat=("clipboard",header=T) (1 分)(3)寫出提取2000年數據的R命令:dat10,(1分)寫出提取稅收(x2)數據的R命令:dat,5(1分)寫出提取2001年至2008年經濟活動人口(x4)數據的R命令: dat11:18,5(1 分)(4)寫出計算財政收入統計量的R命令:summary(y) (2分)Min. 1st Qu. Median Mean 3rd Qu. Max.(5)寫出計算下面相關陣R命令:cor(dat) (2分

16、) y x1 x2 x3 x4 y x1 x2 x3 x4(6) 寫出計算下面回歸系數的R命令:fm=lm(yx1+x2+x3+x4,data=dat);fm (2分)Coefficients:(Intercept) x1 x2 x3 x4(7)寫出計算下面檢驗的R命令:summary(fm) (2 分) Coefficients:Estimate Std. Error t value Pr(>|t|)(Intercept)*x1x2< 2e-16 *x3x4*Signif. codes: 0Residual standard error: on 13 degrees of fre

17、edomMultiple R-squared: , Adjusted R-squared:F-statistic: +04 on 4 and 13 DF, p-value: <2e-16(8)寫出計算下面檢驗的R命令:fm1=lm(yx2+x4,data=dat);fm1summary(fm1)(2Coefficients:Estimate Std. Error t value Pr(>|t|)(Intercept)*x2< 2e-16 *2 . 在上面計算的基礎上進行進一步分析(15 分 )(1) 試問該回歸方程有無統計學意義,為什么(2 分 )由 F 檢驗結果可知,P 值

18、小于,于是在的顯著性水平上拒絕原假設,所以認為整個回歸方程有統計學意義。(2) 該模型的復相關系數、決定系數、調整復相關系數平方和剩余標準差(3分)復相關系數:決定系數:調整復相關系數平方:剩余標準差:(3)由于方程的P<,能否說明每個自變量都有顯著作用,為什么(3分)整個方程的統計學意義判定可以由F 檢驗得知,每一個自變量的顯著性應由t檢驗得到。故由t檢驗結果可知,偏回歸系數b2和b4的P值小于0, 可認為解釋變量稅收x2、經濟活動人口 x4,顯著;bl和b3的P值大于,不 能否定解釋變量系數為0 的假設, 可以認為國內生產總值x1 、 進出口貿易總額 x3 對財政收入沒有影響。(4) 本例是用何種方法做的回歸分析,你認為應該用什么方法為好(3 分 )本例是采用全部子集法,應該采用逐步回歸法(5)預測:試用該方程對來年的財政收入進行預測,已知:

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論