多元統計分析簡答題_第1頁
多元統計分析簡答題_第2頁
多元統計分析簡答題_第3頁
多元統計分析簡答題_第4頁
多元統計分析簡答題_第5頁
已閱讀5頁,還剩13頁未讀 繼續免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

1、簡述多元統計分析中協差陣檢驗的步驟第一,提出待檢驗的假設H0和H1;第二,給出檢驗的統計量及其服從的分布;第三,給定檢驗水平,查統計量的分布表,確定相應的臨界值,從而得到否認域;第四,根據樣本觀測值計算出統計量的值,看是否落入否認域中,以便對待判假設做出決策〔拒絕或接受〕。協差陣的檢驗檢驗檢驗統計量2.針對一個總體均值向量的檢驗而言,在協差陣和未知的兩種情形下,如何分別構造的統計量?3.作多元線性回歸分析時,自變量與因變量之間的影響關系一定是線性形式的嗎?多元線性回歸分析中的線性關系是指什么變量之間存在線性關系?答:作多元線性回歸分析時,自變量與因變量之間的影響關系不一定是線性形式。當自變量與因變量是非線性關系時可以通過某種變量代換,將其變為線性關系,然后再做回歸分析。多元線性回歸分析的線性關系指的是隨機變量間的關系,因變量y與回歸系數βi間存在線性關系。多元線性回歸的條件是:〔1〕各自變量間不存在多重共線性;〔2〕各自變量與殘差獨立;〔3〕各殘差間相互獨立并服從正態分布;〔4〕Y與每一自變量X有線性關系。4.回歸分析的根本思想與步驟根本思想:所謂回歸分析,是在掌握大量觀察數據的根底上,利用數理統計方法建立因變量與自變量之間的回歸關系函數表達式〔稱回歸方程式〕。回歸分析中,當研究的因果關系只涉及因變量和一個自變量時,叫做一元回歸分析;當研究的因果關系涉及因變量和兩個或兩個以上自變量時,叫做多元回歸分析。此外,回歸分析中,又依據描述自變量與因變量之間因果關系的函數表達式是線性的還是非線性的,分為線性回歸分析和非線性回歸分析。通常線性回歸分析法是最根本的分析方法,遇到非線性回歸問題可以借助數學手段化為線性回歸問題處理。步驟:1〕確定回歸方程中的解釋變量和被解釋變量。2〕確定回歸模型

根據函數擬合方式,通過觀察散點圖確定應通過哪種數學模型來描述回歸線。如果被解釋變量和解釋變量之間存在線性關系,那么應進行線性回歸分析,建立線性回歸模型;如果被解釋變量和解釋變量之間存在非線性關系,那么應進行非線性回歸分析,建立非線性回歸模型。3〕建立回歸方程

根據收集到的樣本數據以及前步所確定的回歸模型,在一定的統計擬合準那么下估計出模型中的各個參數,得到一個確定的回歸方程。4〕對回歸方程進行各種檢驗

由于回歸方程是在樣本數據根底上得到的,回歸方程是否真實地反映了事物總體間的統計關系,以及回歸方程能否用于預測等都需要進行檢驗。5〕利用回歸方程進行預測5.多重共線性問題、不良后果、解決方法多重共線性是指線性回歸模型中的自變量之間由于存在精確相關關系或高度相關關系而使模型估計失真或難以估計準確。常見的是近似的多重共線性關系,即存在不全為0的p個常數C1,C2,…,Cp使得C1Xi1+C2Xi2+…+CpXip≈0,i=1,2,…n不良后果:模型存在完全的多重共線性,那么資料陣X的秩<p+1,從而無法得到回歸參數的估計量。對于近似多重共線性情況,雖有r(X)=p+1,但|XTX|≈0,從而矩陣〔XTX〕-1的主對角線上的元素很大,使得估計的參數向量的協方差陣的對角線上的元素也很大,導致普通最小二乘參數估計量并非有效。檢驗方法:方差擴大因子〔VIF〕法和特征根判定法方差擴大因子表達式為:VIFi=1/(1-Ri2),其中Ri為自變量xi對其余自變量作回歸分析的復相關系數。當VIFi很大時,說明自變量間存在多重共線性。解決方法:當發現自變量存在嚴重的多重共線性時,可以通過剔除一些不重要的自變量、增大樣本容量、對回歸系數做有偏估計〔如采用嶺回歸法、主成分法、偏最小二乘法等〕等方法來克服多重共線性。6.為什么要進行回歸方程的顯著性檢驗?答:對于任意給定的一組觀測數據(xi1,xi2,...,xip;yi),(i=1,2,...,n),我們都可以建立回歸方程。但實際問題很可能y與自變量x1,x2,...,xp之間根本不存在線性關系,這時建立起來的回歸方程的效果一定很差,即回歸值yi實際上不能擬合真實的值yi。即使整個回歸方程的效果是顯著的,在多元的情況下,是否每個變量都起著顯著的作用呢?因此還需要對各個回歸系數進行顯著性檢驗,對于回歸效果不顯著的自變量,我們可以從回歸方程中剔除,而只保存起重要作用的自變量,這樣可以使回歸方程更簡練。7.統計性的依據是什么?給出一個回歸方程如何做顯著性檢驗?統計性的依據是方差分析。對于多元線性回歸方程作顯著性檢驗就是要看自變量x1,x2,...xp從整體上對隨機變量y是否有明顯的影響,即檢驗假設H0:β1=β2=...=βp=0H1:至少有某個βi≠0,1<=i<=p如果H0被接受,那么說明y與x1,x2,...xp之間不存在線性關系,為了說明如何進行檢驗,我們首先要建立方差分析表。在進行顯著性檢驗中,我們可以用F統計量來檢驗回歸方程的顯著性,也可以用P值法做檢驗。F統計量是:F=MSR/MSE=[SSR/p]/[SSE/(n-p-1)]當H0為真時,F~F(p,n-p-1)。給定顯著性水平α,查F分布表得臨界值F1-α(p,n-p-1),計算F的觀測值,假設F0<=F1-α(p,n-p-1),那么接受H0,即認為在顯著性水平α之下,認為y與x1,x2,...xp之間線性關系不顯著。利用P值法做顯著性檢驗十分方便,這里的P值是P(F>F0),定顯著性水平α,假設p<α,那么拒絕H0,反之接受H0。回歸系數的顯著性檢驗回歸方程通過了顯著性檢驗并不意味著每個自變量xi都對y有顯著影響。而回歸系數的顯著性檢驗的目的就是從回歸方程中剔除那些對y的影響不顯著的自變量,從而建立一個較為有效的回歸方程。如果自變量xi對y無影響,那么在線性模型中,βi=0檢驗xi的影響是否顯著等價于檢驗假設H0:βi=0,H1:βi≠0對給定的顯著性水平α,當|ti|>tα/2(n-p-1)時,拒絕H0。反之,那么接受H0。數據的中心化和標準化目的:解決利用回歸方程分析實際問題時遇到的諸多自變量量綱不一致的問題。數據中心化處理的幾何意義:相當于將坐標原點移至樣本中心,而坐標系的平移并不改變直線的斜率,只改變了截距。通過對殘差進行分析,可以在一定程度上答復以下問題:1〕回歸函數線性假定的可行性;2〕誤差項的等方差假設的合理性;3〕誤差項獨立性假設的合理性;4〕誤差項是否符合正態分布;5〕觀測值中是否存在異常值;6〕是否在模型中遺漏了某些重要的自變量。8.標準化回歸方程與非標準化回歸方程有何不同?在怎樣的情況下需要將變量標準化?標準化回歸方程就是將自變量因變量都標準化后的方程。在spss輸出的回歸系數中有一列是標準化的回歸系數,由于都標準化了,因此標準化方程中沒有常數項了。對數據標準化,即將原始數據減去相應變量的均數后再除以該變量的標準差,計算得到的回歸方程稱為標準化回歸方程,相應的回歸系數為標準化回歸系數。一般情況下的回歸,并不必須標準化,直接回歸即可。在做主成分分析包括因子分析時,那么必須標準化。9.回歸分析和相關分析的區別和聯系相關分析和回歸分析都是對客觀事物數量依存關系的分析,均有一元和多元,線性與非線性之分,在應用中相互結合滲透,但仍有差異,主要是:〔1〕相關分析主要刻畫兩類變量間線性相關的密切程度,而回歸分析那么是揭示一個變量如何與其他變量相聯系,并可由回歸方程進行控制和預測〔2〕在相關分析中,變量y與x處于平等的地位,在回歸分析中,因變量y處于被解釋的特殊地位〔3〕在相關分析中所涉及的變量y與x完全是隨機變量;而在回歸分析中因變量y是隨機變量,自變量可以是隨機變量也可以是非隨機變量。一般來說,只有存在相關關系才可以進行回歸分析,相關程度越高,回歸分析的結果就越可靠。10.回歸方程的根本假定?〔1〕回歸函數的線性假設〔2〕誤差項的等方差假設〔3〕誤差項的獨立性假設〔4〕誤差項的正態分布假設11.運用回歸分析解決問題時,回歸變量的選擇理論依據的什么?選擇回歸變量時應注意哪些問題?〔1〕從擬合角度考慮,可以采用修正的復相關系數到達最大的準那么準那么1:修正的復相關系數Ra2到達最大。因為:Ra2=1-MSE/(SST/(n-1))從這個關系式容易看出,Ra2到達最大時,MSE到達最小。〔2〕從預測的角度考慮,可以采用預測平方和到達最小的準那么及Cp準那么準那么2:預測平方和PRESSp到達最小準那么3:〔Cp準那么〕〔3〕從極大似然估計角度考慮,可以采用赤池信息量化準那么〔AIC準那么〕準那么4:赤池信息量到達最小AIC=nln(SSEp)+2p選擇AIC值最小的回歸方程為最優回歸方程自變量的選擇問題可以看成是應該采用全模型還是選模型的問題全模型正確誤用選模型:全模型相應參數為有偏估計,選模型預測也是有偏的。選模型的參數估計和預測殘差以及均方差都有較小的方差。選模型正確誤用全模型,全模型參數估計和預測是有偏估計,而全模型預測值的方差和均方差大于選模型相應的方差。上述結論說明丟掉那些對應變量影響不大的,或雖有影響,但難于觀測的自變量是有利的。12.逐步回歸方法的根本思想與步驟根本思想:有進有出。具體做法是將變量一個一個引入,引入變量的條件是通過了偏F統計量的檢驗,同時,每引入一個新變量后,對已入選方程的老變量進行檢測,將經檢驗認為不顯著的變量剔除,此過程經過假設干步,直到既不能引入新變量又不能剔除老變量為止。根本步驟:〔1〕對于每個自變量xi(1≤i≤m),擬合m個一元線性回歸模型,假設Fi1(1)>FE,那么所選擇含有自變量xi1的回歸模型為當前模型,否那么,沒有變量引入模型,選擇過程結束,即認為所有自變量對y的影響均不顯著。〔2〕在第一步的根底上,再將其余的m-1個自變量分別參加此模型中,得到m-1個二元回歸方程,假設假設Fi1(2)>FE那么將自變量xi2引入模型,進一步考察xi2引入模型后,xi1對y的影響是否仍顯著,假設Fi1(2)≤FD,那么剔除xi。〔3〕在第二步的根底上再將其余的m-2個自變量分別參加此模型中,擬合各個模型并計算偏F統計量值,與FE比擬決定是否又新變量引入,如果有新的變量引入,還需要檢驗原模型中的老變量是否因為這個新變量的引入而不再顯著,那樣就應該被剔除。重復以上步驟,直到沒有新的變量進入模型,同時在模型中的老變量都不能被剔除,那么結束選擇過程。13.在作判別分析時,如何檢驗判別效果的優良性?當一個判別準那么提出以后,還要研究其優良性,即要考察誤判概率。一般使用以訓練樣本為根底的回代估計法與交叉確認估計法。〔1〕誤判率回代估計法回判過程中,用n12表示將本屬于G1的樣本誤判為G2的個數,n21表示將本屬于G2的樣本誤判為G1的個數,總的誤判個數是n12+n21,誤判率的回代估計為(n12+n21)/(n1+n2),但往往比真實的誤判率要小。〔2〕誤判率的交叉確認估計每次剔除訓練樣本中的一個樣本,利用其余容量為n1+n2-1個訓練樣本來建立判別準那么,再利用所建立的判別準那么對刪除的那個樣本作判別,對訓練樣本中的每個樣本做上述分析,以其誤判的比例作為誤判概率的估計。14、簡述費希爾判別法的根本思想。從k個總體中抽取具有p個指標的樣品觀測數據,借助方差分析的思想構造一個線性判別函數系數:確定的原那么是使得總體之間區別最大,而使每個總體內部的離差最小。將新樣品的p個指標值代入線性判別函數式中求出值,然后根據判別一定的規那么,就可以判別新的樣品屬于哪個總體。15.Fisher判別法的根本思想根本思想是投影。將k組m元數據投影到某一個方向,使得投影后組與組之間盡可能地分開,其中利用了一元差分的思想導出判別函數。這個函數可以是線性的,也可以是其他類型的函數。貝葉斯判別法的根本思想根本思想是假定對所研究是對象〔總體〕在抽樣前就有一定的認識,常用先驗概率分布來描述這種認識。然后基于抽取的樣本再對先驗概率做修正,得到后驗概率分布,再基于后驗概率分布做判別分析。16.簡述費歇爾準那么下兩類判別分析的根本思想。答:費歇爾的判別方法,其根本思想是把p個變量x1,x2,...,xp綜合成一個新變量y,y=c1x1+c2x2+...+cpxp=c’x,也即產生一個綜合判別指標,要求的g個類Gk,k=1,2,...,g在這個新變量下能最大程度地區分開,于是可用這個綜合判別指標判別未知樣品的歸屬。其中c=(c1,c2,cp)’為待定參數。判別方程除沒有常數外,與回歸方程非常相似,但兩者有著本質的區別。在回歸方程中,y為因變量,是一個的隨機變量,有其樣本測試值,回歸分析的任務是選擇一組參數,使得根據回歸方程預測的因變量的值與實測值盡可能地接近;而判別模型中y只是一個綜合變量,實際上并不存在這樣一個變量,因而也沒有實測值。判別模型的幾何意義是把p維空間的點投影到一維空間〔直線〕上去,使各類在該直線上的投影盡可能別離。17.比擬費歇爾準那么下的兩類判別方程與回歸方程的異同。為什么判別方程中不需要常數項?答:除沒有常數項外,與回歸方程非常相似,但兩者有著本質的區別。在回歸方程中,y為因變量,是一個的隨機變量,有其樣本測試值,回歸分析的任務是選擇一組參數,使得根據回歸方程預測的因變量的值與實測值盡可能地接近;而判別模型中y只是一個綜合變量,實際上并不存在這樣一個變量,因而也沒有實測值。判別模型的幾何意義是把p維空間的點投影到一維空間〔直線〕上去,使各類在該直線上的投影盡可能別離。18.判別分析與聚類分析有何不同?聚類分析和判別分析有相似的作用,都是起到分類的作用。但是判別分析是分類然后總結出判別規那么,是一種有指導的學習;而聚類分析那么是有了一批樣本,不知道它們的分類,甚至連分成幾類都不知道,希望用某種方法把觀測進行合理的分類,使得同一類的觀測比擬接近,不同類的觀測相差較多,這是無指導的學習。所以聚類分析依賴于對觀測間的接近程度〔距離〕或相似程度的理解,定義不同的距離量度和相似性量度就可以產生不同的聚類結果。19.簡述聚類分析的根本思想。有哪兩類聚類分析?各自的作用?聚類分析就是根據空間點群的“親疏〞關系進行分類的一種方法。為此要給出表示空間點與點之間“親疏〞關系的相似性度量,然后討論根據相似性度量進行點群簇分的方法和應用。聚類分析的目的是把分類對象按一定規那么分成假設干類,這些類不是事先給定的,而是根據數據的特征確定的。在同一類中這些對象在某種意義上趨向于彼此相似,而在不同類中對象趨向于不相似。聚類分析根據對象不同分為Q型聚類分析〔對樣本進行聚類〕和R型聚類〔對變量進行聚類〕。對樣品或變量進行聚類時,我們常用距離和相似系數來對樣品或變量之間的相似性進行度量。距離用來度量樣品之間的相似性,而相似系數常用來度量變量間的相似性。20.距離系數需要滿足的根本條件?答:點i和點j之間的距離dij可有各種不同的定義,只要其滿足所謂的距離公理:對一切是i,j,dij>=0;dij=0等價于點i和點j為同一點,即X(i)=X(j);對一切的i,j,dij=dji;三角不等式成立,即對一切的i,j,k,有dij<=dik+dkj21.系統聚類法的根本思想和步驟。有哪些常用的系統聚類法?根本思想:〔1〕將聚類的n個樣品〔或者變量〕各自看成一類,共有n類;〔2〕按照事先選定的方法計算每兩類之間的聚類統計量,即某種距離〔或者相似系數〕,將關系最密切的兩類并為一類,其余不變,即得n-1類;〔3〕按前面的計算方法計算新類與其他類之間的距離〔或者相似系數〕,將關系最密切的兩類并為一類,其余不變,即得n-2類;〔4〕如此繼續下去,直到最后所有樣品〔或者變量〕歸為一類為止。根本步驟:〔1〕n個樣品〔或者變量〕各自成一類,一共有n類。計算兩兩之間的距離,顯然D〔Gp,Gq〕=dpq,構成一個對稱矩陣D(0)=(dij)n×n,其對角線上的元素全為0.〔2〕選擇D(0)中對角線元素以外的上〔或者下〕三角局部中的最小元素,設其為D〔Gp,Gq〕,與其下標相對應,將類Gp與Gq合并成一個新類,記為Gr。計算Gr與其他類Gk〔k≠p,q〕之間的距離。〔3〕在D(0)中劃去與Gp、Gq所對應的兩行和兩列,并參加由新類Gr與其他各類之間的距離所組成的一行和一列,得到一個新的n-1階對稱距離矩陣D(1)。〔4〕由D(1)出發,重復步驟〔2〕〔3〕得到對稱矩陣D(2);再由D(2)出發,重復步驟〔2〕〔3〕得到對稱矩陣D(3),...,依次類推,直到n個樣品〔或者變量〕聚為一個大類為止。〔5〕在合并某兩類的過程中記下兩類樣品〔或者變量〕的編號以及所對應的距離〔或者相似系數〕,并繪制成果聚類圖。〔6〕決定類的個數以及聚類結果。常用的系統聚類法有:最短距離法、最長距離法、中間距離法、重心法、來平均法、離差平方和法22.模糊聚類法的根本思想和步驟根本思想:采用模糊數學語言對事物按一定的要求進行描述和分類的數學方法稱為模糊聚類分析,模糊聚類分析一般是指根據研究對象本身的屬性來構造模糊矩陣,并在此根底上根據一定的隸屬度來確定聚類關系,即用模糊數學的方法把樣本之間的模糊關系定量確實定,從而客觀且準確地進行聚類。模糊聚類分析所討論的對象,事先沒有給定任何模式供分類參考,要求按照樣本各自的屬性特征加以分類。聚類就是將數據集分成多個類或簇,使得各個類之間的數據差異應盡可能大,類內之間的數據差異應盡可能小,即為“最小化類間相似性,最大化類內相似性〞原那么。根本步驟:〔1〕選定一種計算距離或相似系數的公式。〔2〕由觀測數據矩陣計算樣品間的距離dij(1≤i,j≤n)或變量間的相似系數rij(1≤i,j≤m),形成距離矩陣D=(dij)n×n或相似系數矩陣R=(rij)m×m〔3〕將距離矩陣D或相似系數矩陣R中的元素壓縮到0與1之間,形成模糊矩陣A=(aij)〔4〕將模糊矩陣A改造成為模糊等價矩陣〔5〕選取截取水平λ(0<λ<1),對樣本進行模糊聚類〔6〕按λ的值畫出聚類的譜系圖。23如何確定合理的聚類數目?聚類數目的真正確定在于研究的問題是什么,以及事先有無一個大致的判斷標準。分類的數目應該符合使用的目的。確定聚類數的問題屬于聚類有效性問題。比方在模糊聚類分析中,可以根據方差分析理論,應用混合F統計量來確定最正確分類數。24、在進行系統聚類分析時,不同的類間距離計算方法有何區別?請舉例說明。設dij表示樣品Xi與Xj之間距離,用Dij表示類Gi與Gj之間的距離。〔1〕.最短距離法〔2〕最長距離法〔3〕中間距離法其中-1/4≤β≤0〔4〕重心法〔5〕類平均法〔6〕可變類平均法其中是可變的且<1〔7〕可變法其中是可變的且<1〔8〕離差平方和法D25.數據變換由于每個樣品各個變量的觀測值具有不同的數量級和不同的測量單位,所以有必要進行變換,得到無量綱數據,以消除其中的不合理現象,提高分類效果,常用的數據變換方法有:標準化法、正規化法、極差標準化法、極大值正規化法、均值正規化法26.Q型聚類統計量考慮對樣品進行聚類,描述變量之間的接近程度常用“距離〞來度量。兩個樣品之間的距離越小,表示兩者之間的共同點越多;距離越大,共同點越少。常用距離有:絕對值距離、歐式距離、閔克夫斯基距離、切比雪夫距離、馬哈拉諾比斯距離27.R型聚類統計量考慮對樣品進行聚類,描述變量之間的接近程度常用“相似系數〞來度量。兩個變量之間的相似系數的絕對值越接近于1,表示兩者關系越密切;絕對值越接近于0,關系越疏遠。常用相似距離有:夾角余弦和相似系數。28.簡述主成分分析的根本思想。答:主成分分析的根本思想是構造原始變量的適當的線性組合,以產生一系列互不相關的新變量,從中選出少量幾個新變量并使它們含有足夠多的原始變量帶有的信息,從而使得用這幾個新變量代替原始變量分析問題和解決問題成為可能。29.主成分的求取首先,求其協方差矩陣Σ的各特征值及相應的正交單位化特征向量,然后,以特征值從大到小所對應的特征向量為組合系數所得到的X1,X2,...,Xp的線性組合分別取作X的第一、第二、直至第p個主成分,而各主成分的方差等于相應的特征值。30.主成分分析的根本思想,可以做什么應用及在應用中要選幾個主成分?主成分分析的根本思想:構造原始變量的適當的線性組合,以產生一系列互不相關的新變量,從中選出少量幾個新變量并使它們含有足夠多的原始變量帶有的信息,從而使得用這幾個新變量代替原始變量分析問題和解決問題成為可能。通常變量中所含信息的多少用該變量的方差〔或樣本方差〕來度量,這是經典的信息量的表示方法。解決的問題:〔1〕研究的問題當中,隨機變量的個數比擬大,將增大計算量和分析問題的復雜性;〔2〕隨機變量之間存在著一定的相關性,它們的觀測樣本所反映的信息在一定程度上存在著重疊的。一般地,在約束條件①liTli=1②Cov(Yi,Yk)=liTΣlk=0,k=1,2,...,i-1之下,使得Var〔Yi〕到達最大,由此li確定的Yi=liTX稱為X1,X2,...,Xp的第i個主成分。31.比擬主成分分析與判別分析的根本思想。主成分分析就是一種通過降維技術把多個指標約化為少數幾個綜合指標的統計分析方法。其根本思想是:設法將原來眾多具有一定相關性的指標〔設為p個〕,重新組合成一組新的相互無關的綜合指標來代替原來指標。數學上的處理就是將原來P個指標作線性組合,作為新的指標。第一個線性組合,即第一個綜合指標記為Y1,為了使該線性組合具有唯一性,要求在所有線性組合中Y1的方差最大,即Var(Y1)越大,那么包含的信息越多。如果第一個主成分缺乏以代表原來p個指標的信息,再考慮選取第二個主成分Y2,并要求Y1已有的信息不出現在Y2中,即主成分分析是將分散在一組變量上的信息集中到某幾個綜合指標上的探索性統計分析方法。以便利用主成分描述數據集內部結構,實際上也起著數據降維作用。聚類分析的目的是把分類對象按一定規那么分成假設干類,這些類不是事先給定的,而是根據數據的特征確定的。在同一類中這些對象在某種意義上趨向于彼此相似,而在不同類中對象趨向于不相似。聚類分析根據對象不同可分為Q型聚類分析〔對樣本進行聚類〕和R型聚類分析〔對變量進行聚類〕。對樣本或變量進行聚類時,我們常用距離和相似系數來對樣品或變量之間的相似性進行度量。距離常用來度量樣品之間的相似性,而相似系數常用來度量變量間的相似性。32、簡述典型變量與典型相關系數的概念,并說明典型相關分析的根本思想。在每組變量中找出變量的線性組合,使得兩組的線性組合之間具有最大的相關系數。選取和最初挑選的這對線性組合不相關的線性組合,使其配對,并選取相關系數最大的一對,如此下去直到兩組之間的相關性被提取完畢為止。被選出的線性組合配對稱為典型變量,它們的相關系數稱為典型相關系數。33.因子分析的根本思想?因子分析是主成分分析的推廣,它也是利用降維的思想,從研究原始變量相關矩陣內部結構出發,把一些具有錯綜復雜關系的變量歸結為少數幾個綜合因子的多元統計分析方法,因子分析的根本思想是根據相關性大小將變量分組,使得同組內的變量之間相關性較高,不同組的變量相關性較低。每一組變量代表一個根本結構,用一個不可觀測的綜合變量表示,這個根本結構稱為公共因子。對于所研究的問題就可用最少個數的不可觀測的所謂公共因子的線性函數與特殊因子之和來描述原來觀測的每一分量。34、比擬主成分分析與因子分析的異同點。相同點:①兩種分析方法都是一種降維、簡化數據的技術。②兩種分析的求解過程是類似的,都是從一個協方差陣出發,利用特征值、特征向量求解。因子分析可以說是主成分分析的姐妹篇,將主成分分析向前推進一步便導致因子分析。因子分析也可以說成是主成分分析的逆問題。如果說主成分分析是將原指標綜合、歸納,那么因子分析可以說是將原指標給予分解、演繹。主要區別是:主成分分析本質上是一種線性變換,將原始坐標變換到變異程度大的方向上為止,突出數據變異的方向,歸納重要信息。而因子分析是從顯在變量去提煉潛在因子的過程。此外,主成分分析不需要構造分析模型而因子分析要構造因子模型。35、簡述相應分析的根本思想。相應分析指受制于某個載體總體的兩個因素為A和B,其中因素A包含r個水平,即A1,A2,…,Ar;因素B包含即c個水平,即B1,B2,…,Bc。對這兩組因素作隨機抽樣調查,記為得到一個r×c的二維列聯表,記為K=〔Kij〕r×c,主要目的是尋求列聯表行因素A和列因素B的根本分析特征和它們的最優聯立表示。根本思想為通過列聯表的轉換,使得因素A和列因素B具有對等性,這樣就可以用相同的因子軸同時描述兩個因素各個水平的情況,把兩個因素的各個水平的狀況同時反映到具有相同坐標軸的因子平面上,直觀地描述兩個因素A和因素B以及各個水平之間的相關關系。36、進行相應分析時在對因素A和因素B進行相應分析之前有沒有必要進行獨立性檢驗?為什么?有必要,如果因素A和因素B獨立,那么沒有必要進行相應分析;如果因素A和因素B不獨立,可以進一步通過相應分析考察兩因素各個水平之間的相關關系。37.解釋因子分析模型中,變量共同度與公因子方差奉獻的統計意義。為什么有時候需要作因子旋轉?有哪些估計因子得分的方法?因子得分的計算是不是通常意義下的參數估計?變量共同度的統計意義:Xi*=ai1F1+...+aimFm+εi兩邊求方差Var(Xi)=a2i1Var(F1)+...+a2imVar(Fm)+Var(εi)1=Σaij2+σi2=hi2+σi2所有的公共因子和特殊因子對變量Xi*的奉獻為1。hi2反映了全部公共因子對變量Xi*影響,是全部公共因子對變量方差所作出的奉獻,或者說Xi*對公共因子的共同依賴程度,稱為公共因子對變量Xi*的方差奉獻。hi2接近于1,說明該變量的原始信息幾乎都被選取的公共因子說明了。σi2特殊因子的方差,反映了原有變量方差中無法被公共因子描述的比例。公因子方差奉獻的統計意義:是衡量公共因子相對重要性的指標,gj2越大,說明公共因子Fj對x的奉獻越大,或者說對x的影響和作用就越大。一個正交變換對應坐標系的旋轉,而且主因子的任一解均可由已求得的A經過旋轉〔右乘一個正交陣〕得到。經過旋轉后,公共因子對xi的奉獻hi2并不改變,但公共因子本身可能有較大變化,即gj2不再與原來的值相同,從而可通過適當的旋轉來得到我們比擬滿意的公共因子。估計因子得分的方法較多,常用的有回歸估計法,Bartlett估計法,Thomson估計法。⑴回歸估計法F=Xb=X(X¢X)-1A¢=XR-1A¢〔這里R為相關陣,且R=X¢X〕。⑵Bartlett估計法Bartlett估計因子得分可由最小二乘法或極大似然法導出。F=[(W-1/2A〕¢W-1/2A]-1(W-1/2A〕¢W-1/2X=(A¢W-1A)-1A¢W-1X⑶Thomson估計法在回歸估計法中,實際上是忽略特殊因子的作用,取R=X¢X,假設考慮特殊因子的作用,此時R=X¢X+W,于是有:F=XR-1A¢=X(X¢X+W)-1A¢這就是Thomson估計的因子得分,使用矩陣求逆算法〔參考線性代數文獻〕可以將其轉換為:F=XR-1A¢=X(I+A¢W-1A)-1W-1A¢將公共因子用變量的線性組合來表示,也即由地區經濟的各項指標值來估計它的因子得分。設公共因子F由變量x表示的線性組合為:Fj=uj1xj1+uj2xj2+…+ujpxjpj=1,2,…,m但因子得分函數中方程的個數m小于變量的個數p,所以并不能精確計算出因子得分,只能對因子得分進行估計。38.試比擬主成分分析、因子分析、對應分析這三種方法的異同之處并簡要介紹它們的應用。主成分分析的根本思想是構造原始變量的適當的線性組合,以產生一系列互不相關的新變量,從中選出少量幾個新變量并使它們含有足夠多的原始變量帶有的信息,從而使得用這幾個新變量代替原始變量分析問題和解決問題成為可能。通常變量中所含信息的多少用該變量的方差〔或樣本方差〕來度量,這是經典的信息量的表示方法。例如,高校科研狀況評價中的立項課題數與工程經費、經費支出等之間會存在較高的相關性;學生綜合評價研究中的專業根底課成績與專業課成績、獲獎學金次數等之間也會存在較高的相關性。利用主成分分析既可以大大減少參與建模的變量個數,同時也不會造成信息的大量喪失。能夠有效降低變量維數。因子分析是主成分分析的推廣,它也是利用降維的思想,從研究原始變量相關矩陣內部結構出發,把一些具有錯綜復雜關系的變量歸結為少數幾個綜合因子的多元統計分析方法,因子分析的根本思想是根據相關性大小將變量分組,使得同組內的變量之間相關性較高,不同組的變量相關性較低。每一組變量代表一個根本結構,用一個不可觀測的綜合變量表示,這個根本結構稱為公共因子。對于所研究的問題就可用最少個數的不可觀測的所謂公共因子的線性函數與特殊因子之和來描述原來觀測的每一分量。例如,某企業招聘人才,對每位應聘者進行外貿、申請書的形式、專業能力、討人喜歡的能力、自信心、洞察力、誠信、推銷本領、經驗、工作態度、抱負、理解能力、潛在能力、實際能力、適應性的15個方面考核。這15個方面可歸結為應聘者的表現力、親和力、實踐經驗、專業能力4個方面,每一方面稱為一個公告因子。企業可根據這4個公共因子的情況來衡量應聘者的綜合水平。對應分析是因子分析的進一步推廣,也稱關聯分析、R-Q型因子分析,是近年新開展起來的一種多元相依變量統計分析技術,通過分析由定性變量構成的交互匯總表來揭示變量間的聯系。可以揭示同一變量的各個類別之間的差異,以及不同變量各個類別之間的對應關系。對應分析的根本思想是將一個聯列表的行和列中各元素的比例結構以點的形式在較低維的空間中表示出來。它最大特點是能把眾多的樣品和眾多的變量同時作到同一張圖解上,將樣品的大類及其屬性在圖上直觀而又明了地表示出來,具有直觀性。另外,它還省去了因子選擇和因子軸旋轉等復雜的數學運算及中間過程,可以從因子載荷圖上對樣品進行直觀的分類,而且能夠指示分類的主要參數〔主因子〕以及分類的依據,是一種直觀、簡單、方便的多元統計方法。相應分析指受制于某個載體總體的兩個因素為A和B,其中因素A包含r個水平,即A1,A2,…,Ar;因素B包含即c個水平,即B1,B2,…,Bc。對這兩組因素作隨機抽樣調查,記為得到一個r×c的二維列聯表,記為K=〔Kij〕r×c,主要目的是尋求列聯表行因素A和列因素B的根本分析特征和它們的最優聯立表示。根本思想為通過列聯表的轉換,使得因素A和列因素B具有對等性,這樣就可以用相同的因子軸同時描述兩個因素各個水平的情況,把兩個因素的各個水平的狀況同時反映到具有相同坐標軸的因子平面上,直觀地描述兩個因素A和因素B以及各個水平之間的相關關系。共同點:〔1〕都是用少數的幾個變量〔因子〕來反映原始變量〔因子〕的主要信息。并且新的變量彼此不相關,消除了多重共線性。〔2〕求解過程是類似的,都是從一個協方差陣出發,利用特征值、特征向量求解。不同點:〔1〕相對于主成分分析,因子分析更傾向于描述原始變量之間的相關關系。〔2〕線性表示方向不同,因子分析和對應分析是把變量表示成公共因子的線性組合,而主成分分析那么是把主成分表示成各變量的線性組合。〔3〕主成分分析本質上是一種線性變換,將原始坐標變換到變異程度大的方向上為止,突出數據變異的方向,歸納重要信息。而因子分析和對應分析是從顯在變量去提煉潛在因子的過程。此外,主成分分析不需要構造分析模型而因子分析和對應分析要構造因子模型。〔4〕對應分析克服了因子分析的缺乏之處,可以尋找出R型和Q型分析間的內在聯系,由R型分析的結果可以方便地得到Q型分析結果,克服了做Q型分析樣品容量n很大時計算上的困難。40.因子分析的一般步驟1〕將原始數據標準化2〕建立變量的相關系數矩陣R3〕求R的特征根及相應的單位特征向量,根據累積奉獻率要求,取前m個特征根及相應的特征向量,寫出因子載荷陣A4〕對A施行因子旋轉5〕計算因子得分41.試述主成分分析的根本思想。由協方差矩陣出發和由相關系數矩陣出發求主成分有何不同?答:主成分分析的根本思想是構造原始變量的適當的線性組合,以產生一系列互不相關的新變量,從中選出少量幾個新變量并使它們含有足夠多的原始變量帶有的信息,從而使得用這幾個新變量代替原始變量分析問題和解決問題成為可能。一般而言,對于度量單位不同的指標或是取值范圍彼此差異非常大的指標,我們不直接由其協方差矩陣出發進行主成分分析,而應該考慮將數據標準化,由相關陣出發求解主成分。對同度量或是取值范圍在同量級的數據,還是直接從協方差矩陣求解主成分為宜。相關陣求得的主成分與協差陣求得的主成分一般情況是不相同的。實際說明,這種差異有時很大。由協方差陣出發求解主成分所得的結果及由相關陣出發求解主成分所得的結果有很大不同,所得主成分解釋原始變量方差比例與主成分表達式均有顯著差異,且兩者之間不存在簡單的線性關系。42.如果回歸方程通過了顯著性檢驗而有局部系數〔變量〕沒有通過顯著性檢驗,你覺得應該如何處理?談談你對回歸方程形式設定和自變量選擇的想法或經驗。答:根絕具體情況,找準原因。如果是變量對Y有很強的影響,而該變量對應的系數卻沒有通過檢驗,那么修改回歸模型。常用的可選的回歸方程形式有:線性函數、線性對數函數、倒數函數、線性多項式函數、交互作用函數等等。選擇的標準:第一,看散點圖,根據散點圖的形態進行選擇;第二,經濟實質,這個根據回歸系數的含義;第三,數據特征,有的是絕對數據有的是相對數據。但是,以上這些判斷非常依賴經驗,經驗缺乏的話可以進行試錯,對于樣本選擇所有的函數形式進行回歸,再根據回歸統計量的優劣確定最正確的函數形式。自變量的選擇問題可以看成是應該采用全模型還是選模型的問題全模型正確誤用選模型:全模型相應參數為有偏估計,選模型預測也是有偏的。選模型的參數估計和預測殘差以及均方差都有較小的方差。選模型正確誤用全模型,全模型參數估計和預測是有偏估計,而全模型預測值的方差和均方差大于選模型相應的方差。上述結論說明丟掉那些對應變量影響不大的,或雖有影響,但難于觀測的自變量是有利的。43.簡述動態聚類法的根本思想和步驟,在實際應用中如何確定合理的聚類數目?答:根本思想:首先選擇假設干個樣本作為聚類中心,再按照事先確定的聚類準那么進行聚類。在聚類過程中,根據聚類準那么對聚類中心反復修改,直到分類合理為止。步驟:〔1〕選擇凝聚點,凝聚點就是一批有代表性的樣品。可以憑經驗選擇,或將所有樣品隨機分成k份,計算每一類的均值,將這些均值作為凝聚點;也可以采用最大最小原那么或密度法。〔2〕初始分類〔3〕判斷分類是否合理,假設不合理,那么修改分類,重復步驟〔2〕〔4〕至分類結果合理,結束分類。聚類數目的真正確定在于研究的問題是什么,以及事先有無一個大致的判斷標準。分類的數目應該符合使用的目的。確定聚類數的問題屬于聚類有效性問題。比方在模糊聚類分析中,可以根據方差分析理論,應用混合F統計量來確定最正確分類數。44.試述有序樣品最優分割法的根本思想和步驟。答:根本思想:先將n個樣品看成一類,然后依據分類的誤差函數逐漸增加分類。步驟:1〕計算類的直徑{D(I,j)}2〕計算最小分類損失函數L[b(n,K)]3〕決定K4〕最優解分類45.簡要介紹逐步回歸的根本思想和步驟,實際應用中,如何確定最優的回歸方程?答:根本思想:有進有出。具體做法是將變量一個一個引入,引入變量的條件是通過了偏F統計量的檢驗,同時,每引入一個新變量后,對已入選方程的老變量進行檢測,將經檢驗認為不顯著的變量剔除,此過程經過假設干步,直到既不能引入新變量又不能剔除老變量為止。根本步驟:〔1〕對于每個自變量xi(1≤i≤m),擬合m個一元線性回歸模型,假設Fi1(1)>FE,那么所選擇含有自變量xi1的回歸模型為當前模型,否那么,沒有變量引入模型,選擇過程結束,即認為所有自變量對y的影響均不顯著。〔2〕在第一步的根底上,再將其余的m-1個自變量分別參加此模型中,得到m-1個二元回歸方程,假設假設Fi1(2)>FE那么將自變量xi2引入模型,進一步考察xi2引入模型后,xi1對y的影響是否仍顯著,假設Fi1(2)≤FD,那么剔除xi。〔3〕在第二步的根底上再將其余的m-2個自變量分別參加此模型中,擬合各個模型并計算偏F統計量值,與FE比擬決定是否又新變量引入,如果有新的變量引入,還需要檢驗原模型中的老變量是否因為這個新變量的引入而不再顯著,那樣就應該被剔除。重復以上步驟,直到沒有新的變量進入模型,同時在模型中的老變量都不能被剔除,那么結束選擇過程。最優回歸方程的選擇準那么:〔1〕基于RSS的自變量的選擇準那么〔2〕Cp統計量,Cp愈小愈好具體方法:〔1〕從變量所有可能組合的回歸方程中選擇最優者〔2〕前進法與后退法〔3〕逐步回歸法46.簡述典型相關分析的根本思想與步驟,試舉例說明它的應用。答:根本思想:在每組變量中找出變量的線性組合,使得兩組的線性組合之間具有最大的相關系數。選取和最初挑選的這對線性組合不相關的線性組合,使其配對,并選取相關系數最大的一對,如此下去直到兩組之間的相關性被提取完畢為止。步驟:〔1〕確定典型相關分析的目標〔2〕設計典型相關分析〔3〕檢驗典型相關分析的根本假設〔4〕估計典型模型,評價模型擬合程度〔5〕解釋典型變量〔6〕驗證模型典型相關分析的用途很廣。在實際分析問題中,當我們面臨兩組多變量數據,并希望研究兩組變量之間的關系時,就要用到典型相關分析。例如,為了研究擴張性財政政策實施以后對宏觀經濟開展的影響,就需要考察有關財政政策的一系列指標如財政支出總額的增長率、財政赤字增長率、國債發行額的增長率、稅率降低率等與經濟開展的一系列指標如國內生產總值增長率、就業增長率、物價上漲率等兩組變量之間的相關程度。47.多元線性回歸方程有哪些根本假定?在實際應用中,假設這些假定并不滿足,會造成怎樣的不良后果?答:多元線性回歸模型的根本假定有:零均值假定、隨機項獨立同方差假定、解釋變量的非隨機性假定、解釋變量之間不存在線性相關關系假定、隨機誤差項μi服從均值為0方差為σ2的正態分布假定。在證明最小二乘估計量的無偏性中,利用了解釋變量與隨機誤差項不相關的假定;在有效性的證明中,利用了隨機項獨立同方差假定。假設這些假定不滿足,會遇到較多問題,主要有多重共線性問題以及自相關、異方差等問題。48.回歸系數的普通最小二乘估計具有哪些統計性質?要想獲得理想的系數估計以及較好的預測效果,對觀測樣本有何要求?答:1〕線性。估計量βi是yi的線性函數;2〕無偏性。βi是βi的無偏估計。3〕有效性。估計量在所有的無偏估計量中有最小方差。觀測樣本的x取值要盡可能分散些,樣本容量也盡可能大些。49.試解釋回歸方程的樣本決定系數和檢驗回歸方程顯著性的P值的含義。答:樣本決定系數用回歸平方和與總離差平方和的比例來表示,是用來評判一個模型擬合優度的標準。其值越接近于1,意味著模型的擬合優度越高。P值是P〔F>F0〕,它表示第一、第二自由度分別為p,n-p-1的F變量取值大于F0的概率。50.如何考慮兩個自變量對因變量的交叉作用?對于實際應用問題,如何設定回歸方程的形式?答:假設某一自變量的單獨效應隨另一自變量的變化而變化時,說明兩自變量間有交叉作用。檢驗兩自變量間有無交叉作用,普遍的做法是在方程中參加它們的乘積再做檢驗,如考察x1,x2間的交叉作用,可在模型中參加x1x2項。或是通過兩變量不同水平的均數作線圖,得到交互作用圖,假設圖中兩條直線幾乎平行,那么說明兩交叉作用很小或不存在。反之,假設兩條直線互不平行,那么說明兩變量可能存在交叉作用,需要進一步假設檢驗進行確認。回歸方程的形式應包含某些變量的高次項或交叉乘積項。51.如何考察自變量之間是否存在多重共線性問題?如果存在多重共線性,會有怎樣的不良后果?如何在盡量不降低模型解釋能力的前提下消除多重共線性問題?答:多重共線性可從以下幾個方面識別:1〕變量的重要性與專業不符2〕R2高,但各自變量對應的回歸系數均不顯著3〕方差膨脹因子〔VIF〕>104〕回歸系數的符號與專業知識不符不良后果:1〕參數估計值的標準誤差變得很大,從而t值變得很小2〕回歸方程不穩定,增加或減少某幾個觀察值,估計值可以發生很大變化3〕t檢驗不準確,誤將應保存在方程中的重要變量舍棄4〕估計值的客觀符號與客觀實際不一致解決方法:當發現自變量存在嚴重的多重共線性時,可以通過剔除一些不重要的自變量、增大樣本容量、對回歸系數做有偏估計〔如采用嶺回歸法、主成分法、偏最小二乘法等〕等方法來克服多重共線性。52.如何診斷數據中的異常數據?是否只要存在異常數據,都會對回歸方程的參數估計以及預測效果造成較大的影響?為什么?答:在常規回歸模型中,異常值是指對既定模型偏離較大的數據點。通過建立數據刪除模型來分析某一數據點對回歸分析的影響,如果該點對回歸方程估計量的影響超過臨界值,那么就判定該點為異常值。可以從殘差分布的角度分析預測值與實際值之差的誤差百分率的分布是否服從某種分布,并在該分布下檢驗誤差百分率這列數據中的異常值。可以根據杠桿值、庫克距離、標準化回歸系數的變化和標準化預測值的變化來探測解釋變量中的異常值。53.為什么要對回歸方程和變量進行檢驗?答:對回歸方程的檢驗是指對模型中被解釋變量與解釋變量之間的線性關系在總體上是否顯著成立。對變量檢驗的目的是檢驗解釋變量對被解釋變量的單獨作用是否顯著,為某個解釋變量是否保存在模型中,提供重要參考依據。54.如何解釋多元線性回歸系數的含義?如何度量回歸方程擬合優度?擬合優度的好壞是否可作為回歸方程優劣是重要標志?答:回歸系數表示自變量x對因變量y的影響程度。回歸系數越大表示x對y影響越大,正的回歸系數表示y隨x增大而增大,負的回歸系數表示y隨x增大而減小。用樣本決定系數〔回歸平方和與總離差平方和的比例〕作為評判一個模型擬合優度的標準。擬合優度的好壞可以作為回歸方程優劣的重要標志,但不是判斷模型質量的唯一標準,有時為了追求模型的實際意義,可以在一定程度上放寬對擬合優度的要求。55.作因子分析時,如何確定公共因子的個數?如何解釋這些公共因子的實際意義?答:有3個方法可以用來確定因子的個數:1〕方差奉獻率2〕設定特征值條件3〕碎石圖公共因子的實際意義,需結合具體問題來定。56.主成分分析與因子分析有哪些應用?答:主成分分析是構造原始變量的適當線性組合,以產生一系列互不相關的變量,并從中選取少量幾個新變量來分析和解決問題,例如高校科研狀況評價中的立項課題數與工程經費、經費支出等之間會存在較高的相關性;學生綜合評價研究中的專業根底課成績與專業課成績、獲獎學金次數等之間也會存在較高的相關性。利用主成分分析既可以大大減少參與建模的變量個數,同時也不會造成信息的大量喪失。能夠有效降低變量維數。因子分析是主成分分析的推廣,它也是利用降維的思想,從研究原始變量相關矩陣內部結構出發,把一些具有錯綜復雜關系的變量歸結為少數幾個綜合因子的多元統計分析方法。例如,某企業招聘人才,對每位應聘者進行外貿、申請書的形式、專業能力、討人喜歡的能力、自信心、洞察力、誠信、推銷本領、經驗、工作態度、抱負、理解能力、潛在能力、實際能力、適應性的15個方面考核。這15個方面可歸結為應聘者的表現力、親和力、實踐經驗、專業能力4個方面,每一方面稱為一個公告因子。企業可根據這4個公共因子的情況來衡量應聘者的綜合水平。57.距離判別法采用何種距離?這種距離有什么特點?答:距離判別法采用馬氏距離。其特點有:1〕兩點之間的馬氏距離與原始數據的測量單位無關。2〕標準化數據和中心化數據(即原始數據與均值之差〕計算出的二點之間的馬氏矩離相同。3〕可以排除變量之間的相關性的干擾。4〕滿足距離的四個根本公理:非負性、自反性、對稱性和三角不等式。58.變量間的統計關系和函數關系的本質區別是什么?答:變量間的統計關系是指變量間具有密切關聯而又不能由某一個或某一些變量唯一確定另外一個變量的關系,而變量間的函數關系是指由一個變量唯一確定另外一個變量確實定關系。59.回歸模型中隨機誤差項ε的意義是什么?答:ε為隨機誤差項,正是由于隨機誤差項的引入,才將變量間的關系描述為一個隨機方程,使得我們可以借助隨機數學方法研究y與x1,x2?..xp的關系,由于客觀經濟現象是錯綜復雜的,一種經濟現象很難用有限個因素來準確說明,隨機誤差項可以概括表示由于人們的認識以及其他客觀原因的局限而沒有考慮的種種偶然因素。60.回歸分析與相關分析的聯系與區別是什么?答:聯系有回歸分析和相關分析都是研究變量間關系的統計學課題。區別有a.在回歸分析中,變量y稱為因變量,處在被解釋的特殊地位。在相關分析中,變量x和變量y處于平等的地位,即研究變量y與變量x的密切程度與研究變量x與變量y的密切程度是一回事。b.相關分析中所涉及的變量y與變量x全是隨機變量。而在回歸分析中,因變量y是隨機變量,自變量x可以是隨機變量也可以是非隨機確實定變量。C.相關分析的研究主要是為了刻畫兩類變量間線性相關的密切程度。而回歸分析不僅可以揭示變量x對變量y的影響大小,還可以由回歸方程進行預測和控制。61.線性回歸模型的根本假設是什么?答:線性回歸模型的根本假設有:1.解釋變量x1.x2?.xp是非隨機的,觀測值xi1.xi2?..xip是常數。2.等方差及不相關的假定條件為{E(εi)=0i=1,2?.Cov(εi,εj)={σ^23.正態分布的假定條件為相互獨立。4.樣本容量的個數要多于解釋變量的個數,即n>p.62.回歸變量的設置理論根據是什么?在回歸變量設置時應注意哪些問題?答:理論判斷某個變量應該作為解釋變量,即便是不顯著的,如果理論上無法判斷那么可以采用統計方法來判斷,解釋變量和被解釋變量存在統計關系。應注意的問題有:在選擇變量時要注意與一些專門領域的專家合作,不要認為一個回歸模型所涉及的變量越多越好,回歸變量確實定工作并不能一次完成,需要反復試算,最終找出最適宜的一些變量。63.你認為運用回歸分析研究實際問題時應該定性分析和定量分析相結合嗎?為什么?對此你是否有直接經驗?如有,請作簡要介紹。答:在回歸模型的運用中,我們還強調定性分析和定量分析相結合。這是因為數理統計方法只是從事物外在的數量外表上去研究問題,不涉及事物質的規定性,單純的外表上的數量關系是否反映事物的本質?這本質究竟如何?必須依靠專門的學科研究才能下定論,所以,在經濟問題的研究中,我們不能僅憑樣本數據估計的結果就不加分析地說長道短,必須把參數估計的結果和具體經濟問題以及現實情況緊密結合,這樣才能保證回歸模型在經濟問題研究中的正確應用簡述多元統計的主要內容,結合你的專業談談能用到哪些統計方法。答:多元統計分析是從經典統計學中開展起來的一個分支,是一種綜合分析方法,它能夠在多個對象和多個指標互相關聯的情況下分析它們的統計規律。主要內容包括多元正態分布及其抽樣分布、多元正態總體的均值向量和協方差陣的假設檢驗、多元方差分析、直線回歸與相關、多元線性回歸與相關(Ⅰ)和(Ⅱ)、主成分分析與因子分析、判別分析與聚類分析、對應分析、典型相關分析、Shannon信息量及其應用。主成分分析作為多元統計分析的一種方法,作為數據分析和數據挖掘的工具,在遙感圖像變化信息提取、遙感圖像處理分析、地理要素分析等方面也具有廣泛應用。主成分分析可以提取主要信息,使誤差出現的時機大大減小。在分析影像數據特征和主成分變換算法根底上,利用兩次主成分變換的方式有效地實現了剔除原始影像中的局部噪聲信息的目的,從而提供了一種新的方法實現動態監測變化信息自動發現,

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論