第9章SPSS的線性回歸分析_第1頁
第9章SPSS的線性回歸分析_第2頁
第9章SPSS的線性回歸分析_第3頁
第9章SPSS的線性回歸分析_第4頁
第9章SPSS的線性回歸分析_第5頁
已閱讀5頁,還剩72頁未讀 繼續免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

會計學1第9章SPSS的線性回歸分析2023/1/192回歸分析概述(二)回歸分析的基本步驟(1)確定自變量和因變量(父親身高關于兒子身高的回歸與兒子身高關于父親身高的回歸是不同的).(2)從樣本數據出發確定變量之間的數學關系式,并對回歸方程的各個參數進行估計.(3)對回歸方程進行各種統計檢驗.(4)利用回歸方程進行預測.第1頁/共77頁2023/1/193線性回歸分析概述(三)參數估計的準則目標:回歸線上的觀察值與預測值之間的距離總和達到最小最小二乘法(利用最小二乘法擬和的回歸直線與樣本數據點在垂直方向上的偏離程度最低)第2頁/共77頁2023/1/194一元線性回歸分析(一)一元回歸方程:

y=β0+β1xβ0為常數項;β1為y對x回歸系數,即:x每變動一個單位所引起的y的平均變動(二)一元回歸分析的步驟利用樣本數據建立回歸方程回歸方程的擬和優度檢驗回歸方程的顯著性檢驗(t檢驗和F檢驗)殘差分析預測第3頁/共77頁2023/1/195一元線性回歸方程的檢驗(一)擬和優度檢驗:(1)目的:檢驗樣本觀察點聚集在回歸直線周圍的密集程度,評價回歸方程對樣本數據點的擬和程度。(2)思路:因為:因變量取值的變化受兩個因素的影響自變量不同取值的影響其他因素的影響于是:因變量總變差=自變量引起的+其他因素引起的即:因變量總變差=回歸方程可解釋的+不可解釋的可證明:因變量總離差平方和=回歸平方和+剩余平方和第4頁/共77頁2023/1/196一元線性回歸方程的檢驗(一)擬和優度檢驗:(3)統計量:判定系數R2=SSR/SST=1-SSE/SST.R2體現了回歸方程所能解釋的因變量變差的比例;1-R2則體現了因變量總變差中,回歸方程所無法解釋的比例。R2越接近于1,則說明回歸平方和占了因變量總變差平方和的絕大部分比例,因變量的變差主要由自變量的不同取值造成,回歸方程對樣本數據點擬合得好在一元回歸中R2=r2;因此,從這個意義上講,判定系數能夠比較好地反映回歸直線對樣本數據的代表程度和線性相關性。第5頁/共77頁2023/1/197一元線性回歸方程的檢驗(二)回歸方程的顯著性檢驗:F檢驗(1)目的:檢驗自變量與因變量之間的線性關系是否顯著,是否可用線性模型來表示.(2)H0:β=0即:回歸系數與0無顯著差異(3)利用F檢驗,構造F統計量:F=平均的回歸平方和/平均的剩余平方和~F(1,n-1-1)如果F值較大,則說明自變量造成的因變量的線性變動遠大于隨機因素對因變量的影響,自變量于因變量之間的線性關系較顯著(4)計算F統計量的值和相伴概率p(5)判斷p<=a:拒絕H0,即:回歸系數與0有顯著差異,自變量與因變量之間存在顯著的線性關系。反之,不能拒絕H0第6頁/共77頁2023/1/198一元線性回歸方程的檢驗(三)回歸系數的顯著性檢驗:t檢驗(1)目的:檢驗自變量對因變量的線性影響是否顯著.(2)H0:β=0即:回歸系數與0無顯著差異(3)利用t檢驗,構造t統計量:其中:Sy是回歸方程標準誤差(StandardError)的估計值,由均方誤差開方后得到,反映了回歸方程無法解釋樣本數據點的程度或偏離樣本數據點的程度如果回歸系數的標準誤差較小,必然得到一個相對較大的t值,表明該自變量x解釋因變量線性變化的能力較強。(4)計算t統計量的值和相伴概率p

(5)判斷第7頁/共77頁2023/1/199一元線性回歸方程的檢驗(四)t檢驗與F檢驗的關系一元回歸中,F檢驗與t檢驗一致,即:F=t2,兩種檢驗可以相互替代(六)F統計量和R2值的關系如果回歸方程的擬合優度高,F統計量就越顯著。F統計量越顯著,回歸方程的擬合優度就會越高。第8頁/共77頁2023/1/1910一元線性回歸分析操作(一)基本操作步驟(1)菜單選項:Analyze->regression->linear…(2)選擇一個變量為因變量進入dependent框(3)選擇一個變量為自變量進入independent框(4)enter:所選變量全部進入回歸方程(默認方法)(5)對樣本進行篩選(selectionvariable)利用滿足一定條件的樣本數據進行回歸分析(6)指定作圖時各數據點的標志變量(caselabels)第9頁/共77頁2023/1/1911一元線性回歸分析操作(二)statistics選項(1)基本統計量輸出Estimates:默認.顯示回歸系數相關統計量.confidenceintervals:每個非標準化的回歸系數95%的置信區間.Descriptive:各變量均值、標準差和相關系數單側檢驗概率.Modelfit:默認.判定系數、估計標準誤差、方差分析表、容忍度(2)Residual框中的殘差分析Durbin-waston:D-W值casewisediagnostic:異常值(奇異值)檢測

(輸出預測值及殘差和標準化殘差)第10頁/共77頁2023/1/1912一元線性回歸分析操作(三)plot選項:圖形分析.Standardizeresidualplots:繪制殘差序列直方圖和累計概率圖,檢測殘差的正態性繪制指定序列的散點圖,檢測殘差的隨機性、異方差性ZPRED:標準化預測值ZRESID:標準化殘差SRESID:學生化殘差produceallpartialplot:繪制因變量和所有自變量之間的散點圖第11頁/共77頁2023/1/1913線性回歸方程的殘差分析(一)殘差序列的正態性檢驗:繪制標準化殘差的直方圖或累計概率圖(二)殘差序列的隨機性檢驗繪制殘差和預測值的散點圖,應隨機分布在經過零的一條直線上下第12頁/共77頁2023/1/1914線性回歸方程的殘差分析(三)殘差序列獨立性檢驗:殘差序列是否存在后期值與前期值相關的現象,利用D.W(Durbin-Watson)檢驗d-w=0:殘差序列存在完全正自相關;d-w=4:殘差序列存在完全負自相關;0<d-w<2:殘差序列存在某種程度的正自相關;2<d-w<4:殘差序列存在某種程度的負自相關;d-w=2:殘差序列不存在自相關.殘差序列不存在自相關,可以認為回歸方程基本概括了因變量的變化;否則,認為可能一些與因變量相關的因素沒有引入回歸方程或回歸模型不合適或滯后性周期性的影響.第13頁/共77頁2023/1/1915線性回歸方程的殘差分析(四)異常值(casewise或outliers)診斷利用標準化殘差不僅可以知道觀察值比預測值大或小,并且還知道在絕對值上它比大多數殘差是大還是小.一般標準化殘差的絕對值大于3,則可認為對應的樣本點為奇異值異常值并不總表現出上述特征.當剔除某觀察值后,回歸方程的標準差顯著減小,也可以判定該觀察值為異常值第14頁/共77頁2023/1/1916線性回歸方程的預測(一)點估計y0(二)區間估計

x0為xi的均值時,預測區間最小,精度最高.x0越遠離均值,預測區間越大,精度越低.第15頁/共77頁2023/1/1917多元線性回歸分析(一)多元線性回歸方程多元回歸方程:

y=β0+β1x1+β2x2+...+βkxkβ1、β2、βk為偏回歸系數。β1表示在其他自變量保持不變的情況下,自變量x1變動一個單位所引起的因變量y的平均變動(二)多元線性回歸分析的主要問題回歸方程的檢驗自變量篩選多重共線性問題第16頁/共77頁2023/1/1918多元線性回歸方程的檢驗(一)擬和優度檢驗:(1)判定系數R2:R是y和xi的復相關系數(或觀察值與預測值的相關系數),測定了因變量y與所有自變量全體之間線性相關程度(2)調整的R2:考慮的是平均的剩余平方和,克服了因自變量增加而造成R2也增大的弱點在某個自變量引入回歸方程后,如果該自變量是理想的且對因變量變差的解釋說明是有意義的,那么必然使得均方誤差減少,從而使調整的R2得到提高;反之,如果某個自變量對因變量的解釋說明沒有意義,那么引入它不會造成均方誤差減少,從而調整的R2也不會提高。第17頁/共77頁2023/1/1919多元線性回歸方程的檢驗(二)回歸方程的顯著性檢驗:(1)目的:檢驗所有自變量與因變量之間的線性關系是否顯著,是否可用線性模型來表示.(2)H0:β1=β2=…=βk=0即:所有回歸系數同時與0無顯著差異(3)利用F檢驗,構造F統計量:F=平均的回歸平方和/平均的剩余平方和~F(k,n-k-1)如果F值較大,則說明自變量造成的因變量的線性變動大于隨機因素對因變量的影響,自變量于因變量之間的線性關系較顯著(4)計算F統計量的值和相伴概率p(5)判斷p<=a:拒絕H0,即:所有回歸系數與0有顯著差異,自變量與因變量之間存在顯著的線性關系。反之,不能拒絕H0第18頁/共77頁2023/1/1920多元線性回歸方程的檢驗(三)回歸系數的顯著性檢驗(1)目的:檢驗每個自變量對因變量的線性影響是否顯著.(2)H0:βi=0即:第i個回歸系數與0無顯著差異(3)利用t檢驗,構造t統計量:其中:Sy是回歸方程標準誤差(StandardError)的估計值,由均方誤差開方后得到,反映了回歸方程無法解釋樣本數據點的程度或偏離樣本數據點的程度如果某個回歸系數的標準誤差較小,必然得到一個相對較大的t值,表明該自變量xi解釋因變量線性變化的能力較強。(4)逐個計算t統計量的值和相伴概率p

(5)判斷第19頁/共77頁2023/1/1921多元線性回歸方程的檢驗(四)t統計量與F統計量一元回歸中,F檢驗與t檢驗一致,即:F=t2,可以相互替代在多元回歸中,F檢驗與t檢驗不能相互替代Fchange=ti2從Fchange

角度上講,如果由于某個自變量xi的引入,使得Fchange是顯著的(通過觀察Fchange

的相伴概率值),那么就可以認為該自變量對方程的貢獻是顯著的,它應保留在回歸方程中,起到與回歸系數t檢驗同等的作用。第20頁/共77頁2023/1/1922多元線性回歸分析中的自變量篩選(一)自變量篩選的目的多元回歸分析引入多個自變量.如果引入的自變量個數較少,則不能很好的說明因變量的變化;并非自變量引入越多越好.原因:有些自變量可能對因變量的解釋沒有貢獻自變量間可能存在較強的線性關系,即:多重共線性.因而不能全部引入回歸方程.第21頁/共77頁2023/1/1923多元線性回歸分析中的自變量篩選(二)自變量向前篩選法(forward):即:自變量不斷進入回歸方程的過程.首先,選擇與因變量具有最高相關系數的自變量進入方程,并進行各種檢驗;其次,在剩余的自變量中尋找偏相關系數最高的變量進入回歸方程,并進行檢驗;默認:回歸系數檢驗的概率值小于PIN(0.05)才可以進入方程.反復上述步驟,直到沒有可進入方程的自變量為止. 第22頁/共77頁2023/1/1924多元線性回歸分析中的自變量篩選(三)自變量向后篩選法(backward):即:自變量不斷剔除出回歸方程的過程.首先,將所有自變量全部引入回歸方程;其次,在一個或多個t值不顯著的自變量中將t值最小的那個變量剔除出去,并重新擬和方程和進行檢驗;默認:回歸系數檢驗值大于POUT(0.10),則剔除出方程如果新方程中所有變量的回歸系數t值都是顯著的,則變量篩選過程結束.否則,重復上述過程,直到無變量可剔除為止.第23頁/共77頁2023/1/1925多元線性回歸分析中的自變量篩選(四)自變量逐步篩選法(stepwise):即:是“向前法”和“向后法”的結合。向前法只對進入方程的變量的回歸系數進行顯著性檢驗,而對已經進入方程的其他變量的回歸系數不再進行顯著性檢驗,即:變量一旦進入方程就不回被剔除隨著變量的逐個引進,由于變量之間存在著一定程度的相關性,使得已經進入方程的變量其回歸系數不再顯著,因此會造成最后的回歸方程可能包含不顯著的變量。逐步篩選法則在變量的每一個階段都考慮的剔除一個變量的可能性。第24頁/共77頁2023/1/1926線性回歸分析中的共線性檢測(一)共線性帶來的主要問題高度的多重共線會使回歸系數的標準差隨自變量相關性的增大而不斷增大,以至使回歸系數的置信區間不斷增大,造成估計值精度減低.(二)共線性診斷自變量的容忍度(tolerance)和方差膨脹因子容忍度:Toli=1-Ri2.其中:Ri2是自變量xi與方程中其他自變量間的復相關系數的平方.容忍度越大則與方程中其他自變量的共線性越低,應進入方程.(具有太小容忍度的變量不應進入方程,spss會給出警)(T<0.1一般認為具有多重共線性)方差膨脹因子(VIF):容忍度的倒數SPSS在回歸方程建立過程中不斷計算待進入方程自變量的容忍度,并顯示目前的最小容忍度第25頁/共77頁2023/1/1927線性回歸分析中的共線性檢測(二)共線性診斷用特征根刻畫自變量的方差如果自變量間確實存在較強的相關關系,那么它們之間必然存在信息重疊,于是可從這些自變量中提取出既能反映自變量信息(方差)又相互獨立的因素(成分)來.從自變量的相關系數矩陣出發,計算相關系數矩陣的特征根,得到相應的若干成分.如果某個特征根既能夠刻畫某個自變量方差的較大部分比例(如大于0.7),同時又可以刻畫另一個自變量方差的較大部分比例,則表明這兩個自變量間存在較強的多重共線性。條件指標0<k<10無多重共線性;10<=k<=100較強;k>=100嚴重第26頁/共77頁2023/1/1928線性回歸分析中的異方差問題(一)什么是差異方差回歸模型要求殘差序列服從均值為0并具有相同方差的正態分布,即:殘差分布幅度不應隨自變量或因變量的變化而變化.否則認為出現了異方差現象(二)差異方差診斷可以通過繪制標準化殘差序列和因變量預測值(或每個自變量)的散點圖來識別是否存在異方差(三)異方差處理實施方差穩定性變換殘差與yi(預測值)的平方根呈正比:對yi開平方殘差與yi(預測值)呈正比:對yi取對數.殘差與yi(預測值)的平方呈正比,則1/yi第27頁/共77頁2023/1/1929多元線性回歸分析操作(一)基本操作步驟(1)菜單選項:analyze->regression->linear…(2)選擇一個變量為因變量進入dependent框(3)選擇一個或多個變量為自變量進入independent框(4)選擇多元回歸分析的自變量篩選方法:enter:所選變量全部進入回歸方程(默認方法)remove:從回歸方程中剔除變量stepwise:逐步篩選;backward:向后篩選;forward:向前篩選(5)對樣本進行篩選(selectionvariable)利用滿足一定條件的樣本數據進行回歸分析(6)指定作圖時各數據點的標志變量(caselabels)第28頁/共77頁2023/1/1930多元線性回歸分析操作(二)statistics選項(1)基本統計量輸出Partandpartialcorrelation:與Y的簡單相關、偏相關和部分相關Rsquarechange:每個自變量進入方程后R2及F值的變化量Collinearitydignostics:共線性診斷.第29頁/共77頁2023/1/1931多元線性回歸分析操作(三)options選項:steppingmethodcriteria:逐步篩選法參數設置.useprobabilityofF:以F值相伴概率作為變量進入和剔除方程的標準.一個變量的F值顯著性水平小于entry(0.05)則進入方程;大于removal(0.1)則剔除出方程.因此:Entry<removaluseFvalue:以F值作為變量進入(3.84)和剔除(2.71)方程的標準(四)save選項:

將回歸分析結果保存到數據編輯窗口中或某磁盤文件中第30頁/共77頁2023/1/1932曲線估計(curveestimate)(一)目的:

在一元回歸分析或時間序列中,因變量與自變量(時間)之間的關系不呈線性關系,但通過適當處理,可以轉化為線性模型.可進行曲線估計.(二)曲線估計的常用模型:y=b0+b1t (線性擬和linear)y=b0+b1t+b2t2 (二次曲線quadratic)y=b0+b1t+b2t2+b3t3 (三次曲線cubic) t為時間,也可為某一自變量.第31頁/共77頁2023/1/1933曲線估計(curveestimate)(三)基本操作步驟(1)繪制散點圖,觀察并確定模型.(2)菜單選項:analyze->regression->curveestimation(3)選擇因變量到dependent框(4)

選擇自變量到independent框或選time以時間作自變量(5)選擇模型(R2最高擬和效果最好)第32頁/共77頁2023/1/1934曲線估計(curveestimate)(四)其他選項(1)displayANOVAtable:方差分析表(2)plotmodels:繪制觀察值和預測值的對比圖.(3)save選項:predictedvalues:保存預測值.Residual:保存殘差值.predictioninterval:保存預測值的默認95%的可置信區間.Predictcase:以time作自變量進行預測.Predictfromestimationperiodthroughlastcase:計算保存所有預測值.Predictthrough:如果預測周期超過了數據文件的最后一個觀測期,選擇此項,并輸入預測期數.第33頁/共77頁2023/1/1935線性回歸分析的內容能否找到一個線性組合來說明一組自變量和因變量的關系如果能的話,這種關系的強度有多大,也就是利用自變量的線性組合來預測因變量的能力有多強整體解釋能力是否具有統計上的顯著性意義在整體解釋能力顯著的情況下,哪些自變量有顯著意義回歸分析的一般步驟確定回歸方程中的解釋變量(自變量)和被解釋變量(因變量)確定回歸方程對回歸方程進行各種檢驗利用回歸方程進行預測9.1線性回歸分析概述第34頁/共77頁2023/1/19368.4.2線性回歸模型一元線性回歸模型的數學模型:其中x為自變量;y為因變量;為截距,即常量;為回歸系數,表明自變量對因變量的影響程度。第35頁/共77頁2023/1/1937

用最小二乘法求解方程中的兩個參數,得到:第36頁/共77頁2023/1/1938多元線性回歸模型多元線性回歸方程:

y=β0+β1x1+β2x2+...+βkxkβ1、β2、βk為偏回歸系數。β1表示在其他自變量保持不變的情況下,自變量x1變動一個單位所引起的因變量y的平均變動。第37頁/共77頁2023/1/1939

8.4.3線性回歸方程的統計檢驗8.4.3.1回歸方程的擬合優度回歸直線與各觀測點的接近程度稱為回歸方程的擬合優度,也就是樣本觀測值聚集在回歸線周圍的緊密程度。1、離差平方和的分解:建立直線回歸方程可知:y的觀測值的總變動可由來反映,稱為總變差。引起總變差的原因有兩個:由于x的取值不同,使得與x有線性關系的y值不同;隨機因素的影響。第38頁/共77頁2023/1/1940xy第39頁/共77頁2023/1/1941總離差平方和可分解為

即:總離差平方和(SST)=剩余離差平方和(SST)+回歸離差平方和(SSR)

其中;SSR是由x和y的直線回歸關系引起的,可以由回歸直線做出解釋;SSE是除了x對y的線性影響之外的隨機因素所引起的Y的變動,是回歸直線所不能解釋的。第40頁/共77頁2023/1/19422、可決系數(判定系數、決定系數)

回歸平方和在總離差平方和中所占的比例可以作為一個統計指標,用來衡量X與Y的關系密切程度以及回歸直線的代表性好壞,稱為可決系數。對于一元線性回歸方程:第41頁/共77頁2023/1/1943對于多元線性回歸方程:

在多元線性回歸分析中,引起判定系數增加的原因有兩個:一個是方程中的解釋變量個數增多,另一個是方程中引入了對被解釋變量有重要影響的解釋變量。如果某個自變量引入方程后對因變量的線性解釋有重要貢獻,那么必然會使誤差平方和顯著減小,并使平均的誤差平方和也顯著減小,從而使調整的判定系數提高。所以在多元線性回歸分析中,調整的判定系數比判定系數更能準確的反映回歸方程的擬合優度。第42頁/共77頁2023/1/19448.4.3.2回歸方程的顯著性檢驗(方差分析F檢驗)回歸方程的顯著性檢驗是要檢驗被解釋變量與所有的解釋變量之間的線性關系是否顯著。對于一元線性回歸方程,檢驗統計量為:對于多元線性回歸方程,檢驗統計量為:第43頁/共77頁2023/1/19458.4.3.3回歸系數的顯著性檢驗(t檢驗)回歸系數的顯著性檢驗是要檢驗回歸方程中被解釋變量與每一個解釋變量之間的線性關系是否顯著。對于一元線性回歸方程,檢驗統計量為:

第44頁/共77頁2023/1/1946對于多元線性回歸方程,檢驗統計量為:第45頁/共77頁2023/1/19478.4.3.4殘差分析

殘差是指由回歸方程計算得到的預測值與實際樣本值之間的差距,定義為:

對于線性回歸分析來講,如果方程能夠較好的反映被解釋變量的特征和規律性,那么殘差序列中應不包含明顯的規律性。殘差分析包括以下內容:殘差服從正態分布,其平均值等于0;殘差取值與X的取值無關;殘差不存在自相關;殘差方差相等。

第46頁/共77頁2023/1/19481、對于殘差均值和方差齊性檢驗可以利用殘差圖進行分析。如果殘差均值為零,殘差圖的點應該在縱坐標為0的中心的帶狀區域中隨機散落。如果殘差的方差隨著解釋變量值(或被解釋變量值)的增加呈有規律的變化趨勢,則出現了異方差現象。2、DW檢驗。DW檢驗用來檢驗殘差的自相關。檢驗統計量為:

DW=2表示無自相關,在0-2之間說明存在正自相關,在2-4之間說明存在負的自相關。一般情況下,DW值在1.5-2.5之間即可說明無自相關現象。第47頁/共77頁2023/1/19498.4.3.5多重共線性分析

多重共線性是指解釋變量之間存在線性相關關系的現象。測度多重共線性一般有以下方式:1、容忍度:其中,是第i個解釋變量與方程中其他解釋變量間的復相關系數的平方,表示解釋變量之間的線性相關程度。容忍度的取值范圍在0-1之間,越接近0表示多重共線性越強,越接近1表示多重共線性越弱。2、方差膨脹因子VIF。方差膨脹因子是容忍度的倒數。VIF越大多重共線性越強,當VIF大于等于10時,說明存在嚴重的多重共線性。

第48頁/共77頁2023/1/19503、特征根和方差比。根據解釋變量的相關系數矩陣求得的特征根中,如果最大的特征根遠遠大于其他特征根,則說明這些解釋變量間具有相當多的重復信息。如果某個特征根既能夠刻畫某解釋變量方差的較大部分比例(0.7以上),又能刻畫另一解釋變量方差的較大部分比例,則表明這兩個解釋變量間存在較強的線性相關關系。4、條件指數。指最大特征根與第i個特征根比的平方根。通常,當條件指數在0-10之間時說明多重共線性較弱;當條件指數在10-100之間說明多重共線性較強;當條件指數大于100時說明存在嚴重的多重共線性。

第49頁/共77頁2023/1/19518.4.3線性回歸分析的基本操作(1)選擇菜單Analyze-Regression-Linear,出現窗口:第50頁/共77頁2023/1/1952(2)選擇被解釋變量進入Dependent框。(3)選擇一個或多個解釋變量進入Independent(s)框。(4)在Method框中選擇回歸分析中解釋變量的篩選策略。其中Enter表示所選變量強行進入回歸方程,是SPSS默認的策略,通常用在一元線性回歸分析中;Remove表示從回歸方程中剔除所選變量;Stepwise表示逐步篩選策略;Backward表示向后篩選策略;Forward表示向前篩選策略。第51頁/共77頁2023/1/1953注:多元回歸分析中,變量的篩選一般有向前篩選、向后篩選、逐步篩選三種基本策略。向前篩選(Forward

)策略:解釋變量不斷進入回歸方程的過程。首先,選擇與被解釋變量具有最高線性相關系數的變量進入方程,并進行回歸方程的各種檢驗;然后,在剩余的變量中尋找與被解釋變量偏相關系數最高且通過檢驗的變量進入回歸方程,并對新建立的回歸方程進行各種檢驗;這個過程一直重復,直到再也沒有可進入方程的變量為止。向后篩選(Backward

)策略:變量不斷剔除出回歸方程的過程。首先,所有變量全部引入回歸方程,并對回歸方程進行各種檢驗;然后,在回歸系數顯著性檢驗不顯著的一個或多個變量中,剔除t檢驗值最小的變量,并重新建立第52頁/共77頁2023/1/1954

回歸方程和進行各種檢驗;如果新建回歸方程中所有變量的回歸系數檢驗都顯著,則回歸方程建立結束。否則按上述方法再一次剔除最不顯著的變量,直到再也沒有可剔除的變量為止。逐步篩選(Stepwise

)策略:在向前篩選策略的基礎上結合向后篩選策略,在每個變量進入方程后再次判斷是否存在應該剔除出方程的變量。因此,逐步篩選策略在引入變量的每一個階段都提供了再剔除不顯著變量的機會。第53頁/共77頁2023/1/1955(5)第三和第四步中確定的解釋變量及變量篩選策略可放置在不同的塊(Block)中。通常在回歸分析中不止一組待進入方程的解釋變量和相應的篩選策略,可以單擊Next和Previous按鈕設置多組解釋變量和變量篩選策略并放置在不同的塊中。(6)選擇一個變量作為條件變量放到Selection

Variable框中,并單擊Rule按鈕給定一個判斷條件。只有變量值滿足判定條件的樣本才參與線性回歸分析。(7)在CaseLabels框中指定哪個變量作為樣本數據點的標志變量,該變量的值將標在回歸分析的輸出圖形中。第54頁/共77頁2023/1/19568.4.4線性回歸分析的其他操作1、Statistics按鈕,出現的窗口可供用戶選擇更多的輸出統計量。第55頁/共77頁2023/1/1957(1)Estimates:SPSS默認輸出項,輸出與回歸系數相關的統計量。包括回歸系數(偏回歸系數)、回歸系數標準誤差、標準化回歸系數、回歸系數顯著性檢驗的t統計量和概率p值,各解釋變量的容忍度。(2)ConfidenceIntervals:輸出每個非標準化回歸系數95%的置信區間。(3)Descriptive:輸出各解釋變量和被解釋變量的均值、標準差、相關系數矩陣及單側檢驗概率p值。第56頁/共77頁2023/1/1958(4)Modelfit:SPSS默認輸出項,輸出判定系數、調整的判定系數、回歸方程的標準誤差、回歸方程顯著F檢驗的方程分析表。(5)Rsquaredchange:輸出每個解釋變量進入方程后引起的判定系數的變化量和F值的變化量。(6)Partandpartialcorrelation:輸出方程中各解釋變量與被解釋變量之間的簡單相關、偏相關系數。第57頁/共77頁2023/1/1959(7)Covariancematrix:輸出方程中各解釋變量間的相關系數、協方差以及各回歸系數的方差。(8)CollinearityDiagnostics:多重共線性分析,輸出各個解釋變量的容忍度、方差膨脹因子、特征值、條件指標、方差比例等。(9)在Residual框中:Durbin-waston表示輸出DW檢驗值;CasewiseDiagnostic表示輸出標準化殘差絕對值大于等于3(SPSS默認值)的樣本數據的相關信息,包括預測值、殘差、杠桿值等。第58頁/共77頁2023/1/19602、Options選項,出現的窗口可供用戶設置多元線性回歸分析中解釋變量篩選的標準以及缺失值的處理方式。3、Plot選項,出現的窗口用于對殘差序列的分析。第59頁/共77頁2023/1/1961(1)窗口左邊框中各變量名的含義是:DEPENDNT表示被解釋變量,*ZPRED表示標準化預測值,*ZRESID表示標準化殘差,*DRESID表示剔除殘差,*ADJPRED表示調整的預測值,*SRESID表示學生化殘差,*SDRESID表示剔除學生化殘差。(2)繪制多對變量的散點圖,可根據需要在scatter框中定義散點圖的縱坐標和橫坐標變量。(3)在StandardizedResidualPlots框中選擇Histogram選項繪制標準化殘差序列的直方圖;選擇Normalprobabilityplot繪制標準化殘差序列的正態分布累計概率圖。選擇Produceallpartial

plots選項表示依次繪制被解釋變量和各個解釋變量的散點圖。第60頁/共77頁2023/1/19624、Save選項,該窗口將回歸分析的某些結果以SPSS變量的形式保存到數據編輯窗口中,并可同時生成XML格式的文件,便于分析結果的網絡發布。(1)PredictedValues框中:保存非標準化預測值、標準化預測值、調整的預測值和預測值的均值標準誤差。(2)Distance框中:保存均值或個體預測值95%(默認)置信區間的下限值和上限值。(3)Residual框中:保存非標準化殘差、標準化殘差等。(4)InfluenceStatistics框中:保存剔除第i個樣本后統計量的變化量。5、WSL選項,采用加權最小二乘法替代普通最小二乘法估計回歸參數,并指定一個變量作為權重變量。第61頁/共77頁2023/1/1963

以高校科研研究數據為例,建立回歸方程研究

1、課題總數受論文數的影響

2、以課題總數為被解釋變量,解釋變量為投入人年數(X2)、受投入高級職稱的人年數(X3)、投入科研事業費(X4)、專著數(X6)、論文數(X7)、獲獎數(X8)。(1)解釋變量采用強制進入策略(Enter),并做多重共線性檢測。(2)解釋變量采用向后篩選策略讓SPSS自動完成解釋變量的選擇。(3)解釋變量采用逐步篩選策略讓SPSS自動完成解釋變量的選擇。

8.4.5應用舉例第62頁/共77頁2023/1/19641、為研究收入和支出的關系,收集1978-2002年我國的年人均可支配收入和年人均消費性支出數據,研究收入與支出之間是否具有較強的線性關系。2、以年人均支出和教育數據為例,建立回歸方程研究年人均消費支出、恩格爾系數、在外就餐、教育支出、住房人均使用面積受年人均可支配收入的影響。練習第63頁/共77頁2023/1/19659.7曲線估計9.7.1曲線估計概述變量間的相關關系中,并不總是表現出線性關系,非線性關系也是極為常見的。變量之間的非線性關系可以劃分為本質線性關系和本質非線性關系。本質線性關系是指變量關系形式上雖然呈非線性關系,但可通過變量變換為線性關系,并最終可通過線性回歸分析建立線性模型。本質非線性關系是指變量關系不僅形式上呈非線性關系,而且也無法變換為線性關系。本節的曲線估計是解決本質線性關系問題的。第64頁/共77頁2023/1/1966常見的本質線性模型有:1、二次曲線(Quadratic),方程為,變量變換后的方程為2、復合曲線(Compound),方程為,變量變換后的方程為3、增長曲線(Growth),方程為,變量變換后的方程為第65頁/共77頁2023/1/19674、對數曲線(Logarithmic),方程為,變量變換后的線性方程為5、三次曲線(Cubic),方程為,變量變換后的方程為6、S曲線(S),方程為,變量變換后的方程為7、指數曲線(Exponential),方程為,變量變換后的線性方程為第66頁/共77頁2023/1/19688、逆函數(Inverse),方程為變量變換后的方程為9、冪函數(Power),方程為變量變換后的方程為10、邏輯函數(

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論