




版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
實驗數據分析方法實驗數據分析方法_Chap.61第一頁,共六十六頁,2022年,8月28日實驗數據分析方法_Chap.62第六章回歸分析
回歸分析是處理變量與變量之間統計相關關系的一種數理統計方法。在觀測天文學中,它是最基本的、被頻繁使用的統計工具。
變量間的統計相關關系是指變量間的關系是非確定性的。例如,某一天的氣溫與氣壓的關系;星系中氫含量與色指數、光度的關系;太陽耀斑與黑子相對數、某波段太陽射電輻射流量等因素的關系等。造成變量間關系的不確定性的原因通常有兩個方面:一是,在影響一個量的眾多因素中,有些是屬于人們尚未認識或掌握的;另一個原因是,與所用儀器的精度或觀測條件有關的觀測誤差及其它隨機因素的影響。但人們也發現,只要對這種存在不確定性關系的變量進行大量觀測或實驗,就可能會找到它們蘊藏的內在規律。也就是說,在一定條件下,從統計的意義上來說,它們又可能存在某種確定的關系。通常,把變量之間這種不完全確定的關系稱為統計相關關系。
第二頁,共六十六頁,2022年,8月28日實驗數據分析方法_Chap.63雖然統計相關關系和函數關系(變量間的關系完全是確定的)是兩種不同類型的變量關系,但它們之間也不是一成不變的:一方面,在理論上有函數關系的幾個變量由于觀測誤差的影響,每次測得變量的數值之間并不是準確的滿足這種函數關系,造成某種不確定性;另一方面,當人們對事物的規律性了解得更加深入時,相關關系又可能轉化為函數關系。事實上,自然科學中的許多定理、公式正是通過對研究對象的大量觀測數據的分析處理,通過總結和提高得到的。
回歸分析就是利用大量的觀測數據來確定變量間的相關關系的一種數學方法。在觀測天文學中,回歸分析常被用來定量描述某一研究對象兩個特征量之間的顯式關系;校準和量化對宇宙大尺度結構研究極其重要的“宇宙距離尺度”;在激光測月的資料處理中,回歸分析也起了很重要的作用。第三頁,共六十六頁,2022年,8月28日實驗數據分析方法_Chap.64總的來說,回歸分析所要解決的主要問題是:1、從一組數據出發,確定這些變量之間的數學表達式——回歸方程或經驗公式;2、對回歸方程的可信程度進行統計檢驗;3、進行因素分析,例如從對共同影響一個變量的許多變量(因素)中,找出哪些是重要因素、哪些是次要因素。第四頁,共六十六頁,2022年,8月28日實驗數據分析方法_Chap.65在許多情況下,兩個變量之間的相關關系呈線性關系,它是統計相關關系中最簡單的一種,也是天文上實際問題中最常見的情況。我們的目的則是要找出能描述這兩個變量之間的線性相關關系的定量表達式。
對于兩個大致成線性關系的變量y和x,通常用如下的回歸模型來描述它們之間的線性相關關系:§6.1一元線性回歸6.1.1一元線性回歸模型及參數估計式中,x稱為自變量或預測變量,y為因變量,0,為待定的模型參數,
是隨機誤差項,它表示除自變量x以外的隨機因素對因變量y影響的總和。第五頁,共六十六頁,2022年,8月28日實驗數據分析方法_Chap.66設由觀測得到y,x的N組數據(yk,xk),k=1―N,代人上式得:
對誤差項k,規定E(k)=0,2(k)=2,當k≠j時,k與j不相關,即協方差cov(k,j)=0。鑒于對隨機誤差項k的上述規定,不難得知因變量yk是隨機變量,它們都來自均值E(yk)=0+xk。方差為2的概率分布,且任何兩個觀測值之間是互不相關的。上面我們對k的分布沒有作任何規定,無論k具有什么樣的分布函數,我們都可以使用最小二乘法求得參數0,的估計值。但是在進行區間估計和檢驗時,需要對k的分布函數的形式作出假設,通常的假設是誤差項k~N(0,2),即k服從均值為0、方差為2的正態分布。因為誤差項通常代表模型中略去的許多因素的影響,這些因素在一定范圍內影響因變量取值,并且隨機的變化:依中心極限定理,它們近似服從正態分布。第六頁,共六十六頁,2022年,8月28日實驗數據分析方法_Chap.67當假設誤差項k為正態分布時,上述模型被稱為正態誤差回歸模型。下圖給出了正態誤差回歸模型的圖示:對于形如前式的模型,回歸分析的任務是找到回歸參數0,
的“好”的估計量,從而得到一條最能描述y和x關系的回歸直線(見上圖中的直線),它的方程可表為:式中b0,b為參數0,
的估計值,yk為y的回歸值。第七頁,共六十六頁,2022年,8月28日實驗數據分析方法_Chap.68下面我們利用最小二乘準則給出b0,b的計算公式:由最小二乘原理,b0,b應該是滿足殘差平方和最小的解,記則利用Q=min可得正規方程組:
解之可得:第八頁,共六十六頁,2022年,8月28日實驗數據分析方法_Chap.69其中在給定參數估計值b,b0后,可得到相應的回歸方程(或回歸函數)為:由于yk是均值為方差為2的隨機變量,對上述正規方程組及其解的形式稍加改變,并利用概率統計知識,可以得到:這表明回歸參數的最小二乘估計是無偏估計,它們的方差和隨機變量的方差2,觀測數據的個數N及自變量的取值范圍的大小有關;在相同2的條件下,觀測次數越多,自變量取值范圍越大,估計值的方差就越小。第九頁,共六十六頁,2022年,8月28日實驗數據分析方法_Chap.610在前一小節中,我們在兩個變量大致成線性關系的假定下,利用最小二乘法得到了描述這兩個變量相關關系的回歸直線方程。就這種數學方法本身而言,可以不加任何條件的約束:對任一組數據(xk,yk),k=1-N,都可由回歸方程組求出一組b0,b,從而得到一條回歸直線。但并非對每一組數據配的回歸直線都有實際意義:例如對平面上分布完全雜亂無章的散點所配的直線就毫無意義。因此,通常在求得直線回歸方程以后必須進行檢驗,判別所配直線是否有實際意義。如果檢驗結果回歸方程是顯著的,則表明所配回歸直線揭示了因變量y與自變量x之間有較強的線性相關性;如果檢驗結果回歸方程不顯著,則表明所配回歸直線沒有實際意義。衡量回歸效果好壞的標準6.1.2回歸方程的顯著性檢驗在回歸分析中,通常把因變量y看作為隨機變量,并稱某一次觀測的實際觀測值yk與它的平均值的差為離差,N次觀測的離差平方和稱為總平方和,用lyy表示,即:第十頁,共六十六頁,2022年,8月28日實驗數據分析方法_Chap.611將總平方和進行分解,有:上式右邊第一項是觀測值與回歸值之差的平方和,也就是殘差平方和,有時也稱它為剩余平方和,用Q表示。Q又可表為:
—它是除了x對y的線性影響之外的一切因素(包括x對y的非線性影響)對y值變化的影響。上式右邊第二項是回歸值?與平均值之差的平方和,我們稱它為回歸平方和,并記為U:—可以看出,回歸平方和U是由于x的變化而引起的。因此U反映了在y的總的變化中由于x和y的線性關系而引起的y的變化部分。
這樣我們就把引起因變量y變化的兩方面原因從數量上分開了。第十一頁,共六十六頁,2022年,8月28日實驗數據分析方法_Chap.612即從回歸平方和U和剩余平方和Q的意義很易說明,回歸效果的好壞取決于U和Q的大小。下面我們從假設檢驗的角度來給出衡量回歸效果好壞或判別回歸方程顯著與否的標準。(一)F檢驗法假設檢驗必須要給出原假設,在討論兩個變量之間是否有線性關系時,主要就是要檢驗模型中模型參數是否為零:如果=0,則兩個變量之間無線性關系。因此,我們把“=0”作為檢驗的原假設H0。有了原假設后就要構造一個統計量,這個統計量必須滿足三個條件:(1)能用樣本值計算得到;(2)和原假設有關;(3)已知這個統計量的分布。根據這三個條件,統計量應該從反映y變化的回歸平方和及剩余平方和中去找。利用正交線性變換可以證明:總平方和、回歸平方和、剩余平方和都是變量2,且有:第十二頁,共六十六頁,2022年,8月28日實驗數據分析方法_Chap.613并且,當=O成立時回歸平方和與剩余平方和是相互獨立的。故構成如下的統計量:因總平方和lyy的自由度F總=FU+FQ,所以統計量F是服從第一自由度為l,第二自由度為N―2的F分布。確定了統計量F的分布以后,對給定的顯著水平α(0.01,0.05,0.1),由F分布表查出置信限Fα(1,N-2):這意味著p(F<Fα(1,N-2))=1-α,而F>Fα(1,N-2)是否定域。因此,如果由樣本算出的統計量F>Fα(1,N-2),說明原假設H0不成立,我們則稱回歸直線方程是顯著的:且對于F>F0.01(1,N-2)的情況屬于高度顯著,對F>F0.05(1,N-2)的情況,稱為在0.05水平上顯著,對F>F0.1(1,N-2)的情況是在0.1水平上顯著。當F<Fα(1,N-2)時,則稱回歸方程在α水平上不顯著,表明所求得回歸直線沒有實際意義。這種檢驗方法就稱為F檢驗法。在統計學中,也通常把上面的檢驗過程稱為方差分析。()第十三頁,共六十六頁,2022年,8月28日實驗數據分析方法_Chap.614F檢驗的步驟可歸納如下:(1)建立原假設H0:=0。(2)確定統計量,確定其分布(3)給定顯著水平α,由分布表查得置信限:
Fα(1,N-2)
(4)由樣本計算統計量F,(5)作出顯著性判斷:若F>Fα(1,N-2),則回歸方程顯著;若F<Fα(1,N-2),則回歸方程不顯著.例試利用40個B型旋渦星系SD的氫含量(MH/MT)、色指數(B-V)0的資料,求出它們之間的回歸關系,并檢驗回歸結果是否顯著。(見書P125)第十四頁,共六十六頁,2022年,8月28日實驗數據分析方法_Chap.615回歸平方和U反映了在y的總變化中由于x與y的線性關系而引起的部分。因此,可以用U在總平方和lyy中所占的比例大小來衡量回歸效果好壞.通常,用r2表示比值U/lyy,并稱為x與y的相關系數。
(二)相關系數檢驗法由r的定義可知r<l。當r的絕對值較大時,說明y與x的線性相關較密切;r的絕對值較小時,說明y與x的線性相關程度較弱,這時散點離回歸直線較分散;當r=1時,所有的點都在回歸直線上,表示y與x完全線性相關;而當r=0時,則表示y與x毫無線性關系。下圖顯示了不同線性相關系數散點的分布情況。第十五頁,共六十六頁,2022年,8月28日實驗數據分析方法_Chap.616第十六頁,共六十六頁,2022年,8月28日實驗數據分析方法_Chap.617從上面的討論看出,相關系數r可用來衡量兩變量之間線性相關的密切程度。但在一個具體問題中,r應大到什么程度才能認為它們之間確實存在線性相關關系,方可用一條回歸直線來表示?這需要規定一個指標,作為鑒定回歸方程是否有效的標準:當實際計算的相關系數r達到或超過該指標時,就認為r顯著。為此,應建立相關系數的顯著性檢驗方法,并列出在各個顯著水平下,由相關系數的概率分布計算得到的相關系數檢驗表:表中α是顯著水平,N為觀測數據個數。對于某一α和N,可在表中查得相應的相關系數r達到顯著的最小值rα。如由觀測數據算出的r>rα,則認為相關系數在α水平上顯著,這時就認為對x和y所配的回歸直線有意義;反之,若相關系數不顯著,對x和y所配的回歸直線就沒有實際意義。例如,樣本個數N=30,對α=0.05由N-2=28,查得rα=0.36l:若由樣本算得r>0.361,則說明它在α=0.05的水平上顯著;但若r<0.463(r0.01)則說明它在α=0.0l水平上不顯著。α越小,顯著程度越高。可以證明,相關系數顯著性檢驗和回歸方程F檢驗是完全等價的。
第十七頁,共六十六頁,2022年,8月28日實驗數據分析方法_Chap.618rααk0.100.050.020.010.001αrαk
1234567891011121314151617181920253035404550607080901000.98770.90000.80540.72930.66940.62150.58220.54940.52140.49730.47620.45750.44090.42590.41240.40000.38870.37830.36870.35980.32330.29600.27460.25730.24280.23060.21080.19540.18290.17260.16380.99690.95000.87830.81140.75450.70670.66640.63190.60210.57600.55290.53240.51390.49730.48210.46830.45550.44380.43290.42270.38090.34940.32460.30440.28750.27320.25000.23190.21720.20500.19460.99950.98000.93430.88220.83290.78870.74980.71550.68510.65810.63390.61200.59230.57420.55770.54250.52850.51550.50340.49210.44510.40930.38100.35780.33840.32180.29480.27370.25650.24220.23010.99990.99000.95870.91720.87450.83430.79770.76460.73480.70790.68350.66140.64110.62260.60550.58970.57510.56140.54870.53680.48690.44870.41820.39320.37210.35410.32480.30170.28300.26730.25400.99990.99900.99120.97410.95070.92490.89820.87210.84710.82330.80100.78000.76030.74200.72460.70840.69320.67870.66520.65240.59740.55410.51890.48960.46480.44330.40780.37990.35680.33750.3211123456789101112131415161718192025303540455060708090100第十八頁,共六十六頁,2022年,8月28日實驗數據分析方法_Chap.619對回歸方程的顯著性檢驗實際上是對回歸模型的檢驗。在這一小節中,我們進一步對回歸系數及回歸值的精度進行討論,即給出它們的置信區間,這對了解利用回歸方程進行預測的精度很有實際意義。6.1.3回歸系數和回歸值的估計精度(一)回歸系數β的置信區間由回歸系數的估計值b的計算公式,在k為正態分布的假定下,我們可以得到故有:利用參數的區間估計的基本原理可得的區間估計為第十九頁,共六十六頁,2022年,8月28日實驗數據分析方法_Chap.620或說估計量b的精度為這里Nα為正態分布位數,由正態分布表查得,2為誤差項的方差。一般情況下,2是未知的,常使用它的無偏估計量—剩余均方差來代替,即:這時有相應β的區間估計為
在得到回歸方程以后,對于任一給定的自變量xi,回歸值就是實際值的估值。但由于參數估值b0,b是隨機變量,因此因變量yi的估值是有誤差的。下面我們推出這個估計值的精度公式,進而討論利用回歸方程進行預測的問題。1/21/2yyyy(二)回歸值的置信區間第二十頁,共六十六頁,2022年,8月28日實驗數據分析方法_Chap.621定義殘差δi為實際值yi與回歸值之差,有:及:第二十一頁,共六十六頁,2022年,8月28日實驗數據分析方法_Chap.622若用δ代替δi,用x代替xi,則
這表明,回歸值對實際值的偏離
和隨機誤差項的方差2、觀測數據量及觀測點x與x的偏離有關,N越大,x越靠近x,相應殘差的方差就越小。由于,y均屬于正態分布,所以也屬正態分布,由前式可得:于是,對于給定的顯著水平α,利用概率統計知識可得:式中第二十二頁,共六十六頁,2022年,8月28日實驗數據分析方法_Chap.623則得y的置信區間或置信帶為:根據正態分布理論,y將以
99.7%概率落在區間?±3δN內;95.4%概率落在區間?±2δN內;68.3%概率落在區間?±δN內。
y的置信帶的示意圖第二十三頁,共六十六頁,2022年,8月28日實驗數據分析方法_Chap.624由上圖不難看出,對于某一自變量x0,因變量的取值是以為中心對稱分布的,分布的范圍由δN的大小決定。由于一般情況δ2是未知的,若用它的無偏估計代替,則得回歸的誤差為:當N較大,且x靠近時,有:這時估計值的誤差僅由剩余均方差決定,故而通常將剩余的均方差Sy2作為衡量回歸方程精度的指標。
預測問題與回歸方程的誤差問題是密切聯系的:對觀測數據以外的任一給定的自變量xo,相應的因變量可由回歸方程得到。根據回歸方程的誤差范圍可知,是預測的最佳值,而回歸方程的誤差范圍也就是預測值的誤差范圍:N愈大,且靠近自變量的平均值附近時,,預測的精度就愈高。這說明,回歸方程的適用范圍一般僅局限于原來觀測數據范圍,即適用于用來進行所缺數據的補插,而超出這個范圍時預測精度就較差。第二十四頁,共六十六頁,2022年,8月28日實驗數據分析方法_Chap.625一元回歸模型有以下幾個基本假定:1)變量間真正的關系是線性的;2)因變量y是隨機變量,x是自變量并不包含誤差;3)隨機誤差項為零均值、同方差;4)因變量觀測值是相互獨立的。
當這些假定中的任一個不滿足時,所得回歸方程就不是嚴格有效的。6.1.4一元線性回歸及其在天文上的應用
控制是預測的逆問題。要求因變量y在某區間(y1,y2)內取值時,則應把自變量x控制在什么范圍內?也就是要求相應的(x1,x2),使x1<x<x2時,相應的y至少以1-α的置信水平落在區間(y1,y2)內。第二十五頁,共六十六頁,2022年,8月28日實驗數據分析方法_Chap.626例如在哈勃圖中,一個星系樣本可能具有精度為0.1的星等測量誤差和精度為0.001的紅移測量誤差,但不同星系本身的光度和非哈勃運動可能導致大于星等測量不確定度一個量級的彌散!又如,觀測數據也具有各種各樣的特性,有的可能是正態分布,有的則非正態,有的又是異方差的;離散的程度有的只依賴于一個變量,有的則依賴于兩個甚至多個變量!另外,回歸分析的目的也不總是相同:有的是需要最佳的斜率估計,而有的則是利用回歸方程進行預測。鑒于上述這些情況,對具有線性統計相關關系的兩個變量總用基于因變量y的殘差平方和最小的一元回歸方法得到回歸結果并不是最佳的,反之有時甚至是錯誤的!在實際應用中,由于多種原因這些假定不一定都滿足。觀測天文學中最常見的是:x通常也是觀測量,它是有誤差的,因此兩個變量所處的位置是對稱的,不能明確指定哪個是因變量哪個是自變量;另外,數據的內稟離散和觀測誤差相比占了很大的比例,亦即我們在前面提到過的除了觀測誤差之外,兩個變量間關系本身的不確定性較突出。第二十六頁,共六十六頁,2022年,8月28日實驗數據分析方法_Chap.627正因為如此,在19世紀就已問世的線性回歸方法的統計研究在目前仍十分活躍。除了提出一些非最小二乘線性回歸,如穩健回歸和對于多變量問題的貝葉斯回歸外,還提出了好幾種最小二乘線性回歸方法。90年代初期,美國天文學家Isobe&Feigelson等對雙變量數據提出了五種線性回歸方法:普通最小二乘回歸(OLS(Y|X))、X對Y的回歸(OLS(X|Y))、正交回歸(orthogonalregression,簡記為OR)、簡化主軸回歸(reducedmajor-axisregression,簡記為RMA)和回歸平分線,并討論了它們的特性及在觀測天文學特別是在宇宙距離尺度研究中的應用。第二十七頁,共六十六頁,2022年,8月28日實驗數據分析方法_Chap.628a)OLS(Y|X):觀測點和回歸直線上同一x的y的差,b)逆回歸OLS(X|Y):觀測點和回歸直線上相應點x值之差,即點到回歸線的水平距離c)正交回歸線OR:觀測點到回歸線的垂直距離,即d)簡化主軸回歸RMA:觀測點對回歸線在垂直、水平兩個方向測量的距離。第二十八頁,共六十六頁,2022年,8月28日實驗數據分析方法_Chap.629利用觀測點到回歸直線距離的極小化原理和估計理論,經過復雜的推導可以得到各種方法的斜率j及其方差var(j)的估計(見書)下面我們首先給出把五種回歸方法應用到一個實際的天文例子中,即橢圓星系中恒星的速度彌散和其光學光度之間的關系:L?n(Faber-Jackson關系)。研究這個問題的目的是:①從的測量值估計星系的光度,亦即到星系的距離;②比較n的經驗測量值和從橢圓星系形成模型預測的值。下圖示出L和的測量數據及利用五種回歸方法的系數公式得到的5根回歸線。計算的斜率是:OLS(L|):2.4±0.4;OLS(|L):5.4±0.8;OLS平分線:3.4±0.4;RMA:3.6±0.4和OR:5.2±0.8。這個結果表明關于距離和星系形成模型的結論明顯依賴于所采用的回歸方法,而五種回歸線之間的離差大于任何一種估計的方差!第二十九頁,共六十六頁,2022年,8月28日實驗數據分析方法_Chap.6301.OLS(Y|X)2.OLS(X|Y)3.OLS平分線(點虛線)4.OR(虛線)5.RMA(點線)第三十頁,共六十六頁,2022年,8月28日實驗數據分析方法_Chap.631為了說明各種回歸方法的特性和它們的適用性,可以利用模擬試驗。即對具有均值為零、且有不同的標準偏差x,y和不同的相關系數模擬出二維正態分布的數據點,然后應用五種回歸方法,得到各自的回歸系數及相應的方差。試驗結果表明,五種方法給出的回歸系數相互間是不同的,它們并不是同一量的不同估計。只有在=1這個特殊情況下,所有五種回歸的斜率才是相同的。對于≠0。當x=y時,有3=4=5=1。另外,模擬試驗表明,正交回歸斜率的不確定度比其它方法要大,故一般情況它只能用于無量綱變量間的擬合;又如對觀測值取對數的情況,簡化主軸回歸的斜率和相關系數無關,因此在討論X和Y的基本關系時,使用這種方法是無助的。模擬結果還指出,對于足夠大的N(觀測點)和相關系數,所有方法斜率方差正確反映了斜率系數的彌散,但對于小的N和,得到的方差估計都偏小。第三十一頁,共六十六頁,2022年,8月28日實驗數據分析方法_Chap.632根據最近幾年一些天文學家和其它領域的科學家對這五種回歸的應用研究,可以得到如下幾點結論:
(1)如果觀測數據的散布基本上是由于測量過程造成的,并且測量誤差已知,那么一般采用前面介紹的常規的一元線性回歸。而這里介紹的五種回歸方法主要是針對數據點的散布是由未知的變化引起的情況;(2)一般來說,人們可以先對給定數據點擬合所有五條回歸線,如果各條線之間的差異并不大于任何一條回歸線的誤差,那么回歸方法的選擇就不會嚴重影響結果。在這種情況下,通常使用OLS(Y|X)回歸,因為它簡單明了;(3)如果我們研究的問題是這樣的情況,即兩個變量中一個變量明顯是因變量,另一個是原因變量,那么亦應利用OLS(Y|X),這里X是原因變量。如果我們的問題是從另一個變量的測量值來預測一個變量的值,則也應使用OLS(Y|X)回歸,這里Y是被預測的變量。后一種情況在宇宙距離尺度應用中普遍存在,因為天文學家常常需要從一些已知距離的樣本中產生的一條線性回歸線來預測另外某一天體的距離。(4)如果研究目的是了解變量間的基本關系,那么處理對稱變量的三種回歸方法(OLS平分線,OR方法和RMA方法)都可以使用,但普遍認為OLS平分線方法是值得推薦的。
第三十二頁,共六十六頁,2022年,8月28日實驗數據分析方法_Chap.633在許多實際問題中,兩個變量之間的關系并不是線性相關關系,而是某種曲線相關關系。例如,大多數新星在亮度下降階段光度和時間的關系;恒星的光譜型和光度的關系(即恒星赫羅圖)。這時,選擇適當的曲線來表征它們之間的關系比直線更符合實際情況,或者說能得到更好的回歸效果。曲線回歸分析包括三個內容:一是確定曲線回歸方程的類型:二是確定曲線回歸方程中的參數;三是回歸效果的檢驗。
6.1.5曲線回歸分析
(一)曲線回歸類型的確定第三十三頁,共六十六頁,2022年,8月28日實驗數據分析方法_Chap.634為了確定兩個變量之間的曲線關系類型,常采用兩種方法。一種方法是利用觀測數據的散點圖,根據散點圖的分布形狀和特點,對比各種函數形式已知的標準曲線的圖形,把與散點圖分布最接近的標準曲線作為觀測數據所屬的回歸方程的類型。第三十四頁,共六十六頁,2022年,8月28日實驗數據分析方法_Chap.635另一種方法是采用多項式回歸。有時觀測數據的散點圖呈現的趨勢較為復雜,難以用一條已知合適的曲線類型去擬合它們,這時可用自變量x的m次多項式:作為描述變量y和x關系的回歸模型,即多項式回歸。因此多項式可用來擬合相當廣泛的一類曲線,其中二次多項式即二次曲線回歸是最常用的一種類型。在多項式回歸中,多項式次數m的選擇也是一個很重要的問題,但在實際應用中往往并不能確知m等于多少,通常是采用統計檢驗的方法。關于兩個變量間的曲線回歸類型的確定,有一點需要說明的是,所確定的類型均可通過變量代換轉化為一元線性回歸來處理。第三十五頁,共六十六頁,2022年,8月28日實驗數據分析方法_Chap.636曲線回歸類型確定以后,可采用變量變換的方法將曲線模型轉化一元線性回歸模型,然后利用前面介紹過的解一元線性回歸的方法求解,得到一元線性回歸參數,最后再進行變量的逆變換得到曲線回歸參數以及曲線回歸值。例如,對y和x關系確定的曲線類型為作變量代換則上面的曲線類型可轉化為直線關系:引進隨機誤差項得到一元線性回歸模型:(二)回歸參數的確定利用一元線性回歸分析,由N組觀測值(xk,yk)可以解得回歸參數,的估計值,利用變量代換關系可以得到曲線回歸參數的估值:及曲線回歸值:+第三十六頁,共六十六頁,2022年,8月28日實驗數據分析方法_Chap.637為了檢驗對兩個變量的非線性關系所配曲線的適宜性,我們給出兩個指標:相關指數和剩余標準差。在曲線回歸中,亦用類似于上文中定義的相關系數r來衡量所配曲線效果的好壞,即:并稱它為相關指數,式中為曲線回歸值,為因變量觀測值的平均值。一般來說,R越接近于1,表明所配曲線的效果越好;另外,剩余標準差
亦可以用來衡量所配的效果,Sy越小,
表明所配曲線精度越高。
在選擇曲線類型時,有時很難一下確定,這時可同時選擇兩種或兩種以上曲線類型進行曲線回歸,然后進行比較。選取相關指數較大或剩余標準差較小者為最佳的曲線類型。(三)一元曲線回歸的有效性檢驗第三十七頁,共六十六頁,2022年,8月28日實驗數據分析方法_Chap.638課后練習(5月9日交)測量某導線在一定溫度x下的電阻值y得到如下結果:請采用一元線性回歸找出y與x間關系的表達式,畫出散點與回歸線圖,并用相關系數檢驗其顯著性x/C19.125.030.136.040.046.550.0y/76.3077.8079.7580.8082.3583.9085.10第三十八頁,共六十六頁,2022年,8月28日實驗數據分析方法_Chap.639在相當多的實際問題中,影響因變量的因素有很多,例如。太陽耀斑可能和一群黑子面積、半球面黑子相對數、日面綜合譜斑指數、某波段太陽射電輻射流量等10多個因素有關;激光測月觀測中,時延的觀測值與理論值之差可能和望遠鏡位置坐標、月球反射器位置坐標、月球和地球軌道參數等40多個參數采用值有關。為此,需要用多元回歸來描述它們之間的統計相關關系。另外,我們在前面提到的多項式回歸,最后也必須轉化為多元線性回歸問題.§6.3多元線性回歸第三十九頁,共六十六頁,2022年,8月28日實驗數據分析方法_Chap.640在研究因變量y與多個自變量xi之間的統計關系時,常常利用多元線性回歸模型:式中i
(i=0~m)稱為y對xi的回歸系數,為正態隨機變量。上式表示了多維空間的一個“超平面”.和一元回歸類似,多元線性回歸就是要利用N組觀測數據:,根據最小二乘法,對模型參數作出估計。設b0,b1,...bm為參數0,1,...
m的最小二乘估計,則所得回歸方程應為6.3.1多元線性回歸方程的求解
第四十頁,共六十六頁,2022年,8月28日實驗數據分析方法_Chap.641由最小二乘原理,估計值b0,b1,...bm
應使剩余平方和最小:由極值定理,將Q分別對i
(i=0~m)求偏導數,并令它們為零,則得到b0,b1,...bm所滿足的方程組:又,式中:第四十一頁,共六十六頁,2022年,8月28日實驗數據分析方法_Chap.642常稱lij為協方差,上頁之線性方程組被稱為正規方程組。解此方程組就可以求得各回歸系數bi
(i=1~m),再由此求得常數項b0。為了方便,通常用矩陣形式表示上述正規方程組:令:則正規方程組可表為:
LB=Ly
線性方程組的解法很多,一般的情況可用消元法,或求逆陣法。在多元回歸分析中,正規方程組的系數矩陣的逆陣有其特殊的作用,因此常用求逆矩陣的方法。不難看出,L為對稱陣,其逆矩陣用C表示,即:
C=L-1=(Cij)
第四十二頁,共六十六頁,2022年,8月28日實驗數據分析方法_Chap.643則正規方程組有唯一解,并可表為:B=CLy
或:在多元回歸中,由于各自變量的量綱往往是不一致的,這會使正規方程中各系數之間產生較大差異,影響了求解精度。如果我們采用標準化回歸模型,則可在一定程度上避免這方面誤差的影響。另外。從最后得到的標準回歸系數的大小,可以觀察各自變量對因變量關系的密切程度。
所謂標準化模型,就是將原來的數據進行標準化變換,而對變換后的數據建立的回歸模型。將原觀測數據作如下的標準化變換:其中:第四十三頁,共六十六頁,2022年,8月28日實驗數據分析方法_Chap.644則得到標準化數據:
處理標準化數據還有很多方便之處:因為由標準化變換定義式不難得到:對標準化數據仍用最小二乘法可得一組新的正規方程組:式中:
b’為標準化回歸系數,記
第四十四頁,共六十六頁,2022年,8月28日實驗數據分析方法_Chap.645則得到標準化正規方程組:通常,定義rij為自變量xi與xj的簡單相關系數。而由它們構成的矩陣稱為相關陣,用R表示,即:并用C’表示R的逆陣;Ry表示列向量,rjy(j=1~m);B’表示標準化回歸系數的列向量,即:第四十五頁,共六十六頁,2022年,8月28日實驗數據分析方法_Chap.646則上頁之標準化正規方程組可寫成解此方程組,得標準回歸系數:即:
由推導可知,故得標準化正規方程:同時可得標準回歸系數與實際回歸系數之間的轉換關系:
利用這個關系最后可把標準回歸系數化回到實際回歸系數。第四十六頁,共六十六頁,2022年,8月28日實驗數據分析方法_Chap.647和一元回歸分析一樣,對于給定的一組觀測數據,總可以利用多元線性回歸模型按最小二乘原理配一個回歸超平面。但這個回歸超平面是否有實際意義,則需要通過顯著性檢驗才能作出判斷。多元回歸的顯著性檢驗,包括對總的回歸效果的檢驗及對每個自變量的回歸系數的檢驗兩個方面。6.3.2多元線性回歸的顯著性檢驗(一)回歸方程的顯著性檢驗多元線性回歸的顯著性檢驗又稱多元回歸的方差分析,和一元回歸的檢驗類似。我們仍然利用假設檢驗,并用全部回歸系數均不為“0”的假設的對立假設為原假設。即:第四十七頁,共六十六頁,2022年,8月28日實驗數據分析方法_Chap.648通過將總平方和進行分解,確定檢驗用的統計量及其分布,然后對給定的顯著水平確定置信限,將它和由觀測資料算得的統計量進行比較,從而作出對原假設接受與否的判斷。在多元情況,我們仍然定義:總平方和
回歸平方和
剩余平方和原假設H0成立的條件下,U~χ2(m),Q~χ2(N-m-1),且U和Q相互獨立。于是,統計量
服從第一自由度為m,第二自由度為N-m-1的F分布。第四十八頁,共六十六頁,2022年,8月28日實驗數據分析方法_Chap.649對于給定的顯著水平α,由F分布表可查得置信限Fα(m,N-m-1),當由樣本值算出的F>Fα(m,N-m-1)時,拒絕原假設,也就是說,對這組數據用模型擬合得到的回歸方程可以接受,且稱它為顯著的;如若F<Fα(m,N-m-1),則說所得的回歸方程不顯著。和一元回歸類似,多元回歸方程的顯著性檢驗也可以應用相關系數檢驗法。定義:為y與各個自變量xi(i=1~m)的復(或全)相關系數。R的大小在一定的程度上反映了y與這些變量之間的密切程度:R越大表明y與這些變量之間的線性關系越密切;反之則表示這種線性關系不密切。但是必須提出,我們不能單純從R的大小來評定回歸效果的好壞,因為R的大小還與自變量個數m及觀測組數N有關。第四十九頁,共六十六頁,2022年,8月28日實驗數據分析方法_Chap.650因此,必須將算得的R與和F等價的相關系數臨界值Rα進行比較來決定,具體方法和一元回歸的情況也相同。由R的定義式可以得到關系式:
(二)回歸系數的顯著性檢驗在多元回歸中,我們并不只滿足于回歸方程是顯著的這個結論。因為回歸方程顯著只是拒絕了“回歸系數全部為0”這一假設,但這并不意味著每個自變量對因變量y的影響都是重要的;即可能其中的某些回歸系數為或接近零。我們總是希望在線性回歸方程中包含與y有顯著關系的那些變量,不包含那些次要的、可有可無的變量。因此對于多元回歸來說,除了進行回歸方程的顯著性檢驗以外,還必須對每個變量相應的回歸系數進行檢驗。第五十頁,共六十六頁,2022年,8月28日實驗數據分析方法_Chap.651式中,Um是m個變量的回歸平方和,Ujm-1表示y對去掉xj
之后的m-1個變量的回歸平方和。因此,不難看出,偏回歸平方和可以用來衡量每個自變量在回歸中所起作用的大小。凡偏回歸平方和大的變量,一定是對y有重要影響的因素;凡偏回歸平方和小的變量,雖然不一定不顯著,但可以肯定,偏回歸平方和最小的那個變量,肯定是所有變量中對y貢獻最小的一個。為了進行回歸系數的顯著性檢驗,必須考察每個自變量在多元回歸中所起的作用,故而引入偏回歸平方和概念。回歸平方和是所有自變量對y變差的總貢獻,所考慮的自變量愈多,回歸平方和就愈大。如果在所考慮的幾個變量中,剔除一個變量,回歸平方和就會減少;減少的數值愈多,說明該變量在回歸中所起的作用愈大。我們把取消一個自變量x后回歸平方和減少的數值稱為y對自變量xj的偏回歸平方和,記作pj,即
檢驗的基本方法第五十一頁,共六十六頁,2022年,8月28日實驗數據分析方法_Chap.652因此,檢驗就從這個變量開始。我們將檢驗的原假設取為:H0
:j
=0
可以證明,在j
=0成立的條件下服從第一自由度為l,第二自由度為N-m-1的F分布。于是對給定的置信度α,由F分布表可查得F(1,N-m-1)。當統計量Fj>Fα(1,N-m-1)時,則認為變量xj對y的影響在α水平上顯著,在回歸方程中應保留這個變量。由于xj是所有變量中對y貢獻最小的一個,所以對其他變量可不必再作檢驗。如果計算的統計量Fj>Fα,則接受原假設,認為和xj對應的回歸系數不顯著,應從回歸方程中將變量xj剔除,然后,重新建立m―1元的新的回歸方程,計算回歸系數和偏回歸平方和,再按上面的方法進行回歸系數的顯著性檢驗。
第五十二頁,共六十六頁,2022年,8月28日實驗數據分析方法_Chap.653在進行回歸系數的顯著性檢驗時,必須要計算偏回歸平方和。而由偏回歸平方和的定義式要計算每個變量的偏回歸平方和pj(j=1~m),必須要計算剔除每個變量xi(i=1~m)后重新建立的m-1元回歸方程的回歸平方和Uim-1(i=1~m)。這個重新建立的m-1元回歸方程,回歸系數和原方程的回歸系數是不同的,為了避免重建方程的大量計算,人們找到了原方程回歸系數與剔除某個變量后重新建立的回歸方程的系數的關系,大大地簡化了計算。設bj(j=1~m)為m個自變量的回歸方程的回歸系數,bj*(j≠k)為在m元回歸方程中剔除變量xk后,m-1元回歸方程的新回歸系數。利用行列式的雅可比定理可以證明,新、老回歸系數之間有如下關系:偏回歸平方和的計算其中ckk,ckj是原m元回歸方程中系數矩陣的逆陣C中對應的元素第五十三頁,共六十六頁,2022年,8月28日實驗數據分析方法_Chap.654我們由此可以得到一個直接利用m元回歸方程的結果計算偏回歸平方和的公式:6.3.3殘差檢驗在實用回歸分析中,除了對回歸方程和回歸系數的顯著性檢驗以外,還可以通過對殘差的分析來檢驗模型的適度。殘差即因變量觀測值yi和回歸值之差,記為ei:這個差是回歸方程不能解釋的量,如果模型正確,可將ei看作觀測誤差。在進行回歸之前,對誤差(未知的真誤差i=yi-E(yi))已作了假定,即誤差相互獨立、具有零均值和固定方差σ2;為了求置信區間和進行假設檢驗,又假定誤差服從正態分布。因此,如果擬合的模型正確,殘差就應當呈現出所假定的誤差的特性。如果回歸函數非線性,誤差項不獨立,誤差項方差不相等,模型中缺少一個或幾個自變量等偏離模型的情況,都可以通過殘差圖直觀地反映出來。第五十四頁,共六十六頁,2022年,8月28日實驗數據分析方法_Chap.655所謂殘差圖是指以殘差為縱坐標、以任何其它指定的量為橫坐標的散點圖。這里的橫坐標可以是自變量xi,可以是回歸值,也可以是時間(如果觀測數據是按時間順序獲得的)。下圖是幾種典型的殘差圖:(一)殘差圖分析線性模型適合模型不適,應包含更多項方差不是常數誤差項不獨立或缺少自變量第五十五頁,共六十六頁,2022年,8月28日實驗數據分析方法_Chap.656另外,從殘差圖中還可以檢測是否有異常觀測值存在。在殘差圖中,異常值的殘差絕對值比其它殘差大得多,一般離殘差均值有34個標準誤差的距離。當出現異常殘差時,必須仔細分析其來源,如果確認是由觀測的異常值(可利用觀測數據的散點圖)引起,則應予以放棄。如果模型中缺少某一自變量也會產生殘差異常值,這時異常值可能提供重要信息,不能隨便剔除。因此比較穩妥的辦法是,只有探查出異常值是由過失誤差造成的,才將其剔除。殘差的圖示分析能比較直觀地檢驗模型的適度。而且因為任何一種回歸分析都能很方便提供擬合值和殘差,因此得到各種類型的殘差圖也是簡單易行的。
第五十六頁,共六十六頁,2022年,8月28日實驗數據分析方法_Chap.657殘差的統計檢驗是指用統計的方法檢驗殘差的隨機性、等方差性及正態性等:它們是在殘差圖分析的基礎上的進一步檢驗。當殘差圖顯示出方差可能系統地隨著X或E(y)增加或減小時,一種簡單的等方差的檢驗方法是按X把觀測值分為兩段,分別擬合回歸函數,然后計算誤差均方,用F檢驗法檢驗方差是否相等。檢驗一個分布是否為正態的方法很多,常用的一個較簡單的方法是利用殘差的直方圖:如果直方圖中間高、兩邊低,呈正態密度曲線形狀,則可認為殘差來自正態母體。考慮一組殘差,設共有n個符號,其中n1個正號,n2個負號,每種符號都被另外一種符號隔成一些子序列,每個子序列稱為一個游程,兩種符號的游程總數記為R(二)殘差的統計檢驗第五十七頁,共六十六頁,2022年,8月28日實驗數據分析方法_Chap.658如看下面的一個符號序列:
++---+--+++----+++-++--則n1=11,n2=12,n=23,共有R=10個游程。假定n個元素的任一排列出現的概率是相等的,則游程總數R的概率函數為:及第五十八頁,共六十六頁,2022年,8月28日實驗數據分析方法_Chap.659利用概率函數可以證明,離散隨機變量R的均值和方差分別為:對給定的顯著水平α,由R的概率分布可得拒絕域[0,Rα(n1,n2)]的臨界值Rα(n1,n2),它可以從數理統計表中的“游程總數檢驗表”查出。
例如對前面列出的殘差符號排列,n1=11,n2=12,R=10,取顯著水平α=0.05,查“游程總數檢驗表”得R0.05(11,12)=8,則有R>R0.05,應該接受殘差序列為隨機的假設。實際上,當n1,n2>10時,游程總數R漸近服從正態分布,即服從標準正態分布。其中的是連續性修正值,用以補償用連續型分布近似離散型分布所造成的損失,因此可以其進行游程數檢驗。第五十九頁,共六十六頁,2022年,8月28日實驗數據分析方法_Chap.660游程檢驗不僅用于檢驗殘差的隨機性,也可以用來檢驗樣本的隨機性。只要先確定樣本的中位數,對中位數以上的數記
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 四川資陽中學2024-2025學年高三5月高考沖刺英語試題含解析
- 江蘇省泰州市實驗小學2024-2025學年數學四下期末質量跟蹤監視模擬試題含解析
- 四川省樂山市峨眉山市第二中學2025年高三4月聯考物理試題含解析
- 營口市大石橋市2024-2025學年數學五年級第二學期期末達標測試試題含答案
- 專業技術人員聘用合同
- 2025版企業間服務與咨詢合同范本
- 服務供應商合同范本
- 餐飲業食材供應合同模板
- 兒童歌曲鋼琴簡易伴奏編配 課件 第1-3章 和弦-五線譜、簡譜互譯
- 1生活在新型民主國家 公開課一等獎創新教學設計(表格式)
- 委托代簽工程合同協議
- 2024年廣東公需科目答案
- 電力鐵塔基礎施工方案資料
- 人教版高中英語選擇性必修第三冊課件Unit 5 Poems
- 國家移民管理局直屬事業單位公開招考24名工作人員【共500題含答案解析】模擬檢測試卷
- 小白兔拔蘿卜課件
- 房樹人心理畫繪畫分析(附圖)-課件
- 2023年河南推拿職業學院單招考試面試模擬試題及答案解析
- 現代生物技術與人類健康課件
- 籃球裁判法(裁判手勢)課件
- 辭職報告辭職信
評論
0/150
提交評論