第8章 直線回歸和相關_第1頁
第8章 直線回歸和相關_第2頁
第8章 直線回歸和相關_第3頁
第8章 直線回歸和相關_第4頁
第8章 直線回歸和相關_第5頁
已閱讀5頁,還剩68頁未讀 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

第八章直線回歸與相關

第一節(jié)回歸和相關的概念第二節(jié)直線回歸:直線回歸方程的計算及檢驗第三節(jié)直線相關:相關系數與決定系數的計算2/5/2023LaboratoryofChemicalEcology1、函數關系與統(tǒng)計關系第一節(jié)回歸和相關的概念變量之間的關系函數關系統(tǒng)計關系因果關系相關關系2/5/2023LaboratoryofChemicalEcology函數關系:是一種確定的關系。例如圓面積與半徑的關系為:2/5/2023LaboratoryofChemicalEcology統(tǒng)計關系:是一種非確定關系,即一個變數的取值受到另一變數的影響,兩者之間有關系,但又不存在完全確定的函數關系。例如作物的產量與施肥量、水稻的千粒重與株高。2/5/2023LaboratoryofChemicalEcology2、自變數與依變數對具有統(tǒng)計關系的兩個變數,分別用變數符號X和Y表示。根據兩個變數的作用特點,統(tǒng)計關系又可分為因果關系和相關關系兩種。2/5/2023LaboratoryofChemicalEcology兩個變數間的關系若有原因和反應(結果)的性質,則稱這兩個變數間存在因果關系,并定義原因變數為自變數(independentvariable),以X表示;定義結果變數為依變數(dependentvariable),以Y表示。例如施肥量和產量的關系。2/5/2023LaboratoryofChemicalEcology如果兩個變數并不是原因和結果的關系,而呈現一種共同變化的特點,則稱這兩個變數間存在相關關系。相關關系中沒有自變數和依變數之分。例如玉米穗長與穗重的關系。2/5/2023LaboratoryofChemicalEcology(1)對具有因果關系的兩個變數,統(tǒng)計分析的任務是由試驗數據推算出一個表示Y隨X的改變而改變的方程,稱之為回歸方程(regressionequationofYonX),這一過程稱為回歸分析。3、回歸分析和相關分析2/5/2023LaboratoryofChemicalEcology(2)對具有相關關系的兩個變數,統(tǒng)計分析的目標是計算表示Y和X關系密切程度的統(tǒng)計數,并測驗其顯著性。這一過程稱為相關分析。決定系數R相關系數r2/5/2023LaboratoryofChemicalEcology將兩個變數的n對觀察值(x1,y1)、(x2,y2)、…、(xn,yn)分別以坐標點的形式標記于同一直角坐標平面上得到的圖:4、兩個變數資料的散點圖2/5/2023LaboratoryofChemicalEcology散點圖(scatterdiagram)1234x,生物產量(g)0.00.51.01.52.0y,稻谷產量(g)水稻單株生物產量與稻谷產量的散點圖2/5/2023LaboratoryofChemicalEcology3.23.644.44.8x,每平方米穎花數(萬)05560657075y,結實率(%)水稻每平方米穎花數和結實率的散點圖2/5/2023LaboratoryofChemicalEcology34567890250300350400450x,最高葉面積指數y,產量(kg/畝)水稻最高葉面積指數和畝產量的散點圖2/5/2023LaboratoryofChemicalEcology研究“一因一果”,即一個自變量與一個依變量的回歸分析稱為一元回歸分析;研究“多因一果”,即多個自變量與一個依變量的回歸分析稱為多元回歸分析。一元回歸分析又分為直線回歸分析與曲線回歸分析兩種;多元回歸分析又分為多元線性回歸分析與多元非線性回歸分析兩種。2/5/2023LaboratoryofChemicalEcology第二節(jié)直線回歸

一、直線回歸方程的建立對于兩個相關變量,一個變量用x表示,另一個變量用y表示,如果通過試驗或調查獲得兩個變量的n對觀測值:(x1,y1),(x2,y2),……,(xn,yn)

2/5/2023LaboratoryofChemicalEcology2/5/2023LaboratoryofChemicalEcology在x、y直角坐標平面上可以作出無數條直線,我們把所有直線中最接近散點圖中全部散點的直線用來表示x與y的直線關系,這條直線稱為回歸直線。設回歸直線的方程為:

為依變數的估計值,a為回歸直線的截距,b是回歸系數2/5/2023LaboratoryofChemicalEcologya、b應使回歸估計值與實際觀測值y的偏差平方和最小,即:直線回歸方程的求解2/5/2023LaboratoryofChemicalEcology根據微積分學中的求極值的方法,令Q對a、b的一階偏導數等于0,即:2/5/2023LaboratoryofChemicalEcology整理得關于a、b的正規(guī)方程組:解正規(guī)方程組,得:x的離均差和y的離均差的乘積之和,稱之為乘積和。2/5/2023LaboratoryofChemicalEcologyb叫做樣本回歸系數,表示x改變一個單位,y平均改變的數量;b的符號反映了x影響y的性質,b的絕對值大小反映了x影響y的程度;

叫做回歸估計值,是當x在其研究范圍內取某一個值時,y值平均數的估計值。2/5/2023LaboratoryofChemicalEcology

回歸方程的基本性質:

性質1最小;性質2;性質3回歸直線通過點。2/5/2023LaboratoryofChemicalEcology例一些夏季害蟲盛發(fā)期的早遲和春季溫度高低有關。江蘇武進連續(xù)九年測定3月下旬至4月中旬旬平均溫度積累值(x,旬·度)和水稻一代三化螟盛發(fā)期(y,以5月10日為0)的關系,得結果于表,試計算其直線回歸方程。2/5/2023LaboratoryofChemicalEcologyX35.534.131.740.336.840.231.739.244.2y12169273139-1注:以5月10日為0。2/5/2023LaboratoryofChemicalEcology1、作散點圖2/5/2023LaboratoryofChemicalEcology2、計算回歸截距a,回歸系數b,建立直線回歸方程首先根據實際觀測值計算出下列數據:n=9∑x=35.5+34.1+……+44.2=333.7∑x2=35.52+34.12+……+44.22=12517.49∑y=12+16+……+(-1)=70∑y2=122+162+……+(-1)2=749∑xy=35.5*12+34.1*16+……+44.2*(-1)=2436.46個一級數據2/5/2023LaboratoryofChemicalEcologySSx=∑x2–(∑x)2/n=144.6356SSy=∑y2–(∑y)2/n=249.5556SP=∑xy–∑x∑y/n=-159.0444(乘積和)

5個二級數據2/5/2023LaboratoryofChemicalEcology解正規(guī)方程組2/5/2023LaboratoryofChemicalEcology進而計算出b、a:2/5/2023LaboratoryofChemicalEcology得到直線回歸方程為:2/5/2023LaboratoryofChemicalEcology自變量x的取值區(qū)間2/5/2023LaboratoryofChemicalEcology3、直線回歸的偏離度估計偏差平方和的大小表示了實測點與回歸直線偏離的程度,因而偏差平方和又稱為離回歸平方和。離回歸均方為:在建立回歸方程時,使用了a,b兩個統(tǒng)計數,故自由度為n-22/5/2023LaboratoryofChemicalEcology離回歸均方的平方根叫離回歸標準誤,記為,即

離回歸標準誤Sy/x的大小表示了回歸直線與實測點偏差的程度,即回歸估測值與實際觀測值y偏差的程度,于是我們把離回歸標準誤Sy/x用來表示回歸方程的偏離度。(8-6)2/5/2023LaboratoryofChemicalEcology

(8-7)

利用(8-7)式先計算出,然后再代入(8-6)式求Sy/x。

對于【例8.1】有2/5/2023LaboratoryofChemicalEcology[例2]計算例1資料獲得的回歸方程的估計標準誤xyy`y-y`(y-y`)235.5129.51272.48736.186734.11611.05214.947924.481731.7913.6912......40.324.2346......36.878.0832......40.234.3446......31.71313.6912......39.295.4442......44.2-1-0.0538-0.94620.8953求和∑74.66702/5/2023LaboratoryofChemicalEcologySy/x=3.266天,表明用回歸方程由3-4月的積溫預測一代三化螟盛發(fā)時,有一個3.266天的估計標準誤。2/5/2023LaboratoryofChemicalEcology二、直線回歸的顯著性檢驗根據回歸方程的計算程序,任意二組變量(X,Y)都可以得到一個回歸方程:如果不經過顯著性檢驗,顯然不能確定兩變量(X,Y)之間是否真實存在直線關系。也就是說,不經過顯著檢驗的回歸方程毫無意義。可以采用F測驗和t測驗兩種方法2/5/2023LaboratoryofChemicalEcology1、直線回歸的變異來源圖的分解圖2/5/2023LaboratoryofChemicalEcology

從上圖看到:

上式兩端平方,然后對所有的n點求和,則有2/5/2023LaboratoryofChemicalEcology

由于所以于是2/5/2023LaboratoryofChemicalEcology

所以有

反映了y的總變異程度,稱為y的總平方和,記為SSy;反映了由于y與x間存在直線關系所引起的y的變異程度,稱為回歸平方和,記為SSR;反映了除y與x存在直線關系以外的原因,包括隨機誤差所引起的y的變異程度,稱為離回歸平方和,記為SSr。2/5/2023LaboratoryofChemicalEcology

可表示為:

這表明y的總平方和剖分為回歸平方和與離回歸平方和兩部分。與此相對應,y的總自由度dfy也劃分為回歸自由度dfR與離回歸自由度dfr兩部分,即平方和的分解2/5/2023LaboratoryofChemicalEcology

在直線回歸分析中,回歸自由度等于自變量的個數,即;y的總自由度;離回歸自由度。于是:離回歸均方,回歸均方

自由度的分解2/5/2023LaboratoryofChemicalEcology

2、回歸關系顯著性檢驗—F檢驗無效假設H0:=0,備擇假設HA:≠0。在無效假設成立的條件下,回歸均方與離回歸均方的比值服從和的F分布,所以可以用

df1=1,df2=n-2來檢驗回歸關系即回歸方程的顯著性。2/5/2023LaboratoryofChemicalEcology對于【例1】資料,有而。于是可以列出方差分析表進行回歸關系顯著性檢驗。2/5/2023LaboratoryofChemicalEcology變異來源dfSSMSF值F0.05F0.01回歸SSR1174.8886174.888616.40**5.5912.25離回歸SSr774.667010.6667總變異8249.5556回歸關系方差分析2/5/2023LaboratoryofChemicalEcology因為,表明存在極顯著的直線關系。

2/5/2023LaboratoryofChemicalEcology

3、回歸系數的顯著性檢驗—t檢驗回歸系數顯著性檢驗的無效假設和備擇假設為

HO:β=0,HA:β≠0。β為總體的回歸系數2/5/2023LaboratoryofChemicalEcologyt值的計算公式為:回歸系數b的標準誤回歸方程的標準誤2/5/2023LaboratoryofChemicalEcology

對于【例1】資料,已計算得

故有

2/5/2023LaboratoryofChemicalEcology當,查t值表,得

因,,否定HO:β=0,接受HA:β≠0,即直線回歸系數b=-1.0996是極顯著的,表明存在極顯著的直線關系,可用所建立的直線回歸方程來進行預測和控制。,

2/5/2023LaboratoryofChemicalEcology三、回歸方程的應用1.預測:發(fā)生期預測;由x去預測y。例,一代三化螟蛾盛發(fā)期y與3-4月積溫x的回歸方程如下:=48.5485-1.0996x假設某年的積溫x=35,則=48.5485-1.0996×35=10.0625≈10.1即該蟲盛發(fā)期約為5月20日(以5月10日為0)左右2/5/2023LaboratoryofChemicalEcology2.控制:由y去控制x。例,某作物的產量y與施肥量x的回歸方程如下:=391.93+6.62x若希望產量y>600斤/畝,則施肥量至少要多少斤/畝?由=391.93+6.62x>600可推出x>(斤/畝)2/5/2023LaboratoryofChemicalEcology注:①實際應用中,預測應結合誤差和概率進行區(qū)間估計。

②應用回歸方程時,自變量x的取值范圍只限于原觀察值的變化范圍。③樣本容量n應盡可能的大,至少要大于5。2/5/2023LaboratoryofChemicalEcology回歸分析的完整步驟:第一步建立回歸方程必作第二步進行回歸關系的顯著性檢驗第三步繪制回歸直線2/5/2023LaboratoryofChemicalEcology溫度x322926232017歷期y5.86.87.488.58.9計算線性回歸方程,并檢驗2/5/2023LaboratoryofChemicalEcology第三節(jié)直線相關

進行直線相關分析的基本任務在于根據x、y的實際觀測值,計算表示兩個相關變量x、y間線性相關程度和性質的統(tǒng)計量——相關系數r并進行顯著性檢驗。2/5/2023LaboratoryofChemicalEcology

我們把比值

叫做x對y的決定系數(coefficientofdetermination),記為r2,即在依變量y的總變異中,由回歸關系引起的變異部分所占的百分比。一、決定系數和相關系數總變異=直線回歸變異+離回歸變異(誤差項)2/5/2023LaboratoryofChemicalEcology決定系數的意義:決定系數表示了兩個變量間直線相關的程度。2/5/2023LaboratoryofChemicalEcology相關系數coefficientofcorrelation,記為r:回歸因素所引起的變異與總變異之比的平方根,表示變量間聯系程度和聯系性質的統(tǒng)計指標。相關系數2/5/2023LaboratoryofChemicalEcology二、相關系數的計算

【例】計算10個小區(qū)中某作物植株數量和產量(kg)的相關系數。株數(x)68707071717173747676產量(y)506068656972717375772/5/2023LaboratoryofChemicalEcology根據表中所列數據先計算出:代入r計算公式得:即株數與產量的相關系數為0.8475。2/5/2023LaboratoryofChemicalEcology此時無效假設、備擇假設為H0:ρ=0,HA:ρ≠0。三、相關系數的顯著性檢驗測定一個樣本相關系數為r所在的總體相關系數ρ是否為02/5/2023LaboratoryofChemicalEcology

t檢驗的計算公式為:t=,df=n-2(8-27)其中,,叫做相關系數標準誤。F檢驗的計算公式為:F=,df1=1,df2=n-2(8-28)2/5/2023LaboratoryofChemicalEcology

查表法檢驗r的顯著性,具體作法是:P376頁

先根據自由度n-2查臨界r值(附表10),得,若|r|<,P>0.05,則相關系數r不顯著,在r的右上方標記“ns”;若≤|r|<,0.01<P≤0.05,則相關系數r顯著,在r的右上方標記“*”;若|r|≥,P≤0.01,則相關系數r極顯著,在r的右上方標記“**”。2/5/2023LaboratoryofChemicalEcology

對于上例中,因為df=n-2=10-2=8,查附表10得:=0.632,=0.765,而r=0.8475>,P<0.01,表明株數與產量之間的相關系數極顯著。

2/5/2023LaboratoryofChemicalEcology四、相關系數與回歸系數的關系從相關系數計算公式的導出可以看到:相關變量x與y的相關系數r是y對x的回歸系數與x對y的相關系數bxy的幾何平均數:2/5/2023LaboratoryofChemicalEcology

五、應用直線回歸與相關的注意事項1、變量間是否存在相關2、其余變量盡量保持一致3、觀測值要盡可能的多4、外推要謹慎5、正確理解回歸或相關顯著與否的含義6、一個顯著的回歸方程并不一定具有實踐上的預測意義2/5/2023LaboratoryofChemicalEcology六、相關與回歸的計算器處理例,進行溫度對菌絲生長影響試驗,將孢子接種后分別置于不同溫度下12h,測量其菌絲的平均長度如表:溫度(℃)1821242730長度(mm)0.250.602.504.506.75建立溫度與菌絲生長長度間的回歸方程。2/5/2023LaboratoryofChemicalEcology進入

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論