多元回歸分析-估計_第1頁
多元回歸分析-估計_第2頁
多元回歸分析-估計_第3頁
多元回歸分析-估計_第4頁
多元回歸分析-估計_第5頁
已閱讀5頁,還剩44頁未讀, 繼續免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

多元回歸分析——估計第一頁,共四十九頁,2022年,8月28日引子使用簡單的回歸分析,可以把因變量y解釋成一個自變量x的函數。然而在實際的經驗研究中使用簡單回歸分析的主要缺陷是,它很難得到x在其他條件不變情況下對y的影響:因為關鍵假定SLR.3(所有其他影響y的因素都與x不相關)通常都不現實。很自然,如果我們在模型中多增加一些有助于解釋y的因素,那么,y的變動就能更多地得到解釋。因此,多元回歸分析可用于建立更好的因變量預測模型。第二頁,共四十九頁,2022年,8月28日多元回歸分析(multipleregressionanalysis)允許我們明確地控制許多其他也同時影響因變量的因素,所以它更適合于其他條件不變情況下的分析。在使用非實驗數據的情況下,這對檢驗經濟理論和評價經濟政策都很重要。多元回歸模型能夠容納許多可能相關的解釋變量,在簡單回歸分析可能誤導的情況下,可以寄希望于多元回歸模型來推斷因果關系。多元回歸分析的另外一個優點是,它可以用以添加相當一般化的函數關系。在簡單的回歸模型中,方程中只能出現單一個解釋變量的一個函數。如我們將看到的那樣,多元回歸模型的靈活性則大得多。第三頁,共四十九頁,2022年,8月28日使用多元回歸的動因先用兩個例子來說明,如何用多元回歸分析來解決簡單回歸所不能解決的問題。

wage=β0+β1educ+β2exper+u

……(3.1)其中exper是在勞動市場上以年計的工作經歷。則工資wage由受教育水平和工作經歷這兩個解釋變量或自變量及那些觀測不到的其他因素來決定。我們首要感興趣的,是在保持所有其他影響工資的因素不變情況下,educ對wage的影響;即我們只對參數β1感興趣。第四頁,共四十九頁,2022年,8月28日與僅聯系wage和educ的簡單回歸分析相比,方程(3.1)有效地把exper從誤差項中取出并把它明確地放到方程之中。所以系數β2度量了exper在其他條件不變情況下對工資的影響,這點也有意義。就像在簡單回歸中一樣,我們將不得不對(3.1)中的u如何與自變量educ和exper相關做出假定。但像我們在第3.2節中將看到的那樣,有一點我們充滿信心:因為(3.1)中明確地包含了工作經歷,所以我們就能在保持工作經歷不變的情況下,度量教育對工資的影響。如果將工作經歷放到誤差項的簡單回歸分析中,我們就不得不假定工作經歷與受教育水平無關,顯然這是一個脆弱的假定。第五頁,共四十九頁,2022年,8月28日第二個例子問題:解釋在高中階段對每個學生的平均開支(expend)對平均標準化考試成績(avgscore)的影響。假設平均考試成績取決于學校基金、平均家庭收入(avginc)及其他不可觀測因素:

avgscore=β0+β1expend+β2avginc+u

…………(3.2)出于政策目的,所關心的系數是expend在其他條件不變情況下對avgscore的影響β1。通過在模型中明確包括avginc,我們就能控制其對avgscore的影響。由于平均家庭收入與每個學生的開支趨于相關,所以加入這個變量可能很重要。簡單回歸中,avginc被包括在誤差項中,而avginc與expend可能相關,從而導致在兩變量模型中對β1的OLS估計有偏誤。第六頁,共四十九頁,2022年,8月28日前面兩個例子已經說明,除主要關心的變量外,如何把其他的可觀測因素也包括在回歸模型中。一般地,我們可以把含有兩個自變量的模型寫作y=β0+β1x1+β2x2+u

……(3.3)其中,β0是截距,β1度量了在其他條件不變情況下y相對x1的變化,而β2

則度量了在其他條件不變情況下y相對x2的變化第七頁,共四十九頁,2022年,8月28日多元回歸分析對推廣變量之間的函數關系也有幫助。例如:假設家庭消費(cons)是家庭收入(inc)的一個二次函數:cons=β0+β1inc+β2inc2+u

……(3.4)其中u包括了影響消費的其他因素,在這個模型中,消費只取決于收入這一個觀測變量;所以看上去,一個簡單的回歸分析就可以對付。但簡單回歸不能處理這個模型,因為它包括了收入的兩個函數inc和inc2(因此就有三個參數β0、β1和β2)。盡管如此,通過令x1=inc和x2=inc2,消費函數還是可以很容易地寫成一個含兩個自變量的回歸模型。第八頁,共四十九頁,2022年,8月28日機械地看,用普通最小二乘法去估計方程(3.1)和(3.4),應該沒有什么差別。每個方程都可以寫成像(3.3)那樣的方程。但重要的差別在于,人們對參數的解釋。第九頁,共四十九頁,2022年,8月28日(3.1)中,β1是educ在其他條件不變情況下對wage的影響。而方程(3.4)中的參數β1則沒有這樣的解釋。換句話說,度量inc在保持inc2不變的情況下對cons的影響是毫無意義的,如果inc變化,則inc2也一定會變化!相反,相對收入變化的消費變化——即邊際消費傾向——可近似為:換句話說,收入對消費的邊際效應取決于β2、β1和收入水平。這個例子表明,在任何一個特定應用中,對自變量的定義都是至關重要的第十頁,共四十九頁,2022年,8月28日在含有兩個自變量的模型中,u與x1和x2如何相關的關鍵假定是,E(u︱x1,x2)=0

……(3.5)意味著,對總體中x1和x2的任何值,非觀測因素的平均都等于零。如何解釋前面例子中條件均值為零的假定:在(3.1)中,這個假定是E(u︱educ,exper)=0。意味著,影響wage的其他因素都與educ和exper無關。因此,如果我們認為天生能力是u的一部分,那我們就需要假定,對工人總體中受教育和工作經歷的各種組合,其平均能力水平都相同。這可能正確也可能不正確,但我們將看到,這正是為了判斷普通最小二乘法是否導致無偏估計量而需要知道的問題。第十一頁,共四十九頁,2022年,8月28日(3.2)的例子類似于工資方程。其零條件均值的假定為E(u︱expend,avginc)=0,它意味著,影響學生考試成績的因素——學?;驅W生的個人特征——總體上與學生的平均開支和平均家庭收入無關。在(3.4)中的二次消費函數,對零條件均值假定的解釋則略有不同。直接照寫,(3.5)就變成了E(u︱inc,inc2)=0。因為一旦知道了inc,那就會知道inc2,所以在預期表達式中包括inc2項是多此一舉:E(u︱inc,inc2)=0等價于E(u︱inc)=0。雖然在表述這個假定時讓inc2和inc一起出現在預期項中并沒有錯,但E(u︱inc)=0更簡明扼要。第十二頁,共四十九頁,2022年,8月28日問題用定罪概率(prbconv)和宣判監禁的平均時間長度(avgsen)來解釋城市謀殺率(murdrate)的一個簡單模型:

murdrate=β0+β1prbconv+β2avgsen+u

u中包含了一些什么因素?你認為關鍵假定(3.5)有可能成立嗎?因素包括了年齡和性別分布、警力規模(或更一般地,投入到與犯罪做斗爭的資源)、人口和一般歷史因素。這些因素當然有可能與prbconv和avgsen相關,這時就意味著(3.5)不成立。比如,某些在預防犯罪和執法方面投入較多氣力的城市,其警力規??赡芘cprbconv和avgsen都相關。第十三頁,共四十九頁,2022年,8月28日含有K個自變量的模型一旦開始多元回歸,沒有必要局限于兩個自變量。多元回歸分析允許多個可觀測因素影響y。在上述工資的例子中,我們還可以包括在職培訓的數量、現任工作的任期、個人能力的某種度量,甚至是像兄弟姐妹的個數或母親受教育程度等人口變量。在學?;鸬睦又校~外的變量可能包括對教師質量和學校規模的某種度量。第十四頁,共四十九頁,2022年,8月28日多元回歸分析模型y=b0+b1x1+b2x2+...bkxk+u第十五頁,共四十九頁,2022年,8月28日一般的多元線性回歸模型(multiplelinearregressionmodel,也稱為多元回歸模型)在總體中可以寫成y=β0+β1x1+β2x2+β3x3+…+βkxk+u

……(3.6)其中β0為截距(intercept),β1是與x1相聯系的參數,β2是與x2相聯系的參數,等等。由于有k個自變量和一個截距項,所以方程(3.6)包含了k+1個(未知的)總體參數。為了表達上的簡便,把這種不同于截距的參數稱為斜率參數(slopeparameter),盡管它們并不一定表示斜率。[如方程(3.4),其中β1和β2本身都不是斜率,但它們一起決定了消費與收入之關系的斜率。]

第十六頁,共四十九頁,2022年,8月28日多元回歸的術語類似于簡單回歸的術語。恰如簡單回歸中一樣,變量u表示誤差項(errorterm)或干擾項(disturbance)。它包括除x1,x2,x3,…,xk之外仍影響y的一些因素。無論在我們的模型中包含了多少個解釋變量,總有一些因素我們無法包括進來,而所有這些因素就包括在u中。

多元線性回歸模型中的“線性”一詞,意味著方程(3.6)是其諸參數βj的一個線性函數。多元線性回歸的許多運用中都涉及到主要變量之間的非線性關系。第十七頁,共四十九頁,2022年,8月28日多元回歸與簡單回歸的相似點

b0

仍然是截距

b1

到bk

都成為斜率參數

u

仍然是誤差項(或稱擾動項)仍然需要做一個條件期望為0的假設,現在假設:E(u|x1,x2,…,xk)=0

仍然最小化殘差的平方和,所以現在有k+1個一階條件第十八頁,共四十九頁,2022年,8月28日課堂問題設想CEO的薪水(salary)與企業的銷售量和CEO在這個企業的任期相關:log(salary)=β0+β1log(sales)+β2ceoten+β3ceoten2+u……(3.7)定義y=log(salary),x1=log(sales),x2=ceoten和x3=ceoten2,得一多元回歸模型(k=3)。試解釋參數。參數β1是(其他條件不變情況下)薪水對銷售量的彈性。如果β3=0,那么在其他條件不變情況下,100β2就表示ceoten增加一年導致salary提高的百分數。當β3≠0時,ceoten對salary的影響則復雜一些。

第十九頁,共四十九頁,2022年,8月28日關鍵假定用條件預期的形式可以表示為E(u︱x1,x2,…,xk)=0……(3.8)(3.8)要求不可觀測的誤差項中所有的因素都與解釋變量無關。它還意味著,已經正確地表述了被解釋變量和解釋變量之間的函數關系。任何一個導致u與某個自變量相關的問題,都會導致(3.8)式不成立。假定條件(3.8)式還表明OLS是無偏的,而如果方程中省略了一個關鍵變量,所得到的結論便會產生偏誤。

多元回歸模型的關鍵假定第二十頁,共四十九頁,2022年,8月28日普通最小二乘法的操作和解釋即將解決的問題:將普通最小二乘法用于一個特定的數據集時,在計算和代數上會有些什么特征及討論如何解釋所估計的方程。如何得到OLS估計值?先考慮對含有兩個自變量模型的估計。被估計的OLS方程在形式上與簡單回歸情況下的方程相似:第二十一頁,共四十九頁,2022年,8月28日第二十二頁,共四十九頁,2022年,8月28日第二十三頁,共四十九頁,2022年,8月28日第二十四頁,共四十九頁,2022年,8月28日第二十五頁,共四十九頁,2022年,8月28日(3.13)通常被稱為OLS一階條件(firstorderconditions)。像在簡單回歸模型中一樣,OLS一階條件也可以通過矩法得到:在假定條件(3.8)下,E(u)=0,E(xju)=0,其中j=1,2,...,k。(3.13)就是這些總體矩在樣本中的對應樣本矩。易見即便只是對中等大小,通過手算來求解(3.13)也是十分繁重的任務。不過,借助現代的計算機和統計與計量軟件,對較大的n和k,也能很快解出這些方程。注意:目前必須只能這樣假定(3.13)只能得到的唯一解。這是規范設定模型的常見情形。第二十六頁,共四十九頁,2022年,8月28日與簡單回歸分析相同,(3.11)被稱為OLS回歸線(OLSregressionline)或樣本回歸方程(sampleregressionfunction,簡記為SRF)。把稱為OLS截距估計值(OLSinterceptestimate),而把,...,稱為OLS斜率估計值(OLSslopeestimate)(與自變量對應)。說“將y對x1,x2……xk進行了一個OLS回歸”或“將y對x1,x2……xk進行回歸”,是使用普通最小二乘法而得到(3.13)OLS方程(Equation)的簡單說法。一般默認是把截距與斜率一起估計。比在計算的背后存在的所有細節都重要的是,對所估計的方程進行解釋。第二十七頁,共四十九頁,2022年,8月28日對OLS回歸方程的解釋方程中的截距項是y在x1=0和x2=0情況下的預測值。雖然它在大多數情況下都沒有什么意義,但對于設定的總體模型而言截距項總是必需的。估計值和局部效應(partialeffect)或其他情況不變效應的解釋。能在給定x1和x2的變化的情況下,預測y的變化。特別是當x2固定,因而x2=0時,于是有第二十八頁,共四十九頁,2022年,8月28日對OLS回歸方程的解釋關鍵是,通過把x2包含在模型中,所得到的x1的系數,可解釋為在其他條件不變下的影響。這正是多元回歸分析有用的原因所在。

第二十九頁,共四十九頁,2022年,8月28日第三十頁,共四十九頁,2022年,8月28日第三十一頁,共四十九頁,2022年,8月28日第三十二頁,共四十九頁,2022年,8月28日第三十三頁,共四十九頁,2022年,8月28日含有k個自變量的一般情形因此,在估計x1對y的影響時,已經控制了變量x2到xk的影響。其他系數與此相似。第三十四頁,共四十九頁,2022年,8月28日第三十五頁,共四十九頁,2022年,8月28日第三十六頁,共四十九頁,2022年,8月28日多元回歸中“保持其他因素不變”的含義對多元回歸分析中斜率參數的局部效應解釋可能會導致混淆,要盡量避免這個問題。多元回歸分析的功能在于,盡管不能在其他條件不變的情況下搜集數據,但它提供的系數仍可做其他條件不變的解釋。例如:在對ACT的系數做局部效應解釋時,看起來就好像是在具有同等高中GPA但ACT分數可能不同的人群中抽樣。然而情況并非如此,數據是來自一所很大的大學的隨機樣本:在獲得數據的過程中,對hsGPA和ACT的樣本值都沒有施加任何限制。在獲取樣本時,很少奢侈到能限制某些變量不變的程度。如果能搜集到具有同等高中GPA的個人樣本,那就能進行一個colGPA對ACT的簡單回歸分析。第三十七頁,共四十九頁,2022年,8月28日多元回歸有效地模擬了對自變量的值不加限制的情況。多元回歸分析使能在非實驗環境中,去做自然科學家在受控實驗中所能做的事情:保持其他因素不變。第三十八頁,共四十九頁,2022年,8月28日同時改變不止一個自變量第三十九頁,共四十九頁,2022年,8月28日OLS的擬合值和殘差第四十頁,共四十九頁,2022年,8月28日OLS的擬合值和殘差規范地講,對任一觀測i,實際值都不等于預測值;OLS最小化了預測誤差平方的平均值,但對任何一個觀測的預測誤差都沒做說明。第i個觀測的殘差依然被定義為:每次觀測都有一個殘差。第四十一頁,共四十九頁,2022年,8月28日第四十二頁,共四十九頁,2022年,8月28日問題在用高中GPA和ACT分數來解釋大學GPA

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論