《商務統計分析 第2版》 課件 第10-12章 多元線性回歸、邏輯回歸、時間序列預測_第1頁
《商務統計分析 第2版》 課件 第10-12章 多元線性回歸、邏輯回歸、時間序列預測_第2頁
《商務統計分析 第2版》 課件 第10-12章 多元線性回歸、邏輯回歸、時間序列預測_第3頁
《商務統計分析 第2版》 課件 第10-12章 多元線性回歸、邏輯回歸、時間序列預測_第4頁
《商務統計分析 第2版》 課件 第10-12章 多元線性回歸、邏輯回歸、時間序列預測_第5頁
已閱讀5頁,還剩106頁未讀, 繼續免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

第10章

多元線性回歸1第10章多元線性回歸——目錄10.1多元線性回歸模型及其參數估計10.2多元線性回歸模型的評估10.3多重共線性10.4一般線性模型10.5定類自變量10.6變量選擇與逐步回歸10.7利用回歸模型進行預測10.8利用回歸模型進行因果分析2

310.1多元線性回歸模型及其參數估計4

10.1多元線性回歸模型及其參數估計

10.1多元線性回歸模型及其參數估計

10.1多元線性回歸模型及其參數估計7例:某運輸公司的主要業務是為它的周邊地區運送貨物。為了制定最佳的工作計劃,公司的管理者希望估計出他們的司機每天行駛的時間。公司的管理人員認為,貨車行駛的里程數和運送貨物的次數都會影響到司機的行駛時間。經過統計,他們得到的數據如表10-1所示。表10-1運輸公司貨車的行駛里程數、運送貨物次數與行駛時間10.1多元線性回歸模型及其參數估計運輸任務行駛里程(公里)運送貨物次數行駛時間(小時)15024.6524513.05332.523437.523.954013.165013.257251245103523.25810.1多元線性回歸模型及其參數估計模型平方和自由度均方F顯著性回歸4.87722.43938.034殘差.4497.064

總計5.3269

表10-2

方差分析表910.1多元線性回歸模型及其參數估計

模型未標準化系數B

標準誤差標準化系數Beta

t

顯著性共線性統計容差VIF(常量)-.499.470

-1.063.323

行駛里程.062.010.6866.216.000.9901.010運送貨物次數.897.164.6025.458.001.9901.010表10-3運輸公司貨車行駛時間的二元回歸模型的參數估計和檢驗回歸系數的解釋:

在控制其他變量不變的情況下,每增加一單位的行駛里程,行駛時間增加0.062單位;同理在控制其他變量如行駛里程不變的情況下,每增加一單位運送貨物次數,行駛時間增加0.897單位。1010.2多元線性回歸模型的評估在多元線性回歸模型中,我們同樣可以定義總平方和(SST)、回歸平方和(SSR)和殘差平方和(SSE

)。具體的形式分別為:與一元線性回歸模型一致,SST、SSR和SSE滿足:

1110.2多元線性回歸模型的評估

1210.2多元線性回歸模型的評估

1310.2多元線性回歸模型的評估14

10.2多元線性回歸模型的評估

15,10.2多元線性回歸模型的評估

1610.3多重共線性

1710.3多重共線性一般線性模型(generallinearmodel,GLM):描述一個因變量與多個自變量之間的線性關系的方程模型,對于含有

個自變量的模型其一般形式為:

稱為截距參數,稱為斜率參數,變量表示誤差項或干擾項。自變量并不僅僅是單個變量本身,它可以是關于觀測變量的函數,如,。1810.4一般線性模型

含單變量多項式的模型是指:自變量只能取關于某個自變量的一階或多階函數。1910.4.1含單變量多項式的模型

令,化為一般線性模式:對于模型:只是關于自變量的一階函數,而與其他自變量無關。

對于模型:

是交互作用項。

2010.4.2含交互項的模型例:為加強國內青少年的體育鍛煉活動,助使其具有一個健康的身體和強健的體魄,各大高校紛紛開展了有獎競跑的夏季“夜跑”活動,對于參加夜跑的學生當天即可抽取豐厚大獎。現考慮某高校每晚參加夜跑活動的學生人數,經過調查發現,影響參加夜跑活動人數的主要因素有兩個:天氣的溫度、獎品的價值。記錄一個月(30天)的參加夜跑的人數得到數據見表10-3,試建立一般線性模型,并分析自變量之間是否存在交互作用。2110.4.2含交互項的模型當天溫度/℃獎品價值/元參加人數/人當天溫度/℃獎品價值/元參加人數/人1520080155001121720091165001181920012018500182202001212150020822200142215002102320014422500215232001452450023924200149245002482520015225500250262001562550025328200165295002753020017230500286332001863250029334200185355002813620018837500272解:設參加人數為因變量,當天溫度和獎品價值分別為自變量。當分別取200元、500元時,考慮對

的影響:22解:從圖中可以看出獎品價值設為500元比獎品價值設為200元能吸引更多的學生來參加本次夜跑活動,且不同獎品夠吸引的人數之差依賴于當天的溫度。這種觀測結果也就間接性的說明了當天溫度和獎品價值之間的潛在的交互作用。10.4.2含交互項的模型23建立模型:10.4.2含交互項的模型變量替換,得:交互項“溫度和價值”的顯著性是0.038,交互項的影響是顯著的。結論:當天溫度和獎品價值之間的交互作用對參加人數的影響是顯著的,即當天溫度對參加人數的影響依賴于獎品價值。表10-7模型的參數估計和檢驗模型非標準化系數標準系數tSig.共線性統計標準誤差容忍度VIF(常量)當天溫度(℃)獎品價值(元)溫度和價值8.88139.635

.224.824

3.2721.541.3332.123.043.1496.720.061.102.151.600.554.05817.299.009.004.6342.190.038.04422.915設勞動人員年薪為因變量(萬元),接受教育年數為自變量(年),建立模型:2410.4.3變量的對數變換工資的變化量為:

工資的比例變化為:期望結果:每增加一年的教育,工資增長的比例是不變的,而不應是工資的增長量是不變的。為了得到工資比例變化近似為常數的模型,對因變量取對數:2510.4.3變量的對數變換工資的比例近似變化為:若樣本回歸方程為:(常數)

此時對方程的解釋為:每多接受一年的教育,工資會增加約。當變化較小時:對自變量進行對數變換:2610.4.3變量的對數變換何時取對數?使用對數線性模型的經驗法則:使用對數時,變量不能取0或者負值。對于錢、人數、產品數等大的正整數,通??梢匀?。以年度量的單位,通常以原有形式出現,例如年齡、工作年限、教育年數等。在回歸模型中,除了需要考慮定量因素對因變量的影響,一些定性因素對因變量的影響往往也不可以忽略。例如,研究影響二手車價格的因素時,里程表計數可以作為一個定量自變量,而銷售商認為顏色也是影響二手車價格的一個因素,這時需要將二手車的顏色作為一個定性自變量引入模型之中。2710.5定性自變量

2810.5定性自變量——在模型中引入定性變量

對于更復雜的定性變量,記定性變量的水平數為k,那么需要定義k-1個虛擬變量。例如,在研究某品牌電腦在各商店的銷售數量時,管理人員認為付款方式也是影響銷售數量的一個重要因素。因為有現金支付、刷卡支付、移動支付三種付款方式,所以需要定義2個虛擬變量。每個虛擬變量被定義為如下形式,2910.5定性自變量——在模型中引入定性變量

付款方式現金支付10刷卡支付01移動支付00

在回歸模型中引入定性變量有多種方式,各種方式對回歸模型的影響不同。為了直觀地闡釋定類變量不同的引入方式對回歸模型的影響,接下來以決定小時工資的基本模型

進行說明(y:工資,x1:教育水平)。30

10.5定性自變量——含有定性變量的回歸(1)引入定性變量此時定性變量的不同取值改變的是模型的截距項,體現了性別和婚姻狀況對小時工資的影響。將x2(性別)和x3(婚姻狀況)引入基本模型(2)定性變量之間的交互作用3110.5定性自變量——含有定性變量的回歸此時含有交互作用的定性變量的不同取值改變的也是模型的截距項,體現了性別和婚姻狀況對小時工資的影響。將性別和婚姻狀況的交互項x2x3引入模型32

10.5定性自變量——含有定性變量的回歸(3)定性變量與非定性變量的交互作用此時定性變量的不同取值不僅改變了模型的截距項,還改變了模型的斜率項,體現了性別在受教育回報上的差異。將教育水平和性別的交互項x1x2引入模型33例:中國進出口貿易總額數據(1950-1984)見表10-5-2。試檢驗改革開放前后該時間序列的斜率是否發生變化。(數據見表10-6中國進出口貿易總額數據(1950-1984))解:由于年份數據值較大,首先將其處理為時間x1列。定義虛擬變量x2如下:以時間x1為自變量,進出口貿易總額y為因變量,為了檢驗改革開放前后該時間序列的斜率是否發生變化,同時引入虛擬變量x2及其與時間的交互項x1x2。

10.5定性自變量3410.5定性自變量統計軟件輸出的結果如表10-10和表10-11所示:表10-12模型的參數估計和檢驗表10-11方差分析表

由上式可知,斜率項和截距項都發生了變化;于是得出結論:改革開放前后該時間序列的斜率發生了變化。因為各系數的估計值通過檢驗,所以估計結果如下:

向前選擇(forwardselection):從模型沒有自變量開始,逐個選入自變量。步驟如下:對于因變量y的k個自變量分別建立一元線性回歸模型,對于這k個模型分別計算F統計量,將擁有最大且顯著F統計量的模型的自變量選入模型;對剩余的k-1個自變量分別加入模型,計算F統計量,選擇使F統計量最大且顯著的自變量進入模型;反復以上過程,直到自變量均無統計顯著性。35

10.6變量選擇與逐步回歸——向前選擇向后剔除(backwardelimination):與向前選擇法相反,從自變量全部進入模型開始,逐個剔除自變量。步驟如下:將所有k個自變量加入模型進行擬合,然后建立k個剔除一個自變量的回歸模型,每個模型都含有k-1個自變量。計算k個模型的SSE,選擇F統計量最小且不顯著的自變量進行剔除;建立k-1個回歸模型,每個模型中有k-2個自變量,比較每個模型增大的SSE值,選擇F統計量最小且不顯著的自變量進行剔除;反復以上過程,直到刪除任何自變量SSE均有顯著變化為止。36

10.6變量選擇與逐步回歸——向后剔除逐步回歸(stepwiseregression):綜合了向前選擇和向后剔除兩種方法進行自變量的選擇。步驟如下:前兩步與向前選擇相同,但是在加入一個自變量之后,要對之前所有自變量進行考察,確定是否需要剔除變量。如果在增加了一個自變量后,之前的某個自變量對模型的作用不再顯著,則需要剔除變量;反復進行這個過程,不斷增加變量和剔除變量,直到增加變量不會導致SSE顯著減小為止。37

10.6變量選擇與逐步回歸——逐步回歸38例:城鎮居民的平均工資受多種因素的影響,如教育水平、直接投資、基礎設施、外資開放度、第三產業增量,等等。為分析平均工資的影響因素,選取2016年31個省市的國家統計數據,如右表所示,用逐步回歸法建立回歸方程。省市編號平均工資教育水平直接投資基礎設施外資開放度產業結構11199280.03474276.29540.07731.18430.80232863050.04173751.94970.09730.74580.56443553340.0208742.50880.03680.22720.41544537050.0260680.42190.03400.28340.55455610670.021866.74410.01040.18550.43786560150.02882574.16280.03840.76190.51557560980.0295620.24280.02720.26070.42458524350.024672.33150.01310.27470.540491199350.026719014.30860.07892.81810.697810715740.027821651.13470.02730.72280.500011733260.02275000.71630.02550.72890.509912591020.0235874.80690.03010.22730.410513619730.02473917.76860.02640.98400.428814561360.0282773.12360.02400.37400.419715625390.02525477.53760.03500.41940.466816495050.02483288.67060.03350.19910.417817598310.0305707.07120.02210.27480.439418582410.0226416.94020.02220.21160.463719723260.021731237.70830.02341.48030.520120578780.0207646.92800.02200.24480.395621616630.0255479.93510.02950.65630.542522655450.03032214.05790.02530.31310.481323639260.02192074.23920.00950.31490.472324662790.019420.19620.01870.12830.446725604500.017032.37730.00940.27640.4668261032320.01340.00610.00070.20500.526727596370.03671434.37150.02240.30690.423528575750.02211.70410.00900.28870.514129665890.01280.27550.00320.17100.428130655700.021729.71430.01960.20550.454031637390.016412.99010.00350.15280.451210.6變量選擇與逐步回歸——逐步回歸3910.6變量選擇與逐步回歸——逐步回歸解:由統計軟件輸出的逐步回歸結果如下各表所示模型標準估算的錯誤1.795.632.61910778.995表10-15

模型概要模型已輸入變量已除去變量方法1產業結構.步進(準則:進入的概率F<=.050,刪除的概率F>=.100)。表10-14變量的進入和移出模型平方和df均值差值FSig.1回歸5790869774.07115790869774.07149.841.000b殘差3369415317.34829116186735.081

總計9160285091.41930

表10-16方差分析表4010.6變量選擇與逐步回歸——逐步回歸解:由統計軟件輸出的逐步回歸結果如下各表所示根據以上的回歸結果,該模型最終的估計方程為:

模型非標準化系數標準系數tSig.標準誤差1(常量)-12372.86911410.429

-1.084.287產業結構162636.32223036.894.7957.060.000表10-17模型的參數估計和檢驗模型tSig.偏相關共線性統計容忍度1教育水平-.128-1.073.292-.199.889直接投資.1211.012.320.188.890基礎設施.080.543.591.102.606外資開放度.2621.789.084.320.551表10-18模型移出變量41例:在此沿用上例,對城鎮居民的平均工資進行預測,統計軟件的輸出結果如右表所示10.7利用回歸模型進行預測省市編號平均工資點估計值置信下界置信上界預測下界預測上界1119928118113.78102790.02133437.5491265.64144961.9228630579412.7674066.9384758.5956728.34102097.1835533455179.3949941.6760417.1032520.2077838.5745370577811.3172765.4882857.1455195.71100426.9156106758834.6854220.2063449.1536311.3981357.9665601571459.0167295.4575622.5749023.7793894.2675609856672.6251707.3061637.9334074.8479270.3985243575518.9470855.5580182.3352985.5898052.299119935101113.8290471.35111756.2976633.89125593.76107157468939.9564941.3772938.5346534.7491345.17117332670548.8666459.1474638.5848127.2092970.52125910254382.6248990.9959774.2631687.3777077.88136197357365.1052518.1962212.0034793.0579937.15145613655893.5150788.8260998.1933264.7078522.31156253963540.6559455.2467626.0541119.7785961.52164950555579.1850416.5560741.8232937.2478221.13175983159082.0754503.9963660.1636566.2281597.93185824163049.1258926.3267171.9140621.4085476.83197232672210.7467974.7876446.7149761.9594659.54205787851972.4746084.5557860.3929154.2274790.72216166375858.9071142.7480575.0653314.5698403.24226554565902.9361930.3669875.5043502.3488303.52236392664446.7260417.9468475.5042036.1086857.34246627960281.5455867.6464695.4337798.4982764.58256045063544.8459459.7367629.9441124.0285965.652610323273289.4368932.6177646.2450817.5195761.34275963756497.6951501.6461493.7533893.1579102.24285757571231.9167088.2275375.6048800.3493663.47296658957254.0852388.5662119.6034678.0379830.14306557061464.5457191.0365738.0639008.6383920.45316373961004.8556679.4765330.2338539.0283470.69城鎮居民平均工資預測表42點估計值表示給定自變量值的條件下對應的因變量的預測值,例如,第31組數據實際平均工資為63739,利用回歸方程預測的平均工資為61004.85;置信下界和置信上界表示平均值的置信區間的下界和上界,預測下界和預測上界表示個別值的預測區間的下界和上界,例如,實際工資為63739的省市,均值95%的置信區間為[56679.47,65330.23],個體預測95%的預測區間為[38539.02,83470.69]。10.7利用回歸模型進行預測43回歸系數的進一步解釋偏效應(partialeffect)是指在其他自變量保持不變條件下,某自變量(解釋變量)對因變量(被解釋變量)的效應。在獲取樣本時,我們很少能夠奢侈到限制某些變量使其保持不變。多元回歸分析的作用在于,盡管不能在其他條件保持不變的情況下收集數據,但它提供的系數仍然可以做其他條件不變的解釋。多元回歸使我們在對自變量的值不施加限制的情況下,能有效地模擬施加限制時的情況。使得我們能夠在非實驗的環境中,去做自然科學家在受控實驗室中所能做的事情:保持其他因素不變。10.8利用回歸模型進行因果分析44

10.8利用回歸模型進行因果分析2018年9月30日上映的由莊文強執導的犯罪動作電影《無雙》,贏得了口碑、票房的雙豐收2017年7月27日,由吳京執導的動作類電影《戰狼2》,更是霸屏各類網站頭條,以56.8億元雄踞國產片電影榜首2017年8月上映的由王寶強執導的處女作《大鬧天竺》,未播先火,王寶強,岳云鵬,柳巖,王祖藍,劉昊然,黃渤等都是票房號召力演員,最終卻爛尾收場似乎光靠廣告、明星、導演就可以吸金的時代已不復存在,互聯網的發展,社會化網絡的普及(微信、微博)使得觀眾評價信息更快速地傳播,其作用也日益彰顯。為此,研究觀眾評價如何影響電影票房及其趨勢是一個亟需解決的問題,對制片方以及出品方更具有直接的現實意義。45中國電影票房案例分析—案例背景本案例以中國2011-2017年豆瓣上映的1246部電影為樣本,運用多元線性回歸模型,分析觀眾評價對電影票房的作用及其變化趨勢。模型包括電影票房、評分、票價和移動網民數量等13個變量。46變量描述數據來源票房電影i的總票房藝恩數據庫評分電影i的豆瓣評分豆瓣網移動網民數量對應年份移動網民數量中國互聯網絡信息中心首映日票房電影i的首映日票房藝恩數據庫首映日排座數電影i的首映日排座數藝恩數據庫票價電影i的平均票價藝恩數據庫電影時長電影i的播出時長豆瓣網明星影響力虛擬變量,至少有一位明星在福布斯中國名人榜則為1福布斯中國名人榜發行商虛擬變量,屬于中國十大發行商則為1藝恩數據庫假期虛擬變量,電影i在假期上映則為1豆瓣網續集虛擬變量,電影i為續集電影則為1豆瓣網國外電影虛擬變量,電影i為國外制片則為1豆瓣網上映年份虛擬變量,電影i在當年上映年份則為1豆瓣網中國電影票房案例分析—數據及其說明為了概括性地描述數據的特征,對本案例的連續變量進行了描述性統計。票房、首映日票房、首映日排座數以及電影時長的波動性較大。因此對以上變量進行取對數處理(ln),這不僅使數據變得平滑同時易消除異方差的問題。47變量個數最小值最大值均值標準差票價(元)12466.0047.0030.254.01票房(萬元)12461.10567877.409677.0829690.13首映日票房(萬元)12460.0235600.001080.762686.21首映日排座數(個)1246867199455371652593.792662311.37電影時長(分鐘)12467315397.9511.98評分12462.109.104.581.48移動網民數量(千萬)12463.567.535.721.26中國電影票房案例分析—數據及其說明使用本章所學的內容,對2011-2017年1246部豆瓣上映的電影進行多元線性回歸分析,主要實現兩個目的:對數據中的因變量“票房”與自變量“評分”、“移動網民數量”、“首映日票房”和“首映日排座數”等進行回歸分析,刻畫觀眾評價等因素對電影票房的影響作用。在多元線性回歸方程中加入觀眾評價與移動網民數量、首映日票房、首映日排座數的交互項,分析網民數量、首映日票房、首映日排座數對觀眾評價的票房影響力的調節作用。48中國電影票房案例分析—數據分析使用SPSS來分析上述問題,統計軟件輸出的結果如表10-21所示表10-21(a)模型匯總表10-21(b)方差分析49模型平方和自由度均方F顯著性1回歸7298.86615486.5911180.970.000殘差506.79312300.412

總計7805.6591245

因變量:電影票房模型RR方調整后R方標準估算的錯誤Durbin-Watson(U)10.9670.9350.9340.6421.984因變量:電影票房中國電影票房案例分析—數據分析表10-21(c)模型匯總(因變量:電影票房)50模型變量未標準化系數標準系數tSig.共線性統計標準誤差容忍度VIF(常量)4.8091.667

2.8840.004

票價0.0080.0060.0131.4720.1410.6461.547首映日票房0.6920.0800.6728.6090.0000.009115.591首映日排座0.0980.1170.0660.8390.4020.009116.756評分0.5070.2500.3002.0290.0430.002414.085移動網民數量-1.1380.391-0.573-2.9100.0040.001734.999評分*移動網民數量0.0200.0110.0781.8630.0630.03033.036評分*首映日票房0.0780.0180.5014.3700.0000.004249.223評分*首映日排座-0.0650.026-0.617-2.4900.0130.0011162.939電影時長0.0000.0020.0010.1550.8770.5881.702續集0.2430.0860.0212.8290.0050.9341.071發行商-0.0480.042-0.009-1.1440.2530.8401.190國外電影0.1340.1280.0091.0460.2960.7361.358上映年份0.6440.2580.4872.4980.0130.001719.822假期0.1780.0380.0354.6900.0000.9221.084明星影響力0.1640.0540.0283.0480.0020.6341.578中國電影票房案例分析—數據分析從電影票房的顯著影響因素及其變化趨勢的回歸結果可以得出以下結論電影的首映日的票房、評分、續集、上映年份假期上映和明星都會顯著正向影響電影的票房。移動網民數量對電影票房有顯著的負向影響,既在保持其他變量不變的情況下,移動網民數量越多票房越少。評分對電影票房的正向顯著作用受到首映日票房的正向調節。即在保持其他變量不變的情況下,首映日票房越高,評分對票房的正向作用越強。觀眾評分對電影票房的正向顯著作用受到移動網民數量的正向調節。即在保持其他變量不變的情況下,移動網民數量越多,評分的正向作用越強。觀眾評分對電影票房的正向顯著作用受到首映日排座數的負向調節。即在保持其他變量不變的情況下,首映日排作數越多,評分的正向作用越弱。51中國電影票房案例分析—結論第11章

邏輯回歸52第11章邏輯回歸分析——目錄11.1邏輯回歸模型11.2估計邏輯回歸模型11.3顯著性檢驗11.4回歸系數的含義11.5案例分析53許多社會科學問題中的因變量往往是分類變量。比如,政治學中經常研究的是否選舉某候選人,候選人的類型等;又如,經濟學研究中所涉及的是否銷售或購買某種商品、是否簽訂一份合同,保險是否違約,違約有哪些類型等等。這些分類變量中有一類特殊的變量,遵循二值取值原則,要么“是”或“發生”,要么“否”或“未發生”。統計上我們將這樣的變量稱作二分類變量(Binaryvariable)。54應用背景多元回歸模型分析二分類變量的局限性被解釋變量的取值區間受限制自變量的邊際分析不符合實際分析二分類變量的方法利用概率轉化模型調整二分類變量使其線性化,也即,使其隨著自變量的變化,這一概率的值總是在0到1之間變化。11.1邏輯回歸模型Logistic函數Logistic回歸方程11.1邏輯回歸模型——概率轉換方法

似然函數其中,11.2估計邏輯回歸模型——最大似然估計追求似然函數最大值的過程就是追求對數似然函數值最大值的過程。對數似然函數值越大,意味著模型較好地擬合樣本數據的可能性也越大,所得模型的擬合優度越高。整體模型的檢驗和評價11.3顯著性檢驗

整體模型的檢驗和評價11.3顯著性檢驗判錯矩陣預測值01正確率觀測值01總體正確率判錯矩陣是一種極為直觀的評價模型優劣的方法,它通過矩陣表格的形式展現預測值與實際觀測值的吻合程度。整體模型的檢驗和評價11.3顯著性檢驗Cox&SnellR2統計量Cox&SnellR2統計量與一般線性回歸分析中的R2有相似之處,也是方程對被解釋變量變差解釋程度的反映。缺點是取值范圍不易確定,因此使用時不方便。NagelkerkeR2統計量Cox&SnellR2統計量取值在0~1之間,越接近1說明方程的擬合優度越高?;貧w系數的顯著性檢驗

11.3顯著性檢驗

Wald統計量多重共線性檢驗

應當注意,如果解釋變量存在多重共線性會對Wald檢驗統計量產生影響。由于用于logistic回歸建模的很多軟件包,如

Excel,SPSS,和R并不提供共線性的問題檢驗,所以如果用戶想檢驗共線性問題,可以就給定的自變量做一個線性回歸模型,并輸出共線性診斷指標,就可以了解自變量的相關情況。11.4邏輯回歸系數的意義平均個人偏效應和平均偏效應Logistic回歸模型的解釋涉及到對建立回歸方程所包含的自變量的分析。也即,我們常常想估計xi對響應概率P(y=1|X)的影響。若xi是(大致)連續的,則對xi的較小變化,有:比例因子

11.4邏輯回歸系數的意義平均個人偏效應和平均偏效應

平均個人偏效應表示將每個解釋變量都代之以樣本平均值而得到常數比例因子,利用該常數比例因子乘以對應的xi的系數βi

即得到平均個人偏效應。數學表達式為:平均個人偏效應(PEA)平均偏效應表示將樣本中所有個體的偏效應取平均而得到常數比例因子。數學表達式為:平均偏效應(PEA)11.4邏輯回歸系數的意義

根據平均個人偏效應的定義,將年齡的樣本均值40.00代入公式可計算年齡對購買該產品響應概率影響的平均個人偏效應PEA;將根據個人偏效應的定義,將年齡的樣本所有取值代入公式可得年齡對購買該產品響應概率影響的個人偏效應APE。

由于logistic模型中,自變量與響應概率之間的關系是非線性的,因此平均個人偏效應和平均偏效應存在差異。11.4邏輯回歸系數的意義發生比Logistic回歸模型的解釋涉及到對建立回歸方程所包含的自變量的分析。利用logistic回歸,直接解釋自變量和y=1的概率之間的關系非常困難,統計學上,通過定義發生比和比值比對logistic回歸方程做出解釋。發生比

發生比被定義為事件將要發生的概率與該事件將不會發生的概率之比。11.4邏輯回歸系數的意義比值比比值比(Oddsratio)度量了當一組自變量中只有一個自變量增加了一個單位時對事件發生概率(Odds)的影響。比值比是當給定的一組自變量中一個自變量增加了一個單位,y=1發生概率(Odds1)除以該組自變量的值都沒有變化時y=1發生概率(Odds0)

比值比(Oddsratio)11.4邏輯回歸系數的意義

此時,我們想要知道去年消費支出為2萬元,且擁有信用卡的顧客使用優惠券的機會比與去年消費支出為2萬元,但沒有信用卡額度顧客使用優惠券的機會比精細比較,也即,當解釋變量x2增加一個單位時的影響:

因此,去年消費支出為2萬元,且擁有信用卡的顧客使用優惠券的機會比是去年消費支出為2萬元,但沒有信用卡的顧客使用優惠券的機會比的3倍。11.5案例分析一、案例背景

某商品銷售人員在長期推銷該產品的過程中發現,消費者是否購買該產品受到很強的消費者人口結構特征的影響。比如性別、年齡以及收入水平。為了驗證自己的猜想,以及在未來的銷售活動中能更好的,有針對性的,對可能購買該產品的顧客提供更好的服務。經與銷售主管的商議,該銷售團隊對到達商鋪的顧客進行隨機的問卷調查,并對顧客最終是否購買該產品做了詳細的記錄。對數據進行初步的整理以后,團隊成員計劃通過運用logistic回歸的方法來檢驗消費者人口特征對其是否購買該產品的影響。11.5案例分析二、數據及其說明剔除無效樣本,并對數據進行編碼后發現,收集到有效樣本431份。數據項包括:是否購買(purchase)、性別(gender)、年齡(age)、收入水平(income)。是否購買作為被解釋變量(0/1二分類變量),其余各變量作為解釋變量,且其中性別和收入水平為類別變量,年齡為數值型變量。11.5案例分析三、數據分析表11-4分類表a,b

已觀測已預測

是否購買百分比校正

不購買購買步驟0是否購買不購買2690100.0購買1620.0總計百分比

62.4a.模型中包括常量。b.切割值為.50011.5案例分析三、數據分析表11-5方程中的變量

BS.E,WalsdfSig.Exp(B)EXP(B)的95%C.I.下限上限步驟1aage.025.0181.9741.1601.026.9901.062gender.511.2095.9541.0151.6671.1062.513income

12.3052.002

income(1)-.787.2539.6761.002.455.277.748income(2)-.686.2437.9451.005.503.312.811常量-1.836.7865.4571.019.159

a.在步驟1中輸入的變量:age,gender,income.

11.5案例分析三、結論

通過運用logistic

回歸分析的方法發現,消費者是否購買該產品顯著的受到性別和收入水平的影響。其中女性消費者比男性消費者更青睞于購買該產品。此外,該產品更適合于低收入群體,因為中、高收入群體購買該產品的機會比顯著的小于低收入群體。因此,該商品的銷售人員應該更關注于女性和低收入的消費者。但是,值得注意的是,該模型的解釋力較低NagelkerkeR2

只有0.057。也就是說,消費者是否購買該產品可能還受到其他因素的影響。未來的研究可以嘗試加入這些因素,如該產品的特性等。由此,便能更好的解釋和預測消費者購買該產品的原因。第12章

時間序列預測73第12章時間序列預測——目錄12.1時間序列構成因素12.2預測方法的評估12.3平穩序列的預測12.4趨勢型序列的預測12.5趨勢與季節混合型序列的預測74時間序列(timeseries)是按照一定的時間區間進行索引的隨機變量序列。平穩時間序列(stationarytimeseries)指的是只包含隨機波動的序列。這類序列中的各個觀察值基本上在某個固定的水平上隨機波動。非平穩時間序列(non-stationarytimeseries)指的是除了隨機波動外,還包含趨勢、季節變動和周期波動中的一種或多種成分的序列。7512.1時間序列的構成因素固定值圖12-1四種要素:趨勢、季節變動、周期波動和隨機波動。趨勢(trend)是指在一個較長時間段內,時間序列呈現出的持續向上或者持續向下的穩定變動。時間序列中的趨勢可以是線性的,也可以是非線性的。7612.1時間序列的構成因素——趨勢圖12-2(b)圖12-2(a)季節變動(seasonality)是指在一個較短時間段內(一般小于一年),時間序列呈現出的重復性的、可預測的變動。例如。電風扇的銷售低谷在冬季,而銷售高峰在夏天。這種季節性是氣候條件,生產條件,節假日以及風俗習慣等諸多因素的聯合影響所引起。這里我們所說的“季節”一詞是廣義的周期性變化。不僅僅代表一年四季,而是泛指任何有規律的變動周期,可以是小于一年的季,月,旬,周,日。7712.1時間序列的構成因素——季節性圖12-3周期波動(cyclicity)也稱循環波動(cyclicalfluctuation)是指在一個較長時間段內(一般大于一年),時間序列呈現出的圍繞長期趨勢的一種波浪形或振蕩式變動。周期性變動是變動周期超過一年的、非固定長度的變動,但每一變動周期的長短不同,上下波動的幅度也不一致,循環波動可以是1-5年周期,也可以是10年以上的長周期。7812.1時間序列的構成因素——周期性圖12-4隨機波動(randomness)也稱不規則波動(irregularvariations)是指除趨勢、季節變動和周期波動以外,時間序列所呈現出的由臨時性或偶然性因素引起的變動。如地震、洪災、軍事沖突、政治動亂或一些偶然因素對社會經濟所造成的影響及結果。不規則變動是不以人的意志為轉移的,是無法控制的。7912.1時間序列的構成因素——隨機性圖12-5時間序列分析需要把趨勢(T)、季節變動(S)、周期波動(C)和隨機波動(R)這幾種成分從時間序列中有目的的分離出來,或者所對數據進行分解、整理,并將它們的關系用一定的數學關系式進行表達,然后分別進行分析,即建立時間序列的分解模型。按照四種成分對時間序列影響方式的不同,時間序列可分解為多種模型,比如加法模型,乘法模型等,其中比較常用的是乘法模型。80

12.1時間序列的構成因素——時間序列的分解模型乘法模型:加法模型:12.2預測方法的評估——評價預測方法預測誤差:預測值與實際值的差距最優的預測方法:使預測誤差最小常用的計算方法:平均絕對誤差和均方誤差。平均絕對誤差:平均絕對誤差可以避免相互抵消的問題,因而可以準確的反應實際預測誤差的大小。12.2預測方法的評估——評價預測方法均方誤差:如果避免誤差太大對研究問題來說很重要,那就應該使用均方誤差,因為它相對于平均絕對誤差而言增加了相對較大誤差的計算權重,反之則使用平均絕對誤差。均方誤差具有良好的數學性質,有利于快速求得使其最小化的模型參數。平穩序列(stationaryseries)指的是不含趨勢、季節變動和循環波動的序列,即其通常只包含隨機成分。本節主要介紹簡單平均法、加權移動平均法和指數平滑法。8312.3平穩時間序列的預測移動平均法:把最近d期數據的算術平均值作為t+1期的觀測值。簡單移動平均法能消除數據的隨機波動對預測結果的影響,因而適合預測較為平穩的時間序列。對每個實際觀測值賦予相同的權重,忽略了一個重要的事實,在大多數情況下,遠期和近期觀測值對未來值的影響是不一樣的。8412.3平穩時間序列的預測加權移動平均法:是基于簡單移動平均法上的一種改進預測方法。對每個實際觀測值賦予不同的權重—近期權數較大,遠期權數較小,但權數之和為1。可以根據預測誤差(如均方誤差)最小原則,來尋找最優的權重組合。8512.3平穩時間序列的預測指數平滑法:

通常設1期的預測值等于1期的實際觀測值2期的預測值為:3期的預測值為:4期的預測值為:結論:任何預測值是過去所有實際觀測值的加權平均值。8612.3平穩時間序列的預測

87例12.1:分別用移動平均法、加權移動平均法、指數平滑法預測2016年中國的電力出口量。解:(1)移動平均法(移動間隔為4):因此,2016年中國的電力出口量為183.25億千瓦時。序號年份電力出口量/億千瓦時120101912201119332012177420131875201418262015187表12-12010-2015年中國的電力出口量12.3平穩時間序列的預測88解:(2)加權移動平均法:權數設置為:12.3平穩時間序列的預測則1980年的預測值為:因此,2016年中國的電力出口量為184.96億千瓦時。89解:(3)指數平滑法():2011年的預測值為:12.3平穩時間序列的預測因此,2016年中國的電力出口量為186.0255億千瓦時。2012年的預測值為:2013年的預測值為:2014年的預測值為:2015年的預測值為:2016年的預測值為:90線性趨勢(lineartrend)是指時間序列呈現出穩定的上升或下降的線性變化規律。當時間序列含有線性趨勢時,可以用一元線性回歸模型進行預測,即將時間當作自變量,實際觀測值當作因變量。線性回歸方程:12.4趨勢型時間序列的預測—線性趨勢回歸參數值(最小二乘法):趨勢預測的效果:一元線性回歸方程的判定系數、估計標準誤、模型顯著性等指標例12.2:根據表12-2中的蔬菜產量數據,用一元線性回歸方程預測2019年的蔬菜產量,并將實際值和預測值繪制成圖形進行比較。91,12.4趨勢型時間序列的預測—線性趨勢回歸表12-22000-2018年蔬菜產量時間序列序號年份蔬菜產量(萬噸)1200044467.942200148422.363200252860.564200354032.325200455064.666200556451.497200653953.058200751767.679200854457.9610200955300.3011201053030.8612201159766.6313201261624.4614201363197.9815201464948.6516201566425.1017201667434.1618201769192.6819201870346.72

92,12.4趨勢型時間序列的預測—線性趨勢回歸(萬噸)圖12-6蔬菜產量的預測93當時間序列不是以固定的常數(即斜率)上升或下降的時候,則此時間序列具有非線性趨勢(non-lineartrend)。當時間序列的實際觀測值按指數規律變化時,需要用指數曲線(exponentialcurve)方程對時間序列進行預測。指數曲線:12.4趨勢型時間序列的預測—非線性趨勢回歸參數的計算:先取對數,再由最小二乘法可得例12.3:根據表12-3中的人均GDP數據,用指數曲線方程預測2019年的人均GDP,并將實際值和預測值繪制成圖形進行比較。94,12.4趨勢型時間序列的預測—非線性趨勢回歸表12-32000-2018年人均GDP時間序列序號年份人均GDP(元)12000794222001871732002950642003106665200412487620051436872006167388200720494920082410010200926180112010308081220113630213201239874142013436841520144700516201550028172016536801820175920119201864644解:對取對數得:

由最小二乘法可得:

所以指數曲線方程為:

帶入t=20,可得:95,12.4趨勢型時間序列的預測—非線性趨勢回歸圖12-7人均GDP的預測96當時間序列的實際觀測值變化比較復雜時,如在一段時間內下降,在另一段時間內上升,或者更為復雜(存在多個拐點),此時,需要通過擬合多階曲線來刻畫這種復雜的非線性趨勢。二階曲線:1個拐點三階曲線:2個拐點多階曲線:12.4趨勢型時間序列的預測—非線性趨勢回歸參數的計算:由最小二乘法可得例12.4:根據表12-4中石油占能源消費總量的比重的數據,用合適的多階曲線方程預測2019年的石油占能源消費總量的比重,并將實際值和預測值繪制成圖形進行比較。97,12.4趨勢型時間序列的預測—非線性趨勢回歸表12-42000-2018年石油占能源消費總量的比重時間序列序號年份石油占能源消費總量的比重120000.2200220010.2120320020.2100420030.2010520040.1990620050.1780720060.1750820070.1700920080.16701020090.1640112010016801320120171015201401830172016018801920180.1890解:石油占能源消費總量的比重先下降,再上升,存在一個明顯的拐點,因此,用二階曲線方程預測較為合適。二階曲線方程為:

由最小二乘法可得:

帶入t=20,可得:98,12.4趨勢型時間序列的預測—非線性趨勢回歸圖12-8石油占能源消費總量的比重的預測99當時間序列同時存在趨勢和季節性時,時間序列既在某一段時間內遞增或遞減,同時各年內的相同季節中存在類似的波動。為了對這種類型的時間序列進行預測,可以根據多元線性回歸的思想,將時間和表示季節性的虛擬變量當作自變量,實際觀測值當作因變量。引入虛擬變量的多元回歸預測:12.5趨勢與季節混合型—引入虛擬變量的多元回歸參數的計算:最小二乘法可得虛擬變量的設置:n個虛擬變量對應表示n+1個季節預測效果:可用多元回歸方程的判定系數、系數顯著性、模型顯著性等指標進行衡量例12.5:根據表12-5中的數據,預測布丁酒店2017年1月的客房出租率,并將實際值和預測值繪制成圖形進行比較。100,表12-52005-2006年布丁酒店各月的客房出租率序號年份月份時間客房出租率12015115912015226312015336812015447012015556312015665912015776812015886412015996212015101073120151111621201512124722016113642201621469220163157322016416672201651768220166187122016719672201682071220169216522016102272220161123632201612244712.5趨勢與季節混合型—引入虛擬變量的多元回歸解:客房出租率同時含有季節性和趨勢成分,應引入月份虛擬變量,并進行多元回歸預測。

將12月設為基準變量,引入11個月份虛擬變量,則多元回歸預測方程為:

由最小二乘法可得:

帶入t=25,可得:所以,2017年1月布丁酒店的預測客房出租率為66.36%。101,12.5趨勢與季節混合型—引入虛擬變量的多元回歸102,圖12-9客房出租率的預測12.5趨勢與季節混合型—引入虛擬變量的多元回歸103當時間序列是同時含有趨勢、季節變動和隨機波動的復合型序列時,需要對時間序列進行分解預測—先將時間序列的各個因素依次分解出來,然后進行預測。常用的有乘法模型和加法模型,此節僅介紹乘法模型。乘法模型:12.5趨勢與季節性—時間序列分解法第1步:確定并分離季節成分以季節指數來表示時間序列中的季節成分,將季節成分從時間序列中分離出去,即用序列中的每個實際觀測值除以對應的季節指數,以消

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論