地理數據統計分析與建模2014_第1頁
地理數據統計分析與建模2014_第2頁
地理數據統計分析與建模2014_第3頁
地理數據統計分析與建模2014_第4頁
地理數據統計分析與建模2014_第5頁
已閱讀5頁,還剩245頁未讀 繼續免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

地理數據分析程立cllgg1@QQ:4977442492第一章緒論為什么地理研究中需要數學方法?在地理研究中如何應用數學方法?本課程需要掌握哪些數學方法?3為什么地理研究中需要數學方法?地理學發展歷史的必然數學方法在地理學研究中起到重要作用4地理學的歷史與數學工具的運用古代地理學——幾何學(Geometry測量大地) Geo- Geography 地理學

Geomorphology地貌學

Geobotany 地植物學

Geoinformatics:?

5Geoinformatics–whatisit?

-definedasthescience,technologyandartofcollecting,storing,andanalyzinginformationabouttheearth’ssurface(ocean,land,environment,peopleandnaturalresources)anddisplayingtheanalysedresultsdigitally; -alternativeterm:geographicinformationscience;6地理學的歷史與數學工具的運用古代地理學

描寫地理事件,地理事實,積累知識(山海經,水經注)

例如:海平面變化的描述7顏真卿

(公元708--784年)

“麻姑自言∶接侍以來,已見東海三為桑田。向到蓬萊,水又淺于往昔會時略半也。豈將復為陵陸乎?方平笑曰∶圣人皆言海中行復揚塵也。”

摘自《麻姑仙壇記》8沈括

(公元1024--1093年)

予奉使河北,遵太行而北。山崖之間,往往銜螺蚌殼及石子如鳥卵者,橫亙石壁如帶。此乃昔之海濱,今東距海已近千里。所謂大陸者,皆濁泥所淹耳。舜殛鯀于羽山,舊說在東海中,今乃在平陸。

摘自《夢溪筆談》91832年萊依爾對意大利波佐利大理石柱上的海蝕痕跡的解釋10地理學的歷史與數學工具的運用近代地理學——統計學 對地理現象進行開始運用數學工具描述現代地理學——多種數學工具 對地理現象進一步定量研究,以揭示地理現象的運動規律與形成機制舉例:對海平面描述說明的近現代方法(時間序列分析)112億5千萬年來的全球海面變化過程12最近26萬年來的海面變化曲線13最近15萬年來的海面變化曲線14

我國棉鈴蟲與北太平洋海溫場月均距平、前期ENSO指標的相關關系,建立棉鈴蟲的長期預報模型。(線性回歸,相關分析)

現代地學研究方法舉例

——棉鈴蟲的長期預警模型15德州鄆城豐縣南京棉鈴蟲卵量數據德州,22年(1978~1999)鄆城,26年(1974~1999)豐縣,20年(1980~1999)16棉鈴蟲的卵量與前期的海平面溫度(SST)距平、ENSO指標存在顯著或極顯著相關關系不同地區的棉鈴蟲卵量與前期海溫距平存在時空的差異性17山東德州棉鈴蟲第3代卵量與前期海溫相關的時空分布Red:正相關Blue:負相關深色:p<0.01淺色:p<0.0518山東德州棉鈴蟲第3代卵量與前期海溫相關的時空分布19山東鄆城

江蘇豐縣JAN2、FEB2、MAR2均存在大面積的正顯著相關區域20

棉鈴蟲第三代卵量與JAN2北太平洋海溫相關的空間分布21Correlationcoefficient棉鈴蟲卵量與前期各ENSO指標的相關關系22棉鈴蟲卵量預報模型的建立和驗證23OCT2XNOV2X最佳預測模型:Y=-0.0482OCT2–0.6152NOV2歷史回檢率:70%預測準確率:100%(1994-1999)24Ni?o-4區的SST距平是預測豐縣、鄆城和德州三地棉鈴蟲卵量的最主要因子,其他的ENSO指標的預測能力較差用ENSO指標可以提前15-25個月預測,模型的歷史回檢率為70%,預測準確率為78%模型預測能力25結論:SST和ENSO指標是害蟲大爆發的主要長期預測因子;利用北太平洋海溫場SST可以提前20-27個月對棉鈴蟲作出預測;利用ENSO指標可以提前15-25個月對棉鈴蟲作出預測。26地理與氣象關系的分析同理,我們可以分析其他地理與氣象關系重慶高溫干旱與三峽工程的關系汶川地震與氣象的關系2008年年初的雨雪冰凍天氣2010年中國的極端天氣2011年西南大旱(旱震關系)日本海嘯(3.11)2012年美國大旱2013年云南干旱、雅安地震隨機向量簡介——多元統計分析的預備知識(現代地理統計)28隨機向量的定義若向量ξ=(ξ1,ξ2,...ξn)

中各分量ξi為隨機變量,則稱該向量為n維隨機向量.以隨機變量為元素的矩陣稱為隨機矩陣各個波長的光譜反射率變化構成一個隨機向量29隨機向量數學期望若

為一n維隨機向量,則它的數學期望為

30隨機矩陣若矩陣的各個元素為隨機變量,則稱矩陣X為隨機矩陣,31隨機矩陣的數學期望

隨機矩陣X的數學期望定義為隨機矩陣的期望是不是隨機矩陣?32隨機矩陣數學期望的性質以下AB為普通常數矩陣,X為隨機矩陣1.2.3.4.利用定義證明以上公式(作業1)33隨機向量的協方差陣(1)若為一n維隨機向量,

則:

為該隨機向量的協方差陣.34由V(x)的定義可以推出(留作作業2)其中其中D(xi)為隨機向量x各分量的(均)方差cov(xixj)為隨機變量xi與xj的協方差隨機向量的協方差陣(2)35協方差陣的基本性質(1)性質1由于cov(xixj)=cov(xjxi),所以V(x)是n階實對稱陣性質2cov(xixj)反映了隨機變量xi與xj之間的線性相關情況,如果隨機變量xi與xj相互獨立,則cov(xixj)=0 V(x)成為對角陣

36協方差陣的基本性質(2)性質3:證明:37協方差陣的基本性質(3)

性質4:V(x+c)=V(x)其中c為常數向量(留作作業3)性質5:若y為m維隨機向量,x為n維隨機向量,V(x)為x的協方差陣,A為m×n階常數矩陣,并且滿足y=Ax,則:

V(y)=AV(x)A' 證明:

V(y)=E[(y-E(y))(y-E(y))']

=E[(Ax-E(Ax))(Ax-E(Ax))

']

=E[(A(x-E(x)))(A(x-E(x)))']

=AE(x-E(x))(x-E(x))'A'=AV(x)A'38隨機向量的相關陣定義若為一n維隨機向量,則它的相關矩陣定義為:其中:為xi和xj的相關系數

39隨機向量相關陣的性質由于rii=1,rij=rji,因此,相關陣為對角線元素為1的實對稱陣40隨機向量相關陣的性質

若隨機向量各分量互不相關則相關陣是一n階單位陣(rii=1,rij=0)41隨機向量相關陣的性質協方差陣與相關陣關系

注意到在相關陣中:其中:V(x)=DR(x)D

其中:隨機向量相關陣展示了一個隨機向量內部各隨機分量之間的相關性,以及每個隨機分量的變動情況(方差)42兩個隨機向量之間的互協方差陣

定義:若

分別為n維m維隨機向量,則向量x和y的互協方差陣為:展開可得到:

43互協方差陣性質對稱性:cov(x,y)=(cov(y,x))'

Vxy=Vyx'通常記cov(x,y)為Vxy若隨機向量u與x之間滿足u=Ax,隨機向量v與y之間滿足v=By則有:Vuv=AVxyB'(留作作業4)44互相關陣定義定義:若

分別為n維和m維隨機向量則x和y的互相關陣為:

其中r(xi,yj)為隨機變量xi與yj

的相關系數,顯然:Rxy=Ryx'多元線性回歸——一元線性回歸46變量之間的聯系變量之間的聯系分為確定性關系和非確定性關系(現代統計方法與應用何曉群人大出版社)確定性關系:具有精確的函數關系例如:歐姆定律(V=IR),自由落體運動公式等非確定性關系:存在密切關系但是沒有密切到一個可以完全確定另一個的程度非確定性的原因:存在尚未認識的影響因素試驗或測量誤差其他種種偶然因素等使得一個或一些隨機變量取定值后,其余變量取值帶有一定的隨機性,不能以確定值與之對應.47變量之間的聯系統計關系(相關關系):統計學中把變量間具有密切關聯但是不能用函數關系精確表達的關系稱為變量間的統計關系或相關關系確定性關系與相關關系之間的轉化 由于存在測量誤差等原因,確定性關系往往通過相關關系表現出來,許多物理化學定律都是先得到相關關系,在相關關系的啟發下逐步發現了這些定律.也就是說當對事物的內部規律了解更加深刻的時候,相關關系可能轉化為確定性關系.對于某些統計關系,我們可以利用統計方法建立模型4849坎兒井示意圖50回歸方程的基本概念回歸方法是一種數據挖掘的方法,能從數據中發現有用信息

(是事物的表面規律不是內部機理)數據表格你能從這張表中發現什么規律?年序 最大積雪 灌溉面積y(千畝)

深度x(尺)1 15.2 28.62 10.4 19.33 21.2 40.54 18.6 35.65 26.4 48.96 23.4 45.07 13.5 29.28 16.7 34.19 24.0 46.710 19.1 37.451回歸方程的基本概念進行一般加工計算均值(平均最大積雪深度18.5灌溉面積36.53)標準差(最大積雪深度4.773灌溉面積8.746)相關系數只能描述數據的一般特征用于預測還不夠好52回歸方程的基本概念散點圖很容易發現兩者存在線性關系,通過計算兩者的相關系數也可證明這一點.53回歸方程的基本概念通過線性回歸可以擬合得到一根最好的趨勢線54回歸方程應用的另一個例子

直觀經驗→采集數據→經驗驗證身高(x)143145146147149150153154155156157158159160162164褲長(y)8885889192939395969897969899100102斜率的意義:整個身高每增高一個單位,腿長貢獻其中71.9%5556地理研究的例子5758人口密度與光能輻射596061回歸方程的基本概念“回歸”(Regression)名稱的產生背景來自于英國統計學家F.Galton(1822-1911).Galton在和他的學生K.Pearson(1856-1936)研究父母與子女身高關系的遺傳問題時,觀察了1078對夫婦,繪制了散點圖,計算出一個回歸直線方程y=33.73+0.516x

其中,y是成年兒子的身高,x是父母的平均身高.另外:Galton對樣本的平均值研究發現: 樣本中,父母的平均身高為68英寸() 兒子的平均身高為69英寸()似乎表明:人類后代的平均身高總比上一代高1英寸,是這樣嗎?62進一步研究發現:當雙親的平均身高平均值為72英寸時(大于均值),他們的兒子的平均身高為71英寸()當雙親的平均身高平均值為64英寸時(小于均值),他們的兒子的平均身高為67英寸()人類身高出現的所謂的“回歸效應”后來人們把Galton所計算得到的直線方程稱為回歸方程,相應的統計分析稱為回歸分析實際上,并非所有具有線性關系數據都有回歸效應,這樣稱呼是歷史原因造成的回歸方程的基本概念63一元回歸模型定義:假定(最大積雪深度)x,(灌溉面積)y具有如下線性關系:y=α+βx+εαβ是未知常數,稱為回歸系數ε表示其他隨機因素對y的影響,是一個隨機變量.稱上式為一元線性回歸模型的線性公式變量y稱為因變量或響應變量變量x稱為自變量或預報變量上式表明:變量y包含有隨機成分和線性成分一元線性回歸模型是處理兩個變量之間關系最簡單的模型。雖然簡單,但是從中可以了解回歸分析方法的基本思想方法和應用。64一元回歸模型

實際上,如已經獲得n組觀察值(x1,y1),(x2,y2),...,(xn,yn)

(比如以上例子中10年的數據) 即自變量x分別取值:x1,x2,...,xn

因變量y分別對應取值:y1,y2,...,yn

符合一元回歸模型,則有(xi,yi)滿足:

yi=α+βxi+εi65一元回歸的前提條件

(Guass-Markov條件)假定1

εi服從正態分布并且E(εi)=0,Var(εi)=σ2(i=1,…,n)現代統計方法與應用何曉群人大出版社假定2

n組數據(樣本)是獨立觀察的,因而,ε1,ε2,ε3,...εn是相互獨立的

cov(εi,

εj)=0(i≠j)注意:模型中假定條件和線性公式一個都不能少66Guass-Markov條件E(εi)=0

表明誤差沒有任何系統趨勢 因而:E(yi)=α+βxi

觀測值yi與其期望E(yi)之間的波動εi是完全隨機的,沒有任何趨勢,不是yi的函數,也不是xi的函數Var(εi)=σ2

表明不同次的觀測yi在其期望E(yi)附近的波動程度(散布程度)是一樣的n組數據(樣本)是獨立觀察的,實際情況中,此條假設較易滿足67一元回歸模型原理1.已知條件:已經獲得n組觀察值(x1,y1),(x2,y2),...,(xn,yn),如果它們符合一元線性回歸模型,則有:yi=α+βxi+εi并且應有:E(εi)=0,Var(εi)=σ2

通常假定n組數據是獨立觀察的,因而ε1,ε2,ε3,...εn相互獨立的。682.求變量y的數學期望(消除隨機誤差)對y=α+βx+ε兩邊求數學期望得到:E(y)=α+βx通常用隨機變量y的數學期望E(y)作為y的估計值,記為,故有:即:或同理:對于觀測值yi的取值同樣有E(yi)=α+βxi或一元回歸模型原理69一元回歸模型原理3.一元回歸的目標:擬合“最佳”直線通過n組觀察值來估計α與β,通常用最小二乘法或極大似然法估計通常將,寫為:其中記a,b分別為α與β的估計值不同的方法和標準可能得到不同的α與β的估計值。70最小二乘法原理由可知,yi與它的估計值不相等存在一個偏差,稱之為殘差用ei表示,是觀測值與回歸值之間的偏差。71最小二乘法原理自然,可用殘差平方和用于度量觀察值與回歸直線之間的接近程度最小二乘法就是使殘差平方和Q最小而估計得到的a,b值的方法,就是選擇適當的ab使Q達到最小72因為Q(a,b)是關于a,b二次函數,所以Q的最小值是存在的,其中a,b是未知數那么,如何求a,b?最小二乘法原理73最小二乘法原理求極值得到a,b根據微積分中求極值的方法得到方程組:74最小二乘法原理75最小二乘法原理方便起見,記:76最小二乘法原理為求解ab需要證明以下引理:證明:證明:79最小二乘法原理將的第一式化為:即:80最小二乘法原理將代入第二式消去a整理得到:Lxxb=Lxy即b=Lxy/Lxx再由得到a以下是具體的整理過程:代入即b=Lxy/Lxx82最小二乘估計的性質對于一元回歸方程:已經獲得n組觀察值(x1,y1),(x2,y2),...,(xn,yn),如果它們符合一元線性回歸模型,則可求得回歸方程為:其中b=Lxy/Lxx那么,我們得到的估計值究竟好不好呢?采用何種標準評價?83最小二乘估計的性質無偏估計概念若t是參數T的一個估計,且滿足E(t)=T,則稱t為T的無偏估計最小二乘估計對α,β的估計具有無偏性:可以證明(多元回歸中證明):a,b是αβ的無偏估計,即:E(a)=α,E(b)=β就是說若用同樣的估計方法對α,β作多次估計,a,b的平均值將趨于α,β并且由此可以證明y的估計是E(y)無偏估計84最小二乘估計的性質y估計無偏性的證明表明回歸值(估計值)的均值看作實際觀察值的平均值注意此性質與Guass-Markov條件的內在聯系85最小二乘估計的性質關于a,b的方差(波動性)

由:得到再由yi的獨立性及Var(yi)=σ2,得到(注意下標i,j)

86最小二乘估計的性質同樣根據可以得到87最小二乘估計的性質由此可以看出:斜率b的方差(隨機變量取值波動的大小)不僅與隨機誤差ε的方差有關而且與x的方差有關截距a的方差與x的方差,隨機誤差的方差,觀察值(樣本)個數有關。88作業4作業:利用公式計算例子中的一元回歸直線方程(要有計算過程)

最大積雪深度x(尺)灌溉面積y(千畝)115.228.6210.419.3321.240.5418.635.6526.448.9623.445.0713.529.2816.734.1924.046.71019.137.489作業5仿照的推導過程(提示:展開后推導),證明:91回歸方程的顯著性檢驗顯著性檢驗的目的任何數據即使沒有線性關系都有可能建立回歸方程,這樣是沒有意義的,沒有反映變量之間的實際關系.一方面,要建立從經驗上認為有意義的方程另一方面,需要用數學方法對方程的顯著性進行檢驗.92數據的相關性93數據的相關性94回歸方程的顯著性檢驗

(相關系數法)定義線性相關系數r相關系數與回歸系數b的關系(符號相同)

計算例子中的線性相關系數為:r=0.9894,因此,最大積雪深度與灌溉面積有密切的線性關系,并且是正相關.

95回歸方程的顯著性檢驗

(相關系數法)相關系數檢驗表的使用

1.計算得到的相關系數的絕對值必須大于表中的值

2.通常,r的絕對值大于表中α=0.05的相應值,但是小于α=0.01的相應值時稱x,y有顯著的線性關系,

如果r的絕對值大于表中α=0.01的相應值稱有十分顯著的線性關系,

小于表中α=0.05的相應值稱x與y沒有顯著的線性關系.

96

相關系數顯著性檢驗表

P(|γ|>γα)=ααN-20.100.050.020.010.001123456789...0.98770.90000.80540.72930.66940.62150.58220.54940.5214...0.99690.95000.87830.81140.75450.70670.66640.63190.6021...0.99950.98000.93430.88220.83290.78870.74980.71550.6851...0.99990.99000.95870.91720.87450.83430.79770.76460.7348...0.99990.99900.99120.97410.95070.92490.89820.87210.8471...

例子中,n=10,表中α=0.05的相應值(n-2=8)為0.632,α=0.01的相應值(n-2=8)為0.765而r=0.9894>0.765,因此,最大積雪深度與灌溉面積有密切的線性關系.97回歸方程的顯著性檢驗

(相關系數法)相關系數法的缺點與數據組數n有關組數小時r容易接近1比如:只有兩個點的情況(相關系數總為1)98回歸方程的顯著性檢驗

(F檢驗)a.記Lyy總離差平方和為S總

b.回歸離差平方和S回c.殘差平方和S殘99100回歸方程的顯著性檢驗(F檢驗)證明:S總=S回+S殘已知:101回歸方程的顯著性檢驗(F檢驗)替換yi的估計根據Q(a,b)中的第一式替換a103回歸方程的顯著性檢驗(F檢驗)公式S總=S回+S殘的解釋:y的偏差由兩個原因造成:一個是x的變化引起y的變化(S回線性成分),一個是由隨機誤差造成(S殘).由此可見S回所占S總的比重越大,回歸效果越好104回歸方程的顯著性檢驗(F檢驗)F檢驗公式根據以上公式,利用方差理論得到:如果x與y有線性關系,則其中F(1,n-2)表示第一自由度(分子的自由度)為1,第二自由度(分母的自由度)為n-2的F分布。105回歸方程的顯著性檢驗(F檢驗)F檢驗表(見書后附錄P408)的使用若F<F0.05(1,n-2)則稱x與y沒有明顯線性關系若F0.05(1,n-2)<F<F0.01(1,n-2)則稱x與y有顯著線性關系若F>F0.01(1,n-2)則稱x與y有十分顯著線性關系

106回歸方程的顯著性檢驗

(相關系數法)可作為考試題目利用S殘及

證明|r|<=1從而由S總=S回+S殘及S總=Lyy

S回=bLxy得到S殘=Lyy-bLxy

因此|r|<=1107令:

于是

y=α+βx+ε可以寫成矩陣形式:y=Xβ+ε且假定條件寫成:E(ε)=0,D(ε)=σ2In回歸模型的矩陣表示108回歸模型的矩陣表示利用矩陣方法求回歸系數β的最小二乘估計b

使得Q(b)=minQ(β)其中Q(β)=(y-Xβ)ˊ(y-Xβ)是1×1的矩陣,是多元函數109回歸模型的矩陣表示補充知識:多元函數對向量求導規則:若多元函數y=f(x1,...xn)可以看作y為向量x=(x1,x2,..xn)‘的函數,記為y=f(x),且y對x的每個分量的微商都存在,則令稱為y對向量x的微商.110回歸模型的矩陣表示運算規則1.若y=x'x

則2.若y=x'Ax則

(推導從略)

特別地:若A為對稱矩陣則:3.若y=a'x111回歸模型的矩陣表示求β的極值:112回歸模型的矩陣表示若b是β的最小二乘估計,則有(X'X)b=X'y此式稱為正規方程.如果X'X可逆則可以得到b的解b=(X'X)-1X'y

113回歸模型的矩陣表示驗證b確實可以使Q達到最小值Q(β)=(y-Xβ)'(y-Xβ)=(y-Xb+Xb-Xβ)'(y-Xb+Xb-Xβ)=(y-Xb)'(y-Xb)+(b-β)'

X'X(b-β)+(y-Xb)'X(b-β)

+(b-β)'

X'(y-Xb)=(y-Xb)'(y-Xb)+(b-β)'

X'X(b-β)+(y-Xb)'X(b-β)+(b-β)'

X'(y-X(X'X)-1X'y)=(y-Xb)'(y-Xb)+(b-β)'

X'X(b-β)+(y-Xb)'X(b-β)+(b-β)'[X'y-X'X(X'X)-1X'y]=(y-Xb)'(y-Xb)+(b-β)'

X'X(b-β)+(y-Xb)'X(b-β)+0=(y-Xb)'(y-Xb)+(b-β)'

X'X(b-β)+0+0=Q(b)+(b-β)'

X'X(b-β)顯然:

Q(β)>=Q(b),當且僅當β=b時Q(β)達到極小值.114回歸模型的矩陣表示有關的性質證明:b是β的無偏估計115回歸模型的矩陣表示相關性質證明:由正規方程,有b=(X'X)-1X'y

再根據協方差陣的性質:V(Ax)=AV(x)A'回歸模型的矩陣表示Var(a)和Var(b)表達式a,b均是標量,不是向量117回歸模型的矩陣表示Q(b)的表示:

其中是一個投影矩陣

(若A’=A,A2=A則A為投影矩陣)118殘差分析所謂殘差是指實際觀察值與回歸估計值的差,即

顯然,有多少對數據,就有多少個殘差。殘差分析就是通過殘差所提供的信息,分析數據的可靠性、周期性或其它干擾的一種數理統計方法。119殘差分析

——殘差的統計性質殘差的期望為0由得到又由最小二乘估計中以及得所以120殘差分析

——殘差的統計性質《應用回歸分析》張小蒂p94估計值與觀測值的協方差殘差分析

——殘差的統計性質證明估計值的方差先證明:122殘差分析

——殘差的統計性質《殘差分析

——殘差的統計性質《再證:注意到:yi之間是獨立的殘差分析

——殘差的統計性質《125殘差分析

——殘差的統計性質殘差的方差:殘差分析

——殘差的統計性質《殘差的方差中,σ一般是未知的,所以需要對σ進行估計。證明:E(Q(b))=(n-2)σ2S殘=S總-S回S回=b2Lxx見PPT125先證:128129130考察殘差圖

張小蒂《應用回歸分析》p84考察殘差圖

根據Guass-Markov條件

,回歸模型中的隨機擾動誤差項εi~N(0,σ2),如果模型對樣本數據擬合良好的話,那么觀測到的殘差ei就應該反映εi的上述分布特性,即有ei~N(0,σ2)或者ei*=ei/σ~N(0,1)稱為標準化殘差。又由E(Q(b))=(n-2)σ2,可以得到標準化殘差的估計量,且有P(|ei*|<2)=0.9545131考察殘差圖回歸擬合良好:絕大多數數據在(-2,+2)水平區間,無任何系統趨勢+2-20ei*

x

132回歸函數具有曲線形式+2-20ei*

x

133樣本數據中有異常點+20-2ei*

x

異常點134回歸方程擬合不充分,較多數據在區間外,可能是回歸模型的函數形式(對數,指數)選擇不當,也可能是漏掉了重要自變量

+2-20ei*

x

135異方差,數據點往往出現系統變動趨勢(下圖是其中一種情形)可采用加權最小二乘法回歸+2-20ei*

x

136誤差項相關,也稱自行關或序列相關,當數據為時間序列資料時,誤差項自相關情況較多(這里只列舉正相關情形εi>0的數據點對應εj>0的數據點)εiεj137殘差分析

——預測預報根據歷史數據回歸得到方程后就可以用來做預報:假如根據新的數據x0代入回歸方程得到新的預報值則有并且由于隨機誤差ε服從正態分布,殘差也服從正態分布138殘差分析根據分布理論可以得到:這里表示自由度為n-2的分布。并且有

139殘差分析我們可以求得t1,t2,使覆蓋y0的概率(t1<y0<t2)為1-α。考慮到,通常我們就取關于的對稱區間。令140殘差分析因此有:即141由可知:給定的αn越大,Lxx越大,x0越靠近x的均值,則Δ越小,預測精度越高。142殘差分析實例:給定新值得所以,當已知當年積雪的最大深度為27.5尺時,以95%的概率斷言灌溉面積在48.306千畝與56.12千畝之間。

143多元線性回歸多元線性回歸模型表示為:其中,是未知參數,而是m個可以精確測量并可控制的一般變量,是隨機誤差。和一元線性回歸一樣,常假定144多元線性回歸為了建立回歸方程,估計回歸系數我們進行n次觀察,得n組觀察數據它們應有回歸關系,可寫成如下形式145多元線性回歸設:是n組觀察值是的估計量,記推導得146多元線性回歸設:是β

的最小二乘解,則稱為為正規方程用元素表示為:147多元線性回歸對于正規方程如果滿秩,即有逆矩陣存在。得最小二乘估計為

通常為了計算方便,往往并不先逆矩陣求b,而是通過解線性方程組(正規方程)來求b。148多元線性回歸方程未知數較少時可用克萊姆法則求解在未知數較多時,可用高斯消去法等方法解方程149多元回歸最小二乘估計的性質

——方陣“跡”的性質若A為n階方陣,則方陣A的跡為其中λi為方陣A的特征根,或者其中aii

為方陣A的主對角線元素。(證明略)方陣的跡的基本性質:1 方陣正交變換后,跡不變 其中Q為正交陣2k為常數3若C為n×m階矩陣,D為m×n階矩陣,則有45150多元回歸最小二乘估計的性質

現代地理統計分析證明:σ2的無偏估計為即證明:證明:已知151多元回歸最小二乘估計的性質152多元回歸最小二乘估計的性質容易得到:多元回歸最小二乘估計的性質令:則有:154多元回歸最小二乘估計的性質因此有:最后有:由此得的無偏估計為155多元回歸最小二乘估計的性質(1/2)1.b是β無偏估計,這是因為

2.b的協方差矩陣為156多元回歸最小二乘估計的性質對于線性回歸方程系數的估計b,它的方差越小越好(方差越小表示波動越小,即Var(b)越小越好)在所有的線性無偏估計中最小二乘法得到的系數估計值方差最小無偏:

如果d為β的無偏估計,協方差陣記為Dd,若Dd-Db>=0(非負定)則稱d的協方差陣Dd大于b的協方差陣Db

線性:對于β的一切線性組合c’β,若有Var(c’d)>=Var(c’b)

則稱d(β的任一無偏估計)的協方差陣大于等于b(最小二乘估計)的協方差陣(c是常數向量)注意到c'b=c'(XX)-1X'y

是y的線性函數(因此,b是線性估計量),因此可構造y的線性函數d'y作為c'β的任意一個線性無偏估計157多元回歸最小二乘估計的性質3.對于線性回歸模型,在c′β的一切線性無偏估計類中,c′b有最小方差(Guass-Markov定理)。證明:設d′y是c′β的任一線性無偏估計,則根據無偏估計的定義有因此有:對一切β成立,故必有這樣由yi,yj之間的獨立性(i≠j)158多元回歸最小二乘估計的性質從而最后一步是因為I-P為投影陣,必為非負定陣。證畢。Guass-Markov定理說明:最小二乘估計在一切線性無偏估計中是最優的,因此也被稱為最佳線性無偏估計159多元回歸最小二乘估計的性質最小二乘估計存在的問題:β的估計的均方誤差MSE(MeanSquaredErrors)160多元回歸最小二乘估計的性質由于A>0(正定陣),因此A的所有特征根λi均為正數,且A-1的特征根為1/λi161多元回歸最小二乘估計的性質由看出:當A的特征根中只要有一個根接近0,MSE會變大,回歸系數估計值會變得很不穩定A的特征根接近0就是A接近奇異陣,導致X自變量存在線性關系當資料陣X的列向量之間存在近似線性相關關系時,稱為復共線性關系(自變量不獨立)對LS的改進:壓縮估計(1960)、主成分估計(1965)、嶺回歸估計(1970)、特征根估計(1974)這些改進方法仍然是線性估計,但是不能保證無偏性11線性方程組病態的幾何解釋方程組是由多個線性方程組成每個線性方程都代表一條直線方程有解就是直線之間相交如果直線之間互相平行,那么或者有無數個交點(無窮多個解),或者沒有交點(無解)直線之間如果接近平行,雖然有交點(有唯一解),但是直線參數略有小的變動都會導致交點大幅度變化,也就是說解是不穩定的,接近病態。162時間序列分析164時間序列的定義時間序列就是按照時間順序排列的,隨時間變化而且相互關聯的數據序列。(如:年平均氣溫、降水量、海平面高程等)由于受到偶然因素的影響,每個時刻的取值是隨機的不確定的,表現出某種隨機性。165時間序列的定義能否把時間序列看成自變量是時間的一元回歸分析?(不能直接使用,往往回歸結果是一條水平線,相關系數為0沒有意義,實際上我們用“自回歸”研究時間序列)166時間序列的特點是一個隨機變量的歷史記錄。自變量不限于時間,也可以是其他變量,但是必須是遵循某種順序進行排列的數據的取值依賴于時間的變化,但是由于隨機干擾的影響,不一定是時間t的嚴格函數(如同一元線性回歸中xy沒有嚴格函數關系)某一時刻上的取值具有一定的隨機性,不可能完全準確地用歷史值預測,某時刻在得到樣本之前只是知道它的概率分布,而不知道具體的值前后時刻(不一定相鄰)的數值具有一定的相關性時間序列往往呈現出一種趨勢性(GDP)或周期性變化(海平面、氣溫)。167時間序列定義

——隨機過程隨機過程(stochasticprocess)的定義:定義:(從時間角度考察)若對于每個特定的t∈T(T是無窮集合,稱為參數集)都存在一個隨機變量X(t),則稱這一族的無窮多個隨機變量是一個隨機過程,表示為

{X(t),t∈T}或{Xt,t∈T}。對于某一固定的t,X(t)是一個普通隨機變量,X(t)的取值空間稱為相空間或狀態空間。離散參數的隨機過程也稱為隨機序列或時間序列。如果狀態空間是離散的集合,參數t空間也是離散集合,則稱此隨機過程為鏈

時間tt狀態空間t+kX(t)168隨機過程與隨機變量隨機變量:描述隨機現象 某班一天的出勤人數,某學院一天的耗電量

隨機過程:描述隨機現象的隨時間的動態變化過程 某班每學期每天的出勤人數的情況,某學院每學期每天的耗電量 隨機過程的現實(樣本函數) 某班某學期每天的出勤人數的情況,某學院某學期每天的耗電量隨機變量是隨機過程的一個特例(固定時間點)。169隨機過程的現實(樣本函數)

Realization

170隨機過程的統計特征

1.均值函數:給定隨機過程{X(t),t∈T},對于任意t∈T,若E[X(t)]存在,則稱μt=E[X(t)],t∈T為隨機過程{X(t),t∈T}的均值函數。均值函數是隨機過程X(t)在各個時刻的擺動中心。2.方差函數

Var(Xt)=E[(Xt-μt)2]3.自協方差函數給定隨機過程{X(t),t∈T},取定t∈T,s∈T定義其自協方差函數為

γt,s=cov(Xt,Xs)=E[(Xt-μt)(Xs-μs)]當t=s時γt,t=Var(Xt)=σt24.自相關函數:

ρt,s=γt,s

/(σtσs)171隨機過程的統計特征時間tXs方差函數均值函數Xtμsμt172平穩隨機過程

StationaryProcess平穩隨機過程

n維分布函數F(當然所有統計特性)不隨時間而變化的過程稱為平穩隨機過程(嚴平穩隨機過程StrictlyStationaryProcess,狹義平穩隨機過程) 為驗證平穩性,需要計算所有有限維分布,通常在實際中難以滿足以上要求。 實際上,通常平穩隨機過程(序列)是指寬平穩隨機過程(序列),定義如下:

173寬(弱)平穩過程

(序列)

WeaklyStationaryProcess(TimeSeries)設隨機序列{X(t),t=…,-2,-1,0,1,2,…}滿足1.E[X(t)]=μ=常數;2.自協方差γt+k,t=γk=σk2與t無關(k=…,-2,-1,0,1,2,…)則稱Xt為(寬,弱)平穩隨機序列(平穩時間序列),簡稱(寬,弱)平穩序列k實際上就是時間差,就是說相關函數與時間起點t無關,只與時間差值k有關。若當k=0時有γk=σ2

,k≠0時γk=0,則稱Xt為平穩白噪聲序列(WhiteNoise)174寬平穩過程與嚴平穩過程1)寬平穩隨機過程不一定是嚴平穩隨機過程。2)嚴平穩隨機過程不一定是寬平穩隨機過程如果自協方差存在則嚴平穩隨機過程一定是寬平穩隨機過程。

寬平穩要求自協方差和期望存在,而嚴平穩要求概率分布存在,并不斷言期望和自協方差存在。比如柯西分布期望和方差均不存在。3)若隨機過程是嚴平穩隨機過程并且期望和自協方差都存在則一定是寬平穩,反之不一定成立4)對于正態隨機過程(X(t)是正態分布),則嚴平穩與寬平穩是等價的

正態分布的期望和自協方差都存在,如果是嚴平穩則一定時寬平穩由于正態過程的概率密度由期望和自協方差完全決定的,因此,如果期望和自協方差不隨時間平移變化,概率密度也不隨時間平移變化,因此一個寬平穩的正態過程必然是嚴平穩的。175平穩序列的遍歷性與參數估計1.如何知道一個時間序列是平穩序列?

Daniel檢驗 (Spearman相關系數)可參見<隨機過程簡明教程同濟大學出版社何迎暉錢偉民51.716.53>P2002.對一個平穩序列,如何得到它的均值與自協方差函數和自相關函數?

均值求法:根據定義,可固定某個時間t,求各個現實在時刻t的平均。但是實際運用中存在困難。因為通常我們只能觀察到一個現實。176平穩序列的遍歷性與參數估計

3.平穩序列的遍歷性對遍歷性的直觀解釋:只要觀測的時間足夠長,隨機過程的每個現實(樣本函數)將“遍歷”(統計參數以概率1相等)狀態集中所有的取值情況。實際上,如果平穩序列存在遍歷性,可以通過一個實現的樣本數據就可以求出均值與協方差函數及自相關函數。因此,對多個現實的考察轉換為對一個現實的考察,方便了統計特征的計算。177平穩序列的遍歷性與參數估計當n充分大時,對于序列現實(樣本)x1,x2,…,xn有γt,s=cov(Xt,Xs)=E[(Xt-μt)(Xs-μs)]μt=E[X(t)],t∈Tρt,s=γt,s

/(σtσs)均值函數自協方差函數自相關函數178平穩序列的遍歷性與參數估計4.如何知道平穩序列具有遍歷性?定理:如果平穩過程{X(t),t∈T}的相關函數滿足,則{X(t),t∈T}具有均值各態遍歷性。定理:如果平穩過程{X(t),t∈T}是具有0均值的正態過程,如果滿足,則{X(t),t∈T}具有相關函數的各態遍歷性工程應用中的實際做法是:先假定平穩過程具有各態遍歷性,然后由此假定出發,對各種數據進行分析,在實踐中考察是否會產生較大偏差,如果偏差較大,便認為此平穩過程沒有各態遍歷性。5.實際應用中哪些時間序列是平穩的并且具有遍歷性的?大多數實際問題以及即將介紹的ARMA序列是具有遍歷性的平穩序列。179平穩時間序列模型

若:Xt為零均值的平穩序列Xt-

Xt-1為一階差分記做ΔXt,at

為隨機擾動是平穩白噪聲序列一階自回歸模型:

AR(1):Xt=φ1Xt-1+at

當φ1=1時,稱為隨機游動,是AR(1)的特例表示為ΔXt=at說明系統的差異完全是由于外界的擾動造成的。n階自回歸模型AR(n)AutoRegressivemodel:

Xt=φ1Xt-1+φ2Xt-2+φ3Xt-3+…+φnXt-n+atm階移動平均模型MA(m)MovingAveragemodelXt=at-θ1at-1-θ2at-2-θ3at-3-…-θmat-mn階自回歸m階移動平均模型ARMA(n,m)AutoRegressiveMovingAveragemodelXt=φ1Xt-1+φ2Xt-2+φ3Xt-3+…+φnXt-n+at-θ1at-1-θ2at-2-θ3at-3-…-θmat-m

180平穩時間序列模型平穩白噪聲序列181上節課內容時間序列的定義隨機過程的定義及相關概念隨機過程與時間序列的關系隨機過程的統計參數隨機過程的各態遍歷性及其檢驗隨機過程的平穩性概念(重點掌握嚴平穩與寬平穩的關系)及其檢驗平穩時間序列常見模型(ARMAARMA)182本節課的主要內容求解AR(1)模型格林函數及其意義183為單擺建模

——平穩時間序列線性模型舉例設第t個擺動周期的最大擺幅為Xt第t+1個擺動周期的最大擺幅為Xt+1考慮到阻尼系數ρ則有Xt+1=ρ

Xt又考慮到外界環境的其他隨機影響at因此可建立模型:Xt+1=ρ

Xt+at其中{at}為白噪聲序列,

|ρ|<1,t=…,-1,0,+1,…是一個一階自回歸模型AR(1)也稱為Markov過程第t個擺動周期最大擺幅Xt184后移算子后移算子定義為:But=ut-1有如下性質:對于與時間t無關的隨機變量u

,Bu=uB0≡1,稱B0為恒等算子若c為一常數,則B(cut)=cBut對于任意兩個序列ut和vt有B(ut±vt)=But±BvtBnut=ut-n后移算子在時間序列中的應用

求解AR(1)模型Xt=φ1Xt-1+at首先引入后移算子B(Back):

BXt=Xt-1,BXt-1=Xt-2,… Bat=at-1,Bat-1=at-2,…則AR(1)表示為Xt=φ1BXt+at解之:顯然代入差分方程可驗證此式是原始差分方程的解變形為:得證。186格林函數對于一階自回歸模型,Gj=φ1j說明AR(1)可用一個限階的MA模型逼近。Gj是前j個時間單位之前進入到系統的擾動at-j

對現在行為的影響的權數。它反映了系統對干擾的響應的衰減的快慢程度。φ1越小衰減速度越快,完全由φ1所決定。方程系數函數φ1j

反映了系統對擾動的記憶程度,所以φ1j被稱為記憶函數,又稱格林(Green’sfunction)一般用Gj表示。187格林函數與平穩性AR(1)系統的平穩性|φ1|<1平穩 隨著時間的推移擾動項的影響以指數方式衰減,系統最終趨向平衡位置|φ1|=1臨界平穩 擾動項的影響沒有衰減,但由于擾動是白噪聲,系統的狀態是有界的|φ1|>1非平穩 擾動項的影響在放大,系統不斷以指數方式加速遠離平衡位置,且永遠不會恢復到平衡位置平衡位置188Xt方差

|φ1|=1時方差不存在,不是寬平穩,因此隨機游動Xt=

Xt-1+at不是平穩的 隨機游動的平穩性189Wold分解

——從線性空間的角度解釋格林函數

由于隨機擾動at是相互獨立的,所以可以看作線性空間的一組基(相互之間沒有線性關系),格林函數就是關于基的坐標。Xt就是這個空間的一個點。因此格林函數Gi也稱Wold系數,

也叫做Wold分解式。190時間序列時域分析工具

——線性常系數差分方程常系數線性微分方程描述連續時間系統動態性,常系數線性差分方程描述離散時間系統的動態性。線性常系數差分方程的解法可比擬微分方程的解法,實際上,只不過差分方程是離散的,微分方程是連續的。191線性常系數差分方程n階差分方程:y(k+n)+an-1y(k+n-1)+an-2y(k+n-2)+…+a0y(k)=u(k)其中,ai為系統參數的函數,當ai為常數時,就是常系數n階差分方程。u(k)是個離散序列,也稱作驅動函數,y(k+n)是系統的響應。當u(k)=0時,稱方程y(k+n)+an-1y(k+n-1)+an-2y(k+n-2)+…+a0y(k)=0為齊次常系數差分方程。192線性常系數差分方程的解求解線性常系數差分方程就是在給定n個初始條件y(0),y(1),y(2),…,y(n-1)求出y(n),y(n+1)…對于n階自回歸m階移動平均模型ARMA(n,m)

Xt=φ1Xt-1+φ2Xt-2+φ3Xt-3+…+φnXt-n+at-θ1at-1-θ2at-2-θ3at-3-…-θmat-m就是給定Xt-1

,Xt-2

,Xt-3

,…,

Xt-n

求出Xt其中at-θ1at-1-θ2at-2-θ3at-3-…-θmat-m=u(t)可以看作驅動函數求解差分方程與求解微分方程類似:先求出對應齊次方程的通解,然后求出原方程的一個特解,特解和通解的線性組合就構成了原方程的解193線性常系數差分方程及其解的一般形式求解步驟:1.求出相應齊次差分方程的通解設:Y(k)=λk

是齊次差分方程y(k+n)+an-1y(k+n-1)+an-2y(k+n-2)+…+a0y(k)=0的一個解,則必有:λk+n+an-1λk+n-1+…+a0λk=0;從而有特征方程:λn+an-1λn-1+…+a0=0;求得方程的n個特征根λi(i=1,..,n)即可得到齊次差分方程的通解Y(k)=ΣCiλik其中,Ci為任意實數,λi可能是實數或復數。2.求一個原方程的特解一般令y(k)=i(i是常數)即可求得特解。3.原方程的解就是通解與特解的線性組合194線性常系數差分方程求解舉例求解二階非齊次差分方程解:求出對應齊次方程的通解。設是對應齊次方程的一個解,則有:解之得:因此得到通解:195線性常系數差分方程求解舉例

求出原方程的特解:令:代入原方程:得到:特解為:原方程的解:196格林函數的解

——隱式解ARMA(2,1)模型:Xt-φ1Xt-1-φ2Xt-2=at-θ1at-1的解設為則用B算子表示為代入模型方程得到:197

若等式成立則對應同次冪的系數必然相等于是得到:在系統參數已知情況下,根據以上表達式就可以遞推計算出所有的Gj

,當j充分大時即可計算出方程的解。198格林函數的解

——顯式解ARMA(2,1)是一個二階非齊次差分方程:Xt-φ1Xt-1-φ2Xt-2=at-θ1at-1解之:求通解:將Xt-2=λk代入上式得到:λk+2

-φ1λk+1-φ2λk=0即得特征方程:λ2

-φ1λ-φ2=0求解特征方程得到通解:Gj=g1λ1j

+g2λ2j其中g1,g2是任意常數。199格林函數顯式解求解系數g1,g2根據隱式解給出的初始條件:G0=1;G1-φ1G0=-θ1;有:根據韋達定理有:因此有:解之得:200格林函數顯式解因此得到ARMA(2,1)系統的格林函數為:存在兩個共軛復數根的情況(略)201格林函數ARMA(1,2)是一個二階非齊次差分方程:at-θ1at-1-θ2at-2=Xt-φ1Xt-1解之:求通解:將at-2=vk代入上式得到:vk+2

-θ1vk+1-θ2vk=0即得特征方程:

v2

-θ1v-θ2=0求解特征方程得到通解:Ij=g1v1-j

+g2v2-j其中g1,g2是任意常數。202格林函數因此得到ARMA(1,2)系統的格林函數為:與格林函數相似,只有當|v1|<1且|v2|<1系統才是可逆的(Ij→0)。存在兩個共軛復數根的情況(略)203格林函數的解

——B算子河海P171)考慮模型AR(2)用后移算子表示為令則有考慮到格林函數Gj得到格林函數由上式可知當j→∞時有Gj→0,因此該系統是平穩的

205求解格林函數-B算子

(P59)考慮模型ARMA(2,1)用后移算子表示為則有

可見:系統要穩定(級數收斂)要求|λ|<1,因此系統穩定的條件可描述為|1/λ|>1,而1/λ是φ(B)=0的根,或者說要求B的所有根要在單位圓外部207得到格林函數Gj又由于得到:即可解得λ,可見λ只是φ的函數求解格林函數

(P59)208格林函數ARMA(2,1)系統的穩定性:由知只有當j→∞時有Gj→0,系統是平穩的。由格林函數Gi=g1λ1j

+g2λ2j

知只有當|λ1|<1且|λ2|<1系統才是平穩的。因此:由于系統的平穩性只與自回歸參數有關,與移動平均參數無關。(可從格林函數求解的表達式看出來)因此,所有ARMA(2,m)系統的平穩性條件都相同,都是上式。209格林函數-1-0.500.51-2-1012φ1φ2可以得到系統的平穩區域:210逆函數和可逆性定義:如果一個過程可以用一個無限階的自回歸模型逼近,即逆函數存在,就稱該過程具有可逆性。AR(n)的逆函數(略)MA(1)的逆函數:因此:可逆性條件:才能保證211

格林函數與逆函數對于模型令:則原式變為為:因此,逆函數與格林函數之間符號相反,參數互換即可得到對方。(具有對偶性)212格林函數與逆函數1.格林函數的平穩性只與AR模型的特征根λk有關;2.逆函數的可逆性僅與MA模型的特征根vk有關.3.對于ARMA模型可逆又平穩的條件是特征方程的所有根滿足:|λk|<1且|vk|<14.判斷平穩性與可逆性使用的方法是完全一致的,只是變量記號不同對于高階的ARMA通過解方程的方法求解逆函數和格林函數是困難的,實

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論