第8章 回歸和時序分析_第1頁
第8章 回歸和時序分析_第2頁
第8章 回歸和時序分析_第3頁
第8章 回歸和時序分析_第4頁
第8章 回歸和時序分析_第5頁
已閱讀5頁,還剩81頁未讀 繼續免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

1、第第8章章 回歸分析和時序挖掘回歸分析和時序挖掘 回歸分析回歸分析(Regression Analysis)是確定兩個或多個變量)是確定兩個或多個變量之間相互依賴的定量關系的一種統計分析方法,分為線性回歸、之間相互依賴的定量關系的一種統計分析方法,分為線性回歸、非線性回歸和邏輯回歸等。回歸分析和前一章介紹的分類方法非線性回歸和邏輯回歸等。回歸分析和前一章介紹的分類方法都可以用于預測,與分類方法不同的是,通常分類輸出是離散都可以用于預測,與分類方法不同的是,通常分類輸出是離散類別值,而回歸的輸出是連續值。類別值,而回歸的輸出是連續值。時序挖掘時序挖掘(Time Series Mining)包括時

2、序建模和時序相)包括時序建模和時序相似性搜索,前者用于描述現象隨時間發展變化的數量規律性,似性搜索,前者用于描述現象隨時間發展變化的數量規律性,后者找出時序數據庫中與給定查詢序列最接近的時序。后者找出時序數據庫中與給定查詢序列最接近的時序。 8.1 線性和非線性回歸分析線性和非線性回歸分析如果兩個變量間的關系屬于因果關系,一般可以用回如果兩個變量間的關系屬于因果關系,一般可以用回歸分析方法來進行分析,找出依變量變化的規律性。表示歸分析方法來進行分析,找出依變量變化的規律性。表示原因的變量為自變量,用原因的變量為自變量,用X表示,它是固定的,沒有隨機誤表示,它是固定的,沒有隨機誤差,表示結果的變

3、量稱為依變量,用差,表示結果的變量稱為依變量,用Y表示,表示,Y隨隨X的變化而的變化而變化,有隨機誤差。變化,有隨機誤差。線性回歸有一元線性回歸和多元線性回歸之分。依變線性回歸有一元線性回歸和多元線性回歸之分。依變量量Y在一個自變量在一個自變量X上的回歸線性稱為上的回歸線性稱為一元線性回歸一元線性回歸;依變;依變量在多個自變量量在多個自變量X1、X2、Xn上的線性回歸稱為上的線性回歸稱為多元線多元線性回歸性回歸。8.1.1 8.1.1 一元線性回歸分析一元線性回歸分析1. 一元線性回歸分析方法一元線性回歸分析方法如果兩個變量呈線性關系,就可用一元線性回歸方程來描如果兩個變量呈線性關系,就可用一

4、元線性回歸方程來描述。其一般形式為述。其一般形式為Y=a+bX,其中,其中,X是自變量,是自變量,Y是依變量,是依變量,a、b是一元線性回歸方程的系數。是一元線性回歸方程的系數。a、b的估計值應是使誤差平方和的估計值應是使誤差平方和D(a,b)取最小值的、。取最小值的、。abniiibxaybaD12)(),(式中,式中,n是訓練樣本數目,是訓練樣本數目,(x1,y1),(xn,yn)是是訓練樣本。訓練樣本。可以采用最小二乘法估計系數、。為了使可以采用最小二乘法估計系數、。為了使D(a,b)取最取最小值,分別取小值,分別取D關于關于a、b的偏導數,并令它們等于零:的偏導數,并令它們等于零:0)

5、(21niiibxayaD0)(21iniiixbxaybD求解上述方程組,得到唯一的一組解、:求解上述方程組,得到唯一的一組解、:abniiniiininiiiniiniiniiixxyyxxxxnyxyxnb1211212111)()()()(xbynxbyaniniii11其中,其中, nxxnii1nyynii1在利用訓練樣本得到、后,可以將在利用訓練樣本得到、后,可以將Y=+X作為作為Y=abX的估計。稱的估計。稱Y=+X為為Y關于關于X的一元線性回歸關的一元線性回歸關系。系。得到一元線性回歸關系后,在檢驗合適后,可用其進得到一元線性回歸關系后,在檢驗合適后,可用其進行預測。對于任意

6、行預測。對于任意x,將其代入方程即可預測出與之對應的,將其代入方程即可預測出與之對應的y。ababab2. SQL Server中一元線性回歸分析示例中一元線性回歸分析示例有如表有如表8.1所示的產品銷售表,用所示的產品銷售表,用SQL Server進行一元進行一元線性回歸分析的過程如下。線性回歸分析的過程如下。 no(編號)(編號)Price(價格)(價格)Sales(銷售量)(銷售量)1201.812251.73301.654351.555401.486501.47601.38651.269701.2410751.2111801.212901.18表表8.1 RA表結構表結構 創建數據挖掘

7、結構創建數據挖掘結構 指定表類型指定表類型 設置挖掘模型結構設置挖掘模型結構 線性回歸分析結果線性回歸分析結果得出的一元線性回歸關系如下:得出的一元線性回歸關系如下:Sales=1.9-0.009Price8.1.2 8.1.2 多元線性回歸分析多元線性回歸分析多元回歸是指依變量多元回歸是指依變量Y與多個自變量與多個自變量X1、X2、Xp有關。有關。多元線性回歸方程是一元線性回歸方程的推廣,其一般形式多元線性回歸方程是一元線性回歸方程的推廣,其一般形式為:為:Y=a+b1X1+bpXp其中,其中,X1、X2、Xp是自變量,是自變量,Y是依變量;是依變量;a、b1、bp是多元(是多元(p元)線性

8、回歸方程的系數。元)線性回歸方程的系數。a、b1、bp的估計值應是使誤差平方和(殘差平方的估計值應是使誤差平方和(殘差平方和)和)D(a,b1,bp)取最小值的、取最小值的、 、 :a1bpbniippiiipxbxbxbaybbbaD12221121)(),(采用最小二乘估計法,為使采用最小二乘估計法,為使D(a,b1,bp)取最小值,分取最小值,分別取別取D關于關于a、b1、bp的偏導數,并令它們等于零:的偏導數,并令它們等于零:0)(212211niippiiixbxbxbayaDniijippiiijp,j,xxbxbxbaybD12211), 21(0)(2求解上述方程組,即可得到、

9、求解上述方程組,即可得到、。、。a1bpb8.1.3 8.1.3 非線性回歸分析非線性回歸分析在進行非線性回歸分析時,處理的方法主要有:在進行非線性回歸分析時,處理的方法主要有:首先確定非線性模型的函數類型,對于其中可線性化問首先確定非線性模型的函數類型,對于其中可線性化問題則通過變量變換將其線性化,從而歸結為前面介紹的題則通過變量變換將其線性化,從而歸結為前面介紹的多元線性回歸問題來解決。多元線性回歸問題來解決。若實際問題的曲線類型不易確定時,由于任意曲線皆可若實際問題的曲線類型不易確定時,由于任意曲線皆可由多項式來逼近,所以常用多項式回歸來擬合曲線。由多項式來逼近,所以常用多項式回歸來擬合

10、曲線。若變量間非線性關系式已知(多數未知),且難以用變若變量間非線性關系式已知(多數未知),且難以用變量變換法將其線性化,則進行數值迭代的非線性回歸分量變換法將其線性化,則進行數值迭代的非線性回歸分析。析。1. 可轉換成線性回歸的非線性回歸可轉換成線性回歸的非線性回歸對于可轉換成線性回歸的非線性回歸,其基本處理方對于可轉換成線性回歸的非線性回歸,其基本處理方法是,通過變量變換,將非線性回歸化為線性回歸,然后法是,通過變量變換,將非線性回歸化為線性回歸,然后用線性回歸方法處理。用線性回歸方法處理。 (1)對數型)對數型對于形如對于形如y=a+bln(x)的對數型函數,令的對數型函數,令x1=ln

11、(x),得到,得到y=a+bx1,將其轉換為線性回歸關系。,將其轉換為線性回歸關系。 (2)雙曲線型)雙曲線型對于形如的雙曲線型函數,令對于形如的雙曲線型函數,令y1=,x1=,得到,得到y1=a+bx1,將其轉換為線性回歸關系。,將其轉換為線性回歸關系。ybay1y1x1(3)指數型)指數型對于形如對于形如y=cebx的指數型函數,令的指數型函數,令y1=ln(y),a=ln(c),得到得到y1=a+bx,將其轉換為線性回歸關系。,將其轉換為線性回歸關系。(4)冪函數型)冪函數型對于形如對于形如y=cxb的冪函數,令的冪函數,令y1=ln(y),x1=ln(x),a=ln(c)得到得到y1=

12、a+bx1,將其轉換為線性回歸關系。,將其轉換為線性回歸關系。(5)S型型對于形如的對于形如的S型函數,令型函數,令y1=,x1=e-x,得到得到y1=a+bx1,將其轉換為線性回歸關系。,將其轉換為線性回歸關系。xbeay1y1【例例8.18.1】有一組試驗數據如表有一組試驗數據如表8.2所示,它表示銀的所示,它表示銀的兩種光學密度兩種光學密度X、Y之間的關系。推出之間的關系。推出Y(依變量)與(依變量)與X(自變量)之間的關系。(自變量)之間的關系。 編號編號XY10.050.120.060.1430.070.2340.10.3750.140.5960.20.7970.25180.311.

13、1290.381.19100.431.25110.471.29通過畫出通過畫出X、Y的坐標圖,從數據的散點關系推出它是的坐標圖,從數據的散點關系推出它是指數曲線,設回歸關系為(指數曲線,設回歸關系為(b0)。)。xbcey 兩邊取對數得到:兩邊取對數得到:ln(y)=ln(c)+,做變量替換:,做變量替換:x1=1/x,y1=ln(y),并設,并設a=ln(c),得到,得到y1=a+bx1。由實際數據(由實際數據(X,Y)求出對應的數據()求出對應的數據(X1,Y1),如表),如表8.3所示。所示。xbnoX1Y1120-2.303216.667-1.966314.286-1.47410-0.

14、99457.143-0.52865-0.23674083.2260.11392.6320.174102.3260.223112.1280.255 對表對表8.3的數據做一元線性回歸分析,在的數據做一元線性回歸分析,在SQL Server中得到中得到的結果如圖的結果如圖8.7所示,對應的回歸關系為:所示,對應的回歸關系為: y1=0.547- -0.146x1再換回到原變量,得:再換回到原變量,得:lny=0.547,即為,即為Y(依變量)與(依變量)與X(自變量)之間的關系。(自變量)之間的關系。x146. 0 xxeey146. 0146. 0547. 073. 12. 多項式回歸分析多項式

15、回歸分析對于多項式回歸關系,其一般形式為:對于多項式回歸關系,其一般形式為:Y=b0+b1X1+b2X2+bmXm+e其中其中Y為依變量向量,為依變量向量,X1、X2、Xm為自變量向量,為自變量向量,e為為隨機項(通常是互相獨立的并且服從均值為隨機項(通常是互相獨立的并且服從均值為0、方差為、方差為2的的正態分布,即正態分布,即eN(0,2))。)。例如,有例如,有n個樣本數據,對應的關系為:個樣本數據,對應的關系為:y1=b0+b1x11+b2x12+bmx1m+e1y2=b0+b1x21+b2x22+bmx2m+e2yn=b0+b1xn1+b2xn2+bmxnm+eneiN(0,2)i1,

16、2,n這一類問題均可化為多元線性回歸問題加以處理。數學這一類問題均可化為多元線性回歸問題加以處理。數學理論已證明,任何連續函數可用足夠高階的多項式任意逼近。理論已證明,任何連續函數可用足夠高階的多項式任意逼近。因此,對比較復雜的實際問題,可以不問因此,對比較復雜的實際問題,可以不問Y與諸因素的確切與諸因素的確切關系如何,而直接用多項式回歸。關系如何,而直接用多項式回歸。3. 不可變換成線性的非線性回歸分析不可變換成線性的非線性回歸分析對于不可變換成線性的非線性回歸問題,不妨設模型為:對于不可變換成線性的非線性回歸問題,不妨設模型為:Y=f(X1,X2,Xm,1,2,p)+e其中,其中,Y為隨機

17、變量,為隨機變量,X=(X1,X2,Xm)T(T表示轉置)表示轉置)為為m個自變量,個自變量,=(1,2,p)T為為p個未知參數,個未知參數,e為服從為服從N(0,2)的隨機變量。的隨機變量。對對x1,x2,xm,y作作n次觀測,得到觀測數據如下:次觀測,得到觀測數據如下:x11x12x1my1x21x22x2my2xn1xn2xnmyn代入這代入這n個觀測數據,得到:個觀測數據,得到:y1=f(x11,x12,x1m,1,2,p)+e1y2=f(x21,x22,x2m,1,2,p)+e2yn=f(xn1,xn2,xnm,1,2,p)+eneiN(0,2) i1,2,n為了方便起見,常用這樣的

18、記號:為了方便起見,常用這樣的記號:f(xi1,xi2,xim,1,2,p)=f(xi,)=fi()(i=1,2,n)對于上述模型,記對于上述模型,記D()=為誤差平方和。為誤差平方和。niiify12)(采用最小二乘法求,顯然采用最小二乘法求,顯然D()應為最小值,即應為最小值,即D()=minD()。如果如果f對于對于的每個分量都是可微的,則求相當于求解以的每個分量都是可微的,則求相當于求解以下正規方程組:下正規方程組:,j=1,2,p對于對于D()=minD(),一般可用最優化迭代算法,求出最優,一般可用最優化迭代算法,求出最優解,從而確定非線性回歸數學模型。解,從而確定非線性回歸數學模

19、型。 0)(jD8.2 邏輯回歸分析邏輯回歸分析邏輯(邏輯(logistic)回歸用于分析二分類或有次序的依變)回歸用于分析二分類或有次序的依變量和自變量之間的關系。量和自變量之間的關系。當依變量是二分類(如當依變量是二分類(如1或或0)時,稱之為二分邏輯回)時,稱之為二分邏輯回歸,自變量歸,自變量X1、X2、Xk可以是分類變量或連續變量等。可以是分類變量或連續變量等。 8.2.1 8.2.1 邏輯回歸原理邏輯回歸原理對于對于p個獨立的自變量個獨立的自變量X=(X1、X2、Xk)和依變量)和依變量Y,現要求邏輯回歸模型。現要求邏輯回歸模型。設條件概率設條件概率P(Y=1|X)=p(X)為根據觀

20、測量為根據觀測量Y相對于某事件相對于某事件X發生的概率(發生事件的條件概率)。能不能采用前面介發生的概率(發生事件的條件概率)。能不能采用前面介紹的一元線性回歸邏輯,設置紹的一元線性回歸邏輯,設置Y=p(X)=a+bX呢?呢?由于概率由于概率p的取值在的取值在0與與1之間,之間,X的取值可以是連續值,的取值可以是連續值,所以這個關系式顯然是不合適的。所以這個關系式顯然是不合適的。也就是說,也就是說,p(X)與各個自變量之間是非線性的,而是呈與各個自變量之間是非線性的,而是呈現現S型函數關系,如圖型函數關系,如圖8.8所示。所示。可以設置為這樣的可以設置為這樣的S型函數:型函數:p(X)=,-f

21、(X)(11Xfe通常通常f(X)可以看成可以看成X的線性函數,的線性函數,邏輯回歸就是要找出邏輯回歸就是要找出f(X)。8.2.2 8.2.2 邏輯回歸模型邏輯回歸模型前面介紹的前面介紹的p(X)函數是由美國科學家函數是由美國科學家R.B.Pearl和和L.J.Reed提出的,稱為提出的,稱為增長函數增長函數。由。由p(X)函數可推出:函數可推出:P(Y=0|X)=1-p(X)=(不發生事件的條件(不發生事件的條件概率),所以有,兩邊取對數得到:概率),所以有,兩邊取對數得到:)(11Xfeln()()(1)(XfXpXp稱為機會比率,即有利于出現某一狀態的機會大小。稱為機會比率,即有利于出

22、現某一狀態的機會大小。 pp1f(X)即為回歸模型。常用的是線性回歸模型,即:即為回歸模型。常用的是線性回歸模型,即:ln(=f(X)=0+1X1+2X2+kXk它反映出它反映出X每變化一個單位,有利機會對數變化的程度。每變化一個單位,有利機會對數變化的程度。假設有假設有n組觀測樣本組觀測樣本xi1,xi2,xik;yi(i=1,2,n),其中),其中yi為為0/1值。值。設設pi=P(yi=1|x)為給定條件下得到為給定條件下得到pi=1的概率。在同樣條件的概率。在同樣條件下得到下得到pi=0的條件概率為的條件概率為P(yi=0|x)=1- -pi。于是,得到一個觀測。于是,得到一個觀測值的

23、概率為值的概率為)1 ()()(iiyiyiipipyP因為各項觀測獨立,所以因為各項觀測獨立,所以y1、y2、yn的似然函數為:的似然函數為:niyiyiiixpxpL11)(1 )()(對數的似然函數為:對數的似然函數為:nixxxikkiiiikkiiexxxyL122110)1ln()()(ln(22110最大似然估計就是求最大似然估計就是求0、1、2、k的估值,使上述對數的估值,使上述對數似然函數值最大。似然函數值最大。8.2.3 SQL Server8.2.3 SQL Server中邏輯回歸分析示例中邏輯回歸分析示例如表如表8.4所示是一個某城市市民出行是否經常乘坐公汽的調所示是一

24、個某城市市民出行是否經常乘坐公汽的調查表,查表,X1表示年齡,表示年齡,X2表示月收入,表示月收入,X3表示性別(表示性別(0為女性,為女性,1為為男性),男性),Y表示結果(表示結果(1表示經常乘坐公汽,表示經常乘坐公汽,0表示相反)。用表示相反)。用SQL Server進行邏輯回歸分析的過程如下。進行邏輯回歸分析的過程如下。 noX1X2X3Y12018500122120001132624001142630000152722001063035001073032000184040000094045001010505100001150530010126045000113653000011465

25、310011LRA表結構表結構 設置挖掘模型結構設置挖掘模型結構 邏輯回歸分析結果邏輯回歸分析結果 8.3 時序分析模型時序分析模型8.3.1 8.3.1 時序分析概述時序分析概述從數學意義上來講,如果對某一過程中的某一變量進從數學意義上來講,如果對某一過程中的某一變量進行行X(t)觀察測量,在一系列時刻觀察測量,在一系列時刻t1、t2、tn(t為自變量,為自變量,且且t1t2tn)得到的離散有序數集合)得到的離散有序數集合Xt1、Xt2、Xtn稱稱為為離散數字時序離散數字時序。設設X(t)是一個隨機過程,是一個隨機過程,Xti(i=1,2,n)稱為一)稱為一次樣本實現,也就是一個具體的時序。

26、次樣本實現,也就是一個具體的時序。序列的統計特征可以序列的統計特征可以表現平穩或者有規律的震蕩表現平穩或者有規律的震蕩,這,這樣的序列是分析的基礎點。樣的序列是分析的基礎點。此外如果序列按某類規律(如高斯型)的分布,那么此外如果序列按某類規律(如高斯型)的分布,那么序列的分析就有了理論根據。序列的分析就有了理論根據。8.3.2 8.3.2 時序預測的常用方法時序預測的常用方法1. 確定性時序預測方法確定性時序預測方法若一個時序的未來值被某一個數學函數嚴格確定,例若一個時序的未來值被某一個數學函數嚴格確定,例如如y=cos(2t)這種形式,則稱該時序為確定性時序。這種形式,則稱該時序為確定性時序

27、。對于確定性的時序來說,假設未來行為與現在的行為對于確定性的時序來說,假設未來行為與現在的行為有關,利用屬性現在的值預測將來的值是可行的。有關,利用屬性現在的值預測將來的值是可行的。例如,要預測下周某種商品的銷售額,可以用最近一例如,要預測下周某種商品的銷售額,可以用最近一段時間的實際銷售量來建立預測模型。段時間的實際銷售量來建立預測模型。設設Tt表示長期趨勢,表示長期趨勢,St表示季節變動趨勢項,表示季節變動趨勢項,Ct表示循表示循環變動趨勢項,環變動趨勢項,Rt表示隨機干擾項,表示隨機干擾項,yt是觀測目標的觀測記是觀測目標的觀測記錄。最基本的確定性時序模型有以下幾種類型:錄。最基本的確定

28、性時序模型有以下幾種類型: (1)加法模型:)加法模型:Yt=Tt+St+Ct+Rt。(2)乘法模型:)乘法模型:Yt=TtStCtRt。(3)混合模型:)混合模型:Yt=TtSt+Rt 或或 Yt=St+TtCtRt。2. 隨機時序預測方法隨機時序預測方法通過建立隨機模型,對隨機時序進行分析,可以預測未通過建立隨機模型,對隨機時序進行分析,可以預測未來值。來值。若時序是若時序是平穩的平穩的,可以用自回歸(,可以用自回歸(Auto Regressive,簡,簡稱稱AR)模型、移動回歸模型()模型、移動回歸模型(Moving Average,簡稱,簡稱MA)或自回歸移動平均(或自回歸移動平均(A

29、uto Regressive Moving Average,簡稱,簡稱ARMA)模型進行分析預測。)模型進行分析預測。8.3.3 8.3.3 回歸分析與時序分析的關系回歸分析與時序分析的關系時序分析和回歸分析兩者存在著內在的統一性。時序分析和回歸分析兩者存在著內在的統一性。事實上,正是用時間變量事實上,正是用時間變量t代替了許許多多影響事物長代替了許許多多影響事物長期趨勢的基本因素,可以把各種影響因素統一在一個回歸期趨勢的基本因素,可以把各種影響因素統一在一個回歸模型中。模型中。8.3.4 8.3.4 確定性時序模型確定性時序模型1. 建立時序模型的流程建立時序模型的流程2. 移動平均模型移動

30、平均模型移動平均法就是根據歷史統計數據的變化規律,使移動平均法就是根據歷史統計數據的變化規律,使用最近時期數據的平均數,利用上一個或幾個時期的數用最近時期數據的平均數,利用上一個或幾個時期的數據產生下一期的預測值。據產生下一期的預測值。移動平均法是一種常用的確定性時間序列預測法。移動平均法是一種常用的確定性時間序列預測法。這里主要介紹一次移動平均預測法和加權一次移動平均這里主要介紹一次移動平均預測法和加權一次移動平均預測法。預測法。已知序列已知序列y1、y2、yn是預測前的實際數據組成的時是預測前的實際數據組成的時序。如果過早的數據已失去意義,不能反映當前數據的規律,序。如果過早的數據已失去意

31、義,不能反映當前數據的規律,那么可以用一次移動平均法來作預測。那么可以用一次移動平均法來作預測。即保留最近一個時間區間內的數據,用其算術平均數作即保留最近一個時間區間內的數據,用其算術平均數作為預測值。為預測值。設時間序列為設時間序列為yt,取移動平均的項數為,取移動平均的項數為n,則第,則第t+1期期預測值的計算公式為:預測值的計算公式為:njjntntttttynnyyyMy111) 1 (11其中,其中,yt表示第表示第t期實際值,表示第期實際值,表示第t+1期預測值(期預測值(t0)。)。預測標準誤差為:預測標準誤差為:nNyyDtt211)(其中,其中,N為時間序列為時間序列yt所含

32、原始數據的個數。所含原始數據的個數。簡單一次移動平均預測法,是把參與平均的數據在預簡單一次移動平均預測法,是把參與平均的數據在預測中所起的作用同等看待,但實際中參與平均的各期數據測中所起的作用同等看待,但實際中參與平均的各期數據所起的作用往往是不同的。所起的作用往往是不同的。 niiniitinntntttWyWWWWyWyWyWy1112111211其中,其中,yt表示第表示第t期的實際值,表示第期的實際值,表示第t+1期預測值,期預測值,Wi表示權數,表示權數,n表示移動平均的項數。表示移動平均的項數。 3. 指數平滑模型指數平滑模型與移動平均預測法不同,指數平滑法采用了更切合與移動平均預

33、測法不同,指數平滑法采用了更切合實際的方法,即對各期觀測值依時間順序進行加權平均實際的方法,即對各期觀測值依時間順序進行加權平均作為預測值。作為預測值。主要有一次指數平滑法和二次指數平滑法。主要有一次指數平滑法和二次指數平滑法。 (1)一次指數平滑法)一次指數平滑法該方法利用前一時刻的數據進行預測的方法。它適用該方法利用前一時刻的數據進行預測的方法。它適用于變化比較平穩,增長或下降趨勢不明顯的時間序列數據于變化比較平穩,增長或下降趨勢不明顯的時間序列數據的下一期的預測。其模型是:的下一期的預測。其模型是:11)1 (tttykkyy其中,其中,yt-1表示第表示第t-1期實際值,表示第期實際值

34、,表示第t期預測值,期預測值,k(0k1)稱為平滑系數。)稱為平滑系數。 (2)二次指數平滑法)二次指數平滑法該方法是對一次指數平滑值再作一次指數平滑來進行該方法是對一次指數平滑值再作一次指數平滑來進行預測的一種方法,但第預測的一種方法,但第t+1期預測值并非第期預測值并非第t期的二次指數平期的二次指數平滑值,而是采用下列計算公式進行預測:滑值,而是采用下列計算公式進行預測:TbaySkkSSSkkySttTttttttt)2(1) 1 ()2() 1 (1) 1 ()1 ()1 (其中,表示第期的一次指數平滑值,其中,表示第期的一次指數平滑值, 表示第期的二表示第期的二次指數平滑值,次指數平

35、滑值, yt表示第表示第t期實際值,表示第期實際值,表示第t+T期預測值,期預測值,k表示平滑系數,。表示平滑系數,。) 1 (tS)2(tSTty)2()1 (2tttSSa 211tttSSkkb8.3.5 8.3.5 隨機時序模型隨機時序模型隨機時間序列模型是一種精確度較高的短期預測方法。隨機時間序列模型是一種精確度較高的短期預測方法。其基本思想是:其基本思想是:某些時間序列是依賴于時間某些時間序列是依賴于時間t的一組隨機變量,構成的一組隨機變量,構成該序列的單個序列值雖然具有不確定性,但整個序列的變該序列的單個序列值雖然具有不確定性,但整個序列的變化卻有一定的規律性,可以化卻有一定的規

36、律性,可以用相應的數學模型近似描述用相應的數學模型近似描述。 1. 自回歸模型自回歸模型AR(p)若時序若時序yt中的中的yt為它的前期值和隨機項的線性函數,表為它的前期值和隨機項的線性函數,表示為:示為:則稱該時間序列則稱該時間序列yt為為自回歸序列自回歸序列,該模型為,該模型為p階自回歸階自回歸模型(模型(Auto-regressive Model),記為),記為AR(p)。其中:參數其中:參數1、2、p為自回歸參數,是模型的待為自回歸參數,是模型的待估參數;估參數;t是一個白噪聲,用來描述簡單隨機干擾的平穩序是一個白噪聲,用來描述簡單隨機干擾的平穩序列,是互相獨立并且服從均值為列,是互相

37、獨立并且服從均值為0、方差為的正態分布的平穩、方差為的正態分布的平穩序列;序列;t與與yt-1、yt-2、yt-p不相關。不相關。tptptttyyyy2211為了表述上式方便引入滯后算子為了表述上式方便引入滯后算子B,其意義為,其意義為Byt=yt-1,則上式模型可以表示為:則上式模型可以表示為:ttpptttyByBByy221其中,其中,Byt=yt-1,B2yt=yt-2,Bpyt=yt-p進一步有:進一步有:ttppyBBB2211ppBBBB2211)(則可寫為則可寫為 ttyB)(對于一階自回歸序列來講,若系數對于一階自回歸序列來講,若系數的絕對值的絕對值|1。自回歸模型自回歸模

38、型AR(p)的參數估計過程是:假設其參數估計的參數估計過程是:假設其參數估計值、值、已經得到,有:、已經得到,有:12ptptptttyyyy2211誤差的平方和誤差的平方和D為:為:21221112nptptptttnpttyyyyD根據最小二乘法原理,求參數估計值根據最小二乘法原理,求參數估計值 、。、。12p例如,有例如,有AR(1)模型模型yt=0.6yt-1+t。則:則:(1- -0.6B)yt=tyt= t=(1+0.6B+0.36B2+0.216B3+ )t=t+0.6t-1+0.36t-2+0.216t-3+B6 . 011從而變換為一個無限階的移動平均過程。從而變換為一個無限

39、階的移動平均過程。 2. 滑動(移動)平均模型滑動(移動)平均模型MA(q)若時序若時序yt中的中的yt為它前期的誤差和隨機項的線性函數,為它前期的誤差和隨機項的線性函數,可以表示為可以表示為qtqtttty2211則稱該時間序列則稱該時間序列yt為滑動平均序列,該模型為為滑動平均序列,該模型為q階滑動階滑動(移動)平均模型(移動)平均模型(Moving Average Model),記為),記為MA(q)。參數參數1、2、q為滑動平均參數,是模型的待估參數。為滑動平均參數,是模型的待估參數。可以采用矩估計法進行參數估計,這里不再介紹。可以采用矩估計法進行參數估計,這里不再介紹。 3. 自回歸

40、滑動平均模型自回歸滑動平均模型ARMA(p,q)若時序中的若時序中的yt為它的當前值與前期的誤差和隨機項的線為它的當前值與前期的誤差和隨機項的線性函數,則可以表示為:性函數,則可以表示為:qtqtttptptttyyyy22112211則稱該時間序列中的則稱該時間序列中的yt為自回歸滑動平均序列。又由為自回歸滑動平均序列。又由于模型包含于模型包含p項自回歸模型和項自回歸模型和q項滑動平均模型,因此該模項滑動平均模型,因此該模型稱為自回歸滑動平均模型(型稱為自回歸滑動平均模型(Auto-regressive Moving Average Model),記為),記為ARMA(p,q)。參數。參數1

41、、2、p為自回歸參數,為自回歸參數,1、2、q為滑動平均參數,是模型為滑動平均參數,是模型的待估參數。的待估參數。 自回歸滑動平均模型自回歸滑動平均模型ARMA(p,q)的參數估計可以采的參數估計可以采用分為兩步,先估計用分為兩步,先估計1、2、p自回歸參數,然后估計自回歸參數,然后估計1、2、q滑動平均參數。滑動平均參數。 4. 差分整合移動平均自回歸模型差分整合移動平均自回歸模型ARIMA(p,d,q)ARIMA模型(模型(Autoregressive Integrated Moving Average model,差分整合移動平均自回歸模型,又稱整合,差分整合移動平均自回歸模型,又稱整合

42、移動平均自回歸模型)是時序預測分析方法之一。移動平均自回歸模型)是時序預測分析方法之一。在在ARIMA(p,d,q)中,中,AR是自回歸,是自回歸,p為自回歸項數;為自回歸項數;MA為滑動平均,為滑動平均,q為滑動平均項數,為滑動平均項數,d為使之成為平穩序列為使之成為平穩序列所做的差分次數(階數)。差分的目標是使時序穩定且變得所做的差分次數(階數)。差分的目標是使時序穩定且變得靜態,差分階數表示為時序取的值之間的差分的次數。靜態,差分階數表示為時序取的值之間的差分的次數。8.3.6 SQL Server8.3.6 SQL Server建立隨機時序模型示例建立隨機時序模型示例有如表有如表8.8

43、所示的所示的CPI數據表,其中有一部分月份沒有數據表,其中有一部分月份沒有給出,采用給出,采用SQL Server建立其隨機時序模型,并預測沒有建立其隨機時序模型,并預測沒有給出的給出的CPI。其過程如下。其過程如下。TimeCPITimeCPITimeCPI(預測值)(預測值)2010-01-011.52011-08-016.22013-03-01NULL2010-02-012.72011-09-016.12013-04-01NULL2010-03-012.42011-10-015.52013-05-01NULL2010-04-012.82011-11-014.22013-06-01NULL

44、2010-05-013.12011-12-014.12013-07-01NULL2010-06-012.92012-01-014.52013-08-01NULL2010-07-013.32012-02-013.22013-09-01NULL2010-08-013.52012-03-013.62013-10-01NULL2010-09-013.62012-04-013.42013-11-01NULL2010-10-014.42012-05-0132013-12-01NULL2010-11-015.12012-06-012.22013-03-01NULL2010-12-014.62012-07-0

45、11.82013-04-01NULL2011-01-014.92012-08-0122011-02-014.92012-09-011.92011-03-015.42012-10-011.72011-04-015.32012-11-0122011-05-015.52012-12-012.52011-06-016.42013-01-0122011-07-016.52013-02-013.2TS表結構表結構 創建數據挖掘結構創建數據挖掘結構 設置挖掘模型結構設置挖掘模型結構 時序挖掘圖時序挖掘圖 顯示預測值顯示預測值 “模型模型”選項卡選項卡 “挖掘圖例挖掘圖例”對話框對話框 8.4 時序的相似性搜

46、索時序的相似性搜索時序相似性搜索是基于內容的查詢,用時序相似性搜索是基于內容的查詢,用X=(xt | t=0,1,2,n- -1)表示一個時序,其相似性搜索就是)表示一個時序,其相似性搜索就是在時序數在時序數據庫中發現與給定模式相似的序列據庫中發現與給定模式相似的序列。 8.4.1 8.4.1 相似性搜索的概念相似性搜索的概念假設時序模型為假設時序模型為AR(n),待測序列,待測序列X的參數模型為的參數模型為X,它是待檢模型。它是待檢模型。序列數據庫中的其他序列序列數據庫中的其他序列Yi的的參數模型為的的參數模型為Yi,它們是,它們是參考模型。參考模型。X和和Yi都是都是n維向量,均可視為維向

47、量,均可視為n維空間上的點。維空間上的點。從而序列的相似性問題就歸結為從而序列的相似性問題就歸結為n維空間維空間Rn中的距離的中的距離的判別問題。判別問題。1. 距離判別函數距離判別函數常用的距離函數為歐幾里得函數,其表示如下:常用的距離函數為歐幾里得函數,其表示如下:)()(),(2YXTYXYXED如果待檢模型如果待檢模型X與某個參考模型與某個參考模型Y的歐幾里得距離最小,的歐幾里得距離最小,則它和這個參考序列最相似。則它和這個參考序列最相似。用模型中隨機項向量用模型中隨機項向量(白噪聲向量)來構造殘差距離(白噪聲向量)來構造殘差距離函數,其表示如下:函數,其表示如下:)()(),(2YX

48、XTYXYXrND其中,其中,rX是待檢序列的協方差矩陣,是待檢序列的協方差矩陣,N表示待檢序列的長度。表示待檢序列的長度。2. 相似性匹配方式相似性匹配方式一般地,事先給定距離函數一般地,事先給定距離函數D和和 ,時序相似性匹配可,時序相似性匹配可分為以下兩類:分為以下兩類:完全匹配完全匹配:給定:給定N個序列個序列Y1、Y2、Yn和一個查和一個查詢序列詢序列X,這些序列有相同的長度,如果存在,這些序列有相同的長度,如果存在D(X,Yi) ,那么稱,那么稱X與與Yi完全匹配。完全匹配。子序列匹配子序列匹配:給定:給定N個具有任意長度的序列個具有任意長度的序列Y1、Y2、Yn和一個查詢序列和一

49、個查詢序列X以及參數以及參數 。子序列匹。子序列匹配就是在配就是在Yi(1iN)上找到某個子序列,使這個)上找到某個子序列,使這個子序列與子序列與X之間的距離小于等于之間的距離小于等于 。3. 數據變換數據變換對于一個時序對于一個時序X,對其離散傅立葉變換得到,對其離散傅立葉變換得到Xf:1021ntnifttfexnXf=0,1,n-1 這里,這里,X與與xt代表時域信息,而與代表時域信息,而與Xf代表頻域信息,代表頻域信息,=Xf | f=0,1,n-1,Xf為為傅立葉系數。為為傅立葉系數。X注意:注意:采用離散傅立葉變換后,序列上的每個點(時域采用離散傅立葉變換后,序列上的每個點(時域信

50、息中)對應特征空間(頻域空間)中信息中)對應特征空間(頻域空間)中f維空間上的一維空間上的一個點。個點。根據根據Parseval的理論,時域能量譜函數與頻域能量譜函的理論,時域能量譜函數與頻域能量譜函數相同,即數相同,即在采用歐幾里得距離函數時,如果兩個序列的歐幾里得在采用歐幾里得距離函數時,如果兩個序列的歐幾里得距離小于距離小于 ,則如下式子也應該成立:則如下式子也應該成立:對大多數序列來說,能量集中在傅立葉變換后的前幾個對大多數序列來說,能量集中在傅立葉變換后的前幾個系數,也就是說一個信號的高頻部分相對來說并不重要。因系數,也就是說一個信號的高頻部分相對來說并不重要。因此我們只取前面此我們只取前面fc個系數,即個系數,即這樣就濾掉一大批與給定序列的距離大于這樣就濾掉一大批與給定序列的距離大于 的序列。的序列。 8.4.2 8.4.2 完全匹配完全匹配完全匹配完全匹配必須保證被查找序列與給出的序列有相同

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論