第10章:參數模型的檢驗和選擇_第1頁
第10章:參數模型的檢驗和選擇_第2頁
第10章:參數模型的檢驗和選擇_第3頁
第10章:參數模型的檢驗和選擇_第4頁
第10章:參數模型的檢驗和選擇_第5頁
已閱讀5頁,還剩15頁未讀 繼續免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

第10章參數模型的檢驗和選擇

【考試內容】

10.1引言

10.2模型的直觀選擇

數據與模型的表示密度函數與分布函數的圖像比較

p-p圖和Q-Q圖比較平均剩余壽命函數圖

10.3分布的擬合優度檢驗

擬合優度檢驗

K-S檢驗

Anderson-Darling檢驗似然比檢驗

10.4最優模型的選擇

主觀判斷法評分法

【要點詳解】

§10.1引言

一般來說,對模型的篩選將經歷如下的過程:第一:被選模型與實際數據圖形上的直觀比較和篩選;第二:用統計學方法對模型分布函數與經驗分布函數進行檢驗(如擬合優度檢驗、K-S檢驗、Anderson-Darling檢驗等);最后:由一定的標準進行模型選擇(常用主觀判斷法和評分法)。

§10.2模型的直觀選擇

1.數據與模型的表示

本章中只討論在同一點截斷或刪失數據。假設數據集的截斷點是t,則經驗分布的起始點也是t。為了和經驗值進行比較,使用的模型必須是截斷的。因此,截斷后的模型表示為:其中F(x)、f(x)表示沒有截斷的模型。

2.密度函數與分布函數的圖像比較

(1)對模型擬合程度最直接的檢驗方法是做圖。一般選用經驗分布圖(卵形圖)、直方圖、核密度圖等與備選模型的分布函數或密度函數圖進行比較。當模型與樣本的分布圖像比較接近時,可以使用該函數擬合樣本數據。如果差異較大,超出了可以接受的范圍,則認為不能使用該函數進行擬合。(2)當模型的分布函數和經驗分布函數很接近時,很難從圖像上分辨出細徽的差別。可以直接畫出兩個函數差值的圖像。也就是說,如果Fn(x)和F*(x)分別表示經驗分布函數和由模型得到的分布函數,畫出D(x)=Fn(x)-F*(x)的圖像即可。

3.p-p圖和Q-Q圖比較

(1)p-p圖

①p-p圖(概率圖):是根據變量的經驗分布與指定分布的累積分布函數之間的關系所繪制的圖形。可以檢驗數據是否符合指定的分布。

②p-p圖檢驗數據的步驟首先將觀測值排序xl≤…≤xn;再對每個值構造坐標(Fn(xj),F*(xj));最后將每個坐標對應的點畫在(Fn(x),Fn*(x))的平面上。

③p-p圖檢驗的結果分析當數據符合指定分布時,p-p圖中各點近似呈一條45°直線。但是,在這種情況下,必須對經驗分布函數的定義有所修改。如果p-p圖中各點不呈直線,但有一定規律,則可以對變量數據進行轉換,便轉換后的數據更接近指定分布。(2)Q-Q圖

Q-Q圖是用樣本數據的經驗分位數與所指定分布的分位數之間的關系曲線來進行檢驗的。(3)p-p圖和Q-Q圖分析注意事項當分析p-p圖和Q-Q圖時,最好不要用嚴格的標準去衡量這些數據是否在一條直線上,通常只要看這些點是否近似在一條直線上即可。另外,當判斷概率圖上的點是否近似在一條直線上時,對樣本點中兩端的點可以不用關注,除非這些點偏離直線特別遠,但是當有一個樣本點偏離直線特別遠,而其他樣本點又基本近似在直線上時,偏離直線的那個樣本點則視為離群點,不用考慮。

4.平均剩余壽命函數圖

(1)平均剩余壽命函數平均剩余壽命函數考慮的是數據在尾部的情況,其定義為:

e(d)=E[X-d|X>d]如果平均剩余壽命函數隨d遞增,那么在變量取值較大處的期望結果會很大,因此概率向右移,說明其尾部相比那些平均剩余壽命函數遞減或增速較慢的模型更厚。反之,如果平均剩余壽命函數隨d遞減,說明X的分布是輕尾分布。(2)平均剩余壽命函數圖

通過樣本平均剩余壽命函數圖觀察樣本數據的尾部特征。使用經驗估計二來代替e(d),有:如果平均剩余壽命函數圖呈現上升的趨勢,說明樣本的損失分布是一個明顯的厚尾分布;而如果呈現下降的趨勢則是輕尾分布;指數分布的平均超額函數圖近似為一條水平的直線。

§10.3分布的擬合優度檢驗

在假設檢驗中,先要設定原假設和備選假設:

H0:數據來源于某個給定的總體;

H1:數據并非來源于給定的總體。針對原假設的不同,有兩種處理的方式。如果原假設中給出了完整的模型,檢驗臨界值可以較為容易地得出;如果原假設僅僅指明了模型的類型,而模型中仍含有待定的參數,如果模型的參數是通過樣本數據估計得出,這時的檢驗統計量要比事先給定模型時的統計量要小。通常統計量較大時容易拒絕原假設,因此這種近似增加了犯第二類錯誤的概率,同時減小了犯第一類錯誤的概率。針對第二種情況,通過將樣本隨機分組的方式避免近似。將樣本隨機分為兩部分,一部分進行參數估計,另一部分進行假設檢驗。當模型選定之后,又重新將所有數據用于參數估計。

1.擬合優度檢驗

擬合優度檢驗常用于離散分布的情況,如果是連續分布則需要把數據分成多個區間來考慮。(1)擬合優度檢驗驗的步驟

①選定任意k-l個值使得t=c0<c1<c2<c3<c4<…<ck=∞,其中t為左截斷點(如果沒有截斷則t=0)。記為觀測值落在(cj-1,cj]區間中的概率。

注意:每組包括組上限,即左端是開區間、右端是閉區間。類似地,記pnj=Fn(cj)-Fn(cj-1)為由經驗分布得到的(cj-1,cj]區間中的概率。

②構造

檢驗統計量為:其中n為樣本量。若令為區間中觀測值個數的期望值,并令Oj=npnj

為區間中的實際觀測個數。此時有:當觀測值n的值充分大時,統計量Q的分布會收斂于自由度為k-1-m的

分布,m為模型中待估參數的個數。如果計算得到的Q大于臨界值,則拒絕原假設,表明原假設中的分布不能擬合樣本數據。否則,無法拒絕原假設。這里通常取0.05。(2)擬合優度檢驗中,一定要滿足:樣本容量n要足夠大、Ej不太小這兩個條件。為提高模型估計的精度,通常認為Ej的值不小于5,總體的樣本數據不小于50,否則需要將個數較少的組合并,以滿足這個要求。

【例題10.1】對150名投保人,從簽訂保單受益憑證開始觀察,直到其身故,且沒有刪失觀測值,有21人在第1年身故,有27人在第2年身故,有39人在第3年,另有63人在第4年。考慮原假設為生存模型

在5%的顯著性水平下,進行擬合優度檢驗,則統計量的值為()。

A.2.85

B.3.15

C.3.35

D.3.65

E.3.95

【答案】D

【解析】根據生存模型,可知,計算結果如下表所示。即統計量的值為3.65。

【例題10.2】一年內每天發生的事故數分布如下表所示,考慮如下的假設檢驗:數據來自均值為0.6的Poisson分布,將數據分為盡可能多的組,并保證每個組期望的觀測數至少為5。采用擬合優度檢驗,則統計量的值為()。

A.1.3698

B.2.8778

C.3.3659

D.3.9847

E.4.8778

【答案】B

【解析】根據題目要求,將數據分成4組,即將事故數目為3,4,5的合并成一組。計算相應的值,得到下表。所以由上表可知統計量的值為2.8778。

2.K-S檢驗(1)K-S檢驗用來檢驗單一樣本是否來自某一特定分布,這個檢驗的思想是:雖然Y1,Y2,…,Yn的分布未知,但根據大樣本理論,Y1,Y2,…,Yn的經驗分布函數Fn(x)在某種意義下收斂于其真實的分布,所以可以把Fn(x)與所假設的分布函數F*(x)作比較,看它們是否吻合。如果它們不能很好地吻合,就拒絕H0,即未知的真實分布函數不是由F*(x)給定的。(2)K-S檢驗統計量令t為左截斷點(如果沒有截斷則t=0),u為右刪失點(如果沒有刪失則u=∞)。這時檢驗統計量為:注意:為確保Fn(x)有定義,這個統計量只適用于個體數據,且要求F*(x)在對應區間上是連續的。(3)如果已知一個樣本觀測值xl,…,xn,則Dn為F*(x)與Fn(x)差距的最大值為:①用來表示被檢驗的實際偏差度量,其中n為樣本數。②當n→∞時,若F*(x)的函數形式完全給定,Y的近似分布為:③若F*(x)的形式已知,參數由數據估計,偏差度量將取得與前面結果不同的概率值,在這種情況下則需要對Y進行修正。

【例題10.3】某隨機變量的5個觀測分別為1,2,3,5,13,原假設:f(x)=2x-2e-2/x,x>0,則K-S檢驗統計量Dn的值為()。A.0.039B.0.209C.0.168D.0.397E.0.351【答案】C【解析】根據原假設下隨機變量的密度函數可得分布函數為:則K-S統計量計算結果如下表所示。所以K-S統計量Dn的值為0.168。

【例題10.4】一個來自總體X的樣本包含12個數據:7、12、15、19、26、27、29、29、30、33、38、53。假設數據在32處刪失,并使用參數為的指數分布擬合這組數據,則對應的K-S檢驗統計量的值為(

)。A.0.1865B.0.2146C.0.2298D.0.3132E.0.3369【答案】D【解析】對于此數據,刪失后分布為:將經驗分布函數和估計分布列表,如下表所示。由上表可以看出K-S統計量的值為0.3132。

3.Anderson-Darling檢驗(1)Anderson-Darling檢驗統計量是Fn(x)和分布F*(x)之間偏差的平方的加權期望值,權重是Fn(x)方差的倒數,即:其中:t為左截斷點(如果沒有截斷則t=0),u為右刪失點(如果沒有刪失則u=∞)。注意:當x接近于t或u時,分母很小,從而權重較大,因此這個統計量更加看重尾部的估計。(2)Anderson-Darling檢驗統計量對于個體數據來說,積分形式如下:當t=0,u=∞時,上式與下面公式等價:

【例題10.5】一個來自服從參數=15的指數分布的總體的樣本包含8個數據:3、4、8、10、12、18、22、35,則求Anderson-Darling統計量的值為(

)。A.0.304B.0.310C.0.321D.0.340E.0.354【答案】A【解析】由=15可得,原假設的分布函數為:,則Anderson-Darling統計量與計算結果如下表所示。從而根據統計量的公式:可以算得A2=0.304。

4.似然比檢驗(1)似然比檢驗考慮的是兩個分布的比較。該檢驗的原假設和備選假設分別為:H0:數據來自服從A分布的總體;H1:數據來自服從B分布的總體。注意:為了能夠進行正規的假設檢驗,A分布必須是B分布的一種特殊情形。(2)似然函數及統計量對于給定的樣本xl,x2,…,xn,似然函數定義為:統計量定義為:稱LR為似然比。LR的分子是參數沒有被約束的似然函數最大值,分母是參數被約束時的最大值。顯然有:LR≥1。在一定正則的條件下,Yn=2lnLR在原假設下以χ2分布為極限分布,參數為k-r,k為沒有被約束的參數個數,r為被約束的參數個數。若,為已知參數,則r=0。若Yn大于置信水平為α臨界值c,則拒絕原假設,即認為。

【例題10.6】用200份賠付數據擬合一個帕累托分布,給定:(1)對應的極大似然估計是(2)以極大似然估計值算得的對數似然函數值是-817.92;。若使用似然比檢驗對原假設進行檢驗,則檢驗統計量的值為(

)。A.3B.4.6C.7D.7.7E.8.1【答案】D【解析】帕累托分布的密度函數和似然函數分別為:對數似然函數值為:在原假設下,所以似然比統計量為:

【例題10.7】韋伯分布的密度函數為來自服從韋伯分布的總體的樣本如下:595、700、789、799、1109。已知在θ和τ的極大似然估計點,∑ln(f(xi))=-33.05。當τ=2時,θ的極大似然估計是816.7。用似然比檢驗做一下檢驗H0:τ=2,H1:τ≠2,則在5%的顯著水平下和在2.5%的顯著水平下分別是(

)。A.無法拒絕原假設,拒絕原假設

B.拒絕原假設,無法拒絕原假設

C.無法拒絕原假

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論