




下載本文檔
版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
重抽樣的自舉方法
1明確表達公式“獨立法案”是一種對樣本數據進行重新抽樣,創造一系列“新”樣本的方法。這也是現代統計學研究中應用廣泛的一種重抽樣技術。設某總體具有參數θ=(θi)(i=1,2,…,p);現從中抽得1個容量為n的隨機樣本,其觀察值為Yj(j=1,2,…,n);根據Yj,經過一定途徑(此途徑可以有明確的表達公式,也可以沒有;可簡也可繁)可得到估計數?θ=(?θi).現在要問:①這種估計θi的途徑是否有效?或者說?θi是否是θi的無偏估計?②?θi的分布如何?或者說?θi的標準誤(即?θi分布的標準差)及其對于θi的100(1-α)%置信區間是什么?這些問題,當估計數?θi及?θi的標準誤不能直接從理論導出(即不能給出其數學期望)、?θi的分布為未知時(例如許多非線性統計數或表型相關系數、遺傳相關系數等),或者要把某一樣本結果與一定理論假設下的總體結果比較時(例如多正態混合分布下完全模型和縮簡模型的似然比測驗),將顯得特別重要.自舉法是近年發展起來的解決上述問題的一種較為有效的方法.它是從1個樣本的資料產生“新”的能夠代表被研究總體的多個樣本,從而模擬出?θi的分布,并得到其平均數和標準差.依賴于電子計算機的大容量和高效率,自舉抽樣程序已非常容易實現.本文提出的是自舉抽樣的3種具體方法.2單變量獨立列出2.1自舉抽樣自舉統計數設1個樣本具變量Y1,Y2,…,Yn,用某種方法得到其對總體參數θi的估計值?θi.則在抽樣時,每一輪都要從這n個變量中抽取1個容量也是n的隨機樣本,并保證每一變量在每輪每次抽樣中的被抽取概率都是1/n(相當于經典方法的復置抽樣).此過程一般可用隨機數表或由計算機輸出n個0~1之間的隨機數實現.即:先將樣本變量編碼為1,2,…,n;然后取分組距離1/n將區間分成n個互斥的分隔:0~1n,1n~2n,2n~3n,?,n-1n~1;(1)出現的隨機數,凡在0~1n(低限用≤號,高限用<號,即0≤R<1n;下同)之間的取編碼“1”變量,凡在1n~2n之間的取編碼“2”變量,…,凡在n-1n~1之間的取編碼“n”變量.這就稱為自舉抽樣,由這n個“新”變量組成的樣本則稱為自舉樣本(bootstrapsample).當對原始樣本變量重復進行m輪自舉抽樣,就得到m個容量均為n的自舉樣本.再對每一樣本都按照在原始樣本中所用的計求?θi的方法,求其統計數?θ′i,得到1個次數為m的?θ′i分布.這稱為自舉統計數?θ′i分布.由此分布,我們就可以研究?θi的基本性質,其最主要特征數是自舉平均數ˉθ′i(boostrapaverage)和自舉標準誤s?θ′i(boostrapstandarderror),定義為:ˉθ′i=m∑k=1?θ′ik/m,(2)s?θ′i=[m∑k=1(?θ′ik-ˉθ′i)2/(m-1)]1/2.(3)以上(3)式即?θ′i分布的標準差.不論?θ′i是什么樣的統計數,自舉抽樣都能穩健地提供它的平均數和標準誤估計.這是自舉法的一個重要特征和非凡功能.如果?θi能夠描述有關隨機變量的取值中心(即通常所說的“無偏估計”),則?θi和ˉθ′i之間的差異應在誤差(標準誤)所許可的范圍內;如果?θi的標準誤為未知,則s?θ′i將是其最佳替代.一般為估計ˉθ′i和s?θ′i?m=100即可(這是在ˉθ′i和s?θ′i能相對穩定的意義上而言的),不必大于200.但是,如果要了解?θ′i的較精確分布和對于θi的100(1-α)%置信區間,一般應選m=1000.這時,在?θ′ik值從小到大的順序排列中,k=6,26和51的?θ′ik值依次為對于θi的置信系數為99%,95%和90%的區間低限;而k=995,975和950的?θ′ik值則依次為相應的區間高限.它們與?θ′i的分布形狀(如是否左右對稱)無關.2.2yj的統計方法10位因食用沙門氏菌污染食物而“中毒”的患者的潛伏期(?θi/h)列于表1列2.計算的統計數有:潛伏期的算術平均數?θ1,標準差?θ2,?θ1的標準誤?θ3,?θ2的標準誤?θ4.由于已知潛伏期資料多屬左偏分布,故又計算中位數?θ5(在偏態下以中位數描述變量中心常較算術平均數更為恰當,因為一組變量與其中位數離差的絕對值之和不大于它們與任何其他統計數離差的絕對值之和).其定義和結果為:?θ1=ˉy=n∑1Yj/n=260/10=26h,?θ2=s=[n∑1(Yj-ˉy)2/(n-1)]1/2=18.5h,?θ3=sˉy=s/√n=18.5/√10=5.85h,?θ4=ss=s/√2n=18.5/√20=4.14h,?θ5=Μd=(Y5+Y6)/2=(20+22)/2=21h.}(4)以上?θ3和?θ4是假設Yj的分布為正態的結果;?θ5中的Y5和Y6是Yj從小到大順序排列時j=5和6的變量.此例n=10,故根據(1)式,自舉隨機號的分組數列為0~0.1~0.2~0.3~0.4~0.5~0.6~0.7~0.8~0.9~1.0.其第1~3自舉樣本及其根據于(4)式的計算結果均列于表1.經100次自舉抽樣后,各自舉統計數的變幅及根據(2)或(3)式算得的平均數、標準誤則列于表2.表1和表2的結果主要說明:1)ˉθ′i(表2)和?θi(表1)都有一定差異,但其最大差異都在±0.5個標準誤范圍內.例如對于ˉy是(26.0-25.01)/4.77=0.208,對于s是(18.5-16.46)/4.83=0.422.這表明不能否認各個?θi都是無偏估計數.2)3個樣本平均數的標準誤(s)來自各不相同的定義:5.85是基于觀察樣本隨機抽自正態總體的假設;4.77是自舉樣本平均數分布的標準誤;5.20是自舉樣本平均數標準誤的平均數.其最大差異達到(5.85-4.77)/1.53=0.706個標準誤.而具有相應定義的3個樣本標準差的標準誤(ss)4.14,4.83和3.68,其最大差異達到(4.83-3.68)/1.08=1.065個標準誤.它們雖然都未達到顯著水平,但與ˉθ′i和?θi相比,差異有擴大趨勢.這表明標準差有較大的抽樣變異.3)不論觀察樣本或自舉樣本,平均數ˉy都大于中位數Md.這表明表1的潛伏期資料是左偏分布.所以用21.47±5.16描述潛伏期(即有50%的沙門氏菌食物中毒患者是在取食后21.47h內發病的,具標準誤5.16h)可能比算術平均數更恰當.3變量多態公示3.1自舉抽樣時的變量多變量自舉又稱成組自舉,它僅是單變量自舉的簡單推廣.設觀察資料為l個變數和每變數n個變量,每一變量可記為Xij(i=1,2,…,l;j=1,2,…,n).則在自舉抽樣時,1個隨機數或變量號是代表j=c(c為1,2,…,n中的某一指定值)時的一個變量組Xic,含l個變量;而每一自舉樣本則是由n組各含l個變數的1個變量組成.其余方法和步驟都和單變量自舉相同.3.2自舉隨機號a型表3的列2和3是水稻“揚糯5號”12個植株的基部第1拔長節間粗度(X1,長徑×短徑,mm2)和其穗部總粒數(X2)的觀察結果.求得X1和X2的相關系數r和X2依X1的回歸系數b為:?θ1=r=∑x1x2/√∑x21?∑x22=0.8144,?θ2=b=∑x1x2/∑x21=5.1217粒?mm-2.}(5)(5)中的x1=(X1-ˉx1)?x2=(X2-ˉx2).由于此例n=12,故自舉隨機號的分組數列為:(0~0.08˙3~0.16˙6~0.250~0.33˙3~0.41˙6~0.500~0.58˙3~0.66˙6~0.750~0.83˙3~0.91˙6~1.000).其第1、第2自舉樣本和根據(5)式算得的θ^′i也一并列于表3.這里可注意:通常的相關系數標準誤是在總體相關系數ρ=0的假設下給出的.此處r=0.8144,為極顯著,所以常規方法不能得到其標準誤.當完成m=100次自舉抽樣,我們就有了r的抽樣分布;因而其平均數將是ρ≠0的數值估計,其標準差即是該相關系數的標準誤估計.4離開公職4.1離回歸自舉的工作模型上節的多變數自舉方法也完全適用于回歸問題,只要將l個變數中的1個(或幾個)變數以Yj表示.這時每一隨機號代表一個變量組Xic(i=1,2,…,l-1)+Yc.但據研究,純粹的回歸問題,即觀察變量能夠明確區分為自變數和依變數的問題,應用離回歸自舉研究其統計數性質,可能都會比一般化的多變量自舉更好一些.因為自變數是固定的,理論上不存在隨機誤差.設有依變數Y和l個自變數Xi(i=1,2,…,l),則回歸分析的工作模型為:Yj=a+∑i=1lbiXij+ej(j=1,2,?,n).(6)如果記Y^j=a+∑i=1lbiXij,則有:ej=Yj-Y^j.(7)離回歸自舉就是1個隨機數代表1個離回歸值ej.每輪自舉抽樣都得到n個“新”的ej值(記為e*j);然后構成Y*j:Yj*=Y^j+ej*;(8)并以Y*j為依變數,Xij為自變數進行自舉樣本的回歸分析.這是Xij不變而Yj改變為Y*j的自舉抽樣.其余同前.MINITAB是此種抽樣分析的一個專用軟件.4.2y4.5.4.4.4.4.4.4合理的y統一雙軌道集中連接,把保證2.4.7.7.7.7.7.7.7.7.7.7.7.7.7.7.7.7.7.7.7.7.7.7.7.7.7.7.7.7.7.7.7.7.7.7.7.7.7.7.7.7.7.7.7.7.7.7.7.7.7.7.7.7.7.7.7.7.7.7.7.7.7.7.7.7.7.7.7.7.7.7.7.7.7.7.7.7.7.7.7.7.7.7.7.7.7.7.7.7.7.7.7.7.7.7.7.7.7.7.7.7.7.7.7.7.7.7.7.7.7.7.7.7.7.7.7.7.7.7.7.7.7.7.7.7.7.7.7.7.7.7.7.7.7.7.7.7.7.7.7.7.7.7.7.7.7.7.7.7.7.7.7.7.7.7.7.7.7.7.7.7.7.7.7.7.7.7.7.7.7.7.7.7.7.7.7.7.7.7.7.7.7.7.7.7.7.7.7.7.7.7.7.7.7.7.7.7.7.7.7.7.7.7.7.7.7.7.7.7.7.7.7.7.7.7.7.7.7.7.7.7.7.7.7.7.7.7.7.7.7.7.7.7.7.7.7.7.7.7.7.7表4的列2和列3是歐洲10國鋼鐵業1974年(X)和1992年(Y)的雇員數(千人).由之可得到θ^1=a=2.8026?θ^2=b=0.333679和線性回歸方程Y^=2.8026+0.333679X,表明1992年的雇員數平均只有1974年雇員數的33.37%.根據Y^=2.8026+0.333679X,可得到Y^j值于表4列4,如Y^1=2.8026+0.333679×232=80.216?Y^2=2.8026+0.333679×96=34.836,?等.再根據(7)式可得到ej于表4列5,如e1=104-80.216=23.784,e2=50-34.836=15.164,…等.在抽取第1個自舉樣本時,由10個隨機數得出“新”的ej值,記為e*j;再根據(8)式得到10個Y*j.自舉樣本的回歸分析即依據Xj和Y*j.其余自舉樣本都可類推.此例在進行m=100次離回歸自舉后,所得結果列于表5.這里θ^1和θ^′1,θ^2和θ^′2均相當吻合.用常規方法可算得觀察樣本的回歸截矩a和回歸系數b的標準誤為:sa=sY/X(1n+xˉ2∑x2)1/2=6.992,sb=sY/X/(∑x2)1/2=0.0593,與表5的sa=6.032,sb=0.0530亦相當接近.5自析估計數的估計除自舉法外,還有一種曾經有過較廣泛應用的樣本重抽樣技術,稱為自析法(Jackknifing).其基本概念最早由Quenouille提出.它是對樣本觀察值Y1,Y2,…,Yn每次順序剔除1個構成一個自析樣本,從而可得到每樣本都具有n-1個觀察值的n個自析樣本.然后,按照在原始樣本中計求統計數θ^的方法,計求每一自析樣本的θ^i(i=1,2,?,n),得到其平均數:θˉJ=∑i=1nθ^i/n,(9)再進一步算得自析估計數θ^J和θ^J的方差var(θ^J):θ^J=nθ^-(n-1)θˉJvar(θ^J)=(n-1)∑
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025年礦山安全與環境保護專業考試題及答案
- 2025年聚合物化學入門考試題及答案
- 2025年康復治療師考試試卷及答案
- 2025年酒店管理與服務專業考試試題及答案
- 2018年全國高聯A卷一試答案
- 心呼吸除甲醛合同協議
- 樓頂處理清包工合同協議
- 品牌策劃外包合同協議
- 商業物業包干合同協議
- 模具委托協議書模板
- 北京2025年中國環境監測總站招聘(第二批)筆試歷年參考題庫附帶答案詳解
- 定額〔2025〕1號文-關于發布2018版電力建設工程概預算定額2024年度價格水平調整的通知
- 【MOOC】機械原理-西北工業大學 中國大學慕課MOOC答案
- 2021年妊娠期血壓管理中國專家共識
- 一種基于STM32的智能門鎖系統的設計-畢業論文
- 柔性主動防護網分項工程質量檢驗評定表
- 中機2015~2016年消防系統維保養護年度總結報告
- 控機床故障診斷與維修幾例
- Kappa量測能力測評及評價
- ph值計算加酸量計算
- 土方換填施工方案(完整版)
評論
0/150
提交評論