應用統計學(第四章-概率與概率分布)_第1頁
應用統計學(第四章-概率與概率分布)_第2頁
應用統計學(第四章-概率與概率分布)_第3頁
應用統計學(第四章-概率與概率分布)_第4頁
應用統計學(第四章-概率與概率分布)_第5頁
已閱讀5頁,還剩64頁未讀 繼續免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

應用統計學第四章概率與概率分布一、概率的基礎知識1.概率的基本概念 1)事件(隨機)試驗:在一定條件下對隨機現象所進行的觀察或實驗隨機試驗的結果不止一個,并且事先不知道會有哪些可能的結果,也不確定某一次試驗會出現哪種結果(隨機)事件:隨機試驗的每一種可能結果;通常用A、B、C等來表示不能再分的事件稱為基本事件;由若干個基本事件組合而成的事件稱為復合事件。在編號為①~⑤的5件產品中隨機抽取1件,則有5種不同的可能結果:“取得一個編號是①”、“取得一個編號是②”、…、“取得一個編號是⑤”,這5個事件都是不可能再分的事件,是基本事件?!叭〉靡粋€編號小于3”是一個復合事件,它由“取得一個編號是1”、“取得一個編號是2”兩個基本事件組合而成。確定性事件和隨機事件:確定性事件:在一定條件下必然出現某種結果或必然不出現某種結果必然事件U不可能事件V隨機事件:在一定條件下可能發生也可能不發生 2)頻率(frequency)

在相同的條件下,進行了n次試驗,事件A出現的次數m稱為事件A出現的頻數,比值m/n稱為事件A出現的頻率,記為:W(A)=m/n(0≤W(A)≤1)玉米種子發芽試驗結果種子總數(n)1020501002005001000發芽種子數(m)9194791186458921種子發芽率(m/n)0.900.950.940.910.930.920.92種子發芽與否是不能事先確定的,但從表中可以看出,試驗隨著n值的不同,種子發芽率也不相同,當n充分大時,發芽率在0.92附近擺動。 3)概率(probability,P)

相同條件下,進行大量重復試驗,若事件A的頻率穩定地在某一確定值p的附近擺動,稱p為事件A出現的概率在一般情況下,隨機事件的概率P是不可能準確得到的以試驗次數n充分大時,隨機事件A的頻率作為該隨機事件概率的近似值 a.概率的古典定義某些隨機事件,不用進行多次重復試驗來確定其概率,而是根據隨機事件本身的特性直接計算其概率隨機事件若滿足試驗的所有可能結果只有有限個,即樣本空間中的基本事件只有有限個各個試驗的可能結果出現的可能性相等,即所有基本事件的發生是等可能的試驗的所有可能結果兩兩互不相容則若樣本空間由n個等可能的基本事件所構成,其中事件A包含有m個基本事件,則事件A的概率為m/n,即

P(A)=m/nb.古典概率計算

例:在編號為1~10的10個球中有3個紅色、7個黃色的球,求下列事件的概率:A=抽得一個編號<4,B=抽得一個編號是2的倍數,C=抽得一個紅球,D=一次取5個球,其中有2個紅球的概率。10個球中任意取5個,其可能結果有個基本事件

D=5個球中有2個紅球,則D包含的基本事件

【例】某養殖廠養殖了30頭牛,其中3頭患有某種遺傳病。從這群牛中任意抽出10頭,試求其中恰有2頭患病牛的概率是多少?

即從這群牛中隨機抽出10頭,其中恰有2頭患病牛的概率為22.17%。c.概率的基本性質任何事件 0≤P(A)≤1必然事件 P(U)=1不可能事件 P(V)=0隨機事件 0<P(A)<1d.概率的計算事件的相互關系和事件:二者之一發生,A∪B(A+B)積事件:二者同時發生,A∩B(AB)互斥事件:二者不能同時發生,A∩B=V(多個事件)對立事件:其一發生但不同時發生,A∪B=U,A∩B=V,B=完全事件系:多個事件兩兩互斥,其一必發生,

P(A1+A2+…+An)=1獨立事件:A發生與否與B無關(多個事件)e.概率的計算法則加法定理兩個事件的和事件的概率:如果A和B是互斥:條件概率

已知事件A發生條件下事件B發生的概率,叫做條件概率。記作P(B|A),讀作“在A條件下B的概率”?!纠磕称废等錾蠡畹?2歲的概率為0.70,活到15歲的概率為0.49,求現年為12歲的該品系犬活到15歲的概率。設A表示“某品系犬活到12歲”,B表示“某品系犬活到15歲”,則P(A)=0.70,P(B)=0.49。由于AB=B,故P(AB)=P(B)=0.49,故

即,現年為12歲的這種狗活到15歲的概率為0.70。乘法定理若事件A和事件B是同一個樣本空間的兩個事件

P(AB)=P(A)P(B

A)若事件A與事件B相互獨立,則

P(B

A)=P(B),

P(AB)=P(A)P(B)若有A1,A2,···An個事件,則: P(A1A2···An)=P(A1)P(A2

A1)P(A3

A1A2)···P(An

A1A2···An-1)若A1,A2,···An相互獨立,則: P(A1A2···An)=P(A1)P(A2)P(A3)···P(An)

【例】一批零件共有100個,其中10個不合格。從中一個一個不返回取出,求第三次才取出不合格品的概率。

記Ai=“第i次取出的是不合格品”,Bi=“第i次取出的是合格品”,則B1B2A3表示第三次才取出不合格品。

即,第三次才取出不合格品的概率為0.083。f.概率分布隨機變量:表示隨機試驗的不同結果的變量概率分布:隨機變量的每一個取值對應一定的概率,其一切可能取值的概率的分布概率分布用函數表示離散型變量和連續型變量的概率分布不同 a)離散型變量的概率分布

離散型變量x的所有一切可能值xi(i=1,2,3…)與相應的概率pi對應排列起來,稱為離散型隨機變量x的概率分布或分布律。 P(x=xi)=pi pi≥0,Σpi=1

變量(x) x1

x2

x3 … xk

概率(P) p1

p2

p3 … pk離散型變量的概率分布用函數表示,稱為概率函數二項分布的概率函數:離散型變量x的取值小于等于某一可能值x0的概率稱為累積分布函數,或分布函數F(x0)。單調不減性:若x1<x2,則F(x1)

F(x2);歸一性: b.連續型變量的概率分布

連續型隨機變量的概率分布因取值數不可數而不能用分布律來表示樣本容量n足夠大時,頻率分布趨于穩定,近似地看成總體概率分布n無限大時頻率轉化為概率頻率密度轉化為概率密度頻率分布轉化為概率分布曲線為總體概率密度曲線函數f(x)稱為概率密度函數連續型隨機變量的概率分布由概率密度函數確定概率密度函數f(x)在區間[a,b)取值的概率為:二、幾種常見的理論分布二項分布泊松分布正態分布正態分布離散型變量連續型變量二項分布泊松分布變量1.正態分布高斯分布(Gaussdistribution)多數變量圍繞在平均值左右中間多,兩頭少,兩側對稱多數計量資料近似服從正態分布試驗誤差的分布一般服從正態分布 1)正態分布的特征 a.x=μ時f(x)值最大,密度曲線以μ為中心分布 b.x-μ絕對值相等時f(x)

相等,密度曲線以μ為中心兩側對稱 c.f(x)是非負函數,以x軸為漸近線 d.正態分布曲線由參數μ,σ決定,μ確定正態分布曲線在x軸上的中心位置,σ確定正態分布的變異度 e.正態分布曲線在x=μ±σ處各有一個拐點,曲線通過拐點時改變彎曲度 f.分布曲線與x軸圍成的全部面積為12)正態分布函數概率密度函數,N(μ,σ2)累積分布函數3)正態分布的區間概率

若一個連續型隨機變量x取值于區間[a,b),其總概率為4)標準正態分布正態分布的參數為μ,σ2,曲線的位置及形態隨μ,σ2而不同N(0,1)稱為標準正態分布(u分布)如果令,則N(μ,σ2)

變為N(

0,1)

(u分布)概率密度函數為:累積分布函數區間的概率5)正態分布表

為了計算方便,對于不同的u值,計算出不同的Φ(x),編成的函數表

可以查到u任意一個區間內取值的概率

附錄APage268 6)正態分布的概率計算正態分布的概率計算

一般正態分布的概率,需將區間的上下限作適當變換(標準化),才可用正態分布表的方法求其概率

服從正態分布N(μ,σ2)的隨機變量,x的取值落在區間[x1,x2)的概率P(x1≤x<x2),等于服從標準正態分布的隨機變量u在[(x1-μ)/σ,(x2-μ)/σ)內取值的概率。a

b-aP(|x|≤μ+σ)=P(|u|≤1)=0.6826P(|x|≤μ+2σ)=P(|u|≤2)=0.9545P(|x|≤μ+3σ)=P(|u|≤3)=0.9973P(|x|≤μ+1.960σ)=P(|u|≤1.960)=0.95P(|x|≤μ+2.576σ)=P(|u|≤2.576)=0.99P(|x|≥μ+1.960σ)=P(|u|≥1.960)=0.05P(|x|≥μ+2.576σ)=P(|u|≥2.576)=0.01P(x≥μ+1.645σ)=P(u≥1.645)=0.057)正態分布的應用參數估計總體平均數μ和標準差σ未知,可以用樣本平均數

和標準差s

來估計μ和σ

質量控制正態分布的變量在μ±2σ

及μ±3σ的概率為95.45%和99.73%,試驗中誤差控制以x±2s為警戒線,以x±3s為控制線正態分布是很多統計方法的基礎二項分布、泊松分布在極限均為正態分布,可按正態分布處理t檢驗、方差分析、相關回歸分析等均要求指標服從正態分布非正態分布資料可作變量轉換,使其成近似正態分布,然后按正態分布作統計處理2.二項分布事件A發生x次的概率等于展開式中含px的項P(x)為隨機變量x服從參數n和p的二項分布,記為X~B(n,p)二項分布的條件重復性:試驗條件不變時,事件A出現的概率恒定為p獨立性:一次試驗中事件A出現與否與其他試驗無關概率函數

理論次數累積分布函數例題1:豌豆紅花、白花純合基因型雜交,F2分離比3:1,隨機觀察4株,求得紅花0、1、2、3、4株的概率。紅花株數F(x)01×0.750×0.254=0.00390.003914×0.751×0.253=0.04690.050826×0.752×0.252=0.21090.261734×0.753×0.251=0.42190.683641×0.754×0.250=0.31641.0000總和1.0000例題2:種雞蛋的孵化率為90%,隨機抽取5只,求孵化出小雞數的各種可能概率。孵化出小雞數F(x)01×0.900×0.105=0.000010.0000115×0.901×0.104=0.000450.00046210×0.902×0.103=0.008100.00856310×0.903×0.102=0.072900.0814645×0.904×0.101=0.328050.4095151×0.905×0.100=0.590491.0000例題3:小麥田間變異概率為0.0045,求①100株出現2株及以上變異的概率;②有0.99概率獲得1株以上變異需調查的株數。①P(x≥2)=1-P(0)-P(1)=0.0751②欲求P(x≥1)=0.99,即求P(0)=0.01也即于是0.9955n=0.01→n=1021(株)二項分布的形狀和參數形狀B(n,p)的形狀由n和p兩個參數決定p(q)值較小且n不大時分布是偏倚的隨n的增大,分布趨于對稱p值趨于0.5時分布趨于對稱np≥5時,二項分布接近正態分布二項分布平均數(次數)標準差(次數)二項成數平均數(成數)標準差(成數)3.泊松分布離散型隨機變量的分布,二項分布的一種特殊類型用來描述和分析隨機發生的稀有事件的概率分布概率函數,

λ=np,x=0,1,2,…

可由二項分布概率函數導出參數:μ=np=λ,二項分布當p<0.1或np<5時,可用泊松分布來近似描述形狀P(λ)的形狀由λ確定λ較小時,泊松分布偏倚λ

增大時,泊松分布趨于對稱λ

無限增大時,泊松分布接近正態分布例題:小麥田間變異概率為0.0045,求①100株出現2株及以上變異的概率;②有0.99概率獲得1株以上變異需調查的株數。①λ=np=100×0.045=0.45

P(x≥2)=1-

P(0)-P(1)=0.0755

(0.0751)②欲求P(x≥1)=0.99,即求P(0)=0.01

也即n=1023(1021)(株)三、抽樣分布1.抽樣試驗與無偏估計

根據樣本對總體做出估計和推斷,并不是直接用樣本本身,而是用樣本的統計量來對總體做出估計和判斷

由于從總體中抽取的樣本提供的信息僅是總體的一部分,因此它不能提供完全準確的信息,必然存在著一定的誤差

對于樣本容量相同的多次隨機抽樣,得到的觀察值也是不同的,且其取值有一定的概率

統計數也是隨機變量,也有它的分布,稱為抽樣分布

對無限總體抽取一部分樣本進行研究,或對(小的)有限總體進行放回式抽樣,確保每個體被抽到的機會相等 1)抽樣試驗 N=3,具有變量3、4、5的總體

參數:μ=4.0,σ2=0.6667,σ=0.8165

以n=2作獨立的有放回式抽樣

總共可得到Nn=32=9個樣本樣本編號樣本值xs2s13,33.00.00.000023,43.50.50.707133,54.02.01.414244,33.50.50.707154,44.00.00.000064,54.50.50.707175,34.02.01.414285,44.50.50.707195,55.00.00.0000Σ36.06.05.6568N=3,具有變量3、4、5的總體參數:μ=4.0,

σ2=0.6667,σ=0.8165以n=2作獨立的有放回式抽樣總共可得到Nn=32=9個樣本抽樣分布:2)無偏估計

如果所有可能樣本統計數的平均數等于總體的相應參數,則稱該統計數為總體相應參數的無偏估計值

樣本平均數是總體平均數的無偏估計值

樣本方差是總體方差的無偏估計值樣本標準差不是總體標準差的無偏估計值2.大數定律與中心極限定理大數定律概率論中用來闡述大量隨機現象平均結果穩定性的一系列定律的總稱伯努利大數定律和辛欽大數定律樣本容量越大,樣本統計數與總體參數之差越小中心極限定理大量隨機變量累積分布函數逐步收斂到正態分布樣本容量越大,樣本數據的分布越接近正態分布1)大數定律 a.伯努利大數定律(頻率轉化為概率)

試驗次數n無限大時,設m是n次獨立試驗中事件A出現的次數,而p是事件A在每次試驗中出現的概率,則對于任意小的正數ε,有如下關系:b.辛欽大數定律(樣本平均數轉化為總體平均數)

試驗次數n無限大時,對來自同一總體的變量x,對于任意小的正數ε,有如下關系:2)中心極限定理

設X1,X2,…,Xk是相互獨立的隨機變量,且各具有平均數

和方差,如果,那么,隨機變量的和的分布趨于正態分布只要n足夠大,均可認為樣本平均數

服從正態分布3.樣本平均數的分布

從總體中抽出的樣本為所有可能樣本,且每個樣本中的變量均為隨機變量,所以樣本平均數為隨機變量,形成一定的理論分布,稱為樣本平均數的分布總體方差已知的樣本,樣本平均數服從u分布總體方差未知的樣本,樣本平均數服從t分布總體方差未知的大樣本,樣本平均數近似服從u分布總體方差已知的樣本,樣本平均數的差數服從u分布總體方差未知的樣本,樣本平均數的差數服從t分布總體方差未知的大樣本,樣本平均數的差數近似服從u分布1)總體方差已知的樣本平均數的分布

從正態分布總體N(

,

2)中進行抽樣,樣本平均數服從正態分布N(

,

2/n)

,且:根據中心極限定理,平均數和方差分別為μ、σ2的非正態總體,樣本平均數也服從N(μ,σ2/n)分布標準化統計量:總體方差未知的大樣本,近似地,用s估計σ:樣本標準誤和樣本標準差

樣本標準差s:反映樣本各觀測值間變異程度,說明樣本平均數對樣本的代表性

樣本標準誤

:反映抽樣的樣本平均數間的變異程度,表示樣本平均數的抽樣誤差,說明樣本間變異程度的大小及樣本平均數精確性的高低

大樣本:

,描述性誤差

小樣本:

,推斷性誤差 2)總體方差未知的樣本平均數的分布總體方差未知時,樣本平均數服從t分布,自由度df=n-1概率密度函數:標準化統計量: a.t分布的特征

分布曲線是左右對稱的,圍繞平均數μt

=0向兩側遞降 t分布受自由度df=n-1的制約,每個自由度都有一條t分布曲線

和正態分布相比,t分布頂端偏低,尾部偏高 df≥30時,接近正態分布曲線,df→∞時和正態分布曲線重合 t分布曲線與橫軸所圍成的面積為1

同標準正態分布曲線一樣,統計應用中最為關心的是t分布曲線下的面積(即概率P)與橫軸t值間關系

不同自由度df下的t值表-2.776

2.776在自由度df相同時,t值越大,概率P越小在t值相同時,雙尾概率P為單尾概率P的兩倍df增大時,t分布接近正態分布(t值接近u)b.不同自由度的t分布概率df=10P(|t|≥2.228)=0.05P(t≥1.812)=0.05P(t≤-1.812)=0.05df=4P(|t|≥2.776)=0.05

t0.05/2(4)=2.776P(|t|≥4.604)=0.01

t0.01/2(4)=4.604t落于[-

t0.05,+t0.05]內的概率為0.95t落于[-

t0.01,+t0.01]內的概率為0.99c.樣本平均數差數的分布

從平均數為μ1、μ2,標準差為σ1、σ2的兩個正態總體中,分別獨立隨機地抽取容量為n1和n2的樣本,則兩個樣本平均數差的分布服從正態分布

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論