概率論與數理統計基礎_第1頁
概率論與數理統計基礎_第2頁
概率論與數理統計基礎_第3頁
概率論與數理統計基礎_第4頁
概率論與數理統計基礎_第5頁
已閱讀5頁,還剩39頁未讀, 繼續免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

本文格式為Word版,下載可任意編輯——概率論與數理統計基礎

.

第1章概率論與數理統計基礎

1.1概率論基礎

一、隨機事件與概率

1.隨機事件--簡稱事件

自然界中的事件可分為必然事件、不可能事件和隨機事件三種:○1必然事件(U):指在一定條件下必然發生的事件,如“1atm下水加熱至100℃時沸騰〞是必然事件。

○2不可能事件(V):指在一定條件下不發生的事件,如“1atm下水加熱至50℃時沸騰〞是不可能事件。

○3隨機事件(A、B……):指一定條件下,可能發生,也可能不發生的事件。

2.概率與頻率

對每一次試驗而言,隨機事件是否發生是帶有偶然性的。但在大量重復試驗下,并把這些試驗結果綜合在一起,就可以看出支配這些偶然性的某種必然規律性來。實踐證明,隨機事件發生的可能性大小是它本身所固有的屬性,不隨人們的主觀意愿而轉移,并且這種屬性可以通過大量試驗來認識。

為便于研究,我們將隨機事件A發生的可能性的大小用一個數值p來表示,并把這個數值p叫做事件A的概率。記作:

P(A)=p

為了確定事件A的概率p,首先必需說明頻率的概念。

設A為某試驗可能出現的隨機事件,在同樣條件下,該試驗重復做n次,事件A出現了m次(0≤m≤n),則稱m為A在這n次試驗中出現的頻數,稱m/n為A在這n次試驗中出現的頻率。(見書上表1-1)

頻率m/n本身不是常數,它與試驗次數n有關,隨著試驗次數Word文檔

.

Word文檔n的增加,頻率總是在某一常數附近搖擺,而且n愈大,頻率與這個常數的偏差往往愈小,這種性質叫做頻率的穩定性。這個常數是客觀存在的,與所做的若干次具體試驗無關,它反映了事件本身所蘊含的規律性,反映了事件出現的可能性大小。

因此,這個常數(p)就是事件A的概率。即事件A的概率就是事件A發生的頻率的穩定值(p)。

P(A)=p

拋擲硬幣試驗

試驗者

投擲次數nmm/n蒲豐

404020480.5069皮爾遜

1200060190.5016皮爾遜

24000120230.5005維尼30000149940.4998

3.概率的基本性質

10≤P(A)≤1即任事件的概率都介于0和1之間○

2P(U)=1即必然事件的概率為1○

3P(V)=0即不可能事件的概率為0

二、隨機變量及其概率分布

1.隨機變量的概念

有些隨機事件有數量標識,如射擊時命中的環數,擲一枚骰子所出現的點數等等。但也有些隨機事件無數量標識,如擲一枚硬幣時,試驗結果為“正面朝上〞或“反面朝上〞,而不是數量。這會使我們感到不太便,能否用量來代替事?這就促使我們引入隨機變量的概念。事實上,好多事都和量有關。例如,擲硬幣時“正面朝上〞或“反面朝上〞這兩件事,我們可以分別記為“0〞或“1〞。經這樣規定后,隨機事件就

.

Word文檔可以用一個數來表示了。

試驗結果能用一個數ξ(希臘字母,讀“克西〞)來表示,這個數ξ隨試驗結果不同而變化,我們稱ξ為隨機變量。

隨機變量與一般實變量不同,它是隨機的,即它的取值有一定的概率。擲硬幣試驗時,隨機變量ξ的取值為0或1。

隨機變量分為離散型和非離散型兩類。離散型隨機變量取值為有限個或無限可列個。非離散型隨機變量的取值不能一一列舉出來,狀況比較繁雜,其中最重要的,在實際中最常見的是連續型隨機變量。

2.隨機變量的概率分布

(1)離散型隨機變量

把握離散型隨機變量的變化規律,除了要了解它的取值以外,更重要的是還要了解它取各可能值的概率是多少。

例如,要檢驗一批產品的質量,從中任意抽取5件,僅僅知道次品數ξ的可能取值(0,1,2,3,4,5)還不夠,還應當知道“次品數為0〞的概率有多大,“次品數為1〞的概率有多大,……,“次品數為5〞的概率有多大,只有這樣才能對產品中的次品狀況有一個較全面的了解。

設離散型隨機變量ξ的所有可能取值為x0,x1,……,xk,……,ξ取各個可能值的概率為

P(ξ=xk)=p(xk)(k=0,1,2……)(1-1)

則稱式(1-1)為離散型隨機變量ξ的概率分布或分布律(也稱概率函數),若將其用表格形式表示,則為

ξ

x0x1……xk……p

p(x0)p(x1)……p(xk)……

若用圖形表示,則如課本上的圖1-1所示。

.

Word文檔

由概率的基本性質可知,概率分布具有以下性質:

(i)0≤p(xk)≤1(k=0,1,2……)

(ii)∑∞

=0)(kkxp=1

這兩條性質可以作為檢驗一表能否成為一個離散型隨機變量的分布律的條件。

(2)連續型隨機變量的分布密度

離散型隨機變量的概率分布的變化規律可以用分布律來描述,但是這種法不適用于連續型隨機變量,由于后者的取值無法一一列舉出來,因此不能用分布律的形式來描述。對這類隨機變量的概率分布規律的描述尋常是以研究“隨機變量在某個區間上取值的概率〞來實現的。為此,我們引入概率分布密度函數的概念。

定義:若隨機變量ξ的分布函數F(x)恰好是某個非負函數p(x)在(-∞,x)上的積分,即

F(x)=dxxpx

?∞

-)(

則稱ξ為連續型隨機變量,稱p(x)為ξ的概率分布密度函數(簡稱為分布密度或密度函數)。稱ξ的分布為連續型分布。

分布密度函數p(x)具有以下性質:

(i)p(x)≥0

(ii)

1)(=?+∞

∞-dxxp

這兩條性質可以作為判斷一個函數是否可以作為一個連續型隨

.

Word文檔機變量的分布密度的條件。

(iii)P(aξ≤b)==?dxxpb

a

)(F(b)-F(a)

顯然,一旦知道了分布密度p(x),即可求出ξ在任實數區間(a,

b]上取值的概率,即(aξ≤b)這件事的概率等于分布密度函數p(x)從a到b的積分。注意,對連續型隨機變量,任一點的概率均為零,由于p(x)在任一點上的積分為零。因此,概率為零的事件

未必不發生,而概率為1的事件未必發生!

(iv)在p(x)的連續點處,有F′(x)=p(x)。

概率分布密度函數p(x)的圖形如圖1-2所示。

3.隨機變量的分布函數

若ξ是一個隨機變量,x是任意實數,函數

F(x)=P(ξ≤x)

稱為隨機變量ξ的概率分布函數,簡稱分布函數。

對離散型隨機變量ξ,分布函數為

F(x)=P(ξ≤x)=∑≤x

xkxPk)(,(k=0,1,2,……;-∞x+∞)

如圖1-3所示。

.

Word文檔

對連續型隨機變量ξ,p(x)為其分布密度,則分布函數為

F(x)=P(ξ≤x)=

dx

xpx

?∞-)((-∞x+∞)

如圖1-4所示。

連續型隨機變量的分布函數的幾意義是,分布函數等于位于x左的分布密度曲線下的面積。

根據定義,隨機變量的分布函數F(x)具有以下性質:

(i)F(x)是一個非減函數,即若x1x2,則必有F(x1)F(x2)(ii)0≤F(x)≤1

(iii)F(-∞)=)(limxFx-∞→=0,F(+∞)=)(limxFx+∞

→=1(iv)對任意實數a和b(ab),有

P(aξ≤b)=P(ξ≤b)-P(ξ≤a)=F(b)–F(a)

.

Word文檔三、正態分布(Gauss高斯分布)

1.正態分布的定義

隨機變量的分布形式有多種,但最重要,最常用的是所謂的正態分布。自然界中多隨機變量的分布均聽從正態分布。此外,還有多隨機變量近似聽從正態分布。正態分布的數學表達式首先由高斯(Gauss)給出,所以也叫高斯分布。

設隨機變量ξ的分布密度函數為

p(x

22()2xμσ--(-∞x+∞)

其中μ和σ都是常數,且σ0,則稱ξ聽從參數為μ和σ2的正態分布,記作N(μ,σ2)。為便起見,常把隨機變量ξ聽從參數為μ和σ2的正態分布簡記為ξ~N(μ,σ2)。

正態分布的分布函數為

F(x

22

()2txedtμσ∞?(-∞x+∞)

特別的,當μ=0和σ=1時稱ξ聽從標準正態分布,記作ξ~N(0,1)。此時,其分布密度函數用?(x)表示,即

?(x)=22

21

xe-π(-∞x+∞)

相應地,分布函數用Φ(x)表示,即

Φ(x)=dtetx2221

-∞-?π(-∞x+∞)

正態分布是一種十分重要的分布,在實際上也是最常見的一種分布,如產品的質量指標、人的身高、體重及測量的誤差等一般認為是聽從正態分布的。

(面相、手相、算命等傳統民間文化,實質上就是把人的一生的命運按概率分布函數進行計算和推測!可是,這些分布密度函數經驗公式的適用條件是什么???)

2.正態分布密度函數的特點

.

Word文檔

(i)

p(x)≥0;(ii)1)(=?+∞

∞-dttp;

(iii)p(x)的圖形對稱于x=μ;

(iv)當x∞→時p(x)0→;

(v)在x=μ處,p(x)有極大值πσ21。μ和σ是正態分布的兩個重要參數,決定著正態分布密度曲線的位置和形狀。μ決定位置,σ決定形狀。

3.正態分布的概率計算

.

Word文檔標準正態分布函數Φ(x)=dtetx22

21

-∞-?π在實際工作中廣泛應用,

但它難以直接進行積分運算,尋常是查表,參見書后的附表1。

若ξ~N(0,1),對任意ab,有

P(aξ≤b)=dtetba2221

-?π=Φ(b)-Φ(a)

Φ(b)和Φ(a)可從附表1中查得。

若ξ~N(μ,σ2),對任意αβ,有

P(αξ≤β)=(

)()βμαμσσ--Φ-Φ

四、隨機變量的數字特征(數學期望、差)

我們知道,隨機變量的分布函數(或分布密度、分布律)能很好地描述隨機變量的統計特征,但對于一個實際的問題要找出一個隨機變量的分布函數(或分布密度、分布律)不是一件很簡單的事;另外,在實際上有時也并不要求出隨機變量的分布函數,而只要知道隨機變量的某些特征就可以了。它能部分地描述分布函數的特征。反映隨機變量的分布情形的某些特征數字,我們稱為隨機變量的數字特征。最常用且最重要的兩種數字特征是數學期望和差。

1.數學期望(均值)

(1)數學期望的概念

例:設對某食品的水分進行了n次測量,其中有m1次測得結果為x1,有m2次測得結果為x2,……,有mk次測得結果為xk,則測定結果的平均值為

(1n=ξx1m1+x2m2+……+xkmk)=nmxikii∑=1

其中n=m1+m2+……+mk=∑=kiim1,mi為xi出現的頻數,

n

mi為xi出現的頻率。

因此,所求平均值為得到的諸量值以其出現的頻率為權的加權平

.

Word文檔均。由于頻率具有偶然性,所以我們用頻率的穩定值——概率代替頻率,就消除了偶然性,從本質上反映了隨機變量的平均值。習慣上,我們把這個平均值稱為隨機變量ξ的數學期望或均值。數學期望的意思是通過大量觀測,可以期望這個隨機變量取這個值。下面分別探討離散型和連續型兩種隨機變量的數學期望的定義及其性質。

(2)離散型隨機變量的數學期望

定義:設ξ為離散型隨機變量,其分布率為

假使級數iiipx∑=1絕對收斂,則稱級數iiipx∑=1

為隨機變量ξ的數學期望

(或均值)并記作E(ξ),即

E(ξ)=iiip

x∑∞

=1

顯然,對于分布已經確定的隨機變量來說,隨機變量的數學期望是一個常數。假使級數iiipx∑∞

=1發散,則稱ξ的期望不存在。

數學期望是算術平均值概念的拓廣,說得明確些,就是概率意義下的平均,因而也稱數學期望為均值。

(3)連續型隨機變量的數學期望

定義:設連續型隨機變量ξ的分布密度為p(x),若廣義積分?+∞

∞-dxxxp)(絕對收斂,則

E(ξ)=?+∞

-dxxxp)(

稱為連續型隨機變量ξ的數學期望。

例:設ξ~N(μ,2σ),求E(ξ)

解:E(ξ)=?+∞∞-dxxxp)(=22()2xdxμσ-+∞--∞?=μ

∴正態分布N(μ,2σ)中的參數μ就是ξ的數學期望。

.

Word文檔(4)數學期望的性質

(i)若C為常數,則E(C)=C

(ii)若ξ為一隨機變量,C為常數,則

E(Cξ)=CE(ξ),E(C+ξ)=E(ξ)+C

(iii)若ξ1和ξ2為兩個同類隨機變量(同為離散型或連續型隨機變

量)則

E(ξ1+ξ2)=E(ξ1)+E(ξ2)

(iv)若ξ和η為相互獨立的隨機變量,則

E(ξ?η)=E(ξ)?E(η)

2.差

(1)差的概念

隨機變量ξ的數學期望E(ξ)反映了隨機變量取值的平均水平,但在多實際中,只知道ξ的數學期望是不夠的,還要知道ξ的取值偏離期望的程度。為此,引進差的概念。

定義:設ξ為一隨機變量,假使其數學期望E(ξ)存在,則稱[ξ-E(ξ)]為隨機變量的ξ的離差。離差的平的數學期望稱為隨機變量ξ的差,記作

D(ξ),即

D(ξ)=E{[ξ-

E(ξ)]2}

顯然,對任意隨機變量有D(ξ)≥0。[ξ-E(ξ)]2是隨機變量ξ的函數,是一個新的隨機變量,它的期望表示這個新的隨機變量取值的平均狀況。D(ξ)大,則ξ與E(ξ)的偏差也大,離散程度越大。故D(ξ)定義域很好地反映了差是描述隨機變量ξ與E(ξ)的偏離狀況,也便于數學上的分析。差的算術平根)D(ξ稱為ξ的標準差或均差,記作σ(ξ)=)D(ξ.與數學期望一樣,對有確定分布的隨機變量來說,差也是一個常量。

(2)離散型隨機變量的差

設離散型隨機變量ξ的分布律為

.

Word文檔則D(ξ)=E{[ξ-E(ξ)]2

}=∑∞=1

k[xk-E(ξ)]2p(xk)(3)連續型隨機變量的差

若ξ為連續型隨機變量,p(x)為分布密度,則

D(ξ)=E{[ξ-

E(ξ)]2}=?+∞

∞-[x-E(ξ)]2p(x)dx

差D(ξ)表示ξ取值對E(ξ)的偏離程度,即ξ取值的發散程度,D(ξ)越大,表示ξ取值更加散,反之,表示ξ取值越集中在E(ξ)的附近。

例:設ξ~N(μ,2σ),求D(ξ).

解:∵E(ξ)=μ

∴D(ξ)=E{[ξ-E(ξ)]2}

=?+∞

-[x-E(ξ)]2p(x)dx

=22()2

2()xxdxμσμ-+∞--∞-?

=2σ

即D(ξ)=2σ

(4)差的性質

(i)C=常數,D(C)=0

(ii)D(Cξ)=C2D(ξ)

D(C+ξ)=D(ξ)

(iii)ξ和η相互獨立D(η+ξ)=D(η)+D(ξ)

(iv)D(ξ)=E(ξ2)-[E(ξ)]2

.

1.2統計量及其分布

一.基本概念

1、總體與樣本

(1)總體與個體

在數理統計學中,我們把研究對象的全體稱為總體,把構成總體的每一個個別對象稱為個體。我們可以把一個總體看作某一隨機變量ξ全部取值的集合。

假使一個總體ξ聽從正態分布,即ξ~N(μ,2),則稱ξ為正態總體。

(2)樣本與樣本容量

從總體中抽取一部分個體叫做總體的一個樣本,樣本中個體的數目叫做樣本容量。

從總體中隨機地抽取n個個體(ξ1、ξ2……ξn),則(ξ1、ξ2……ξn)為總體的一個樣本。樣本中個體數目n為樣本容量。由于(ξ1、ξ2……ξn)是從總體中隨機抽取的,所以ξ1、ξ2……ξn分別為n個隨機變量。在一次實際抽取之后,樣本(ξ1、ξ2……ξn)得到一組具體的數值(x1、x2……xn),稱為樣本(ξ1、ξ2……ξn)值,即樣本(ξ1、ξ2……ξn)的一個觀測值。

(3)簡單隨機樣本

樣本尋常只占總體的很小部分,因此,可以認為每次抽取一個個體之后,總體的分布并不會發生改變。這說明,樣本(ξ1、ξ2……ξn)都是與總體ξ同分布的;其次,假使樣本的抽取是隨機進行的,并不摻雜人的主觀傾向造成的偏差,那么每個個體被抽到的機遇都是均等的(即ξ1、ξ2……ξn相互獨立)。符合上述2個條件的抽樣法稱為簡單隨機抽樣,所獲得的樣本成為簡單隨機樣本。顯然簡單隨機樣本具有2特性質:

○1代表性;○2獨立性

2、統計量

當我們得到了總體ξ的一個樣本(ξ1、ξ2……ξn)時,為了推Word文檔

.

Word文檔得總體的一些性質,往往需要對所取得樣本做一些運算,即構成樣本的某種函數,這種函數稱為統計量。由于樣本是隨機變量,所以作為樣本的函數的統計量也是一個隨機變量。

在數理統計中,常用的統計量是樣本均值、樣本差和極差,它們都是樣本的數字特征。

若(ξ1、ξ2……ξn)為總體ξ的一個樣本,假使樣本的函數f(ξ1、ξ2……ξn)不包含其它未知參數,則稱f(ξ1、ξ2……ξn)為總體的一個統計量。又若(x1,x2,……xn)為樣本(ξ1、ξ2……ξn)的一組觀測值,則函數值

f(x1、x2……xn)為統計量f(ξ1、ξ2……ξn)的一個觀測值。

設從總體中隨機抽取一個容量為n的樣本,樣本值為x1、x2……xn,則稱

∑==n

iixnx1

1為樣本均值,稱

∑=--=n

iixxnS122

)(11為樣本差(S稱為樣本均差或樣本標準差),稱

R=max(x1、x2……xn)-min(x1、x2……xn)

為樣本極差。

樣本均值是描述數據的平均狀態或集中位置的,樣本差是描述數據的波動狀況或離散程度的,極差則是表示數據離散程度的最簡單法。

二.統計量的分布

1.樣本均值(ξ)的分布

設(ξ1、ξ2……ξn)為來自正態總體ξ~N(μ,2σ)的一個樣本,樣本均值為∑==niin1

1ξξ,則可證明ξ~N(μ,2σ/n)

.

Word文檔2Un

ξσ-≡~N(0,1)

這說明樣本均值ξ的取值比總體ξ的取值更緊湊地集中在總體均值μ的圍,集中的程度與樣本容量n的大小有關。2.2χ分布

若(ξ1、ξ2……ξn)為來自正態總體ξ~N(μ,2σ)的一個容量為n的樣本,又若2σ為已知,可以證明,由樣本差S2構造的統計量

(n-1)S2/2σ

是自由度為n-1的2χ變量,即(n-1)S2/2σ聽從自由度為n-1的2χ分布,記作

2χ=(n-1)S2

/2σ~2χ(n-1)

其中∑=--=n

iinS122)(11ξξ隨機變量的分布密度

???????≥-Γ=)0(0)0()21(21)(2121211xxexnxpxnnn

3.t分布

.

Word文檔設(ξ1、ξ2……ξn)為來自正態總體ξ~N(μ,2σ)的樣本,可以證明統計量

/tSnξ-≡

聽從自由度為n-1的t分布,記作

/tSnξ-≡~t(n-1)

隨機變量t的分布密度為

)()11()21()1()2()(221+∞-∞-+-Γ-Γ=--xnxnnnxpnnπ

自由度f=n-1

t變量用于對正態總體均值的估計和檢驗。

定理:設(ξ1、ξ2……ξn)為來自正態總體N(μ1,2σ)的一個樣本,(η1、η2……ηn)為來自正態總體N(μ2,2σ)的一個樣本,且這兩個樣本相互獨立,則統計量

1212(2)12

~11nnwtsnnξη+-+式中

∑==niin11ξξ∑==nin1

i1ηη

.

Word文檔

2)1()1(212222112

-+-+-=nnsnsnsw

∑=-=-=112121

)(11niinsξξ∑=-=-=212222)(11niinsηη該定理主要用于兩個正態總體的期望值有無差異的推斷,或估計它們的期望值之差的場合。

4.F分布

設(ξ1、ξ2……ξn)與(η1、η2……ηn)是分別取自兩個相互獨立的正態總體ξ~N(μ1,21σ)和η~N(μ2,22σ)的樣本,則統計量22

222121//σσss聽從第一自由度f1=n1-1,其次自由度f2=n2-1的F分布,記作

22

222121//σσssF=~F(n1-1,n2-1)其分布密度為

?????????≤+-+ΓΓ+Γ=-)0(0)0(221)1()()2()2()2()(211222

12121),(1121xxnnxnnxnnnnnnxpnnff

f1=n1-1,f2=n2-1

特別地,若2221σσ=則有

22

21ssF=~F(n1-1,n2-1)F變量用于兩個正態總體差異同的檢驗。

.

Word文檔

.

1.3參數估計

數理統計的基本任務是以樣本為依據來推斷總體的統計規律性。在實際工作中,我們會遇到兩個面的問題:

1.通過實踐或理論上的推導,大體上把握了總體ξ的分布類型,但其中的分布參數未知,因而需要根據樣本對參數進行估計;

2.有些實際問題不要求把握總體ξ的分布,只需知道總體ξ的數學期望和差等數字特征。這都需要我們去探討如根據樣本的數據對總體ξ的未知參數作出科學的估計,這就是參數估計問題。

參數估計尋常有兩種法,即點估計(以樣本的某一函數的某一函數值作為總體中未知參數的估計值)和區間估計(將總體的數字特征依照一定的概率確定在某一圍之)。

一、參數的點估計

1、問題的提出:

前面探討統計量時,提到樣本均值和樣本差的概念。那么是否可用樣本均值和樣本差去估計總體均值和總體差呢?理論上可證明:當樣本容量n無限增大時,樣本均值和總體均值之比及樣本差和總體差之比皆無限趨近于1。因此,可以用樣本均值和樣本差去估計總體均值和總體差。

點估計是在樣本上進行的,設F(x,θ)為總體ξ的分布函數,其中x為變量,θ為參數,(ξ1、ξ2、…ξn)是來自總體的一個樣本,現用樣本函數θ)(ξ1、ξ2、…ξn)去估計θ,我們稱θ)為參數θ的一個點估計量,而稱θ為待估參數。若(x1、x2、...、xn)為一個樣本值,代入估計量θ)中,就得到θ的具體數據,這個數據稱為參數θ的估計值。

由于統計量是隨機變量,對于不同的樣本值,待估參數θ的估計值θ)也不同。我們總是希望統計量能夠盡可能確鑿的表達參數的真值。為了這個目的,我們規定了一些評價估計值優劣的標準,來衡量包括點估計在的估計法的優劣。

2、估計量的評價

Word文檔

.

Word文檔(1)估計的無偏性:

估計值θ)與參數真值θ可能不同,但我們有理由要求θ)應當圍圍著待估參數θ搖擺,即應有E(θ))=θ。符合這個條件的估計量θ)稱為參數θ的無偏估計量。

例1-5證明樣本均值ξ是總體ξ數學期望E(ξ)的無偏估計量

證:E(ξ)=E(∑=n

iin11ξ)=∑=niiEn1)(1ξ=)(1ξEnn??=E(ξ)即樣本均值ξ的數學期望E(ξ)等于總體ξ的數學期望E(ξ),根據定義,所以ξ是總體ξ數學期望E(ξ)的無偏估計量。

例1-6證明S2=∑=--niin1)(11ξξ2是D(ξ)的無偏估計量;S*2=∑=-niin1)(1ξξ2不是D(ξ)的無偏估計量。證明過程見p26~27。

E(S2)=D(ξ),E(S*2)=n

n1-D(ξ)。所以:用S2比用S*2估計總體差更好些。

(2)估計的有效性

無偏性是估計量好壞的評價標準之一。但是一個總體參數的無偏估計量并不是唯一的,換言之,同一個總體參數可能有兩個或者兩個以上的無偏估計量。假使要比較同一參數的兩個無偏估計量的好壞,自然應當在樣本容量一致的條件下,看哪一個估計量搖擺更小,這就是有效性的概念。

設θ)1和θ)2是同一參數θ的無偏估計量,假使D(θ)1)D(θ)2),就說θ)

1比θ)

2更有效。例1-7比較正態總體均值E(ξ)的兩個估計量ξ=n1∑=nii1ξ

和1ξα=的有

效性。

解:由于D(ξ)=D(n1∑=nii1ξ)=21n∑=n

iiD1(ξ)=21nn2σ=n2σ又因D(α)=D(1ξ)=2σ

.

Word文檔所以D(ξ)D(α)。即ξ較α有效。

換言之,容量大的樣本均值作為總體均值的估計量更為有效。

二.參數的區間估計

參數的點估計是利用樣本來構造統計量,再把樣本值代入估計量求出估計值來實現的。但是由于樣本的隨機性,這樣的估計值不見得就是待估參數的真值。那么,它們的近似程度如?誤差的圍有多大?可信的程度如?這樣一些在參數估計中應確鑿說明的問題在點估計中是難以回復的。因此,我們希望能夠根據樣本給出待估參數的一個圍,使它能夠以較大的概率包含待估參數的真值,這就是對未知參數的區間估計。

區間估計是要根據樣本來確定一個區間(θ)1,θ)

2),使參數θ落在這個區間的概率等于一個給定的數1-α,即P(θ)1θθ)2)=1-α。其中(θ)1,θ)2)稱為θ的置信區間,1-α稱為此區間的置信水平或置信度,α稱為信度。α是事先給定的小于1的正數(尋常取0.05或0.01),是對參數的估計失準的概率。

下面對正態總體ξ的數學期望和差作區間估計。

1、正態總體數學期望(均值μ)的區間估計

(1)已知2σ,求μ的置信區間

設總體ξ~N(μ,2σ),且2σ已知,(ξ1、ξ2、…ξn)是來自正態總體的一個樣本,則由式(1-3)和(1-4)可知:

ξ~N(μ,n2

σ),u

ξ~N(0,1)根據正態分布的性質,對給定的信度α,查標準正態分布的上側分位數Uα表,可得2

αu,使得:P(|u|2

αu)=1-α,

.

Word文檔即P(

2

αu)=1-αP(2αξu-nσμ2

αξu+nσ)=1-α所以μ的置信區間為(2α

ξu-nσ,2αξu+nσ).討論:

1)當樣本容量n越大時,2αun

σ越小,計算到的置信區間越小,估計效果越好。因此,為提高區間估計精度,可以增大樣本容量。

2)用上述法進行區間估計,先決條件是總體必需聽從正態分布,而且2σ為已知。假使不是正態分布,但樣本容量n充分大時,ξ近似聽從正態分布

ξ~N(μ,2σ/n),u

ξ近似聽從N(0,1),故對于大樣(n≥30),不管總體是否正態,都可以對總體均值μ進行區間估計。

(2)未知2σ,求μ的置信區間

在實際問題中,往往只知道總體聽從正態分布,而數學期望μ和差2σ均為未知,在這種狀況下求期望的置信區間,可用樣本差S2代替總體差2σ,用S2所構造的t變量代替u變量來進行。

設樣本(ξ1,ξ2…ξn)來自正態總體N(μ,2σ),則可知t

=ξ~)1(-nt對于給定的信度α,自由度f=n-1,查t分布表可得臨界值2

αt,

使得P(|t|f

t,2α)=1-α,即

P

ft,2α)=1-αP(nStf,2α

ξ-μnStf,2

αξ+)=1-α

.

Word文檔于是得到μ的置信區間為:(nStf,2α

ξ-,nStf,2

αξ+).2.差的區間估計

在實際問題中考慮精度的穩定性時,需要對差進行區間估計,即要根據樣本找出正態總體差D(ξ)=2σ的置信區間。

設樣本(ξ1、ξ2、…ξn)來自正態總體N(μ,2σ),則

2χ=22

)1(σ

Sn-~2)1(-nχ其中2S=21

)(11ξξ--∑=n

iin對于給定的信度α,由自由度f=n-1,查2χ分布表,可得出對應的兩側臨界值2,2fαχ和2

,2

1fαχ-,使得:

P(2

,2

1fαχ-2χ2,2fαχ)=1-α即P(2,21fαχ

-22)1σSn-(2,2fαχ)=1-αP(2,2

2

)1(fSnα

χ-2σ2,212)1(fSnαχ--)=1-α∴2σ置信區間為(

2,22)1(fSnαχ-,2,2

12)1(fSnαχ--)

.

1.4統計假設檢驗

一、假設檢驗的基本概念

1、問題的提出

前面我們介紹了對總體的未知參數的估計法——點估計和區間估計.下面將介紹統計推斷中的另一類重要問題——假設檢驗.采用的法是:首先對總體ξ的未知參數的數值提出假設(假設產生于對隨機現象的實際觀測,或者產生于對隨機現象的理論分析),然后利用樣本提供的信息來檢驗所提出的假設是否合理,這種法稱為對參數的假設檢驗。對未知參數提出的假設,尋常用H0表示,稱為待檢假設。例1-10奶粉包裝機正常工作時,包裝量聽從正態分布,根據長期的經驗得知其標準差σ=15g,而額定標準為每袋500g,現隨機抽取奶粉9袋,其凈重分別為498、508、518、526、488、513、510、516、513,問:根據這9個數據,能否判定包裝機是否正常工作?

在這里,已經知道了包裝量ξ聽從正態分布,所謂工作正常是指均值μ=500。因此,本問題就歸結為判斷總體均值μ是否等于μ0=500。

我們假設包裝機正常工作,記為H0:μ=μ0=500

H0是假設的符號,于是所求的問題就轉化為根據9個樣本數據檢驗假設H0是否正確。下面探討如根據樣本提供的信息來檢驗假設H0是否成立。

2、假設檢驗的基本思想

假設檢驗的基本思想是依據“小概率事件在一次試驗中幾乎是不可能出現的〞。

設有某H0需要檢驗,我們先假設H0為正確,在此假設下,某事件A的概率很小,例如P(A)=0.05或者0.01,經過一次試驗后,假使A出現了,那么便出現了一個小概率事件。由于“小概率事件在一次試驗中幾乎是不可能出現的〞,而現在竟然出現了,這就不能不使人懷疑H0的正確性。因而自然要否定H0。反之,假使A不出現,一般就先確定或者保存H0。

Word文檔

.

Word文檔例:某一箱子中裝有100個白球和黑球,但不知道黑白球各有多少個,現提出假設H0:“其中99個白球〞,用上面的思想法檢驗H0的正確性。我們可以暫設H0正確,那么從箱子里任取一球,得黑球的概率為0.01,故抽到黑球就是一個小概率事件。假使現在竟然抽到了黑球,那么自然就要否定H0,就是說白球的個數不是99。

那么,概率小到什么程度才叫“小概率事件〞呢?這沒有一個絕對標準,要根據具體狀況而定。尋常將概率不超過0.05或0.01的事件當作小概率事件。P(A)=α,α=0.05或者0.01。α稱為顯著性水平或檢驗水平。在區間估計中,α稱為信度。

3、兩類錯誤

由于假設檢驗是由樣本推斷總體,不可能絕對確鑿,所以有可能存在以下兩類錯誤:

第一類是假設H0本來符合實際狀況,檢驗時卻把它否定了,稱為棄真錯誤。這是由于,當H0為真時,小概率事件A也有可能發生(A是小概率事件,并非不可能事件)。因此H0本來為真時,也可能在小概率事件A發生時被拒絕。反之,有可能根據一次試驗的結果把原來不真的假設H0接受下來,這就犯了其次類錯誤,稱為取偽錯誤。

顯然,出現這兩類錯誤的概率越小越好。但在實際工作的時候,要使犯這兩類錯誤的概率同時都十分小是做不到的。人們往往先控制犯第一類錯誤的概率(犯第一類錯誤的概率等于顯著性水平α),再用適當增大樣本容量n的法來減小犯其次類錯誤的概率。

二、一個正態總體的假設檢驗

下面探討一個正態總體的兩個參數(即均值和差)的假設檢驗問題。

1、已知差2σ,檢驗均值μ(即已知202σσ=,檢驗假設H:μ=μ0)例1-10已知袋裝量ξ~N(μ,2σ),且2σ=,要檢驗

H0:μ=μ0=500是否成立。

一般,在假設H0:μ=μ0=500成立的條件下,可知來自正態

.

Word文檔總體N(μ,2

σ)的樣本均值∑==niin11ξξ聽從正態分布N(μ,n2σ),

而統計量uξ=N(0,1)。當給定小概率α時,有相應的2

αu,使得:

P(u2αu)=α(在區間估計中,用到P(u2

αu)=1-α)

即{u2αu}是一個小概率事件。若α=0.05,則2

αu=025.0u=1.96,

這時{u1.96}就是小概率事件。

對于例1-10,由樣本值算出510=ξ,從而統計量u的值為

uξ==9/15500510-=2.0于是0u1.96,就是說在一次抽樣中發生了{u2αu}這樣的小概率

事件,這是不合理的,導致這種不合理發生的原因,應當認為是原假設不真,因而拒絕原假設H0,即認為μ≠μ0=500,也就是說包裝機工作不正常。

在出現拒絕原假設H0的狀況下,稱μ與μ0有顯著差異。這種顯著差異結論是以α為小概率的條件下作出的,因此,尋常稱α為顯著性水平(即信度)。α不同,2

αu也不同,從而有可能影響顯著性結論,

原來在α=0.05時顯著的,在α=0.01時未必顯著了。如上例:若取α=0.01,則2αu=005.0u=2.576,與0u=2.0比較,有u2

αu,這時接

受原假設,即認為包裝機工作正常。

概括這一檢驗過程,可以把已知差時對正態總體均值的u檢驗,歸納為以下5個步驟——u檢驗法。

U檢驗法:

(1)提出假設H0:μ=μ

0(2

)構造統計量uξ=,u聽從標準正態分布N(0,1)。

.

Word文檔

(3)對于給定的顯著性水平α,由P(u2

αu)=α,查標準正態

分布的上側分位數表,得臨界值2

αu。

(4)由測定的樣本值,計算u變量的值u0

(5)作出判斷:當0u2

αu時,拒絕原假設;當2

0αuu≤時,接受原假

設。

2、未知差2σ,檢驗均值μ(即未知差2σ,檢驗假設H0:μ=μ0)

由于差2σ未知,所以不能再用u檢驗法。此時我們用樣本差2S代替總體差2σ,因而應選中用t變量:

tξ=

~)1(-nt

對于給定的顯著性水平α以及自由度f=n-1,查t分布表可得f

t,2

α,

使得:

P(tf

t,2α)=α

即{tf

t,2α}是小概率事件。因此,當從樣本值算得t的值0t后,就

可將0t與f

t,2α相比較,以檢驗H0:μ=μ0是否成立。若0tf

t,2α,則

拒絕H0,反之則接受原假設。該檢驗法稱為t檢驗法,其步驟與u檢驗法類似。

3、未知均值μ,檢驗差(即未知均值μ,檢驗假設H0:202σσ=)設(nξξξ??21,)為來自正態總體N(μ,2σ)的一個樣本,今欲檢驗假設H0:202σσ=可求得:統計量

2

2

)1(σ

Sn-~2)1(-nχ

在假設成立時,有2

χ=

2

2

)1(σ

Sn-~2)1(-nχ

對于給定的小概率α,可由2χ分布表上查出與自由度f=n-1對應

.

Word文檔

的兩個臨界值2

,2f

αχ和2,2

1f

αχ-,使得

P(2χ2

,2f

αχ)=2α,P(2χ2,2

1f

αχ-)=2

α

即{2χ2,2

1f

αχ-或2χ2

,2f

αχ}為小概率事件。通過樣本值計算統計量

2

0χ=

2

2

)1(σ

Sn-的值。若20χ2,2

1f

αχ-或20χ2

,2f

αχ,則拒絕H0。

若2,2

1f

αχ-≤20χ≤2

,2f

αχ,則接受原假設。這種用2χ變量對假設做顯著

性檢驗的法稱為2χ檢驗法。

例1-12游離氨基酸含量ξ~N(μ,225)(聽從均值μ未知的正態分布)(p.36)

三、兩個正態總體的假設檢驗

1、未知21σ和22σ,但知道21σ=22σ,假設檢驗H0:μ1=μ

2

設總體1~(,Nξμ21σ),2~(Nημ,22σ),且兩者相互獨立。已知21σ=

22σ,(1

21,nξξξ??)和(2

21,nηηη??)分別為來自正態總體ηξ和的樣本,

ξ和η分別為其樣本均值。今欲檢驗H0:μ1=μ2,即H0:μ1-μ2=0。

可求得:

12(2)~nntξη+-

其中2

)1()1(212

2

22112-+-+-=nnSnSnSw

當H0成立時,有)2(2

121~11-++-=

nnw

tnnSTη

ξ

對于給定的小概率α以及自由度f=221-+nn,查概率分布表可得

f

t,2α,使得:

P(Tf

t

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論