第3章 概率與概率分布_第1頁
第3章 概率與概率分布_第2頁
第3章 概率與概率分布_第3頁
第3章 概率與概率分布_第4頁
第3章 概率與概率分布_第5頁
已閱讀5頁,還剩43頁未讀 繼續免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

第三章概率與概率分布

本章是推斷統計的基礎主要內容基礎概率概率的數學性質概率分布、期望值與變異數5/7/20241參數估計和假設檢驗推斷統計研究如何依據樣本資料對總體性質作出推斷,這是以概率論為基礎的。隨機原則總體樣本總體參數統計量推斷估計參數估計檢驗假設檢驗抽樣分布5/7/20242第一節基礎概率

概率論起源于17世紀,當時在人口統計、人壽保險等工作中,要整理和研究大量的隨機數據資料,這就需要一種專門研究大量隨機現象的規律性的數學。參賭者就想:如果同時擲兩顆骰子

,則點數之和為9和點數之和為10,哪種情況出現的可能性較大?

例如17世紀中葉,貴族德·梅爾發現:將一枚骰子連擲四次,出現一個6點的機會比較多,而同時將兩枚擲24次,出現一次雙6的機會卻很少。

5/7/20243

概率論的創始人是法國的帕斯卡(1623—1662)和費爾馬(1601—1665),他們在以通信的方式討論賭博的機率問題時,發表了《骰子賭博理論》一書。棣莫弗(1667—1754)發現了正態方程式。同一時期瑞士的伯努利(1654一1705)提出了二項分布理論。1814年,法國的拉普拉斯(1749—1827)發表了《概率分析論》,該書奠定了古典概率理論的基礎,并將概率理論應用于自然和社會的研究。此后,法國的泊松(1781—1840)提出了泊松分布,德國的高斯(1777—1855)提出了最小平方法。

5/7/20244隨機現象和隨機事件隨機現象具有一定條件呈現多種可能結果的特性。人們把隨機現象的結果以及這些結果的集合體稱作隨機事件。

概率是與隨機現象相聯系的一個概念。所謂隨機現象,是指事先不能精確預言其結果的現象,如即將出生的嬰兒是男還是女?一枚硬幣落地后其正面是朝上還是朝下?等等。所有這些現象都有一個共同的特點,那就是在給定的條件下,觀察所得的結果不止一個。隨機現象具有非確定性,但內中也有一定的規律性。例如,事先我們雖不能準確預言一個嬰兒出生后的性別,但大量觀察,我們會發現婦女生男生女的可能性幾乎一樣大,都是0.5,這就是概率。

5/7/20245

在統計學中,我們把類似擲一枚硬幣的行為(或對某一隨機現象進行觀察)稱之為隨機試驗。隨機試驗必須符合以下三個條件:①它可以在相同條件下重復進行;②試驗的所有結果事先已知;③每次試驗只出現這些可能結果中的一個,但不能預先斷定出現哪個結果。1.樣本點2.樣本空間

[例]擲一顆骰子,試列出它的基本事件和樣本空間。隨機試驗的每一個可能的結果,稱為基本事件(或稱樣本點)所有樣本點的全體稱作樣本空間(Samplespace),記作Ω5/7/20246

簡單事件:僅含樣本空間中一個樣本點的事件。復合事件:含樣本空間中一個樣本點以上的的事件。必然事件:從樣本空間來看,該事件事件是由其全部基本事件所組成,記作S。隨機事件不可能事件:從樣本空間來看,不含任何基本事件,記作Φ

。極端的隨機事件5/7/20247

[例

]對擲一顆骰子的試驗,我們研究如下事件:①A為“點數是3”;②B為“出現奇數點”;③C為“出現點數不超過6”;④D為“點數是7”。

[解]因為Ω={1,2,3,4,5,6},所以①A={3},為簡單事件;②B={1,3,5},為復合事件;③C={1,2,3,4,5,6},為必然事件;④D={7},為不可能事件。5/7/202482.事件之間的關系(1)事件和(Orconjunction)——事件A與事件B至少有一個事件發生所構成的事件C稱為A與B的事件和,記作

(2)事件積(As-well-asconjunction)——事件A與事件B同時發生所構成的事件C稱為A與B的事件積,記作5/7/20249

(3)事件的包含與相等——事件A發生必然導致事件B發生,則稱為B包含A記作

如果則

(4)互斥事件——事件A和事件B不能同時發生,則稱B和A是互斥事件,或互不相容事件,記作5/7/202410

(5)對立事件——事件A與事件B是互斥事件,且在一次試驗中必有其一發生,稱A與B為對立事件(逆事件),記作

(6)相互獨立事件——事件A的發生與事件B是否發生毫無關系,稱A與B為相互獨立事件,記作

5/7/202411兩之

隨間

機的

事關

件系5/7/2024123.先驗概率在統計學中,有兩種常見的確定概率的方法:古典法和頻率法。

由普拉斯1814年提出。以想象總體為對象,利用模型本身所具有的對稱性來事先求得概率,故被稱為先驗概率。條件:(1)在一樣本空間中,各樣本點出現的機會均等;(2)該樣本空間只有有限(n)個樣本點。用古典法求出的概率5/7/202413

[例]擲兩枚均勻的硬幣,①求“兩枚都朝上”的概率;②求“一枚朝上,一枚朝下”的概率。

這樣對于含有m個樣本點的事件A,其出現的概率為

用古典法求算概率,在應用上有兩個缺點:①它只適用于有限樣本點的情況;②它假設機會均等,但這些條件實際上往往不能得到滿足。

5/7/2024144.經驗概率

求算概率的另一途徑是運用頻率法。設想有一個與某試驗相聯系的事件A,把這個試驗一次又一次地做下去,每次都記錄事件A是否發生了。假如做了n次試驗,而記錄到事件A發生了m次(即成功m次),則頻數與試驗次數的比值,稱作次試驗中事件A發生的頻率

顯然,頻率具有雙重性質:隨機性和規律性.

當試驗或觀察次數趨近于無窮時相應頻率趨于穩定,這個極限值就是用頻率法所定義的概率,即

頻率穩定到概率這個事實,給了“機會大小”即概率一個淺顯而說得通的解釋,這在統計學上具有很重要的意義。堅持這種觀點的統計學派也就被稱為頻率學派。

5/7/202415比如:法國統計學家蒲豐(Buffon)把銅板拋了4040次,正面的次數是2048,比例是0.5069。1900年,英國統計學家皮爾遜把硬幣拋了24000次,正面的次數是12012,比例是0.5005南非數學家柯屈瑞在監獄時,把硬幣拋了10000次,正面的次數是5067,比例是0.5067。再如:保險公司會利用概率進行人壽保險經營,比如研究表明20-24歲的男性中明年死亡的概率是0.0015,同齡的女性是0.0005,保險公司對男性的保費就多收一些。5/7/2024162.加法規則

如果事件A和事件B互斥,那么

如果A和B是任何事件(不一定互斥),加法規則更普通地表示為如下形式

第二節概率的數學性質1.非負性特別對必然事件和不可能事件有5/7/202417

[例]從一副普通撲克牌中抽一張牌,求抽到一張紅桃或者方塊的概率。

[例]在一副52張撲克牌中,求單獨抽取一次抽到一張紅桃或愛司的概率。5/7/202418加法規則可推廣到對兩個以上的事件,若事件A,B,C…K都互斥,那么有

P(A或B或C…或K)=P(A)+P(B)+P(C)…+P(K)

[例]根據上海市職業代際流動的統計,向下流動的概率是0.07,靜止不動的概率是0.6,求向上流動的概率是多少?

[例]為了研究父代文化程度對子代文化程度的影響,某大學統計出學生中父親具有大學文化程度的占30%,母親具有大學文化程度的占20%,而雙方都具有文化程度的占有10%,問從學生中任抽一名,父代至少有一名具有大學文化程度的概率是多少?5/7/2024193.乘法規則

式中符號和代表條件概率。應理解為,“在B已經發生條件下A發生的概率”。條件概率的意思是,A發生的概率可能與B是否發生有關系。換言之,B已經發生時A發生的概率可能有別于B沒有發生時A發生的概率。

理解統計獨立的概念,對于靈活運用概率的乘法規則很重要。現在用條件概率來加以表達,統計獨立是指若A和B在統計上相互獨立(無關),這時乘法規則可以簡化為5/7/202420

[例]假定有下列3000個社區的數據,如果隨機地從這個總體中抽取一個社區,得到一個中等的而且犯罪率低的社區的概率是多少?

[例]假定數據變動如下,隨機地從這個總體中抽取一個社區,得到一個中等的而且犯罪率低的社區的概率又是多少?屬性大中小總和高犯罪率6003001001000低犯罪率6009005002000總和120012006003000屬性大中小總和高犯罪率1003006001000低犯罪率5009006002000總和6001200120030005/7/202421

[例]根據統計結果,男嬰出生的概率是22/43,女嬰出生的概率是21/43,某單位有兩名孕婦,問兩名孕婦都生男嬰的概率是多少?都生女嬰的概率是多少?其中一男一女的概率是多少?

[例]某居民樓共20戶,其中核心家庭為2戶,問訪問兩戶都是核心家庭的概率是多少?問訪問第二戶才是核心家庭的概率是多少?5/7/202422

[例]為了研究父代文化程度對子代文化程度的影響,某大學統計出學生中父親具有大學文化程度的占30%,母親具有大學文化程度的占20%,而雙方都具有文化程度的占有10%,問從學生中任抽一名,父代至少有一名具有大學文化程度的概率是多少?5/7/202423在抽樣方法中還經常涉及到回置抽樣和不回置抽樣。如前所

述,所謂回置抽樣,就是抽取的單位登記后又被放回總體中去,然

后再進行下一次抽取。使用回置抽樣法,先后兩次抽取是彼此獨立

的。因為每一次抽取后抽取到的單位都得返還,總體保持不變,前

一次的結果不可能影響到后一次。所謂不回置抽樣,就是不再把抽

取到的單位退還總體。這樣先后兩次抽取就不再獨立了,必須使用

條件概率的概念。用不回置法從一幅普通撲克牌抽取兩次,計算得到兩張愛司的概率。用回置法從一幅普通撲克牌抽取兩次,計算得到兩張愛司的概率。5/7/2024244.排列和樣本點的計數

要正確解決概率問題,往往光考慮乘法規則還不夠,還要同時

考慮使用加法規則。一般最簡單的做法是:首先確定一種符合要求

的排列方式并計算它們發生的概率,然后再考慮還有沒有其他同樣

符合要求的排列方式。如果存在著其他實現方式,并且都具有相同

的概率,就可以簡單地把排列方式數與以某一給定的排列方式計算

的概率相乘。注意,后一步相當于使用了加法規則。所有N個元素都不相同的情況下,排列方式數為N個元素中,若其中第一組中有r1個不能區分的元素,第2組中有r2個不能區分的元素,…,第k組中有rk個不能區分的元素,且各組彼此是可以區分的,則總的排列數為5/7/202425

[例]從一幅洗得很好的撲克牌中做了3次抽取,假定使用回置法,求至少得到1張A和一張K的概率是多少?[解]按照題意,要在不同樣本空間中考慮三種復合事件:抽到1張A和1張K,另l張非A非K,用符號(AKO)表示(其中“O”表示其他);抽到1張A和2張K,用符號(4KK)表示;抽到2張A和1張K,用符號(AAK)表示。因為在不同樣本空間中基本事件實現的概率不同,必須對它們加以區別。

次序為AKO的樣本點實現的概率是次序為AKK的樣本點實現的概率是次序為AAK的樣本點實現的概率是

再考慮每個復合事件各含有多少種可能的排列方式

(AKK)含有3!/2!=3種排列方式

(AAK)含有3!/2!=3種排列方式(AKO)含有3!=6種排列方式所以,在三次抽取中,至少得到1張A和1張K的概率是5/7/202426

[例]假如對1000個大學生進行歌曲欣賞調查,發現其中有500個學生喜歡民族歌曲,400個學生喜歡流行歌曲,而這些學生中有100人屬于既喜歡民族歌曲又喜歡流行歌曲的,剩下來的學生兩種歌曲都不喜歡。如果我們隨機地從該總體中抽取一個學生,并設事件A為該學生喜歡民族歌曲,事件B為該學生喜歡流行歌曲。①用數字證明P(A且B)=P(A)P(B/A)=P(B)P(A/B)②得到一個喜歡兩種風格歌曲之一的學生的概率是多少?③隨機地選取一個由3個學生組成的樣本,要求這三個學生全都有相同的欣賞方式,得到這種樣本的概率是多少?5/7/2024275.運用概率方法進行統計推斷的前提隨機抽樣樣本容量相對于總體來說,是較小的總體中個體的組合具有被同等抽中的概率注意獨立性問題5/7/202428簡單隨機抽樣要求每一個個體擁有相同的被選入樣本的機會。嚴格來講,由于我們實際上總是做不回置抽樣,因此獨立性的假定,是難以完全滿足的。只有在樣本非常大,可以忽略。一個隨機樣本具有以下的性質:不僅要給每一個個體以相等的被抽中的機會,而且要給每一種個體的組合以相等的被抽中的機會。在要概括社區或其他空間上限定區域的單位的情況時,也必須注意到缺乏獨立性的問題。5/7/202429

第三節概率分布、期望值與變異數隨機事件及其概率回答的是隨機現象某一局部結果,例如對給定的復合事件求先驗概率。而概率分布則要在滿足完備性(窮舉)和互不相容性(互斥)的前提下,回答隨機現象一共會出現多少種結果,以及每種結果所伴隨的概率是多少。

應該指出,在統計中,概率分布是就隨機現象呈現的宏觀結果而言的。所謂宏觀結果,是指可以在宏觀層次加以識別的而與特定排列次序無關的樣本空間的子集。5/7/202430X23456789101112合計P(X)

例如擲兩顆骰子的試驗,點數就是隨機現象,它一共有11種宏觀結果。我們用古典法對每種宏觀結果計算P,便得到了如下表所示的概率分布。

頻率分布與概率分布的區別經驗分布:頻率分布是經資料整理而來;頻率分布隨樣本不同而不同;頻率分布有對應的頻數分布。理論分布:概率分布是先驗的;概率分布是唯一的;概率分布無頻率分布所對應的頻數分布。5/7/2024311.離散型隨機變量的概率分布

離散型隨機變量的取值是可數的,如果對X的每個可能取值xi計算其實現的概率Pi,我們便得到了離散型隨機變量的概率分布,即離散型隨機變量的概率分布也可以用表格和圖形兩種形式來表示。由于離散型隨機變量的特點,表示離散型隨機變量概率分布多為折線圖。5/7/2024322.連續型隨機變量的概率分布

連續型隨機變量的取值充滿某一區間,因而取某一數值討論其概率是無意義的。為此,我們引進概率密度的概念來表達連續型隨機變量的概率分布。

本書第三章第三節曾出現過頻率密度的概念,頻率密度等于頻率除以組距。以頻率密度為縱坐標,可以作出頻率分布直方圖。類似地,以概率密度為縱坐標,可以作出概率密度曲線。所不同的是,概率密度由于對組距求了Δx→0的極限,其圖形乃平滑曲線。5/7/202433

這樣一來,隨機變量X取值在區間{x1,x2}上的概率等于概率密度曲線下面x1與x2兩點之間面積,即

所以有概率密度的性質因為概率不可能是負的,且

5/7/2024343.分布函數

為了從數學上能夠統一對隨機變量的概率進行研究引入分布函數的概念,它被定義為

有了分布函數,就可以很容易得到隨機變量X取值在任意區間{x1,x2}上的概率,即

連續型隨機變量離散型隨機變量

5/7/202435和

(離散變量)或

(連續變量)的關系,就像向上累計頻率和頻率的關系一樣。不同之處在于,累計的是概率。但使用分布函數的好處是很明顯的,它不僅在數學上統一了對離散型隨機變量和連續型隨機變量概率的研究,而且由于它計算概率的起點都固定為―∞,因而可以把概率值換算成表,以易于求得任何區間的概率,從而達到計算快捷和應用廣泛之目的。

[例]求兩顆骰子點數的分布函數。

X23456789101112合計P(X)F(X)——5/7/2024364.數學期望

在前面統計分組的討論中,我們在得到頻數(或頻率)分布后,為了對變量有系統概括的認識,分別研究了集中趨勢和離中趨勢。而對集中趨勢和離中趨勢量度,我們分別得到了平均指標和變異指標,其中最有代表性的是算術平均數和標準差。很顯然,現在當我們面對隨機變量的理論分布時,也要對隨機變量的集中趨勢和離中趨勢作概括性的描述,這就引出數學期望和變異數這兩個概念。所謂數學期望,是反映隨機變量X取值的集中趨勢的理論均值(算術平均),記作E(X)。離散型隨機變量

連續型隨機變量5/7/202437例

誰的技術比較好?乙射手甲射手解故甲射手的技術比較好5/7/202438

[例]一家保險公司在投保的50萬元人壽保險的保單中,估計每1000保單每年有15個理賠,若每一保單每年的營運成本及利潤的期望值為200元,試求每一保單的保費。

[解]依題意知,利潤的期望值

E(X)=200(元)

設x1表示保費,x2為理賠費[x2=-(500000-x1)],則可得

所以,x1=7700(元)。即每一保單每年的保費應定在7700元。5/7/202439

數學期望也常常記為μ,在推論統計中同總體均值的記號,而則在推論統計中被作為樣本均值的記號。數學期望和總體均值一樣,都是唯一的,不過它是一個先驗的理論值。由于它是用隨機變量各取值分別乘以取值的概率來計算的,因此數學期望又可稱為隨機變量的加權算術平均數。樣本均值依據統計數據計算而來,但它具有隨機性。在統計推論中,E(X),是“估計”。

(2)常數c與隨機變量X之積的期望等于X的期望與c的積,即E(cX)=cE(X)(3)兩個隨機變量之和的期望等于它們的期望之和,即E(X+Y)=E(X)+E(Y)(4)兩個獨立隨機變量乘積的期望等于它們的期望之積,即E(XY)=E(X)·E(Y)(1)常數c的期望等于該常數,即E(c)=c數學期望的幾個基本性質:和都是為μ服務的,E(X)是“期望”5/7/2024405.變異數

數學期望反映了隨機變量的集中趨勢,但僅知道集中趨勢還不夠,還應該知道隨機變量在均值周圍的離散程度,即離中趨勢。變異數是綜合反映隨機變量取值分散程度的指標,其功能相當于描述統計中已討論過的方差及標準差,記用D(X)。

離散型隨機變量

連續型隨機變量由于變異數的單位是隨機變量單位的平方。為了使隨機變量變異指標的單位與其本

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論