




版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
1、第二篇 概率與推斷基礎一、討論題1. 簡述隨機變量的均數與樣本均數的區別。答:由隨機實驗中產生的結果用數值表示的變量叫隨機變量。隨機變量的均數是指隨機變量所有可能值的平均,但它不是一般意義下的平均,而是要把每個取值都按照它的概率來加權之后的平均,每個可能取值的權重就是取這個值的概率。通常用而不是簡單的來表示隨機變量的均數,這樣有利于我們理解描述的到底是哪一個隨機變量。樣本均數是指某樣本所有觀測值的平均值,是描述樣本數據特征的一個統計量,通常用表示。對于一個特定總體而言,樣本觀測值會隨抽取的樣本不同而變化,相應的樣本均數也會因樣本的不同而變化。但是隨機變量的均數是一個描述總體特征的參數,它是隨機
2、變量所有可能取值的平均值。2. 簡要回答二項分布、Poisson分布及正態分布的區別與聯系。答:(1)三者的區別表4-1 三種分布的比較二項分布Poisson分布正態分布概率函數概率函數意義說明n個觀察數中恰好發生X個某事件的概率說明一定觀察單位內發生某事件數為X的概率X對應的曲線上的點代表概率密度,一個范圍如X1X2內的面積才代表概率決定參數n ,均數與方差關系一般(Z分布除外)適用條件互斥性,獨立性,穩定性(用大量重復實驗得到的樣本率來估計參數)同前,尚需n很大(趨向于無窮大),很小連續分布,服從正態性類型離散型隨機變量的概率分布離散型隨機變量的概率分布連續型隨機變量的概率分布可加性無有有
3、(2)三者的聯系Poisson分布是二項分布的特殊情況,服從Poisson分布的資料也肯定服從二項分布。因此,能用Poisson分布法處理的資料原則上也能用二項分布來處理(但需知道總觀察數和陽性數),只不過此時計算較繁而已。反之則不然,服從二項分布者不一定都能用Poisson分布法來處理,需滿足Poisson分布的近似條件才可。不論二項分布還是Poisson分布,只有滿足正態近似條件時才可用正態近似法。當然此時也可用兩種分布相應的方法,但正態近似法較為簡便。3. 指出下述陳述的錯誤并給出解釋。(1)中心極限定理指出對于大樣本而言,總體均數近似服從正態分布。答:此描述的錯誤主要在后半句“總體均數
4、近似服從正態分布”,中心極限定理是針對樣本均數而言的。中心極限定理是指從任意均數等于,方差等于的一個總體中抽取樣本量為的簡單隨機樣本。當樣本量很大時,無論總體分布形態如何,樣本均數的抽樣分布近似正態分布。(2)對于大樣本而言,觀察值近似服從正態分布。答:當樣本量很大時,無論總體分布形態如何,樣本均數的抽樣分布近似正態分布。即中心極限定理是針對樣本均數而言。(3)從總體進行簡單隨機抽樣,抽取的樣本量越大,樣本均數的標準差越大。答:,均數的標準差與樣本量的平方根成反比,即抽取的樣本量越大,樣本均數的標準差越小。4. 如何理解“樣本率的抽樣分布同樣遵循中心極限定理”?答:二項分布可看成多次伯努利試驗
5、的和:用時表示結果第次實驗“成功”,時表示第次實驗結果“失敗”,可以將各個相加得到總的“成功”次數(即),而“成功”率為,可將其看做一個均數,即樣本量為的樣本率可以用取值為0和1變量的樣本均數來表示,因此其同樣也遵循中心極限定理。5. 使用置信區間的常見注意事項。答:公式不適用于所有抽樣方法,不同的抽樣方法需采用不同的均數估計公式;數據須來自相應總體的簡單隨機抽樣,個體間相互獨立是使用上述估計公式的前提;對于來自隨意收集且偏倚較大的數據,沒有恰當的方法進行統計推斷,統計分析無法拯救糟糕的數據;在計算置信區間之前往往需先對數據進行探索性分析,例如找出異常值,檢驗數據是否服從正態分布;公式是事先假
6、定總體標準差已知,實際研究中很可能無法得到總體標準差。當樣本量較大時,可選用樣本標準差s估計,對應置信區間可用公式近似估計;實際操作中的問題(如無應答與失訪)會給抽樣研究帶來額外的誤差,這些誤差可能比隨機抽樣誤差大得多,并且研究結果中這些誤差并不能被誤差范圍所反映;統計推斷的概率是指該方法重復進行的正確頻率,即在100次抽樣中,平均而言95%置信區間有95次包含了總體均數,但并不知道某一次結果的正確性。6. 解釋零假設與備擇假設的含義。答:零假設又稱無效假設,記為,是在我們沒有證明某現象之前做出的保守推測,是被用來檢驗的假設,通常表述為“沒有差異”,表示差異是由抽樣誤差引起的;備擇假設又稱對立
7、假設,記為,表示其差異是因為比較的對象之間存在本質不同。在現實研究中,描述的往往是我們希望看到的結果。7. 假設檢驗的思想、步驟及其與置信區間的區別與聯系。答:假設檢驗的思想:我們對總體特征(如參數、分布)進行某種推測,進而用概率來判斷樣本數據所提供的信息和我們對總體特征猜想的一致性,根據小概率反證法思想,結合專業知識判斷這一猜想的正確性。假設檢驗的步驟:(1)建立檢驗假設,確定檢驗水準;(2)計算檢驗統計量;(3)確定P值,做出統計推斷。假設檢驗與置信區間的區別與聯系:(1)聯系:對于同一資料其統計推斷結論是等價的,可信區間也可回答假設檢驗的問題。如已知的總體均數在樣本均數所估計的可信區間之
8、內時,可認為兩個總體均數相同,反之則可認為不同。(2)區別:置信區間估計用于推斷總體參數所在的范圍,而假設檢驗用于推斷總體參數之間是否不同。置信區間在回答差別有無統計學意義的同時,還能提供一些假設檢驗不能提供的信息,并可以提示差別是否具有實際意義。因此,置信區間與假設檢驗的作用是相輔相成的,將兩者結合起來,可以提供更為全面的統計推斷信息。8.解釋第I類錯誤、第II類錯誤和檢驗效能以及它們之間的關系。答:第類錯誤:當為真,拒絕(接受),此時的錯誤稱為第類錯誤,其發生的概率記為。第類錯誤:當為真,接受(拒絕),此時的錯誤稱為第類錯誤,其發生的概率記為。檢驗效能:檢驗水準為,當為真時,假設檢驗能夠拒
9、絕的概率稱為能發現該的檢驗效能。三者的關系為:固定檢驗水準下的檢驗效能就是1減第類錯誤去犯第類錯誤的概率,即檢驗效能為1;當樣本量固定時,與成反比,與()成正比;如果把設置得很小,勢必增大犯II型錯誤的概率,從而降低檢驗效能;反之,如果重點在于減少,勢必增加犯I型錯誤的概率,從而降低了置信度。要同時減小和,只有通過增加樣本含量來實現。二、綜合分析題1. 經長期臨床觀察,胃潰瘍患者發生胃出血的率為20%,某醫院隨機觀察了20例65歲以上老年胃潰瘍患者。(1)求其中沒有1例發生胃出血癥狀的概率。(2)求最多有8例發生胃出血癥狀的概率。答:(1)需要計算的沒有1例發生胃出血癥狀的概率,即,可以采用公
10、式來計算,也可以采用軟件進行計算,例如應用R軟件輸入語句:P1 = dbinom(0,20,0.2)。運行后得到P10.012。(2)需要計算下側累計概率,即,手工計算會比較復雜,可采用統計軟件進行計算。例如應用R軟件輸入語句:P2 = pbinom(8,20,0.2)0.992某鄉鎮有人口10000人。該地疾病預防控制中心擬在該鄉進行一次血吸蟲感染率普查,方法是先將每10人的糞便作為一個混合樣本,若為陰性,則10人均為陰性;若為陽性,再對該混合樣本的10人糞便逐人檢查。問此法比一般的逐人糞便檢查法減少多大工作量(假設血吸蟲感染率為5%)?。答:這是一個二項分布問題,0.05,n10。按10人
11、一個混合樣品,應有1000個混合樣品。這1000個混合樣品都必須做一次檢查,陽性者還要分別檢查,因此總的預期檢查次數為:N混合樣品數+混合樣品陽性率×混合樣品數×10可見,關鍵為求混合樣品的陽性率。已知每份樣品的陽性率為5%,陰性率即為1-0.050.95,10份樣品均為陰性的概率按二項分布為P(0)0.95100.5987,于是混合樣品為陽性的概率為10.9510。N1000+(10.5987)×1000×105013。節約的工作量即為1000050134987次(約50%)。3. 某地18歲女青年收縮壓(mm-Hg)服從。在該地隨機選一名18歲女青年
12、,測量她的收縮壓為X(mm-Hg)。(1)求,;(2)確定最小的x,使。答:(1)通過將標準化為標準正態變量后再來求概率。,要求,查標準正態分布表得:于是 =0.3372, (2)先對x進行標準化,則,使的最小的x,即,則,解不等式得到:x=129.68。4. 假設已知高校學生每晚睡眠時間近似服從均數為6.78小時,標準差為1.24小時的正態分布。現計劃采用簡單隨機抽樣方法抽取150例高校學生,計算每晚平均睡眠時間。(1)該樣本平均睡眠時間的標準差是多少?(2)使用“68-95-97.5法則”描述該樣本均數的變異。(3)計算平均睡眠時間低于6.9小時的概率。答:(1)由題干知,高校學生每晚睡眠
13、時間近似服從正態分布, 小時,小時,此時n=150,根據中心極限定理,樣本均數的均數為,樣本均數的標準差為,所以:(2)根據“68-95-97.5法則”,約68%的樣本均數在(6.68,6.88)內;約95%的樣本均數在(6.58,6.98)內;約99.7%的樣本均數在(6.48,7.08)內。(3)要求的累計概率是5已知某地近5年兒童蟯蟲感染率平均為35%(設為總體率),該地疾病預防控制中心為了解今年該地兒童蟯蟲病感染情況,隨機抽樣調查了100名兒童。(1)請問此樣本率的均數和標準差分別為多少?(2)如果希望樣本率的標準差小于0.02,則隨機抽樣的樣本量需要達到多少?答:(1)此時及均大于5
14、,樣本率p的抽樣分布近似服從正態分布,可用公式和來分別計算樣本率 p的均數和標準差,即:(2)由,得,樣本率的標準差越小則需要的樣本量越大,當樣本率的標準差為0.02時,n569。因此,如果希望樣本率的標準差小于0.02,則隨機抽樣的樣本量至少需要569人。6.在某市隨機抽取90名19歲健康男性大學生,測量他們的身高,得樣本均數為172.2cm,標準差為4.5cm。(1)請估計該市19歲健康男性大學生平均身高的95%置信區間。(2)如果希望95%的誤差范圍是1cm,則需要調查該市多少名19歲健康男性大學生?答:(1),=1.96,可得均數的95%置信區間的誤差范圍為:則:因此,該市19歲健康男
15、性大學生平均身高的95%置信區間為(171.27,173.13)cm。(2)若95%的誤差范圍是1cm,則7某醫院呼吸內科用相同方法測定隨機抽樣得到的兩組患者的動脈血二氧化碳分壓,肺心病患者240例,為10.48±6.20 (kPa);慢性支氣管炎合并肺氣腫患者200例,為6.12±1.51 (kPa)。(1)請計算兩組患者的血液二氧化碳分壓的95%置信區間,并比較兩組95%置信區間的誤差范圍。(2)若正常人動脈血二氧化碳分壓平均為5.15 (kPa),請問慢性支氣管炎合并肺氣腫患者與正常人的動脈血二氧化碳分壓是否有差異?答:(1)因為兩組樣本量均比較大,可以用樣本標準差作為總體標準差的估計值,即,=1.96,可得均數的95%置信區間為:因此,肺心病患者動脈血二氧化碳分壓95%置信區間的誤差范圍是0.78,其95%置信區間為(9.7,11.26) kPa;慢性支氣管炎合并肺氣腫患者動脈血二氧化碳分壓95%置信區間的誤差范圍是0.21,其95%置信區間為為(5.91,6.33) kPa。(2):慢性支氣管炎合并肺氣腫患者與正常人的動脈血二氧化碳分壓均值無差異,即;:慢性支氣管炎合并肺氣腫患者與正常人的動脈血二氧化碳分壓均值有差異,即;,拒絕,差異有統計學意義,可認為慢性支氣管炎
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 江永縣2025年三下數學期末預測試題含解析
- 山東省陽谷縣第二中學2024-2025學年高三3月月考調研考試物理試題含解析
- 山西管理職業學院《工程安全與環境保護》2023-2024學年第二學期期末試卷
- 鄭州美術學院《植物學》2023-2024學年第二學期期末試卷
- 吉林省長春市重點名校2025屆初三3月三校聯考-生物試題含解析
- 天津大學《果蔬貯藏技術》2023-2024學年第二學期期末試卷
- 喉癌放療患者護理查房
- 護理服務態度投訴零容忍
- 銷售培訓與提升策略
- 2025水利工程修復合同
- DBJ33T 1319-2024 住宅小區供配電工程技術標準
- 室上性心動過速-醫學課件
- 英語專業四級聽力50篇
- 2024年《網絡反不正當競爭暫行規定》重點解讀
- NB-T20048-2011核電廠建設項目經濟評價方法
- 課件:敏捷制造概述-美化講解
- CJT156-2001 溝槽式管接頭
- CJJT146-2011 城鎮燃氣報警控制系統技術規程
- 臭氧在骨科疾病治療中的應用
- 修補外墻防水合同
- 20萬噸有機肥項目可行性研究報告
評論
0/150
提交評論