




版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
第一章統計數據的收集與整理
1.1算術平均數是怎樣計算的?為什么要計算平均數?
乎受
y=I
答:算數立均數由下式計算:〃,含義為將全部觀測值相加再被觀測值的個數除,所得之商稱為
算術平均數。計算算數平均數的目的,是用平均數表示樣本數據的集中點,或是說是樣本數據的代表。
1.2既然方差和標準差都是衡量數據變異程度的,有了方差為什么還要計算標準差?
答:標準差的單位與數據的原始單位一致,能更直觀地反映數據地離散程度。
1.3標準差是描述數據變異程度的量,變異系數也是描述數據變異程度的量,兩者之間有什么不同?
答:變異系數可以說是用平均數標準化了的標準差。在比較兩個平均數不同的樣本時所得結果更可靠。
1.4完整地描述一組數據需要哪幾個特征數?答:平均數、標準差、偏斜度和峭度。
1.5下表是我國青年男子體重(kg)。由于測量精度的要求,從表面上看像是離散型數據,不要忘記,
體重是通過度量得到的,屬于連續型數據。根據表中所給出的數據編制頻數分布表。
666964656466656264696161685766696665
7064586766666866666266666462666564656672
606665616166626565616462646265686865
6768626370656765626662636865625767666863
64666864636O6769656667676765656766686467
596665635666664363666763706770686472696767
6668646571616643616464676970666276564637064
62697068656365666468696563677065686769
6665676674646965646565686765646667726567
6267716965657562696868656366636562616865
64676664606168676359656O646366596271696063
596761686966646965686764646666697368606063
3862676565696567657266676461646663636666
6663656367686662636166616368656669646670
697O6364656467676566626165656O6365626664
答:首先建立一個外部數據文件,名稱和路徑為:E:\data\exerl-5e.dat。所用的SAS程序和計算結果如
下:
procformat;
valuehfmt
56-57:'56-57'58-59;‘58-59’60-61;‘60-61,
62-63='62-63'64-65:'64-65'66-67='66-67'
68-69='68-69'70-71=70-71,72-73=72-73,
1/177
74-75=74-75';
run;
dataweight;
infile'E:\data\exerl-5e.dat';
inputbw
run;
procfreq;
tablebw;
formatbwhfmt.;
run;
TheSASSystem
CumulativeCumulative
BWFrequencyPercentFrequency
Percent
56-5731.03
1.0
58-5941.37
2.3
60-61227.329
9.7
62-634615.375
25.0
64-658327.7158
52.7
66-677725.7235
78.3
68-694515.0280
93.3
70-71134.3293
97.7
72-7351.7298
99.3
74-7520.7300
100.0
1.6將上述我國男青年體重看作一個有限總體,用隨機數字表從該總體中隨機抽出含量為10的兩個樣
本,分別計算它們的平均數和標準差并進行比較。它們的平均數相等嗎?標準差相等嗎?能夠解釋為什
么嗎?答:用means過程計算,兩個樣本分別稱為乙和乙,結果見下表:
TheSASSystem
VariableNMeanStdDev
Y11064.50000003.5039660
Y21063.90000003.1780497
隨機抽出的兩個樣本,它們的平均數和標準差都不相等。因為樣本平均數和標準差都是統計量,統計量
2/177
有自己的分布,很難得到平均數和標準差都相等的兩個樣本。
1.7從一個有限總體中采用非放回式抽樣,所得到的樣本是簡單的隨機樣本嗎?為什么?本課程要求
的樣本都是隨機樣本,應當采用哪種抽樣方法,才能獲得一隨機樣本?
答:不是簡單的隨機樣本。從一個有限總體中以非放回式抽樣方法抽樣,在前后兩次抽樣之間不是相互
獨立的,后一次的抽樣結果與前一次抽樣的結果有關聯,因此不是隨機樣本。應采用隨機抽樣的方法抽
取樣本,具體說應當采用放回式抽樣。
_7X其中土C。/=4,「
1
1.8證明2Mii若gic或?編碼時,前式是否仍然相
等?
答:(i)令
則歹=y±c平均數特性之③。
?=1
=S[(y±C)-(y±C)J
i
(2)令fC
則C平均數特性之②。
C2
用第二種編碼方式編碼結果,兩式不再相等。
L9有一個樣本:乂,匕’,匕,設B為其中任意一個數值。證明只有當B=P時,
-最小。這是平均數的一個重要特性,在局面講到一元線型回歸時還會用到該特性。
"%-B)2
答:令P='G-8)2,為求使p達最小之B,令一詡-=0
-B)=0B=_=y
貝|J〃O
3/177
1.10檢測菌肥的功效,在施有菌肥的土壤中種植小麥,成苗后測量苗高,共100株,數據如下⑴:
10.09.37.29.8.58.010.510.69.610.1
7.06.79.57.10.57.98.19.67.69.4
o
10.07.57.25.7.38.77.16.15.26.8
oV
10.09.97.554,7.67.09.76.28.06.9
8.38.610.04.4.97.08.38.47.87.5
8
9.8.511.09.76.610.05.0
6.610.06.55
6.58.08.48.7.47.48.17.77.57.1
Jq
7.87.68.66.7.06.46.76.36.411.0
nV
10.57.85.08.7.07.45.26.79.08.6
nV
4.66.93.56.9.76.45.86.49.36.4
2
編制苗高的頻數分布表,繪制頻數分布圖,并計算出該樣本的四個特征數。
答:首先建立一個外部數據文件,名稱和路徑為:E:\data\exrl-10e.datoSAS程序及結果如下:
optionsnodate;
procformat;
valuehfmt
3.5-4.4='3.5-4.4'4.5-5.4='4.5-5.4'5.5-6.4='5.5-6.4'
6.5-7.4='6.5-7.4,7.5-8.4=7.5-848.5-9.4='8.5-9.4,
9.5-10.4=95-10.4'10.5-11.4='10.5-11.4';
run;
datawheat;
infile'E:\data\exrl-10e.dat';
inputheight@@;
run;
procfreq;
tableheight;
formatheighthfmt.;
run;
proccapabilitygraphicsnoprint;
4/177
varheight;
histogram/vscale=count;
insetmeanvarskewnesskurtosis;
run;
TheSASSystem
TheFREQProcedure
CumulativeCumulative
heightFrequencyPercentFrequency
Percent
3.5-4.41l.UU1
1.00
4.5-5.499.0010
10.00
5.5-6.41111.0021
21.00
6.5-7.42323.0044
44.00
7.5-8.42424.0068
68.00
8.5-9.41111.0079
79.00
95-1041515.0094
9400
10.5-11.466.00100
100.00
1.11北太平洋寬吻海豚羥丁酸脫氫酶(HDBH)數據的接收范圍頻數表⑵如下:(略作調整)
5/177
HDBH數據》?收范
頻數
圍/(UL-i)
-^±4-----------------------------1-
<245.90913
<277.818211
<309.727319
<341.636426
<373.545522
<405.454511
<437.363613
<469.27276
<501.18183
<533,09092
根據上表中人數據作出直方圖。
答:以表中第一列所給出*數值為組界,直方圖如下:
1.12靈長類手掌和腳掌可以握物一側人皮膚表面都有突起皮膚紋崎。紋崎有許多特征,這些特征在
胚胎形成之后是終生不變人類手指尖*紋型,大致可以分為弓、箕和斗三種類型。在手指第一節*
基部可以找到一個點,從該點紋崎向三個方向輻射,這個點稱為三叉點。弓形紋沒有三叉點,箕形紋有
一個三叉點,斗形紋有兩個三叉點,記錄從三叉點到箕或斗中心*紋崎數目稱為紋崎數(fingerridge
count,FRCX將雙手十個指尖*全部箕形紋人紋崎數和/或斗形紋兩個紋崎數中較大者相加,稱為總紋
靖數(totalfingerridgecount,TFRCI下表給出了大理白族人群總紋崎數*頻數分布⑶:
TFRC分組中值頻數
11-30202
31?50401
51-70608
71-908029
91~11010054
111~13012063
131~15014068
151~17016051
171?19018018
6/177
191~2102006
首先判斷數據的類型,然后繪出樣本頻數分布圖,計算樣本的四個特征數并描述樣本分布形態。
答:總紋脊數屬計數數據。
計數數據的頻數分布圖為柱狀圖,頻數分布圖如下:
樣本特征數(以TFRC的中值計算)SAS程序:
optionsnodate;
datatfrc;
doi=ltolO;inputy@@;
inputn@@;
doj=lton;
output;
end;
end;
cards;
202
401
608
8029
10054
12063
14068
16051
18018
2006
7/177
run;
procmeansmeanstdskewnesskurtosis;
vary;
run;
結果見下表:
TheSASSystem
AnalysisVariable:Y
MeanStdDevSkewness
Kurtosis
126?533333332.8366112-0.2056527
-0.0325058
從頻數分布圖可以看出,該分布的眾數在第七組,即總紋脊數的中值為140的那一組。分布不對稱,
平均數略小于眾數,有些負偏。偏斜度為-0.2056527,偏斜的程度不是很明顯,基本上還可以認為是對稱
的,峭度幾乎為零。
1.13海南粗槌葉長度的頻數分布[4]:
葉長度/mm中值頻數
。3
2.0~2.23134C93C4
2.2~2.42643
2.4~2.63546
2.6~2.8.5
2.8~3.0.795692
dr5187
3.0~3.2c.314333
H
3.2~3.4n.2767
S
3.4~3.6n51677
3.6~3.8S
.7
3.8~4.091137
nag
4.1667
物筋4.3346
4.4~4.64.5181
繪出頻數分布圖,并計算偏斜度和峭度。
答:表中第一列所給出的數值為組限,下圖為海南粗棚葉長度的頻數分布圖。
8/177
7000
計算偏斜度和峭度的SAS程序和計算結果如下:
optionsnodate;
datalength;
doi=ltol3;inputy@@;
inputn@@;
doj=lton;
output;
end;
end;
cards;
2.1390
2.31434
2.52643
2.73546
2.95692
3.15187
3.34333
3.52767
3.71677
3.91137
4.1667
4.3346
4.5181
run;
procmeansnskewnesskurtosis;
vary;
run;
9/177
TheSASSystem
AnalysisVariable:Y
nSkewness
Kurtosis
300000.4106458
0.0587006
樣本含量n=30000,是一個很大的樣本,樣本的偏斜度和峭度都己經很可靠了。偏斜度為0.41,有一
個明顯的正偏。
1.14馬邊河貝氏高原縱繁殖群體體重分布如下⑸:
體質量/g中值雌魚雄魚
2.00-3.002.501
3.00-4.003506
4.00-5.004.501311
5.00~6.005.503025
6.00-7.006.502525
7.00-8.007.501623
8.00-9.008.502117
9.00~10.0
09.501816
10.00-11.0
010.50124
11.00-12.0
11.503
0
12.00-13.012.502
0
首先判斷數據的類型,然后分別繪制雌魚和雄魚的頻數分布圖,計算樣本平均數、標準差、偏斜度和峭
度并比較兩者的變異程度。
答:魚的體重為度量數據,表中第一列所給出的數值為組限。在下面的分布圖中雌魚和雄魚的分布
繪在了同一張圖上,以不同的顏色表示。
10/177
計算統計量的SAS程序與前面的例題類似,這里不再給出,只給出結果。
雌魚:
TheSASSystem
AnalysisVariable:Y
NMeanStdDevSkewness
Kurtosis
147^'"7:24149662.1456820""■■0:2318337
-0.6758677
雄魚:_________________________________________________________
TheSASSystem
AnalysisVariable:Y
NMeanStdDevSkewness
Kurtosis
132-6:78030301.9233971■■---071322816
-0.5510332
直觀地看,雄魚的平均體重低于雌魚。雌魚有一正偏,雄魚有一負偏。因此,相對來說雌魚低體重者較
多,雄魚高體重者較多。但兩者都有很明顯的負峭度,說明"曲線"較平坦,兩尾翹得較高。
1.15黃胸鼠體重的頻數分布⑹:
組界/g頻數
0<3^<1510
15"43026
30”4530
45—46022
11/177
60</<7522
75<y<9017
90<^<16
105
105"W14
120
120<^<6
135
135<y<4
150
150。42
165
總數169
繪制頻數分布圖,從圖形上看分布是對稱的嗎,說明什么問題?
答:下面是頻數分布圖:
從上圖可見,圖形不是對稱的,有一些正偏。說明在該黃雄鼠群體中,低體重者分布數量,高于高體重
者的數量。另外,似乎峭度也有些低。
1.1625名患者入院后最初的白細胞數量(乂103)[7]如下表:
85
7312411687712
o11141196656
14455
計算白細胞數量的平均數、方差和標準差。
答:用means過程計算,程序不再給出,只給出運行結果。
TheSASSystem
AnalysisVariable:Y
NMeanVarianceStd
12/177
Dev
257.84b00b0""-i(I3066667
3.2103998
1.17細胞珠蛋白基因(CYGB)可能是非小細胞肺癌(NSCLC)的抑制基因之一。一個研究小組
研究了該基因的表達、啟動子甲基化和等位基因不平衡狀態等,以便發現它與腫瘤發病間的關聯。下面
列出了其中15名患者的基因表達(腫瘤患者/正常對照,T/N),腫瘤患者與正常對照甲基化指數差
(MtIT-MtIN)[8]:
樣本號T/NMtIT-MtIN
357
3700.0140.419
3670.0190.017
3160.0350.105
0.0440.333
369
0.0540.170
358
3030.0840.246
3140.1110.242
3080.1350.364
0.2360.051
31O
0.2530.520
341
3480.2640.200
3230.3150.103
3600.3590.167
0.4220.176
3360.4420.037
計算以上兩項指標的平均數和標準差并計算兩者的變異系數,這兩個變異系數可以比較嗎?為什么?
答:記T/N為乙,Mt1T-Mt%為乙,用means過程計算,SAS運行的結果見下表:
TheSASSystem
VariableNMeanStdDev
CV
Y1-----------IT-P.I85g00U---PH505624
81.0346471
Y2150.21000000.1465274
69.7749634
兩個變異系數是可以比較的,因為它們的標準差都是用平均數標準化了的,己經不存在不同
單位的影響了。
13/177
第二章概率和概率分布
2.1做這樣一個試驗,取一枚五分硬幣,將圖案面稱為A,文字面稱為B。上拋硬幣,觀察落下后
是A向上還是B向上。重復10次為一組,記下A向上的次數,共做10組。再以100次為一組,1000
次為一組,各做10組,分別統計出A的頻率,驗證2.1.3的內容。
答:在這里用二項分布隨機數模擬一個抽樣試驗,與同學們所做的抽樣試驗并不沖突。以變量Y表
示圖向上的次數,n表示重復的次數,m表示組數,每次落下后圖向上的概率①二1/2。SAS程序如下,
該程序應運行次,第一次,第二次第三次
3n=10n=100,n=1000o
optionsnodate;
datavalue;
n=10;
m=10;
phi=1/2;
doi=ltom;
retainseed3053177;
doj=lton;
y=ranbin(seed,n,phi);
output;
end;
end;
datadisv;
setvalue;
byi;
iffirst.ithensumy=0;
sumy+y;
meany=sumy/n;
py=meany/n;
iflast.ithenoutput;
keepnmphimeanypy;
run;
procprint;
title'binomialdistribution:n=10m=10';
run;
14/177
procmeansmean;
varmeanypy;
title'binomialdistribution:n=10m=10';
run;
以下的三個表是程序運行的結果。表的第一部分為每一個組之Y的平均結果,包括平均的頻數和平
均的頻率,共10組。表的第二部分為10組數據的平均數。從結果中可以看出,隨著樣本含量的加大,
樣本的頻率圍繞0.5做平均幅度越來越小的波動,最后穩定于0.5o
binomialdistribution:n=10m=10
OBSNMPHIMEANY
PY
110100.55.7
0.57
210100.54.5
0.45
310100.55.1
0.51
410100.56.1
0.61
510100.56.1
0.61
610100.54.3
0.43
710100.55.6
0.56
810100.54.7
0.47
910100.55.2
0.52
1010100.55.6
0.56
binomialdistribution:n=10m=10
VariableMean
MEANY5.2900000
PY0.5290000
binomialdistribution:n=100m=10
OBSNMPHIMEANY
PY
0.49711100100.549.71
2100100.549.58
0.4958
0.50373100100.550.37
0.50114100100.550.11
0.49705100100.549.70
0.50046100100.550.04
7inninnR4Q?n
15/177
0.4920
8100100.549.74
0.4974
9100100.549.37
0.4937
10100100.549.86
0.4986
binomialdistribution:n=100m=10
VariableMean
MEANY49.7680000
PY0.4976800
binomialdistribution:n=1000m=10
OBSNMPHIMEANY
PY
11000100.5499.278
0.49928
21000100.5499.679
0.49968
31000100.5499.108
0.49911
41000100.5500.046
0.50005
51000100.5499.817
0.49982
61000100.5499.236
0.49924
71000100.5499.531
0.49953
81000100.5499.936
0.49994
91000100.5500.011
0.50001
101000100.5500.304
0.50030
binomialdistribution:n=1000m=10
VariableMean
MEANY499.6946000
PY0.4996946
2.2每個人的一對第1號染色體分別來自祖母和外祖母的概率是多少?一位男性的X染色體來自外
祖父的概率是多少?來自祖父的概率呢?
答:(1)設A為一對第1號染脩體分用來即且母和外祖母的事件,則
P(A)=11111
XXX=
(2)設B為男性的殺錯比本條自格且受的事件,則
X=
(3)設C為男性的X染色體莪自冤父的事件,則
16/177
p(c)=0
2.3假如父母的基因型分別為Li和Li。他們的兩個孩子都是A型血的概率是多少?他們生兩個0
型血女孩的概率是多少?
答.父.P/A配子二PG配子)
母.。/唯子)=「:配子)=;
Ci)M兩名A型血子女)=P*型平2(?普血)
—
_1
=布
(2)X)JM戶P()
兩名O型血女兒£-0型血2O型血
=_?(/-/)!?(//)
22
=LPG)PG)1-
22
川
1
=G4
2.4白化病是一種隱性遺傳病,當隱性基因純合時(aa)即發病。己知雜合子(Aa)在群體中的
頻率為1/70,問一對夫妻生出一名白化病患兒的概率是多少?假如妻子是白化病患者,她生出白化病
患兒的概率又是多少?
P(/Q)二」P^aaAaxAQ)J
答:(1)已知7014
所以
PG1QX4Q旦手名QG)
=P(AaxAa)pQa^AaxAa)
=P(Aa)P(Aa)P^aa^axAa^
1
19600
17/177
P(Aa)=1P(QO|QQxAQ)=J_
(2)已知70
所以
F\aaxAQ等一名QQ)
=P^aaxAa)p^aa^iaxAa)
=P(QQ)PG1Q)P(QC|aaxAQ)
=(
1
140
2.5在圖2-3中J4為Aa個體,a在群體中的頻率極低,可排除a多于一次進入該系譜的可能
性,問亦為a的攜帶者的概率是多少?
9TQ9T99TO
答:設:事件A:nil含a,
OTO事件B:%含a,
34
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- DB31/T 632-2012出租汽車合理用能指南
- DB31/T 1318-2021奶牛結核病和布魯菌病區域凈化生物安全建設技術規范
- DB31/T 1114-2018公共場所飲用水水處理設備衛生管理規范
- 繼承房產債務清算責任界定與執行合同
- 量身定制辦公家具設計與生產合同
- 高效節能型儲能系統供應與安裝合同
- 燒烤網紅IP形象使用權購買與授權實施合同
- 食品經銷商合同協議書
- 供貨合同協議書怎么寫模板
- 學校入股協議書范本合同
- 《宮頸妊娠業務學習》課件
- 《環糊精包合技術》課件
- 《講衛生勤洗手》課件
- 膈肌麻痹學習課件
- 死亡登記培訓課件
- 八年級數學思政融合課教學設計勾股定理
- 肝臟手術中的止血技術與挑戰
- 信息安全專業大學生職業生涯規劃書
- 建筑物沉降監測應急預案
- 路面彎沉溫度修正系數
- 第三方工程驗收報告范本
評論
0/150
提交評論