




版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
教育統計與分析第1頁,課件共290頁,創作于2023年2月
第一章描述性統計§1.1怎樣獲取數據§1.2頻數分布§1.3集中量數§1.4差異量數END第2頁,課件共290頁,創作于2023年2月§1.1怎樣獲取數據統計學是一門研究數據的搜集、整理、分析與推斷方法的科學,單純對一組數據的面貌特征進行分析研究稱為描述性統計。選取樣本,通過對樣本的描述來推斷整體的特性,統計學上稱此為推斷性統計,簡稱為統計推斷。當我們根據樣本信息進行統計推斷時,勢必要冒導致錯誤結論的風險,因為樣本并非總是與總體一致。這樣我們就需要研究如何抽取樣本?什么樣的樣本較為合適?同時,還要考慮如何有效的處理和分析數據?如何設計最佳試驗方案以減少導致錯誤結論的風險,并應用數學理論計算出出現這種風險可能性的大小,描述這種可能性大小的數量指標稱為概率。運用概率論來研究統計學的學科稱為數理統計。第3頁,課件共290頁,創作于2023年2月
教育統計學是運用數理統計方法去研究教育現象的一門應用學科。教育學與心理學中許多問題借助于統計學都可以予以量化,從而揭示教育規律和心理規律。每個教育工作者都應該掌握這門科學方法,這對于改進教育管理水平,培養教育科研能力,正確開展教育與心理實驗,提高教學質量和實際工作效率都將是十分必要的。
我們把搜集記錄下來的數量依據稱為數據。實際工作中,一般采用抽樣調查的方法來取得數據,我們以一個例子來說明這種方法:“某地區初中一年級學生每星期約看幾小時電視?”是個需要統計的問題,某地區擁有眾多學校,不可能一一調查,因此我們只能從全地區所有初中一年級學生中抽出部分學生展開調查來獲取數據,統計學上稱此為抽樣調查。我們所考慮對象的全體統計學上稱為總體或母體,其中每一個對象稱為個體,而從總體中抽取的一部分個體稱為樣本或子樣,樣本中所含個體的數目稱為樣本容量,通常用字母n表示。樣本分為大樣本(n≥30)與小樣本(n<30),樣本容量的選取取決于實驗的條件和精度,樣本越大,反映總體的信息越充足,但計算量也越大,故樣本容量最好適當。第4頁,課件共290頁,創作于2023年2月
在抽樣調查中要求樣本具有下面兩個特征:1、能充分反映總體的信息。即每個個體被抽到的可能性相同,個體與個體之間互不影響,數學上稱為個體互相獨立;2、每個個體具有和總體相同的本質特性。即樣本具有某種代表性,數學上稱此為與總體同分布。滿足以上兩條的樣本稱為隨機樣本;從總體中抽出一個隨機樣本,稱為隨機抽樣。第5頁,課件共290頁,創作于2023年2月一、簡單隨機抽樣1、隨機數表法
隨機數表是根據數理統計的原理,由許多隨機數字排列起來的數字表,表中數字的構造方法是:利用計算機使0,1,…,9十個數字號碼中每次自動出現一個號碼,用這種方式得到一串數,編排成組(一般四個數為一組)。我們仍以“某地區初中一年級學生每星期約看幾小時電視”為例,如某地區有3000名初中一年級學生,需抽出容量為40的一個樣本。先將3000人從0000號編到3000號,第一步,閉上眼睛用鉛筆在表上任意劃一個點,規定如點到奇數則查第一頁,如點到偶數則查第二頁;第二步,在選定的那一頁上再點一次,由點中的數字決定從哪一行開始;最后再點一次決定從哪一個數起,然后以此為起點,開始以四位數字為一節讀下去,小于等于3000的選中,大于3000的舍去,直到取滿40個數據為止,這40個數據對應的學生即為選中的隨機樣本。第6頁,課件共290頁,創作于2023年2月2、抽簽法:抽簽法是將所有個體編號打亂次序用類似于抽簽的方法從中來獲取隨機樣本。例如,把寫有全班學生編號的卡片放進一只盒子里,把盒子搖幾搖使卡片混雜,再從盒中抽中5張卡片,卡片所對應學生的編號即為選中的隨機樣本。二、分層抽樣
分層抽樣是按一定標志把總體內的每個個體劃分為若干層,使相互差異小的個體集中在一層內,從而可以縮小各層內個體之間的差異程度,使樣本中各個個體在總體中散布更均勻。分層抽樣時,從各層抽取的樣本個數可以與各層個體數成比例。第7頁,課件共290頁,創作于2023年2月
具體做法是:把總體中個個體劃分為個不相重疊的部分,使每一部分包含的個體數分別為,且,則第層所含的樣本個體數為(1.1.1),其中為樣本容量,為第層的層權數。例如,要從某校210名7至9歲兒童中抽出三分之一進行智力測驗。已知該校7歲兒童有63人,8歲兒童有112人,9歲兒童有35人,現在用分層抽樣法確定各年齡組兒童入數。由(1.1.1)式得
(7歲組)=(210/3)×(63/210)=21(人),(8歲組)=(210/3)×(112/210)=37(人),(9歲組)=(210/3)×(35/210)=12(人)。第8頁,課件共290頁,創作于2023年2月三、等距抽樣
所謂等距抽樣法是把所有個體按順序排列起來,然后以確定的相等距離抽取隨機樣本。例如,某大學抽查部分學生作業進行檢查,先確定學生學號中的一個數,例如末位是3的學號,然后依次取各系各班學號末位是3的學生作業為樣本。顯然,這種方法人為地規定了距離,故抽樣的隨機性有所減弱。抽樣分有放回抽樣(從總體中抽出一個個體記下其特征后再放回總體,然后進行第二次抽樣)和無放回抽樣(從總體中抽出一個個體后不再放回去,再抽第二次)兩種方式。當總體內個體數目較多時,這兩種抽樣方式沒有本質區別。教育統計中一般采用無放回抽樣,但由于有放回抽樣能簡化某些計算,故當總體內個體數目較多時,我們可以看做是有放回抽樣。通過抽樣獲取數據離不開求實的科學態度和認真的工作作風,數據如果不準確、不完整、或有遺漏,不僅數據本身失去價值,而且以此進行分析推斷還會導致錯誤的結論。第9頁,課件共290頁,創作于2023年2月§1.2頻數分布
一、數據的基本類型二、頻數分布表三、累積頻數分布表四、頻數分布圖五、累積頻數分布曲線圖第10頁,課件共290頁,創作于2023年2月一、數據的基本類型
1、離散型數據
離散型數據一般指取整數值的數量指標,是計數性的,數據之間不能再劃分為更小的單位。例如學生的人數;有些教育現象的指標是按屬性來劃分的,例如學生能力分為優、良、中、差,用5代表優、4代表良、3代表中,2代表差,這樣得到的數據仍然是離散型的。第11頁,課件共290頁,創作于2023年2月2、連續型數據連續型數據一般指經過度量和測定而得到的數量指標。這類數據取值可以連續變化,盡管數據本身仍然是數軸上的點,但數據與數據之間可以無限細分,也就是數據的取值范圍可以充滿一個區間。例如學生的考試成績。連續型數據通常以小數形式出現,雖然有時也會以整數形式出現,但當提高精度后總會出現小數。如某學生期末語文成績為90分,我們可以記為90.0分。確定了數據類型,我們進一步利用頻數分布表和頻數分布圖來研究數據的變化規律。第12頁,課件共290頁,創作于2023年2月二、頻數分布表
一組數據中每個數據出現的次數稱為這個數據的頻數。按頻數分類列出的一覽表稱為頻數分布表。1、離散型數據的頻數分布表例1某幼兒園測定5歲組兒童智力,共7個項目。全園30名5歲兒童中有1人答對1項、3人答對2項、4人答對3項、8人答對4項、7人答對5項、5人答對6項、2人答對7項。我們列出頻數分布表如下:答對題數頻數答對題數頻數11572365347248總和30表1.130名兒童智力測定分布第13頁,課件共290頁,創作于2023年2月2、連續型數據的頻數分布表
68.079.080.083.062.059.080.081.061.583.067.097.063.593.076.097.584.564.075.088.091.078.567.094.081.070.086.572.085.094.078.091.060.075.582.091.095.052.076.580.0例2附中初二年級實驗班40名同學期末數學統考測驗得分如下:第14頁,課件共290頁,創作于2023年2月
這一組數據中最大值是97.5,最小值是52.0,可見數據分布很散,項數較多。因此我們將它們分組,組的范圍稱為組區間,每組的起止分別稱為組下限和組上限,每組的大小稱為組距,各組組距一般是相同的。
分組的原則是:100個以上的數據分為12~20組,數據較少則分為8~10組。組距為便于計算一組取為3、5、10較為合適,本例分為10組,組距取5。我們將組號放在表的第一列,組區間放在第二列,組中值記為,放在第三列,(上限+下限),然后數出各組的頻數放在第四列。第二組為(56.55~61.55),我們可以提高一位分點或降低一位分點,通常我們取二位小數,因此61.5應放在第二組。第15頁,課件共290頁,創作于2023年2月
有了組頻數,當然也可以算出組頻率(每組組頻數與總頻數之比),為了以后的方便,我們把頻率放在表的最后一列(表1.2),我們從中可以看出數據所呈現的統計規律性。表1.2附中初二年級實驗班期末數學統考測驗成績分布組號組區間組中值頻數頻率151.55-56.5554.0511/40256.55-61.5559.0533/40361.55-66.5564.0533/40466.55-71.5569.0244/40571.55-76.5574.555/40676.55-81.5579.0588/40781.55-86.5584.0566/40886.55-91.5589.0544/40991.56-96.5594.544/401096.55-100.0098.2522/40總和
401.00第16頁,課件共290頁,創作于2023年2月
綜上,對于分組數據編制頻數分布表歸納為以下幾步:
第一步找極差,最大值-最小值,由大致了解數據的差異范圍。第二步定組距,一般為便于計算,多取為2、3、5、10等。第三步定組數,一般數據在100個以上,分為12~20組,數據較少則分為8-10組,也可以借用下面公式確定近似組數。組數,其中方括號為的整數部分,為組距,
例2中,。第四步定分點,通常使分點比原測量精度多一位或少一位,要注意的是最低組的上、下限應能包括最小值,最高組的上、下限應能包括最大值。第五步數頻數,根據組限歸類,數出全體數據落入每一組的個數。頻數分布表也有其缺點,我們在下一節會看到計算描述一組數據特征的數據依賴于各組的組中值,因而出現了誤差。但是在理論上我們一般假定各組內頻數分布是均勻的,因而各組的誤差會相互抵償,使總誤差減少。第17頁,課件共290頁,創作于2023年2月
三、累積頻數分布表
累積頻數分布表的列法是在頻數分布表上添加一列累積頻數。具體方法是:從數值最小的一組開始,逐組累加頻數至數值最大的一組,最后累加的頻數與總頻數相等。把累積頻數除以總頻數,得到相應的累積頻率;把累積頻率乘以100,得到相應的累積百分比。下表是例2中數據的累積頻數、累積頻率,累積百分比分布表。第18頁,課件共290頁,創作于2023年2月組號組區間組中值頻數頻率累積頻數累積頻率累積百分比151.55-56.5554.0510.02510.0252.5256.55-61.5559.0530.07540.10010.0361.55-66.5564.0530.07570.17517.5466.55-71.5569.0540.100110.27527.5571.55-76.5574.0550.125160.40040.0676.55-81.5579.0580.200240.60060.0781.55-86.5584.0560.150300.75075.0886.55-91.5589.0540.100340.85085.0991.56-96.5594.0540.100380.95095.01096.5-100.0098.2520.050401.00100.00總和
401.000
表1.3附中初二年級實驗班期末數學統考累積頻數分布表第19頁,課件共290頁,創作于2023年2月四、頻數分布圖
通常我們用頻數分布圖來表示數據的規律性,常見的頻數分布圖為直方圖。直方圖是在橫軸上標出組距,縱軸上標出頻率與組距之比,然后以每組組距為底邊,相應的頻率與組距之比為高作矩形。顯然,每個矩形的面積恰好等于數據落在該矩形所對應組內的頻率,這樣所有矩形面積總和為總頻率1。直方圖是利用各個矩形的高低來描繪頻數分布情況的。圖1.1是例2中數據的直方圖,圖中斷裂號表示由0至51.55之間的距離是縮短了的。有時為了簡單,橫軸上只標出組中值,包括組中值在內的區間即為本組組距。54.05
59.05
64.05
69.05
74.05
79.05
84.05
89.05
94.05
98.25
0.01
0.02
0.03
0.04
頻率組距
圖1.4初二年級實驗班期末數學統考測驗成績直方圖第20頁,課件共290頁,創作于2023年2月
五、累積頻數分布曲線圖累積頻數分布曲線圖橫軸取每組上限,縱軸取累積頻數,在相交處畫點,順次連續各點成一上升曲線,又稱S型或肩型曲線,曲線的最低點應與基線相接。以累積頻率為縱軸上點,重復上述過程則得到累積頻率分布曲線圖。再把累積頻率乘以100,則得到累積百分比,以累積百分比為縱軸上點,重復上述過程,則得到累積百分比分布曲線圖。為了方便,一般把累積頻數分布曲線和累積百分比分布曲線放在一張圖上,左邊縱軸為累積頻數,右邊縱軸為累積百分比。作圖時要求兩縱軸平行等長,左邊按總頻數劃分,右邊因為累積百分比最大是100,故劃分為100等份。圖1.3是例2中數據的累積頻數,累積百分比分布曲線圖。第21頁,課件共290頁,創作于2023年2月56..55
61..55
66..55
71..55
76..55
81..55
86..55
91..55
96..55
10
20
30
40
50
60
70
80
90
100
累積百分比
累積頻數
5
10
15
20
25
30
35
40
圖1.3累積頻數、累積百分比曲線圖第22頁,課件共290頁,創作于2023年2月
這種曲線分布圖有一定的實用價值,可以從圖中插值,回答小于或大于某值的頻數有多少,或回答占總頻數百分之幾的頻數小于或大于某值。例如橫軸上給出81.55分,可以從此點向上作垂直于橫軸的直線和曲線相交于一點,再由這一點向右作平行于橫軸的直線與縱軸右側交于一點為60,這表明81.55分位于百分之六十的位置上,說明有百分之六十的學生得分低于81.55分。反之,如果知道右側縱軸上的百分位置,在橫軸上也能找到相應的分數,這個分數在下一節稱為百分位數,例如,如有百分之六十的學生成績在某學生之下,那么該生得分大約為81.55分。第23頁,課件共290頁,創作于2023年2月§1.3集中量數我們需要計算出描述一組數據特征的某些量數。例如,一組數據向何處集中?出現最多的數值是什么?其中間數值在哪里?這些能夠反映一組數據集中趨勢或一般水平的數值,統計學上稱為集中量數或水平值。常見的集中量數有平均數、眾數、中數。一、平均數平均數表示一組數據集中的位置,又稱為均值。1、算術平均數算術平均數是所有數據之和除以數據個數的商,記為.讀為“杠”。①不分組數據求算術平均數(1.3.1)其中為第個數據為數據總個數。第24頁,課件共290頁,創作于2023年2月
例1某校射擊隊5名隊員在一次射擊中,射中的環數分別為6,7,8,9,10,求平均射中環數。
解:由(1.3.1)式(環)。如果數據中有重復數,我們采用加權形式求算術平均數。“權”為所占的比重,比率,頻率都可以看做為一種“權”。例如,某校射擊隊5名隊員在一次射擊中射中的環數分別為6,6,8,10,10,則把上式一般化得到,其中為第個數的頻數,為第個數的頻率。我們稱由(1.3.2)式定義的為以頻率為權的加權平均數,顯然,權均為1/N的加權平均數為算術平均數。第25頁,課件共290頁,創作于2023年2月②分組數據求算術平均數(組中值法)對于分組數據先要列出頻數分布表,再把每組的各個數據都看作與組中值相同的數,這是因為每組內各個數據雖然有大有小,但其相對于組中值的誤差最終趨于抵消,故可以把每組的組中值做為每組的代表值,由此得到簡記為(1.3.3),其中為第組的組中值,其中為組數,為第組的組頻數。
我們稱由(1.3.3)式求平均數的方法為組中值法,由于我們假定每組中數據都與每組組中值相同,因此所得平均數結果不可能與將所有數據相加再除以數據總個數所得結果相同,利用組中值法求出的平均數只是一個近似值。第26頁,課件共290頁,創作于2023年2月例2求§1.2例2中數據的算術平均數。解:把表1.2中數據代入(1.3.3)式得到③的基本性質常數性為常數;(1.3.4)齊次性(1.3.5)可加性(1.3.6)特別(1.3.7)第27頁,課件共290頁,創作于2023年2月2、加權平均數幾個作用在不同比重上的平均數再進行平均稱為加權平均數。例如,是個數的平均數,是個數的平均數,是個數的平均數,則(1.3.8),如果則(1.3.9)顯然,以頻率為權的加權平均數公式(1.3.2)是(1.3.9)的特殊情形,這是因為由平均數的常數性,,對于分組數據用加權形式求,公式(1.3.3)中相當于第個數的平均數。第28頁,課件共290頁,創作于2023年2月例3大學南路小學一年級實驗班40名學生期末數學測驗平均分數為82.59,對比班45名學生期末數學測驗平均分數為69.68,求全年級期末數學測驗平均成績。解:由公式(1.3.8)(分).
例4某校考察學生成績,期末考試占全學期的85%,平時成績(包括作業,期中考試),占全學期的15%.如果某學生期末成績為75分,平時成績為90分,求該生全學期平均成績。解由公式(1.3.8)(分)第29頁,課件共290頁,創作于2023年2月3、幾何平均數幾何平均數是一組數據中個數據連乘積的次方根,記為,其計算公式為
(1.3.10)例5某校1999年至2001年招生人數如表1.4,求該校平均每年招生增長速度。表1.4某校1999年至2001年招生人數年份招生人數增長比率19999000200011001100/900200112001200/1100第30頁,課件共290頁,創作于2023年2月解:由(1.3.10)式.故該校招生平均年增長速度為15%.實際應用中,如果N≥3,可以利用對數簡化計算,方法是對兩邊取對數,得到,查常用對數表得到,再查反對數表得到。第31頁,課件共290頁,創作于2023年2月二、眾數數據集合中出現次數最多的那個數稱為眾數,用表示。1、觀察法①離散型數據求眾數
例如,調查全班40名學生業余愛好,有20人參加體育小組,15人參加音樂小組,5人參加無線電小組。如果用1表示參加體育小組,2表示參加音樂小組,3表示參加無線電小組,則1出現次數最多,因此眾數就是1。②分組數據求眾數
首先列出頻數分布表,再用每組組中值表示該組一般水平,則頻數最多一組的組中值即為眾數。顯然,此眾數是較為粗略的。第32頁,課件共290頁,創作于2023年2月2、公式法如果用分別表示眾數所在組下限和上限,表示與眾數所在組的下限相鄰組的頻數,表示與眾數所在組的上限相鄰組的頻數,如果眾數是自眾數所在組的下限向上擠,則眾數所在位置是再加上區間長度(組距)的倍處,這是由于在相鄰組總頻數中占
的比重。反過來,如果眾數是自眾數所在組的上限向下擠,那么眾數所在位置是再減去區間長度的倍處。由此,我們得到求眾數的近似公式為(1.3.13)(1.3.14)第33頁,課件共290頁,創作于2023年2月三、中數中數指一組依次序排列的數據中位于正中間的數,它正好分全體頻數為相等的兩部分,用表示。1、不分組數據求中數①數據個數為奇數求例7某校男子體操隊9名隊員5項比賽總積分分別為:47,49,42,39,45,41,37,46,40,求這9個數據的中數。解:把9個數據依大小次序排列為:37,39,40,41,42,45,46,47,49。顯然,正中的42為中數,因為42左右各有4個數。由此,我們得到數據個數為奇數時,中數為第個數目的數值。第34頁,課件共290頁,創作于2023年2月②數據個數為偶數求例8求42,45,50,54,57,58的中數。解:由于N=6,由中數定義,中數應在50與54中間,自然我們取其平均數為中數,即
由此,數據個數為偶數時,以最中間兩個數的平均數為中數。第35頁,課件共290頁,創作于2023年2月
2、分組數據求中數例9下表給出25個數據的頻數分布,求中數。表1.525個數據的頻數分布組區間組中值頻數75-8077.5170-7572.5365-7067.5560-6562.51055-6057.5450-4552.52第36頁,課件共290頁,創作于2023年2月
解由于N=25,因此中數為第13個數,在(60-65)這一組,而這一組以下有6個數據,須再向上數7個數,才能到達第13個數。而每個區間的長度(組距)為5,如果(60-65)這一組內10個數據是均勻分布的,那么為到達第13個數,需要在中數所在組的下限處加上區間長度的十分之七,即中數應為因此,我們得到(1.3.15)。如果取中數所在組上限U,相應有(1.3.16)。其中,為中數所在組以上累積頻數,為中數所在組以下累積頻數。第37頁,課件共290頁,創作于2023年2月
在§1.2,我們接觸到了百分位數,介紹了通過累積百分比分布圖找百分位數的方法,實際上,中數也是一個百分位數,它正好位于百分之五十的位置上。一般的百分位數用表示,稱為百分之分位數,它表示在此百分位數以下的頻數占總頻數的百分之。由公式(1.3.15)(1.3.16),我們類似可得
(1.3.17)
(1.3.18)其中為所在組下限,為所在組上限,為所在組以下累積頻數,為所在組以上累積頻數,為所在組頻數,i為組距。例9中如求,由(1.3.17)式得第38頁,課件共290頁,創作于2023年2月
四、三種集中量數的比較
集中量數的作用是指出一組數據中有代表性的數值,同一組數值的三種集中量其值一般是不同的,故其實際意義也是有區別的。例如,某中學數學教研室教師年齡分別為22,24,24,25,55(歲),現在問哪一年齡具有代表性?顯然,平均數30不能作為水平值,這是因為平均數與每一個數據有關,故受極端值55的影響而失去代表性。因此,選擇中數或眾數24作為這個教研室教師年齡的一般水平較為合適。又如在一次測驗中,某小組9名學生中有5個80分,3個85分,1個90分.如果用中數或眾數80分來作為一般水平值是不合適的,這是因為這次測驗的成績分布較為特殊,且每個分數相差不大。因此,在這種情形要用平均數82.5分作為集中趨勢的度量。第39頁,課件共290頁,創作于2023年2月
三種集中量的共性是反映了一組數據的集中位置,指出了一組數據中有典型意義的數。平均數應用最為廣泛,因為它考慮到了每一個數據,且便于用公式表示,其缺點是當數據極端出現較大或較小數時,作為衡量集中趨勢的度量會受到較大影響。中數是位于一組數據正中的一個數,它不受極端值的影響,但如果數據集中成明顯不同且差異很大的幾組時,則不易反映數據的集中趨勢。中數不與具體某個數有關,而只是與數據的個數有關,因此,只要中間數值不改變,排列順序不改變,其兩邊數值任意改變并不影響中數的值。眾數由于出現頻數最多,往往被認為是一組數據中最典型的一個。但在確定眾數時不受其它數據的影響,這是眾數最大的缺陷,而且,如果一組數據中有幾個數同時符合眾數定義時,數則失去代表性。眾數可以消除極端數值的影響,但計算眾數大多是粗略的,因此,作為集中趨勢的度量,價值較小。第40頁,課件共290頁,創作于2023年2月英國統計學家皮爾遜(Pearson)根據多年經驗,發現當頻數分布完全對稱時,平均數,中數,眾數重合.在頻數分布不對稱時,這三種量數的關系為即這樣,知道其中兩個,可以近似求出第三個。第41頁,課件共290頁,創作于2023年2月§1.4差異量數描述一組數據集中趨勢的水平值只是從一個側面反映了一組數據的特征。在實際統計工作中我們不僅要考察一組數據的集中位置,還要考察其分散程度,這種用來衡量一組數據分散程度(集中程度)的量稱為差異量數。常見的差異量數有:極差、四分位差、平均差、標準差。一、極差極差又稱為全距,是一組數據中最大值與最小值的差,用R表示。R=最大值-最小值(1.4.1)極差是衡量一組數據分散程度粗略的度量值。在繪制頻數分布表時我們已經看到,通過極差可以大致看出一組數據的范圍。第42頁,課件共290頁,創作于2023年2月
對于分組數據,R取最高一組的上限與最低一組的下限之差。由于極差只取決于兩個極端數據,不能反映其它數據的分散情況,因此,在大多數情形極差不適用于衡量一組數據的分散程度。
例1兩個小組學生身高(米)分別為:甲方1.80,1.53,1.52,1.51,1.50乙方1.80,1.79,1.78,1.77,1.50顯然,兩組數據的極差都是0.30,但這兩組數據有很大的差異
第43頁,課件共290頁,創作于2023年2月二、四分位差
四分位差指與之差的一半,用來描述頻數分布中間數值的分散程度,用表示。都是百分位數,顯然,再加上(中數)正好分總頻數為相等的四部分,為了方便有時把記為,稱為第一四分位數,以下占總頻數的四分之一;把記為,稱為第二四分位數,以下占總頻數的四分之二;把記為,稱為第三四分位數,以下占總頻數的四分之三,這樣,的計算公式為顯然,四分位差是相對于中數來衡量一組數據分散程度的。這是因為,如果一組數據頻數分布對稱,則有第44頁,課件共290頁,創作于2023年2月由求百分位數公式(1.3.17)類似可得其中分別為第一,第三四分位數所在組下限,分別為第一,第三四分位數所在組以下累積頻數,分別為第一,第三四分位數所在組頻數,i為組距。如果數據未分組,只須把每個數據依大小順序排列,用總頻數N除以4,即可得到四分位。第45頁,課件共290頁,創作于2023年2月例2求20名學生一次語文測驗成績的四分位差。解把20個數據按大小排列為66,67,67,69,70
71,72,73,74,76
Q1
Q2
85,86,88,88,90
92,94,97,98,90
Q3
則66,67,67,69,70
71,72,73,74,76
Q1
Q2
85,86,88,88,90
92,94,97,98,90
Q3
第46頁,課件共290頁,創作于2023年2月三、平均差我們設想找到一個相對于平均數來衡量一組數據分散程度的差異量,這就是平均差,用M·D表示。例3兩個女聲小合唱隊身高(米)分別為:甲隊1.60,1.62,1.59,1.60,1.59乙隊1.80,1.60,1.50,1.50,1.60顯然,。但乙隊隊員較甲隊隊員身高波動大,這是因為每個隊員的身高相對于平均數都有一個離差,離差越小,越集中于,但離差有正有負,如果將全部離差加起來,由于,那么即正、負離差相抵消,故我們在考慮總離差時,可以將每個離差取絕對值再加起來。這樣并不影響每個數據偏離平均數的程度,因為離差的長度為了使所有離差再集中,我們再取其平均得到
(1.4.5)第47頁,課件共290頁,創作于2023年2月如果數據已分組,類似有
(1.4.6)例3中,可見,乙隊隊員身高平均差大大高于甲隊,因此,乙隊隊員身高差異較甲隊大,即分散程度較甲隊大。采用平均差來衡量數據的分散程度要對離差取絕對值,但絕對值運算復雜且不便于代數方法處理。如果給每個離差平方,并不影響其分散程度,且可以避免總離差為零。因此,我們引入另一個衡量一組數據分散程度的差異量——標準差。第48頁,課件共290頁,創作于2023年2月四、標準差標準差是方差的平方根,又稱為均方差,用S表示。方差是各個數據與平均數離差的平方的算術平均數,用表示。公式為(1.4.7)
(1.4.8)對于分組數據,類似有
(1.4.9)其中為第i組的組頻數,為第i組的組中值。第49頁,課件共290頁,創作于2023年2月計算還可利用以下簡化公式:(1.4.10)這是因為對于分組數據,類似簡化公式為(1.4.11)其中a為假定平均數,即頻數最多一組的組中值。第50頁,課件共290頁,創作于2023年2月例4某區50名6歲男童身高(單位:cm)分組數據如表1.6:表1.650名6歲男童身高分布組區間頻數組區間頻數108.5以下1118.5-120.511108.5-110.53120.5-122.59110.5-112.51122.5-124.55112.5-114.52124.5-126.53114.5-116.56126.5以上2116.5-118.57
求標準差S.第51頁,課件共290頁,創作于2023年2月解N=50,取a=119.5,由公式(1.4.11)得到標準差是衡量一組數據分散程度最有效的量數,標準差越小,這組數據越向平均數集中,即分布的差異越小;標準差越大,這組數據偏離平均數的程度越大,即分布的差異也越大。故第52頁,課件共290頁,創作于2023年2月五、差異系數差異系數也稱為相對差異量,常用倍數式百分數表示,它從相對意義上來衡量一組數據的分散程度。而受其計量單位、水平值影響的差異量稱為絕對差異量,極差,四分位差,平均差,標準差都是絕對差異量,簡稱為差異量數。
常用的差異系數有:極差系數,標準差系數,四分位差系數等。第53頁,課件共290頁,創作于2023年2月1)極差系數極差系數為一組數據中最大值與最小值的倍數,即極差系數=最大值/最小值(1.4.12)
例5某班數學統編教材與實驗教材測驗成績如下表,試用極差系數比較這兩組數據的差異大小。表1.7某班數學統編教材與實驗教材測驗成績
最高分最低分極差極差系數統編教材10080201.25實驗教材8060201.33由表1.7可見,盡管極差一樣,但由于統編教材得分普遍高,因此相對來說,其差異程度要低于實驗教材。第54頁,課件共290頁,創作于2023年2月2)標準差系數標準差系數為標準差與其算術平均數的比值的百分數,記為C·V.(1.4.13)顯然,標準差系數實際上是以為單位來衡量分散程度的。由于化成了百分數形式,故是一個無單位限制的抽象數值。C·V越小,說明分散程度越小。例6某幼兒園學前班6歲男童平均體重為20.50kg,平均身高為118.20cm,體重的標準差為1.80kg,身高的標準差為4.20cm,試用標準差系數比較體重與身高的差異程度。解由公式(1.4.13),體重身高可見,體重的差異程度高于身高的差異程度。第55頁,課件共290頁,創作于2023年2月例7某班學生第一次外語測驗平均分數為70.2分,標準差為18.5分。經采取補習措施,不及格率有所下降,第二次測驗平均分數為78.5分,標準差為12.2分,試用標準差系數比較兩次外語測驗成績的差異程度。解由公式(1.4.13),第一次測驗第二次測驗.可見,第二次測驗成績的差異程度較小,說明經補習后,不但平均成績有所提高,而且較第一次測驗成績相對于平均數更為集中。關于四分位差系數,由于是相對于中數來衡量分散程度的,故類似于標準差系數公式(1.4.13),四分位差系數公式為四分位差系數=(1.4.14)其中Q為四分位差,為中數。第56頁,課件共290頁,創作于2023年2月六、幾種差異量數的比較
差異量數是相對于集中量數來定義的,因此,選用合適的差異量數首先要注意到集中量數的選取。例如,集中量數選為中數,則差異量數選為四分位差;如果集中量數選為平均數,則差異量數選為平均差或標準差。其次,由于各種差異量數受其一定范圍的限制,在選用時既要考慮到能夠較為理想的反映一組數據的分散程度,又要便于計算,下面對幾種差異量數作一簡單比較。第57頁,課件共290頁,創作于2023年2月
極差只是在大范圍內粗略的衡量分散程度,且受極端數值的影響較大,不能反映全部數據的分散程度,一般不適用,但由于計算簡單,可以作為一種衡量分散程度的大致估計。四分位差相對于中數來考慮分散程度,意義明確,較好地反映了中間數據偏離中數的程度。但是,四分位差不能考慮兩端數據偏離中數的程度,也就是說沒有反映全部數據的分散情況。因此,只有當集中量數選為中數時,用四分位差來衡量一組數據的分散程度較為合適。
標準差是最常用、最為理想的差異量,原因有三條:①相對衡量指標平均數是最常用的集中量;②標準差考慮每一數據與平均數離差的大小,因此能夠全面考察一組數據的分散程度;③標準差寫成差方和的形式便于進行代數處理。當頻數分布完全對稱時,各種差異量數有以下關系式:S=1.2533M?D,Q=0.6745S,Q=0.8453M?D.第58頁,課件共290頁,創作于2023年2月第二章概率論基礎§2.1事件與概率§2.2隨機變量及常見分布§2.3抽樣分布定理END第59頁,課件共290頁,創作于2023年2月§2.1事件與概率現代統計學的重要工作之一是要通過部分(樣本)來推斷總體,由于樣本僅僅是總體的一部分,因此進行統計推斷勢必要冒導致錯誤結論的風險,描述這種風險出現可能性大小的數量指標稱為概率。一、事件二、概率第60頁,課件共290頁,創作于2023年2月一、事件(一)隨機試驗對于一個試驗E,如果在相同條件下可以重復進行,而且試驗的結果事先不能準確預言,我們稱試驗E為隨機試驗,簡稱為試驗。(二)隨機事件
隨機試驗的某些結果所構成的集合稱為隨機事件,簡稱為事件,用大寫英文字母A、B、C等表示。基本事件是最簡單的事件,不可再分的事件,例如擲一顆骰子出現1點。必然事件指隨機試驗必然會發生的結果,用大寫希臘字母Ω表示,例如擲一顆骰子出現不大于6點。
第61頁,課件共290頁,創作于2023年2月不可能事件指隨機試驗不可能發生的結果,用希臘字母表示,例如擲一顆骰子出現小于1點。我們把所有基本事件構成的集合稱為樣本空間,也用Ω表示。進行一次試驗必然會出現樣本空間Ω中的一個基本結果,這意味著樣本空間Ω是一個必然事件。(三)事件的關系
由于樣本空間Ω是所有基本事件構成的集合,我們自然可以把事件A看成是Ω的一個子集合,把不可能事件看成一個空集合,把基本事件看成Ω中的一個元素。這樣,事件的關系和運算可以歸結為集合的關系和運算。第62頁,課件共290頁,創作于2023年2月1、包含關系,若A發生必定導致事件B發生,稱B包含A,或A被B包含,記為AB。例如,擲一顆骰子,A為出現2點,B為出現偶數點,則A發生必定導致B發生,則AB。如果AB,BA,則稱A與B相等,記為A=B。2、事件的并(和),若事件由A與B至少發生一個的事件所組成,稱為A與B的并,記為A∪B或(A+B)。事件A與B的并也可說成是:或者A發生,或者B發生。例如,擲一顆骰子,A為出現3點,B為出現偶數點,則A∪B={2,3,4,6}。第63頁,課件共290頁,創作于2023年2月3、事件的交(積),若事件由A、B同時發生的事件組成,稱為A與B的交,記為A∩B或(A·B),即集A與集B的公共部分,顯然,A∩Ω=A,A∩=。例如,擲一顆骰子,A為出現奇數點,B為出現1點,則A∩B={1}。4、事件的差,使事件A發生而事件B不發生的事件稱為A與B的差,記為A-B。例如,擲一顆骰子,A為出現偶數點,B為出現4及4以上點,則A-B={2}。5、事件的互斥(互不相容),若事件A與事件B不能同時發生,即集A與集B的交為一空集,稱A與B互斥,記為A∩B=。例如,擲一顆骰子,A為出現2點,B為出現奇數點,則A∩B=,即A,B互斥。
第64頁,課件共290頁,創作于2023年2月如果有n個事件,它們中的任意兩個事件互斥,即,,稱這n個事件兩兩互斥。同樣,兩個事件并與交的概念也可推廣到任意多個事件上去。6、事件的逆,使事件不發生的事件,稱為的逆事件或對立事件,記為,如果,,稱與互逆。顯然,=Ω-A,兩個互逆事件A,B滿足關系式:A∪B=Ω,A∩B=。由此,我們立刻可以得出結論,兩個互逆事件一定互斥,反之未必。例如,擲一顆骰子,A為出現奇數點,B為出現偶數點,則=B,=A即A,B互逆。第65頁,課件共290頁,創作于2023年2月二、概率
概率就是某事件出現可能性大小的一個數,記為P(A)。(一)概率的統計定義設A為某測驗下的一個事件,若將此試驗重復n次,事件A出現了m次,稱比值m/n為n次試驗中A出現的頻率記為Q(A)=(2.1.1)頻率Q從某種意義上也反映了某事件出現可能性的大小,但頻率Q隨試驗次數n在變化,因此,用頻率來描述事件出現可能性的大小是不能令人滿意的。第66頁,課件共290頁,創作于2023年2月當多次重復這種試驗時,就會呈現出某種規律性。例如,歷史上有人多次拋擲一枚硬幣,其正面出現的頻率穩定在0.5左右,我們把頻率的這種特性稱為穩定性,把數值0.5稱為穩定值,記為p。某事件A的概率P(A)與Q(A)有著密切聯系,當試驗次數相當多時,接近于,而頻率的穩定性從客觀上表明這個數是存在的。因此,我們稱頻率的穩定值為事件的統計概率,記為(2.1.2)實際應用中,統計概率的精確值是不易求得的,一般,當試驗次數n適當大時,我們取頻率Q為概率P的近似值。第67頁,課件共290頁,創作于2023年2月(二)概率的古典定義
“從編上號的30名學生中隨機抽一人,有30個可能的基本結果,而且抽到每一名學生的機會均等,即抽到每一名學生的可能性都是1/30”。所進行的試驗有以下兩個特征:1)隨機試驗有有限多個基本結果,即2)每個基本結果出現是等可能的,即我們稱具有上述特征的試驗為古典型試驗,有關古典型試驗中的概率模型稱為古典概型。例如,從裝有4份考題的袋中任抽一份進行測驗,有4個基本結果,由于抽取是隨機的,各份考題外觀一樣,誰也不比誰特殊,那么抽到任意一份考題當然是等可能的,即抽到任意一份考題的概率為1/4。第68頁,課件共290頁,創作于2023年2月對于古典概型,若事件A由m個基本事件復合而成,即,那么(2.1.3)其中為基本事件總數,為A所包含基本事件數。我們稱(2.1.3)式為概率的古典定義。例1書架上有5本中文書,3本外文書,某人從書架上任取3本,求其中恰有2本中文書的概率。解:設從書架上任取3本書恰有2本中文書為A,則由公式(2.1.3),顯然有第69頁,課件共290頁,創作于2023年2月例2某班52名學生分為4個組,每組13人.如果來訪記者找該班任意4名學生談話,求(1)這4名學生都是第一組學生的概率;(2)每組各有1名學生的概率。解:從52名學生中任抽4人的組合數為設4名學生都是第一組學生為A,而有利于A的組合數為,由公式(2.1.3)(2)設每組各有1名學生為B,而有利于B的組合數為由公式(2.1.3)第70頁,課件共290頁,創作于2023年2月(三)概率的數學定義
從統計概型、古典概型的實際意義出發,事件的概率滿足以下三條基本公理:
1、非負性P(A)≥0(2.1.4)2、規范性P(Ω)=1(2.1.5)3、可加性兩兩互斥(2.1.6)我們稱滿足以上三條公理的集合的函數為概率,這種定義事件概率的方法稱為概率的數學定義或公理化定義.第71頁,課件共290頁,創作于2023年2月概率具有以下性質:性質1減法公式(2.1.7)證:從而有性質2一般加法公式(2.1.8)證:
第72頁,課件共290頁,創作于2023年2月例3某學生從10道試題中任抽一題口試,如果抽到每一道題是等可能的,求抽到第一題或第二題的概率。解:設抽到第一題為事件A,抽到第二題為事件B,則抽到第一題或第二題為A+B。因為A,B互斥,由可加性第73頁,課件共290頁,創作于2023年2月性質3逆事件概率公式(2.1.9)證:從而有。性質4(2.1.10)證:從而有性質5P(AB)=P(A)P(B),A與B獨立(即A的概率與B發生與否無關)(2.1.11)第74頁,課件共290頁,創作于2023年2月例4某學生從5個試題中任抽一題口試,抽取采用有放回方式,求該學生兩次都抽到試題1的概率。解:設該學生第一次抽到試題1為A,第二次抽到試題1為B,由于A,B獨立,則有第75頁,課件共290頁,創作于2023年2月§2.2隨機變量及常見分布一、隨機變量二、二項分布三、正態分布
第76頁,課件共290頁,創作于2023年2月一、隨機變量用“X=0”,“X=1”分別表示擲一枚硬幣出現正面,擲一枚硬幣出現反面。這樣,樣本空間中的每一結果都唯一對應X的一個實數值,由此我們給出隨機變量的定義如下:定義2.2.1對于隨機試驗E的每一可能結果,唯一對應于一個實數值,稱為隨機變量,簡記為X。由于數據有離散和連續之分,隨機變量也分為離散型和連續型兩種。(一)離散型隨機變量及概率分布列如果隨機變量X取有限或可數多個值,我們稱X為離散型隨機變量,所謂可數即X的取值個數和自然數的個數是對等的。第77頁,課件共290頁,創作于2023年2月定義2.2.2散型隨機變量X取值為;相應取這些值的概率為,稱為的概率分布列,分布列也可用下表來表示:表2.1離散型變量的概率分布…………其中滿足①(2.2.1)②(2.2.2)第78頁,課件共290頁,創作于2023年2月
例1某學生憑機遇做一道正誤選擇題,則做對題數X為一隨機變量,其概率分布列為01其中X=0表示做錯,X=1表示做對。一般,稱具有分布列(2.2.3)的隨機變量X為服從0—1分布的隨機變量,顯然,(2.2.3)式滿足分布列性質①,②。第79頁,課件共290頁,創作于2023年2月例2某學生參加一項智力競賽,共回答3個問題,求該生答對題數的概率分布列。解:設答對題數為k,k=0,1,2,3由于P(X=k)=,故分布列為X01231/83/83/81/8第80頁,課件共290頁,創作于2023年2月(二)連續型隨機變量及概率密度函數如果隨機變量X取值充滿數軸的某個區間,也就是說,X的取值是連續變化的,我們稱這樣的隨機變量X為連續型隨機變量。由于連續型隨機變量取值充滿某個區間,我們往往關心的是X取值于某個區間的概率。連續型隨機變量X取值于一個區間的概率分布情況是用概率密度函數來描述的。第81頁,課件共290頁,創作于2023年2月定義2.2.3設連續型隨機變量X取值于區間為任意實數,如果存在非負可積函數,則(2.2.4)成立。我們稱p(x)為X的概率密度函數,簡稱為概率密度,且p(x)滿足①(2.2.5)②(2.2.6)由(2.2.4)式,顯然有,這表明連續型隨機變量取單點值的概率為零.由此,我們得到
P(a≤X<b)=P(a<X<b)=P(a<X≤b)=P(a≤X≤b)。第82頁,課件共290頁,創作于2023年2月例33路公共汽車每5分鐘來一趟,其乘客候車時間X為一隨機變量,求:①概率密度p(x);②候車時間不超過3分鐘的概率。解:①由于候車時間X在5分鐘內是等可能出現的,故其概率密度為一常值C,由概率密度性質(2.2.6)有,從而C=②由(2.2.4)式得我們稱例3中的隨機變量X在區間(0,5)內服從均勻分布,或等概分布。一般,若隨機變量X在區間(a,b)內服從均勻分布,則概率密度為(2.2.7)第83頁,課件共290頁,創作于2023年2月(三)隨機變量的分布函數定義2.2.4設X為一隨機變量,稱(2.2.8)為X的分布函數。
分布函數F(x)具有以下性質:①對任意實數x有(2.2.9)②F(x)是非降函數,當x1<x2時有(2.2.10)
③F(x)在數軸的每一個點處是左連續的,即當時有(2.2.11)第84頁,課件共290頁,創作于2023年2月若X為離散型隨機變量,則X的分布函數為(2.2.12)若X為連續型隨機變量,p(x)為概率密度,則X的分布函數為(2.2.13)由微積分知識,假定F(x)的導函數存在,則在p(x)的連續點上,有
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 電瓶車轉賣協議合同模板
- 電力工程勘察合同協議
- 電子顯示屏合同協議
- 2025至2030年中國電子絕緣制品數據監測研究報告
- 小故事感悟大安全
- 2025至2030年中國燃油驅動清洗機數據監測研究報告
- 2024年新型植物保護解決方案試題及答案
- 2025至2030年中國沙發坐墊數據監測研究報告
- 2025至2030年中國時尚面料數據監測研究報告
- 2025至2030年中國無托板砌塊機數據監測研究報告
- 2025年民航華北空管局招聘筆試參考題庫含答案解析
- 倉庫辣椒管理制度內容
- JJF(黔) 84-2024 便攜式制動性能測試儀校準裝置校準規范
- 裝飾裝修工程施工機械、物資材料、勞動力的配備及總體計劃
- 足浴店衛生管理規章制度模版(3篇)
- 衡重式及重力式擋土墻自動計算表
- 廣告制作投訴處理規則
- 針刺傷護理文獻分享
- 《名片設計教程》課件
- 社區工作職業道德培訓
- 手機支架供貨合同模板
評論
0/150
提交評論