數(shù)據獲取處理_第1頁
數(shù)據獲取處理_第2頁
數(shù)據獲取處理_第3頁
數(shù)據獲取處理_第4頁
數(shù)據獲取處理_第5頁
已閱讀5頁,還剩58頁未讀 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

數(shù)據獲取處理第一頁,共六十三頁,編輯于2023年,星期三

樣本并非總是與總體一致。這樣我們就需要研究如何抽取樣本?什么樣的樣本較為合適?同時,還要考慮如何有效的處理和分析數(shù)據,如何設計最佳試驗方案以減少導致錯誤結論的風險。應用數(shù)學理論計算出出現(xiàn)這種風險可能性的大小,描述這種可能性大小的數(shù)量指標稱為概率。運用概率論來研究統(tǒng)計學的學科稱為數(shù)理統(tǒng)計。第二頁,共六十三頁,編輯于2023年,星期三1.怎樣獲取數(shù)據描述性統(tǒng)計單純對一組數(shù)據的面貌特征進行分析研究推斷性統(tǒng)計選取樣本,通過對樣本的描述來推斷整體的特性統(tǒng)計方法第三頁,共六十三頁,編輯于2023年,星期三我們把搜集記錄下來的數(shù)量依據稱為數(shù)據從總體中抽出部分樣本展開調查來獲取數(shù)據,統(tǒng)計學上稱此為抽樣調查。所考慮對象的全體統(tǒng)計學上稱為總體或母體,其中每一個對象稱為個體,而從總體中抽取的一部分個體稱為樣本或子樣,樣本中所含個體的數(shù)目稱為樣本容量,通常用字母n表示。(樣本分為大樣本(n≥30)與小樣本(n<30),樣本容量的選取取決于實驗的條件和精度,樣本越大,反映總體的信息越充足,但計算量也越大,故樣本容量最好適當。)第四頁,共六十三頁,編輯于2023年,星期三能充分反映總體的信息每個個體被抽到的可能性相同,個體與個體之間互不影響,數(shù)學上稱為個體互相獨立每個個體具有和總體相同的本質特性樣本具有某種代表性,數(shù)學上稱此為與總體同分布。抽樣調查要求樣本具有的兩個特征滿足以上兩條的樣本稱為隨機樣本;從總體中抽出一個隨機樣本,稱為隨機抽樣第五頁,共六十三頁,編輯于2023年,星期三抽樣調查隨機抽樣分層抽樣等距抽樣隨機數(shù)表法抽簽法有放回抽樣無放回抽樣第六頁,共六十三頁,編輯于2023年,星期三

簡單隨機抽樣

1、隨機數(shù)表法

隨機數(shù)表是根據數(shù)理統(tǒng)計的原理,由許多隨機數(shù)字排列起來的數(shù)字表,表中數(shù)字的構造方法是:利用計算機使0,1,…,9十個數(shù)字號碼中每次自動出現(xiàn)一個號碼,用這種方式得到一串數(shù),編排成組(一般四個數(shù)為一組)

2、抽簽法

抽簽法是將所有個體編號打亂次序用類似于抽簽的方法從中來獲取隨機樣本←第七頁,共六十三頁,編輯于2023年,星期三分層抽樣是按一定標志把總體內的每個個體劃分為若干層,使相互差異小的個體集中在一層內,從而可以縮小各層內個體之間的差異程度,使樣本中各個個體在總體中散布更均勻。分層抽樣時,從各層抽取的樣本個數(shù)可以與各層個體數(shù)成比例。第八頁,共六十三頁,編輯于2023年,星期三

具體做法是:把總體中個個體劃分為個不相重疊的部分,使每一部分包含的個體數(shù)分別為,且,則第層所含的樣本個體數(shù)為(1.1.1),其中為樣本容量,為第層的層權數(shù)。例如,要從某校210名7至9歲兒童中抽出三分之一進行智力測驗。已知該校7歲兒童有63人,8歲兒童有112人,9歲兒童有35人,現(xiàn)在用分層抽樣法確定各年齡組兒童入數(shù)。由(1.1.1)式得

(7歲組)=(210/3)×(63/210)=21(人),(8歲組)=(210/3)×(112/210)=37(人),(9歲組)=(210/3)×(35/210)=12(人)。第九頁,共六十三頁,編輯于2023年,星期三等距抽樣法:把所有個體按順序排列起來,然后以確定的相等距離抽取隨機樣本有放回抽樣從總體中抽出一個個體記下其特征后再放回總體,然后進行第二次抽樣無放回抽樣從總體中抽出一個個體后不再放回去,再抽第二次抽樣第十頁,共六十三頁,編輯于2023年,星期三當總體內個體數(shù)目較多時,這兩種抽樣方式沒有本質區(qū)別。教育統(tǒng)計中一般采用無放回抽樣,但由于有放回抽樣能簡化某些計算,故當總體內個體數(shù)目較多時,我們可以看做是有放回抽樣。通過抽樣獲取數(shù)據離不開求實的科學態(tài)度和認真的工作作風,數(shù)據如果不準確、不完整、或有遺漏,不僅數(shù)據本身失去價值,而且以此進行分析推斷還會導致錯誤的結論。第十一頁,共六十三頁,編輯于2023年,星期三2.頻數(shù)數(shù)據的基本類型離散型數(shù)據取整數(shù)值的數(shù)量指標,是計數(shù)性的,數(shù)據之間不能再劃分為更小的單位連續(xù)型數(shù)據經過度量和測定而得到的數(shù)量指標。這類數(shù)據取值可以連續(xù)變化,盡管數(shù)據本身仍然是數(shù)軸上的點,但數(shù)據與數(shù)據之間可以無限細分,也就是數(shù)據的取值范圍可以充滿一個區(qū)間第十二頁,共六十三頁,編輯于2023年,星期三頻數(shù)分布表示方法頻數(shù)分布表離散型數(shù)據的頻數(shù)分布表連續(xù)型數(shù)據的頻數(shù)分布表累積頻數(shù)分布表頻數(shù)分布圖累積頻數(shù)分布曲線圖第十三頁,共六十三頁,編輯于2023年,星期三一、頻數(shù)分布表

一組數(shù)據中每個數(shù)據出現(xiàn)的次數(shù)稱為這個數(shù)據的頻數(shù)。按頻數(shù)分類列出的一覽表稱為頻數(shù)分布表。1、離散型數(shù)據的頻數(shù)分布表例1某幼兒園測定5歲組兒童智力,共7個項目。全園30名5歲兒童中有1人答對1項、3人答對2項、4人答對3項、8人答對4項、7人答對5項、5人答對6項、2人答對7項。我們列出頻數(shù)分布表如下:答對題數(shù)頻數(shù)答對題數(shù)頻數(shù)11572365347248總和30表1.130名兒童智力測定分布第十四頁,共六十三頁,編輯于2023年,星期三2、連續(xù)型數(shù)據的頻數(shù)分布表

例2附中初二年級實驗班40名同學期末數(shù)學統(tǒng)考測驗得分如下:68.079.080.083.062.059.080.081.061.583.067.097.063.593.076.097.584.564.075.088.091.078.567.094.081.070.086.572.085.094.078.091.060.075.582.091.095.052.076.580.0第十五頁,共六十三頁,編輯于2023年,星期三

這一組數(shù)據中最大值是97.5,最小值是52.0,可見數(shù)據分布很散,項數(shù)較多。因此我們將它們分組,組的范圍稱為組區(qū)間,每組的起止分別稱為組下限和組上限,每組的大小稱為組距,各組組距一般是相同的。分組的原則是:100個以上的數(shù)據分為12~20組,數(shù)據較少則分為8~10組。組距為便于計算一組取為3、5、10較為合適,本例分為10組,組距取5。我們將組號放在表的第一列,組區(qū)間放在第二列,組中值記為,放在第三列,(上限+下限),然后數(shù)出各組的頻數(shù)放在第四列。第二組為(56.55~61.55),我們可以提高一位分點或降低一位分點,通常我們取二位小數(shù),因此61.5應放在第二組。第十六頁,共六十三頁,編輯于2023年,星期三

有了組頻數(shù),當然也可以算出組頻率(每組組頻數(shù)與總頻數(shù)之比),為了以后的方便,我們把頻率放在表的最后一列(表1.2),我們從中可以看出數(shù)據所呈現(xiàn)的統(tǒng)計規(guī)律性。表1.2附中初二年級實驗班期末數(shù)學統(tǒng)考測驗成績分布組號組區(qū)間組中值頻數(shù)頻率151.55-56.5554.0511/40256.55-61.5559.0533/40361.55-66.5564.0533/40466.55-71.5569.0244/40571.55-76.5574.555/40676.55-81.5579.0588/40781.55-86.5584.0566/40886.55-91.5589.0544/40991.56-96.5594.544/401096.55-100.0098.2522/40總和

401.00第十七頁,共六十三頁,編輯于2023年,星期三

綜上,對于分組數(shù)據編制頻數(shù)分布表歸納為以下幾步:第一步找極差,最大值-最小值,由大致了解數(shù)據的差異范圍。第二步定組距,一般為便于計算,多取為2、3、5、10等。第三步定組數(shù),一般數(shù)據在100個以上,分為12~20組,數(shù)據較少則分為8-10組,也可以借用下面公式確定近似組數(shù)。組數(shù),其中方括號為的整數(shù)部分,為組距,例2中,。第四步定分點,通常使分點比原測量精度多一位或少一位,要注意的是最低組的上、下限應能包括最小值,最高組的上、下限應能包括最大值。第五步數(shù)頻數(shù),根據組限歸類,數(shù)出全體數(shù)據落入每一組的個數(shù)。頻數(shù)分布表也有其缺點,我們在下一節(jié)會看到計算描述一組數(shù)據特征的數(shù)據依賴于各組的組中值,因而出現(xiàn)了誤差。但是在理論上我們一般假定各組內頻數(shù)分布是均勻的,因而各組的誤差會相互抵償,使總誤差減少。第十八頁,共六十三頁,編輯于2023年,星期三二、累積頻數(shù)分布表

累積頻數(shù)分布表的列法是在頻數(shù)分布表上添加一列累積頻數(shù)。具體方法是:從數(shù)值最小的一組開始,逐組累加頻數(shù)至數(shù)值最大的一組,最后累加的頻數(shù)與總頻數(shù)相等。把累積頻數(shù)除以總頻數(shù),得到相應的累積頻率;把累積頻率乘以100,得到相應的累積百分比。下表是例2中數(shù)據的累積頻數(shù)、累積頻率,累積百分比分布表。第十九頁,共六十三頁,編輯于2023年,星期三組號組區(qū)間組中值頻數(shù)頻率累積頻數(shù)累積頻率累積百分比151.55-56.5554.0510.02510.0252.5256.55-61.5559.0530.07540.10010.0361.55-66.5564.0530.07570.17517.5466.55-71.5569.0540.100110.27527.5571.55-76.5574.0550.125160.40040.0676.55-81.5579.0580.200240.60060.0781.55-86.5584.0560.150300.75075.0886.55-91.5589.0540.100340.85085.0991.56-96.5594.0540.100380.95095.01096.5-100.0098.2520.050401.00100.00總和

401.000

表1.3附中初二年級實驗班期末數(shù)學統(tǒng)考累積頻數(shù)分布表第二十頁,共六十三頁,編輯于2023年,星期三三、頻數(shù)分布圖

通常我們用頻數(shù)分布圖來表示數(shù)據的規(guī)律性,常見的頻數(shù)分布圖為直方圖。直方圖是在橫軸上標出組距,縱軸上標出頻率與組距之比,然后以每組組距為底邊,相應的頻率與組距之比為高作矩形。顯然,每個矩形的面積恰好等于數(shù)據落在該矩形所對應組內的頻率,這樣所有矩形面積總和為總頻率1。直方圖是利用各個矩形的高低來描繪頻數(shù)分布情況的。圖1.1是例2中數(shù)據的直方圖,圖中斷裂號表示由0至51.55之間的距離是縮短了的。有時為了簡單,橫軸上只標出組中值,包括組中值在內的區(qū)間即為本組組距。54.05

59.05

64.05

69.05

74.05

79.05

84.05

89.05

94.05

98.25

0.01

0.02

0.03

0.04

頻率組距

圖1.4初二年級實驗班期末數(shù)學統(tǒng)考測驗成績直方圖第二十一頁,共六十三頁,編輯于2023年,星期三

四、累積頻數(shù)分布曲線圖累積頻數(shù)分布曲線圖橫軸取每組上限,縱軸取累積頻數(shù),在相交處畫點,順次連續(xù)各點成一上升曲線,又稱S型或肩型曲線,曲線的最低點應與基線相接。以累積頻率為縱軸上點,重復上述過程則得到累積頻率分布曲線圖。再把累積頻率乘以100,則得到累積百分比,以累積百分比為縱軸上點,重復上述過程,則得到累積百分比分布曲線圖。(為了方便,一般把累積頻數(shù)分布曲線和累積百分比分布曲線放在一張圖上,左邊縱軸為累積頻數(shù),右邊縱軸為累積百分比。作圖時要求兩縱軸平行等長,左邊按總頻數(shù)劃分,右邊因為累積百分比最大是100,故劃分為100等份。圖1.3是例2中數(shù)據的累積頻數(shù),累積百分比分布曲線圖。)第二十二頁,共六十三頁,編輯于2023年,星期三56..55

61..55

66..55

71..55

76..55

81..55

86..55

91..55

96..55

10

20

30

40

50

60

70

80

90

100

累積百分比

累積頻數(shù)

5

10

15

20

25

30

35

40

圖1.3累積頻數(shù)、累積百分比曲線圖在教育考試等值研究中,運用累計百分比曲線圖可以對兩次考試進行等值對應,這種等值方法稱為百分位等值第二十三頁,共六十三頁,編輯于2023年,星期三這種曲線分布圖有一定的實用價值,可以從圖中插值,回答小于或大于某值的頻數(shù)有多少,或回答占總頻數(shù)百分之幾的頻數(shù)小于或大于某值。例如橫軸上給出81.55分,可以從此點向上作垂直于橫軸的直線和曲線相交于一點,再由這一點向右作平行于橫軸的直線與縱軸右側交于一點為60,這表明81.55分位于百分之六十的位置上,說明有百分之六十的學生得分低于81.55分。反之,如果知道右側縱軸上的百分位置,在橫軸上也能找到相應的分數(shù),這個分數(shù)在下一節(jié)稱為百分位數(shù),例如,如有百分之六十的學生成績在某學生之下,那么該生得分大約為81.55分。第二十四頁,共六十三頁,編輯于2023年,星期三3.集中量數(shù)(1)平均數(shù)算術平均數(shù)加權平均數(shù)幾何平均數(shù)第二十五頁,共六十三頁,編輯于2023年,星期三3.集中量數(shù)(1)一、平均數(shù)平均數(shù)表示一組數(shù)據集中的位置,又稱為均值。1、算術平均數(shù)算術平均數(shù)是所有數(shù)據之和除以數(shù)據個數(shù)的商,記為.讀為“杠”。①不分組數(shù)據求算術平均數(shù)(1.3.1)其中為第個數(shù)據為數(shù)據總個數(shù)。第二十六頁,共六十三頁,編輯于2023年,星期三

例1某校射擊隊5名隊員在一次射擊中,射中的環(huán)數(shù)分別為6,7,8,9,10,求平均射中環(huán)數(shù)。解:由(1.3.1)式(環(huán))。如果數(shù)據中有重復數(shù),我們采用加權形式求算術平均數(shù)。“權”為所占的比重,比率,頻率都可以看做為一種“權”。例如,某校射擊隊5名隊員在一次射擊中射中的環(huán)數(shù)分別為6,6,8,10,10,則把上式一般化得到,其中為第個數(shù)的頻數(shù),為第個數(shù)的頻率。我們稱由(1.3.2)式定義的為以頻率為權的加權平均數(shù),顯然,權均為1/N的加權平均數(shù)為算術平均數(shù)。第二十七頁,共六十三頁,編輯于2023年,星期三②分組數(shù)據求算術平均數(shù)(組中值法)對于分組數(shù)據先要列出頻數(shù)分布表,再把每組的各個數(shù)據都看作與組中值相同的數(shù),這是因為每組內各個數(shù)據雖然有大有小,但其相對于組中值的誤差最終趨于抵消,故可以把每組的組中值做為每組的代表值,由此得到簡記為(1.3.3),其中為第組的組中值,其中為組數(shù),為第組的組頻數(shù)。

第二十八頁,共六十三頁,編輯于2023年,星期三例2求§1.2例2中數(shù)據的算術平均數(shù)。解:把表1.2中數(shù)據代入(1.3.3)式得到③的基本性質常數(shù)性為常數(shù);(1.3.4)齊次性(1.3.5)可加性(1.3.6)特別(1.3.7)第二十九頁,共六十三頁,編輯于2023年,星期三2、加權平均數(shù)幾個作用在不同比重上的平均數(shù)再進行平均稱為加權平均數(shù)。例如,是個數(shù)的平均數(shù),是個數(shù)的平均數(shù),是個數(shù)的平均數(shù),則(1.3.8),如果則(1.3.9)顯然,以頻率為權的加權平均數(shù)公式(1.3.2)是(1.3.9)的特殊情形,這是因為由平均數(shù)的常數(shù)性,,對于分組數(shù)據用加權形式求,公式(1.3.3)中相當于第個數(shù)的平均數(shù)。第三十頁,共六十三頁,編輯于2023年,星期三例3大學南路小學一年級實驗班40名學生期末數(shù)學測驗平均分數(shù)為82.59,對比班45名學生期末數(shù)學測驗平均分數(shù)為69.68,求全年級期末數(shù)學測驗平均成績。解:由公式(1.3.8)(分).例4某校考察學生成績,期末考試占全學期的85%,平時成績(包括作業(yè),期中考試),占全學期的15%.如果某學生期末成績?yōu)?5分,平時成績?yōu)?0分,求該生全學期平均成績。解由公式(1.3.8)(分)第三十一頁,共六十三頁,編輯于2023年,星期三3、幾何平均數(shù)幾何平均數(shù)是一組數(shù)據中個數(shù)據連乘積的次方根,記為,其計算公式為

(1.3.10)例5某校1999年至2001年招生人數(shù)如表1.4,求該校平均每年招生增長速度。表1.4某校1999年至2001年招生人數(shù)年份招生人數(shù)增長比率19999000200011001100/900200112001200/1100第三十二頁,共六十三頁,編輯于2023年,星期三解:由(1.3.10)式.故該校招生平均年增長速度為15%.實際應用中,如果N≥3,可以利用對數(shù)簡化計算,方法是對兩邊取對數(shù),得到,查常用對數(shù)表得到,再查反對數(shù)表得到。第三十三頁,共六十三頁,編輯于2023年,星期三二、眾數(shù)數(shù)據集合中出現(xiàn)次數(shù)最多的那個數(shù)稱為眾數(shù),用表示。1、觀察法①離散型數(shù)據求眾數(shù)

例如,調查全班40名學生業(yè)余愛好,有20人參加體育小組,15人參加音樂小組,5人參加無線電小組。如果用1表示參加體育小組,2表示參加音樂小組,3表示參加無線電小組,則1出現(xiàn)次數(shù)最多,因此眾數(shù)就是1。②分組數(shù)據求眾數(shù)

首先列出頻數(shù)分布表,再用每組組中值表示該組一般水平,則頻數(shù)最多一組的組中值即為眾數(shù)。顯然,此眾數(shù)是較為粗略的。第三十四頁,共六十三頁,編輯于2023年,星期三2、公式法如果用分別表示眾數(shù)所在組下限和上限,表示與眾數(shù)所在組的下限相鄰組的頻數(shù),表示與眾數(shù)所在組的上限相鄰組的頻數(shù),如果眾數(shù)是自眾數(shù)所在組的下限向上擠,則眾數(shù)所在位置是再加上區(qū)間長度(組距)的倍處,這是由于在相鄰組總頻數(shù)中占

的比重。反過來,如果眾數(shù)是自眾數(shù)所在組的上限向下擠,那么眾數(shù)所在位置是再減去區(qū)間長度的倍處。由此,我們得到求眾數(shù)的近似公式為(1.3.13)(1.3.14)第三十五頁,共六十三頁,編輯于2023年,星期三3.集中量數(shù)(2)三、中數(shù)中數(shù)指一組依次序排列的數(shù)據中位于正中間的數(shù),它正好分全體頻數(shù)為相等的兩部分,用表示。1、不分組數(shù)據求中數(shù)①數(shù)據個數(shù)為奇數(shù)求例7某校男子體操隊9名隊員5項比賽總積分分別為:47,49,42,39,45,41,37,46,40,求這9個數(shù)據的中數(shù)。解:把9個數(shù)據依大小次序排列為:37,39,40,41,42,45,46,47,49。顯然,正中的42為中數(shù),因為42左右各有4個數(shù)。由此,我們得到數(shù)據個數(shù)為奇數(shù)時,中數(shù)為第個數(shù)目的數(shù)值。第三十六頁,共六十三頁,編輯于2023年,星期三②數(shù)據個數(shù)為偶數(shù)求例8求42,45,50,54,57,58的中數(shù)。解:由于N=6,由中數(shù)定義,中數(shù)應在50與54中間,自然我們取其平均數(shù)為中數(shù),即由此,數(shù)據個數(shù)為偶數(shù)時,以最中間兩個數(shù)的平均數(shù)為中數(shù)。第三十七頁,共六十三頁,編輯于2023年,星期三

2、分組數(shù)據求中數(shù)例9下表給出25個數(shù)據的頻數(shù)分布,求中數(shù)。表1.525個數(shù)據的頻數(shù)分布組區(qū)間組中值頻數(shù)75-8077.5170-7572.5365-7067.5560-6562.51055-6057.5450-4552.52第三十八頁,共六十三頁,編輯于2023年,星期三

解由于N=25,因此中數(shù)為第13個數(shù),在(60-65)這一組,而這一組以下有6個數(shù)據,須再向上數(shù)7個數(shù),才能到達第13個數(shù)。而每個區(qū)間的長度(組距)為5,如果(60-65)這一組內10個數(shù)據是均勻分布的,那么為到達第13個數(shù),需要在中數(shù)所在組的下限處加上區(qū)間長度的十分之七,即中數(shù)應為因此,我們得到(1.3.15)。如果取中數(shù)所在組上限U,相應有(1.3.16)。其中,為中數(shù)所在組以上累積頻數(shù),為中數(shù)所在組以下累積頻數(shù)。第三十九頁,共六十三頁,編輯于2023年,星期三

在§1.2,我們接觸到了百分位數(shù),介紹了通過累積百分比分布圖找百分位數(shù)的方法,實際上,中數(shù)也是一個百分位數(shù),它正好位于百分之五十的位置上。一般的百分位數(shù)用表示,稱為百分之分位數(shù),它表示在此百分位數(shù)以下的頻數(shù)占總頻數(shù)的百分之。由公式(1.3.15)(1.3.16),我們類似可得

(1.3.17)

(1.3.18)其中為所在組下限,為所在組上限,為所在組以下累積頻數(shù),為所在組以上累積頻數(shù),為所在組頻數(shù),i為組距。例9中如求,由(1.3.17)式得第四十頁,共六十三頁,編輯于2023年,星期三四、三種集中量數(shù)的比較

集中量數(shù)的作用是指出一組數(shù)據中有代表性的數(shù)值,同一組數(shù)值的三種集中量其值一般是不同的,故其實際意義也是有區(qū)別的。例如,某中學數(shù)學教研室教師年齡分別為22,24,24,25,55(歲),現(xiàn)在問哪一年齡具有代表性?顯然,平均數(shù)30不能作為水平值,這是因為平均數(shù)與每一個數(shù)據有關,故受極端值55的影響而失去代表性。因此,選擇中數(shù)或眾數(shù)24作為這個教研室教師年齡的一般水平較為合適。又如在一次測驗中,某小組9名學生中有5個80分,3個85分,1個90分.如果用中數(shù)或眾數(shù)80分來作為一般水平值是不合適的,這是因為這次測驗的成績分布較為特殊,且每個分數(shù)相差不大。因此,在這種情形要用平均數(shù)82.5分作為集中趨勢的度量。第四十一頁,共六十三頁,編輯于2023年,星期三三種集中量的共性是反映了一組數(shù)據的集中位置,指出了一組數(shù)據中有典型意義的數(shù)。平均數(shù)應用最為廣泛,因為它考慮到了每一個數(shù)據,且便于用公式表示,其缺點是當數(shù)據極端出現(xiàn)較大或較小數(shù)時,作為衡量集中趨勢的度量會受到較大影響。中數(shù)是位于一組數(shù)據正中的一個數(shù),它不受極端值的影響,但如果數(shù)據集中成明顯不同且差異很大的幾組時,則不易反映數(shù)據的集中趨勢。中數(shù)不與具體某個數(shù)有關,而只是與數(shù)據的個數(shù)有關,因此,只要中間數(shù)值不改變,排列順序不改變,其兩邊數(shù)值任意改變并不影響中數(shù)的值。眾數(shù)由于出現(xiàn)頻數(shù)最多,往往被認為是一組數(shù)據中最典型的一個。但在確定眾數(shù)時不受其它數(shù)據的影響,這是眾數(shù)最大的缺陷,而且,如果一組數(shù)據中有幾個數(shù)同時符合眾數(shù)定義時,數(shù)則失去代表性。眾數(shù)可以消除極端數(shù)值的影響,但計算眾數(shù)大多是粗略的,因此,作為集中趨勢的度量,價值較小。第四十二頁,共六十三頁,編輯于2023年,星期三英國統(tǒng)計學家皮爾遜(Pearson)根據多年經驗,發(fā)現(xiàn)當頻數(shù)分布完全對稱時,平均數(shù),中數(shù),眾數(shù)重合.在頻數(shù)分布不對稱時,這三種量數(shù)的關系為即這樣,知道其中兩個,可以近似求出第三個。第四十三頁,共六十三頁,編輯于2023年,星期三4.差異量數(shù)(1)描述一組數(shù)據集中趨勢的水平值只是從一個側面反映了一組數(shù)據的特征。在實際統(tǒng)計工作中我們不僅要考察一組數(shù)據的集中位置,還要考察其分散程度,這種用來衡量一組數(shù)據分散程度(集中程度)的量稱為差異量數(shù)。常見的差異量數(shù)有:極差、四分位差、平均差、標準差。一、極差極差又稱為全距,是一組數(shù)據中最大值與最小值的差,用R表示。R=最大值-最小值(1.4.1)極差是衡量一組數(shù)據分散程度粗略的度量值。在繪制頻數(shù)分布表時我們已經看到,通過極差可以大致看出一組數(shù)據的范圍。第四十四頁,共六十三頁,編輯于2023年,星期三

對于分組數(shù)據,R取最高一組的上限與最低一組的下限之差。由于極差只取決于兩個極端數(shù)據,不能反映其它數(shù)據的分散情況,因此,在大多數(shù)情形極差不適用于衡量一組數(shù)據的分散程度。例1兩個小組學生身高(米)分別為:甲方1.80,1.53,1.52,1.51,1.50乙方1.80,1.79,1.78,1.77,1.50顯然,兩組數(shù)據的極差都是0.30,但這兩組數(shù)據有很大的差異

第四十五頁,共六十三頁,編輯于2023年,星期三二、四分位差四分位差指與之差的一半,用來描述頻數(shù)分布中間數(shù)值的分散程度,用表示。都是百分位數(shù),顯然,再加上(中數(shù))正好分總頻數(shù)為相等的四部分,為了方便有時把記為,稱為第一四分位數(shù),以下占總頻數(shù)的四分之一;把記為,稱為第二四分位數(shù),以下占總頻數(shù)的四分之二;把記為,稱為第三四分位數(shù),以下占總頻數(shù)的四分之三,這樣,的計算公式為顯然,四分位差是相對于中數(shù)來衡量一組數(shù)據分散程度的。這是因為,如果一組數(shù)據頻數(shù)分布對稱,則有第四十六頁,共六十三頁,編輯于2023年,星期三由求百分位數(shù)公式(1.3.17)類似可得其中分別為第一,第三四分位數(shù)所在組下限,分別為第一,第三四分位數(shù)所在組以下累積頻數(shù),分別為第一,第三四分位數(shù)所在組頻數(shù),i為組距。如果數(shù)據未分組,只須把每個數(shù)據依大小順序排列,用總頻數(shù)N除以4,即可得到四分位。第四十七頁,共六十三頁,編輯于2023年,星期三例2求20名學生一次數(shù)學測驗成績的四分位差。解把20個數(shù)據按大小排列為66,67,67,69,70

71,72,73,74,76

Q1

Q2

85,86,88,88,90

92,94,97,98,90

Q3

則66,67,67,69,70

71,72,73,74,76

Q1

Q2

85,86,88,88,90

92,94,97,98,90

Q3

第四十八頁,共六十三頁,編輯于2023年,星期三三、平均差我們設想找到一個相對于平均數(shù)來衡量一組數(shù)據分散程度的差異量,這就是平均差,用M·D表示。例3兩個女聲小合唱隊身高(米)分別為:甲隊1.60,1.62,1.59,1.60,1.59乙隊1.80,1.60,1.50,1.50,1.60顯然,。但乙隊隊員較甲隊隊員身高波動大,這是因為每個隊員的身高相對于平均數(shù)都有一個離差,離差越小,越集中于,但離差有正有負,如果將全部離差加起來,由于,那么即正、負離差相抵消,故我們在考慮總離差時,可以將每個離差取絕對值再加起來。這樣并不影響每個數(shù)據偏離平均數(shù)的程度,因為離差的長度為了使所有離差再集中,我們再取其平均得到

(1.4.5)第四十九頁,共六十三頁,編輯于2023年,星期三如果數(shù)據已分組,類似有

(1.4.6)例3中,可見,乙隊隊員身高平均差大大高于甲隊,因此,乙隊隊員身高差異較甲隊大,即分散程度較甲隊大。采用平均差來衡量數(shù)據的分散程度要對離差取絕對值,但絕對值運算復雜且不便于代數(shù)方法處理。如果給每個離差平方,并不影響其分散程度,且可以避免總離差為零。因此,我們引入另一個衡量一組數(shù)據分散程度的差異量——標準差。第五十頁,共六十三頁,編輯于2023年,星期三四、標準差標準差是方差的平方根,又稱為均方差,用S表示。方差是各個數(shù)據與平均數(shù)離差的平方的算術平均數(shù),用表示。公式為(1.4.7)

(1.4.8)對于分組數(shù)據,類似有

(1.4.9)其中為第i組的組頻數(shù),為第i組的組中值。第五十一頁,共六十三頁,編輯于2023年,星期三計算還可利用以下簡化公式:(1.4.10)這是因為對于分組數(shù)據,類似簡化公式為(1.4.11)其中a為假定平均數(shù),即頻數(shù)最多一組的組中值。第五十二頁,共六十三頁,編輯于2023年,星期三例4某區(qū)50名6歲男童身高(單位:cm)分組數(shù)據如表1.6:表1.650名6歲男童身高分布組區(qū)間頻數(shù)組區(qū)間頻數(shù)108.5以下1118.5-120.511108.5-110.53120.5-122.59110.5-112.51122.5-124.55112.5-114.52124.5-126.53114.5-116.56126.5以上2116.5-118.57

求標準差S.第五十三頁,共六十三頁,編輯于2023年,星期三解N=50,取a=119.5,由公式(1.4.11)得到標準差是衡量一組數(shù)據分散程度最有效的量數(shù),標準差越小,這組數(shù)據越向平均數(shù)集中,即分布的差異越小;標準差越大,這組數(shù)據偏離平均數(shù)的程度越大,即分布的差異也越大。故第五十四頁,共六十三頁,編輯于2023年,星期三4.差異量數(shù)(2)五、差異系數(shù)差異系數(shù)也稱為相對差異量,常用倍數(shù)式百分數(shù)表示,它從相對意義上來衡量一組數(shù)據的分散程度。而受其計量單位、水平值影響的差異量稱為絕對差異量,極差,四分位差,平均差,標準差都是絕對差異量,簡稱為差異量數(shù)。常用的差異系數(shù)有:極差

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論