




版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
第十章調查資料的統計分析第一節統計分析概述第二節單變量統計分析第三節雙變量統計分析第四節推論統計第十章調查資料的統計分析第一節統計分析概述1第一節統計分析概述一、統計分析的含義與作用二、統計分析的特點第一節統計分析概述一、統計分析的含義與作用2一、統計分析的含義與作用統計分析,就是指運用統計學的方法,對調查所得資料的數量特征進行描述,并用各種數學模型揭示調查資料中所隱含的關系、規律及發展趨勢。統計分析就是從量的方面來分析事物之間的相互關系和相互作用,并通過對事物量的規定性的分析,來把握和認識事物質的規定性。事實說明,正確恰當的統計分析,已成為現代社會調查研究中不可缺少的一個環節,成為人們認識社會現象的一種重要分析手段。一、統計分析的含義與作用3統計分析的作用:1.統計分析能為社會調查研究提供一套精確的形式化語言。2.統計分析使抽樣調查成為可能。3、統計分析有助于揭示社會現象的規律。4、統計分析有助于我們較為精確地預測社會現象的發展趨勢。統計分析的作用:4二、統計分析的特點1.統計分析要以定性分析為基礎。2.統計分析必須與理論分析方法相結合。統計分析的內容可分為兩個大的方面,即描述統計和推論統計。描述統計的主要目的在于用最簡單的概括形式反映出大量數據資料所容納的基本信息。它的基本方法包括集中趨勢分析、離散趨勢分析、相關分析、回歸分析等。而推論統計的主要目的,則是要用從樣本調查中所得的數據資料來推斷總體的情況。它的基本內容包括區間估計和假設檢驗兩部分。二、統計分析的特點5第二節單變量描述統計一、頻數分布與頻率分布二、集中趨勢分析三、離散趨勢分析第二節單變量描述統計一、頻數分布與頻率分布6一、頻數分布與頻率分布所謂頻數分布,就是指一組數據中取不同值的個案的次數分布情況,它一般以頻數表的形式表達。例如,某班有25名學生,其年齡情況如下:20,19,18,19,18,20,21,17,18,18,19,19,20,19,19,17,18,20,19,19,21,21,19,20,19。則該班學生的年齡分布則為下表(見表1)一、頻數分布與頻率分布7社會調查研究方法10統計分析課件8頻數分布表的作用主要有兩方面:一是簡化資料,即將調查所得到的一長串原始數據,以一個十分簡潔的統計表反映出來;二是從頻數分布表中,我們可以更清楚地了解調查數據的眾多信息。所謂頻率分布,則是指一組數據中不同取值的頻數相對于總數的比率分布情況,這種比率通常以百分比的形式表達,而頻率分布情況同樣以頻率表的形式出現。下表2就是上例對應的頻率分布表。頻率分布表除具備頻數分布表的優點外,還能反映各類所占的比重,便于不同總體或不同類別之間的比較。這種分布的應用更為普遍。頻數分布表的作用主要有兩方面:9社會調查研究方法10統計分析課件10二、集中趨勢分析所謂集中趨勢分析,指的是用一個典型值或代表值來反映一組數據的一般水平,或向這個典型值集中的情況。最常見的集中趨勢統計量有平均數、眾數和中位數三種。1.平均數(算術平均數)是用總體各單位數值之和除以總體單位總數的商。平均數又稱為均值或均數。以下是計算公式及應用舉例。二、集中趨勢分析11①由原始數據計算平均數。設總體單位總數為n,總體各單位的數值為xi(i=1,2,…,n),則計算公式為:
②由單值分組資料計算平均數。首先要將每一個組的量值乘以所對應的頻數(得出各組的數值之和);然后將各組的數之和全部相加,最后除以單位總數(也即各組頻數之和∑f)得出平均數。其計算公式為:
①由原始數據計算平均數。設總體單位總數為n,總體各單位的數值12③由組距分組資料求平均數。先計算出各組的組中值Xm,然后再按照單值分組資料計算平均數的公式計算。也就是說,用組距分組資料求平均數的公式與用單值分組資料求平均數的公式基本相同,只是需要事先將組距轉化成單值。計算公式為:例題例1某班10名學生的年齡分別為20歲、21歲、19歲、19歲、20歲、20歲、21歲、22歲、18歲、20歲,求他們的平均年齡。③由組距分組資料求平均數。先計算出各組的組中值Xm,然后再13例2調查某年級150名學生的年齡,得到下列結果(左表),求平均年齡。(19.33)例3調查某廠100名職工的收入情況如下(右表),求他們的平均收入。(212)
例2調查某年級150名學生的年齡,得到下列結果(左表),142.眾數眾數是一組數據中出現次數最多(即頻數最高)的那個數值。通常用M。表示。眾數與平均數一樣,也可用來概括反映總體的一般水平或典型情況。根據不同資料,眾數的求法分為以下兩種形式:①由單值分組資料求眾數。由于單值分組資料中已將各標志值及其所對應的頻數都一一列出,故我們只需采用直接觀察的方法就可求得眾數。具體做法是,首先在頻數一欄中找出最大的頻數,假定為fm;然后根據fm找到它所對應的標志值Xm,則眾數即為Xm。2.眾數15②由組距分組資料求眾數。由組距分組資料求眾數的方法有兩種:一種是組中值法,另一種是摘補法。前者比較簡單,后者較為復雜。由于眾數在社會調查研究中的使用遠不象平均數那樣廣泛。故我們只需了解組中值法即可。用組中值法求眾數分為三步:首先也是通過直接觀察找出最高的頻數;然后根據最高的頻數找到它所對應的組;最后求出該組的組中值即是眾數。需要說明的是,求眾數往往要求數據具備一定的條件,即只有當總體單位數目較多且其數據有明顯的集中趨勢時才能計算眾數。而當總體數目較少,或總體數目雖多但無明顯集中趨勢時,不宜計算眾數。②由組距分組資料求眾數。由組距分組資料求眾數的方法有兩種:一16舉例:—以前面例2為例,首先我們在人數(頻數)一欄中找出最大的頻數50,再從50找到所對應的年齡19歲。則例2資料中的眾數為19歲。需要注意的是,眾數是最大的頻數所對應的那個標志值,而不是最大的頻數本身。—又,若以前面例3為例來求眾值,我們首先在職工數(即額數)一欄中,找到最大的頻數40;然后找到40所對應的組:180~220;最后計算該組的組中值,計算結果為200元。因此,該例中的眾數為200元。舉例:173.中位數什么是中位數呢?當我們把一組數據按值的大小順序排列起來,處于中央位置的那個數值就叫中位數。中位數通常用Md表示,它將整個數據資料一分為二,其中一半的數值比它大,而另一半的數值比它小。當數據為偶數個時,取中間兩數的平均數。需要注意的是,計算中位數時常常要求數據是定距以上的變量。而對定序的或定類的變量通常不用來計算中位數。關于計算方法(參見教材)3.中位數18三、離散趨勢分析與集中趨勢分析相反,離散趨勢(又稱離中趨勢)分析指的是用一個特定的數值來反映一組數據相互之間的離散程度。作用:它與集中趨勢一起,分別從兩個不同的側面描述和揭示一組數據的分布狀況,共同反映出資料分布的全面特征;同時,它還對集中趨勢的統計量(如平均數、眾數、中位數)的代表性作出補充說明。為了理解離散趨勢分析的這兩種作用,我們先來看看下面的例子。三、離散趨勢分析19例4某校三個系各選5名同學,參加智力競賽,他們的成績分別如下:中文系:7879808182X=80數學系:6572808895X=80政治系:35788998100X=80無論是從團體總分來看,還是從平均得分來看,這三個系代表隊的成績都是相同的。因此,如果僅以集中趨勢統計量(平均數)來衡量,那么,三個系代表隊的水平一樣高,不存在什么差別。但從直觀上我們不難發現,三個代表隊中五名隊員的成績相互之間的差跟程度(離散程度)很不一樣。中文系成績十分接近;數學系成績比較分散;而政治系隊成績則相差十分懸殊。例4某校三個系各選5名同學,參加智力競賽,他們的成績分別20不難理解,這個80分對中文系隊同學的代表性最高,而對政治系隊同學的代表性最低。因此,離散趨勢的各種統計量,一方面揭示出數據相互分離的程度;另一方面又對相應的集中趨勢統計量的代表性作出判斷。結論:集中趨勢統計量的代表性與所對應的離散趨勢統計量是反比關系,即離散趨勢統計量越大,則所對應的集中趨勢統計量的代表性就越小;反之,則越大。離散趨勢統計量有全距、標準差、異眾比率、四分位差、離散系數等。其中,標準差、異眾比率、四分位差分別與平均數、眾數、中位數相對應。不難理解,這個80分對中文系隊同學的代表性最高,而對政治系隊211.全距也叫極距,它是一組數據中最大值與最小值之差。全距是離散趨勢統計量中最簡單的一種。在原始數據資料條件下,只需將全部數據按大小頎序排列,然后用最大值減去最小值即可。如上面所舉例6,三個代表隊成績的全距分別為:中文系:82-78=4(分)數學系:95-65=30(分)政治系:100-25=65(分)在組距分組資料的條件下,只需將最大組的上限減去最小組的下限即可。如前面例3中的全距九300-100=200(元)1.全距22全距的意義在于,一組數據的全距越大,在一定程度上說明這組數據的離散趨勢越大,而集中趨勢統計量的代表性越低。反之,一組數據的全距越小,則說明這組數據的離散趨勢越小,集中趨勢統計量的代表性就越高。從上面三個代表隊的例子中,我們不難認識到這一點。應該注意到,由于全距僅僅依靠兩個極端值,因而帶有很大的偶然性,它對于大量的處于兩個極端值之間的數值分布情況.以及在中心點周圍的集中情況,都無法提供任何信息。比較粗糙。全距的意義在于,一組數據的全距越大,在一定程度上說明這組數據232.標準差標準差的定義是:一組數據對其平均數的偏差平方的算術平均數的平方根。它是用得最多、也是最重要的離散趨勢統計量。通常用符號S來表示,其計算公式根據資料的形式不同而稍有差別。①由原始數據計算標準差。公式為:例4的結果:S中文=1.414,S數學=10.8,S政治=23.8。由此可見,標準差大,離散程度就大,反之,就小。2.標準差24②由單值分組資料計算標準差。公式為:這里f為X所對應的頻數。③由組距分組資料計算標準差。其方法與上述單值分組資料計算標準差的方法相似,唯一不同的是需要先計算出各組的組中值,然后采用下述公式:②由單值分組資料計算標準差。公式為:253.異眾比率所謂異眾比率,指的是一組數據中非眾數的次數與總體全部單位數的比率。公式為:這里fmo為眾數的次數。在例2中,眾數的次數為50,總體單位的總數為150,故異眾比率為:VR=(150-50)/150=67%異眾比率的意義是指眾數所不能代表的其他數值(即非眾數的數值)在總體中的比重。因此,異眾比率越大,即眾數所不能代表的其他數值的比重越大,則眾數在總體中所占的比重自然就越小,這樣眾數的代表性也就越小。3.異眾比率264、四分位差四分位差是先將一組數據按大小排列成序,然后將其四等分,去掉序列中最高的四分之一和最低的四分之一,僅就中間的一半數值來測定序列的全距。四分位差的符號通常用Q表示。Q=Q3—Q1而Q1、Q3分別表示第一個四分位點和第三個四分位點。如下圖所示:4、四分位差275.離散系數上述各種離散趨勢統計量都屬于絕對量測量,其單位與原資料的單位相同。這種特征對調查研究中進行比較帶來了一定的困難。離散系數則是一種相對的離散趨勢統計量,它使我們能夠對兩種不同單位的離散趨勢統計量,或者對兩個不同總體的離散程度進行比較。離散系數的定義是:標準差與平均數的比值,用百分比表示。其計算公式為:
5.離散系數28在平均數不為零的條件下,離散系數越大,表明數據的離散程度越大,而所對應的集中趨勢統計量的代表性就越小;反之,則數據的離散程度越小,集中趨勢統計量的代表性就越大。應用舉例:1)一項調查得到下列結果,某市人均月收入為92元,標準差為17元;人均住房面積7.5米’,標準差為1.8米’。試比較該市人均收入和住房情況哪一個差異程度比較大。計算結果:人均收入的離散系數為18.5%,人均住房面積的離散系數為24%可見人均住房面積的差異情況比人均收入的差異情況要大。在平均數不為零的條件下,離散系數越大,表明數據的離散程度越大29以上是同一總體不同指標間的比較,下列則是同一指標不同總體間的比較。2)某校學生的平均年齡為20歲,標準差為2歲;該校教師的平均年齡為28歲,標準差為4.5歲。試比校學生年齡與教師年齡哪一個差異程度更大。計算結果:學生年齡的離散系數為10%,教師年齡的離散系數為11.8%可見教師年齡間的差異程度更大一些。以上是同一總體不同指標間的比較,下列則是同一指標不同總體間的30第三節雙變量統計分析前節所介紹的單變量描述統計。在社會調查研究中,我們常常要討論兩個甚至多個因素或現象之間的關系問題,因此,本節介紹兩個變量統計分析的基本內容。一、交互分類二、相關與回歸第三節雙變量統計分析前節所介紹的單變量描述統計。31一、交互分類1.交互分類的定義與作用所謂交互分類,簡單地說,就是將一組數據按照兩個不同變量的類型進行綜合的分類。交互分類的結果通常以交互分類表(又稱列聯表)的形式反映出來。下面是一個例子:一、交互分類32上表是對總數為300人的調查對象按照年齡和文化程度兩個變量的標準進行交互分類的結果。每一個被調查者按這兩種標準被劃分到某一個格內。即格內數字就是分類的結果。作用:通過對各種不同類型格內的頻數或相對額數(即百分比)的分析,來研究和探討變量之間是否存在關系。比如說從上表中我們可以看出,老年人中文化程度低的比重很大,中年人次之,年輕人比重最小;而在高中及大專以上頗高文化程度中,年輕人比重最大,中年人次之,老年人最低。上表是對總數為300人的調查對象按照年齡和文化程度兩個變量的33結論:即被調查者的文化程度與他們的年齡有關,并呈現出年齡越低,總體文化程度越高的狀況。交互分類方法的適用對象主要是定類與定序層次的變量,而在社會調查研究中的絕大部分變量正好又是這兩個層次的。因此,交互分類的方法對于大量社會調查資料的相關分析有著十分重要的作用,我們應該熟悉這種方法。結論:即被調查者的文化程度與他們的年齡有關,并呈現出年齡越低342、χ2檢驗通過實例討論何為χ2檢驗。表中顯示,年齡與對待老年人再婚問題的態度存在關系,隨著年齡的下降,較多的人反對老年再婚。2、χ2檢驗35上述結論通常只是在所調查的樣本范圍內成立。而我們進行調查的目的常常又不僅僅是描述或說明樣本的情況,更重要的是要通過樣本的情況來反映和說明總體的情況。因此,要保證我們從樣本中得出的結果具有統計意義,保證樣本中所體現的變量間關系也反映了總體的情況,我們必須有一個保證的辦法。這就是要對它們進行χ2檢驗(卡方檢驗)。Χ2檢驗的原理及公式的證明略去。下面我們主要介紹χ2檢驗的計算公式及檢驗步驟。上述結論通常只是在所調查的樣本范圍內成立。而我們進行調查的目36χ2檢驗的計算公式f0為交互分類表中每一格的觀察頻數;fe為交互分類表中f0所對應的期望頻數。具體的計算方法是用每一個f0所在的行總數乘以所在的列總數,再除以全部總體數。Χ2值的計算。f11=120*80/260=37f12=46f13=
37
f21=43f22=54
f23=43χ2=(60-37)2/37+……=42.6χ2檢驗的計算公式37χ2檢驗的具體步驟(以上表為例):①建立兩變量間無關系的假設,即設年齡及對某事件的態度兩變量相互獨立,互不相關。②計算出χ2值。③根據自由度df=(r一1)(c-1)和給出的顯著性水平,即P值,查χ2分布表,得到一臨界值。(自由度計算公式中的r和c分別為交互分類表的行數和列數,因此,本例的自由度為:df=(2-1)(3-1)=2;顯著性水平通常為P=0.05;χ2分布表可查得臨界值為5.991)④比較χ2值與臨界值⑤判斷:a)若χ2值≥臨界值,拒絕兩變量無關系的假設。b)若χ2值<臨界值,接受兩變量無關系的假設。χ2檢驗的具體步驟(以上表為例):383、關系強度的測量以上討論的是兩個變量間是否存在關系的問題。當χ2檢驗表明,兩變量間存在關系時,是否就意味著這種關系是一種強關系,或重要關系呢?這不一定,因為變量關系的強弱和變量間是否存在關系是兩個完全不同的問題。關系強度的測量方法(參見教材)3、關系強度的測量39二、相關與回歸交互分類主要處理的是定類(或定序)變量問的關系問題,對于定距及定比變量來說,則有另一些方法來探討。這里主要簡單介紹一下相關系數的計算方法及一元線性回歸模型。二、相關與回歸401、相關系數例子:調查10名工人的工齡與工資情況如下表:這10名工人的工齡與工資是否相關?可通過定量計算說明,稱為相關系數。計算公式為:1、相關系數41即相關系數r是表明兩個定距或定比變量間關系程度的量數,其取值范圍在-1到+1之間。當r為負值時,說明變量X與變量Y的變化方向相反。即當X增大時,Y減少;X減少時,Y增大。當r為正值時,說明兩變量的變化方向相同。|r|=1時,稱X與Y完全相關;r=0時,則稱二者完全不相關。越接近|r|=1,說明關系強度越大,越接近0,則說明關系強度越小。上一例子中,r=0.986,有較強的正相關關系。即相關系數r是表明兩個定距或定比變量間關系程度的量數,其取值422、回歸分析相關分析的目的在于了解兩個變量之間的關系強度,即用相關系數r來描述X和Y兩個變量之間的共變特征。它并不指出X和Y哪個是原因,哪個是結果,或者說,它并不涉及兩變量之間有無因果關系。回歸分析則是對有相關關系的現象,根據其關系的形態找出一個合適的數學模型,即建立回歸方程,來近似地表達變量間的平均變化關系,以使依據回歸方程對未知的情況進行估計。即回歸分析增加了因果性,并具有了預測的功能,因此,它比相關分析作用更大。2、回歸分析43回歸分析的中心問題是建立回歸方程,一元線性回歸方程的建立使用最小二乘法。首先,依據理論分析或根據研究的需要確定兩變量中何為自變量,何為因變量。在本例中,我們確定工齡為自變量(X),工資為因變量(Y)。其次,以自變量為X軸,因變量為Y軸作出表中資料的散點圖,以判明是否為線性相關。給一組數據(X,Y),稱為樣本數據。計算公式:設y=a+bx回歸分析的中心問題是建立回歸方程,一元線性回歸方程的建立使用44第四節推論統計由于在社會調查中我們經常地是作抽樣調查,所以,在對調查結果進行描述、對變量關系進行探討時,往往都是使用樣本的資料,直接得到的也都是有關樣本的結果。然而,抽樣調查(從總體中抽取一部分對象進行調查)的目的,并不是為了描述這個樣本的情況,而是希望通過樣本來了解總體的特征和狀況。推論統計所要解決的正是這方面的問題。推論統計就是利用樣本的統計值對總體的參數值進行估計的方法。推論統計的內容主要包括兩個方面:一是區間估計,一是假設檢驗。第四節推論統計45第四節推論統計由于在社會調查中我們經常地是作抽樣調查,所以,在對調查結果進行描述、對變量關系進行探討時,往往都是使用樣本的資料,直接得到的也都是有關樣本的結果。然而,抽樣調查(從總體中抽取一部分對象進行調查)的目的,并不是為了描述這個樣本的情況,而是希望通過樣本來了解總體的特征和狀況。推論統計所要解決的正是這方面的問題。推論統計就是利用樣本的統計值對總體的參數值進行估計的方法。推論統計的內容主要包括兩個方面:一是區間估計,一是假設檢驗。第四節推論統計由于在社會調查中我們經常地是作抽樣調查,所46一、區間估計區間估計的思想:區間估計的實質就是在一定的可信度(置信度)下,用樣本統計值的某個范圍(置信區間)來“框”住總體的參數值。換句話說,估計總體參數時,用的是一個范圍,而不一個點值,稱為“區間”,也稱為置信區間。這樣較為科學。同時,給出一個數值來說明這個“區間”框住參數值有多大的可靠程度,稱為“置信度”(可信度)。區間的大小反映的是這種估計的精確性問題,而可信度高低反映的則是這種估計的可靠性或把握性問題。一、區間估計47區間估計的結果通常可以采取下述方式來表述:“我們有95%的把握認為:全市職工的月平均工資收入在182元至218元之間。”或者“全省人口中,女性占50%至52%的可能性為99%”。下列表述是不妥的。“全市職工的月平均工資收入在200元”(假如抽樣100人計算出的平均月工資為200元的話)。置信度表明(即可信度,把握性,可靠性)推斷成功的可能性有多大(用百分數表示1-a,a是允許的誤差);總體的平均數變成了區間(范圍),表示若重復抽樣,能有多少次落入這個“置信區間”。區間估計的結果通常可以采取下述方式來表述:“我們有95%的48置信區間:總體參數值落入的范圍,根據樣本統計量算出。1、總體均值的區間估計。公式:x是樣本均值,s是標準差,Z(1-a)是置信度為1-a的Z值,n是樣本規模。例:900名工人,月平均工資186元,標準差為42元,在95%的置信度下,全行業月平均工資的置信區間是多少?(183.26,188.74);99%置信度時(182.39,189.61)區間的大小體現精確性,置信度是可靠程度。二者相互制約,提高精確度,則降低可靠性。置信區間:總體參數值落入的范圍,根據樣本統計量算出。492、總體百公比的區間估計公式:這里,P為樣本中的百分比,其他同上。2、總體百公比的區間估計50二、假設檢驗假設檢驗是推論統計的又一基本內容,它是先對總體的某一參數作出假設,然后用樣本的統計量去進行驗證。以下通過一個例子說明假設檢驗的基本思路。某單位職工上月平均收入為210元,這個月的情況與上月沒有什么變化,我們設想平均收入還是210元。為了驗證這一假設是否可靠,我們抽取了100人作調查,結果得出月平均收入為220元,標準差為15元。顯然樣本的結果與總體結果之間出現了誤差。這個誤差是由于我們假設錯誤引起的呢?還是由于抽樣誤差引起的呢?如果是抽樣誤差引起的,那么我們就應該承認原來的假設;而如果是假設錯誤所引起的,顯然我們就應該否定原假設。二、假設檢驗51研究時可將原假設作為虛無假設,用H0表示,而將與之完全對立的假設作為研究假設,用H1表示;然后用樣本的數據計算統計量,并與臨界值比較,當臨界值大于統計值時,則接受虛無假設,否定研究假設;當臨界值小于、等于統計值時,則拒絕虛無假設,接受研究假設。具體步驟是:1、建立虛無假設和研究假設,通常是將原假設作為虛無假設;2、根據需要選擇適當的顯著性水平a(即小概率的大小),通常a=0.05,0.01等;3、根據樣本數據計算出統計值,并根據顯著性水平查出對應的臨界值;4、將臨界值與統計值進行比較,若臨界值大于統計值,則接受虛無假設;反之,則接受研究假設。研究時可將原假設作為虛無假設,用H0表示,而將與之完全對立的52仍用上例說明這一過程。仍用上例說明這一過程。53第十章調查資料的統計分析第一節統計分析概述第二節單變量統計分析第三節雙變量統計分析第四節推論統計第十章調查資料的統計分析第一節統計分析概述54第一節統計分析概述一、統計分析的含義與作用二、統計分析的特點第一節統計分析概述一、統計分析的含義與作用55一、統計分析的含義與作用統計分析,就是指運用統計學的方法,對調查所得資料的數量特征進行描述,并用各種數學模型揭示調查資料中所隱含的關系、規律及發展趨勢。統計分析就是從量的方面來分析事物之間的相互關系和相互作用,并通過對事物量的規定性的分析,來把握和認識事物質的規定性。事實說明,正確恰當的統計分析,已成為現代社會調查研究中不可缺少的一個環節,成為人們認識社會現象的一種重要分析手段。一、統計分析的含義與作用56統計分析的作用:1.統計分析能為社會調查研究提供一套精確的形式化語言。2.統計分析使抽樣調查成為可能。3、統計分析有助于揭示社會現象的規律。4、統計分析有助于我們較為精確地預測社會現象的發展趨勢。統計分析的作用:57二、統計分析的特點1.統計分析要以定性分析為基礎。2.統計分析必須與理論分析方法相結合。統計分析的內容可分為兩個大的方面,即描述統計和推論統計。描述統計的主要目的在于用最簡單的概括形式反映出大量數據資料所容納的基本信息。它的基本方法包括集中趨勢分析、離散趨勢分析、相關分析、回歸分析等。而推論統計的主要目的,則是要用從樣本調查中所得的數據資料來推斷總體的情況。它的基本內容包括區間估計和假設檢驗兩部分。二、統計分析的特點58第二節單變量描述統計一、頻數分布與頻率分布二、集中趨勢分析三、離散趨勢分析第二節單變量描述統計一、頻數分布與頻率分布59一、頻數分布與頻率分布所謂頻數分布,就是指一組數據中取不同值的個案的次數分布情況,它一般以頻數表的形式表達。例如,某班有25名學生,其年齡情況如下:20,19,18,19,18,20,21,17,18,18,19,19,20,19,19,17,18,20,19,19,21,21,19,20,19。則該班學生的年齡分布則為下表(見表1)一、頻數分布與頻率分布60社會調查研究方法10統計分析課件61頻數分布表的作用主要有兩方面:一是簡化資料,即將調查所得到的一長串原始數據,以一個十分簡潔的統計表反映出來;二是從頻數分布表中,我們可以更清楚地了解調查數據的眾多信息。所謂頻率分布,則是指一組數據中不同取值的頻數相對于總數的比率分布情況,這種比率通常以百分比的形式表達,而頻率分布情況同樣以頻率表的形式出現。下表2就是上例對應的頻率分布表。頻率分布表除具備頻數分布表的優點外,還能反映各類所占的比重,便于不同總體或不同類別之間的比較。這種分布的應用更為普遍。頻數分布表的作用主要有兩方面:62社會調查研究方法10統計分析課件63二、集中趨勢分析所謂集中趨勢分析,指的是用一個典型值或代表值來反映一組數據的一般水平,或向這個典型值集中的情況。最常見的集中趨勢統計量有平均數、眾數和中位數三種。1.平均數(算術平均數)是用總體各單位數值之和除以總體單位總數的商。平均數又稱為均值或均數。以下是計算公式及應用舉例。二、集中趨勢分析64①由原始數據計算平均數。設總體單位總數為n,總體各單位的數值為xi(i=1,2,…,n),則計算公式為:
②由單值分組資料計算平均數。首先要將每一個組的量值乘以所對應的頻數(得出各組的數值之和);然后將各組的數之和全部相加,最后除以單位總數(也即各組頻數之和∑f)得出平均數。其計算公式為:
①由原始數據計算平均數。設總體單位總數為n,總體各單位的數值65③由組距分組資料求平均數。先計算出各組的組中值Xm,然后再按照單值分組資料計算平均數的公式計算。也就是說,用組距分組資料求平均數的公式與用單值分組資料求平均數的公式基本相同,只是需要事先將組距轉化成單值。計算公式為:例題例1某班10名學生的年齡分別為20歲、21歲、19歲、19歲、20歲、20歲、21歲、22歲、18歲、20歲,求他們的平均年齡。③由組距分組資料求平均數。先計算出各組的組中值Xm,然后再66例2調查某年級150名學生的年齡,得到下列結果(左表),求平均年齡。(19.33)例3調查某廠100名職工的收入情況如下(右表),求他們的平均收入。(212)
例2調查某年級150名學生的年齡,得到下列結果(左表),672.眾數眾數是一組數據中出現次數最多(即頻數最高)的那個數值。通常用M。表示。眾數與平均數一樣,也可用來概括反映總體的一般水平或典型情況。根據不同資料,眾數的求法分為以下兩種形式:①由單值分組資料求眾數。由于單值分組資料中已將各標志值及其所對應的頻數都一一列出,故我們只需采用直接觀察的方法就可求得眾數。具體做法是,首先在頻數一欄中找出最大的頻數,假定為fm;然后根據fm找到它所對應的標志值Xm,則眾數即為Xm。2.眾數68②由組距分組資料求眾數。由組距分組資料求眾數的方法有兩種:一種是組中值法,另一種是摘補法。前者比較簡單,后者較為復雜。由于眾數在社會調查研究中的使用遠不象平均數那樣廣泛。故我們只需了解組中值法即可。用組中值法求眾數分為三步:首先也是通過直接觀察找出最高的頻數;然后根據最高的頻數找到它所對應的組;最后求出該組的組中值即是眾數。需要說明的是,求眾數往往要求數據具備一定的條件,即只有當總體單位數目較多且其數據有明顯的集中趨勢時才能計算眾數。而當總體數目較少,或總體數目雖多但無明顯集中趨勢時,不宜計算眾數。②由組距分組資料求眾數。由組距分組資料求眾數的方法有兩種:一69舉例:—以前面例2為例,首先我們在人數(頻數)一欄中找出最大的頻數50,再從50找到所對應的年齡19歲。則例2資料中的眾數為19歲。需要注意的是,眾數是最大的頻數所對應的那個標志值,而不是最大的頻數本身。—又,若以前面例3為例來求眾值,我們首先在職工數(即額數)一欄中,找到最大的頻數40;然后找到40所對應的組:180~220;最后計算該組的組中值,計算結果為200元。因此,該例中的眾數為200元。舉例:703.中位數什么是中位數呢?當我們把一組數據按值的大小順序排列起來,處于中央位置的那個數值就叫中位數。中位數通常用Md表示,它將整個數據資料一分為二,其中一半的數值比它大,而另一半的數值比它小。當數據為偶數個時,取中間兩數的平均數。需要注意的是,計算中位數時常常要求數據是定距以上的變量。而對定序的或定類的變量通常不用來計算中位數。關于計算方法(參見教材)3.中位數71三、離散趨勢分析與集中趨勢分析相反,離散趨勢(又稱離中趨勢)分析指的是用一個特定的數值來反映一組數據相互之間的離散程度。作用:它與集中趨勢一起,分別從兩個不同的側面描述和揭示一組數據的分布狀況,共同反映出資料分布的全面特征;同時,它還對集中趨勢的統計量(如平均數、眾數、中位數)的代表性作出補充說明。為了理解離散趨勢分析的這兩種作用,我們先來看看下面的例子。三、離散趨勢分析72例4某校三個系各選5名同學,參加智力競賽,他們的成績分別如下:中文系:7879808182X=80數學系:6572808895X=80政治系:35788998100X=80無論是從團體總分來看,還是從平均得分來看,這三個系代表隊的成績都是相同的。因此,如果僅以集中趨勢統計量(平均數)來衡量,那么,三個系代表隊的水平一樣高,不存在什么差別。但從直觀上我們不難發現,三個代表隊中五名隊員的成績相互之間的差跟程度(離散程度)很不一樣。中文系成績十分接近;數學系成績比較分散;而政治系隊成績則相差十分懸殊。例4某校三個系各選5名同學,參加智力競賽,他們的成績分別73不難理解,這個80分對中文系隊同學的代表性最高,而對政治系隊同學的代表性最低。因此,離散趨勢的各種統計量,一方面揭示出數據相互分離的程度;另一方面又對相應的集中趨勢統計量的代表性作出判斷。結論:集中趨勢統計量的代表性與所對應的離散趨勢統計量是反比關系,即離散趨勢統計量越大,則所對應的集中趨勢統計量的代表性就越小;反之,則越大。離散趨勢統計量有全距、標準差、異眾比率、四分位差、離散系數等。其中,標準差、異眾比率、四分位差分別與平均數、眾數、中位數相對應。不難理解,這個80分對中文系隊同學的代表性最高,而對政治系隊741.全距也叫極距,它是一組數據中最大值與最小值之差。全距是離散趨勢統計量中最簡單的一種。在原始數據資料條件下,只需將全部數據按大小頎序排列,然后用最大值減去最小值即可。如上面所舉例6,三個代表隊成績的全距分別為:中文系:82-78=4(分)數學系:95-65=30(分)政治系:100-25=65(分)在組距分組資料的條件下,只需將最大組的上限減去最小組的下限即可。如前面例3中的全距九300-100=200(元)1.全距75全距的意義在于,一組數據的全距越大,在一定程度上說明這組數據的離散趨勢越大,而集中趨勢統計量的代表性越低。反之,一組數據的全距越小,則說明這組數據的離散趨勢越小,集中趨勢統計量的代表性就越高。從上面三個代表隊的例子中,我們不難認識到這一點。應該注意到,由于全距僅僅依靠兩個極端值,因而帶有很大的偶然性,它對于大量的處于兩個極端值之間的數值分布情況.以及在中心點周圍的集中情況,都無法提供任何信息。比較粗糙。全距的意義在于,一組數據的全距越大,在一定程度上說明這組數據762.標準差標準差的定義是:一組數據對其平均數的偏差平方的算術平均數的平方根。它是用得最多、也是最重要的離散趨勢統計量。通常用符號S來表示,其計算公式根據資料的形式不同而稍有差別。①由原始數據計算標準差。公式為:例4的結果:S中文=1.414,S數學=10.8,S政治=23.8。由此可見,標準差大,離散程度就大,反之,就小。2.標準差77②由單值分組資料計算標準差。公式為:這里f為X所對應的頻數。③由組距分組資料計算標準差。其方法與上述單值分組資料計算標準差的方法相似,唯一不同的是需要先計算出各組的組中值,然后采用下述公式:②由單值分組資料計算標準差。公式為:783.異眾比率所謂異眾比率,指的是一組數據中非眾數的次數與總體全部單位數的比率。公式為:這里fmo為眾數的次數。在例2中,眾數的次數為50,總體單位的總數為150,故異眾比率為:VR=(150-50)/150=67%異眾比率的意義是指眾數所不能代表的其他數值(即非眾數的數值)在總體中的比重。因此,異眾比率越大,即眾數所不能代表的其他數值的比重越大,則眾數在總體中所占的比重自然就越小,這樣眾數的代表性也就越小。3.異眾比率794、四分位差四分位差是先將一組數據按大小排列成序,然后將其四等分,去掉序列中最高的四分之一和最低的四分之一,僅就中間的一半數值來測定序列的全距。四分位差的符號通常用Q表示。Q=Q3—Q1而Q1、Q3分別表示第一個四分位點和第三個四分位點。如下圖所示:4、四分位差805.離散系數上述各種離散趨勢統計量都屬于絕對量測量,其單位與原資料的單位相同。這種特征對調查研究中進行比較帶來了一定的困難。離散系數則是一種相對的離散趨勢統計量,它使我們能夠對兩種不同單位的離散趨勢統計量,或者對兩個不同總體的離散程度進行比較。離散系數的定義是:標準差與平均數的比值,用百分比表示。其計算公式為:
5.離散系數81在平均數不為零的條件下,離散系數越大,表明數據的離散程度越大,而所對應的集中趨勢統計量的代表性就越小;反之,則數據的離散程度越小,集中趨勢統計量的代表性就越大。應用舉例:1)一項調查得到下列結果,某市人均月收入為92元,標準差為17元;人均住房面積7.5米’,標準差為1.8米’。試比較該市人均收入和住房情況哪一個差異程度比較大。計算結果:人均收入的離散系數為18.5%,人均住房面積的離散系數為24%可見人均住房面積的差異情況比人均收入的差異情況要大。在平均數不為零的條件下,離散系數越大,表明數據的離散程度越大82以上是同一總體不同指標間的比較,下列則是同一指標不同總體間的比較。2)某校學生的平均年齡為20歲,標準差為2歲;該校教師的平均年齡為28歲,標準差為4.5歲。試比校學生年齡與教師年齡哪一個差異程度更大。計算結果:學生年齡的離散系數為10%,教師年齡的離散系數為11.8%可見教師年齡間的差異程度更大一些。以上是同一總體不同指標間的比較,下列則是同一指標不同總體間的83第三節雙變量統計分析前節所介紹的單變量描述統計。在社會調查研究中,我們常常要討論兩個甚至多個因素或現象之間的關系問題,因此,本節介紹兩個變量統計分析的基本內容。一、交互分類二、相關與回歸第三節雙變量統計分析前節所介紹的單變量描述統計。84一、交互分類1.交互分類的定義與作用所謂交互分類,簡單地說,就是將一組數據按照兩個不同變量的類型進行綜合的分類。交互分類的結果通常以交互分類表(又稱列聯表)的形式反映出來。下面是一個例子:一、交互分類85上表是對總數為300人的調查對象按照年齡和文化程度兩個變量的標準進行交互分類的結果。每一個被調查者按這兩種標準被劃分到某一個格內。即格內數字就是分類的結果。作用:通過對各種不同類型格內的頻數或相對額數(即百分比)的分析,來研究和探討變量之間是否存在關系。比如說從上表中我們可以看出,老年人中文化程度低的比重很大,中年人次之,年輕人比重最小;而在高中及大專以上頗高文化程度中,年輕人比重最大,中年人次之,老年人最低。上表是對總數為300人的調查對象按照年齡和文化程度兩個變量的86結論:即被調查者的文化程度與他們的年齡有關,并呈現出年齡越低,總體文化程度越高的狀況。交互分類方法的適用對象主要是定類與定序層次的變量,而在社會調查研究中的絕大部分變量正好又是這兩個層次的。因此,交互分類的方法對于大量社會調查資料的相關分析有著十分重要的作用,我們應該熟悉這種方法。結論:即被調查者的文化程度與他們的年齡有關,并呈現出年齡越低872、χ2檢驗通過實例討論何為χ2檢驗。表中顯示,年齡與對待老年人再婚問題的態度存在關系,隨著年齡的下降,較多的人反對老年再婚。2、χ2檢驗88上述結論通常只是在所調查的樣本范圍內成立。而我們進行調查的目的常常又不僅僅是描述或說明樣本的情況,更重要的是要通過樣本的情況來反映和說明總體的情況。因此,要保證我們從樣本中得出的結果具有統計意義,保證樣本中所體現的變量間關系也反映了總體的情況,我們必須有一個保證的辦法。這就是要對它們進行χ2檢驗(卡方檢驗)。Χ2檢驗的原理及公式的證明略去。下面我們主要介紹χ2檢驗的計算公式及檢驗步驟。上述結論通常只是在所調查的樣本范圍內成立。而我們進行調查的目89χ2檢驗的計算公式f0為交互分類表中每一格的觀察頻數;fe為交互分類表中f0所對應的期望頻數。具體的計算方法是用每一個f0所在的行總數乘以所在的列總數,再除以全部總體數。Χ2值的計算。f11=120*80/260=37f12=46f13=
37
f21=43f22=54
f23=43χ2=(60-37)2/37+……=42.6χ2檢驗的計算公式90χ2檢驗的具體步驟(以上表為例):①建立兩變量間無關系的假設,即設年齡及對某事件的態度兩變量相互獨立,互不相關。②計算出χ2值。③根據自由度df=(r一1)(c-1)和給出的顯著性水平,即P值,查χ2分布表,得到一臨界值。(自由度計算公式中的r和c分別為交互分類表的行數和列數,因此,本例的自由度為:df=(2-1)(3-1)=2;顯著性水平通常為P=0.05;χ2分布表可查得臨界值為5.991)④比較χ2值與臨界值⑤判斷:a)若χ2值≥臨界值,拒絕兩變量無關系的假設。b)若χ2值<臨界值,接受兩變量無關系的假設。χ2檢驗的具體步驟(以上表為例):913、關系強度的測量以上討論的是兩個變量間是否存在關系的問題。當χ2檢驗表明,兩變量間存在關系時,是否就意味著這種關系是一種強關系,或重要關系呢?這不一定,因為變量關系的強弱和變量間是否存在關系是兩個完全不同的問題。關系強度的測量方法(參見教材)3、關系強度的測量92二、相關與回歸交互分類主要處理的是定類(或定序)變量問的關系問題,對于定距及定比變量來說,則有另一些方法來探討。這里主要簡單介紹一下相關系數的計算方法及一元線性回歸模型。二、相關與回歸931、相關系數例子:調查10名工人的工齡與工資情況如下表:這10名工人的工齡與工資是否相關?可通過定量計算說明,稱為相關系數。計算公式為:1、相關系數94即相關系數r是表明兩個定距或定比變量間關系程度的量數,其取值范圍在-1到+1之間。當r為負值時,說明變量X與變量Y的變化方向相反。即當X增大時,Y減少;X減少時,Y增大。當r為正值時,說明兩變量的變化方向相同。|r|=1時,稱X與Y完全相關;r=0時,則稱二者完全不相關。越接近|r|=1,說明關系強度越大,越接近0,則說明關系強度越小。上一例子中,r=0.986,有較強的正相關關系。即相關系數r是表明兩個定距或定比變量間關系程度的量數,其取值952、回歸分析相關分析的目的在于了解兩個變量之間的關系強度,即用相關系數r來描述X和Y兩個變量之間的共變特征。它并不指出X和Y哪個是原因,哪個是結果,或者說,它并不涉及兩變量之間有無因果關系。回歸分析則是對有相關關系的現象,根據其關系的形態找出一個合適的數學模型,即建立回歸方程,來近似地表達變量間的平均變化關系,以使依據回歸方程對未知的情況進行估計。即回歸分析增加了因果性,并具有了預測的功能,因此,它比相關分析作用更大。2、回歸分析96回歸分析的中心問題是建立回歸方程,一元線性回歸方程的建立使用最小二乘法。首先,依據理論分析或根據研究的需要確定兩變量中何為自變量,何為因變量。在本例中,我們確定工齡為自變量(X),工資為因變量(Y)。其次,以自變量為X軸,因變量為Y軸作出表中資料的散點圖,以判
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 勞資員考試試題及答案
- 裝修監工考試試題及答案
- 安康招教考試試題及答案
- 2025年地理高考復習 專題01 區域定位與區域特征(講義)(解析版)
- 2025私募股權投資基金合同范本
- 學校秋季職業技能培訓計劃
- 浙江省稽陽聯誼學校2024屆高三11月聯考歷史 含解析
- 四川省峨眉第二中學2023-2024學年高一12月月考生物試題 含解析
- 安徽省合肥市廬江縣八校2023-2024學年高一上學期第二次集體練習數學含解析
- 教學語言規范與文化傳承計劃
- 2025-2030中國浮吊行業市場發展趨勢與前景展望戰略分析研究報告
- 北京市公園管理中心所屬事業單位招聘筆試真題2024
- 2025年廣東省深圳市31校聯考中考二模歷史試題(原卷版+解析版)
- 浙江省紹興市2025屆高三下學期二模試題 數學 含解析
- 高二期末家長會-家校攜手凝共識齊心協力創輝煌
- 地球物理反演方法-全面剖析
- 職場人士健身與鍛煉技巧
- 918勿忘國恥銘記歷史課件-高一上學期主題班會
- 鋼結構廠房裝飾工程施工方案
- 王者榮耀考試試題及答案
- GB/T 5709-2025紡織品非織造布術語
評論
0/150
提交評論