配套課件-統計學1_第1頁
配套課件-統計學1_第2頁
配套課件-統計學1_第3頁
配套課件-統計學1_第4頁
配套課件-統計學1_第5頁
已閱讀5頁,還剩174頁未讀, 繼續免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

1、第一章緒論目錄什么是統計 1統計學的產生與發展2統計學的基本概念3第一節什么是統計一、統計的涵義所謂統計,它是人們認識客觀世界總體數量變動關系和變動規律的活動的總稱,是人們認識客觀世界的一種有力工具。統計的研究對象具有以下特點:(一)數量性(二)總體性(三)變異性第一節什么是統計二、統計研究的基本環節(一)統計設計(二)收集數據(三)整理與分析(四)統計資料的積累、開發與應用圖1-1統計研究的全過程第二節統計學的產生與發展一、統計學的主要流派(一)政治算術學派(二)國勢學派(三)社會統計學派(四)數理統計學派第二節統計學的產生與發展二、統計學發展的新動向首先,作為方法論科學的統計學與各實質性學

2、科的結合越來越緊密。其次,國際統計學界的主流也從原來的偏重數理統計學的研究向更加重視應用統計研究轉變。再次,統計學與計算機科學和信息科學的結合越來越緊密。第二節統計學的產生與發展三、理論統計學和應用統計學現代統計學可以分為兩大類:一類是以抽象的數量為研究對象,研究一般的收集數據、整理數據和分析數據方法的理論統計學;另一類是以各個不同領域的具體數量為研究對象的應用統計學。理論統計學把研究對象一般化、抽象化,以數學中的概率論為基礎,從純理論的角度對統計方法加以推導論證,其中心內容是以歸納方法研究隨機變量的一般規律。應用統計學則與各不同領域的實質性學科有著非常密切的聯系,是有具體對象的方法論。第二節

3、統計學的產生與發展四、統計學與有關學科的聯系與區別數學是與統計學關系非常密切的一門科學。數學與統計學都是研究數量規律的,都要利用各種公式進行運算?,F代統計學中運用了大量的數學理論與數學方法。統計學雖然與數學有密切的聯系,但兩者之間也存在本質的區別。統計學中的應用統計學與相關的實質性學科如經濟學等,有十分密切的聯系。數學、經濟學和統計學是三門不同的學科,但其相互之間也有所交叉和重疊。第三節統計學的基本概念一、總體與總體單位所謂統計總體,就是根據一定目的確定的所要研究的事物的全體,它是由客觀存在的、具有某種共同性質的許多個別事物構成的整體??傮w單位(簡稱單位)是組成總體的各個個體。根據研究目的不同

4、,單位可以是人、物、機構等實物單位,也可以是一種現象或活動過程等非實物單位??傮w和單位的概念是相對而言的,隨著研究目的不同、總體范圍不同而變化。同一個研究對象,在一種情況下為總體,但在另一種情況下又可能變成單位。第三節統計學的基本概念二、樣本統計研究的目的是要確定總體的數量特征。但是,當總體單位數量很多甚至無限時,不必要或不可能對構成總體的所有單位都進行調查。這時,需要采用一定的方式,從由作為研究對象的事物全體構成的總體(又稱母體)中,抽取一部分單位,作為總體的代表加以研究。這種由總體的部分單位組成的集合,稱為樣本(又稱子樣)。樣本也是由一定數量的單位構成的,樣本所包含的總體單位數稱為樣本容量

5、。第三節統計學的基本概念三、標志總體各單位普遍具有的屬性或特征稱為標志。標志分為品質標志和數量標志兩種。盡管標志是總體各單位都具有的普遍屬性,但各單位有關標志的具體表現卻未必相同。第三節統計學的基本概念四、統計指標與指標體系統計指標是反映統計總體數量特征的概念和數值。統計指標是由兩項基本要素構成的,即指標的概念(名稱)和指標的取值。統計指標體系是由一系列相互聯系的統計指標所組成的有機整體,用以反映所研究現象各方面相互依存、相互制約的關系。第二章 數據的收集、整理 與顯示目錄數據的收集1數據的整理2數據的顯示3第一節數據的收集一、數據概述(一)數據的基本概念我們身邊隨時都存在各種各樣的數據:社會

6、數據、商務與經濟統計數據、自然統計數據、醫學研究數據、衛生統計數據、體育統計數據,以及網絡統計數據等。數據時時存在、處處存在。我們可以做出如下定義:在統計中,說明某種客觀現象的數量特征的數字叫統計數據。第一節數據的收集(二)數據的計量尺度1.定類尺度2.定序尺度3.定距尺度4.定比尺度(三)數據的類型1.品質數據和數量數據2.橫截面數據、時間序列數據和面板數據。3.調查數據和實驗數據4.直接數據和間接數據第一節數據的收集二、數據收集的方法及形式(一)直接觀察法(二)報告法(三)采訪法(四)登記法(五)實驗設計法第一節數據的收集三、統計調查體系及方案設計(一)統計調查形式1.普查2.統計報表制度

7、3.抽樣調查4.重點調查5.典型調查(二)統計調查體系統計調查體系是指若干相互聯系的統計調查方法所構成的整體。對于復雜的經濟、社會現象,要了解其數量變化情況,客觀上需要區別不同的研究對象和研究目的,采取不同的調查方法。第一節數據的收集(三)數據收集方案設計1.明確調查目的why2.確定調查對象和調查單位who3.確定調查項目what4.調查表格和問卷的設計5.確定調查時間when6.確定調查的組織實施計劃第一節數據的收集四、間接統計數據的主要來源統計數據的主要來源包括直接來源和間接來源兩個渠道。對于應用統計數據進行分析的人員而言,有可供利用的間接數據是最經濟的,只有缺乏間接數據或因為各種原因間

8、接數據不可采用時,才去獲取直接數據。來源于系統內部的間接數據包括系統內的業務數據。來源于系統外部的間接數據包括統計部門和政府部門公布的有關資料。第二節數據的整理一、數據整理概述(一)統計數據整理的內容(1)根據研究目的設計整理匯總方案。(2)根據匯總方案,對各個調查項目的資料進行匯總,通過匯總計算各項指標。(3)通過統計表或統計圖的形式,描述整理的結果。(二)數據整理的程序(1)統計數據的審核與檢驗。(2)數據的分組和匯總。(3)數據的表示與描述。(4)統計資料的積累、保管和公布。第二節數據的整理二、統計分組(一)統計分組的概念與種類1.統計分組的概念根據統計研究的目的和客觀現象的內在特點,按

9、某個標志(或幾個標志)把被研究的總體劃分為若干個不同性質的組,稱為統計分組。統計分組的對象是總體。統計分組標志可以是品質標志,也可以是數量標志。2.統計分組的作用(1)劃分社會經濟現象的類型。(2)反映現象的內部結構及其比例關系。(3)分析現象之間的依存關系。第二節數據的整理3.統計分組的原則所謂窮盡原則,就是使總體中的每一個單位都應有組可歸,或者說各分組的空間足以容納總體所有的單位。所謂互斥原則,就是在特定的分組標志下,總體中的任何一個單位只能歸屬于某一組,而不能同時或可能歸屬于幾個組。4.統計分組的種類(1)按某一分組的標志的多少和組合情況,分為簡單分組和復合分組。(2)按分組的標志的性質

10、不同,分為品質分組(或稱屬性分組)和數量分組(或稱變量分組)。(3)按分組的作用和任務不同,分為類型分組、結構分組和分析分組。第二節數據的整理(二)統計分組的方法1.正確選擇分組標志2.按照品質標志分組3.按照數量標志分組(1)單項式分組與組距式分組。(2)間斷組距式分組和連續組距式分組。(3)等距分組與異距分組。第二節數據的整理(三)組距式分組中相關指標的計算1.組距2.組數3.組中值4.開口組的組距與組中值第二節數據的整理三、頻數分布(一)頻數分布的基本概念與要素在統計分組的基礎上,將總體所有的單位按某一標志進行歸類排列,稱為頻數分布。根據分組標志特征的不同,分布數列可分為兩類:按品質標志

11、分組所形成的數列即品質分布數列,亦稱品質數列;按數量標志分組所形成的數列叫變量分布數列,亦稱變量數列。(二)變量數列的編制統計調查所收集的原始資料,是比較分散、零亂的,無法顯示現象總體的本質特征。一般來說,對所收集的資料按標志值大小進行排序,再觀察各標志值分布是否均勻,決定是否采用等距分組。第二節數據的整理(三)累計頻數與累計頻率累計頻數(或頻率)可以是向上累計頻數(或頻率),也可以是向下累計頻數(或頻率)。向上累計頻數(或頻率)分布,其方法是先列出各組的上限,然后由標志值低的組向標志值高的組依次累計。向下累計頻數(或頻率)分布,其方法是先列出各組的下限,然后由標志值高的組向標志值低的組依次累

12、計。(四)頻數分布的類型1.鐘形分布2.U形分布3.J形分布第三節數據的顯示一、統計表(一)統計表的定義和結構統計表有廣義和狹義之分。廣義的統計表包括調查表、登記表、過渡表及表達最后結果的分析表。狹義的統計表是指分析表。下面簡述狹義統計表的結構和編制。從形式上看,統計表由總標題,橫行標題、縱欄標題和指標數值四部分組成;從內容上看,統計是由主詞和賓詞兩部分構成。主詞是統計表要說明的總體或總體分成的多個組,賓詞是說明主詞的統計指標。第三節數據的顯示(二)統計表的種類1.按照主詞是否分組及分組的情況,統計表可分為簡單表、簡單分組表和復合分組表。2.根據賓詞分類,統計表可分為簡單排列、平行排列和重疊排

13、列3.按照用途,廣義統計表可分為調查表、整理表和分析表第三節數據的顯示(三)統計表的設計(1)統計表的各種標題應簡明、確切地表達其內容,特別是總標題,應十分簡要地概括出統計表的基本內容和表中資料所屬的時間、地點。(2)表中主欄各行和賓欄各列,一般是按先局部后整體的原則排列。(3)如欄次較多,通常要加以編號。(4)表中數字應對準位數、填寫整齊。(5)統計表中必須注明計量單位。(6)統計表的表式通常是左右開口的,即左右兩端不畫縱線。(7)必要時,應在統計表下方注明表中某些資料的來源或對某些數據的計算方法、計算口徑作出說明。第三節數據的顯示二、統計圖(一)幾何圖1.條形圖2.圓形圖3.直方圖4.折線

14、圖5.曲線圖第三節數據的顯示(二)象形圖象形圖是以統計資料所反映的實物的形象來表明數據內容,以圖形的大小、多少來表明數據的統計圖形,常見的有臉譜圖、樹譜圖等。(三)統計地圖統計地圖是指在地圖上標明各種線、色、點、形來表明數據在空間的分布狀況的圖形。第三節數據的顯示三、統計分析報告統計分析報告是指對統計資料經過系統整理并進行了深入分析之后,將所得的分析研究結果用文字報告(結合相應圖表及模型)的形式表達,以供有關方面參考或使用。可以分為如下四部分:(1)基本情況。(2)成績和經驗。(3)問題和原因。(4)建議與措施。第三章 數據分布特征描述目錄統計變量集中趨勢的測定1統計變量離散程度的測定2變量分

15、布的特征描述3第一節統計變量集中趨勢的測定一、測定集中趨勢的意義(一)反映總體各單位標志值的一般水平和集中趨勢(二)比較各個同質總體在同一時期的發展水平(三)比較同一總體在不同時期的發展水平及變化趨勢第一節統計變量集中趨勢的測定二、位置代表值(一)中位數的計算如果將總體中各單位的標志值按大小順序排列,則處于數列中點位置的標志值就是中位數。用中位數來代表總體的一般水平可以避免受總體中極端標志值的影響,有時更有代表性。1.下限公式Me=LMe+dMe2.上限公式Me=uMe-dMe式中:Me為中位數;LMe和uMe分別為中位數組的下限和上限;dMe為中位數組的組距;SMe-1和SMe+1分別為向上

16、(和向下)累計至中位數組的前(和后)一組止的次數;fMe為中位數組的次數。第一節統計變量集中趨勢的測定(二)眾數的計算眾數是總體分布數列中出現次數最多的標志值,表示社會經濟現象總體中最經常出現的標志值。利用眾數作為現象一般水平的代表,有其獨到的地方。1.下限公式Mo=LMo+dMo2.上限公式Mo=UMo-dMo式中:Mo為眾數;LMo和UMo分別為眾數組的下限和上限;dMo為眾數組的組距;1=fMo-fMo-1為眾數組與前一組次數之差;2=fMo-fMo+1為眾數組與后一組次數之差。第一節統計變量集中趨勢的測定三、數值平均數平均指標是反映社會經濟總體各單位數量標志表現一般水平的綜合指標。(一

17、)算術平均數1.簡單算術平均數2.加權算術平均數3.中位數、眾數和算術平均數的關系4.是非標志平均數第一節統計變量集中趨勢的測定(二)調和平均數1.調和平均數的計算方法(1)簡單調和平均數。(2)加權調和平均數。2.比值平均數(1)計算相對數的平均水平。(2)計算平均數的平均數。(三)幾何平均數1.簡單幾何平均數2.加權幾何平均數第一節統計變量集中趨勢的測定(四)幾何平均數、算術平均數、調和平均數之間的關系幾何平均數、算術平均數、調和平均數都有自己的應用條件,應用時必須認真考慮研究的要求,選用適當的平均數和計算形式。但就數量關系而言,對同一變量值計算幾何平均數、算術平均數、調和平均數,會發現它

18、們的大小順序是固定不變的,即幾何平均數大于調和平均數,而算術平均數又大于幾何平均數。(五)平均指標的應用1.把平均指標和總量指標結合起來運用2.以組平均數補充總平均數3.把平均指標和分布數列分析結合起來4.把平均指標和具體情況分析結合起來第二節統計變量離散程度的測定一、測定離散程度的意義在社會經濟統計研究中,變異(離散)指標有它的重要作用。首先,利用變異(離散)指標可以說明現象變動的均勻性或穩定性程度。其次,在投資決策中,通常利用變異(離散)指標來估算投資風險程度,人們總是希望投資的收益愈多愈好,同時風險愈小愈好,但實際上收益與風險是一對矛盾,一般不可能風險小而收益大。再次,變異(離散)指標可

19、以說明平均指標的代表性程度。最后,變異(離散)指標可以用來研究總體單位變量值的分布偏離正態的情況。第二節統計變量離散程度的測定二、極差、四分位差和平均差(一)極差極差(也稱全距)是指總體各單位標志值中最大值和最小值之差,用來表示標志值的變動范圍。通常用R表示,即:R=max-min 極差系數=極差算術平均數(二)四分位差如果將總體中各單位的標志值按從小到大順序排列,則處于數列3/4位次的標志值減去處于1/4位次的標志值之差再除以2而得的值就是四分位差。(三)平均差因為各標志值對算術平均數離差總和等于零,因而離差平均數也一定等于零,不能反映離差的平均程度。用離差絕對值求平均數,可以消除正負號的影

20、響,反映各標志值與算術平均數絕對離差大小的平均程度。第二節統計變量離散程度的測定三、方差與標準差(一)方差和標準差的計算方法方差和標準差是測度標志變異最重要、最常用的指標。方差是總體中各單位標志值對算術平均數離差平方的平均數;即先求各單位標志值與算術平均數之差,并將離差加以逐項平方,然后求總和再除以項數便得到方差,以2表示。方差是由離差平方計算平均數,所以其計量單位是原來單位的平方。標準差則是方差開方的結果,它恢復了原來的計量單位,可以反映標志值與算術平均數離差的平均水平,所以也稱為均方差。第二節統計變量離散程度的測定(二)總方差、組間方差和組內方差在資料分組的情況下,利用組平均數所求的方差和

21、利用標志值直接求得的方差是不同的,這一點和利用組平均數求總體平均數的結果完全不同?,F在把各單位標志值對平均數所計算的方差稱為總方差,用2表示。把各組平均數對總平均數所計算的方差稱為組間方差,用2表示。第i組標志值和組平均數所計算的方差稱為第i組的組內方差,用表示。第二節統計變量離散程度的測定(三)方差的數學性質(1)變量的方差等于變量平方的平均數減平均數的平方。(2)變量與算術平均數離差平方和具有最小的性質,即變量與算術平均數計算的方差小于變量與任何其他常數計算的方差。(3)變量線性變換的方差等于變量的方差乘以變量系數的平方。(4)n個獨立總體各變量代數和的方差等于各變量方差的代數和。(5)n

22、個獨立總體各變量代數和的標準差不大于各變量標準差的代數和。(四)是非標志的標準差上一節介紹了是非標志平均數的計算,本節進一步介紹其標準差的計算方法。仍以0表示總體中不具有某種性質的單位標志值,以1表示總體中具有某種性質的單位標志值。第二節統計變量離散程度的測定四、離散系數與異眾比率(一)離散系數(變異系數)變異(離散)指標的大小不僅取決于總體的變異程度,還與標志值絕對水平高低有關,所以不同總體的單位如果標志值絕對水平相差大,是不宜直接用變異(離散)指標來比較它們的變異程度的。此時,適用的是離散系數(也稱變異系數),它為標志值的變異(離散)指標與標志值的算術平均數的比值,其中最常用的離散系數是標

23、準差系數。(二)異眾比率異眾比率(Variation ratio)又稱離異比率或變差比,指的是非眾數(組)的次數(頻數)與全部變量值總次數的比率,即眾數不能代表的那一部分變量值在總體中的比重。第三節變量分布的特征描述一、矩的概念矩也稱為動差,是源自物理學的一個概念。二、偏度偏度(系數)是度量總體標志值頻率分布不對稱程度或偏斜程度的指標。它是利用K階中心矩中變量值對平均數正負離差相互抵消的原理。第三節變量分布的特征描述三、峰度峰度(系數)是度量頻率分布中鄰近平均數的標志值集中程度,亦即分布曲線的尖峭程度的指標。它是以四階中心矩除以標準差的4次方,再將結果減3計算出的。圖3-6不同峰度的分布曲線圖

24、第四章 概率基礎目錄概率的基本概念1隨機變量及其分布2幾種常見的概率分布3大數定律與中心極限定理4第一節概率的基本概念一、隨機試驗與隨機事件在概率論和統計學中,我們把要研究的一個隨機現象稱之為一個隨機試驗。一個隨機試驗的所有可能結果的集合叫做該隨機試驗的樣本空間,可用大寫的希臘字母表示。而樣本空間的任一子集合就稱為一個(隨機)事件 從數學角度看,這一說法不嚴密;但從實用角度來說,還是可行的。如果事件是由樣本空間的單一元素所組成,則稱為簡單事件,也就是不可以再分解的事件,又稱為基本事件或樣本點。復雜事件則是樣本空間的兩個元素以上的子集,或者說由簡單事件組合而成的事件。第一節概率的基本概念二、概率

25、如果一個隨機試驗在相同的條件下重復進行n次,那么,當隨機事件A發生的次數是m時,就定義它發生的頻率為fn(m)=m/n。(一)古典(等可能)概型(二)概率的性質(1)0P(A)1,P()=1。(2)記=-A(稱為A的對立事件),那么P()=1-P(A),特別地,P()=0。(3)P(AB)=P(A)+P(B)-P(AB),特別地,如果事件A與事件B互不相容,則P(AB)=P(A)+P(B)。(4)如果事件A與事件B滿足AB,那么P(B-A)=P(B)-P(A),從而P(B)P(A)。第一節概率的基本概念(三)條件概率與事件的獨立性在某些情況下,我們可能已經知道有關事件的一些信息,比如,已知某一

26、事件已經發生,另一一般來說,假設A、B為兩事件,P(A)0,則稱P(AB)/P(A)為事件A已知條件下事件B發生的條件概率。對事件A與B,若P(AB)=P(A)P(B),則稱它們是統計獨立的,簡稱相互獨立。第二節隨機變量及其分布一、隨機變量與概率分布的概念一般來說,隨機變量X是定義在樣本空間=上的一個函數,這個函數的取值隨著試驗的結果不同而變化,并且為了能計算隨機事件的概率,還要求它滿足條件:對任意的實數x,Xx是隨機事件,即XxF。如果隨機變量所有可能的取值是有限的,或可以排成一列,這種隨機變量稱為離散型隨機變量,如投骰子試驗中出現的點數。另一種情況是隨機變量的取值范圍是一個區間或整個數軸,

27、這種隨機變量稱為連續型隨機變量 這一說法不太嚴密,因為還存在奇異型隨機變量。這里之所以這么說,是為了簡單起見。第二節隨機變量及其分布二、概率分布的類型(一)離散型隨機變量的概率分布設離散型隨機變量X的所有可能取值為x1,x2,xn,相應的概率為P(x1),P(x2),P(xn),。該概率分布也可簡單記為:P(X=xi)=P(xi)(i=1,2,)第二節隨機變量及其分布(二)連續型隨機變量的概率分布設X是一個隨機變量,若存在一個非負可積函數f(x),使得X的概率分布函數F(x)=P(Xx),可以表示為:F(x)=f(t)dt,-x+則稱X是連續型隨機變量,f(x)是它的(概率)密度函數。連續型隨

28、機變量的密度函數有以下性質:(1)f(x)0;(2)f(x)dx=1;(3)P(aXb)=f(x)dx;(4)在f(x)的連續點處,f(x)=F(x)。第二節隨機變量及其分布三、隨機變量的數字特征(一)隨機變量的(數學)期望1.離散型隨機變量X的數學期望值定義 E(X)=xiP(xi)2.連續型隨機變量X的(數學)期望值定義 E(X)=xf(x)dx更一般地,如果g(x)是可積函數,則隨機變量X的函數Y=g(X)也是隨機變量,并且其數學期望值定義為:E(Y)=Eg(X)=g(x)f(x)dx3.隨機變量數學期望的性質 E(X1+X2)=E(X1)+E(X2)其中X1,X2是隨機變量,是任意常數

29、。也就是說,隨機變量的期望具有線性性質,并且這個性質可推廣到多個隨機變量的情形。第二節隨機變量及其分布(二)隨機變量的方差與標準差方差的正平方根稱為標準差。1.離散型隨機變量X的方差Var(X)=P(xi)2.連續型隨機變量X的方差Var(X)=x-E(X)2f(x)dx3.隨機變量的方差的性質(1)對于任意的常數,Var(aX)=a2Var(X)(2)Var(X)=E(X2)-E(X)2第二節隨機變量及其分布四、隨機向量與獨立性(一)二元(維)隨機向量我們以二元(維)隨機向量為例來說明隨機向量的相關概念和性質。設X,Y是隨機變量,記XxYy=Xx,Yy,則F(x,y)=P(Xx,Yy)稱為二

30、元(維)隨機向量(X,Y)的(聯合)概率分布函數,而FX(x)=P(Xx)和FY(y)=P(Yy)分別稱為X和Y的邊際(邊緣)分布。如果F(x,y)=FX(x)FY(y)始終成立,則稱X和Y相互(統計)獨立。第二節隨機變量及其分布(二)離散型隨機向量的概率分布設離散型隨機向量(X,Y)的所有可能取值為(xi,yj);i,j= 1,2,則隨機向量(X,Y)的(聯合)概率分布(列)為:pij=P(X=xi,Y=yj)(i,j= 1,2,)(4.13)而pi.=P(X=xi,Y=yj)=P(X=xi)p.j=P(X=xi,Y=yj)=P(Y=yj)分別是X,Y的邊際(邊緣)分布。第二節隨機變量及其分

31、布(三)連續型隨機向量的概率分布設(X,Y)是隨機向量,若存在一個非負可積函數f(x,y),使得(X,Y)的概率分布函數F(x,y)=P(Xx,Yy)可以表示為:F(x,y)=f(s,t)dtds-x,y 1,X1,X2,Xn相互獨立)且服從同一分布,該分布存在有限的期望和方差E(Xi)=,Var(Xi)=2, (i=1,2,)。令Yn=(Xk-n)/,則:P(Yn5,n(P-1)5,則可以把二項分布問題轉化為正態分布問題近似地去求解,根據(5.3)式和(5.4)式,有PN 即樣本成數P服從期望值為、方差為(1-)的正態分布。因此,可以用Z統計量來構造總體成數的置信區間:Z=N(0,1)第三節

32、簡單隨機抽樣的區間估計三、兩個總體均值及兩個總體成數之差的置信區間(一)兩個總體均值之差的置信區間1.兩個總體的方差、已知情況下的估計2.兩個總體的方差、未知情況下的估計(二)兩個總體成數之差的置信區間可以證明,當n1和n2都很大,而且總體成數不太接近0或1時,P1-P2的抽樣分布近似服從正態分布,且:=1-2從而1-2的置信度為(1-a)的置信區間為:(P1-P2)Z/2但由于1、2均未知,故上述區間中的1和2需要用P1和P2代替,此時,1和2的置信度為(1-a)的近似置信區間為:(P1-P2)Z/2第三節簡單隨機抽樣的區間估計四、樣本容量的確定(一)估計總體均值時樣本容量的確定在一定的置信

33、水平下,用樣本均值估計總體均值時所允許的最大絕對誤差,稱為允許誤差,用表示。必要樣本容量n與允許誤差、可靠性系數、總體標準差有以下關系:(1)總體方差越大,必要的樣本容量n越大。(2)必要的樣本容量n反比例于允許誤差2。(3)必要的樣本容量n與可靠性系數成正比。第三節簡單隨機抽樣的區間估計(二)估計總體成數時樣本容量的確定估計總體成數時,允許誤差為: =Z/2與估計總體均值時的唯一不同的是用(1-)代替2。由(5.42)式可得出估計總體成數時,確定必要樣本容量的公式。第四節復雜隨機抽樣的區間估計一、分層抽樣的估計分層抽樣也稱為類型抽樣,它是按一定標志對總體各單位進行分類,然后分別從每一類中按隨

34、機原則抽取一定的單位構成樣本。分層抽樣的前提是對總體的結構有一定的了解,為了充分利用這些信息、提高估計的精確度,應對總體按確定標準進行分類,保證抽出的樣本與總體盡可能保持相似的結構。第四節復雜隨機抽樣的區間估計二、等距抽樣的估計等距抽樣又稱為機械抽樣或系統抽樣,它是將總體各單位按某標志進行排序,然后按固定的間隔來抽取樣本單位的抽樣組織形式。總體排序標志是由總體的有關輔助信息確定,與調查標志兩者間可以有關也可以無關。等距抽樣的間隔,應避免與現象本身的節奏性或循環周期相重合。用等距抽樣方式抽取一個樣本后,就可以計算樣本平均數。因此,直接計算等距抽樣的平均誤差是有困難的,只能以間接方式計算其近似值。

35、第四節復雜隨機抽樣的區間估計三、整群抽樣的估計整群抽樣就是將總體各單位分成若干群,然后從其中隨機抽取部分群,對中選的群進行全面調查的抽樣組織方式。在總體單位數很大時,如果直接從總體中抽取總體單位,有時是很困難的,比如從一個大城市中的所有大學生中抽取了解大學生的基本情況,這個城市的大學生人數有幾十萬之多,直接抽取樣本單位有許多困難,如抽樣框的編制等。第四節復雜隨機抽樣的區間估計四、多階段抽樣的估計所謂多階段抽樣,就是先從總體中抽出較大范圍的單位,再從選的大單位中抽較小范圍的單位,以此類推,最后從更小的范圍抽出樣本單位。這種抽樣方式在我國的農產量調查、職工家計調查中常被采用,我們可以先從全國抽出各

36、個省,再從抽中的省中抽出縣、市,最后抽出樣本的基本單位。第六章 假設檢驗目錄假設檢驗的基本原理1總體參數假設檢驗2非參數檢驗3第一節假設檢驗的基本原理一、假設檢驗的基本原理假設檢驗所遵循的推斷依據是統計中的“小概率原理”:小概率事件在一次試驗中幾乎是不會發生的。一般來說,取0.05(5%),對于一些比較嚴格的情況,如在一些高精密質量檢驗的假設檢驗中,它可以取0.01或者更小。越小,所做出的拒絕原假設的判斷的說服力就越強。當然,不管有多么小,也不能代表小概率事件沒有發生的可能,這也正是假設檢驗與數學上“反證法”的不同之處。假設檢驗按照所檢驗內容的不同,可以分為參數檢驗和非參數檢驗。對已知總體分布

37、的某個未知參數進行的檢驗,稱為參數檢驗;對總體的分布形式進行的檢驗,則稱為非參數檢驗。本章將分別對這兩類檢驗進行介紹。第一節假設檢驗的基本原理二、假設檢驗的規則與兩類錯誤(一)假設檢驗的規則(1)根據實際應用問題確定合適的原假設H0和備選假設H1;(2)確定檢驗統計量,通過數理統計分析確定該統計量的抽樣分布;(3)給定檢驗的顯著性水平,在原假設成立的條件下,結合備選假設的定義,由檢驗統計量的抽樣分布情況求出相應的臨界值,該臨界值為原假設的接受域與拒絕域的分界值;(4)從樣本資料計算檢驗的樣本統計量,并將其與臨界值進行比較,判斷是否接受或拒絕原假設。第一節假設檢驗的基本原理(二)p值檢驗p值檢驗

38、的原理:建立原假設后,在假定原假設成立的情況下,參照備選假設,可以計算出檢驗統計量超過或者小于由樣本所計算出的檢驗統計量的數值的概率,這便是p值;而后將此p值與事先給出的顯著性水平進行比較,如果p值小于,也就是說,原假設對應的為小概率事件,根據上述的“小概率原理”,我們就可以否定原假設,而接受對應的備選假設。如果p值大于,我們就不能否定原假設。(三)兩類錯誤實際上依據真實總體情況,我們應該接受原假設H0,但根據樣本信息,卻做出拒絕H0的錯誤結論,這是“棄真”錯誤;此外,我們也可能犯這樣的錯誤:實際的總體情況是應該拒絕原假設,而我們卻接受了它,這便是“納偽”錯誤。第一節假設檢驗的基本原理三、檢驗

39、功效由于為犯“納偽”錯誤的可能性大小,或者說表示出現接受不真實的原假設的結論的概率,那么1-就是指出現拒絕不真實的原假設的概率。若1-的數值越接近于1,表明不真實的原假設幾乎都能夠被拒絕。誠然,如果1-的數值接近于0,表明犯“納偽”錯誤的可能性很大。因此,1-可以用來表明所做假設檢驗工作好壞的一個指標,我們稱為檢驗功效。它的數值表明我們做出正確決策的概率為1-。一個好的檢驗法則總是希望犯兩類錯誤的可能性與都很小,但是這在一般場合下是很難實現的。要使得小,必然導致大;若要使小,必導致增大。第二節總體參數假設檢驗一、總體均值的假設檢驗(一)總體方差2已知對于雙側檢驗,建立的假設為:H0=0,H10

40、其中,0為一個給定已知的常數。對于左(右)單側檢驗來說,建立的假設為:H0=0,H1)0根據樣本資料及假設,計算出樣本統計量的值z。這樣,我們便可以得出原假設的拒絕域為: |z|(對雙側檢驗而言)zz1-(對于右單側檢驗而言)當z值處于拒絕域中時,我們就可拒絕原假設,否則不能拒絕原假設。第二節總體參數假設檢驗(二)總體方差2未知對于雙側檢驗,建立的假設為:H0=0,H10對于左(右)單側檢驗來說,建立的假設為:H0=0,H1)0只是在構造檢驗統計量時,不是利用z檢驗法。而是在原假設成立的條件下,利用t檢驗法,構造檢驗統計量:t=t(n-1)根據樣本資料及假設,計算出樣本統計量的值t。這樣,可以

41、得出對原假設的拒絕域為:|t|(n-1)(雙側檢驗)tt1-(n-1)(右單側檢驗)當t值落入拒絕域時,就拒絕原假設,否則不能拒絕原假設。第二節總體參數假設檢驗二、兩個總體均值之差的檢驗(一)兩總體方差、已知(1)雙側檢驗。(2)左單側檢驗。(3)右單側檢驗。(二)兩總體方差、未知但相等對于雙、單側檢驗,原假設都是相同的,均為H0 x=y。只是在雙側檢驗時,備選假設H1xy;在左單側檢驗時,備選假設為H1xy。在原假設成立的情況下,根據上面的公式,可以構造如下的檢驗統計量:t=t(n1+n2-2)可以根據樣本資料的數據,計算樣本檢驗統計量的數值。第二節總體參數假設檢驗三、總體成數的假設檢驗(一

42、)單樣本成數檢驗建立假設:H0=0,H10構建檢驗統計量,服從標準正態分布,即zN(0,1)。其中,P代表樣本的成數,代表總體的成數。對于顯著性水平,可以通過查標準正態分布表得到臨界值。第二節總體參數假設檢驗四、正態總體方差的假設檢驗方差是反映現象在數量上變異程度的指標,反映變化的均衡程度。對于正態總體方差的檢驗主要有兩種:一是檢驗總體方差是否顯著等于某一給定的確定值,二是檢驗總體方差是否顯著性地在某個給定的范圍內。五、兩個正態總體方差比的檢驗(一)兩總體均值x、y已知(二)兩總體均值x、y未知第三節非參數檢驗一、非參數檢驗概述前面介紹的各種假設檢驗都是在總體分布形式已知或者假定總體分布的前提

43、下做出判斷。但在實際問題中,可能無法獲知或者不一定了解總體的分布類型,而只能通過樣本來檢驗關于總體分布的假設。這種檢驗方法稱為非參數檢驗。第三節非參數檢驗二、2檢驗(一)分布擬合檢驗該檢驗的假設為: H0F(x)=F0(x),H1F(x)F0(x)其中,F(x)為總體的分布函數,F0(x)是某個事先假定的總體分布函數。2檢驗的步驟為:(1)建立假設。(2)將樣本資料數據值按區間進行適當的劃分。(3)計算在各個樣本區間內的實際頻數fi(1im)。(4)調整區間。(5)構造并計算統計量。(6)計算臨界值。(7)進行判斷。第三節非參數檢驗(二)獨立性檢驗顧名思義,該檢驗主要是考察多個變量之間是否有關

44、聯,如果變量之間沒有關聯性,那么就說變量之間是相互獨立的。這里的變量主要是指定類、定序資料。為了分析變量之間的關聯性,需要將資料整理成列聯表的形式。列聯表是多行多列縱橫交錯所形成的一個表體。我們以例子說明列聯表的形式以及如何將獨立性檢驗化為列聯表并進行檢驗分析的程序。第三節非參數檢驗三、符號檢驗(一)單樣本的符號檢驗(二)配對樣本的符號檢驗(三)非配對樣本的符號檢驗第三節非參數檢驗四、秩和檢驗秩和檢驗是一種用樣本秩代替樣本值的檢驗方法,用該法可以檢驗兩個總體的分布函數是否相等的問題。所謂秩,就是樣本觀測值在序列中的排序號。具體的檢驗步驟為:(1)建立假設。H0F1(X)=F2(X),H1F1(

45、X)F2(X)(2)從這兩個總體X、Y中分別抽取樣本容量為n1、n2的兩個樣本,n1+n2=n。(3)計算取自總體X的樣本的秩和T,即將該樣本的所有樣本單位的秩加總。第三節非參數檢驗五、游程檢驗游程檢驗用來檢驗樣本是否隨機地取自于總體。樣本所具有的某個特征的分布越無序,越無規律性,就越能說明樣本的隨機性。所謂游程,是指依時間或其他順序排列的有序數列中,具有相同的事件或符號的連續部分。對應地,同類游程出現的次數則稱為該類的游程數,通俗地講,就是連成一片的事件或字符的片數。不同類游程數的總和,稱為總游程數,記為R。第三節非參數檢驗六、等級相關對于樣本值,使用的是定距或定比的測量尺度,然而在實際應用

46、中,我們可能會碰到要分析的是定序尺度描述的數據類型的情況。對于該類型數據的兩個配對序列之間的相關關系,可以應用斯皮爾曼提出的公式來計量。此關系系數稱為斯皮爾曼秩相關系數(rs)。第七章 方差分析目錄方差分析方法引導1單因素方差分析2雙因素方差分析3第一節方差分析方法引導一、方差分析問題的提出方差分析(analysis of variance,ANOVA),就是利用試驗觀測值總偏差的可分解性,將不同條件所引起的偏差與試驗誤差分解開來,按照一定的規則進行比較,以確定條件偏差的影響程度以及相對大小。當已經確認某幾種因素對試驗結果有顯著影響時,可使用方差分析檢驗確定哪種因素對試驗結果的影響最為顯著并估

47、計影響程度。第一節方差分析方法引導二、方差分析的基本原理(一)方差分解原理一般來說,試驗結果的差異性可由離差平方和表示,離差平方和又可分解為組間方差與組內方差。其中,組間方差為因素對試驗結果的影響的加總;組內方差則是各組內的隨機影響的加總。如果組間方差明顯高于組內方差,說明樣本數據波動的主要來源是組間方差,因素是引起波動的主要原因,則認為因素對試驗的結果存在顯著的影響;否則認為波動主要來自組內方差,即因素對試驗結果的影響不顯著。第一節方差分析方法引導(二)檢驗統計量為了消除自由度對方差大小的影響,我們用方差除去自由度后的結果來比較兩者相對大小。F統計量的值越大,就越能說明組間方差是離差平方和的

48、主要來源,因素影響顯著;F統計量的值越小,就越能說明組內方差是離差平方和的主要來源,因素影響不顯著。第二節單因素方差分析一、單因素條件下的平方和分解公式在試驗中只考慮一個因素對試驗結果影響顯著性的方差分析稱為單因素方差分析。為了檢驗該因素在不同水平下的均值是否有顯著差異,我們可在該因素的不同水平下進行一組重復試驗(或抽樣);并將不同水平下的試驗結果作為來自不同總體的樣本,即得到了多個組別的重復試驗結果。第二節單因素方差分析二、因素作用顯著性的檢驗若記各水平下的總體均值為1,2,r,則檢驗因素對試驗結果影響的顯著性就是檢驗假設: H01=2=r H11,2,r不全相等或簡單寫成:H0A對試驗結果

49、影響不顯著H1A對試驗結果有顯著影響由前所述,只要建立關于SA與SE的F統計量就可以進行假設檢驗。在此之前,先要推算出對應的自由度。F=Fr-1,r(n-1)F值越大,越說明組間方差大于組內方差,因此組間方差構成了離差平方和的主要來源,即因素的不同水平對試驗結果影響較大,應拒絕原假設;反之,說明組內方差是主要來源,不能拒絕原假設。第二節單因素方差分析三、應注意的問題(1)方差分析需滿足的假設條件。(2)在實際問題中,各水平下的總體的試驗次數可以相等也可以不等,分析過程和結論基本不變。但是當試驗次數相差較大或因素較多時應該考慮采用廣義線性模型分析,以消除非均衡試驗設計的影響。(3)方差分析只能判

50、斷各總體的均值是否相等,而不能判斷出哪個總體的均值是大還是小,這時需要在均值不等的前提下,采用多重比較法進一步比較各個均值的大小。第三節雙因素方差分析一、無交互作用的雙因素方差分析A與B是待確認是否對試驗結果有顯著影響的兩個因素,假定A,B之間無交互作用,在兩個因素的各種水平組合下進行重復試驗可得表7-8。檢驗因素A與B對試驗結果的影響是否顯著的F統計量。二、有交互作用的雙因素方差分析當因素之間存在交互作用時,為了區分隨機誤差和交互作用,需要在不同的水平組合下進行重復試驗。第八章 相關與回歸分析目錄相關與回歸分析的基本概念1簡單線性相關分析2一元線性回歸分析3多元線性相關與回歸分析4非線性相關

51、與回歸分析5第一節相關與回歸分析的基本概念一、函數關系與相關關系客觀現象總是普遍聯系和相互依存的??陀^現象之間的數量聯系存在著兩種不同的類型:一種是函數關系,另一種是相關關系。當一個或幾個變量取一定的值時,另一個變量有確定值與之相對應,我們稱這種關系為確定性的函數關系。當一個或幾個相互聯系的變量取一定數值時,與之相對應的另一變量的值雖然不確定,但它仍按某種規律在一定的范圍內變化。 變量之間的函數關系和相關關系在一定條件下是可以互相轉化的。第一節相關與回歸分析的基本概念二、相關關系的種類客觀現象的相關關系可以按不同的標志加以區分。(一)完全相關、不完全相關和不相關(二)正相關和負相關(三)線性相

52、關和非線性相關(四)單相關、復相關和偏相關第一節相關與回歸分析的基本概念三、相關分析與回歸分析相關分析和回歸分析是研究現象之間相關關系的兩種基本方法。所謂相關分析,就是用一個指標來表明現象間相互依存關系的密切程度。所謂回歸分析,就是根據相關關系的具體形態,選擇一個合適的數學模型,來近似地表達變量間的平均變化關系。相關分析和回歸分析有著密切的聯系,它們不僅具有共同的研究對象,而且在具體應用時,常常必須互相補充。但是,應當指出,相關分析與回歸分析之間在研究目的和方法上是有明顯區別的。相關分析研究變量之間相關的方向和相關的程度,但是相關分析無法從一個變量的變化來推測另一個變量的變化情況。第一節相關與

53、回歸分析的基本概念四、相關圖相關圖又稱散點圖。它是以直角坐標系的橫軸代表變量X,縱軸代表變量Y,將兩個變量間相對應的變量值用坐標點的形式描繪出來,用來反映兩變量之間相關關系的圖形。相關圖是研究相關關系的直觀工具,一般在進行詳細的定量分析之前,可以先利用它對現象之間存在的相關關系的方向、形式和密切程度作大致判斷。第二節簡單線性相關分析一、相關系數及其檢驗 (一)相關系數的定義單相關分析是對兩個變量之間的線性相關程度進行分析。單相關分析所采用的尺度為單相關系數,簡稱相關系數??傮w相關系數是反映兩變量之間線性相關程度的一種特征值,表現為一個常數。由于實際上不可能對總體變量X和Y的全部數值都進行觀測,

54、所以總體相關系數一般是不知道的。通常需要從總體中隨機抽取一定數量的樣本,通過X和Y的樣本觀測值去估計樣本相關系數。樣本相關系數是根據樣本觀測值計算的,抽取的樣本不同,其具體的數值也會有所差異。容易證明,樣本相關系數是總體相關系數的一致估計量。第二節簡單線性相關分析(二)相關系數的特點 (1)r的取值介于-1與1之間。(2)當r=0時,X與Y的樣本觀測值之間沒有線性關系。(3)在大多數情況下,0|r|0時,X與Y為正相關;當r0,或s30),H0s =0成立的前提下,rs近似服從正態分布N(0,1/(n-1)。因此,可以利用下面的檢驗統計量:Z=N(0,1)(8.6)第三節一元線性回歸分析一、標

55、準的一元線性回歸模型(一)總體回歸函數當變量之間存在顯著的相關關系時,可以利用一定的數學模型對其進行回歸分析。在回歸分析中,最簡單的模型是只有一個因變量和一個自變量的線性回歸模型,即一元線性回歸模型,又稱簡單線性回歸模型。該模型假定因變量Y主要受自變量X的影響,它們之間存在著近似的線性函數關系,即有: Yt=1+2Xt+ut上式被稱為總體回歸函數。式中的1和2是未知的參數,又叫回歸系數。Yt和Xt分別是Y和X的第t個觀測值。ut是隨機誤差項,又稱隨機干擾項,是一個特殊的隨機變量,反映未列入方程式的其他各種因素對Y的影響。第三節一元線性回歸分析(二)樣本回歸函數根據樣本數據擬合的直線,稱為樣本回

56、歸線。顯然,樣本回歸線的函數形式應與總體回歸線的函數形式一致。樣本回歸函數與總體回歸函數之間的聯系顯而易見,這里需要特別指出的是它們之間的區別:(1)總體回歸線是未知的,它只有一條。而樣本回歸線則是根據樣本數據擬合的,每抽取一組樣本,便可以擬合一條樣本回歸線。(2)總體回歸函數中的1和2是未知的參數,表現為常數。而樣本回歸函數中的和是隨機變量,其具體數值隨所抽取的樣本觀測值不同而變動。(3)總體回歸函數中的ut是Yt與未知的總體回歸線之間的縱向距離,它是不可直接觀測的。而樣本回歸函數中的et是Yt與樣本回歸線之間的縱向距離,當根據樣本觀測值擬合出樣本回歸線之后,可以計算出et的具體數值。第三節

57、一元線性回歸分析(三)誤差項的標準假定滿足以上標準假定的一元線性模型稱為標準的一元線性回歸模型。應當指出,在現實生活中,由于各種原因,上述標準假定常常不能得到滿足。那么學習以標準假定為基礎的回歸分析理論與方法是否會失去意義呢?當然不會。第三節一元線性回歸分析二、一元線性回歸模型的估計(一)回歸系數的點估計(二)總體方差的估計(三)最小二乘估計量的性質(四)回歸系數的區間估計第三節一元線性回歸分析三、一元線性回歸模型的檢驗(一) 回歸模型檢驗的種類(二)擬合程度的評價(三)顯著性檢驗第三節一元線性回歸分析四、一元線性回歸模型預測(一)回歸預測的基本公式(二)預測誤差(三)區間預測第四節多元線性相

58、關與回歸分析一、標準的多元線性回歸模型多元線性回歸模型總體回歸函數的一般形式如下:Yt=1+2X2t+kXkt+ut(8.52)上式假定因變量Y與(k-1)個自變量之間的回歸關系可以用線性函數來近似反映。式中,Yt是變量Y的第t個觀測值;Xjt是第j個自變量Xj的第t個觀測值(j=2,k);ut是隨機誤差項;1,2,k是總體回歸系數。j表示在其他自變量保持不變的情況下,自變量Xj變動一個單位所引起的因變量Y平均變動的數額,因而又叫做偏回歸系數。該式中,總體回歸系數是未知的,必須利用有關的樣本觀測值來進行估計。第四節多元線性相關與回歸分析二、多元線性回歸模型的估計(一)回歸系數的估計(二)總體方

59、差的估計(三)最小二乘估計量的性質第四節多元線性相關與回歸分析三、多元線性回歸模型的檢驗(一)擬合程度的評價(二)顯著性檢驗1.回歸系數的顯著性檢驗2.回歸方程的顯著性檢驗第四節多元線性相關與回歸分析四、多元線性回歸預測在通過各種檢驗的基礎上,多元線性回歸模型可以用于預測。多元線性回歸預測與一元線性回歸預測的原理是一致的。五、復相關系數和偏相關系數(一)復相關系數(二)偏相關系數第五節非線性相關與回歸分析一、非線性函數形式的確定(一)拋物線函數(二)雙曲線函數(三)冪函數(四)指數函數(五)對數函數(六)S形曲線函數(七)多項式方程第五節非線性相關與回歸分析二、非線性回歸模型估計(一)倒數變換

60、(二)半對數變換(三)雙對數變換(四)多項式變換第五節非線性相關與回歸分析三、相關指數變量之間存在的非線性相關的強弱,難以用單相關系數去判斷。在這種場合,可以利用相關指數作為判斷變量之間是否顯著存在某種類型的非線性相關關系的尺度。所謂相關指數,也就是對非線性回歸模型進行擬合時所得到的決定系數。第九章 時間序列分析目錄時間序列分析概述1時間序列的分析指標2長期趨勢的測定3季節變動和循環波動測定4時間序列預測方法5第一節時間序列分析概述一、時間序列的概念社會經濟現象總是隨著時間的推移而變化,將統計指標的數值按時間先后順序排列起來就形成了時間序列。任何一個時間序列,均由兩個基本要素構成:一個是現象所

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論