《統計學導論》配套教學課件_第1頁
《統計學導論》配套教學課件_第2頁
《統計學導論》配套教學課件_第3頁
《統計學導論》配套教學課件_第4頁
《統計學導論》配套教學課件_第5頁
已閱讀5頁,還剩620頁未讀 繼續免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

第一節什么是統計一、統計(Statistics)的涵義統計是人們認識客觀世界總體數量變動關系和變動規律的活動的總稱,是人們認識客觀世界的一種有力工具。統計的研究對象具有以下特點:(一)數量性。統計數據是客觀事物量的反映。(二)總體性。統計的數量研究是對現象總體中各單位普遍存在的事實進行大量觀察和綜合分析,得出反映現象總體的數量特征。(三)變異性。總體各單位的特征表現存在著差異,而且這些差異并不是事先可以預知的。1日常生活中,“統計”的3種含義統計工作(又稱統計實踐)是搜集、整理、分析和提供關于社會經濟現象的數字資料工作的總稱。英文中的統計statistics與“國家”同一詞根,可以說,自從有了國家,就有統計實踐活動。統計數據是統計實踐活動的成果。如:經濟增長速度、價格指數等。對統計數據要求:客觀性、準確性和及時性。統計學是研究如何測定、收集、整理、歸納和分析反映客觀現象總體數量的數據,以便給出正確認識的方法論科學。統計學與統計實踐活動的關系是理論與實踐的關系,理論源于實踐,理論又高于實踐,反過來又指導實踐

2二、統計研究的基本環節3統計設計收集數據整理與分析資料積累開發應用統計學理論與相關實質性學科理論描述統計推斷統計統計調查、實驗統計研究的全過程包括以下基本環節:(一)統計設計根據所要研究問題的性質,在有關學科理論的指導下,制定統計指標、指標體系和統計分類,給出統一的定義、標準。同時提出收集、整理和分析數據的方案和工作進度等。搞好統計設計不僅要有統計學的一般理論和方法為指導,而且還要求設計者對所要研究的問題本身具有深刻的認識和相關的學科知識。(二)收集數據統計數據的收集有兩種基本方法。對于大多數自然科學和工程技術研究來說,有可能通過有控制的科學實驗去取得數據,這時可以采用實驗法。對于社會經濟現象來說,一般無法進行重復實驗,要取得有關數據就必須進行調查觀察。4(三)整理與分析運用的方法包括:描述統計和推斷統計。描述統計是指對采集的數據進行登記、審核、整理、歸類,在此基礎上進一步計算出各種能反映總體數量特征的綜合指標,并用圖表的形式表示經過歸納分析而得到的各種有用的統計信息。推斷統計是在對樣本數據進行描述的基礎上,利用一定的方法根據樣本數據去估計或檢驗總體的數量特征。推斷統計是現代統計學的主要內容。(四)統計資料的積累、開發與應用對于已經公布的統計資料需要加以積累,同時還可以進行進一步的加工,結合相關的實質性學科的理論知識去進行分析和利用。如何更好地將統計數據和統計方法應用于各自的研究領域是應用統計學研究的一個重要方面。5

第二節統計學的種類及其性質

一、統計學的產生與發展(一)政治算術學派最早的統計學源于17世紀英國的政治算術。其代表人物是威廉.配第(WilliamPatty,1623—1687年)。威廉·佩第在《政治算術》(1676年)一書中,寫到:本書“不用比較級、最高級進行思辨或議論,而是用數字……來表達自己想說的問題……借以考察在自然中有可見的根據的原因。”政治算術學派主張用大量觀察和數量分析等方法對社會經濟現象進行研究的主張,為統計學的發展開辟了廣闊的前景。(二)國勢學派最早使用“統計學”這一術語的是德國國勢學派的阿亨瓦爾(G.Achenwall,1719-1772)。國勢學派雖然創造了統計學這一名詞,但他們主要使用文字記述的方法對國情國力進行研究,其學科內容與現代統計學有較大的差別。6(三)社會統計學派1850年,德國的統計學家克尼斯(K.G.A.knies)發表了題為《獨立科學的統計學》的論文,提出統計學是一門獨立的社會科學,是一門對社會經濟現象進行數量對比分析的科學,他主張以“國家論”作為國勢學的科學命名,而以“統計學”作為“政治算術”的科學命名。

在德國、日本和前蘇聯,社會統計學派都曾有相當大的影響。各國學者在社會經濟統計指標的設定與計算、指數的編制、資料的收集與整理、統計調查的組織和實施、經濟社會的數量分析和預測等方面做出的貢獻已成為現代統計學的重要組成部分。例如,“恩格爾系數”,至今仍為人們廣泛使用。國民收入和國內生產總值的核算方法被稱為“20世紀最偉大的發明之一。”7(四)數理統計學派

創始人是比利時統計學家凱特勒(AdolpheQuetelet,1796—1874年)。他所著的代表作《概率論書簡》、《社會物理學》等將概率論和統計方法引入社會經濟方面的研究。在學科性質上,凱特勒認為統計學是一門既研究社會現象又研究自然現象的方法論科學。從19世紀中葉到20世紀中葉,數理統計學得到迅速發展。英國生物學家高爾頓提出并闡述了“相關”的概念;皮爾遜提出了計算復相關和偏相關的方法。戈塞特建立了“小樣本理論”,即所謂的“t分布”;費歇樣本相關系數的分布、方差分析、實驗設計等方面的研究中做出了重要貢獻。到20世紀中期,數理統計學的基本框架已經形成。數理統計學派成為英美等國統計學界的主流。8二、理論統計學和應用統計學歷經300多年的發展,統計學目前已經成為橫跨社會科學和自然科學領域的多科性的科學。

“統計學是有關如何測定、收集和分析反映客觀現象總體數量的數據,以便給出正確認識的方法論科學。”從橫向看,各種統計學都具有上述共同點,因而能夠形成一個學科“家族”。從縱向看,統計學方法應用于各種實質性科學,同它們相結合,產生了一系列專門領域的統計學。由此可見,現代統計學可以分為兩大類:一類是以抽象的數量為研究對象,研究一般的收集數據、整理數據和分析數據方法的理論統計學。另一類是以各個不同領域的具體數量為研究對象的應用統計學。9圖1-2統計學學科體系經濟學社會學教育學其他社科物理學生物學醫學其他理工農經濟統計社會統計教育統計其他社科統計統計學物理統計生物統計醫藥統計其他理工農統計10理論統計學把研究對象一般化、抽象化,以數學中的概率論為基礎,從純理論的角度,對統計方法加以推導論證,其中心內容是以歸納方法研究隨機變量的一般規律。理論統計學的特點是計量不計質,它具有通用方法論的理學性質。應用統計學是有具體對象的方法論。所謂應用既包括一般統計方法的應用,更包括各自領域實質性科學理論的應用。應用統計學從所研究的領域或專門問題出發,視研究對象的性質采用適當的指標體系和統計方法,解決所需研究的問題。應用統計學不僅要進行定量分析,還需要進行定性分析。所以應用統計學通常具有邊緣交叉和復合型學科的性質。理論統計學和應用統計學總是互相促進,共同提高的。理論統計的研究為應用統計提供方法論基礎,應用統計學在對統計方法的實際應用中,又常常會對理論統計學提出新的問題,開拓理論統計學的研究領域。11社會經濟統計學是一門以社會經濟現象的數量方面為特定研究對象的應用統計學。要在社會經濟領域應用統計方法,必須解決如何科學地測定社會經濟現象即如何科學地設置指標的問題。要對社會經濟問題進行統計分析,也必須以有關的經濟與社會理論為指導。因此,社會經濟統計學的特點是在質與量的緊密聯系中,研究事物的數量特征和數量表現。由于社會經濟現象所具有的復雜性和特殊性,社會經濟統計學不僅要應用一般的統計方法,而且還需要研究自己獨特的方法,如核算的方法、綜合評價的方法等等。通過社會經濟統計,國家可以準確、及時、全面、系統地掌握國民經濟和社會發展情況,對國民經濟和社會運行監督和預警,為宏觀調控和決策提供依據。企業可以及時了解商品市場和要素市場運行的狀況和企業自身的經營動態,為企業營銷決策、投資理財提供參考。12二、統計學與有關學科的聯系與區別

數學與統計學。數學與統計學都是研究數量規律的,都要利用各種公式進行運算。數學中的概率論,為統計學提供了數量分析的理論基礎。統計學中的理論統計學以抽象的數量為研究對象,其大部分內容也可以看作是數學的分支。統計學與數學的區別。從研究對象看,數學以最一般的形式研究數量的聯系和空間形式。統計學特別是應用統計學則總是與客觀的對象聯系在一起的。從研究方法看,數學主要是邏輯推理和演繹論證的方法。而統計本質上是歸納的方法。統計學家特別是應用統計學家需要深入實際,進行調查或實驗去取得數據,研究時不僅要運用統計的方法,而且還要掌握某一專門領域的知識。13統計學與經濟學統計學與相關的實質性學科如經濟學等,有密切的聯系。統計學是開展經濟研究不可或缺的重要工具。通過統計的實證研究,可以幫助人們認識有關的數量規律,同時檢驗經濟學理論的真實性和完善程度。獲得諾貝爾經濟學獎的學者三分之二以上與統計有關。經濟學等實質性學科對經濟統計學起著重要的指導作用。不僅統計指標的設定離不開實質性學科的指導,而且應用統計方法也在很大的程度上受所研究對象性質的影響。統計學與相關實質性學科的區別。實質性學科研究該領域現象的本質關系并對有關規律作出合理的解釋和論證。而統計學只是為實質性學科研究和認識數量規律提供專門的方法和工具,并不直接對規律產生的原因和機理作進一步的分析。14第三節統計學的基本概念一、總體與總體單位統計總體是根據一定目的確定的所要研究的事物的全體。它是由客觀存在的、具有某種共同性質的許多個別事物構成的整體。例如要研究全國城鎮居民的收支情況,就以全國城鎮居民作為一個總體。。同質性是確定統計總體的基本標準,它是根據統計的研究目的而定的。研究目的不同,則所確定的總體也不同,其同質性的意義也隨之變化。例如,研究城鎮居民貧困戶的生活狀況,那么,貧困線下的城鎮居民戶則構成了統計總體,貧困線下的城鎮居民戶是同質的,而貧困線上的城鎮居民戶是非同質的。統計總體還應具備大量性。統計總體應該由足夠數量的同質性單位構成。15總體單位(簡稱單位)是組成總體的各個個體。根據研究目的的不同,單位可以是人、物、機構等實物單位,也可以是一種現象或活動過程等非實物單位。總體和單位的概念是相對而言的,隨研究目的不同,總體范圍不同而變化。同一個研究對象,在一種情況下為總體,但在另一種情況下又可能變成單位。根據總體所包含的單位數量,總體可以分為有限總體和無限總體兩類。有限總體是由有限量的單位構成的總體。當總體單位數難以確定,其數量可能是無限時,便構成無限總體。16二、樣本當總體單位數量很多甚至無限時,不必要或不可能對構成總體的所有單位都進行調查。這時,需要采用一定的方式,從由作為研究對象的事物全體構成的總體(又稱母體)中,抽取一部分單位,作為總體的代表加以研究。這種由總體的部分單位組成的集合稱為樣本(又稱子樣)。樣本也由一定數量的單位構成的,樣本所包含的總體單位數稱為樣本容量。三、標志總體各單位普遍具有的屬性或特征稱為標志。例如每個工人都具有性別、工種、文化程度、技術等級、年齡、工齡、工資等屬性和特征,這些就是工人作為總體單位的標志。17標志分為品質標志和數量標志兩種。品質標志表明單位屬性方面的特征,品質標志的表現只能用文字、語言來描述如工人的性別。數量標志表明單位數量方面的特征,可以用數值來表現,如年齡。如果一個總體中各單位有關標志的具體表現都相同,稱之為不變標志。例如在工人這一總體中,職業是不變標志。在一個總體中,當一個標志在各單位的具體表現有可能不同時,這個標志便稱為變異標志。例如各人的工齡可能表現不同,因而是可變標志。一個總體至少要有一個不變標志,才能夠使各單位結合成一個總體。不變標志是總體同質性的基礎。作為總體,同時必須存在變異標志,這表示所研究的現象在各單位之間存在著差異,才需要進行統計研究。18四、統計指標與指標體系統計指標是反映統計總體數量特征的概念和數值。如2002年我國國內生產總值104790.6億元。統計指標由兩項基本要素構成,即指標的概念(名稱)和指標的取值。指標的概念(名稱)是對所研究現象本質的抽象概括,也是對總體數量特征的質的規定性。確定統計指標必須有一定的理論依據,使之與社會經濟或科學技術的范疇相吻合。同時,又必須對理論范疇和計算口徑加以具體化。指標的數值反映所研究現象在具體時間、地點、條件下的規模和水平。在觀察指標數值時,必須了解其具體的時間狀態、空間范圍、計量單位、計量方法等限定,同時注意由于上述條件的變化而引起數值的可比性問題。19指標與標志的關系標志反映總體單位的屬性和特征,而指標則反映總體的數量特征。標志和指標的關系是個別和整體的關系。需要通過對各單位標志的具體表現進行匯總和計算才能得到相應的指標。由于總體和單位的概念會隨著研究目的不同而變化,因此指標與標志的概念也是相對而言的。例如,如果所要研究的是全國工業企業的情況,則各企業的職工人數、固定資產、工業增加值等都是總體單位(即各個企業)的標志,而如果研究目的變成研究某一企業的職工狀況,則該企業變成一個總體,企業職工人數變成了統計指標,每個職工的文化程度、技術等級、性別、年齡等就成為標志。20統計指標可以分為數量指標和質量指標。凡是反映現象總規模、總水平的統計指標稱為數量指標。例如人口總數、企業總數、商品進出口總額等等,這些指標反映現象或過程的總規模和水平,所以也稱為總量指標,用絕對數來表示。凡是反映現象相對水平和工作質量的統計指標稱為質量指標,例如職工平均工資、人口密度、工人出勤率等等。質量指標是總量指標的派生指標,用相對數或平均數來表示,以反映現象之間的內在聯系和對比關系。統計指標體系是由一系列相互聯系的統計指標所組成的有機整體。用以反映所研究現象各方面相互依存相互制約的關系。例如,工業企業統計指標體系。21五、統計數據(一)變量與變量值說明現象的某一數量特征的概念也被稱為變量,變量的具體取值是變量值,統計數據就是統計變量的具體表現。例如,固定資產是一個變量,各企業固定資產的具體數值是變量值。為了區別,在本書中,凡是變量均用大寫的英文字母表示,而變量值則用小寫英文字母表示。連續型變量是指變量的取值在數軸上連續不斷,無法一一列舉,即在一個區間內可以取任意實數值。例如,氣象上的溫度、濕度,零件的尺寸等。離散型變量是指變量的其取值是整數值,可以一一列舉。例如,企業數,職工人數等。22確定性變量是受確定性因素影響的變量,即影響變量值變化的因素是明確的,是可解釋和可控制的。隨機變量則是受許多微小的不確定因素(又稱隨機因素)影響的變量。變量的取值無法事先確定。社會經濟現象既有確定性變量也有隨機變量。統計學所研究的主要是隨機變量。(二)數據的計量尺度統計數據是總體單位標志或統計指標的具體數量表現。根據對研究對象計量的不同精確程度,人們將計量尺度由低到高、由粗略到精確分為四個層次:定類尺度、定序尺度、定距尺度和定比尺度。231.定類尺度是按照客觀現象的某種屬性對其進行分類。這一場合的所使用的數值只是作為各種分類的代碼,并不反映各類的優劣、量的大小或順序。例如,人口按性別分為男女,用“1”表示男性,用“0”表示女性。定類尺度的主要數學特征是“=”或“≠”。在統計處理中,對于不同的類別,雖然可以計算單位數,但它不能表明第一類的一個單位可以相當于第二類的幾個單位。2.定序尺度是對客觀現象各類之間的等級差或順序差的一種測度。利用定序尺度不僅可以將研究對象分成不同的類別,而且還可以反映各類的優劣、量的大小或順序。例如,學生成績可以分為優、良、中、及格和不及格等五類。在這里,定序尺度雖然無法表明一個優等于幾個良,但卻能確切地表明優高于良,良又高于中……。定序尺度的主要數學特征是“<”或“>”。243.定距尺度是對現象類別或次序之間間距的測度。定距尺度不但可以用數表示現象各類別的不同和順序大小的差異,而且可以用確切的數值反映現象之間在量方面的差異。定距尺度使用的計量單位一般為實物單位(自然或物理)或者價值單位。定距尺度的主要數學特征是“+”或“–”。統計中的總量指標就是運用定距尺度計量的。4.定比尺度。定比尺度是在定距尺度的基礎上,確定相應的比較基數,然后將兩種相關的數加以對比而形成相對數(或平均數),用于反映現象的結構、比重、速度、密度等數量關系。例如,將一個企業創造的增加值與該企業的職工人數對比,計算全員勞動生產率,以此反映該企業的生產效率。定比尺度的主要數學特征是“×”或“÷”。25(三)數據的類型

橫截面數據又稱為靜態數據,它是指在同一時間對同一總體內不同單位的數量進行觀察而獲得的數據。時間序列數據又稱為動態數據,它是指在不同時間對同一總體的數量表現進行觀察而獲得的數據。例如,2005年全國各省市自治區的國內生產總值就屬于橫截面數據。而“十五”期間我國歷年的國內生產總值就屬于時間序列數據。26(四)數據的表現形式

絕對數。現象的規模、水平一般以絕對數形式表現。絕對數的計量單位一般為實物單位或價值單位,有時也采用復合單位。實物單位可以是自然計量單位,也可以是物理計量單位,如人口數用人計量,機器數用臺計量,對于一些化工產品和燃料,常常還折合成標準實物單位計量。復合計量單位是由兩種或兩種以上計量單位復合而成的,如以“噸公里”為貨物周轉量的計量單位,以“千瓦時”為用電量的計量單位。相對數。相對數由2個互相聯系的數值對比求得。常用的相對數包括:結構相對數、動態相對數、比較相對數、強度相對數、利用程度相對數、計劃完成相對數等。關于這些相對數的含義及其計算,本書將在第十章作詳細介紹。平均數。平均數反映現象總體的一般水平或分布的集中趨勢。關于這部分的內容,本書將在第三章作詳細介紹。27管理統計學第二章第二章統計數據的搜集、整理與顯示

第一節統計數據的搜集第二節統計數據的整理第三節統計數據的顯示29第一節統計數據的搜集

一、統計數據的搜集方法1.統計數據搜集的概念根據統計研究預定的目的和任務,運用科學的方法與手段,有計劃、有組織地向客觀實際采集數據的過程從統計工作過程的階段性看,統計數據的搜集處于統計工作過程的基礎階段。

2.統計數據搜集的方式一種是直接向調查對象搜集反映調查單位的統計數據(或稱原始資料);另一種是搜集已經加工、整理過的、說明總體現象的數據(一般稱為二手資料)。

3.統計數據的分類按其性質不同分為調查數據和試驗數據

4.統計數據的搜集方法對于調查數據的搜集,通常稱為統計調查。搜集的是調查對象的原始資料,常用的方法有直接觀察法、報告法(通訊法)、采訪法、實驗調查設計等。30二、統計調查方式常用的統計調查方式1.普查2.抽樣調查3.重點調查

4.統計報表制度311.普查普查:是專門組織的一種全面調查,它主要是用以搜集某些不能或不宜用定期報表搜集的統計資料。對國情國力的調查一般采用普查。普查的特點:〈一〉是一種非經常性的全面調查;〈二〉比任何一種調查形式更能掌握大量、詳細、全面的統計資料。322.抽樣調查

抽樣調查:是一種非全面調查,抽樣調查可以分為概率抽樣和非概率抽樣。概率抽樣是按隨機原則從調查對象中抽取一部分單位作為樣本進行觀察,然后根據樣本數據去推算調查對象的總體特征。

概率抽樣的特點:〈一〉樣本單位按隨機原則抽取,排除了主觀因素對選樣的影響。〈二〉根據部分調查的實際資料對調查對象總體的數量特征作出估計。〈三〉抽樣誤差可以事先計算并加以控制。抽樣調查的適用場合:

〈一〉不可能或不必要進行全面調查的社會現象,采用抽樣調查;〈二〉對普查資料進行必要的修正。333.重點調查

重點調查:在調查對象中,只選擇一部分重點單位進行的非全面調查。重點單位:它們在所研究現象的標志總量中卻占有絕大的比重,在總體中具有舉足輕重的作用。對這些單位進行調查,能夠從數量上反映整個總體在該標志總量方面的基本情況。特點:可以了解較詳細的情況,但無法對現象總體的數量特征作出準確的推算,也無法測算調查誤差。適用場合:當調查任務只要求掌握基本情況,而部分單位又能比較集中地反映研究的項目,宜采用重點調查。344.統計報表制度

統計報表制度:依照國家有關法規,自上而下地統一布置,以一定的原始記錄為依據,按照統一的表式,統一的指標項目,統一的報送時間和報送程序,自下而上地逐級地定期提供統計資料的一種調查方式。

統計報表的主要特點:〈一〉報表資料的來源是建立在各個基層單位的原始記的基礎上;〈二〉由于統計報表是逐級上報和匯總的,各級領導部門能獲得管轄范圍內的報表資料;〈三〉是一種經常性的(連續性)調查,調查項目相對穩定,有利于積累資料,并進行動態對比分析。35三、統計調查體系

統計調查體系:一個國家開展統計調查方法和制度的總稱。

我國的統計調查體系:建立以必要的周期性的普查為基礎,經常性的抽樣調查為主體,同時輔之以重點調查、科學推算和部分全面報表綜合運用的統計調查方法體系。36四、統計調查方案的設計

〈一〉明確調查目的。

〈二〉確定調查對象和調查單位。調查對象,是指需要調查的現象總體。調查單位,是指所要調查的具體單位。報告單位亦稱填報單位,它是負責向上報告調查內容、提交統計資料的單位。報告單位一般是在行政上、經濟上具有一定獨立性的單位。

〈三〉設計調查項目。

〈四〉設計調查表格和問卷37〈五〉確定調查時間。調查時間是指調查資料所屬的時間,在統計調查中,如果所調查的是時期現象,就要明確規定調查資料所反映的起止日期。如果所要調查的是時點現象,調查時間就是規定的統一標準時點。調查期限是進行調查工作的時限,包括搜集資料和報送資料的工作所需的時間。

〈六〉組織實施調查計劃。

〈七〉調查報告的撰寫。38五、二手資料的主要來源渠道1.統計年鑒2.有關期刊3.有關網站39第二節

統計數據的整理

一、數據整理概述

1.數據整理的含義:對統計調查所搜集到的各種數據進行分類和匯總,又稱為匯總性整理。2.統計數據整理的內容:(1)如何對所要研究的總體進行統計分組;(2)確定描述總體數量特征的統計指標體系。40二、統計分組基本理論

1.統計分組的概念根據統計研究的目的和客觀現象的內在特點,按某個標志(或幾個標志)把被研究的總體劃分為若干個不同性質的組,稱為統計分組。統計分組標志:品質標志或數量標志2.分組的性質兼有分和合雙重含義,對于現象總體,是“分”,對于單位,是“合”。3.統計分組的種類(1)按分組標志的多少,分為簡單分組和復合分組(2)按分組的標志的性質不同,分為品質分組(或稱屬性分組)和數量分組(或稱變量分組)。41三、統計分組的原則和方法

1.統計分組的原則:窮盡原則:使總體中的每一個單位都應有組可歸,或者說各分組的空間足以容納總體所有的單位。互斥原則:就是在特定的分組標志下,總體中的任何一個單位的只能歸屬于某一組,而不能同時或可能歸屬于幾個組。2.統計分組的方法(1)品質分組:按品質標志分組(2)數量分組:按數量標志分組(A)單項式分組與組距式分組(B)間斷組距式分組和連續組距式分組“上限在不內”原則:凡是總體某一個單位的變量值是相鄰兩組的界限值,這一個單位歸入作為下限值的那一組內。(C)等距分組與異距分組423.組距式分組的相關概念(1)組距連續組距分組的組距=本組上限–本組下限間斷式組距且等距分組的條件下:組距=本組上限–前組上限或=本組下限–前組下限 或=本組上限–本組下限+1(2)組數(3)(4)開口組的組距與組中值43四、頻數分布1.頻數分布的基本理論(1)頻數分布的定義(2)分布數列的兩個要素總體按某標志所分的組,若總體按數量標志分組,分組標志在各組有不同的數量表現,形成標志值數列,亦稱變量,一般用x表示;各組所出現的單位數,即頻數,亦稱次數,用f表示。442.變量數列的編制方法3.相關的概念:(1)頻率

fi:第i組頻數(2)頻率的性質(A);(B)。

(3)頻數密度與頻率密度:(A)頻數密度=頻數/組距 (2.9)(B)頻率密度=頻率/組距 (2.10)45五、累計頻數與累計頻率1.向上累計頻數(或頻率)分布2.向下累計頻數(或頻率)分布46

第三節

統計數據的顯示一、統計表1.統計表的定義和結構(1)統計表的定義(2)統計表的結構(A)從表式上看,表格包括總標題、橫行標題、縱欄標題和指標數值四個部分。(B)從內容上看,統計表由主詞欄和賓詞欄兩個部分組成。472.統計表的分類

(1)按主詞的結構分類,根據主詞是否分組和分組的程度,分為簡單表、分組表和復合表。(2)按賓詞設計分類,可分為賓詞簡單排列、分組平行排列和分組層疊排列等三種。

3.統計表的設計

(1)開口式(2)標題(3)合計攔(4)數據(5)計量單位(6)注釋或資料來源。48

二、統計圖

1.直方圖2.折線圖3.曲線圖4.累計曲線圖洛倫茨曲線圖基尼系數,用以衡量收入分配的平等與否。

49三、頻(次)數分布圖的類型1.鐘型分布

鐘型分布示意圖

50(Ⅰ)(Ⅱ)(Ⅲ)2.U型分布圖2-7U型分布示意圖51

102030405060708050403020100死亡率(‰)年齡3.J型分布J型分布示意圖

52正J型圖反J型圖管理統計學第三章第三章數據分布特征的描述第一節統計變量集中趨勢的測定第二節統計變量離散程度的測定第三節變量分布的偏度與峰度3-54第一節統計變量集中趨勢的測定一、測定集中趨勢的指標及其作用二、數值平均數三、眾數與中位數3-55一、測定集中趨勢的指標及其作用集中趨勢(Centraltendency)較大和較小的觀測值出現的頻率比較低,大多數觀測值密集分布在中心附近,使得全部數據呈現出向中心聚集或靠攏的態勢。3-56測度集中趨勢的指標有兩大類:數值平均數——是根據全部數據計算得到的代表值,主要有算術平均數、調和平均數及幾何平均數;位置代表值——根據數據所處位置直接觀察、或根據與特定位置有關的部分數據來確定的代表值,主要有眾數和中位數。測定集中趨勢指標的作用1.反映變量分布的集中趨勢和一般水平。如用平均工資了解職工工資分布的中心,反映職工工資的一般水平。2.可用來比較同一現象在不同空間或不同階段的發展水平。不受總體規模大小的影響,在一定程度上使偶然因素的影響相互抵消。3.可用來分析現象之間的依存關系。如研究勞動者的文化程度與收入的關系4.平均指標也是統計推斷中的一個重要統計量,是進行統計推斷的基礎。

3-57二、數值平均數(一)算術平均數(均值)一組數據的總和除以這組數據的項數所得的結果;最常用的數值平均數。

1.簡單算術平均數把每項數據直接加總后除以它們的項數。通常用于對未分組的數據計算算術平均數。計算公式:3-58例3-1分組數據不能簡單平均!因為各組變量值的次數不等!3-59分組表3-2年齡人數(人)xf2242510305501合計20表3-1男性女性2222222225252525252525252525303030305030解:采用簡單算術平均法計算,即全體隊員的平均年齡為(單位:周歲):若采用簡單平均:2.加權算術平均數加權算術平均數的計算公式:3-60正確的計算是:加權—為了體現各變量值輕重不同的影響作用,對各個變量值賦予不盡相同的權數(fi

).權數(fi

,也稱權重)權數——指在計算總體平均數或綜合水平的過程中對各個數據起著權衡輕重作用的變量。可以是絕對數形式,也可以是比重形式(如頻率)來表示。事實上比重權數更能夠直接表明權數的權衡輕重作用的實質。當權數完全相等(f1=f2=…=fn)時,加權算術平均數就成了簡單算術平均數。3-613.由組距數列計算算術平均數

要點:各組變量值用組中值來代表。假定條件是各組內數據呈均勻分布或對稱分布。計算結果是近似值.3-62表3-3節能燈泡的使用壽命的分組數據

使用壽命(小時)

組中值(x)數量(f)Xf

頻率(f/Σf)(Xf/Σf)1000以下900218000.020181000-12001100888000.080881200-1400130016208000.1602081400-1600150035525000.3505251600-1800170023391000.2303911800-2000190012228000.1202282000以上2100484000.04084合計——1001542001.0001542解:平均使用壽命為:4.對相對數求算術平均數由于各個相對數的對比基礎不同,采用簡單算術平均通常不合理,需要加權。3-63表3-4企業流通費用率(%)商品銷售額(萬元)流通費用(萬元)甲161600256乙104750475丙124000480合計11.70048103501211權數的選擇必須符合該相對數本身的計算公式。權數通常為該相對數的分母指標。5.算術平均數的主要數學性質(1)算術平均數與變量值個數的乘積等于各個變量值的總和。3-64(2)各變量值與算術平均數的離差之總和等于零。(3)各變量值與算術平均數的離差平方之總和為最小。(二)調和平均數(Harmonicmean)調和平均數也稱為倒數平均數。各變量值的倒數(1/xi)的算術平均數的倒數.其計算公式為:3-65(續)社會經濟統計中所應用的調和平均數通常是加權算術平均數的變形,已知各組變量值xi和(xifi)而缺乏fi時,加權算術平均數通常可變形為調和平均數形式來計算。【例3-4】解:3-66(三)幾何平均數(Geometricmean)幾何平均數—n個變量值連乘積的n次方根。簡單幾何平均數3-67加權幾何平均數適用于各個變量值之間存在連乘積關系的場合。主要用于計算現象的平均發展速度,也適用于對某些具有環比性質的比率求平均.

【例3-5】某企業產品的加工要順次經過前后銜接的五道工序。本月該企業各加工工序的合格率分別為88%、85%、90%、92%、96%,試求這五道工序的平均合格率。解:本例中各工序的合格率具有環比的性質,企業產品的總合格率等于各工序合格率之連乘積。所以,所求的平均合格率應為:3-68三、眾數與中位數(一)眾數(Mode)眾數是一組數據中出現頻數最多、頻率最高的變量值,常用M0表示。如表3-2中年齡的眾數值MO=25。眾數代表的是最常見、最普遍的狀況,是對現象集中趨勢的度量。可用來測度定性變量的集中趨勢;銷售量最大的產品顏色是“白色”,則有M0=“白色”可以度量定量變量的集中趨勢。從分布曲線的角度看,眾數就是變量分布曲線的最高峰所對應的變量值。3-69xMOf(x)組距數列中眾數的確定先找到眾數組。在等距數列中,眾數組就是次數最多的組;在異距數列中,眾數組應是頻數密度最大的組。根據眾數組與其相鄰兩組的次數差來推算。其近似公式為:3-70下限公式:上限公式:Mo(二)中位數(Median)中位數是將數據由小到大排列后位置居中的數值。3-71由未分組數據計算中位數若數據項數是奇數,則正好位于中間的數值就是中位數;如5人收入為:1200,1450,1500,1600,2000元,則收入的中位數Me=1500。若數據項數是偶數,則取居中兩個數值的平均數為中位數.如6人收入為:1200,1450,1500,1600,1800,2000元,則收入的中位數Me=1550。xMef(x)50%50%由組距數據計算中位數先確定中位數組,即中間位置(用Σf/2來計算)所在的組。假定中位數組內次數均勻分布(次數與變量值的區間大小成比例),近似推算中位數的值。計算公式為:3-72下限公式:上限公式:四分位數、十分位數和百分位數四分位數是將數據由小到大排序后,位于全部數據1/4位置上的數值。十分位數是將數據由小到大排序后,位于全部數據1/10位置上的數值。百分位數是將數據由小到大排序后,位于全部數據1/100位置上的數值。中位數也就是第二個四分位數、第五個十分位數、第五十個百分位數。分位數與其它指標結合,可以更詳細地反映數據的分布特征。3-73箱線圖(boxplot)箱線圖由一組數據的最小值(xmin)、第一四分位數(Q1)、中位數(Me)、第三四分位數(Q3)、最大值(xmax)等五個數值來繪成。利用箱線圖可以觀察數據分布的范圍、中心位置和對稱性等特征,還可以進行多組數據分布的比較。3-74xminQ1MeQ3

xmax(三)眾數、中位數和算術平均數的比較1.算術平均數綜合反映了全部數據的信息,眾數和中位數由數據分布的特定位置所確定。2.算術平均數和中位數在任何一組數據中都存在而且具有惟一性,但計算和應用眾數有兩個前提條件:(1)數據項數眾多;(2)數據具有明顯的集中趨勢。3.算術平均數只能用于定量(數值型)數據,中位數適用于定序數據和定量數據,眾數適用于所有形式(類型、計量層次)的數據3-75(續)4.算術平均數要受數據中極端值的影響。而眾數和中位數都不受極端值的影響。為了排除極端值的干擾,可計算切尾均值,即去掉數據中最大和最小的若干項數值后計算的均值.切尾均值是將均值與中位數取長補短的結果。5.算術平均數可以推算總體的有關總量指標,而中位數和眾數則不宜用作此類推算。3-76算術平均數和眾數、中位數的數量關系在對稱分布中,三者相等.即:均值=Me=Mo;3-77x<Me<Mox=Me=MoMo

>Me>x在左偏分布中,一般有:均值<Me<Mo在右偏分布中,一般有:Mo<Me<均值。皮爾生經驗公式:在輕微偏態時,三者的近似關系:第二節統計變量離散程度的測定一、測定離散程度的指標及其作用二、極差、四分位差和平均差三、方差和標準差四、離散系數五、異眾比率3-78一則笑話如果你一只腳放在攝氏1度的水里,另一只腳放在攝氏79度的水里,平均水溫40度,你一定感覺很舒服?顯然,只了解變量的集中趨勢是不夠的!3-79一、測定離散程度的指標及其作用1.說明數據的分散程度,反映變量的穩定性、均衡性。數據之間差異越大,變量的穩定性或均衡性越差。2.衡量平均數的代表性。離散程度越大,平均數的代表性就越小。3.統計推斷的重要依據判別統計推斷前提條件是否成立,衡量推斷效果好壞的重要尺度。3-80二、極差、四分位差和平均差(一)極差(Range)極差是一組數據的最大值(xmax)與最小值(xmin)之差,通常用R表示。對于總體數據而言,極差也就是變量變化的范圍或幅度大小,故也稱為全距。組距數列中,極差≈最高組的上限-最低組的下限。優缺點:計算簡便、含義直觀、容易理解。它未考慮數據的中間分布情況,不能充分說明全部數據的差異程度。3-81(二)四分位差第3四分位數(Q3)與第1四分位數(Q1)之差,常用Qd表示。計算公式為:實質上是兩端各去掉四分之一的數據以后的極差,表示占全部數據一半的中間數據的離散程度。四分位差越大,表示數據離散程度越大。是在一定程度上對極差的一種改進,避免了極端值的干擾。但它對數據差異的反映仍然是不充分的。四分位差是一種順序統計量,適用于定序數據和定量數據。尤其是當用中位數來測度數據集中趨勢時.3-82(三)平均差(AverageDeviation)平均差——各個數據與其均值的離差絕對值的算術平均數,反映各個數據與其均值的平均差距,通常以A.D表示。計算公式為:未分組數據:3-83平均差含義清晰,能全面地反映數據的離散程度。但取離差絕對值進行平均,數學處理上不夠方便,在數學性質上也不是最優的。已分組數據:三、方差和標準差1.方差(Variance)的概念和計算方差是各個數據與其均值的離差平方的算術平均數.總體方差(σ2)的計算公式為:未分組數據:3-84分組數據:樣本方差(通常用S2表示)分母應為(n-1)。標準差(standardDeviation)標準差——方差的算術平方根。總體標準差一般用σ表示。其計算公式為:未分組數據:3-85分組數據:標準差比方差更容易理解。在社會經濟現象的統計分析中,標準差比方差的應用更為普遍,經常被用作測度數據與均值差距的標準尺度。樣本標準差(S)分母應為(n-1)。【例3-9】計算平均差和方差、標準差3-86使用壽命(小時)

組中值(x)試驗數量(只)f

頻率(f/Σf)(x-1542)|x-1542|f(X-1542)2*f1000以下90020.020-64212848243281000-1200110080.080-442353615629121200160-24238729370241400-16001500350.350-42147061740160023015836345741721800-20001900120.120358429615379682000以上210040.04055822321245456合計——1001.000——

2032467436002.方差的主要數學性質(3)分組條件下,總體的方差等于組間方差與各組方差平均數之和。3-87(1)常數的方差等于零。a為常數,則(2)變量的線性函數的方差等于變量系數的平方乘以變量的方差。設a,b為常數,y=a+bx,則有:組間方差各組方差平均數3.標準化值(Z-score)標準化值或標準得分也稱為Z值。對于來自不同均值和標準差的個體的數據,往往不能直接對比。這就需要將它們轉化為同一規格、尺度的數據后再比較。標準化值實際上是將不同均值和標準差的總體都轉換為均值為0、標準差為1的總體,將各個體的數據轉換為它在其總體中的相對位置。3-88【例3-10】解:由于兩次考試成績的均值和標準差不同,每個學生兩次考試的成績不宜直接比較。利用標準化值進行對比,表明第二次考試的成績更好一些。3-89假定某班學生先后兩個兩次進行了難度不同的綜合考試,第一次考試成績的均值和標準差分別為80分和10分,而第二次考試成績的均值和標準差分別為70分和7分。張三第一、二次考試的成績分別為92分和80分,那么全班相比較而言,他哪一次考試的成績更好呢?4.對稱鐘形分布中的3σ法則3σ

法則——關于鐘形分布的一個近似的或經驗的法則:變量值落在[-3σ,+3σ]范圍以外的情況極為少見。因此通常將落在區間[-3σ,+3σ]之外的數據稱為異常數據或稱為離群點。3-90x99.73%68.27%95.45%四、離散系數前面的各變異指標都是有計量單位的,它們的數值大小不僅取決于數據的離散程度,還要受數據本身水平高低和計量單位的影響。對不同變量(或不同數據組)的離散程度進行比較時,只有當它們的平均水平和計量單位都相同時,才能利用上述變異指標來分析;否則,須利用離散系數來比較它們的離散程度。例如,哪個變量的差異較大:體重,還是身高?例如,體重的差異哪個較大:父親,還是嬰兒?父親:平均體重=70kg,標準差=5kg

嬰兒:5kg,1kg3-91四、離散系數離散系數是極差、四分位差、平均差或標準差等變異指標與算術平均數的比率,以相對數的形式表示變異程度。將極差與算術平均數對比得到極差系數,將平均差與算術平均數對比得到平均差系數。最常用的離散系數是就標準差來計算的,稱之為標準差系數:離散系數大,說明數據的離散程度大,其平均數的代表性就差;反之亦然.3-92五、異眾比率異眾比率是指非眾數值的次數之和在總次數中所占比重,其公式為:3-93主要用于衡量一組數據以眾數為分布中心的集中程度,即衡量眾數代表一組數據一般水平的代表性。其值越小,數據集中程度越高,眾數代表性越大.【例3-12】規格的異眾比率顏色的異眾比率:第三節變量分布的偏度與峰度一、矩(動差)二、偏度(Skewness)三、峰度(Kurtosis)3-94一、矩(動差)矩(動差)——一系列刻畫數據分布特征的指標的統稱。變量值與數值a之離差的K次方的平均數稱為變量x關于a的K階矩,即:3-95K階原點矩(當a=0時)是數據的K次方的平均數.一階原點矩即算術平均數;二階原點矩即平方平均數。

K階中心矩矩(當a=均值時)是以均值為中心計算的離差K次方的平均數k=1時,稱為一階中心矩,它恒等于0,即m1=0;k=2時,稱為二階中心矩,也就是方差,即m2=σ2。

二、偏度(Skewness)偏度——指數據分布的不對稱程度或偏斜程度。以對稱分布為標準來區分偏態分布又分左偏(負偏)和右偏(正偏).3-96左偏分布(負偏)右偏分布(正偏)偏態的測度方法3-97-30+3

極左偏態對稱分布極右偏態一般有:(一)由均值與眾數(中位數)之間的關系求偏態系數:(二)由三個四分位數之間的關系求偏態系數3-98值域:-1Sk1

極左偏態對稱分布極右偏態-10+1

偏度系數(三)利用3階中心矩來計算偏度系數。測定偏度最常用的方法原理:若分布不對稱,則3階中心矩不為0。不對此程度愈嚴重,3階中心矩的絕對值愈大。為消除量綱的影響,可除以σ3。3-990

對稱分布左偏分布

右偏分布三、峰度(Kurtosis)峰度——是指變量的集中程度和分布曲線的陡峭(或平坦)的程度。對峰度的度量通常以正態分布曲線為比較標準,分為正態峰度、尖頂峰度和平頂峰度.3-100平頂分布尖峰分布尖頂峰度的分布曲線比正態分布曲線更加尖峭、更高更窄;平頂峰度的分布曲線比正態分配曲線更為平緩、更低更扁平。峰度系數原理:分布曲線的尖峭程度與偶數階中心矩的數值大小有直接關系。以四階中心矩m4為基礎,為了消除量綱的影響,再除以標準差的四次方σ4所得到的相對數即可衡量峰度。3-101當K=0時,分布曲線為正態曲線;當K>0時,為尖頂曲線,表示數據比正態分布更集中在均值附近;K的數值越大,則變量分布曲線之頂端越尖峭;當K<0時,為平頂曲線,表示數據比正態分布更分散;K的數值越小,則變量分布曲線之頂端越平坦。對于正態分布曲線有:m4/σ4=3,故峰度系數為:【例3-13】根據表3-3的數據,計算使用壽命分布的偏度系數和峰度系數。解:3-102計算結果表明,偏度系數幾乎為0,峰度系數略小于0,說明該產品使用壽命的分布十分接近對稱分布,分布曲線頂峰略比正態分布平坦一些。總的說來,該產品的使用壽命的分布非常接近正態分布。本章小結測度集中趨勢的各指標的含義、計算方法、特點和應用場合測度離散程度的各指標的含義、計算方法、特點和應用場合偏度與峰度的含義和測度方法利用Excel計算描述統計量3-103第五章抽樣分布與參數估計第一節抽樣的基本概念與數學原理第二節抽樣分布第三節參數估計第四節樣本容量的確定第五節EXCEL在參數估計中的應用

5-104第一節抽樣的基本概念與數學原理一、有關抽樣的基本概念二、大數定理與中心極限定理5-105一、有關抽樣的基本概念(一)樣本容量與樣本個數

1.樣本容量。樣本是從總體中抽出的部分單位的集合,這個集合的大小稱為樣本容量,一般用n表示,它表明一個樣本中所包含的單位數。一般地,樣本單位數大于30個的樣本稱為大樣本,不超過30個的樣本稱為小樣本。

2.樣本個數。樣本個數又稱樣本可能數目,它是指從一個總體中可能抽取多少個樣本。5-106(二)總體參數與樣本統計量

1.總體參數。總體分布的數量特征就是總體的參數,也是抽樣統計推斷的對象。常見的總體參數有:總體的平均數指標,總體成數(比例)指標,總體分布的方差、標準差等等。它們都是反映總體分布特征的重要指標。

5-1072.樣本統計量。樣本統計量是樣本的一個函數。它們是隨機變量。我們利用統計量來估計和推斷總體的有關參數。常見的樣本統計量有:樣本平均數,樣本比例,樣本的方差、標準差。5-108(三)概率抽樣及其組織形式所謂概率抽樣,就是要求對總體的每一次觀察(每一次抽取)都是一次隨機試驗,并且有和總體相同的分布。按這樣的要求對總體觀測(抽取)n次,可得到容量為n的樣本。5-1095-1105-111(四)放回抽樣與不放回抽樣5-1125-113(五)抽樣分布從總體中可以隨機地抽取許多樣本,由每一個樣本都可以計算樣本統計量的觀測值,所有可能的樣本觀測值及其所對應的概率便是所謂的抽樣分布。因此,抽樣分布也可以稱為樣本統計量的概率分布。抽樣分布可能是精確地服從某種已知分布(所謂已知分布,例如我們在第四章介紹過的各種常見分布),也可能是以某種已知分布為極限分布。在實際應用中,后者更為多見。5-1145-1155-116第二次抽取可能被抽中的人員12345678910第一次抽取可能被抽中的人員11,1(1)1,2(1.5)1,3(2)1,4(2.5)1,5(3)1,6(3.5)1,7(4)1,8(4.5)1,9(5)1,10(5.5)22,1(1.5)2,2(2)2,3(2.5)2,4(3)2,5(3.5)2,6(4)2,7(4.5)2,8(5)2,9(5.5)2,10(6)33,1(2)3,2(2.5)3,3(3)3,4(3.5)3,5(4)3,6(4.5)3,7(5)3,8(5.5)3,9(6)3,10(6.5)44,1(2.5)4,2(3)4,3(3.5)4,4(4)4,5(4.5)4,6(5)4,7(5.5)4,8(6)4,9(6.5)4,10(7)55,1(3)5,2(3.5)5,3(4)5,4(4.5)5,5(5)5,6(5.5)5,7(6)5,8(6.5)5,9(7)5,10(7.5)66,1(3.5)6,2(4)6,3(4.5)6,4(5)6,5(5.5)6,6(6)6,7(6.5)6,8(7)6,9(7.5)6,10(8)77,1(4)7,2(4.5)7,3(5)7,4(5.5)7,5(6)7,6(6.5)7,7(7)7,8(7.5)7,9(8)7,10(8.5)88,1(4.5)8,2(5)8,3(5.5)8,4(6)8,5(6.5)8,6(7)8,7(7.5)8,8(8)8,9(8.5)8,10(9)99,1(5)9,2(5.5)9,3(6)9,4(6.5)9,5(7)9,6(7.5)9,7(8)9,8(8.5)9,9(9)9,10(9.5)1010,1(5.5)10,2(6)10,3(6.5)10,4(7)10,5(7.5)10,6(8)10,7(8.5)10,8(9)10,9(9.5)10,10(10)5-117表5-3 10人中有放回抽二人的全部可能樣本表5-4 任職年限樣本均值分布數列5-1185-119二、大數定理與中心極限定理5-120

大數定理表明:盡管個別現象受偶然因素影響,有各自不同的表現。但是,對總體的大量觀察后進行平均,就能使偶然因素的影響相互抵消,消除由個別偶然因素引起的極端性影響,從而使總體平均數穩定下來,反映出事物變化的一般規律。5-1215-1225-123

從正態分布的再生定理可以看出,只要總體變量服從正態分布,則從中抽取的樣本,不管n是多少,樣本平均數都服從正態分布。但是在客觀實際中,總體并非都是正態分布。對于從非正態分布的總體中抽取的樣本平均數的分布問題,需要由中心極限定理來解決。5-1245-125第二節抽樣分布一、樣本平均數的抽樣分布二、樣本比例的抽樣分布5-126一、樣本平均數的抽樣分布(一)樣本平均數的期望值與方差5-1275-1285-1295-130(二)樣本平均數的分布規律5-1315-1325-133二、樣本比例的抽樣分布(一)樣本比例的期望值與方差5-1345-1355-1365-137(二)樣本比例的分布規律5-1385-139表5-5 用正態分布來近似時對樣本量的要求總體參數0.500.450.400.350.300.250.200.150.101-0.500.550.600.650.700.750.800.850.90樣本量至少為n3637384043485771100(三)樣本方差的抽樣分布5-1405-141第三節參數估計一、參數估計概述二、總體均值的估計三、總體比例的估計四、總體方差的估計5-142一、參數估計概述(一)參數估計的定義與種類所謂參數估計,就是用樣本統計量去估計總體的未知參數(或參數的函數)。例如,估計總體均值,估計總體比例和總體方差等等。參數估計有兩種基本形式:點估計和區間估計。前者是用一個數值作為未知參數θ的估計值,后者則是給出具體的上限和下限,把θ包括在這個區間內。下面分別介紹點估計與區間估計的有關概念。5-143(二)點估計點估計,主要有矩估計法和最大似然估計法。矩估計法是用樣本矩去估計總體矩(或是用樣本矩的函數去估計總體矩的相應函數)的一種估計方法,由此獲得的估計量稱作矩估計量;最大似然估計法是把待估計的總體參數看作一個可以取不同數值的變量,計算當總體參數取上述不同數值的時候,發生我們當前所得到的樣本觀測值的不同概率,總體參數取哪一個數值的時候這種概率最大,便把這個數值作為對總體參數的估計結果。5-144(三)估計量的優良標準5-1452.有效性。又稱最小方差性。5-1464.充分性。估計量包含了樣本中關于θ的全部信息。(四)區間估計與估計的精度和可靠性5-1475-1485-149二、總體均值的估計5-1505-1515-1525-1535-1545-1555-156(二)總體方差σ2未知的情形5-1575-1582.區間估計5-1595-160【例5-4】在例5-3中,若總體方差未知,但通過抽取的6個樣本測得的樣本方差為0.0025,試在0.95的置信度下,求該產品直徑的均值置信區間。5-161三、總體比例的估計5-1625-1635-164三、總體方差的估計5-1655-166(二)區間估計5-167第四節樣本容量的確定一、問題的提出二、估計總體均值時樣本容量的確定三、估計總體比例時樣本容量的確定四、使用上述公式應注意的問題5-168

由前面的論述,我們已知參數估計中的精度要求與可靠性要求常常是一對矛盾,但是,通過增加樣本容量n有可能降低樣本平均數的標準差,從而實現既保證一定的估計精度,又具有較高的置信度的目的。這時,需要考慮在給定的置信度與極限誤差的前提下,樣本容量n究竟取多大合適?這就是所謂樣本容量的確定問題。5-169一、問題的提出二、估計總體均值時樣本容量的確定5-1705-1715-172三、估計總體比例時樣本容量的確定5-173四、使用上述公式應注意的問題1.計算樣本容量時,總體的方差與成數常常是未知的,這時可用有關資料替代:一是用歷史資料已有的方差與成數代替;二是在進行正式抽樣調查前進行幾次試驗性調查,用試驗中方差的最大值代替總體方差;三是比例方差在完全缺乏資料的情況下,就用比例方差的最大可能值0.25代替。5-1742.如果進行一次抽樣調查,需要同時估計總體均值與比例,可用上面的公式同時計算出兩個樣本容量,取其中較大的結果,同時滿足兩方面的需要。

5-1753.上面的公式計算結果如果帶小數,這時樣本容量不按四舍五入法則取整數,取比這個數大的最小整數代替。例如計算得到:n=56.03,那么,樣本容量取57,而不是56。5-1765-1775-1785-1795-180第五節Excel在參數估計中的應用【例5-9】用Excel完成本章思考與練習計算題的第1題。解:操作步驟如下。

1.構造工作表。如圖5-3所示,A、B列為原始輸入數據,A2:A16存放的是關于最大飛行速度的數據,圖中未完全顯示出來。C、D列為計算結果,分別在C2、D2單元格存放置信下限和上限。

5-1812.定義變量名。將A列命名為“x”,將B2單元格命名為“置信水平”。

3.計算置信上、下限。分別在C2、D2中輸入如下的公式:

=AVERAGE(x)-TINV(1-置信水平,COUNT(x)-1)*STDEV(x)/SQRT(COUNT(x))=AVERAGE(x)+TINV(1-置信水平,COUNT(x)-1)*STDEV(x)/SQRT(COUNT(x))5-1825-183本章小結5-1845.所謂估計就是構造適當的樣本統計量,來充當總體參數的估計量。好的統計量的理想性質包括:無偏性、有效性、一致性和充分性。

6.估計包括點估計與區間估計。

7.在給定的置信度與極限誤差的前提下,樣本容量n可利用極限誤差、臨界值與抽樣標準差三者間的數量關系去計算。

8.在Excel中可使用各種函數按照有關公式實現區間估計的運算。5-185第六章假設檢驗與方差分析第一節假設檢驗的基本原理第二節總體均值的假設檢驗第三節總體比例的假設檢驗第四節單因子方差分析第五節雙因子方差分析第六節Excel在假設檢驗與方差分析中的應用6-186第一節假設檢驗的基本原理一、什么是假設檢驗二、原假設與備擇假設三、檢驗統計量四、顯著性水平、P-值與臨界值五、雙側檢驗和單側檢驗六、假設檢驗的兩類錯誤七、關于假設檢驗結論的理解6-187一、什么是假設檢驗【例6-1】假定咖啡的分袋包裝生產線的裝袋重量服從正態分布N(μ,σ2)。生產線按每袋凈重150克的技術標準控制操作。現從生產線抽取簡單隨機樣本n=100袋,測得其平均重量為=149.8克,樣本標準差s=0.872克。問該生產線的裝袋凈重的期望值是否為150克(即問生產線是否處于控制狀態)?6-188

所謂假設檢驗,就是事先對總體的參數或總體分布形式做出一個假設,然后利用抽取的樣本信息來判斷這個假設(原假設)是否合理,即判斷總體的真實情況與原假設是否存在顯著的系統性差異,所以假設檢驗又被稱為顯著性檢驗。6-189

一個完整的假設檢驗過程,包括以下幾個步驟:(1)提出假設;(2)構造適當的檢驗統計量,并根據樣本計算統計量的具體數值;(3)規定顯著性水平,建立檢驗規則;(4)做出判斷。6-190二、原假設與備擇假設原假設一般用H0表示,通常是設定總體參數等于某值,或服從某個分布函數等;備擇假設是與原假設互相排斥的假設,原假設與備擇假設不可能同時成立。所謂假設檢驗問題實質上就是要判斷H0是否正確,若拒絕原假設H0

,則意味著接受備擇假設H1

。如在例6-1中,我們可以提出兩個假設:假設平均袋裝咖啡重量與所要控制的標準沒有顯著差異,記為;假設平均袋裝咖啡重量與所要控制的標準有顯著差異,記為。6-191三、檢驗統計量所謂檢驗統計量,就是根據所抽取的樣本計算的用于檢驗原假設是否成立的隨機變量。檢驗統計量中應當含有所要檢驗的總體參數,以便在“總體參數等于某數值”的假定下研究樣本統計量的觀測結果。檢驗統計量還應該在“H0成立”的前提下有已知的分布,從而便于計算出現某種特定的觀測結果的概率。6-1926-1936-194四、顯著性水平、P-值與臨界值小概率事件在單獨一次的試驗中基本上不會發生,可以不予考慮。在假設檢驗中,我們做出判斷時所依據的邏輯是:如果在原假設正確的前提下,檢驗統計量的樣本觀測值的出現屬于小概率事件,那么可以認為原假設不可信,從而否定它,轉而接受備擇假設。6-195至于小概率的標準是多大?這要根據實際問題而定。假設檢驗中,稱這一標準為顯著性水平,用來表示α,在應用中,通常取α=0.01,α=0.05。一般來說,犯第一類錯誤可能造成的損失越大,α的取值應當越小。對假設檢驗問題做出判斷可依據兩種規則:一是P-值規則;二是臨界值規則。6-196(一)P-值規則所謂P-值,實際上是檢驗統計量超過(大于或小于)具體樣本觀測值的概率。如果P-值小于所給定的顯著性水平,則認為原假設不太可能成立;如果P-值大于所給定的標準,則認為沒有充分的證據否定原假設。6-197【例6-3】假定,根據例6-2的結果,計算該問題的P-值,并做出判斷。解:查標準正態概率表,當z=2.29時,陰影面積為0.9890,尾部面積為1–0.9890=0.011,由對稱性可知,當z=–2.29時,左側面積為0.011。

0.011≤α/2=0.0250.011這個數字意味著,假若我們反復抽取n=100的樣本,在100個樣本中僅有可能出現一個使檢驗統計量等于或小于–2.29的樣本。該事件發生的概率小于給定的顯著性水平,所以,可以判斷μ=150的假定是錯誤的,也就是說,根據觀測的樣本,有理由表明總體的與150克的差異是顯著存在的。6-198(二)臨界值規則假設檢驗中,還有另外一種做出結論的方法:根據所提出的顯著性水平標準(它是概率密度曲線的尾部面積)查表得到相應的檢驗統計量的數值,稱作臨界值,直接用檢驗統計量的觀測值與臨界

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論