




版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
1、統計學:思想、方法與應用統計學:思想、方法與應用袁衛袁衛 劉超劉超 第第1章章1. 1. 什么是統計學?什么是統計學?2. 2.如何運用統計學?如何運用統計學?3. 3. 統計學的基本概念統計學的基本概念4. 4.數據的收集數據的收集5. 5.數據陣數據陣/ /數據文件數據文件6. 6.統計學和數學、統計軟件的關系統計學和數學、統計軟件的關系學習目標學習目標 用一句話說明統計學;用一句話說明統計學; 理解我們為什么要學習統計學;理解我們為什么要學習統計學; 懂得如何運用統計學;懂得如何運用統計學; 知道統計學的基本概念;知道統計學的基本概念; 什么是描述統計學和推斷統計學;什么是描述統計學和推
2、斷統計學; 了解數據如何收集以及數據收集中存在的問題;了解數據如何收集以及數據收集中存在的問題; 知道常用的統計軟件。知道常用的統計軟件。 數據顯示,數據顯示,2010年中國名義年中國名義GDP為為58786億美元,億美元,GDP增速為增速為10%左右。而左右。而2010年日本名義年日本名義GDP為為54742億美元,億美元,GDP增速為增速為3.9。中國。中國GDP比日本多比日本多4044億美億美元,這意味著中國超越日本成為世界第二大經濟體。盡管中元,這意味著中國超越日本成為世界第二大經濟體。盡管中國總量國總量GDP超過日本,但中國人均超過日本,但中國人均GDP卻只有日本卻只有日本1/10,
3、在世界排名第在世界排名第100位左右,不到世界平均水平的一半。這樣位左右,不到世界平均水平的一半。這樣的結果對我們的結果對我們意味著意味著什么呢?毫無疑問,我們需要知道一些什么呢?毫無疑問,我們需要知道一些統計知識。統計知識。1960到到2009全球主要國家人均全球主要國家人均GDP的增長圖表(來源:的增長圖表(來源:Google網站)網站) 作為一名潛在的汽車購買者和一名有責任心的市民,你作為一名潛在的汽車購買者和一名有責任心的市民,你樂意為保護地球生態環境應有的貢獻。你應該買使用柴油發動樂意為保護地球生態環境應有的貢獻。你應該買使用柴油發動機的汽車,還是購買電動車,或者干脆騎自行車呢?報紙
4、、雜機的汽車,還是購買電動車,或者干脆騎自行車呢?報紙、雜志或網絡中的志或網絡中的統計結果統計結果對于你的決定非常關鍵,這些結果建議對于你的決定非常關鍵,這些結果建議你該有怎樣的消費觀。你該有怎樣的消費觀。 低碳社會要求汽車廠商根據他們的總產量生產一定比例的低碳社會要求汽車廠商根據他們的總產量生產一定比例的電動車,以減少機動車造成的空氣污染,這已開始成為整個國電動車,以減少機動車造成的空氣污染,這已開始成為整個國家的趨勢。對于立法者來說,統計信息在使他們家的趨勢。對于立法者來說,統計信息在使他們相信相信并檢測使并檢測使用電動車在改進空氣質量上的有效性方面起著關鍵性的作用。用電動車在改進空氣質量
5、上的有效性方面起著關鍵性的作用。 在金融危機發生后,各國政府對于國家經濟在金融危機發生后,各國政府對于國家經濟的現狀和對未來經濟走勢的預測十分的現狀和對未來經濟走勢的預測十分關注關注,每個,每個月都要編制月都要編制CPI等各類指數以評價通貨膨脹情況。等各類指數以評價通貨膨脹情況。有關商品銷售額、新開工的住宅、貨幣流通以及有關商品銷售額、新開工的住宅、貨幣流通以及工業生產的信息僅僅是構成預測基礎的成百上千工業生產的信息僅僅是構成預測基礎的成百上千類信息的一小部分。我們該如何解讀這些數據呢類信息的一小部分。我們該如何解讀這些數據呢?知道一些統計知識?知道一些統計知識有助于有助于我們知道這些數據是我
6、們知道這些數據是如何與我們的生活息息相關的。如何與我們的生活息息相關的。 假設你是市場部的新任經理,一次廣告活動假設你是市場部的新任經理,一次廣告活動的統計結果擺到了你面前,聲稱某個結果是的統計結果擺到了你面前,聲稱某個結果是“統計統計顯著顯著”的。你如何解釋這份報告而又不暴露你對該的。你如何解釋這份報告而又不暴露你對該術語的無知呢?趕快學點統計,這對你和你的事術語的無知呢?趕快學點統計,這對你和你的事業都非常有用。業都非常有用。1.11.1什么是統計學什么是統計學 在三百多年前,統計的英文單詞在三百多年前,統計的英文單詞Sta atistics首次被人首次被人們應用。們應用。 統計學是研究收
7、集數據、整理數據、分析數據以及統計學是研究收集數據、整理數據、分析數據以及由數據分析得出結論的方法,簡稱為由數據分析得出結論的方法,簡稱為“數據的科學數據的科學” 2010 2010年年6月月3日,第日,第64屆聯合國大會第屆聯合國大會第90次會議通過次會議通過決議確定每年決議確定每年10月月20日為日為“世界統計日世界統計日”。 2011年初,國務院學位委員會在新的研究生專業目年初,國務院學位委員會在新的研究生專業目錄中將統計學上升為錄中將統計學上升為一級學科一級學科,為統計學科和統計教,為統計學科和統計教育的發展提供了更廣闊的平臺,也顯示出統計對科學育的發展提供了更廣闊的平臺,也顯示出統計
8、對科學研究、經濟增長和社會發展的重要性。研究、經濟增長和社會發展的重要性。人物小傳:瓦爾德人物小傳:瓦爾德 有人把統計學定義為數據處理的一門藝術,有人把統計學定義為數據處理的一門藝術,瓦爾德瓦爾德(A. WaldA. Wald,1902190219501950年)年)的事例就是明證。的事例就是明證。 瓦爾德是二戰時期的統計學家,他發明的一些統計方瓦爾德是二戰時期的統計學家,他發明的一些統計方法在戰時被視為法在戰時被視為軍事機密軍事機密。 瓦爾德被咨詢飛機上什么部位應該瓦爾德被咨詢飛機上什么部位應該加強加強鋼板時,他開鋼板時,他開始研究從戰役中返航的軍機上受敵軍創傷的始研究從戰役中返航的軍機上受
9、敵軍創傷的彈孔位置彈孔位置。他。他畫了飛機的輪廓,并且標示出彈孔的位置。資料累積一段畫了飛機的輪廓,并且標示出彈孔的位置。資料累積一段時間后,幾乎把機身各部位都填滿了。于是瓦爾德時間后,幾乎把機身各部位都填滿了。于是瓦爾德提議提議,把剩下少數幾個沒有彈孔的部位補強把剩下少數幾個沒有彈孔的部位補強因為這些部位被因為這些部位被擊中的飛機都沒有返航。擊中的飛機都沒有返航。 這是一個簡單但近乎完美的實例,簡單的統計方法一這是一個簡單但近乎完美的實例,簡單的統計方法一旦融入了統計學家的智慧,便顯得生動而唯美!旦融入了統計學家的智慧,便顯得生動而唯美! 1.21.2如何運用統計學如何運用統計學 統計在許多
10、學科中得到廣泛的應用統計在許多學科中得到廣泛的應用。 比如說,學術研究雜志就依賴于統計結果比如說,學術研究雜志就依賴于統計結果。在許多學科中,一篇文章是否能夠發表在主要雜在許多學科中,一篇文章是否能夠發表在主要雜志上,在很大程度上志上,在很大程度上取決于取決于該文章是否能正確地該文章是否能正確地使用統計方法使用統計方法。 除了除了學術領域,統計在其他領域也被人們廣學術領域,統計在其他領域也被人們廣泛使用。泛使用。 統計在工業中得到大量使用,尤其統計在工業中得到大量使用,尤其用于用于研究研究新產品、質量控制和市場開發中;市場調查也需新產品、質量控制和市場開發中;市場調查也需要統計。要統計。讀者文
11、摘的總統選舉調查讀者文摘的總統選舉調查 這個故事有關一次著名的失敗的統計調查。這個故事有關一次著名的失敗的統計調查。 在在19361936年美國總統選舉前,一份名為讀者文摘年美國總統選舉前,一份名為讀者文摘( (Literry Digest)Literry Digest)的雜志曾進行了一次民意調查。的雜志曾進行了一次民意調查。調查的焦點是誰將成為下一屆總統調查的焦點是誰將成為下一屆總統是挑戰者,堪是挑戰者,堪薩斯州州長阿爾夫薩斯州州長阿爾夫蘭登蘭登( (Alf Landon)Alf Landon),還是現任總,還是現任總統富蘭克林統富蘭克林德拉諾德拉諾羅斯福羅斯福( (Franklin Del
12、ano Franklin Delano Roosevelt)Roosevelt)。 為了了解選民意向,民意調查專家們為了了解選民意向,民意調查專家們根據根據電話簿電話簿和車輛登記簿上的名單給一大批人發了簡單的調查表和車輛登記簿上的名單給一大批人發了簡單的調查表( (電話和汽車在電話和汽車在1936-1936-年并不像現在這樣年并不像現在這樣普遍普遍,但是這,但是這些名單比較容易得到些名單比較容易得到) )。盡管發出的調查表大約有一。盡管發出的調查表大約有一千萬張,但收回的千萬張,但收回的比例比例并不高。在收回的調查表中,并不高。在收回的調查表中,蘭登蘭登非常受歡迎。于是,該雜志預測蘭登將贏得選
13、舉非常受歡迎。于是,該雜志預測蘭登將贏得選舉。 讀者文摘的總統選舉調查讀者文摘的總統選舉調查 你可能對聲稱蘭登將贏得選舉的預測結果有疑問你可能對聲稱蘭登將贏得選舉的預測結果有疑問。正如你所懷疑的,在經濟大蕭條時期調查擁有電話。正如你所懷疑的,在經濟大蕭條時期調查擁有電話和汽車的人們,和汽車的人們,并不能并不能夠很好地反映全體選民的觀點夠很好地反映全體選民的觀點。此外此外,只有少數的調查表被收回,這一點也是值得,只有少數的調查表被收回,這一點也是值得懷疑的。事實表明,懷疑的。事實表明,最終最終是羅斯福而不是蘭登贏得了是羅斯福而不是蘭登贏得了這次選舉。這次選舉。 由此可見,那次的調查結果有多么錯誤
14、了。當前由此可見,那次的調查結果有多么錯誤了。當前大多數應用統計不會像這個例子錯得那樣厲害,但即大多數應用統計不會像這個例子錯得那樣厲害,但即便在今天,我們也很容易發現統計便在今天,我們也很容易發現統計被誤用被誤用的情況,尤的情況,尤其在需要考慮選擇正確的樣本時。其在需要考慮選擇正確的樣本時。1.3 1.3 統計學的基本概念統計學的基本概念 1.3.1隨機性和規律性隨機性和規律性 我們不能預測我們不能預測某某事情的結果時,它就和事情的結果時,它就和隨機性隨機性聯系起來了。聯系起來了。例如,擲硬幣,參加統計考試是否會達到預期的分數。例如,擲硬幣,參加統計考試是否會達到預期的分數。 把大量隨機事件
15、放在一起時,就表現出令人驚奇的把大量隨機事件放在一起時,就表現出令人驚奇的規律性規律性。 比如,考察擲硬幣這樣的隨機事件,如果你將同樣的硬幣擲比如,考察擲硬幣這樣的隨機事件,如果你將同樣的硬幣擲100100次,次,經驗經驗告訴我們差不多告訴我們差不多5050次正面朝上,次正面朝上,5050次反面朝上。次反面朝上。 類似地,盡管每個人死于二手煙的可能性很小,但是全球每類似地,盡管每個人死于二手煙的可能性很小,但是全球每年有年有6060萬人死于二手煙,這個數字卻令人難以置信地萬人死于二手煙,這個數字卻令人難以置信地穩定穩定。 通過對看起來隨機的現象進行統計分析,統計知識能夠幫助通過對看起來隨機的現
16、象進行統計分析,統計知識能夠幫助我們把隨機性我們把隨機性歸納于歸納于可能的規律性中可能的規律性中。統計從我們如何觀察事統計從我們如何觀察事物和事物本身如何真正發生物和事物本身如何真正發生這兩個方面這兩個方面幫助我們理解隨機性和幫助我們理解隨機性和規律性的重要性。規律性的重要性。 統計可以看做是一項對隨機性中的規律性的統計可以看做是一項對隨機性中的規律性的研究研究。1.3.11.3.1隨機性和規律性隨機性和規律性 規律也表現出某種規律也表現出某種隨機性隨機性。 如果你再擲如果你再擲100100次硬幣次硬幣,正面朝上的次數正面朝上的次數幾乎幾乎不會和前不會和前1 10000次完全一樣。在第一個次完
17、全一樣。在第一個100100次中,也許有次中,也許有5252次硬幣的正面朝上次硬幣的正面朝上,然而在第二個,然而在第二個100100次中,也許就有次中,也許就有4949次正面朝上。次正面朝上。 這種偏差發生于調查、實驗和其它任何一種方式的數據收這種偏差發生于調查、實驗和其它任何一種方式的數據收集中集中。 比如在某次調查中,如果對兩個不同群的人做同樣的調查比如在某次調查中,如果對兩個不同群的人做同樣的調查,則有不同的比例的人支持這一觀點,則有不同的比例的人支持這一觀點。這這兩兩個個比例之間的差比例之間的差異主要是由于數據本身的隨機性異主要是由于數據本身的隨機性引起引起的。的。 在這種意義下來說,
18、統計就成在這種意義下來說,統計就成了對了對數數據中的偏差問題的據中的偏差問題的研研究究。根。根據作為統計基礎的數學理論,我們可以確定一項調查據作為統計基礎的數學理論,我們可以確定一項調查中的某一比例有多大的隨機性,以及中的某一比例有多大的隨機性,以及在在下一次的重復調查中下一次的重復調查中,這個比例可能有多大的偏差。我們還可以指出,兩個比例,這個比例可能有多大的偏差。我們還可以指出,兩個比例之間的差之間的差異異是否大到了隨機性本身所是否大到了隨機性本身所不能解釋不能解釋的地步。我們的地步。我們將在以后章節中詳細討論這些思想將在以后章節中詳細討論這些思想。比如人的壽命在比如人的壽命在70-90歲
19、歲之間。某人的壽命為之間。某人的壽命為130歲,則不能用隨機性解釋歲,則不能用隨機性解釋1.3.21.3.2概率概率 因為涉及到隨機性因為涉及到隨機性,統計學還需要統計學還需要一一個很重要個很重要的概念的概念概率概率(probability) (probability) 。 概率是一個概率是一個0 0到到1 1之間的數,它告訴我們某一事之間的數,它告訴我們某一事件發生的機會有多大件發生的機會有多大。 概率為統計學的第三個方面概率為統計學的第三個方面如何從數據中如何從數據中得出結論得出結論奠定了奠定了基石基石。 我們我們可能可能永遠不能確定兩個數字的差異是否超永遠不能確定兩個數字的差異是否超出了
20、隨機性本身所預期的范圍,但是我們可以出了隨機性本身所預期的范圍,但是我們可以確確定定,這種差異發生的概率是大還是小。根據這個,這種差異發生的概率是大還是小。根據這個基本思想,在很多情況下,我們可以得出關于我基本思想,在很多情況下,我們可以得出關于我們所處的這個世界的重要結論們所處的這個世界的重要結論。 我們我們將在將在第四章及其后章節中詳細闡述。第四章及其后章節中詳細闡述。1.3.31.3.3變量變量 變量變量(variable)(variable) 是是指指一個可以取兩個或一個可以取兩個或更多個可能值的特征、特質或屬性。更多個可能值的特征、特質或屬性。 比如,比如,性別是取兩個值的變量,因為
21、一性別是取兩個值的變量,因為一個人只可能是男性或女性個人只可能是男性或女性。還有其它變量的還有其它變量的例子例子,如人的壽命,體重,以及汽車每升汽如人的壽命,體重,以及汽車每升汽油所能行駛的距離,等等油所能行駛的距離,等等。1.3.31.3.3變量變量圖圖1.1 1.1 變量及其取值變量及其取值1.3.31.3.3變量變量變量的值值(value)通常是對某一特定個體的度量,特定個體可能是指一個人,一個家庭,一個地區,或一個國家。表1.1列出了一些變量、變量的取值及其所測量的個體的例子。從表中可知,性別變量是以人為個體的觀測,孩子的數目是以家庭為個體的觀測。表表1.1 1.1 變量,值和個體變量
22、,值和個體變量變量變量的值變量的值個體個體性別男,女人學歷小學,中學,本科,碩士,博士人失業有工作,無工作人孩子數0, 1, 2, 3,家庭貧困程度嚴重,一般,邊緣,沒有地區1.3.31.3.3變量變量上面介紹的是經經驗驗變量變量(empirical variables) ,級處理的對像是我們周圍可觀測到的物質世界中的事物。用數學方法推導的變量稱為理論變量理論變量(theoretical variables)z,t, 和F變量。 與變量相對的概念是常數常數(constant)(constant)。在統計中經常使用的一種被稱做參數參數(parameter)(parameter)的常數。1.4 1
23、.4 數據的收集數據的收集 1.4.1 定義變量定義變量 數據收集的第一個準則是要清楚測量的是什么。換句話說,變量必須有一個明確的適合研究目的的定義。 這有時是說起來容易做起來難。如果我們對問題考慮得不全面,那么就沒理由指望回答問題的人(一般稱為響應者)能按照我們期望的回答問題。 在我們做研究之前,對變量必須要有一個清晰、詳盡的定義。1.4 1.4 數據的收集數據的收集 1.4.1 定義變量定義變量 假定我們在一次食品企業的市場調查中包含了這樣的問題在您的家庭中有多少個孩子?我們也許認為自己知道想要了解的是什么,但是,沒有理由期待響應者和我們有同樣的想法。1.4 1.4 數據的收集數據的收集
24、1.4.1 定義變量定義變量 我們也許不加考慮地認為,孩子應定義為一個不滿18歲并和他(她)的親生父母一起生活的人。但如果一個家庭中包含大于18歲的親生子女、前妻或前夫的孩子、養子或養女、過繼子女或者其他年輕的親戚,那該怎么辦呢?對于不和親生父母生活在一起的孩子怎么算呢?對于父母離了婚而共同撫養的孩子怎么算呢?這有很多種發生混淆的可能。因此,我們在調查之前首先需要明確孩子的定義。1.4.2 1.4.2 觀測數據觀測數據 數據收集有兩種主要方法,其中一種是當我們觀測現實世界時收集到的數據,如在不同城市中的流動人口數量。觀觀測數據測數據(observational data)(observatio
25、nal data)是指僅通過對世界的觀察是指僅通過對世界的觀察( (而而沒有操縱或控制它沒有操縱或控制它) )所得到的數據所得到的數據。收集觀測數據的研究者們盡量不干涉研究對象的行為模式。 例如,證券分析人員可能會記錄某即將被收購的公司在被收購的前一天的股市收盤價格,并與其宣布被收購的當天的收盤價比較??傮w和樣本總體和樣本收集數據是為了從收集的個體中得出結論。所有我們感興趣的個體就組成了總體總體 (population) (population) 。比如,你讀本教材這一時刻,我國所有居民就構成了一個總體。 有時我們能夠收集到總體中所有個體的數據。在這種情況下,我們就是對總體做了普查普查(cen
26、sus)(census)。 我國進行的第六次全國人口普查就是希望確定我國所有居民數。 然而,在苛刻的現實生活中,由于資金、時間有限以及不斷變化的環境條件,普查通常是很困的。此時,我們需要把收集數據限制在總體的一個樣本樣本(sample)(sample)上,樣本是總體的中的一個被選中的部分。樣本的選擇樣本的選擇 統計研究者所面臨的一個關鍵問題是如何選擇樣本。 我們希望基于樣本得出的結論能夠適用于該樣本所屬的總體,這依賴于獲得一個好的樣本,否則這是不可能實現的。 以烹調為例子來幫助你理解為什么一個好的樣本如此重要。 當我們品嘗一勺我們做的湯時,我們關心的不是這勺湯怎樣,而是整個鍋里的湯味道如何。如
27、果鍋里的湯被充分攪拌了,我們只需品嘗一勺即可知道整鍋湯的味道。我們品嘗的這一勺湯無論是來自家庭廚房中的一個小鍋,還是來自一個更大的鍋,我們都可以窺一斑而知全豹。 這正如我們從總體中選擇一個樣本,從某種意義上來說,需要選擇一個來自攪拌均勻的總體的樣本。如果總體能被攪拌均勻,那么一個包含1000個個體的樣本,不管它是以整個國家為總體,還是以一個城市為總體,都可以告訴我們同樣多的內容。樣本的選擇樣本的選擇 我們可以把這個例子應用于樣本調查。某產品上市之前的市場調查表明,有70%的人喜該產品。如果樣本選擇正確,這個比例將和整個市場中的消費者中的比例大致相同。類似地,在對大學畢業生就業狀況的研究中,檢查
28、畢業生的某個樣本的目的,不是要看這些抽查到的畢業生是否能順利就業,而是要要看所有大學畢業生組成的總體能否順利就業。選擇的這個樣本應該能夠很好地反映總體,因此也就能夠很好地反映大學畢業生就業狀況。 如果不能正確地選擇樣本,那么對于整鍋湯的判斷可能導致錯誤的結論。如果市場調查專家們只對他們的家人和朋友提問,那么將可能產生壞樣本。如果只對已經就業的畢業生進行調查,而忽略校漂族,那么此樣本將產生錯誤的結論。由于樣本選擇對于結果的可信度有重要作用,所以根據正確的統計原理選擇樣本是非常必要的。 隨機樣本隨機樣本 隨機樣本隨機樣本(random sample)指一個合適的、能夠被推廣應用于更大的總體的統計樣
29、本。從一個紙箱子中抽簽對學生點名回答問題,是選擇隨機樣本的最簡單的例子。疊好的寫有學生名字的紙簽是組成整個總體的個體,每一個個體都有相等的被選中的機會。從這種意義上說完全可能實現總體中所有的群體在某樣本中的代表的數量比例大致等于這些群體在總體中的比例。比如,如果一個工科院系的班級有25個男生和5個女生,那么在該班級的一個隨機樣本中,每5個男生應該對應著大約1個女生。 當一個總體中的名字或代碼被放進一個紙箱子里,攪拌均勻,并隨機抽取,其結果就是一個簡單隨機樣本單隨機樣本(simple (simple random sample)random sample) 。本書中每一章末尾的所有公式都基于簡單
30、隨機樣本的使用。方便樣本:如何產生一個方便樣本:如何產生一個 壞的壞的 樣本樣本 研究者們經常習慣于研究手頭方便的總體中的個體。例如,醫學研究者經常對他們自己的病人做研究;市場調查者研究被他們說服進行合作的消費者。 能夠很容易、很經濟地得到的樣本稱為方便樣本方便樣本(convenience sample)(convenience sample) 。 從方便樣本中得出的結果有時候很難推廣到整個總體。 有時候大型商場會要求他們的顧客回答某些問題并收回問卷,由此得到一些樣本。根據隨機取樣的原則,我們可以對此提出疑問:不在該商場買東西的人顯然不包含在樣本中,而回答問卷的人構成了方便樣本,從他們那兒得到
31、的數據是不能夠作為該樣本以外的其他人的推廣的;即使對于該商場的顧客總體本身而言,它們也不一定是典型的。這些數據只是很好地描述了那些花了時間和精力回答問卷的顧客,僅此而已。抽樣的其它形式抽樣的其它形式 抽取比簡單隨機樣本更復雜的樣本也是可能的。其中一種抽樣方法是隨機選取若干小的地區,然后隨機選取居住在這個地區的一些人進行直接調查。這是得到樣本的一種有效途徑。通過調查每一地區居住相臨的一些人,研究者們就避免了走好遠的路從一個居住區到另一個居住區。任何一種抽樣程序的一個普遍的困難是,很少能完全包含屬于某一特定總體的所有樣本。1.4.3 1.4.3 收集觀測數據時的錯誤和誤差收集觀測數據時的錯誤和誤差
32、 研究抽樣技術使我們意識到,很多因素可使樣本中的數據產生錯誤并導致錯誤結論。若僅憑某一樣本中有55%的人認為他們的生活很幸福,我們還不能夠得出結論說全國人口中的55%的人生活很幸福。從剛開始決定調查到最后報告結果,任何一件事情都有可能出錯。大部分調查也的確犯了這樣或那樣的錯誤。抽樣誤差:并非錯誤的抽樣誤差:并非錯誤的 誤差誤差 調查中的有些誤差純粹是統計上的,主要的統計誤差即所謂的抽抽樣誤差樣誤差( (sampling error)sampling error)。這并不是某件事出錯造成的誤差,而是指這樣的一個事實:如果研究被再做一遍,結果未必會和上次一模一樣。例如,前面提到過的在第二個100次
33、擲硬幣中,也許就有49次正面朝上,即正面朝上的比例為49%,不同于第一個100次擲硬幣中正面朝上的比例52%。又例如,在下一次的抽樣中,也許并不是60%的人贊同政府開征的房地產稅,而是57%或63%或其它相近比例的人贊同房地產稅。但是,即便不同的樣本會產生不同的答案,大部分答案仍都位于總體中的真正比例的某一變化范圍內。例如,通過每次大約1000個響應者的多次抽樣,大部分樣本(95%)得出的比例和實際的比例至多相差3個百分點。也就是說,抽樣誤差等于加或減三個百分點( 3%)。 這種結果僅僅是每一個統計研究所固有的隨機性的反映。別忘了這些比例是來自不同的樣本,我們沒有理由相信一個樣本的結果會和另一
34、個樣本的結果一模一樣。并且,沒有理由相信某一特定樣本的結果恰好等于從整個總體可能得到的結果。抽樣誤差:并非錯誤的抽樣誤差:并非錯誤的 誤差誤差 圖1.2表明當實際的總體比例為50%時,計算機產生的數據的情況。其中,100個不同樣本中的95個樣本比例位于47%和53%之間。在這種情況下,我們說有3%的抽樣誤差53%比50%多( +)3個百分點,47%比50%少( -)3個百分點。圖1.2 實際的總體比例和抽樣誤差為3%的例子這一例子是基于實際的總體比例為50%的基礎之上的。而現實中,我們幾乎從來不知道這個數字。實際上,我們之所以做調查,就是要估計總體比例。然而,我們通過樣本依然可以計算出抽樣誤差
35、有多大。在第5章和第6章的參數估計和假設檢驗中會給出一些計算抽樣誤差的公式。抽樣誤差的大小依賴于得到樣本的方式和樣本中包含的觀測的個數。樣本越大,誤差越小。如果樣本等于整個總體,則樣本比例就等于總體比例。在總體變化以前,對整個總體做重復研究,就會得到相同的結果。在這種情況下,抽樣誤差是0。抽樣誤差:并非錯誤的抽樣誤差:并非錯誤的 誤差誤差 在公布任何一次抽樣調查的結果時都應說明抽樣誤差的大小,不管是比例、均值還是其它形式。抽樣誤差告訴我們,樣本離總體的實際值可能有多遠。我們將在第5章和第6章的參數估計和假設檢驗中再次提到抽樣誤差。未響應誤差未響應誤差 另外一種影響抽樣調查結果的誤差是未響應誤差
36、未響應誤差( ( nonresponnonrespons se error)e error) 。未響應誤差是指由于包含在樣本中未響應誤差是指由于包含在樣本中的一部分人未回答調查而造成的誤差。的一部分人未回答調查而造成的誤差。這可能是由于某一選定的電話號碼撥了多次也沒有反應或接通后那人拒絕回答問題。郵寄調查通常比電話調查有更多的未響應誤差,因為不理會一封信比不理會一個響著的電話容易得多,而且信被寄錯地址的可能性也要比撥一個無人使用的電話號碼的可能性大得多。有時,一次好的電話調查,通常會有85%至90%的響應率;而一次郵寄調查的響應率很少有到達50%的. 對研究者來說,高拒絕率是一個很大的問題,因
37、為他們對于被選中但未參與調查的人了解很少。于是出現許多無法回答的問題:是什么使得人們有了不響應和響應的區別?相對響應者來說,未響應者是富有還是貧窮?保守還是自由?有影響力還是缺乏影響力?如果他們響應,他們的回答會怎樣影響研究結果?未響應誤差未響應誤差 我們通過一個最壞的假設情況來表明未響應誤差的影響可能有多大。假定我們計劃調查1200個人,卻只有1000人接受了調查,這意味著我們缺了200人的數據。在1000個我們調查的響應者中,我們發現600人(或60%)贊成某事物而其余人反對它。如果我們假定另外200人也贊成,那么在1200人中就有800人贊成,比例為67%。但另一方面,如果我們假定那20
38、0人反對,那么1200人中只有600人贊成,比例為50%。因此,僅僅由于未響應誤差,觀測樣本中60%的贊成比例有可能實際只是50%和67%之間的一個隨機數。這就可能給我們的研究結論帶來很大的差別。 一些經驗表明,在大部分情況下,未響應者和響應者并無多大差別。如果我們開始時有一個高的響應率,那么可假定未響應者也依同樣的比例作出回答。但是如果響應率很低,例如不超過50%,那么不響應的影響可能會很大。響應誤差響應誤差如果研究者小心一點的話,由調查得來的數據是有可能避免響應誤差響應誤差(response error)(response error)的。響應誤差是在調查過程中,由于問題的提問方式、問題所
39、響應誤差是在調查過程中,由于問題的提問方式、問題所處的位置或訪員的影響而使得響應者在回答問題時產生的處的位置或訪員的影響而使得響應者在回答問題時產生的偏差。偏差。我們在這里討論其中的一部分(而不是全部)情況。即使所有的問題都有了回答,我們所知道的也僅僅是調查時人們告訴訪員的,而未必是他們實際上做的、感覺的或想的。當我們在報紙上讀到,在最近的一次調查中有55%的人認為他們的生活很幸福,那么我們應該知道這句話其實是這個意思:被調查并回答了問題的人在當時有55%對訪員說他們認為生活很幸福。1.4.4 1.4.4 實驗數據:尋找造成結果的原因實驗數據:尋找造成結果的原因 收集數據的另一種辦法是在實驗中
40、控制一個或多個變量并測量操縱的結果。例如,如果我們給一組植物施肥,另外一組不給施肥,那么我們就是在控制植物土壤的成分。我們可以測量像增長率、成活率等變量。 實驗數據(實驗數據(exexp pe erimental datarimental data)是指在實驗中控制實驗對象而收集到的變量的數據。實驗是檢驗變量間因果關系的一種方法。在實驗中,研究者試圖控制某一情形的所有相關方面,操縱少數感興趣的變量,然后觀察實驗結果。1.5 1.5 數據陣數據陣/ /數據文件數據文件數據表通常叫做數據陣或數據文件。表1.2是一個根據抽樣調查得來的數據生成的小數據陣的例子。 表表1.21.2一次抽樣調查的原始數據
41、一次抽樣調查的原始數據序號年齡性別態度120男反對223男贊成317女反對438女中立525女贊成643男贊成738男中立851女贊成935男贊成1.5 1.5 數據陣數據陣/ /數據文件數據文件在計算機分析數據時,需要把數據文件中的描述性文字轉化成數字。每一個人都被分配一個身份號碼作為名字。年齡變量本來就是用數字測量的,因此不需要任何轉化。性別變量的兩個取值是“女”或“男”,因此,“女”用數字0代替,“男”用數字1代替。當然還可以使用任何兩個別的數字,比如用17代替“女”,用23代替“男”?!皯B度”這個值可以用三個等級數1、2和3表示反對、中立和贊成。表表1.3 1.3 適合計算機處理的適合計算機處理的一次抽樣調查的數據
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 網絡隔離機(卡)項目安全風險評價報告
- 遵義師范學院《中國通史古代》2023-2024學年第二學期期末試卷
- 江蘇省南京市瑯琊路小學明發濱江分校2025屆小升初復習數學模擬試卷含解析
- 贛南醫學院《空間構成與表現》2023-2024學年第二學期期末試卷
- 溫州科技職業學院《城鄉規劃設計基礎1》2023-2024學年第二學期期末試卷
- 三峽大學《流行音樂配器法(1)》2023-2024學年第二學期期末試卷
- 河北地質大學華信學院《民航服務禮儀》2023-2024學年第二學期期末試卷
- 甘肅林業職業技術學院《藥理學及實驗》2023-2024學年第二學期期末試卷
- 鹽城師范學院《口述史實踐》2023-2024學年第二學期期末試卷
- 吉林省延邊重點中學2024-2025學年初三校際聯合檢測試題(二模)化學試題含解析
- 第二單元“中華傳統文化經典研習”說課稿 2024-2025學年統編版高中語文選擇性必修上冊001
- 2024年德州市人民醫院高層次衛技人才招聘筆試歷年參考題庫頻考點附帶答案
- 訂單與合同管理制度
- 【MOOC期末】《英美文學里的生態》(北京林業大學)期末中國大學慕課MOOC答案
- 外科患者疼痛護理與管理
- 《家校社協同育人“教聯體”工作方案》專題培訓
- 2024年六西格瑪黃帶認證考試練習題庫(含答案)
- 兒童牙齒分齡護理方案
- 2023-2024學年廣東省深圳市寶安區七年級(下)期中英語試卷
- DB43T 2558-2023 城鎮低效用地識別技術指南
- 中國心力衰竭診斷和治療指南2024解讀(完整版)
評論
0/150
提交評論