統計學:02 數據的搜集_第1頁
統計學:02 數據的搜集_第2頁
統計學:02 數據的搜集_第3頁
統計學:02 數據的搜集_第4頁
統計學:02 數據的搜集_第5頁
已閱讀5頁,還剩50頁未讀 繼續免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

第2章數據的搜集統計學第2章數據的搜集§2.1數據的來源§2.2調查數據§2.3實驗數據§2.4數據的誤差§2.5數據文件§2.1數據的來源一.數據的間接來源二.數據的直接來源統計數據的來源的主要渠道一是來源于使用者自己的調查或實驗,對使用者來說,這是統計數據的直接來源,我們稱之為第一手數據或直接的統計數據;二是來源于別人調查或實驗的數據,對使用者來說,這是統計數據的間接來源,我們稱之為第二手數據或間接的統計數據。

數據的間接來源:定義:如果與研究內容有關的原信息已經存在,我們只是對這些原信息重新加工、整理,使之成為我們進行統計分析可以使用的數據,則我們把它們稱為間接來源的數據。分類:從搜集的范圍看,這些數據可以取自系統外部,也可以取自系統內部。統計數據的間接來源系統外部的數據Internet中國統計年鑒2001中國人口統計年鑒中國市場統計年鑒世界發展報告世界經濟年檢工業普查數據中國統計出版社1.統計部門和政府部門公布的有關資料,如各類統計年鑒2.各類經濟信息中心、信息咨詢機構、專業調查機構等提供的數據3.各類專業期刊、報紙、書籍所提供的資料4.各種會議,如博覽會、展銷會、交易會及專業性、學術性研討會上交流的有關資料5.從互聯網或圖書館查閱到的相關資料系統內部的數據中國統計年鑒2001中國人口統計年鑒中國市場統計年鑒世界發展報告世界經濟年檢工業普查數據中國統計出版社1.業務資料,如與業務經營活動有關的各種單據,記錄2.經營活動過程中的各種統計報表3.各種財務,會計核算和分析資料等二手數據的特點1.搜集容易,采集成本低2.作用(1)分析所要研究的問題(2)提供研究問題的背景(3)幫助研究者更好地定義問題(4)檢驗和回答某些疑問和假設(5)尋找研究問題的思路和途徑3.在研究中應優先考慮搜集二手資料二手數據的評估1.數據是誰搜集的?主要考察數據搜集者的實力和社會信譽度。如,對于全國性的宏觀數據,與某個專業性的調查機構相比,政府公布的數據可靠性更高。2.為什么目的而搜集的?如為了某個集團的利益而搜集的數據是值得懷疑的。3.數據是怎樣搜集的?不同方法所采集的數據解釋力與說服力是不同的。數據的質量來源于生產過程。4.什么時候搜集的?過時的數據其說服力自然受到懷疑。數據的直接來源通過調查的方法和實驗的方法可以直接獲得第一手資料。通過調查的方法獲得的數據稱為調查數據,通過實驗的方法獲得的數據稱為實驗數據。統計數據的直接來源數據的直接來源

(原始數據)1.調查數據(1)通過調查方法獲得的數據(2)通常是對社會現象而言(3)通常取自有限總體2.實驗數據(1)通過實驗方法得到的數據(2)通常是對自然現象而言

(3)也被廣泛運用到社會科學中如心理學、教育學、社會學、經濟學、管理學等

§2.2調查數據1.概率抽樣與非概率抽樣2.搜集數據的基本方法概率抽樣和非概率抽樣在數據采集階段,統計學家們面臨的一個關鍵問題是如何選出一個好的樣本。好的樣本的含義:

1.針對研究的問題而言的。

2.針對調查費用與估計精度的關系而言的。要求要有高的性價比。抽樣的方式:概率抽樣和非概率抽樣概率抽樣

(probabilitysampling)也稱隨機抽樣,是指遵循隨機原則進行的抽樣,總體中每個單位都有一定的機會被選入樣本。特點(1)按一定的概率以隨機原則抽取樣本(隨便與隨機的區別)隨機原則是在抽取樣本時排除主觀上有意識地抽取調查單位,使每個單位都有一定的機會被抽中。(2)每個單位被抽中的概率是已知的,或是可以計算出來的。(3)當用樣本對總體目標量進行估計時,要考慮到每個樣本單位被抽中的概率。就是講,估計量不僅與樣本單位的觀測值有關,也與入樣概率有關。抽樣框1.進行概率抽樣需要抽樣框,而抽樣框通常包括所有總體單位的信息,如企業名錄(抽選企業)、學生名冊(抽選學生)或住戶門牌號碼(抽選住戶)等。2.抽樣框的作用不僅在于提供各備選單位的名單以供抽選,它還是計算各個單位入樣的依據。簡單隨機抽樣

(simplerandomsampling)1.簡單隨機抽樣就是從包括總體N個單位的抽樣框中隨機地、一個一個地抽取n個單位作為樣本,每個單位入樣的概率是相等的。最基本的抽樣方法,是其它抽樣方法的基礎2.特點簡單、直觀,在抽樣框完整時,可直接從中抽取樣本因為抽樣概率相同,用樣本統計量對目標量進行估計及計算估計量誤差比較方便3.局限性(1)當N很大時,不易構造抽樣框(2)抽出的單位很分散,給實施調查增加了困難(3)沒有利用其它輔助信息以提高估計的效率分層抽樣

(stratifiedsampling)1.分層抽樣是將抽樣單位按某種特征或某種規則劃分為不同的層,然后從不同的層中獨立、隨機地抽取樣本。將各層的樣本結合起來,對總體的目標量進行估計。2.優點(1)保證樣本的結構與總體的結構比較相近,從而提高估計的精度(2)組織實施調查方便(3)既可以對總體參數進行估計,也可以對各層的目標量進行估計整群抽樣

(clustersampling)1.整群抽樣是指將總體中若干個單位合并為組(群),抽樣時直接抽取群,然后對中選群中的所有單位全部實施調查。2.特點(1)抽樣時只需群的抽樣框,可簡化工作量(2)調查的地點相對集中,節省調查費用,方便調查的實施(3)缺點是估計的精度較差系統抽樣

(systematicsampling)1.系統抽樣是指將總體中的所有單位(抽樣單位)按一定順序排列,在規定的范圍內隨機地抽取一個單位作為初始單位,然后按事先規定好的規則確定其它樣本單位。典型的系統抽樣是先從數字1到k之間隨機抽取一個數字r作為初始單位,以后依次取r+k,r+2k…。故可以把系統抽樣看成是將總體內的單位按順序分成k群,用相同的概率抽取出一群的方法。2.優點:操作簡便,可提高估計的精度3.缺點:對估計量方差的估計比較困難多階段抽樣

(multi-stagesampling)1.先抽取群,但并不是調查群內的所有單位,而是再進行一步抽樣,從選中的群中抽取出若干個單位進行調查。這里群是初級抽樣單位,第二階段抽取的是最終抽樣單位,將該方法推廣,使抽樣的段數增多,就稱為多階段抽樣。2.多階段抽樣具有整群抽樣的優點,保證樣本相對集中,節約調查費用;不需要包含所有低階段抽樣單位的抽樣框;同時由于實行了再抽樣,使調查單位在更廣泛的范圍內展開;在大規模的抽樣調查中,經常被采用的方法。非概率抽樣

(non-probabilitysampling)1.非概率抽樣是相對于概率抽樣而言的,指抽取樣本時不是依據隨機原則,而是根據研究目的對數據的要求,采用某種方式從總體中抽出部分單位對其實施調查。2.抽樣方式有方便抽樣、判斷抽樣、自愿樣本、滾雪球抽樣、配額抽樣等方式方便抽樣1.方便抽樣是指調查過程中由調查員依據方便的原則,自行確定入抽樣本的單位。如(1)調查員在街頭、公園、商店等公共場所進行攔截調查

(2)廠家在出售產品柜臺前對路過顧客進行的調查2.優點:容易實施,調查的成本低3.缺點:樣本單位的確定帶有隨意性,樣本無法代表有明確定義的總體,調查結果不宜推斷總體,但在科學研究中,使用方便樣本可以產生一些想法,對研究內容有個初步認識。判斷抽樣1.判斷抽樣是指研究人員根據經驗、判斷和對研究對象的了解,有目的地選擇一些單位作為樣本。根據不同目的分為重點抽樣,典型抽樣,代表抽樣等方式2.判斷抽樣是主觀的,樣本選擇的好壞取決于調研者的判斷、經驗、專業程度和創造性3.優點:抽樣成本比較低,容易操作4.缺點:樣本是人為確定的,沒有依據隨機的原則,調查結果不能用于對推斷總體自愿樣本1.自愿樣本指被調查者自愿參加,成為樣本中的一分子,向調查人員提供有關信息。如,參與報刊上和互聯網上刊登的調查問卷活動,向某類節目撥打熱線電話等,都屬于自愿樣本2.自愿樣本與抽樣的隨機性無關(1)樣本是有偏的(2)不能依據樣本的信息推斷總體滾雪球抽樣1.先選擇一組調查單位,對其實施調查之后,再請他們提供另外一些屬于研究總體的調查對象,調查人員根據所提供的線索,進行此后的調查。這個過程持續下去,就會形成滾雪球效應如對冬泳愛好者進行某項調查。2.適合于對稀少群體和特定群體研究3.優點:容易找到那些屬于特定群體的被調查者,調查的成本也比較低配額抽樣1.配額抽樣類似于概率抽樣中的分層抽樣,在市場調查中有廣泛的應用。它是先將總體中的所有單位按一定的標志(變量)分為若干類,然后在每個類中采用方便抽樣或判斷抽樣的方式選取樣本單位。2.優點:操作簡單,可以保證總體中不同類別的單位都能包括在所抽的樣本之中,使得樣本的結構和總體的結構類似。3.缺點:抽取具體樣本單位時,不是依據隨機原則,屬于非概率抽樣。為保證樣本的分布均勻,常采用交叉變量配額來控制。抽樣方法簡單隨機抽樣分層抽樣整群抽樣系統抽樣多階段抽樣概率抽樣方便抽樣判斷抽樣自愿樣本滾雪球抽樣配額抽樣非概率抽樣抽樣方式概率抽樣與非概率抽樣的比較1.概率抽樣依據隨機原則抽選樣本樣本統計量的理論分布存在可根據調查的結果推斷總體2.非概率抽樣不是依據隨機原則抽選樣本樣本統計量的分布是不確定的無法使用樣本的結果推斷總體搜集數據的基本方法自填式面訪式電話式調查的數據實驗的數據搜集數據的基本方法自填式問卷調查1.自填式指在沒有調查員協助的情況下由被調查者自己填寫,完成調查問卷。問卷遞送方法有:調查員分發、郵寄、網絡、媒體2.要求:調查問卷結構嚴謹,有清楚的說明3.弱點(1)問卷的返回率比較低(2)不適合結構復雜的問卷(3)調查周期比較長(4)數據搜集過程中出現的問題難于及時采取調改措施

面訪式問卷調查1.面訪式是指現場調查中調查員與被調查者面對面,調查員提問、被調查者回答的調查方式2.優點可提高調查的回答率可提高調查數據的質量能調節數據搜集所花費的時間3.弱點調查的成本較高調查過程的質量控制有一定難度電話式問卷調查您好!我是××調查公司的調查員…1.電話式是指調查人員通過打電話的方式向被調查者實施調查。2.特點速度快,能在短時間內完成調適合于樣本單位十分分散的情況3.局限(1)如果被調查者沒有電話,調查將無法實施(2)訪問的時間不能太長(3)使用的問卷需要簡單(4)被訪者不愿意接受調查時,難以說服觀察式調查觀察式調查指調查人員通過直接觀察的方法獲取信息。如利用安置在超市中的錄像設備觀察顧客挑選商品的表情;在十字路口通過計數的方法估計車流量等。數據搜集方法的選擇1.抽樣框中的有關信息抽樣框中的有關信息是影響方法選擇的一個因素。如果抽樣框中沒有通訊地址,就不能將自填式問卷寄給被調查者;如果沒有計算機隨機撥號系統,又沒有電話號碼的抽樣框,電話調查的概率樣本就難以產生,電話訪問方式就無法使用。數據搜集方法的選擇2.目標總體特征目標總體的特征也影響數據搜集方法。目標總體的特征表現在多個方面。如總體的識字率低,對問卷的理解有困難,就不宜使用自填式方式;樣本的地理分布也很重要,如果樣本單位分布很廣,地域跨度大,進行面訪的交通費用就會很高,而且調查過程的管理和質量監控也不容易。數據搜集方法的選擇3.調查問題的內容調查問題的內容也會影響數據搜集。對于比較復雜的問題,面訪調查比較適合,因為調查員可以在現場對模糊的問題進行解釋和澄清,并判斷被訪者對問題是否真正理解,調查問卷的設計也可采用更多技術,如跳答、轉答等技術,使搜集的數據滿足研究的需要。而如果調查的問題涉及一些敏感性問題,那么設置匿名的數據搜集方法,如自填式或電話調查可能更適合。數據搜集方法的選擇4.有形輔助物的使用有形輔助物的使用對調查常常是有幫助或是必要的,例如在調查期間顯示產品、產品的樣本、廣告或促銷演示等,在一些市場調查中,有時還需要被調查者試用產品,然后接受調查。在這些情況下,面訪式是最合適的方法。通過郵寄問卷的自填式也可有一些效果,因為可以隨問卷同時郵寄有關調查內容的圖片。但電話調查對有形輔助物的使用就受到限制。數據搜集方法的選擇5.實施調查的資源實施調查的資源會對搜集數據方法產生重大影響。這些資源包括經費預算、人員、調查設備和調查所需時間。面訪調查的費用是最高的,需要支付調查員的勞務費、調查交通費、被訪者的禮品費等,還要找到能夠滿足調查需要的一定數量的調查員。如果使用計算機輔助電話調查,就需要有必要的計算機設備和CATI操作系統。數據搜集方法的選擇6.管理和控制有些數據搜集方法比另一些方法更容易管理。例如,在電話調查中,調查員通常集中在調查中心一起工作,因此,管理和控制相對簡單。而面訪調查中調查員是分散、獨立地進行工作,對他們的管理和控制就有一定困難。數據搜集方法的選擇7.質量要求質量要求也是確定數據搜集方法的一個重要因素。如果調查員是經過考核選拔出來的,有較好的素質和責任心,并經過專門的培訓,這時面訪調查就能夠有效地減小被訪者的回答誤差。一般來講,面訪式的回答率最高,而自填式的回答率最低。但面訪式的調查成本最高,而自填式的調查成本最低。各調查方法的比較自填式面訪式電話式調查時間慢中等快捷調查費用低高低問卷難度要求容易可以復雜要求容易有形輔助物的使用中等利用充分利用無法利用調查過程控制簡單復雜容易調查員作用的發揮無法發揮充分發揮一般發揮回答率最低較高一般§2.3實驗數據實驗數據是指在實驗中控制實驗對象而搜集到的變量的數據。一.實驗組和對照組二.實驗中的若干問題三.實驗中的統計四.實驗法案例一.實驗組和對照組1.將研究對象分為兩組:實驗組和對照組實驗組是指隨機抽選的實驗對象的子集,在這個子集中,每個單位接受某種特別的處理。對照組是指每個單位不接受實驗組成員所接受的某種特別的處理。2.實驗組和對照組的產生應遵循隨機原則,而且應該匹配。所謂匹配指對實驗單位的背景材料進行分析比較,將情況類似的每對單位分別隨機地分配到實驗組和對照組。二.實驗中的若干問題1.人的意愿研究的對象是人的時候,在劃分實驗組和對照組時的隨機原則將面臨挑戰。2.心理問題

人們對被研究非常敏感,這使得他們更加注意自我,從而走到事物的另一個極端。3.道德問題

當某種實驗涉及道德問題時,人們會處于進退兩難的尷尬境地。

三.實驗中的統計1.實驗設計本身就是一個統計問題2.確定進行實驗所需要的單位的個數,以保證實驗可以達到統計顯著的結果3.將統計的思想融入到實驗設計中,使實驗設計符合統計分析的標準4.對實驗數據進行分析時,統計可以提供最恰當的分析方法

§2.4數據的誤差一.抽樣誤差二.非抽樣誤差三.誤差的控制抽樣誤差

(samplingerror)1.抽樣誤差是由于抽樣的隨機性引起的樣本結果與總體真值之間的誤差。2.所有樣本可能的結果與總體真值之間的平均性差異3.影響抽樣誤差的大小的因素樣本量的大小總體的變異性非抽樣誤差

(non-samplingerror)1.非抽樣誤差是相對抽樣誤差而言的,是指除抽樣誤差之外的,由于其他原因引起的樣本觀察結果與總體真值之間的差異。2.非抽樣誤差存在于所有的調查之中概率抽樣,非概率抽樣,全面性調查3.非抽樣誤差有抽樣框誤差、回答誤差、無回答誤差、調查員誤差、測量誤差非抽樣誤差

(non-samplingerror)1.抽樣框誤差是指由于抽樣框的不完善造成的誤差。2.回答誤差是指被調查者在接受調查時給出的回答與真實情況不符。主要有(1)理解誤差—恰當設計問卷措辭。

(2)記憶誤差—縮短調查涉及的時間范圍。

(3)有意識誤差—調查人員做好被調查者的思想工作,打消顧慮;調查人員遵守職業道德,為被調查者保密;調

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論