第10章 非抽樣誤差_第1頁
第10章 非抽樣誤差_第2頁
第10章 非抽樣誤差_第3頁
第10章 非抽樣誤差_第4頁
第10章 非抽樣誤差_第5頁
已閱讀5頁,還剩61頁未讀 繼續免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

Chap10

nonsamplingerror一、非抽樣誤差的來源

非抽樣誤差就是由抽樣誤差以外因素引起的,因樣本觀察數據非同質、或殘缺、或不真實而產生的誤差。為了使非抽樣誤差問題簡單化,我們可以按照抽樣調查的過程來考察其來源。◆抽樣方案設計階段

◆數據收集階段

◆數據處理階段

抽樣誤差與非抽樣誤差非抽樣誤差的特點不隨樣本量增加而減少造成估計偏差難以測定與識別理論相對薄弱◆在抽樣方案設計階段,非抽樣誤差的來源:

(1)抽樣框的編制與準備不夠充分完善;

(2)問卷設計不夠科學合理。

◆在數據收集階段,非抽樣誤差的來源:

(1)調查數據的殘缺(無回答);

(2)調查數據的錯誤。◆在數據處理階段,非抽樣誤差存在于對調查資料的整理、分組、計算、編碼和計算機錄入等過程中,是一種工作上的差錯。

◆把上述三個階段的各種非抽樣誤差加以歸納,可以概括為框誤差、無回答誤差和計量誤差三類。

其中計量誤差包括抽樣方案設計階段有缺陷的問卷設計、數據收集階段有錯誤的調查數據和數據處理階段工作上的差錯所帶來的誤差,也就是調查性誤差。

二、非抽樣誤差的特點非特有性:為非抽樣調查所特有;

非一致性:使抽樣估計結果產生偏差,并且樣本越大產生偏差的可能性越大;難測定性:難以對其進行描述和測定,具有很強的隱蔽性;難評價性:非抽樣誤差的存在使得對抽樣效果的評價與衡量復雜化;全過程性:存在于抽樣調查的所有階段。第一節無回答誤差

一、無回答誤差的成因

(一)無回答的含義

無回答(Nonresponse)是指未能取得所要搜集資料的一種現象,它包括兩種情況:個體無回答和項目無回答。個體無回答也稱全無回答,是指被調查者沒有接受調查、造成整張問卷出現空白的現象;項目無回答也稱部分無回答,是指被調查者回答了問卷中的部分調查項目未能回答其它調查項目的現象。不論是個體無回答還是項目無回答,都將導致調查數據殘缺不全,從而最終影響估計結果,降低估計精度或可靠程度。因無回答而造成的估計誤差,就稱為無回答誤差。

(二)無回答的成因1、遺漏了被調查者;2、被調查者地址不詳;3、調查內容未達被調查者;4、被調查者拒絕回答;5、回答不準確或不知如何回答;6、忘記回答。以上各種原因,有的屬于客觀性,有的則屬于主觀性;有的屬于有意識,有的則屬于無意識;有的屬于調查人員方,有的則屬于被調查者方。樣本單位回答狀況分類(2)明確單位(3)其它(不明確單位)(1)全部單位(4)合格單位(5)不合格單位(3A)估計的合格單位(3B)估計的不合格單位(6)回答單位(7)無回答單位(8)不存在的單位(9)暫時不合格單位(10)永久性不合格單位(12)其他回答者(11)拒答轉變者(13)拒答者(14)未征尋者(15)其它無回答者回答率的計算回答單位數/全部樣本數回答單位數/明確樣本數回答單位數/合格樣本數回答單位數/(合格樣本數-拒答數)二、無回答誤差的統計影響

為了測定無回答對抽樣的影響,先把總體分為兩層:回答層與無回答層。

就調查項目而言,如果無回答不是故意造成的(即與調查內容無直接關系),且無回答現象不集中于某類特殊單位組成的群體,那么就可以認為這種無回答是由隨機因素引起的,這時無回答對抽樣的影響是因實際有效的樣本容量減少而使估計量方差增大,但卻不會造成估計量偏差。估計量方差增大的程度取決于無回答率。如果無回答是故意造成的(即與調查內容直接有關),或無回答現象集中于某類特殊的群體,那么無回答層與回答層之間就存在明顯的非隨機性差異,這時,無回答對抽樣效果的影響,除了會增加估計量方差外,還會帶來較嚴重的估計量偏差。二、無回答誤差的統計影響導致估計量估計偏差若無回答者與回答者在調查項目的數量特征上存在差異,這種無回答就會導致無回答偏差

降低估計效率無回答減少了實際調查的樣本數量,因而擴大估計量的方差,導致估計效率降低

完全數據統計方法無法使用一般統計方法都適用于完整的矩陣數據,無回答造成數據缺失,可能導致一些標準的完全數據統計方法不能直接用于數據分析。

如果在調查中出現個無回答、個有回答(+=),那么當總體無回答層與回答層之間無差異時,估計量方差就變為:

=

從而估計量方差增大的量為:

===

其中==1-為樣本無回答率。

估計量方差增大的程度則為:

-1=

在這種情況下,為了達到抽樣方案所規定的抽樣估計效果,就需要增加樣本容量。如果總體無回答率為=,那么樣本容量應該確定為=。

如果令=為總體回答率,+=1,總體中回答層與無回答層的均值分別為和,樣本中回答層的均值為,那么當以來估計總體均值時,就會有偏差為:E()-=-

=-(+)

=(-)

偏差率為:

=其中=為回答層均值與無回答層均值之比。不難發現,越接近于1(即無回答率越高),越遠離于1(即回答層與無回答層之間的均值差異越大),那么估計量的偏差就會越大,偏差率就會越高,估計結果就越不準確、越不可信。

還要注意的一個問題是,雖然從理論上講無回答會使估計量方差增大(即>),但在實際上卻難以得到客觀的反映,因為我們所能計算的只是(此處的是總體中的回答層方差,未知時要以樣本方差估計)。這樣,與相比,當>時就會高估,當<時就會低估。與相比,則還有一個回答率的問題,因為

=

所以當>時估計量方差高估,當<時低估。如果>,那么當=1時,必然會有=,估計量方差低估或高估的現象也就自然會消除。可見,提高回答率是消除無回答影響的關鍵所在。例Thomsen和Siring(1983)的報告展示了挪威統計局于1969年進行的有關投票行為調查的結果。這次調查主要采取郵寄調查方式,并輔助以三次電話訪問,最終獲得9.9%的無回答率,這個數字通常被認為是比較小的。那么無回答者與回答者是否存在差異呢?無回答者與選中樣本之間在投票率上的差異在年輕的年齡群體中體現得較為顯著。無回答原因不同投票率也不同。拒絕參與調查的人群的投票率為81%,由于不在家而沒能參與調查的人群的投票率為65%,因病未參與的人群則為55%。小于10%的無回答率就導致了對挪威投票率的高估。總體20-24歲25-29歲30-49歲50-69歲70-79歲無回答者715956727874選中樣本888184909184投票率(%)HoltandElliot(1991)討論了英國關于無回答的一系列研究結果,并指出“較低的回答率與以下特征有關:倫敦居民;無車家庭;單身;沒有子女的夫婦;老年人;離婚或鰥寡者;新英聯邦血統;教育程度低;個體經營者”。三、無回答誤差的控制

(一)事前準備充分,爭取盡量高的首

次回答率;(二)搞清無回答的原因,有針對性地

進行復調查;

(三)必要時,對無回答者進行替換;(四)對于一些敏感性問題,可以采用隨

機化回答技術(沃納模型,西蒙斯模型,格林伯格模型等);(五)當無回答不可避免時,可采用一些專門技術來調整估計結果,以減少估計偏差。四、無回答的補救措施替代法漢森與赫維茨(HansenandHurwitz,1946)方法復制估算法加權調整法插補法1.替代法訪員可以在實際調查現場選擇一個替代單位或使用事先準備的指定替代單位1975年密歇根州進行的物品濫用情況調查(MichiganSurveyofSubstanceAbuse)就是為了估計在前一年內使用過16類物品的人數。根據抽樣設計,該調查采用分層多階段抽樣對2100個住戶進行了訪問。對每一個住處都重復訪問3次,若仍沒有人則嘗試其右側的住戶,接下來再嘗試左側住戶。2.漢森與赫維茨(HansenandHurwitz,1946)方法。

這種方法是先對抽中的被調查者進行郵寄(問卷)調查,然后從那些無回答者中抽選出一個子樣本進行訪問調查并盡量取得完整資料,最后把郵寄調查結果與子樣本訪問調查結果綜合起來得出總體指標的估計值。

這種方法的優點是比多次復調查法節省費用,且估計量無偏、估計精度容易掌握和控制,因此當子樣本的個體資料能全部取得時比較適用。但所花的時間較長,且要保證取得子樣本的完整資料也不容易。3.復制估算法

這種方法是當無回答出現時,用其它已有的數據來頂替無回答的缺失數據,進而對總體作出估計。用來頂替的數據可以從同次調查的回答者數據中抽選,也可以從以前的同類調查數據中選取或推算而得。在實踐中最常用的是從同次調查已取得的數據中隨機抽取。復制估算法的特點是,當頂替數據與無回答缺失數據充分接近時(這就要求與這兩者數據相對應的單位來自于同一類別,具有相似的特征),能有效減少估計偏差,但卻會增大估計量方差(均方誤差)。因此,如果我們能對總體進行分層且適當增大樣本容量,那么復制估算法就能很好地解決無回答偏差問題,且保證有較高的估計精度。這種方法尤其適用于“項目無回答”。4.加權調整法

這種方法是通過一定的權數對調查中的回答數據進行加權來達到對數據進行調整、減少因無回答造成的估計偏差的目的。權數由調查中的回答概率來確定,一般是該概率的倒數。即回答概率大的賦予較小的權,回答概率小的賦予較大的權,從而使估計量的偏差得到一些糾正。具體的加權調整法又有PolitzSimmons調整法、加權組調整法和事后分層調整法等。加權法(weighting):

主要用于單位無回答這種方法假定無回答與受訪者/受查者在家的概率有關。設在調查時間中受訪者/受查者在家的頻率為,則在估計變量的總體均值時,以作為回答概率的估計值,并使用其倒數來加權。關于加權的一些注意事項要求很高:即假定每一個加權單元中,回答者和無回答者是相似的,也就是說不管同一加權組中各單位的回答值是否相等,它們回答的可能性都相等。加權法可能會改進估計量,但它并不能消除所有的無回答偏差。常用于處理單位無回答,而非項目無回答5.插補法(imputationmethod)適用于解決項目無回答問題對每個缺失值都尋找一個或多個盡可能與其類似的插補值。一般的插補模型可以表示為:

Z=f(X)+e式中,Z是插補值,X是無回答單位的輔助變量向量,f()是輔助數據的某一函數,e是殘差。插補法的效率如何,取決于插補值與原無回答數據的相似程度。

插補法根據插補值是否包括殘差,插補法可分為確定性插補和隨機性插補。根據確定插補值時是否使用輔助變量,將插補法分為使用輔助變量插補法和不使用輔助變量插補法。使用輔助信息的插補法又可根據信息來源分為熱卡法和冷卡法。熱卡法(Hot-Deck)中的輔助信息來自當前調查,冷卡法(Cold-Deck)中的輔助信息來自以前的同類調查或其它已有的關于無回答單位的相關資料。根據對每個缺失值的插補值的數,插補法又可分為單一插補法(singleimputation)和多重插補法(multipleimputation)。演繹插補法(Deductiveimputation,DI)通過輔助資料的演繹,找出插補值,也是一種使用輔助變量的插補法。該輔助資料可能就來自本次調查,也可能來自其余調查或其他資料。冷卡法應用較多。該方法對輔助信息的要求比較高,使用時要注意演繹方法的正確性。例如:沒有受到過任何犯罪侵害,因此暴力犯罪受害者一項也應為0。在縱向調查中,如果一個女人在第1年和第3年訪問時都有2個孩子,而第2年的數據是缺失的,那么邏輯上的插補值就應該是2。均值插補法(Meanimputation,MI)利用回答單位的項目均值作為無回答項目的插補值。總均值差補法(Meanimputationoverall,MO)分層均值差補法(Meanimputationwithinclasses,MC)方便實施,但會破壞分布,低估方差。適于點估計為了避免尖峰的出現,可以采用隨機單元均值插補法。假設條件為:各單元中的缺失項目為完全隨機缺失(MCAR)。熱卡法(Hot-deckimputation)輔助信息來自同一樣本的插補方法按照輔助變量,將回答單位分成為若干的“插補層”,然后,對每一個無回答單位,依據其輔助變量值,從相對應的“插補層”中尋找一個回答單位,以其變量值對無回答數據集進行插補。順序性熱卡插補法、最近距離熱卡插補、以及組內隨機替代法等回歸法通過建立y與輔助變量間的回歸方程來補入缺失的y值。優點:方法簡單,對無回答的估計效果好,對每個被插補變量,可以利用不同的預測變量缺點:如果沒有隨機誤差項,可能導致高估;可能造成多重共線性;可能降低方差。第二節

抽樣框誤差抽樣框誤差:目標總體與抽樣總體不一致目標總體,即作為調查研究對象的全體抽樣總體,即從中抽選樣本的總體抽樣框誤差類型:

1.丟失目標總體單元,威脅性較大。

2.包含非目標總體單元。

3.復合聯接。這是指抽樣框中的單元與目標總體單元不完全是一一對應關系。例如一個門牌號內居住兩戶或多戶家庭,一戶擁有兩處或多處住房。

4.不正確的輔助信息。二、抽樣框誤差的影響

(一)丟失單位的影響在假定不存在其他原因的抽樣框誤差時,丟失單位對抽樣效果的影響主要取決于兩個方面:丟失單位的分布特征和丟失單位數所占的比重。其中,對總體均值的估計只與前者有關,而對總體總值的估計則與兩者都有關。

(1)丟失單位是目標總體中的一個隨機樣本,具有與目標總體相同的期望與方差,則其對總體均值的估計影響不大,但對總體總值的估計會低估。(2)丟失的單位是特殊群體,不具有與目標總體相同的期望與方差,那么對目標總體總值、均值的估計會產生偏差。(二)包含異質單位的影響

如果是目標總體總值的估計,則其估計量偏差和偏差率分別為:很顯然,這時的偏差或偏差率都是正的,即若抽樣框中包含了異質單位必定會使目標總體總值的估計偏高。

均值估計量方差會被高估或低估,總值估計量方差則一定是高估,即:

如果在調查中異質單位可以被識別并被予以剔除的,可以把目標總體看成抽樣框中的一個子總體或域。異質單位的標志值就取0。

在調查中剔除異質單位會增加估計量的方差,原因在于它使實際的樣本容量變小了。三、抽樣框誤差的控制重在預防積極補救心理準備

第三節計量誤差范圍廣,分類:設計誤差:問卷設計,抽樣過程被調查者誤差:無意識誤差和有意識誤差調查者誤差其它誤差:測量工具,編碼,錄入等一、計量誤差的成因

計量誤差(ErrorsofMeasurement)是指樣本結果(如樣本均值,樣本方差)與實際情況(真實的樣本均值,樣本方差)不一致而產生的誤差。這種誤差可能存在于調查過程中,也可能存在于整理和計算過程中,主要就是任何調查都可能產生的調查性誤差。這種誤差是由人有意或無意所造成的,且會隨調查范圍的增大而增加產生的可能性。具體原因如下:

(一)因設計不完善引起的計量誤差;(二)調查員原因引起的計量誤差;

(三)被調查者原因引起的計量誤差;

(四)其他原因引起的計量誤差。

(一)因設計不完善引起的計量誤差

一是問卷設計不完善,包括用詞不準確;問句具有誘導性或傾向性;問句排列順序欠妥;調查內容不完整(尤其是缺了重要的項目);調查變量選擇有誤;問句的切入點不準確;問句給被調查者預備的回答空間不合理;問句的語氣太軟或太強;問卷的長度太冗長等原因。二是設計的抽樣程序有偏,使樣本結構非隨機地與總體結構不符。三是估計量的構造有問題,主要是該加權的未加權,不該加權的卻加權,從而產生偏差。(二)調查員原因引起的計量誤差

一是調查員責任心不強、工作粗心,使觀察結果不準或登記、填寫、計算發生差錯。二是調查員在調查時偷工減料,不按規定操作,用其他數據來代替調查數據。三是調查員本身弄虛作假,由自己來偽造填寫調查表。四是調查員業務水平不夠高,在觀察或測量時難以搞準數據。這些誤差成因,有的是無意識的,有的則是故意的。(三)被調查者原因引起的計量誤差

一是被調查者對調查內容的理解(包括問句的含義等)有誤。二是被調查者對于需要回憶才能回答的問題,可能存在記憶差錯。三是被調查者對于調查中的一些相似或者相近內容無法準確區分而出現回答差錯。四是被調查者接受調查時心境不佳、身體不適、家中很忙或有急事和意外,使調查質量受到影響。五是被調查者對調查不感興趣而敷衍了事。六是被調查者為了不讓他人知道實情而故意提供不真實的數據(有的夸大,如文化程度、高雅文化消費支出、公益捐款及工作業績等;有的縮小,如收入、煙酒消費量及工作過程等)。七是被調查者為了保持同一調查內容在不同時間上的一致性或家庭成員回答口徑的一致性而提供相同但不真實的數據。

(四)其他原因引起的計量誤差如計量工具不準確、計算機編碼及輸入錯誤、資料整理中的歸類錯誤等。

二、計量誤差的影響

計量誤差存在于調查單位之中。如果設為被觀測單位的真實值,為其觀測值,那么當時,就存在計量誤差,若以表示之,可得計量誤差模型為:

=+其中>0或<0。1、如果調查單位的計量誤差是隨機出現的,那么總正差與總負差大致相等,即E()=E(),也即E()=0

。這時,計量誤差的存在不會改變估計量的偏差性,但會改變估計量方差的大小。設為總體均值,E()=,那么有:

=+=+2

()+E=E+E()+2E[

()]

由于E()=0,E()=E=V(),故

MSE()=V()+V()+2E[

()]其中E[

()]為調查單位計量誤差與真實離差之間的協方差。

當樣本容量為時,無計量誤差的總體均值估計量方差為:()=

有計量誤差的估計量方差(均方誤差)為:MSE()=(1

)即:MSE()=(

)+〔V()+2E[

()]

若2E[()]+V()<0,那么MSE()<V(),MSE()<(),即估計量方差被低估了。如果2E[()]+V()>0,那么MSE()>V(),MSE()>(),即估計量方差被高估了。不論是高估還是低估,估計效果都不能得到真實的反映。2、如果調查單位的計量誤差不是隨機出現、而是存在一定的系統性,那么就會正差大于負差,這時計量誤差就變成為估計量的計量偏差,即E

()E()=,從而計量誤差的存在既改變了估計量的偏差性,也改變了估計量方差的大小。在這種情況下,我們可以得到:

=E()+E()-uE=E+MSE()=V()+

其中V()為有計量誤差時的觀測值的估計量方差。注意到E()0,E()V(),可得:

()=V()+〔E()+2E[()]〕

如果>〔E()+2E[()]〕,則V()<(),估計量方差低估。如果相反,則估計量方差高估。非隨機性的計量誤差越嚴重,估計量方差低估或高估的程度就越強。三、計量誤差的控制(一)精心設計;(二)對調查員要嚴格要求,精心挑選,加強培訓;(三)在每次調查中,都要對被調查者作耐心的宣傳說服工作;(四)加強統計執法,規范統計調查活動;(五)要合理確定調查時間、調查方式和調查周期;(六)必要的檢查和調整;(七)控制計量工具或技術設備原因的誤差;(八

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論