




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)
文檔簡介
1、第一章導(dǎo)論比較描述統(tǒng)計和推窗斤統(tǒng)計:數(shù)據(jù)分析是通過統(tǒng)計方法研究數(shù)據(jù)其所用的方法可分為描述統(tǒng)計和推斷統(tǒng)計。描述性統(tǒng)計:研究一組數(shù)據(jù)的組織、整理和描述的統(tǒng)計學(xué)分支,是社會科學(xué)實證研究中最常用的方法,也是統(tǒng)計分析 中必不可少的一步。內(nèi)容包才舌取得研究所需要的數(shù)據(jù)、用圖表形式對數(shù)據(jù)進(jìn)行加工處理和顯示,進(jìn)而通過綜合.概括與分 析,得出反映所研究現(xiàn)象的一般性特征。推那充計學(xué):是研究如何利用樣本數(shù)據(jù)對總體的數(shù)量特征進(jìn)行推斷的統(tǒng)計學(xué)分支。研究者所關(guān)心的是總體的某些 特征,但許多總體太大,無法對每個個體進(jìn)彳亍則量,有時我們得到的數(shù)據(jù)往往需要破壞性試驗,這就需要抽取部分個體即樣 本進(jìn)行測.然后根據(jù)樣本數(shù)據(jù)對所研究
2、的總體特征進(jìn)行推斷,這就是推斷統(tǒng)計所要解決的問題。其內(nèi)容包括抽樣分布理論, 參數(shù)估計,假設(shè)檢驗,方差分析,回歸分析,時間序列分析等等。 3)兩者的關(guān)系:描述統(tǒng)計是基礎(chǔ)推斷統(tǒng)計是主體比校分類數(shù)據(jù).順序數(shù)據(jù)和數(shù)值型數(shù)據(jù):根據(jù)所采用的計量尺度不同,可以將統(tǒng)計換分為分類換、順數(shù)據(jù)和數(shù)值型數(shù)據(jù)。分類數(shù)據(jù)是只能歸于某一類別的非數(shù)字型數(shù)據(jù)。它是對事物進(jìn)行分類的結(jié)果,數(shù)據(jù)裘現(xiàn)為類別,是用文字來表達(dá)的, 它是由分類尺度計量形成的。順序數(shù)量是只能歸于某一有序類別的非數(shù)字型數(shù)據(jù)。也是對事物進(jìn)行分類的結(jié)果,但這些類別是有順厚的-它是由順 序尺度計量形成的。數(shù)值型數(shù)據(jù)是按數(shù)字尺度測量的觀察值。其結(jié)果羲現(xiàn)為具體的數(shù)值,現(xiàn)
3、實中我們所處理的大多數(shù)都是數(shù)值型數(shù) 據(jù)??傊诸悡Q和順序數(shù)據(jù)說明的是事物的本質(zhì)特征,通常是用文字來羲達(dá)的.其結(jié)果均裘現(xiàn)為類別,因而也充稱為定型數(shù) 據(jù)或品質(zhì)數(shù)據(jù);數(shù)值型數(shù)據(jù)說明的是現(xiàn)象的數(shù)量特征,通常是用數(shù)值來表現(xiàn)的,因此可稱為定量數(shù)據(jù)或數(shù)量數(shù)據(jù)。比較總體.樣本、參數(shù)、統(tǒng)計量和變量:總體是包含所研究的全部個體的集合。通常是我們所關(guān)心的一些個體組成,如由多個企業(yè)所構(gòu)成的集合,多個居民戶 所構(gòu)成的集合??傮w根據(jù)其所包含的單位數(shù)目是否可數(shù)可以分為有限總淅口無限總體。有限總體是指總體的范圍能夠明確 確定,而且元素的數(shù)目是有限可數(shù)的,需要注意的是,統(tǒng)計蕙義上的總體,通常不是一群人或一些物品的集合,而是一組
4、觀測數(shù) 據(jù)。樣本是從總體中抽取的一部分元素的集合,構(gòu)成樣本的元素的數(shù)目稱為樣本容量。例如我們從一批燈泡中隨機抽取 100個,這100個燈泡就構(gòu)成了一個樣本。(3 )參數(shù)是用來描述總體特征的概括性數(shù)字度量。有總體平均數(shù)、標(biāo)準(zhǔn)差、總體比例。由于總體參數(shù)通常是不知道的- 所以參數(shù)是f未知的常數(shù)。所以才需要進(jìn)行抽樣,根據(jù)樣本來估計總體參數(shù)(4 )樣本量是用來描述樣本特征的概括刪字度量。統(tǒng)計量是根據(jù)樣本數(shù)據(jù)計算出來的一個量,通常包括:樣本平均數(shù)、 樣本標(biāo)準(zhǔn)差、樣本比例等,由于樣本是我們已經(jīng)抽出來的,所以統(tǒng)計量總敷道的,抽樣的目的就是要根據(jù)樣本統(tǒng)計的斷總體參 數(shù)。(5)變量是說明現(xiàn)象某種特征的概念。變量的
5、特點是從一次觀察到下一次觀察會呈現(xiàn)出差別或變化,分為分類變量、順 序變量、數(shù)值型變量、離散型變量和連續(xù)型變量。第二章數(shù)據(jù)收集一、調(diào)查方案的主要內(nèi)容:調(diào)查目的:是調(diào)查所要達(dá)到的具體目標(biāo),他所回答的是”為什么調(diào)查”要解決什么樣的問題”等調(diào)查對象和調(diào)查單位:調(diào)查對象是根據(jù)調(diào)查目的的確定的調(diào)查研究的總體或調(diào)查范圍。調(diào)查單位是構(gòu)成調(diào)查隊選中 的每一個單位,它是調(diào)查項目和調(diào)查內(nèi)容的承擔(dān)看體。所要解決的是向誰調(diào)查”由誰來提供所需割1 3)調(diào)查項目和調(diào)查羲:調(diào)查項目要解決的問題是調(diào)查什么”,也就是調(diào)查的具體內(nèi)容,大多數(shù)統(tǒng)計調(diào)查中,調(diào)查項目通常 以表格的形式來表現(xiàn),稱為調(diào)查表二、數(shù)據(jù)的誤差:統(tǒng)計數(shù)據(jù)的誤差通常禺
6、荻計數(shù)據(jù)與客觀現(xiàn)實之間的差距,誤差的類型 主要有抽樣誤差和非抽樣誤差兩類。(1 )抽樣誤差:主要禺旨在用樣本數(shù)據(jù)進(jìn)行推斷時所產(chǎn)生的隨機誤差。只存在于概率抽樣中。這類誤差通常是無法消除 的,但事先可以進(jìn)行控制和計算。影響抽樣誤差大小的因素:(a)抽樣單位的數(shù)目。在其他條件不變的情況下,抽樣單位的數(shù)目越多,抽樣誤差越小;反之,越大。這是因為隨著樣 本數(shù)目的增多,樣本結(jié)構(gòu)越接近總體,抽樣調(diào)查也就越接近全面調(diào)查,當(dāng)樣本擴(kuò)大到總體時,則為全面調(diào)查,也就不存在抽樣誤差 了。(b )總體背研究標(biāo)志的變異程度。在其他條彳牛不變的情況下,總體標(biāo)志的變異程度越小,抽樣誤差越小,反之,越大。 抽樣誤差和總體標(biāo)志的變
7、異程度呈正比變化。這是因為總體的變異程度小,表示總體各單位標(biāo)志值之間的差異小。則樣本指 標(biāo)與總體指標(biāo)之間的差異也可能小;如果總體各單位標(biāo)志值相等,則標(biāo)志變動度為零,樣本指標(biāo)等于總體指標(biāo).此時不存融樣誤 差(C )抽樣方法的選擇。重復(fù)抽精口非重復(fù)抽樣的抽樣誤差大小不同。采用不重復(fù)抽樣比采用重復(fù)抽樣的抽樣誤差小(d)抽樣組織方式不同。采用不同的組織方式,會有不同的抽樣誤差,這是因為不同的抽樣組織所抽中的樣本,對于總體 的代表性也不同,通常,常利用不同的抽樣誤差,作出判斷各種抽樣組織方式的比較標(biāo)準(zhǔn)。(2 )非抽樣誤差:主要包括:抽樣框誤差.回答誤差、無回答誤差、調(diào)查員誤差;是調(diào)查過程中宙于調(diào)查者或被
8、調(diào)查者 的人為因素所造成的誤差。調(diào)查者所造成的誤差主要有:調(diào)查方案中有關(guān)的規(guī)定或解釋不明確導(dǎo)致的填報錯誤、抄錄錯誤. 匯總錯誤等;被調(diào)查者所造成的誤差主要有:因人為因素干擾形成的有蕙虛報或瞞報調(diào)查數(shù)據(jù)。非抽樣誤差理論上是可以 消除的。三、簡單隨機抽樣:概念:從總體/V個單位中隨機地抽取n個單位作為樣本,每個單位入抽樣本的概率是相等的;(2 )特點:1簡單、直觀,在抽樣框完整時,可直接從中抽取樣本b、用樣本統(tǒng)計量對目標(biāo)量進(jìn)行估計比較方便(3 )鞭性當(dāng)/V很大時,不易構(gòu)造抽樣框抽出的單位很分散,給實施調(diào)查增加了困難沒有利用其它輔助信息 以提高估計的效率第三章數(shù)據(jù)的整理與展示數(shù)據(jù)排序的目的:(1 )
9、數(shù)據(jù)排序是按一定II頁厚將融排列,以發(fā)現(xiàn)一些明顯的特征或趨勢找到解決問題的線索(2 )排還有助于對換檢查糾錯以及為更新歸類或分組等提供方便。(3 )在某些場合,排本身就是分析的目的之一。數(shù)據(jù)分組:是根據(jù)統(tǒng)計研究的需要,將原始數(shù)據(jù)按照某種標(biāo)準(zhǔn)化分成不同的組別,分組后的數(shù)據(jù)成為分組數(shù)據(jù)。數(shù)據(jù)經(jīng)分組后再計算 出各組中數(shù)據(jù)出現(xiàn)的頻數(shù),就形成了一張頻數(shù)分布表,分組方法有單變量值分組和組距分組兩種,單變量分組通常只適合于離 散變量.且在變量值較少的情況下使用,在連續(xù)變量或變量值較多情況下,通常采用組距分組。組距分組的步驟和原則:步驟:a、確定侖購:組數(shù)的確定應(yīng)以能夠顯示數(shù)據(jù)的分布特征和規(guī)律為目的。在實際分
10、組時,可以按Sturges提出的經(jīng)驗公式來確定組數(shù)KK = 1 +削Igb、確走組距:組距(Class Width)是f組的上限與下限之差,可根據(jù)全部數(shù)據(jù)的最大值和最小值及所分的酗來確定, 即組距二(最大值最小值)+組數(shù)C、統(tǒng)計出各組的頻數(shù)并整理成頻數(shù)分布表(2 )原則:采用組距分組時,需遵循”不重不漏”的原則,“不重”是指一項數(shù)據(jù)只能分在其中的某一組.不能在其他組中重復(fù)出 現(xiàn);”不漏”是指組別能夠窮盡,即在所分的全部組別中每項數(shù)據(jù)都能分在其中的某一組,不能遺漏。為解決不重的問題,統(tǒng)計 分組時習(xí)慣上規(guī)定”上組限不在內(nèi),即當(dāng)相鄰兩組的上下限重畚時,恰好等于某一組上限的變量值不算在本組內(nèi),而計算在
11、下 一組內(nèi)。當(dāng)然,對于離散變量,我們可以采用相鄰兩組組限間斷的辦法解決”不重”的問題。也可以對f組的上限值采用小數(shù)點 的形式,小數(shù)點的位數(shù)根據(jù)所要求的精度具體確定。缺點:組距分組掩蓋了各組內(nèi)的數(shù)據(jù)分布狀況四、直方圖和條形圖的 區(qū)別:首先,條形圖是用條形的長度(橫置時)表示各類別頻數(shù)的多少,其寬度則是固定的;直方圖是用面積表示各組頻數(shù)的多 少,頻數(shù)的高度表示每一組的頻數(shù)或頻率,寬度則表示各組的組距,因此高度與竟度均有意義。其次,由于分組數(shù)據(jù)具有連續(xù)性,直方圖的各矩形通常是連續(xù)菇洌,而條形圖則是分開排列。最后,條形圖主要用于展示各類數(shù)據(jù),而直方圖則主要用于展示數(shù)據(jù)型數(shù)據(jù)五、繪制線圖應(yīng)注意的問題:)
12、時間一般繪在橫軸,觀測數(shù)據(jù)繪在縱軸)圖形的長竟比例要適當(dāng),一般應(yīng)繪成橫軸略大于縱軸的長方形,其長寬比 例大致是10:7.(3)一般情況下,縱軸數(shù)據(jù)下端應(yīng)從0開始,以便于比較,數(shù)據(jù)與0之間的間距過大,可以采取折斷的符號將縱軸折斷六、設(shè)計統(tǒng)計表注意的問題:首先,要合理安排統(tǒng)計表的結(jié)構(gòu),例如表號、行標(biāo)題、列標(biāo)題、數(shù)字資料的位置應(yīng)安排合理。其次,表頭一般應(yīng)包括表號、總標(biāo)題和表中數(shù)據(jù)的單位等內(nèi)容,總標(biāo)題應(yīng)簡明確切地概括出統(tǒng)計表的內(nèi)容。再次,表中的上下兩條線一般用粗線,中間的其雌用細(xì)線,表的左右兩邊不封口,列標(biāo)題之間可以用豎線分開,而行標(biāo)題 之間通常不必用橫線隔開。最后,在使用統(tǒng)計表時,必要時可在表下方加
13、上注養(yǎng)髦特別注意標(biāo)明數(shù)據(jù)來源。七、數(shù)據(jù)的審核:原始數(shù)據(jù):a、完整性審核:檢查應(yīng)調(diào)查的單位或個體是否有遺漏;所有的調(diào)查項目或指標(biāo)是否填寫齊全b、準(zhǔn)確性審核:檢裂據(jù)是否真實反映客觀實際情況,內(nèi)容是否符合實際;檢查數(shù)據(jù)是否有錯誤,計算是否正確等二珂據(jù):a、適用性審核:弄清楚數(shù)據(jù)的來源、數(shù)據(jù)的口徑以及有關(guān)的背景材料;確定數(shù)據(jù)是否符合自己分析研究的需要b、時效性審核:盡可能使用最新的數(shù)據(jù)數(shù)據(jù)的整理與顯示(基本問題)(1)要弄清所面對的數(shù)據(jù)類型,因為不同類型的數(shù)據(jù),所采取的處理方式方法是不同的(2 )對分類昨和順賊據(jù)主要是做分類整理(3 )對數(shù)值型數(shù)據(jù)則主要SW侖眇理適合于低層次數(shù)據(jù)的整理和顯示方法也適合
14、于高層次的數(shù)據(jù);但適合于高層次數(shù)據(jù)的整理和顯示方法并不適合于低層次的數(shù)據(jù)第四章數(shù)據(jù)的概括性度量-、集中趨勢和離散趨勢的度量:集中超勢是指一組數(shù)據(jù)向某一中心值靠攏的傾向,它反映了一組數(shù)據(jù)中心點的位審斤在。描述集中趨勢所采用的 測度值分為:眾數(shù)、中位數(shù)和分位數(shù)、平均數(shù)。離散趨勢是數(shù)據(jù)分布的另一個重要特征,它所反映的各變量值遠(yuǎn)離其中心值得程度因此也稱為離中趨勢,數(shù)據(jù) 的離散程度越大,集中趨勢的測度值對該組數(shù)據(jù)的代裘性越差,反之,代表性越好。描述數(shù)據(jù)離散程度所采用的測度值,根據(jù) 所依據(jù)的數(shù)據(jù)類型的不同主要有異種比率、四分位差、方差和標(biāo)準(zhǔn)差。此外還有極差、平均差以及測度相對離散程度的離 散系數(shù)。二、眾數(shù)
15、、中位數(shù)和平均數(shù):三者的關(guān)系:從分布的角度看,眾數(shù)始終是一組數(shù)據(jù)分布的最高峰值,中位數(shù)的處于一組換中間位置上的值,而平均 數(shù)則是全部數(shù)據(jù)的算數(shù)平均。因此,對于具有單峰分布的大多數(shù)數(shù)據(jù)而言,眾數(shù)、中彳竭(和平均數(shù)之間具有以下關(guān)系:(a )如果數(shù)據(jù)的分布是對稱的,眾數(shù)、中位數(shù)、平均數(shù)必定相等(b )如果數(shù)據(jù)是左偏分布,說明數(shù)據(jù)存在極小值,必然拉動平均數(shù)向極小值一方靠近,而眾數(shù)和中彳站(由于是位代 表值,不受極值的影響,因此三者的關(guān)系為眾數(shù)中彳遹平均數(shù)(C)如果城是右偏分布,說明數(shù)據(jù)存在極大值,必然拉動平均數(shù)向極大值的一方靠近,則眾數(shù)v中位數(shù)V平均數(shù)。特點及應(yīng)用場合眾數(shù)是一組數(shù)據(jù)的峰值,是一種位置代
16、表詞,不受極端值的影響,具有不唯一性,對于一組數(shù)據(jù)可能有f眾數(shù), 也可能有兩個或多個眾數(shù),也可能沒有眾數(shù)。雖然對于J頂序數(shù)據(jù)以及數(shù)值型數(shù)據(jù)也可以計算眾數(shù),但眾數(shù)主要適合于作為 分類數(shù)據(jù)的集中趨勢測度值。中位數(shù)是一組數(shù)據(jù)中間位置上的代表值,主要適合于作為順序數(shù)據(jù)的集中趨勢測度值.雖然對于順序數(shù)據(jù)可以使用 眾數(shù),但以中位數(shù)為宜。(C)平均數(shù)是就數(shù)值型數(shù)據(jù)計算的,而且利用了全部數(shù)據(jù)信息,它是實際中應(yīng)用最廣泛的集中趨勢測度值。平均數(shù)主要 適合于作為數(shù)值型數(shù)據(jù)的集中趨勢測度值。當(dāng)數(shù)據(jù)呈對稱分布或接近對稱分布時,三個代表值相等或接近相等,這是我們應(yīng)該 選擇平均數(shù)作為集中趨勢的代表值。但平均數(shù)的主要缺點是易
17、受數(shù)據(jù)極端值得影響,對于偏態(tài)分布的數(shù)據(jù),平均數(shù)的代表性較 差。因此,當(dāng)數(shù)據(jù)為偏態(tài)分布,特別是當(dāng)偏斜的程度較大時,我們可以考慮選擇眾數(shù)或中位數(shù)等位置代裘詞。三、異種比率.:是非眾數(shù)組的頻數(shù)占總頻數(shù)的比率。主要用于衡量眾數(shù)對一組數(shù)據(jù)的代表程度。異眾比率越大,說明非眾數(shù)組的頻數(shù)占 總頻數(shù)的比重越大,眾數(shù)的代表性越差。反之,越小,眾數(shù)的代表性越好。異種比率重要適合測度分類數(shù)據(jù)的離散程度。當(dāng)然,對于順序數(shù)據(jù)以及數(shù)值型數(shù)據(jù)也可以計算異種比率。四、四分位差:是上四分位數(shù)與下四分位故之差。反映了中間50%數(shù)據(jù)的離散程度,其數(shù)值越小,說明中間數(shù)據(jù)越集中,數(shù)值越大,說明 中間數(shù)據(jù)越分散。四分位差不受極值的影響。主
18、要用于測度順序數(shù)據(jù)的離散程度,當(dāng)然,對于數(shù)值型數(shù)據(jù)也可以計算四分 位差,但不適合于分類數(shù)據(jù)。五、方差和標(biāo)準(zhǔn)差:極差是一組數(shù)據(jù)的最大值與最小值之差,也稱為全距。它容易受極端值的影響,由于極差只是利用了一組數(shù)據(jù)兩端的信 息,不能反映出中間數(shù)據(jù)的分散狀況,因而不能準(zhǔn)確描述出數(shù)據(jù)的分散程度。平均差是各變量值與其平均數(shù)離差的絕對值的平均數(shù),平均差以平均數(shù)為中心,反映了每個數(shù)據(jù)與平均數(shù)的平均差異 程度,它能全面準(zhǔn)確的反映一翩據(jù)的離散狀況。平均差越大說明數(shù)據(jù)的離散程度就越大,反之,越小。為了避免離差之和等 于0而無法計算平均差這一問題,平均差在計算時對離差取了絕對值,以離差的絕對值來表示總離差。方差(或標(biāo)準(zhǔn)
19、差)是實際中應(yīng)用最廣泛的離散程度測度值,因此它能準(zhǔn)確的反映出數(shù)據(jù)的離散程度。方差是各變量值與 其平均數(shù)離差平方的平均數(shù)。標(biāo)準(zhǔn)差是方差的平方根,與方差不同的是,標(biāo)準(zhǔn)差是具有量綱的,它與變量值的計量單位相同,其實際意義要比方差清 楚,因此,在對實際問題進(jìn)行分析時,我們更多的使用標(biāo)準(zhǔn)差。六、標(biāo)準(zhǔn)分?jǐn)?shù):標(biāo)準(zhǔn)分?jǐn)?shù)是指變量值與其平均數(shù)的離差除以標(biāo)準(zhǔn)差后的差??梢詼y度每個數(shù)據(jù)在該組數(shù)據(jù)中的相對位置,并可以用它來 判斷一組數(shù)據(jù)是否有離群數(shù)據(jù),也給出了一組數(shù)據(jù)中各數(shù)值的相對位置.例如,如果某個數(shù)值的標(biāo)準(zhǔn)分?jǐn)?shù)為-15,我們就知 道該數(shù)值低于平均數(shù)1.5倍的標(biāo)準(zhǔn)差。在對多個具有不同量綱的變量進(jìn)行處理時,常常需要對各
20、變量數(shù)值進(jìn)行標(biāo))隹化處理。 標(biāo)準(zhǔn)分?jǐn)?shù)具有平均數(shù)為0、標(biāo)準(zhǔn)差為1的特性。實際上,標(biāo)準(zhǔn)分?jǐn)?shù)只是將原始數(shù)據(jù)進(jìn)行了線性變換,它并沒有改變一個數(shù)據(jù)在 該融據(jù)中的位置,也沒有改變改組數(shù)據(jù)分布的形狀,而只是使該組數(shù)據(jù)的平均數(shù)為0、標(biāo)準(zhǔn)差為1。七、經(jīng)驗法則:經(jīng)驗法則表明:當(dāng)一官巾g對稱分布時(1 )約有68%的數(shù)據(jù)在平均數(shù)加減1個標(biāo)準(zhǔn)差的范圍之內(nèi)(2 )約有95%的數(shù)據(jù)在平均數(shù)加減2個標(biāo)準(zhǔn)差的范圍之內(nèi)(3 )約有99%的數(shù)據(jù)在平均數(shù)加減3個標(biāo)準(zhǔn)差的范圍之內(nèi)八、切比雪夫不等式:如果一組數(shù)據(jù)不是對稱分布,經(jīng)驗法則就不再適用,這時就要使用切比雪夫不等式,它對任可分布形狀的數(shù)據(jù)都適用, 對于任意分布形態(tài)的數(shù)據(jù),根據(jù)切
21、比雪夫不等式,至少有(l-l/k2 )的數(shù)據(jù)落在k個標(biāo)準(zhǔn)差之內(nèi)。其中k是大于1的任意值,但 不一定是整數(shù)。對于k=2、3、4,該不等式的含義是:(1 )至少有75%的數(shù)據(jù)在平均數(shù)加減2個標(biāo)準(zhǔn)差的范圍之內(nèi) (2 )至少有89%的數(shù)據(jù)在平均數(shù)加減3個標(biāo)準(zhǔn)差的范S之內(nèi)(3 )至少有94%的數(shù)據(jù)在平均數(shù)加減4個標(biāo)準(zhǔn)差的范圍之內(nèi)九、相對離散程度:離散系數(shù)的作用:極差、平均差、方差和標(biāo)準(zhǔn)差等都是反映數(shù)據(jù)分散程度的絕對值,其數(shù)值的大小_方面取決于原變量值本身水平高低的 影響,也就是與變量的平均數(shù)大小有關(guān),變量值絕對水平高的,離散程度的測度值自然也就大。絕對水平小的離散程度的測度 值自然也就?。涣硪环矫?它們
22、與原變量值的計量單位相同,采用不同計量單位計量的變量值,其離散程度的測度值也就不 同。因此對于平均水平不同或者計量單位不同的不同組S 口的變量值,是不能用上述離散程度的測度值直接比較其離散程度 的。為消除變量值水平高低和計量單位不同對離散程度測度值的影響,需要計算離散系數(shù)。曹散系數(shù)是指一組數(shù)據(jù)的標(biāo)準(zhǔn) 差與其相應(yīng)的平均數(shù)之比。離散系數(shù)是測度數(shù)據(jù)離散程度的相對統(tǒng)計量,通常是就標(biāo)準(zhǔn)差來計算的,因此也稱為標(biāo)準(zhǔn)差系 數(shù),離散系數(shù)的作用主要是用于t匕較對不同樣本數(shù)據(jù)的離散程度。離散系數(shù)大的說明數(shù)據(jù)的離散程度大,離散系數(shù)小的說 明數(shù)據(jù)的離散程度小。十、測度數(shù)據(jù)分布形狀的統(tǒng)計量:(1 )偏態(tài):如果一組數(shù)據(jù)的分
23、布的對稱的,則SK=O,如果SK明顯不等于零,表明分布是非對稱的。當(dāng)SK為正值時,表 示正偏離差值較大,可以判斷為正偏或右偏;反之,為負(fù)偏或左偏,SK的值越大,表示傾斜的程度就越大(2峰態(tài):如果一組數(shù)據(jù)服從標(biāo)準(zhǔn)正態(tài)分布,則峰態(tài)系數(shù)的值等于0,若峰態(tài)系數(shù)的值明顯不同于0,表明分布比正太分布更平或更尖,通常稱為平峰分布或尖峰分布。當(dāng)K0時為尖峰分布,當(dāng)K0時為扁平分布第五章概率與IS率分布一、常見的離散型概率分布:(1)兩點分布(2 )二項分布:n重伯努利試驗滿足下列條件:a、一次實驗只有兩種結(jié)果,即成功和失敗,這里的成功是指感興趣的某 種特征。b、一次實驗成功的概率是P,失敗的概率是q=l-p,
24、而且概率P對每次實驗都是相同的。C、實驗是相互獨立的。 d、實驗可以重復(fù)進(jìn)行n次。e、在n次試驗中,成功的次數(shù)對應(yīng)f離散型隨機變量,用X表示(3 )泊松分布:重要特征:a.所考查的事件在任意兩個長度相等的區(qū)間里發(fā)生一次的機會均等。b、所考察的事件在任可一個區(qū)間里發(fā)生與否和在其他區(qū)間里發(fā)生與否沒有相互影響,即是獨立的。泊松分布的另f重要 用途是作為二項概率分布的近似。對fn重伯努利實驗,P代表每次伯努利實驗成功的概率,當(dāng)實驗次數(shù)n相對很大,成功概 率P相對很小,而乘積np大小適中時.泊松分布的一般表達(dá)式與二項分布的一般表達(dá)式近似相等,(4)超幾何分布:二項分布只適合于重復(fù)抽樣,但在實際抽樣中,很
25、少采用重復(fù)抽樣。不過,當(dāng)總體的元素數(shù)目N很大 而樣本容S n相對于N很中時,二項分布仍然適用。但如果是采用不重復(fù)抽樣.各次實驗并不獨立,成功的概率也互不相等.而 且總體元素的數(shù)目很小或樣本容量n相對于N來說較大時,二項分布就不再適用,這時,樣本中成功的次數(shù)則月艮從超幾何分 布。超幾何分布與二項分布的關(guān)系:由于呈幾何分布所描述的實驗與n重伯努利實驗相似,所以超幾何分布與二項分部之間也存在看十分特殊而有意義的聯(lián)系,從直觀上來看嗎,如果總體中的元素個數(shù)N很大,使得M的有限變化相對于N而言比較 小,那么超幾何分布趨向于二項分布。這是因為在N趨于無窮大時,每次抽樣的樣品即使不放回,對其后代表成功的事件
26、發(fā)生的概率也不會有太大影響,可以近似認(rèn)為不變,二者恰好滿足了二項分布的前提。、正態(tài)分布的曲線的性質(zhì):正態(tài)曲線的圖形是關(guān)于=P的對稱鐘形曲線,且峰值在)=30 ),不論原來的總體是否服從正態(tài)分布,樣本值的抽樣分布都趨于正態(tài)分布,其分布的數(shù) 學(xué)朋望為總體均值P ,方差為總體方差的1/n,這就是中心極限定理,表述為:設(shè)從均值為“,方差為72的一個任意總體中 抽取容量為打的樣本,當(dāng)充分大時,樣本均值的抽樣分布近似服從均值為“、方差為的正態(tài)分布四、重復(fù)抽樣和不重復(fù)抽 樣相比,抽樣均值分布的標(biāo)準(zhǔn)差有何不同樣本均值的方差與抽樣方法有關(guān),在重復(fù)抽樣條件下,樣本均值的方差為總體方差的l/n ,即在不重復(fù)抽樣條件
27、斥,樣本均值的方差則需要用修正系數(shù)去修正重復(fù)抽樣時樣本均值的方差,即不重復(fù)抽樣的樣本均值的方差小于重復(fù)抽樣時的樣本均值的方差對于無限總體進(jìn)行不重復(fù)抽樣時,可以按照直復(fù)抽樣來處理,對于有限總體,當(dāng)N很大,而抽樣比n/N很小時,其修正系數(shù)趨于1,這時樣本均值的方差也可以按照重復(fù)抽樣的樣本均值的方差公式來計算 五、咒2分布的性質(zhì)和特點分布的變量值始終為正分布的形狀取決于其自由度n的大小,通常為不對稱的正偏分布,但隨看自由度的增大逐漸趨于對稱(3 )期望為:e(F)f,方差為:D(A)=2n(n為自由度)(4 )可加性:若和y為兩個獨立的F分布隨機變量,SF(rh),FS),則u+ y這一隨機變量服從
28、自由度為久+/A2的尸分第七章參數(shù)估計一、評價估計量的標(biāo)準(zhǔn)實際上,用于估計的0的估計量有很多,如我們可以用樣本均值作為總體均值的估計量,也可以用樣本中窗作為總體均值 的估計量,什么樣的估計量才算是一個好的估計量呢?這需要一定的評價標(biāo)準(zhǔn):1、無偏性:估計量抽樣分布的數(shù)學(xué)期望等于被估計的總體參數(shù)。設(shè)總體參數(shù)為&,被選ZVZVZV擇的估計量為&,如果E( & )= 0,稱&為&的無偏估計量。有效性:對同一總體參數(shù)的兩個無偏估計量,方差較小的是更有效的估計量。3、一致性:隨看樣本容量的增大,點估計量的值越來越接近被估的總體的參數(shù)。換言之,-個大樣本給出的估計量要比 一個 )瞬本給出的估計量更接近總體的
29、參數(shù)二、怎樣理解置信區(qū)間置信區(qū)間:由樣本統(tǒng)計量所構(gòu)造的總體參數(shù)的估計區(qū)間,其中區(qū)間的最小值稱為置信下限,區(qū)間最大值稱為置信上限。是一個隨機區(qū)間,-“的置信區(qū)間意味看,置信區(qū)間包含未知參數(shù)*1 _ fV的概率為,這個區(qū)間會隨著樣本觀察值的不同而不同。但(勺2 )個區(qū)間能包含參數(shù),也就是說大約還有100 a個區(qū)間不包含總體參數(shù)100次運用這個區(qū)間,約有100判斷置信區(qū)間優(yōu)勢的標(biāo)準(zhǔn)(好的置信區(qū)間的特性)/置信度越高越好;置信區(qū)間寬度越小越好。三、形響區(qū)間寬度的因素1-總體數(shù)據(jù)的離散程度,用s來測度樣本容量:當(dāng)信水平固定時,虞信區(qū)間的寬度隨S樣本容量的增大而減/,換言之,較大的樣本所提供的 有關(guān)總體的
30、信息要比5和n (1-p ) 5獨立樣本和匹配樣本如果兩個樣本是從兩個總體中獨立抽取的,即一個樣本中的元素與另一個樣本中的元素相互獨立,則稱為獨立樣本。匹 配樣本是指一個樣本中的數(shù)據(jù)與另一個樣本中的數(shù)據(jù)相對應(yīng)估計量和估計值估計量:用于估計總體參數(shù)的隨機變量如樣本均值,樣本比例、樣本方差等例如:樣本均值就是總體均值的一個估計量參數(shù)用&表示,估計量用e表示估計值:估計參數(shù)時計算出來的統(tǒng)計量的具體值如果樣本均值x=80,則80就是m的估計值第八章假設(shè)檢驗一、參數(shù)估計和假設(shè)檢驗的區(qū)別和聯(lián)系主要聯(lián)系:a 都是根據(jù)樣本信息推斷總體參數(shù);b 都以抽樣分布為理論依據(jù),建立在概率論基礎(chǔ)之上的推斷,推斷結(jié)果都有風(fēng)
31、險;c 對同一問題的參數(shù)進(jìn)行推斷,使用同一樣本,同一統(tǒng)計量,同一分布,二者可相互轉(zhuǎn)換主要區(qū)別:a 參數(shù)估計是以樣本信息估計總體參數(shù)的可能范圍,假設(shè)檢驗是先對總體參數(shù)提出一個假設(shè)值,然后?!用樣本信息 判斷這T段設(shè)是否成立;b 區(qū)間估計求得的是求以樣本估計值為中心的雙側(cè)置信區(qū)間,假設(shè)檢驗既有雙側(cè)檢驗,也有單側(cè)檢驗;c 區(qū)間估計立足于大概率,通常以較大的可信度(l-a )去估計總體參數(shù)的置信區(qū)間。假設(shè)檢驗立足于”概率。通常是 給定很小的顯著性水平a去檢驗總體參數(shù)的先驗假設(shè)是否正確二、什么是假設(shè)檢驗中的顯著性水平?統(tǒng)計顯著是什么意思?(1 )顯著性水平是當(dāng)原假設(shè)正確時卻被拒絕的概率或風(fēng)險,即假設(shè)檢驗
32、中犯棄真錯誤的概率,通常用a表示,它是人 們根據(jù)經(jīng)驗的要求確定的,通常取a = 0.05或0.01。顯著性水平是人們事先指定的犯第I類錯誤概率a的最大允許值, 確定了顯著性水平a ,就等于控制了第I類錯誤的概率。但犯第口類錯誤的概率B卻是不確定的(2)統(tǒng)計顯著值在原假設(shè)為真的條件下”用于檢驗的樣本統(tǒng)計量的值落在了拒絕域內(nèi)”作出了拒絕原假設(shè)的決定三、什 么是假設(shè)檢驗的兩類錯誤及其數(shù)理關(guān)系怎樣(1 )假設(shè)檢驗中所犯的錯誤有兩種:一類錯誤是原假設(shè)為真卻別拒絕了,犯這類錯誤的概率用a表示”也稱第I類錯 誤。另一類錯誤是原假設(shè)為假卻沒有拒絕,犯這種錯誤的概率用B表示,也稱第n類錯誤(2 )當(dāng)a增加時(3
33、減小,當(dāng)(3增大時a減小,要使a和(3同時減小的唯一辦法是增加樣本容量四、假設(shè)檢驗的步驟(1 )陳述原假設(shè)Ho和備擇假設(shè)H1。(2 )從所研究的總體中抽出一個隨機樣本確定一個適當(dāng)?shù)臋z驗統(tǒng)計量,并利用樣本數(shù)據(jù)算出其具體數(shù)值確定一個適當(dāng)?shù)娘@著性水平,并計算出其臨界值,指定拒絕域?qū)⒔y(tǒng)計量的值與臨界值進(jìn)行比較,作出決策。統(tǒng)計量的值落在拒絕域,拒絕Ho,否則不拒絕Ho,或者也可以直接 利用P值作出決策五、建立原假設(shè)和備擇假設(shè)的原則(建立假設(shè)的幾點認(rèn)識)(1 )原假設(shè)和備擇彳段設(shè)是一個完備事件組,且相互獨立(2 )在建立假設(shè)時,通常是先確定備擇假設(shè),然后再確定原假設(shè)(3 )在假設(shè)檢驗中,等號總是放在原假設(shè)
34、上。這是因為我們想涵蓋備擇假設(shè)H不出現(xiàn)的所有情況這樣的假設(shè)本質(zhì)上帶有一定的主觀色彩,在面對某一實際問題,由于不同研究者有不同的研究目的,即使對同一問 題也可能提出截然相反的原假設(shè)和備擇彳段設(shè),這并不違背假設(shè)的最初定義,只要符合研究的最終目的就是合理的六、單 雙側(cè)檢驗的區(qū)別備擇假設(shè)具有特定的方向性,并含有“ V或的假設(shè)檢驗,稱為單側(cè)檢驗或單尾檢驗。備擇假設(shè)沒有特定的方向性,并含有符號工的假設(shè)檢驗,稱為雙側(cè)檢驗或雙尾檢驗在單側(cè)檢驗中,由于研究者感興趣的方向不同,又可分為左側(cè)檢驗和右側(cè)檢驗七、檢驗統(tǒng)計量的特征和用途檢驗統(tǒng)計量是指根據(jù)樣本觀測結(jié)果計算得到的,并據(jù)以對原假設(shè)和備擇假設(shè)做出決策的某個樣本統(tǒng)
35、計量。檢驗統(tǒng)計量實際上是總體參數(shù)的點估計量,只有將其標(biāo)準(zhǔn)化后,才能用以度量它與原假設(shè)的參數(shù)值之間的差異程度。而對 點估計量標(biāo)準(zhǔn)化的依據(jù)則是:a、原假設(shè)Ho為真;b、點估計量的抽樣分布。實際上,假設(shè)檢驗中所用的檢驗統(tǒng)計量都是標(biāo) 準(zhǔn)化檢驗統(tǒng)計量,它反映了點估計量與假設(shè)的總體參數(shù)相差多少個標(biāo)準(zhǔn)差。八、拒絕域面積與a大小的關(guān)系當(dāng)樣本容量固定時,拒絕域的面積隨看a的減小而減小。a越小,拒絕原假設(shè)所需要的檢驗統(tǒng)計量的臨界值與原假設(shè)的參 數(shù)值就越遠(yuǎn)。拒絕域的位置取決于檢驗是單側(cè)檢驗還是雙側(cè)檢驗,雙側(cè)檢驗的拒絕域在抽樣分布的兩側(cè),而單側(cè)檢驗中,如 果備擇假設(shè)具有符號y,拒絕域位于抽樣分布的左側(cè),故稱為左側(cè)檢驗
36、。如果備擇假設(shè)具有符號7,拒絕域位于抽樣分布的 右側(cè),故稱為右側(cè)檢驗。九、顯著性水平a的局限性顯著性水平a實在檢驗之前確定的”這也就意味這我們事先確定了拒絕域。這樣”不論檢驗統(tǒng)計量的值是大還是小,只要 他的值落入拒絕域就拒絕原假設(shè),否則不拒絕原假。這種固定的顯著性水平a對檢驗結(jié)果的可靠性起一種度量作用。但不 足的是,a是犯第I類錯誤的上限控制值,它只能提供檢驗結(jié)論可靠性的一個大致范圍,而51寸于一個特定的假設(shè)檢驗問 題,卻無法給出觀測數(shù)據(jù)與原假設(shè)之間不一致程度的精確度量,也就是說,僅從顯著性水平t匕較,若選擇的a值相同”所 有的檢9僉結(jié)果的可靠性都一樣。十、P值較小時為什么要拒絕原假設(shè)P值是指
37、在原假設(shè)為真的條件下,檢驗統(tǒng)計量的觀察值大于或等于其計算值的概率。P值是反映實際觀測到的數(shù)據(jù)與原假設(shè)Ho之間不一致程度的一個概率值。P值越小,說明實際觀測到的數(shù)據(jù)與Ho 之間不一致的程度就越大,檢驗的結(jié)果也就越顯著十一、顯著性水平a與P值得區(qū)別(1 ) a的含義是當(dāng)原假設(shè)正確時卻被拒絕的概率或風(fēng)險,即假設(shè)檢驗中犯棄真錯誤的概率,是有人們根據(jù)檢驗的要求 確定的,通常a = 0.05或0.01而P值是原假設(shè)為真時所得到的樣本觀察結(jié)果或更極端結(jié)果出現(xiàn)的概率,它是通過計算得到的/值得大小取決于三個 因素:樣本數(shù)據(jù)與原假設(shè)之間的差異、樣本量、被假設(shè)數(shù)據(jù)的總體分布(2 ) a只能提供檢驗結(jié)論的可靠性地一個
38、大致范圍,而對于一個特定的假設(shè)檢驗為題,卻無法給出觀測數(shù)據(jù)與原假 設(shè)之間不一致程度的精確度量。即僅從顯著性水平來比較,如果選擇的a值相同,所有檢查結(jié)果的可靠性都一樣。而P值可以測量出樣本觀察數(shù)據(jù)與原假設(shè)中假設(shè)的值的偏離程度。十二、總體均值的檢驗在對總體均值進(jìn)行假設(shè)檢驗時,采用什么檢驗步驟和檢驗統(tǒng)計量取決于我們所抽取的樣本是大樣本(n 30 )還是小樣本 (nFa,則拒絕原假設(shè),反之不拒絕原假設(shè)八、解釋水平項誤差平方和與誤差平方和(1 )水平項誤差平方和,簡稱SSA .是各組平均值與總平均值的誤差平方和,反映各總體的樣本均值之間的差異程度,因此 又稱為組間平方和,其計算公式為(召”打=2?低-打
39、 1=1 ;=1 1=1(2 )誤差項平方和,簡稱為SSE,它是每個水平或組的各樣本數(shù)據(jù)與其組平均值誤差的平方和,反映了每個樣本個觀測 值的離散狀況,因此又稱為組內(nèi)平方和或殘差平方和.該平方和實際上反映的是隨機誤差的大小,其計算公式為/=1 y=i九、解釋組內(nèi)方差和組間方差的含義SSA的均方(組間均方)記為MSA,也稱組間方差,其計算公式為MSA = kMSE的均方(組內(nèi)均方)記為MSE,也稱組內(nèi)方差,其計算公式為M5= nk十、方差分析中效應(yīng)的意義SSA是對隨機誤差和系統(tǒng)誤差的大小的度量,它反映了自變量對因變量的影響,也稱自變量效應(yīng)或因子效應(yīng)。=1僅-寸=立&項SSAl=i )=11=1SS
40、E是對隨機誤差的大小的度量,它反映了除自變量對因變量的影響之外,其他因素對因變量的總影響,因此SSE也稱為殘差變量,它所弓I起的誤差也稱為殘差效應(yīng)。SSE = SSE = 氐玷)=1 7=1SST是全部數(shù)據(jù)總誤差程度的度量,它反映了自變量和殘差變量的共同影響,因此他等于自變量效勤口M施SST=(X. - =y(=1 =1SST= SSA + SSE十一、多重比較方法的作用:它是通過對總體均值之間的配對比較來進(jìn)一步檢驗到底哪些均值之間存在差異。十二、交互作用:是一因素對另一因素的不同水平有不同的效果,如對于雙因素方差分析,有交互作用就是兩個因素搭配在一起,對應(yīng) 變量產(chǎn)生的一種新的效應(yīng)。十三、解釋
41、無交互作用和有交互作用的雙因素方差分析在雙因素方差分析中,由于有兩個影響因素,若這兩個因素是相互獨立的,我們分別判斷這兩個因素對因變量的影響,這 時的雙因素方差分析稱為無交互作用的雙因素方差分析,或稱為無重復(fù)因素分析。如果出了兩個因素的單獨影響外,兩因素 的搭配還會對因變量產(chǎn)生一種新的效應(yīng),這時的雙因素方差分析就是有交互作用的雙因素方差分析。十四、R2的含義和作用(1 )單因素方差分析中,表示自變量平方和(S列及殘差平方和占總平方和(SS7)的比例大小,其平方根/?就可以用來測量兩 個變量之間的關(guān)系強度r2_SSA( 組間平方和)一 SST(總平方和)(2 )無交互作用的雙因素方差分析中,行自
42、變量平方(SSR )和和列自變量的平方和(SSC)加在一起則度量了兩個自變量對 因變量的聯(lián)合效應(yīng),聯(lián)合效應(yīng)與總平方和的比值定義為,其平方根R反映了這兩個自變量合起來與因變量之間的關(guān)系強度空辿Z SSR + SSC總效應(yīng)SST 3 )有交互作用的方差分析:憶=SSR+# SSRC十四、為什么雙因素方差分析中,誤差平方和與P值明顯小于單因素方差分析中的任何一個平方和?是因為在雙因素方差分析中,誤差平方和不包括兩個自變量中的田可f,因而減少了殘差效應(yīng)。而在分別作單因素方差分 析時,將行因素作為自變量時,列變量被包含在殘差中,同樣,將列因素作為自變量是,行變量被包含在殘差中。因此,對于兩 個自變量而言
43、,進(jìn)行雙因素方差分析要優(yōu)于分別對兩個因素進(jìn)行單因素方差分析十五、完全隨機化設(shè)計、隨機化區(qū)組設(shè)計、因子設(shè)計(1 )完全隨機化設(shè)計指”處理”被隨機地才旨派給試驗單元的一種設(shè)計、對完全隨機化設(shè)計的數(shù)據(jù)采 用單因素方差分析隨機化區(qū)組設(shè)計是指先按一定規(guī)則將試驗單元劃分為若干同質(zhì)組,稱為”區(qū)組。分組后再將每個品種(處理)隨機地指 派給每一個區(qū)組的設(shè)計就是隨機,化區(qū)組設(shè)計。試驗數(shù)據(jù)采用差分析(3 )因子設(shè)計指考慮兩個因素(可推廣到多個因素)的搭配試驗設(shè)計稱為因子設(shè)計。該設(shè)計主要用于分析兩個因素及其 交互作用對試驗結(jié)果的影響。試驗數(shù)據(jù)采用可程舷弦軸第十章一元線性回歸一、簡述相關(guān)系數(shù)的性質(zhì)相關(guān)系數(shù)是指根據(jù)數(shù)據(jù)計
44、算的對兩個變量之間線性關(guān)系強度的度量值。若相關(guān)系數(shù)是根據(jù)總體全部數(shù)據(jù)計算的,稱為總 體相關(guān)系數(shù),i己為P ;若是根據(jù)樣本數(shù)據(jù)計算的,則稱為樣本相關(guān)系數(shù),記為廠,樣本相關(guān)系數(shù)的計算公式r = 腿:r的取值范圍是卜:U; 為完全相關(guān)表明X與y之間為完全正線性相關(guān)關(guān)系,/=7,表明X與y之間為完全負(fù)線性相關(guān)關(guān)系;/ = 0,表明X與y之間不存在線性相關(guān)關(guān)系相關(guān),-1/*0,表明X與y 之間為負(fù)線性相關(guān),。冬1,表明X與y之間為正線性相關(guān),S越趨于1表示關(guān)系越密切;M越趨于0表示關(guān)系越不密切r具有對稱性,X與y之間的相關(guān)系數(shù)次田和y和x之間的相關(guān)系數(shù)相等,即次田=伉r的大小與X和y的原點及尺度無關(guān)。改
45、變X和y的數(shù)據(jù)原點和計量尺度,并不改變r的大小(4 ) r僅僅是X和y之間的線性關(guān)系的度量,不用于描述非線性關(guān)系,這意味看,=0指標(biāo)是兩個變量之間不存在線性相關(guān) 關(guān)系,但并說明變量之間沒有任何關(guān)系,如可能存在非線性相關(guān)關(guān)系。變量之間的非線性相關(guān)程度較大時,就可能會導(dǎo)致 =0.因此當(dāng)=0或很小時,不能輕易得出兩個變量之間不存在相關(guān)關(guān)系的結(jié)論,而應(yīng)結(jié)合散點圖作出合理的解釋。5)r雖是兩變量之間線性關(guān)系的度量,卻并不意味看X和y之間一定有因果關(guān)系。二、利用相關(guān)關(guān)系如何判窗斤變量之間相關(guān)的方向和相關(guān)的密切程度?(l)r的取值范圍是卜:U;為完全相關(guān),=1,表明X與y之間為完全正線性相關(guān)關(guān)系,明X與y之
46、間為完全負(fù)線性相關(guān)關(guān)系;/ = 0,表明X與y之間不存在刪相關(guān)關(guān)系相關(guān),-lr0,表明X與y 之間為負(fù)線性相關(guān),0/-1 .羲明X與y之間為正線性相關(guān)。(2)根據(jù)實際數(shù)據(jù)計算出的r, M越趨于1表示關(guān)系越密切;M越趨于0表示關(guān)系越不密切。相關(guān)程度分為以下幾種 情況:當(dāng)lzlN.8時,可視為高度相關(guān);0.5|/)0.8時,可視為中度相關(guān);當(dāng)0.3M0.5時,視為低度相關(guān);S0.3時,說明 兩變量之間的相關(guān)程度極弱,可視為不線性相關(guān)。但這種解釋必須建立在對相關(guān)系數(shù)的顯著性進(jìn)行檢驗的基百出之上三、為什么對相關(guān)系數(shù)進(jìn)行顯著性檢驗?一般情況下,總體相關(guān)系數(shù)P是未知的,我們通常是根據(jù)樣本相關(guān)系數(shù)r作為P的
47、近似估計值。但由于r是根據(jù)樣本數(shù) 據(jù)計算出來的,他受至腫樣波動的影響。由于抽取的樣本不同,r的取值也不同,因此r是一個隨機變量。能否根據(jù)樣本相 關(guān)系數(shù)說明總體的相關(guān)程度?這就需要考察樣本相關(guān)系數(shù)的可靠性,即進(jìn)行顯著性檢驗。四、樣本容量對r的影響及r與P的關(guān)系當(dāng)樣本數(shù)據(jù)來自正態(tài)總體時,隨看n的增大,r的抽樣分布趨于正態(tài)分布,尤其是在總體相關(guān)系數(shù)P更小或接近0時,趨于 正態(tài)分布的趨勢肅E常明顯,而當(dāng)P遠(yuǎn)離0時,除非n非常大,否則r的抽樣分布呈現(xiàn)一定的偏態(tài)。因為當(dāng)r是圍繞P的 周圍分布的,當(dāng)P的數(shù)值接近1或-i時,如p=0.96時,兩個方向變化的全距不等,因此r的抽樣分布也不可能對稱。但當(dāng) p=0時
48、,兩個方向的變化的全距接近相等,所以r的抽樣分布就接近對稱了??傊?dāng)P為較大的正值時,r呈現(xiàn)左偏分布; 當(dāng)P為較小的負(fù)值時,r呈現(xiàn)右偏分布。只有當(dāng)戍近0,而樣本容量n很大時,才能認(rèn)為r是接近于正態(tài)分布的隨機變量。五、r的顯著性檢驗的步驟提出假設(shè):盡:p=0 ; M : qhO計算檢驗的統(tǒng)計量F =心-2)進(jìn)行決策。確定顯著性水平Ct,并作出決策。若拒絕盡,表明總體的兩個變量之間存在顯善的線性關(guān)系;若不拒絕 Zi六、概述相關(guān)分析和回歸分析的區(qū)別和聯(lián)系聯(lián)系:兩者都是研犧E確定性變量間的統(tǒng)計依賴關(guān)系,并能測度線性依賴程度的大小。他們有共同的研究對象,都是 對變量間的相關(guān)關(guān)系的分析,二者可以相互補充
49、,相關(guān)分析可以表明變量間的相關(guān)關(guān)系的性質(zhì)和程度,只有當(dāng)變量間存在相 當(dāng)程度的相關(guān)分析時,進(jìn)行回歸分析,尋求變量間相關(guān)的具體數(shù)學(xué)形式才有意義。同時,在相關(guān)分析時,如果要具體確定變量 間相關(guān)的具體數(shù)學(xué)形式,又要依賴于回歸分析,而且在多個變量的相關(guān)分析中,相關(guān)系數(shù)的確定也是建立在回歸分析的基礎(chǔ)上 的。(2 )區(qū)別:a.相關(guān)分析中變量的地位在相關(guān)分析中是對稱的,不考慮二者的因果關(guān)系,而且都是隨機變量;回歸分析 中變量的地彳立是不對稱的,有自變量和因變量之分,而且自變量也往往被假設(shè)為非隨機變量。b、相關(guān)分析只關(guān)注變量間 的聯(lián)系程度,不關(guān)注具體的依賴關(guān)系;而回歸分析則更加關(guān)注變量間的具體依賴關(guān)系。G從研究
50、的目的上看,相關(guān)分析時用 一定的數(shù)榭旨標(biāo)(相關(guān)系數(shù))度量相互聯(lián)系的方向和程度;而回歸分析卻是尋求變量間聯(lián)系的具體數(shù)學(xué)形式,是要根據(jù)自變量 的固定值去估計和預(yù)測因變*的平均值。七.回歸分析主要解決的問題:從一組數(shù)據(jù)出發(fā)確定出變量之間的數(shù)學(xué)關(guān)系式對這些關(guān)系是的可信程度進(jìn)行各種統(tǒng)計檢驗,并不影響某一特定變量的諸多變量中找出哪些變*的影響星顯著的, 哪些是不顯善的利用所求的關(guān)系式,根據(jù)一個或幾個變量的取值來估計或預(yù)測另一個特定變量的取值,并給出這種估計或預(yù)測的置 信度八、一元線性回歸模型的基本假定(1)誤差項是一個期望值為0的隨機變量,即(e)=0.對于f給定的*值,F(xiàn)的期望值為E(X)=0。+巨1X
51、(2 )對于所有的X值,歲的方差7A都相同誤差項是一個服從正態(tài)分布的隨機變量且相互獨立。即0 e)獨立性意味S對于一個特定的*值,它所對應(yīng)的與 其他*值所對應(yīng)的f不相關(guān)。因此,對于f特定的X值,它所對應(yīng)的y值與其他X所對應(yīng)的y值也不相關(guān)因變量y與自變量X之間具有線性關(guān)系在重復(fù)抽樣中,自變量X的取值是固定的即假定X是非隨機的注:前三項也即在回歸分析中的誤差序列C的基本假定九.參數(shù)的最小二乘估計的基本原理對于第i個X值,估計的回歸方程可表示為:對于X和y的n對觀察值,用于描述其關(guān)系的直線有多條,究竟用哪條直線來代表兩個變量之間的關(guān)系,需要有一個明 確的原則。我們自然會想到距離各觀測點最近的一條直線
52、,用最小化觀察值與估計值的離差平方和來估計參數(shù)和Q1的方法 稱為最小二乘法,是使得因變量的觀察值與估計值之間a 八 的離差平方和達(dá)到最小來求得嘰 和01的方法。十、回歸分析中模型參數(shù)的最小二乘估計么)和01具有哪些統(tǒng)計特性?若參數(shù)用于預(yù)測,影響預(yù)測精度的因素有哪些?(1)統(tǒng)計特性:1線性.即估計量Qo和p 為隨機變量的y的線性函數(shù)八Ab、無偏性,Qo和分別是Qo和的無偏估計a八C、有效性,Qo和01是所有線性無偏估計量中具有最小方差的估計量(2)影響預(yù)測精度的因素:a、預(yù)測的信度要求,同樣的情況下,要求預(yù)測的把握度越高,則相應(yīng)的預(yù)測區(qū)間就越寬,精度 就越低b總體y分布的離散程度正。*越大,預(yù)測
53、區(qū)間越寬,預(yù)測精度越低、c樣本觀測點的多少n. n越大,預(yù)測區(qū)間越窄,預(yù)測精度越高。、d樣本觀測點中,解釋變量X分布的離散程度,X分布越分散,越策精度越高、e 預(yù)測點Xo離樣本分布中心的距離。距離越遠(yuǎn),預(yù)測區(qū)間越寬,預(yù)測精度越低,反之越高。、十一、解釋總平方和SST、回歸平方和SSR、殘差平方和SSE的含義,并說明它們之間的關(guān)系用實際觀測值y與其均窗的離差平方和表示總平方和(SS7).反映因變量的打個觀察值與其均值的總離差回歸平方和(SSQ是回歸值5與均值y的離差平方和,反映是由于*與y之間的線性關(guān)系引起的F的取值變化部分, 它是可以由回歸直線來解釋的y的變差部分殘差平方和曲是各實際觀測點與回
54、歸值的殘差y于的平方和,反映除”以外的其他因素對X變差的作用,也稱為不可 由回歸直線來解釋的y變差部分三個平方和的關(guān)系為:sst=ssr+sse十二、判定系數(shù)R2的含義和作用(1 )判定系數(shù)R2指回歸平方和占總離差平方和的比例,公式為R-=R-=上 1CCT* /I=1 -上!-flr-lJ-Ir-l(2 )反映回歸直線對觀測換的擬合程度 (3 )如果所有觀測點都落在直線上,殘差平方和SSE=O , R2=1 ,擬合是完全的;如果y的變化與X無關(guān),X無助于解釋y的變差,此時滬y,則r2=0可見,r2的取值范圍在0,1之間(4 ),說明回歸平方和占總平方和的比例越大,回歸直線與各觀測點越接近.用
55、X的變化(4 )來解釋y值變差的部分就越多,回歸方程擬合的越好;3。.說明回歸方程擬合的越差(5 )判定系數(shù)等于相關(guān)系數(shù)的平方,即Z? = (z)2十三、回歸分析結(jié)果的評價所估計的回歸系數(shù)的符號與事先預(yù)期的一 St。(2 )如果理論認(rèn)為y與X之間的關(guān)系不僅是正的,而且是統(tǒng)計上顯著的,那么所建立的回歸方程也應(yīng)該如此。回歸模型在多大程度上解釋了因變量y取值的差異?可用判定系數(shù)來回答考察關(guān)系誤差項的正態(tài)性假定是否成立,因為在對線性關(guān)系進(jìn)行F檢驗和對回歸系數(shù)進(jìn)行t檢驗時.都要求誤差 項月副正太分布,否則,所用的檢驗程度將是無效的,檢驗正態(tài)性的簡單方法是畫出殘差直方圖。十四、估計標(biāo)準(zhǔn)誤差估計標(biāo)準(zhǔn)誤差是才
56、旨均方殘差(MSE )的平方根。估計標(biāo)準(zhǔn)誤差是對各觀察點在言主周圍分散程度的一個度量值,它是對 誤差項E的標(biāo)準(zhǔn)辱的估計計算公式為SSE估計標(biāo)準(zhǔn)誤差Sy可以看做是在排除了 X對y的線性影響后,y隨機波動大小的一個估計量。從估計標(biāo)準(zhǔn)誤差的實際 意義看,它反映了用估計的回歸方差預(yù)測因變量y時預(yù)測誤差的大小。若各觀測點越靠近直線,Sy越小,回歸直線對各觀測 點的代裘性就越好,根據(jù)估計的回歸方程進(jìn)行預(yù)測也就越準(zhǔn)確;若各觀測點全部落在直線上則Sy=O。此時用自變量來預(yù)測 因變量時是沒有誤差的?;貧w直線是對n個觀測點擬合的所有直線中,估計標(biāo)準(zhǔn)誤差最小的F直線。十五、回歸分析中,F(xiàn)檢驗和t檢驗各有什么作用一元
57、回歸中,F(xiàn)檢驗的作用:線性關(guān)系的檢驗是檢驗自變量X和因變量y之間的線性關(guān)系是否顯著,或者說, 他們之間能否用f線性模型y = Po+PiX + 來表示。t檢驗的作用:回歸系數(shù)的顯善性檢驗是要檢驗自變量對因變量的影 響是否顯著的問題。(2 ) 一元線性回歸中,自變量只有f , F檢驗和t檢驗是等價的,也就是說.如果Ho :仇=0被t檢驗拒絕,他也將被F 檢驗拒絕。但在多元回歸分析中,這兩種檢驗的意義是不同的,F(xiàn)檢驗只是用來檢驗總體回歸系數(shù)的顯著性,而t檢驗則是 檢驗各個回歸系數(shù)的顯著性十六、線性關(guān)系的檢驗步驟和回歸系數(shù)的檢驗步驟線性關(guān)系的檢驗步驟:第一步:提出假設(shè),hh : 尸0線性關(guān)系不顯著第
58、二步:計算檢驗統(tǒng)*尸*=時珂2M 第三步:作出決策:確定顯著性水平-并根據(jù)分子自由度1和分母自由度n-2找出臨界值F若&甩拒絕hk -若尺 甩不拒絕AG(2 )回歸系數(shù)的檢驗步驟:第一步:提出假設(shè)冷Z?i=O(沒有線性關(guān)系)切:4*0(有線性關(guān)系)A第二步:計算檢驗的統(tǒng)計量=第三步:確定顯著性水平a,并進(jìn)行決策 I /拒絕&; I 9不拒絕十七、置信區(qū)間和預(yù)測區(qū)間的含義?二者的區(qū)別1) a信區(qū)間指?!)用估計的回歸方程,對于自變量X的一個給定值A(chǔ)b ,求出因變量y的平均值的 估計區(qū)間(confidence interval) E(g-a置信水平麗信區(qū)間為 Z卡越(2 )預(yù)測區(qū)間瘙1用估計的回歸
59、方程.對于自變量X的一個給定值xo,求出因變量y的一個個別值的估計區(qū)間 (prediction interval)力在水平下的預(yù)測區(qū)間為W 2)1 + 7+(片一才二者的區(qū)別:重信區(qū)間估計是求y的平均值的估計區(qū)間,而預(yù)測區(qū)間的估計是求y的一個個別值的區(qū)間估計;對 同f 0,這兩個區(qū)間的寬度也是不一樣的。預(yù)測區(qū)間要比信區(qū)間寬一些。十八、殘差分析的作用:(1 )用于判斷有關(guān)模型的假定是否成立如誤差項的假定是否成立)用于分析回歸中的異常值和對模型有影響的觀測值十九.彩響區(qū)間寬度的因素(1 )童信水平(19 ),區(qū)間竟度隨信水平的增大而增大。(2 )割g的離散程度(S ),區(qū)間寬度隨S的增大而增大樣本
60、容量,區(qū)間寬度隨樣本容量的增大而減小(4 )用于預(yù)測的心與S的差異程度,區(qū)間竟度隨X0與S的差異程度的增大而增大第十一章多元線性回歸一、解釋多元線性回歸模型、回歸方程、和估計的多元回歸方程的含義(1 )多元線性回歸模型:描述因變量y如何依賴于自變量X2, , Ai,和誤差項的方程,稱為多元回歸模型。涉及Q個自變量的多元回歸模型可表示為y=Po +P1 X1 + p 2*2 + +PpXp+-其中邛。、久、P 若模型中存在序列相關(guān)時,解決的方法有:如果誤差項e不是相互獨立的,則說明回歸模型存在序列相關(guān)性,這 時首先要查明序列相關(guān)產(chǎn)生的原因,如果是回歸模型選用不當(dāng)若模型中存在序列相關(guān)時,解決的方法
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 智能家居安全系統(tǒng)安裝協(xié)議
- 的股權(quán)轉(zhuǎn)讓合同書
- 節(jié)能環(huán)保設(shè)施采購與運營協(xié)議
- 農(nóng)民合作種養(yǎng)殖技術(shù)支持合同
- 詳細(xì)收入及年終獎金津補貼證明(7篇)
- 行政管理市政學(xué)知識更新試題及答案
- 在建筑工程中提升競爭力試題及答案
- 行政管理的組織變革試題及答案
- 現(xiàn)代管理中的實施策略與執(zhí)行力考查試題及答案
- 科技助力市政管理試題及答案
- CJ/T 156-2001 溝槽式管接頭
- 黑龍江省齊齊哈爾市五縣聯(lián)考2023-2024學(xué)年七年級下學(xué)期期末數(shù)學(xué)試題
- CJJT81-2013 城鎮(zhèn)供熱直埋熱水管道技術(shù)規(guī)程
- 留置導(dǎo)尿法操作評分標(biāo)準(zhǔn)
- 圖集04S206自動噴水與水噴霧滅火設(shè)施安裝
- IQC來料不合格品處理流程管理規(guī)定
- 2023年拍賣師考試真題模擬匯編(共469題)
- MOOC 引領(lǐng)世界的中國乒乓-西南交通大學(xué) 中國大學(xué)慕課答案
- 低碳示范區(qū)評價技術(shù)規(guī)范低碳景區(qū)
- 語法填空謂語和非謂語動詞解題技巧課件(共16張)
- 人教版七年級上冊數(shù)學(xué)《整式的加減》單元作業(yè)設(shè)計
評論
0/150
提交評論