




版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
在初等統計學中,最基本的概念是什么?如:總體,樣本,隨機變量,分布,估計和假設檢驗等.其很大一部分內容是和正態理論相關的。在那里,總體的分布形式或分布族往往是給定的或者是假定了的,所不知道的僅僅是一些參數的值或他們的范圍。(主要工作是什么?)
第一章緒論
§1.1非參數統計在初等統計學中,最基本的概念是什么?1然而,在實際生活中,那種對總體的分布的假定并不是能隨便做出的。數據并不是來自所假定分布的總體;或者,數據根本不是來自一個總體;還有可能,數據因為種種原因被嚴重污染。這樣,在假定總體分布的情況下進行推斷的做法就可能產生錯誤的結論。于是,人們希望在不假定總體分布的情況下,盡量從數據本身來獲得所需要的信息。這就是非參數統計的宗旨。然而,在實際生活中,那種對總體的分布的假定并不是能隨便做出的2因為非參數統計方法不利用關于總體分布的知識,所以,就是在對于總體分布的任何知識都沒有的情況下,它也能很容易而又很可靠地獲得結論。這時,非參數方法往往優于參數方法。在不知總體分布的情況下如何利用數據所包含的信息呢?一組數據的最基本的信息就是次序。如果可以把數據點按大小次序排隊,每一個具體數目都有它的在整個數據中(從最小的數起)的位置或次序,稱為該數據的秩(rank)。數據有多少個觀察值,就有多少個秩。在一定的假定下,這些秩和它們的統計量的分布是求得出來的,而且和原來的總體分布無關。這樣就可以進行所需要的統計推斷。因為非參數統計方法不利用關于總體分布的知識,所以,就是在對于3注意:非參數統計的名字中的“非參數(nonparametric)”意味著其方法不涉及描述總體分布的有關參數;它被稱為和分布無關(distribution—free),是因為其推斷方法和總體分布無關;不應理解為與所有分布(例如有關秩的分布)無關.什么是非參數統計?不假定總體分布的具體形式,從數據本身獲得所需要的信息,通過推斷方法得到相關結論的一種分析方法。注意:非參數統計的名字中的“非參數(nonparametri4一個典型的參數檢驗過程1.總體參數Example:PopulationMean2.假定數據的形態為
WholeNumbersorFractions
Example:HeightinInches(72,60.5,54.7)3.有很強的假定Example:正態分布,F分布4.例子:ZTest,tTest,2Test一個典型的參數檢驗過程1.總體參數5一個例子:對兩組學生進行語法測試,如何比較兩組學生的成績是否存在差異?甲乙25302934242513322430323744332284731403033351821352822一個例子:對兩組學生進行語法測試,如何比較兩組學生的成績是否6原始數據秩2530293424251332243032379.514.012.021.07.59.52.017.57.514.017.524.04433228473140303335182135282226.019.55.51.027.016.025.014.019.522.53.04.022.511.05.5原始數據秩259.54426.07非參數檢驗過程1.不涉及總體的分布Example:ProbabilityDistributions,Independence2.數據的形態各異定量數據定序數據Example:Good-Better-Best名義數據Example:Male-Female3.例子:WilcoxonRankSumTest/RunTestF,F,F,F,F,F,F,F,M,M,M,M,M,M,MF,M,F,M,F,M,F,M,F,M,F,M,F,M,F非參數檢驗過程1.不涉及總體的分布F,F,F,F,F8參數統計與非參數統計的比較問題:一種統計方法是否比其它方法更好,通常要從幾個方面來考慮。有效性或效率(efficiency)。在其他條件相同情況下,一種方法需要的樣本容量越小,則效率越高,通常用二者的樣本容量比值來度量相對效率。在假設檢驗中,樣本均值是檢驗總體均值的一個好的檢驗統計量,它對總體均值的不同十分敏感,但是的分布取決于總體的分布,而這通常是未知的。參數統計與非參數統計的比較問題:9穩健性(robust)。如果一種方法背后的某個假設條件不成立,但它還是近似有效的,則可認為這一方法對這一條件是穩健的。通常來說,穩健是指基于正態假設的方法(即使潛在的總體分布是非正態的)檢驗統計量也有近似相同的零分布。比如單樣本的t檢驗,當樣本容量很大時,對于正態假設是穩健的。沒有一個總體是精確的服從正態分布或其他已知分布,如果總體是近似正態分布的,那么基于正態分布來進行推斷是安全的,反之,我們就要考慮非參數方法。穩健性(robust)。如果一種方法背后的某個假設條件不成立10t檢驗這一方法是穩健的,當總體是非正態分布時,它是否象正態分布一樣有效?一種方法固然應該是穩健的,更應該是有效的。相合性或漸進性(consistent),多數參數檢驗對于非正態分布條件是穩健的,相合的,即隨著樣本容量的增加,方法將更為穩健,對于無限樣本而言,方法是精確的且不依賴于總體分布。t檢驗這一方法是穩健的,當總體是非正態分布時,它是否象正態分11對總體假定較少,有廣泛的適用性,結果穩定性較好。1.假定較少2.不需要對總體參數的假定3.與參數結果接近針對幾乎所有類型的數據形態。容易計算在計算機盛行之前就已經發展起來。非參數檢驗的優點對總體假定較少,有廣泛的適用性,結果穩定性較好。非參數檢驗的121. 可能會浪費一些信息特別當數據可以使用參數模型的時候。2. 大樣本手算相當麻煩3. 一些表不易得到非參數檢驗的弱點因此我們實際上給出了一個沒有實際意義的結果:沒有一種方法是萬能的。1. 可能會浪費一些信息非參數檢驗的弱點因此我們實際上給出了13本學期內容結構體系本學期內容結構體系14非參數統計的主要內容內容非參數檢驗相應的參數檢驗獨立樣本中位數檢驗秩和檢驗獨立樣本t檢驗2配對樣本/單一樣本符號檢驗Wilcoxon檢驗成對樣本t-檢驗>2獨立樣本Kruskal-Wallis檢驗單一因素ANOVA兩因素Friedman檢驗雙因素ANOVA相關性檢驗Spearman秩相關Pearson相關性檢驗分布的檢驗Kolmogorov-Smirnov非參數統計的主要內容內容非參數檢驗相應的參數檢驗獨立樣本中位15§1.2順序統計量,秩和線性秩統計量
一、順序統計量因為非參數方法通常并不假定總體分布。因此,觀測值的順序及性質則作為研究的對象。順序統計量:對于樣本X1,X2,X3,…,Xn,如果按照升冪排列,得到稱為第k個順序統計量。§1.2順序統計量,秩和線性秩統計量一、順序統計量稱162、基于順序統計量的統計量中位數極差3、順序統計量分布函數設總體的分布函數F(X),則第r個順序統計量的分布函數為2、基于順序統計量的統計量中位數極差3、順序統計量分布函數17(4)順序統計量密度函數(如果分布密度存在)(4)順序統計量密度函數(如果分布密度存在)18同樣我們可以得到順序統計量X(r)和X(s)的聯合密度函數為:特別地,極差的分布函數為:同樣我們可以得到順序統計量X(r)和X(s)的聯合密度函數19分位數對于離散數據,給定n個值X1,…,Xn,則p分位數定義為為:定義(連續分布)分位數對于離散數據,給定n個值X1,…,Xn,則p分位數定義20二、秩統計量1、秩統計量設X1,X2,X3,…,Xn來自總體的樣本,記Ri為樣本點Xi的秩,即樣本中小于或等于Xi的樣本點的個數,即其中
例如:觀測值5.61.42.75.22.64.82.3秩7146352顯然,X(Ri)=X(i),記R=(R1,R2,…,Rn),稱R為由樣本產生的統計量,也稱秩統計量二、秩統計量其中例如:觀測值5.61.42.75.22.21注:有結點數據(重復數據)的秩定義:設X1,X2,X3,…,Xn來自總體的簡單隨機樣本,將數據排序后,相同的數據點形成一個結,重復數據的個數為結長。此時秩定義為對應秩(無重復數據時)的平均數。如:85,87,87,92,83,83,83,95,結為多少?結長為多少?對應秩?答案:5個結,結長為1,2,1,3,1,對應秩為4,5.5,5.5,7,1,2,3,8注:有結點數據(重復數據)的秩定義:設X1,X2,X3,…,222、秩統計量的分布和數字特征●
的聯合分布為:
●
的概率分布為:
●
的數學期望:●
的方差:●的協方差:特別地2、秩統計量的分布和數字特征●的概率分布為:23作業:1,了解非參數統計的歷史(查閱相關文獻)2,熟悉R作業:1,了解非參數統計的歷史(查閱相關文獻)24參考書:非參數統計 吳喜之編著 中國統計出版社實用非參數統計(第三版)[美]W.J.Conover崔恒建譯人民郵電出版社參考書:非參數統計25在初等統計學中,最基本的概念是什么?如:總體,樣本,隨機變量,分布,估計和假設檢驗等.其很大一部分內容是和正態理論相關的。在那里,總體的分布形式或分布族往往是給定的或者是假定了的,所不知道的僅僅是一些參數的值或他們的范圍。(主要工作是什么?)
第一章緒論
§1.1非參數統計在初等統計學中,最基本的概念是什么?26然而,在實際生活中,那種對總體的分布的假定并不是能隨便做出的。數據并不是來自所假定分布的總體;或者,數據根本不是來自一個總體;還有可能,數據因為種種原因被嚴重污染。這樣,在假定總體分布的情況下進行推斷的做法就可能產生錯誤的結論。于是,人們希望在不假定總體分布的情況下,盡量從數據本身來獲得所需要的信息。這就是非參數統計的宗旨。然而,在實際生活中,那種對總體的分布的假定并不是能隨便做出的27因為非參數統計方法不利用關于總體分布的知識,所以,就是在對于總體分布的任何知識都沒有的情況下,它也能很容易而又很可靠地獲得結論。這時,非參數方法往往優于參數方法。在不知總體分布的情況下如何利用數據所包含的信息呢?一組數據的最基本的信息就是次序。如果可以把數據點按大小次序排隊,每一個具體數目都有它的在整個數據中(從最小的數起)的位置或次序,稱為該數據的秩(rank)。數據有多少個觀察值,就有多少個秩。在一定的假定下,這些秩和它們的統計量的分布是求得出來的,而且和原來的總體分布無關。這樣就可以進行所需要的統計推斷。因為非參數統計方法不利用關于總體分布的知識,所以,就是在對于28注意:非參數統計的名字中的“非參數(nonparametric)”意味著其方法不涉及描述總體分布的有關參數;它被稱為和分布無關(distribution—free),是因為其推斷方法和總體分布無關;不應理解為與所有分布(例如有關秩的分布)無關.什么是非參數統計?不假定總體分布的具體形式,從數據本身獲得所需要的信息,通過推斷方法得到相關結論的一種分析方法。注意:非參數統計的名字中的“非參數(nonparametri29一個典型的參數檢驗過程1.總體參數Example:PopulationMean2.假定數據的形態為
WholeNumbersorFractions
Example:HeightinInches(72,60.5,54.7)3.有很強的假定Example:正態分布,F分布4.例子:ZTest,tTest,2Test一個典型的參數檢驗過程1.總體參數30一個例子:對兩組學生進行語法測試,如何比較兩組學生的成績是否存在差異?甲乙25302934242513322430323744332284731403033351821352822一個例子:對兩組學生進行語法測試,如何比較兩組學生的成績是否31原始數據秩2530293424251332243032379.514.012.021.07.59.52.017.57.514.017.524.04433228473140303335182135282226.019.55.51.027.016.025.014.019.522.53.04.022.511.05.5原始數據秩259.54426.032非參數檢驗過程1.不涉及總體的分布Example:ProbabilityDistributions,Independence2.數據的形態各異定量數據定序數據Example:Good-Better-Best名義數據Example:Male-Female3.例子:WilcoxonRankSumTest/RunTestF,F,F,F,F,F,F,F,M,M,M,M,M,M,MF,M,F,M,F,M,F,M,F,M,F,M,F,M,F非參數檢驗過程1.不涉及總體的分布F,F,F,F,F33參數統計與非參數統計的比較問題:一種統計方法是否比其它方法更好,通常要從幾個方面來考慮。有效性或效率(efficiency)。在其他條件相同情況下,一種方法需要的樣本容量越小,則效率越高,通常用二者的樣本容量比值來度量相對效率。在假設檢驗中,樣本均值是檢驗總體均值的一個好的檢驗統計量,它對總體均值的不同十分敏感,但是的分布取決于總體的分布,而這通常是未知的。參數統計與非參數統計的比較問題:34穩健性(robust)。如果一種方法背后的某個假設條件不成立,但它還是近似有效的,則可認為這一方法對這一條件是穩健的。通常來說,穩健是指基于正態假設的方法(即使潛在的總體分布是非正態的)檢驗統計量也有近似相同的零分布。比如單樣本的t檢驗,當樣本容量很大時,對于正態假設是穩健的。沒有一個總體是精確的服從正態分布或其他已知分布,如果總體是近似正態分布的,那么基于正態分布來進行推斷是安全的,反之,我們就要考慮非參數方法。穩健性(robust)。如果一種方法背后的某個假設條件不成立35t檢驗這一方法是穩健的,當總體是非正態分布時,它是否象正態分布一樣有效?一種方法固然應該是穩健的,更應該是有效的。相合性或漸進性(consistent),多數參數檢驗對于非正態分布條件是穩健的,相合的,即隨著樣本容量的增加,方法將更為穩健,對于無限樣本而言,方法是精確的且不依賴于總體分布。t檢驗這一方法是穩健的,當總體是非正態分布時,它是否象正態分36對總體假定較少,有廣泛的適用性,結果穩定性較好。1.假定較少2.不需要對總體參數的假定3.與參數結果接近針對幾乎所有類型的數據形態。容易計算在計算機盛行之前就已經發展起來。非參數檢驗的優點對總體假定較少,有廣泛的適用性,結果穩定性較好。非參數檢驗的371. 可能會浪費一些信息特別當數據可以使用參數模型的時候。2. 大樣本手算相當麻煩3. 一些表不易得到非參數檢驗的弱點因此我們實際上給出了一個沒有實際意義的結果:沒有一種方法是萬能的。1. 可能會浪費一些信息非參數檢驗的弱點因此我們實際上給出了38本學期內容結構體系本學期內容結構體系39非參數統計的主要內容內容非參數檢驗相應的參數檢驗獨立樣本中位數檢驗秩和檢驗獨立樣本t檢驗2配對樣本/單一樣本符號檢驗Wilcoxon檢驗成對樣本t-檢驗>2獨立樣本Kruskal-Wallis檢驗單一因素ANOVA兩因素Friedman檢驗雙因素ANOVA相關性檢驗Spearman秩相關Pearson相關性檢驗分布的檢驗Kolmogorov-Smirnov非參數統計的主要內容內容非參數檢驗相應的參數檢驗獨立樣本中位40§1.2順序統計量,秩和線性秩統計量
一、順序統計量因為非參數方法通常并不假定總體分布。因此,觀測值的順序及性質則作為研究的對象。順序統計量:對于樣本X1,X2,X3,…,Xn,如果按照升冪排列,得到稱為第k個順序統計量。§1.2順序統計量,秩和線性秩統計量一、順序統計量稱412、基于順序統計量的統計量中位數極差3、順序統計量分布函數設總體的分布函數F(X),則第r個順序統計量的分布函數為2、基于順序統計量的統計量中位數極差3、順序統計量分布函數42(4)順序統計量密度函數(如果分布密度存在)(4)順序統計量密度函數(如果分布密度存在)43同樣我們可以得到順序統計量X(r)和X(s)的聯合密度函數為:特別地,極差的分布函數為:同樣我們可以得到順序統計量X(r)和X(s)的聯合密度函數44分位數對于離散數據,給定n個值X1,…,Xn,則p分位數定義為為:定義(連續分布)分位數對于離散數據
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 農業種植產品購銷協議
- 跨境電商市場調研方案
- 專業技術咨詢服務項目合作協議
- 行政管理創新管理試題及答案提綱
- 城市空間治理的國際經驗借鑒試題及答案
- 2025廢料交易合同模板
- 行政管理中的績效評估方法試題及答案
- 2025年提前終止個人租房合同協議書
- 社會組織參與市政學試題及答案
- 幼兒深度學習能力培養:理論基礎與實踐策略
- 靜脈炎的預防及處理-李媛
- 政治經濟學重點講義
- 羊水拴塞應急演練
- 公司章程模板五篇
- OBE理念下生成式AI技術在高校財會教育中的應用路徑研究
- 2024年云服務器運維服務合同樣本
- 創業人生學習通超星期末考試答案章節答案2024年
- 超職數配備干部整改方案
- 中藥材、中藥飲片分類貯存常溫庫貨品名稱目錄
- 中考模擬考試實施方案
- (部編版)統編版小學語文教材目錄(一至六年級上冊下冊齊全)
評論
0/150
提交評論