




版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
第7章數據統計推斷及可視化7.1隨機抽樣及其分布圖第7章數據統計推斷及可視化7.1.1總體和樣本
1.基本概念
2.隨機抽樣7.1.2統計量的分布
1.標準正態分布
2.學生化t分布7.1隨機抽樣及其分布圖第7章數據統計推斷及可視化7.1.1總體和樣本
1.基本概念(1)總體:研究對象的全體(2)個體:構成總體的每個成員(3)樣本:從總體中抽出的部分個體組成的集合(4)樣本量:樣本中所含個體個數(5)統計量:不含未知參數的樣本函數7.1隨機抽樣及其分布圖第7章數據統計推斷及可視化7.1.1總體和樣本
2.隨機抽樣(1)隨機數如生成100個均值為170cm,標準差為9cm的學生身高的正態分布隨機數。Inimportnumpyasnpimportpandasaspdnp.random.seed(1)#設置隨機種子數以便重復結果N=100#隨機數個數x=np.random.normal(170,9,N);#X~N(170,3^2)=N(170,9)X=pd.DataFrame({'X':x.round(1)});X#形成數據框,保留1位小數7.1隨機抽樣及其分布圖第7章數據統計推斷及可視化7.1.1總體和樣本
2.隨機抽樣OutX0184.61164.52165.23160.34177.8.....95170.796166.997170.498164.499176.37.1隨機抽樣及其分布圖第7章數據統計推斷及可視化7.1.1總體和樣本
2.隨機抽樣生成直方圖:7.1隨機抽樣及其分布圖第7章數據統計推斷及可視化7.1.1總體和樣本
2.隨機抽樣(2)隨機樣本:從上面的正態總體中隨機抽取樣本量為10的若干樣本(注意,每次抽取的樣本是不一樣的)7.1隨機抽樣及其分布圖第7章數據統計推斷及可視化7.1.2統計量的分布
1.標準正態分布若一組數據來自正態分布x
N(μ,σ2),可用正態化變換將其轉換為標準正態分布:根據中心極限定理可知,此時樣本的均值服從正態分布:對樣本均值進行標準化也可得標準正態分布:7.1隨機抽樣及其分布圖第7章數據統計推斷及可視化7.1.2統計量的分布2.學生化t分布當總體標準差σ未知時,可用樣本標準差s代替總體標準差,這時樣本均值的標準化變量t服從t分布:可以證明,t值服從t分布,當n趨向無窮大時,t分布近似為標準正態分布N(0,1)。7.1隨機抽樣及其分布圖第7章數據統計推斷及可視化7.1.2統計量的分布2.學生化t分布7.1隨機抽樣及其分布圖第7章數據統計推斷及可視化7.1.2統計量的分布2.學生化t分布7.2參數的統計推斷第7章數據統計推斷及可視化7.2.1參數的估計方法
1.點估計2.區間估計7.2.2假設檢驗的思想
1.假設檢驗的基本思想
2.假設檢驗的基本步驟7.2.3均值比較的t檢驗
1.單樣本均值的t檢驗
【Excel的基本操作】
2.兩樣本均值的t檢驗
【Excel的基本操作】練習題77.2參數的統計推斷第7章數據統計推斷及可視化7.2.1參數的估計方法點估計(pointestimation),用樣本統計量來估計相應的總體參數樣本均值x→總體均值μ;樣本標準差s→總體標準差σ;樣本比例p→總體比例P
1.點估計參數的估計方法包括點估計和區間估計7.2參數的統計推斷第7章數據統計推斷及可視化7.2.1參數的估計方法
1.點估計樣本X的各種統計量的點估計值:7.2參數的統計推斷第7章數據統計推斷及可視化7.2.1參數的估計方法2.區間估計區間估計(intervalestimation)是通過統計推斷找到包括樣本統計量在內(有時以統計量為中心)的一個區間,該區間被認為以多大概率(也稱可信度或置信度)可能性包含了總體參數。置信區間的一般公式:7.2參數的統計推斷第7章數據統計推斷及可視化7.2.1參數的估計方法2.區間估計總體標準差通常未知,可使用t統計量及其分布:運用t分布構造置信區間:7.2參數的統計推斷第7章數據統計推斷及可視化7.2.1參數的估計方法2.區間估計可用scipy包的模塊stats中的erval函數也可生成置信水平為1-α的置信區間:erval(b,df,loc,scale)7.2參數的統計推斷第7章數據統計推斷及可視化7.2.2假設檢驗的思想假設檢驗(hypothesistesting),又稱統計假設檢驗,是用來判斷樣本與樣本、樣本與總體的差異是由抽樣誤差引起還是本質差別造成的統計推斷方法。顯著性檢驗是假設檢驗中最常用的一種方法,也是一種最基本的統計推斷形式常用的假設檢驗方法有z檢驗、t檢驗、F檢驗和方差分析等7.2參數的統計推斷第7章數據統計推斷及可視化7.2.2假設檢驗的思想1.假設檢驗的基本思想“小概率事件”原理,其統計推斷方法是帶有某種概率性質的反證法。小概率思想小概率事件在一次試驗中基本上不會發生反證法思想先提出檢驗假設,再用適當的統計方法,利用小概率原理,確定假設是否成立。假定該假設H0正確小概率事件發生拒絕H0“小概率事件”發生的概率稱為檢驗的顯著性水平,用α表示7.2參數的統計推斷第7章數據統計推斷及可視化(1)提出檢驗假設提出檢驗假設又稱零假設,符號是H0;備擇假設的符號是H1。H0:樣本與總體或樣本與樣本間的差異是由抽樣誤差引起的;H1:樣本與總體或樣本與樣本間存在本質差異;(2)給定顯著性水平
通常取α=0.05(3)選定相應統計方法由樣本觀察值按相應的公式計算出統計量的大小,如t值、F值等。(4)根據統計量計算相應的概率p值下結論若p>α,不顯著,接受H0;若p≤
α,顯著,拒絕H07.2.2假設檢驗的思想1.假設檢驗的基本步驟7.2參數的統計推斷第7章數據統計推斷及可視化7.2.3均值比較的t檢驗1.單樣本均值的t檢驗
7.2參數的統計推斷第7章數據統計推斷及可視化7.2.3均值比較的t檢驗1.單樣本均值的t檢驗(2)實例分析——縱向比較7.2參數的統計推斷第7章數據統計推斷及可視化7.2.3均值比較的t檢驗1.單樣本均值的t檢驗(2)實例分析——縱向比較7.2參數的統計推斷第7章數據統計推斷及可視化7.2.3均值比較的t檢驗1.單樣本均值的t檢驗(2)實例分析——縱向比較7.2參數的統計推斷第7章數據統計推斷及可視化7.2.3均值比較的t檢驗1.單樣本均值的t檢驗(2)實例分析——縱向比較7.2參數的統計推斷第7章數據統計推斷及可視化7.2.3均值比較的t檢驗1.單樣本均值的t檢驗(2)實例分析——縱向比較檢驗的p=0.0008<0.05,在顯著性水平
=0.05時拒絕H0,認為廣州地區的人均GDP與5萬元有顯著差異,應該是不少于5萬元的。7.2參數的統計推斷第7章數據統計推斷及可視化7.2.3均值比較的t檢驗1.單樣本均值的t檢驗【Excel的基本操作】(1)在透視表中選需要的數據,本例是2019年的珠三角人均GDP數據。(2)切換到“數據”選項卡,單擊“分析”組中的“數據分析”按鈕,將彈出數據分析對話框。在分析工具框中選擇“t-檢驗:成對雙樣本均值分析”。(3)給出總體均值:在C4:C24區域給出總體均值5。(4)輸入:變量1的區域:B3:B24變量2的區域:C3:C24假設平均差:0標志:不選α(A):0.05(5)輸出選項:輸出區域:F47.2參數的統計推斷第7章數據統計推斷及可視化【Excel的基本操作】7.2參數的統計推斷第7章數據統計推斷及可視化檢驗的p=0.3508>0.05,在顯著性水平
=0.05時不拒絕H0,認為廣州地區的人均GDP與10萬元無顯著差異。7.2.3均值比較的t檢驗1.單樣本均值的t檢驗【Excel的基本操作】7.2參數的統計推斷第7章數據統計推斷及可視化7.2.3均值比較的t檢驗1.單樣本均值的t檢驗(2)實例分析——橫向比較7.2參數的統計推斷第7章數據統計推斷及可視化7.2.3均值比較的t檢驗1.單樣本均值的t檢驗(2)實例分析——橫向比較7.2參數的統計推斷第7章數據統計推斷及可視化7.2.3均值比較的t檢驗1.單樣本均值的t檢驗(2)實例分析——橫向比較7.2參數的統計推斷第7章數據統計推斷及可視化7.2.3均值比較的t檢驗1.單樣本均值的t檢驗(2)實例分析——橫向比較檢驗的p=0.0405<0.05,在顯著性水平
=0.05時拒絕H0,認為2019年廣東地區的人均GDP與5萬元有顯著差異,應該是不少于5萬元的。檢驗的p=0.0374<0.05,在顯著性水平
=0.05時拒絕H0,認為2019年廣東地區的人均GDP與10萬元有顯著差異。7.2參數的統計推斷第7章數據統計推斷及可視化7.2.3均值比較的t檢驗1.單樣本均值的t檢驗(2)實例分析——橫向比較【Excel的基本操作】1)在透視表中選需要的數據,本例是2019年的珠三角人均GDP數據。2)切換到“數據”選項卡,單擊“分析”組中的“數據分析”按鈕,將彈出數據分析對話框。在分析工具框中選擇“t-檢驗:成對雙樣本均值分析”。3)給出總體均值:在D4:D24區域分別給出總體均值10。4)輸入:變量1的區域:B3:B24變量2的區域:D3:D24
假設平均差:0標志:不選α(A):0.055)輸出選項:輸出區域:F47.2參數的統計推斷第7章數據統計推斷及可視化【Excel的基本操作】7.2參數的統計推斷第7章數據統計推斷及可視化7.2.3均值比較的t檢驗1.單樣本均值的t檢驗由于經濟數據大都有趨勢波動,所以數據通常很難滿足正態性要求,這類數據的檢驗通常要做些變換,如對數變換或秩變換(非參數方法),從而使數據更接近正態分布。7.2參數的統計推斷第7章數據統計推斷及可視化7.2.3均值比較的t檢驗1.單樣本均值的t檢驗對數處理7.2參數的統計推斷第7章數據統計推斷及可視化7.2.3均值比較的t檢驗1.單樣本均值的t檢驗對數處理7.2參數的統計推斷第7章數據統計推斷及可視化7.2.3均值比較的t檢驗1.單樣本均值的t檢驗對數處理檢驗的p=0.1207>0.05,在顯著性水平=0.05時不拒絕H0,認為廣州地區的人均GDP與5萬元無顯著差異。檢驗的p=0.0374<0.05,在顯著性水平=0.05時拒絕H0,認為2019年廣東地區的人均GDP與10萬元有顯著差異。7.2參數的統計推斷第7章數據統計推斷及可視化7.2.3均值比較的t檢驗2.兩樣本均值的t檢驗要求兩組數據均應服從正態分布要求兩組數據相應的兩總體方差相等,即方差齊性。7.2參數的統計推斷第7章數據統計推斷及可視化7.2.3均值比較的t檢驗2.兩樣本均值的t檢驗(1)正態性檢驗7.2參數的統計推斷第7章數據統計推斷及可視化7.2.3均值比較的t檢驗2.兩樣本均值的t檢驗(1)正態性檢驗7.2參數的統計推斷第7章數據統計推斷及可視化7.2.3均值比較的t檢驗2.兩樣本均值的t檢驗(1)正態性檢驗7.2參數的統計推斷第7章數據統計推斷及可視化7.2.3均值比較的t檢驗2.兩樣本均值的t檢驗(1)正態性檢驗可以看出,深圳和珠海的GDP數據的分布基本上是正態的7.2參數的統計推斷第7章數據統計推斷及可視化7.2.3均值比較的t檢驗2.兩樣本均值的t檢驗(2)方差齊性檢驗檢驗不同地區GDP的變異有無顯著差異,即檢驗兩總體方差是否相等,這里用的是levene方差齊性檢驗。p=0.8333>0.05,說明兩組數據的方差是一樣的。7.2參數的統計推斷第7章數據統計推斷及可視化7.2.3均值比較的t檢驗2.兩樣本均值的t檢驗(3)均值的檢驗(方差齊性時)要具體檢驗以下假設:H0:
1=
2;H1:
1≠
2
。由概率論知:7.2參數的統計推斷第7章數據統計推斷及可視化7.2.3均值比較的t檢驗2.兩樣本均值的t檢驗(3)均值的檢驗(方差齊性時)當H0
成立時,所以在給定了顯著性水平α后,由樣本數據算出t值及對應的概率p值,
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 部編版小學語文三年級下冊第八單元試卷1
- 2023-2024學年廣東省清遠市四校高二下學期期中聯考語文試題(解析版)
- 探究春分的奧秘
- 塑造品格小戰士
- 碩士研究生生存指南
- 梅里斯達斡爾族區2025屆小升初數學檢測卷含解析
- 山西省臨晉中學2025屆高三下學期大聯考卷Ⅰ生物試題試卷含解析
- 泰山學院《可靠性技術》2023-2024學年第一學期期末試卷
- 內蒙古翁牛特旗2024-2025學年初三下學期第一次教學質量診斷性考試生物試題試卷含解析
- 山東省臨沂市臨沭縣一中2025屆高三一輪復習階段性考試(歷史試題理)試題含解析
- GB/T 18760-2002消費品售后服務方法與要求
- GB/T 1443-1996機床和工具柄用自夾圓錐
- 影像診斷與手術后符合率統計表
- 中考語文作文專題復習:以小見大的寫作技巧
- 高三主題班會三輪復習動員 沖刺高考課件
- 機械廠降壓變電所的電氣設計概述
- 歷史小劇場《萬隆會議》劇本
- 國家開放大學《社區護理學(本)》形考任務1-5參考答案
- 施工進度計劃網絡圖及橫道圖
- 《中國文化概論》課程教學大綱.docx
- 建筑物及構筑物拆除質量控制措施
評論
0/150
提交評論