




版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
2023/2/2中國人民大學六西格瑪質量管理研究中心1第二章統計學基礎回顧目錄上頁下頁返回結束§2.1統計數據的整理與描述§2.2幾種重要的概率分布§2.3多元分布的基本概念§2.4多元正態分布§2.5參數估計§2.6假設檢驗2023/2/2中國人民大學六西格瑪質量管理研究中心2§2.1統計數據的整理與描述1.總體與樣本2.統計量3.變異系數4.偏度與峰度5.累積頻數分布目錄上頁下頁返回結束2023/2/2中國人民大學六西格瑪質量管理研究中心3§2.1統計數據的整理與描述1.總體與樣本總體:在一個統計問題中,通常把所要調查研究的事物或現象的全體稱為總體。個體:把組成總體的每個元素(成員)稱為個體。樣本容量:一個總體中所含的個體的數量稱為總體的容量目錄上頁下頁返回結束2023/2/2中國人民大學六西格瑪質量管理研究中心4§2.1統計數據的整理與描述2.統計量通過抽樣或查統計年鑒得到的原始數據,一般是雜亂無章的,很難從中直接看出有價值的東西。需要對獲取的原始數據加以整理,提取出我們感興趣的信息用簡明醒目的方式加以表述。統計學中最主要的提取信息方式就是對原始數據進行一定的運算,以算出某些代表性的數字,足以反映出數據某些方面的特征,這種數字被稱為統計量。用統計學語言表述就是:統計量是樣本的函數。它不依賴于任何未知參數。
目錄上頁下頁返回結束2023/2/2中國人民大學六西格瑪質量管理研究中心5§2.1統計數據的整理與描述樣本均值和樣本方差就是最重要的常用統計量。
均值是對數據集中特征的描述,方差是對數據波動特征的描述。
目錄上頁下頁返回結束2023/2/2中國人民大學六西格瑪質量管理研究中心6§2.1統計數據的整理與描述樣本方差為:樣本標準差為:目錄上頁下頁返回結束2023/2/2中國人民大學六西格瑪質量管理研究中心7§2.1統計數據的整理與描述3.變異系數
如果兩組數據的計量單位相同,且均值一樣,可以利用標準差來比較兩組數據的離散程度。但當兩組數據的計量單位不同或均值不同時,就不能直接比較兩組數據的標準差來分析兩組數據的離散程度。由此引入變異系數V
目錄上頁下頁返回結束2023/2/2中國人民大學六西格瑪質量管理研究中心8§2.1統計數據的整理與描述4.偏度與峰度
偏度和峰度是描述統計數據分布形狀的統計量。其中S為樣本標準差。目錄上頁下頁返回結束2023/2/2中國人民大學六西格瑪質量管理研究中心9§2.1統計數據的整理與描述偏度系數的意義由圖2-1可表示出來。
圖2-1目錄上頁下頁返回結束2023/2/2中國人民大學六西格瑪質量管理研究中心10§2.1統計數據的整理與描述峰度用峰度系數表示:目錄上頁下頁返回結束2023/2/2中國人民大學六西格瑪質量管理研究中心11§2.1統計數據的整理與描述5.累積頻數分布
在社會經濟調查中,經常得到的數據是頻數。例如家庭月收入按等級劃分時,我們就會得到每個等級的家庭數,常常將這些數據列在表中或畫成直方圖。讀者可依收入等級從低到高畫出累積頻數的直方圖。目錄上頁下頁返回結束2023/2/2中國人民大學六西格瑪質量管理研究中心12§2.1統計數據的整理與描述表2—1累積頻數分布表收入等級(元)家庭數頻數累積頻數5000~60008008006001~700070015007001~800050020008001~90003002300目錄上頁下頁返回結束2023/2/2中國人民大學六西格瑪質量管理研究中心13§2.1統計數據的整理與描述在社會經濟研究中,洛倫茨(M.E.Lorentz)曲線是累積頻數的典型應用。如果按收入從低到高排列,各收入等級的家庭的累積數(百分比)為橫坐標,與之相對應的收入的累計(百分比)為縱坐標,所得到的曲線就是西方經濟學中著名的洛倫茨曲線。在宏觀經濟的收入與分配研究中,就可運用這一描述方法。目錄上頁下頁返回結束2023/2/2中國人民大學六西格瑪質量管理研究中心14§2.1統計數據的整理與描述圖2-3中對角線OA是均勻收入分布線。圖中B點表明在數量上占全體40%的家庭在收入上也占40%。收入分布不大可能絕對平均,所以洛倫茨曲線一般并不是一條直線。圖中C點表示從最低收入開始的40%的家庭收入的合計還占不到總收入的20%。目錄上頁下頁返回結束2023/2/2中國人民大學六西格瑪質量管理研究中心15§2.1統計數據的整理與描述目錄上頁下頁返回結束關于累積頻數的百分比曲線可拓寬到衡量貧富差距的基尼(Gini)系數。基尼系數理論在中國當今的宏觀經濟研究中非常有用。2023/2/2中國人民大學六西格瑪質量管理研究中心16§2.2幾種重要的概率分布一、正態分布三、t分布四、F分布五、自由度目錄上頁下頁返回結束2023/2/2中國人民大學六西格瑪質量管理研究中心17§2.2幾種重要的概率分布在經濟研究和工商管理中,有許多隨機變量的概率分布都可用正態分布來描述。正態隨機變量的概率密度函數的形式如下:目錄上頁下頁返回結束2023/2/2中國人民大學六西格瑪質量管理研究中心18§2.2幾種重要的概率分布正態分布的密度曲線見圖2-4。目錄上頁下頁返回結束2023/2/2中國人民大學六西格瑪質量管理研究中心19§2.2幾種重要的概率分布目錄上頁下頁返回結束2023/2/2中國人民大學六西格瑪質量管理研究中心20如圖2-5所示。§2.2幾種重要的概率分布目錄上頁下頁返回結束2023/2/2中國人民大學六西格瑪質量管理研究中心21§2.2幾種重要的概率分布目錄上頁下頁返回結束2023/2/2中國人民大學六西格瑪質量管理研究中心22§2.2幾種重要的概率分布目錄上頁下頁返回結束2023/2/2中國人民大學六西格瑪質量管理研究中心23§2.2幾種重要的概率分布目錄上頁下頁返回結束2023/2/2中國人民大學六西格瑪質量管理研究中心24圖2-6§2.2幾種重要的概率分布目錄上頁下頁返回結束2023/2/2中國人民大學六西格瑪質量管理研究中心25§2.2幾種重要的概率分布目錄上頁下頁返回結束2023/2/2中國人民大學六西格瑪質量管理研究中心26§2.2幾種重要的概率分布三、t分布目錄上頁下頁返回結束2023/2/2中國人民大學六西格瑪質量管理研究中心27§2.2幾種重要的概率分布目錄上頁下頁返回結束2023/2/2中國人民大學六西格瑪質量管理研究中心28t分布可用于方差未知時對有關均值的假設進行的檢驗。關于回歸系數的顯著性檢驗就用到t分布。t分布曲線如下§2.2幾種重要的概率分布目錄上頁下頁返回結束2023/2/2中國人民大學六西格瑪質量管理研究中心29四、F分布§2.2幾種重要的概率分布目錄上頁下頁返回結束2023/2/2中國人民大學六西格瑪質量管理研究中心30§2.2幾種重要的概率分布目錄上頁下頁返回結束2023/2/2中國人民大學六西格瑪質量管理研究中心31§2.2幾種重要的概率分布目錄上頁下頁返回結束2023/2/2中國人民大學六西格瑪質量管理研究中心32五、自由度所謂“自由度”就是指可以自由取值的數據的個數,或者指不受任何約束、可以自由變動的變量的個數。§2.2幾種重要的概率分布目錄上頁下頁返回結束2023/2/2中國人民大學六西格瑪質量管理研究中心33用矩陣秩的概念也可以解釋自由度。自由度是對隨機變量的二次型(可稱為二次統計量)而言的,自由度就是二次型矩陣的秩。在回歸分析中,回歸方程的顯著性檢驗用到殘差平方和。確定殘差平方和的自由度,一般方法是,數據的個數n減去必須估計出的參數的個數就是自由度。例如P元線性回歸方程的殘差平方和的自由度就是n-p-1,因為回歸方程中有p+1個待估參數。§2.2幾種重要的概率分布目錄上頁下頁返回結束2023/2/2中國人民大學六西格瑪質量管理研究中心34§2.3多元分布的基本概念一、隨機變量二、分布函數與密度函數三、多元變量的獨立性四、隨機向量的數字特征目錄上頁下頁返回結束2023/2/2中國人民大學六西格瑪質量管理研究中心35§2.3多元分布的基本概念在研究社會、經濟現象和許多實際問題時,經常遇到的是多指標的問題。例如研究職工工資構成情況時,計時工資、基礎工資與職務工資、各種獎金、各種津貼等都是同時需要考察的指標;又如要研究公司的運營情況時,要涉及到公司的資金流動能力、償債能力、獲利能力及競爭能力等財務指標,這些都是多指標研究的問題。顯然,僅研究某個指標或是將這些指標割裂開來分別研究,都不能從整體上把握所研究問題的實質。一般地,假設我們所研究的問題涉及p個指標,n次觀測,這就得到np個數據,我們的目的就是對觀測對象進行分組、分類,或分析這個變量之間的相互關聯程度,或找出內在規律等等。目錄上頁下頁返回結束2023/2/2中國人民大學六西格瑪質量管理研究中心36§2.3多元分布的基本概念下面我們簡要介紹多變量統計分析中涉及的一些基本概念。一、隨機變量目錄上頁下頁返回結束2023/2/2中國人民大學六西格瑪質量管理研究中心37§2.3多元分布的基本概念目錄上頁下頁返回結束2023/2/2中國人民大學六西格瑪質量管理研究中心38§2.3多元分布的基本概念目錄上頁下頁返回結束2023/2/2中國人民大學六西格瑪質量管理研究中心39§2.3多元分布的基本概念目錄上頁下頁返回結束2023/2/2中國人民大學六西格瑪質量管理研究中心40§2.3多元分布的基本概念二、分布函數與密度函數
目錄上頁下頁返回結束2023/2/2中國人民大學六西格瑪質量管理研究中心41§2.3多元分布的基本概念目錄上頁下頁返回結束2023/2/2中國人民大學六西格瑪質量管理研究中心42§2.3多元分布的基本概念三、多元變量的獨立性目錄上頁下頁返回結束2023/2/2中國人民大學六西格瑪質量管理研究中心43§2.3多元分布的基本概念目錄上頁下頁返回結束2023/2/2中國人民大學六西格瑪質量管理研究中心44§2.3多元分布的基本概念四、隨機向量的數字特征1.隨機向量X的均值目錄上頁下頁返回結束2023/2/2中國人民大學六西格瑪質量管理研究中心45§2.3多元分布的基本概念當A、B為常數矩陣時,由定義可立即推出如下性質:(1)E(AX)=AE(X)(2)E(AXB)=AE(X)B目錄上頁下頁返回結束2023/2/2中國人民大學六西格瑪質量管理研究中心46§2.3多元分布的基本概念2.隨機向量X自協方差陣目錄上頁下頁返回結束2023/2/2中國人民大學六西格瑪質量管理研究中心47§2.3多元分布的基本概念3.隨機向量X和Y的協差陣
目錄上頁下頁返回結束2023/2/2中國人民大學六西格瑪質量管理研究中心48§2.3多元分布的基本概念目錄上頁下頁返回結束2023/2/2中國人民大學六西格瑪質量管理研究中心49§2.3多元分布的基本概念4.隨機向量X的相關陣目錄上頁下頁返回結束2023/2/2中國人民大學六西格瑪質量管理研究中心50§2.3多元分布的基本概念在數據處理時,為了克服由于指標的量綱不同對統計分析結果帶來的影響,往往在使用某種統計分析方法之前,常需將每個指標“標準化”,即做如下變換目錄上頁下頁返回結束2023/2/2中國人民大學六西格瑪質量管理研究中心51§2.4多元正態分布一、多元正態分布的定義二、多元正態分布的性質三、條件分布和獨立性目錄上頁下頁返回結束2023/2/2中國人民大學六西格瑪質量管理研究中心52§2.4多元正態分布多元正態分布是一元正態分布的推廣。迄今為止,多元分析的主要理論都是建立在多元正態總體基礎上的,多元正態分布是多元分析的基礎。另一方面,許多實際問題的分布常是多元正態分布或近似正態分布,或雖本身不是正態分布,但它的樣本均值近似于多元正態分布。本節將介紹多元正態分布的定義,并簡要給出它的基本性質。目錄上頁下頁返回結束2023/2/2中國人民大學六西格瑪質量管理研究中心53§2.4多元正態分布一、多元正態分布的定義在概率論中已經講過,一元正態分布的密度函數為:
目錄上頁下頁返回結束|∑|為協差陣∑的行列式。定義2.5:若
元隨機向量
的概率密度函數為:則稱遵從
元正態分布,也稱X為
元正態變量。記為§2.4多元正態分布目錄上頁下頁返回結束定理2.1將正態分布的參數μ和∑賦于了明確的統計意義。有關這個定理的證明可參見文獻[4]。多元正態分布不止定義2.5一種形式,更廣泛地可采用特征函數來定義,也可用一切線性組合均為正態的性質來定義等,有關這些定義的方式參見文獻[4]。目錄上頁下頁返回結束
定理2.1:設
則
§2.4多元正態分布1、如果正態隨機向量
的協方差陣∑是對角陣,則X的各分量是相互獨立的隨機變量。證明參見文獻[4]。
容易驗證,
,但顯然不是正態分布。2、多元正態分布隨機向量X的任何一個分量子集的分布(稱為X的邊緣分布)仍然遵從正態分布。而反之,若一個隨機向量的任何邊緣分布均為正態,并不能導出它是多元正態分布。例如,設
有分布密度二、多元正態分布的性質§2.4多元正態分布目錄上頁下頁返回結束
3、多元正態向量的任意線性變換仍然遵從多元正態分布。即設
,而
維隨機向量,其中
是階的常數矩陣,是
維的常向量。則
維隨機向量
也是正態的,且
。即
遵從
元態分布,其均值向量為
,協差陣為
。§2.4多元正態分布目錄上頁下頁返回結束
我們希望求給定
的條件分布,即的分布。下一個定理指出:正態分布的條件分布仍為正態分布。設
p≥2,將X、μ和Σ剖分如下:三、條件分布和獨立性§2.4多元正態分布目錄上頁下頁返回結束證明參見文獻[4]。定理2.2:設
,Σ>0,則§2.4多元正態分布目錄上頁下頁返回結束
定理2.3:設
,Σ>0,將X,μ,Σ剖分如下:§2.4多元正態分布目錄上頁下頁返回結束則有如下的條件均值和條件協差陣的遞推公式:(2.8)
(2.9)
證明參見[4]§2.4多元正態分布目錄上頁下頁返回結束其中,(2.10)2023/2/2中國人民大學六西格瑪質量管理研究中心62§2.4多元正態分布定理2.2和定理2.3在20世紀70年代中期為國家標準部門制定服裝標準時有成功的應用,見參考文獻[3]。在制定服裝標準時需抽樣進行人體測量,現從某年齡段女子測量取出部分結果如下:目錄上頁下頁返回結束2023/2/2中國人民大學六西格瑪質量管理研究中心63§2.4多元正態分布目錄上頁下頁返回結束2023/2/2中國人民大學六西格瑪質量管理研究中心64§2.4多元正態分布再利用(2.10)式得
目錄上頁下頁返回結束2023/2/2中國人民大學六西格瑪質量管理研究中心65§2.4多元正態分布此時我們可看到這說明,若已知一個人的上體的長和臀圍,則身高、胸圍和腰圍的條件方差比原來的方差大大縮小。目錄上頁下頁返回結束定義2.6:當給定時,與的偏相關系數為:目錄上頁下頁返回結束§2.4多元正態分布目錄上頁下頁返回結束
定理2.4:設將X、μ、Σ按同樣方式剖分為其中,
證明參見文獻[4]§2.4多元正態分布目錄上頁下頁返回結束2023/2/2中國人民大學六西格瑪質量管理研究中心68一、點估計二、區間估計三、估計量的評價標準四、均值向量和協差陣的估計§2.5參數估計目錄上頁下頁返回結束2023/2/2中國人民大學六西格瑪質量管理研究中心69一、點估計§2.5參數估計目錄上頁下頁返回結束2023/2/2中國人民大學六西格瑪質量管理研究中心70§2.5參數估計目錄上頁下頁返回結束2023/2/2中國人民大學六西格瑪質量管理研究中心71二、區間估計因為僅依靠點估計難以評價待估參數估計值與其真值之間的接近程度,即無法通過點估計來度量估計值的可信程度。為此,引進區間估計。給出一個區間(置信區間)并預測真正的參數以一定的概率存在于這一區間的方法稱為區間估計。這一區間能夠覆蓋真值的概率稱為置信系數。§2.5參數估計目錄上頁下頁返回結束2023/2/2中國人民大學六西格瑪質量管理研究中心72§2.5參數估計目錄上頁下頁返回結束2023/2/2中國人民大學六西格瑪質量管理研究中心73三、估計量的評價標準1.無偏性。對于一個估計量,屢次變更數據反復求估計值時,估計值的平均值與真值相一致的性質叫無偏性。即§2.5參數估計目錄上頁下頁返回結束2023/2/2中國人民大學六西格瑪質量管理研究中心742.一致性。隨著數據個數的增多,估計量從概率上接近真值的性質稱為一致性。3.均方誤差。均方誤差通常用MSE(MeanSquareError)表示。估計量的誤差(偏離真值)的平方的均值叫均方誤差,即§2.5參數估計目錄上頁下頁返回結束2023/2/2中國人民大學六西格瑪質量管理研究中心75§2.5參數估計目錄上頁下頁返回結束2023/2/2中國人民大學六西格瑪質量管理研究中心76§2.5參數估計目錄上頁下頁返回結束四、均值向量的估計上節已經給出了多元正態分布的定義和有關的性質,在實際問題中,通常可以假定被研究的對象是多元正態分布,但分布中的參數μ和Σ是未知的,一般的做法是通過樣本來估計。在一般情況下,如果樣本資料陣為:§2.5參數估計目錄上頁下頁返回結束即均值向量μ的估計量,就是樣本均值向量.這可由極大似然法推導出來。推導過程參見文獻[4]。設樣品相互獨立,同遵從于P元正態分布
,而且
,Σ>0,則總體參數均值μ的估計量是§2.5參數估計目錄上頁下頁返回結束總體參數協差陣Σ的極大似然估計是§2.5參數估計目錄上頁下頁返回結束2023/2/2中國人民大學六西格瑪質量管理研究中心80§2.5參數估計目錄上頁下頁返回結束2023/2/2中國人民大學六西格瑪質量管理研究中心81一、假設檢驗的步驟及流程圖二、P
值§2.6假設檢驗目錄上頁下頁返回結束2023/2/2中國人民大學六西格瑪質量管理研究中心82什么叫假設檢驗?對總體的分布函數形式或分布中某些未知參數作出某種假設,然后抽取樣本,構造適當的統計量,對假設的正確性進行判斷的過程,稱為假設檢驗。假設檢驗在統計模型的顯著性檢驗中具有重要的意義。§2.6假設檢驗目錄上頁下頁返回結束2023/2/2中國人民大學六西格瑪質量管理研究中心83一、假設檢驗的步驟及流程圖1.對所檢驗的問題提出原假設和備擇假設。
§2.6假設檢驗目錄上頁下頁返回結束2023/2/2中國人民大學六西格瑪質量管理研究中心84§2.6假設檢驗目錄上頁下頁返回結束§2.6假設檢驗2023/2/2中國人民大學六西格瑪質量管理研究中心85目錄上頁下頁返回結束§2.6假設檢驗2023/2/2中國人民大學六西格瑪質量管理研究中心86目錄上頁下頁返回結束§2.6假設檢驗2023/2/2中國人民大學六西格瑪質量管理研究中心87目錄上頁下頁返回結束§2.6假設檢驗2023/2/288中國人民大學六西格瑪質量管理研究中心目錄上頁下頁返回結束2023/2/2中國人民大學六西格瑪質量管理研究中心892.確定適當的檢驗統計量。用于假設檢驗的統計量稱為檢驗統計量。在具體的檢驗問題中,可根據不同的問題選擇構造不同的統計量。如在回歸方程的顯著性檢驗中,常選擇F統計量;在回歸系數的顯著性檢驗中我們選擇t統計量或F統計量。§2.6假設檢驗目錄上頁下頁返回結束2023/2/2中國人民大學六西格瑪質量管理研究中心90§2.6假設檢驗3.給定顯著性水
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 3月是故鄉明教學設計-2023-2024學年五年級下冊語文統編版
- 5《鋪滿金色巴掌的水泥道》(教學設計)-2024-2025學年語文三年級上冊統編版
- 2023四年級數學上冊 1 大數的認識第12課時 計算工具的認識配套教學設計 新人教版
- 《口語交際:說新聞》教學設計-2023-2024學年統編版語文四年級下冊
- 糖尿病腎病飲食健康教育
- 肝惡性腫瘤的護理
- 軟件項目管理經驗分享
- 一年級下冊道德與法治教學設計(蘇教版)
- 九年級語文下冊 第三單元《課外古詩詞四首》教學設計 新人教版
- 6 我家的好鄰居 第二課時 教學設計-2023-2024學年道德與法治三年級下冊統編版
- 四年級語文下冊《口語交際說新聞》同步練習題
- 如何提高基層干部群眾工作能力課件
- 感染相關性血液學改變課件
- 呼吸困難 教學課件
- 環網柜基礎知識培訓課程完整版課件
- 廣大燈飾制造公司-燈具生產作業指導書
- 新人教版八年級音樂下冊《英雄凱旋歌》課件
- T∕TAF 090-2021 移動終端適老化技術要求
- 施工質量保證措施方案(市政管線、排水、道路等)
- 類文閱讀-11 宇宙生命之謎
- 建設項目對海洋生物資源影響評價技術規程
評論
0/150
提交評論