趙衛亞 數理統計復習_第1頁
趙衛亞 數理統計復習_第2頁
趙衛亞 數理統計復習_第3頁
趙衛亞 數理統計復習_第4頁
趙衛亞 數理統計復習_第5頁
已閱讀5頁,還剩88頁未讀, 繼續免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

1、計量經濟學的統計學基礎計量經濟學的統計學基礎簡要復習數理統計學簡要復習數理統計學1主要內容主要內容第一節第一節 基本概念基本概念第二節第二節 隨機變量的數字特征隨機變量的數字特征第三節第三節 隨機變量的分布隨機變量的分布第四節第四節 估計量及其衡量標準估計量及其衡量標準第五節第五節 區間估計區間估計第六節第六節 假設檢驗假設檢驗 2第一節第一節 基本概念基本概念總體和個體總體和個體樣本和樣本容量樣本和樣本容量隨機變量和概率隨機變量和概率統計量統計量隨機變量的分布函數隨機變量的分布函數條件概率條件概率3總體和個體總體和個體總體 研究對象的全體稱為總體或母體(集合);試驗全部的可能觀察值 例如某廠

2、顯像管的壽命個體 組成總體的各個元素稱為個體(構成集合的元素);是對總體的一次觀察 例如,某個顯像管的壽命 每個顯像管的壽命可能是不同的,是一個隨機變量本質上說,總體就是所研究的隨機變量或者隨機變量的分布。4樣本和樣本容量樣本和樣本容量樣本 總體中抽出若干個個體組成的集體稱為樣本。 例如,抽出20個顯像管檢查樣本容量 樣本中包含的個體的數量稱為樣本的容量,又稱為樣本的大小。(通常記做n) 例如,抽出20個顯像管檢查,樣本容量為20注意:從總體中抽樣通常滿足兩個原則 隨機原則,即總體中每個個體有同樣的機會被選入樣本。 獨立原則,即每次抽樣不受其他抽樣的影響,也不影響其他抽樣結果。5隨機變量和概率

3、 隨機性和隨機變量隨機性:事物的結果不能完全事先確定,即可能發生也可能不發生,既可以是這個水平,也可以是那個水平。 如:商店一天的銷售量,通過降低利率刺激投資的效果 隨機性是計量經濟模型的根本特征,計量模型都有隨機誤差項隨機變量:表示隨機現象各種結果的函數(樣本空間-實數空間)。 設S=e是試驗的樣本空間,如果量X是定義在S上的一個單值實值函數即對于每一個eS,有一實數X=X(e)與之對應,則稱X為隨機變量。6隨機變量和概率 概率 事件A的概率是描繪事件A發生的可能性的大小 概率的定義:頻率定義(古典定義,公理化定義) 頻率:事件A在n次重復試驗中出現nA次,則比值nA/n稱為事件A在n次重復

4、使用中出現的頻率。 當實驗次數n增大時,頻率逐漸趨向一個穩定值,記為事件A的概率 ProbabilityP10 p7總體、樣本間的聯系 總體是給定的,但一般是未知的 樣本是總體的一部分,可以通過抽樣獲得,樣本是一個隨機變量 一般要通過樣本才能部分地推知總體的情況(數字特征) 例如:總體的均值 VS 樣本均值8統計量 設 為一組樣本觀察值,若函數 不含有未知參數,則稱為統計量。(比如X表示身高) 由于樣本是隨機變量,因而它的函數Y也是隨機變量,所以,統計量也是隨機變量。 統計量一般用它來提取由樣本帶來的總體信息。 常用統計量:2211niinxxs樣 本 方 差11XniiXn樣 本 均 值 1

5、2(,)nXXX12(,)nYf XXX9隨機變量的分布函數 概率密度函數概率密度函數離散型隨機變量的概率函數為: 滿足條件:連續型隨機變量的概率函數為:描述隨機變量的輸出值在某個確定的取值點附近的可能性函數。 滿足條件: ()iP XxniiixXPxXP11)(;0)(XdxxfbXaPba,)()(1)(; 0)(dxxfxf10隨機變量的分布函數累積分布函數:就是隨機變量取值不大于給定水平的概率構成的函數。 離散型隨機變量的分布函數為: 連續型隨機變量的分布函數為:1( )()niiFxPxp( )()( )xFxPxf t dt11密度函數和分布函數的關系:密度函數和分布函數的關系:

6、 概率密度函數的大小能夠反映X在x附近取值的概率的大小,從而比累積分布函數更直觀。 但累積分布函數為單調函數,更易處理。12舉例:正態分布的密度函數和分布函數舉例:正態分布的密度函數和分布函數22()21x2 Fxxx uxfefdx密度密度:( )分布函數:( )( )x2x2f(x)F(x)x1x1XX2( ,)XN 13條件概率 條件概率 在已知與事件A相關的另一事件B已經發生的情況下,考慮事件A發生的概率。記作P(A|B) 條件分布 有時需要關注部分隨機變量給定情況下,其他隨機變量的概率分布。 條件期望 在給定條件下,考察隨機變量的概率均值。 對離散型隨機變量:( | )(| )F x

7、 BPx B( |)(|)kkkEBx PxB14第二節第二節 隨機變量的數字特征隨機變量的數字特征數學期望數學期望方差方差協方差和相關系數協方差和相關系數15數學期望數學期望數學期望的定義:描述變量取值的平均特征。反映了隨機變量的平均水平或集中趨勢隨機變量的可能值以相應概率為權數的算術平均數通常以E(*)表示期望運算,以表示期望值數學期望簡稱期望,又稱均值16離散型隨機變量數學期望的定義:連續型隨機變量數學期望的定義(略) 的數學期望。稱為絕對收斂,則,若積分有分布密度函數若連續型隨機變量XdxxxxEdxxxxX niiinnxppxpxpxxE12211變量X的取值x1x2xn相應概率P

8、p1p2pn17數學期望的性質(1)如果a、b為常數,則 E(aX+b)=aE(X)+b(2)如果X、Y為兩個隨機變量,則 E(X+Y)=E(X)+E(Y)(3)如果g(x)和f(x)分別為X的兩個函數,則 Eg(X)+f(X)=Eg(X)+Ef(X)(4)如果X、Y是兩個獨立的隨機變量,則 E(X.Y)=E(X).E(Y) 18方差方差定義定義方差是衡量隨機變量取值分散程度(波動程度)的數字特征。如果取值比較集中,方差較?。蝗羧≈当容^分散,則方差較大。隨機變量與其數學期望偏差平方的概率加權和 (EX-E(X)2 )通常記為2(),( ),xVar XD x19 離均差 如果隨機變量X的數學期

9、望E(X)存在,稱X-E(X)為隨機變量X的離均差。顯然,隨機變量離均差的數學期望是0,即 E X-E(X) = 0 方差 隨機變量離均差平方的數學期望 : D(X)=EX-E(X)2 標準差方差的算術平方根叫標準差。連續型情形離散型情形,)()(,)()(212dxxfXExxXPXExXDkkk20方差的性質方差的性質(1)Var(c )=0(2)Var(c+x)=Var(x )(3)Var(cx)=c2Var(x)(4)x,y為相互獨立的隨機變量,則 Var(x+y)=Var(x )+Var(y )=Var(x-y)(5)Var(x)=E(x2)-(E(x)221數學期望與方差 數學期望

10、描述隨機變量的集中程度,方差描述隨機變量的數學期望描述隨機變量的集中程度,方差描述隨機變量的分散程度。分散程度。1. 方差相同、期望不同方差相同、期望不同 2. 期望相同、方差不同期望相同、方差不同5105522協方差(協方差(Covariance)和)和相關系數相關系數(correlation coefficient)協方差的定義協方差的定義 兩個隨機變量與各自數學期望離差之積的期兩個隨機變量與各自數學期望離差之積的期望值。望值。度量兩個隨機變量之間相關關系的密切程度度量兩個隨機變量之間相關關系的密切程度( , )( )( )CovEEE 23,( , )Cov 相關系數的定義,相關系數的定

11、義,協方差與相關系數協方差與相關系數協方差是有量綱的;相關系數無量綱,取值協方差是有量綱的;相關系數無量綱,取值-1,1241 cov( , )( )(2)cov( , )cov( , )(3)cov(,)cov( , )(4)cov( 12, )cov( 1, )cov( 2, )(5)cov( , )0,x xD xx yy xax byabx yxxyxyxyc xc協方差的性質()其中 為常數25第三節第三節 隨機變量的分布隨機變量的分布 幾種常見分布幾種常見分布 分位數(點)和臨界值分位數(點)和臨界值 樣本統計量及其分布樣本統計量及其分布26(1)幾種常見分布)幾種常見分布 正態分

12、布 卡方分布 t分布 F分布27正態分布正態分布 正態分布的密度函數正態分布的密度函數 正態分布完全由期望和方差決定正態分布完全由期望和方差決定2221022,XXXXXNe若連續型隨機變量 的概率密度為、 為常數,則稱 服從正態分布,簡記為。2,EXVarX數學期望方差28 正態分布是最常見的概率分布 中心極限定理保證了由眾多微小擾動因素決定的連續型隨機變量都可以用正態分布描述 特征:鐘形,對稱(關于期望值) 是卡方分布, t分布,F分布的基礎29正態分布的標準化正態分布的標準化 定義定義 標準正態分布標準正態分布 如何將正態分布進行標準化如何將正態分布進行標準化2, 0,1XXNN如果令,

13、那么。根據以上定理,可以將任何一個正態分布,化為標準正態分布,即將其標準化。 220110,1 2xXNxe2當,的正態分布,稱為標準正態分布,記作。密度函數為30關于正態分布的和關于正態分布的和 獨立的n個正態分布隨機變量的線性組合仍舊服從正態分布.31 2 分布分布 22122221,0,1 1,2, 11ininiXXXXXNinnn 設設隨隨機機變變量量相相互互獨獨立立, 則 則稱稱 服 服從從自自由由度度為為 的的, 指 指式式右右端端包包分分布布記記為為含含的的獨獨立立自自由由變變義義度度定定:量量的的個個數數32 t分布分布 t分布的定義分布的定義2(0,1),( ),( )/N

14、(XNYnXYXTntt nY n若連續型隨機變量與 相互獨立,則稱 服從自由度為 的 分布,記作。圖形與0,1)相似33F-分布分布x概率概率密度密度 221211212212, , /,/且獨立, 則隨機變量服從自由度的 分布,記做 其中 稱為第一自由度(分子自由度),稱為第定二自由度(分母自由度)義:UnVnX YU nFn nFFF n nV nnn34(2)分位數(點)和臨界值)分位數(點)和臨界值 設X為一隨機變量,F為其分布函數,我們知道對于給定的實數x,F(x)=PXx給出了事件Xx的概率。 在統計中,我們常常需要考慮上述問題的逆問題:就是若已給定分布函數F(x)的值,亦即已給

15、定事件Xx的概率,要確定x取什么值。 易知,對通常連續型隨機變量,實際上就是求反函數。35分位數分位數( (點)點) 當隨機變量當隨機變量X的分布函數為的分布函數為 F(x),實數,實數滿足滿足0 1 時,時,分位數是使分位數是使PXX )= 1-F(X )= ,則數,則數X 稱為稱為X所服所服從的概率分布的上從的概率分布的上分位點。分位點。 37雙側雙側分位數(點)分位數(點) 雙側雙側分位數是使分位數是使 PX2=1-F(2)=0.5的數的數2。 38臨界值臨界值 假設檢驗時,在給定的顯著水平下,判定假設檢驗時,在給定的顯著水平下,判定拒絕和接受時的數拒絕和接受時的數 其實是一個(對)分位

16、數其實是一個(對)分位數 臨界值之內為接受域,臨界值之外為拒絕臨界值之內為接受域,臨界值之外為拒絕域域392( )tn2( )tnt-t-分布的分位點分布的分位點40F F分布的分位點分布的分位點),(21nnF41統計量:設 是總體X的樣本,則函數 如果不包含任何未知參數則稱為樣本 的一個統計量 (3)樣本統計量及其分布)樣本統計量及其分布12,nXXX12,nfXXX12, ,nX XX簡言之,樣本的不含任何未知參數的函數。42常見的樣本統計量常見的樣本統計量212,1,;0,1/niNXXNxxNNnnxx 樣本均值:設是取自正態總體的樣本,樣本均值為:并且滿足:43212222(1)2

17、,1(-) 11/(1)niNNSXXNXTt nsnXsNSxx 關于樣本方差(略):設是取自正態總體的樣本,樣本方差為:可以證明:。(證明略)、 分別是樣本的平均數和標準差,由于:44第四節第四節 估計量及其衡量標準估計量及其衡量標準總體算術平均數算術平均數x統計量統計量用來推斷總體參數的統計量稱為用來推斷總體參數的統計量稱為估計量估計量(estimator), 其取值稱其取值稱為為估計值估計值。 同一個參數可以有多個不同的估計量。參數是唯一同一個參數可以有多個不同的估計量。參數是唯一的,但的,但估計量(統計量)是隨機變量估計量(統計量)是隨機變量,取值是不確定的。,取值是不確定的。 ?參

18、數參數45點估計點估計假設在總體假設在總體X中,中, 為未知參數(均值、方差為未知參數(均值、方差等)。由樣本(等)。由樣本(X1、X2Xn )構造統計量)構造統計量 來估計未知參數來估計未知參數 ,稱,稱 為為 的的點估計量點估計量。 將某次抽樣的樣本觀測值,代入將某次抽樣的樣本觀測值,代入即得該估計量的一個即得該估計量的一個點估計值點估計值 。),(21nXXX),(21nxxx46點估計量的優良性標準點估計量的優良性標準設為待估計的總體參數,設為待估計的總體參數, 為樣本統計量,為樣本統計量,衡量統計量衡量統計量 好壞的標準有:好壞的標準有:(1)線性性)線性性(2)無偏性)無偏性(3)

19、有效性)有效性(4)一致性)一致性47線性性:線性性:參數估計量是隨機變量觀測值的線性組合參數估計量是隨機變量觀測值的線性組合具有線性性的參數估計量稱為具有線性性的參數估計量稱為“線性估計線性估計”意義:意義:參數估計量可以表示為隨機變量觀測值的線性組合,參數估計量可以表示為隨機變量觀測值的線性組合,通常意味著與隨機變量有相同類型的概率分布。通常意味著與隨機變量有相同類型的概率分布。(前提是,隨機變量是正態分布,而這個假定一般前提是,隨機變量是正態分布,而這個假定一般線性回歸模型中都滿足)線性回歸模型中都滿足)48無偏性:無偏性:參數估計量的概率均值(數學期望)等于參數的真實值。參數估計量的概

20、率均值(數學期望)等于參數的真實值。意義:意義:意味著利用不同樣本反復估計,得到的估計值會以參數真實意味著利用不同樣本反復估計,得到的估計值會以參數真實值為中心分布。值為中心分布。即即 ,則稱為的無偏估計量,則稱為的無偏估計量)(E有偏有偏49有效性:有效性:僅僅滿足有效性是無意義的。實際上要求估計量是方差最僅僅滿足有效性是無意義的。實際上要求估計量是方差最小的線性無偏估計量小的線性無偏估計量設設 和和 是總體指標是總體指標 的兩個無偏估計量,的兩個無偏估計量,若若 ,則稱為比更有效的估計量,則稱為比更有效的估計量2112var( )var()12 的抽樣分布的抽樣分布 的抽樣分布的抽樣分布5

21、0 設是 的估計量,若則稱 是 的一致性估計量。1 1n nP P ( (X X , , , ,X X ) ) , 一致性:一致性:指隨著樣本容量的增大,估計量越來越接近被估指隨著樣本容量的增大,估計量越來越接近被估計的總體參數值。計的總體參數值。較小的樣本容量較小的樣本容量較大的樣本容量較大的樣本容量P(X )51形象感覺無偏性和有效性:形象感覺無偏性和有效性:4支比賽用槍的抽樣結果支比賽用槍的抽樣結果準而不精準而不精又精又準又精又準精而不準精而不準不精不準不精不準52第五節第五節 區間估計區間估計 點估計得到的估計值與真實值肯定有偏差,但是點估計本身不能反映估計量與真實值之間的近似程度。

22、點估計的基礎上,利用其分布信息,構造參數真實值的置信區間53 所謂區間估計就是:根據事先確定的置信度1 - 給出總體參數的一個估計范圍。 具體作法是找出兩個統計量 1(x1,xn)與2 (x1,xn),使 P(1 2 )=1- (1 , 2)稱為置信度為1-的置信區間 置信度1 - 反映了估計的可靠程度。在同樣的方法得到的所有置信區間中,有100(1- % 的區間包含總體參數。 置信下限置信下限置信上限置信上限置信區間置信區間估計值估計值(點估計點估計)54對區間估計的形象比喻 我們經常說某甲的成績“大概80分左右”,可以看成一個區間估計。(某甲的成績為被估計的參數) P(1 2 )=大概的準

23、確程度( 1-) 如:P(75 (3.162.2622)H0.01, |t| 3.163.2492TT時,拒絕原假設,接受。(),不拒絕原假設84例(利用樣本方差):某機器制造出的肥皂厚度為例(利用樣本方差):某機器制造出的肥皂厚度為5公分。今公分。今欲了解機器性能是否良好,隨機抽取欲了解機器性能是否良好,隨機抽取10塊肥皂為樣本,測得塊肥皂為樣本,測得平均厚度為平均厚度為5.3公分,樣本標準差為公分,樣本標準差為0.3公分。試分別以公分。試分別以0.05和和0.01的顯著性水平檢驗機器性能良好的假設。的顯著性水平檢驗機器性能良好的假設。得到不同結論是否矛盾?利用得到不同結論是否矛盾?利用P值

24、判斷值判斷2492. 3,01. 02622. 2,05. 022TTtT0.05/2=2.263.16T0.01/2=3.25P(3.16)=0.0115585例(利用樣本方差):某機器制造出的肥皂厚度為例(利用樣本方差):某機器制造出的肥皂厚度為5公分。今公分。今欲了解機器性能是否良好,隨機抽取欲了解機器性能是否良好,隨機抽取10塊肥皂為樣本,測得塊肥皂為樣本,測得平均厚度為平均厚度為5.3公分,樣本標準差為公分,樣本標準差為0.3公分。試分別以公分。試分別以0.05和和0.01的顯著性水平檢驗機器性能良好的假設。的顯著性水平檢驗機器性能良好的假設。區間估計區間估計2( ,) (0,1)(

25、1)S(1)iXXXNUNnnnxtt nsnxtt nsn因為:標準化:未知,用s代替,所以利用:本題,已知樣本標準差 ,所以選擇86 這時可用這時可用 t 分布去建立參數估計的置信區間。選定分布去建立參數估計的置信區間。選定,查,查 t 分分布表得顯著性水平為布表得顯著性水平為 ,自由度為,自由度為n-1的的t分布表:分布表:則有臨界值則有臨界值 即即置信度為置信度為1-的置信區間為:的置信區間為: 2(1)tn221xsttnP 221ssP xxnttn 222ssxxntnt87 選定選定=0.05,查,查 t 分布表得顯著性水平為,自由度為分布表得顯著性水平為,自由度為9的的t分布

26、表:分布表:則有臨界值則有臨界值 置信度為置信度為1-的置信區間為:的置信區間為: 20.025(1)(9)2.262tnt122 0.30.35.3-2.2625.3+2.2621010(5.08,5.51)H ,Htssxxntn0即:(, )得: =5在置信區間外,所以拒絕接受88區間估計與假設檢驗的聯系1.區間估計與假設檢驗都是根據樣本信息對總體參數進行推斷,都是以抽樣分布為理論依據,都是建立在概率基礎上的推斷,推斷結果都有一定的可信程度或風險。2.對同一問題的參數進行推斷,二者使用同一樣本、同一統計量、同一分布,因而二者可以相互轉換。區間估計問題可以轉換成假設問題,假設問題也可以轉換

27、成區間估計問題。區間估計中的置信區間對應于假設檢驗中的接受區域,置信區間以外的區域就是假設檢驗中的拒絕域。89例例2.某廠采用自動包裝機分裝產品,假定每包產品的重量服從某廠采用自動包裝機分裝產品,假定每包產品的重量服從正態分布,每包標準重量為正態分布,每包標準重量為1000克。某日隨機抽查克。某日隨機抽查9包,測包,測得樣本平均重量為得樣本平均重量為986克,樣本標準差為克,樣本標準差為24克。試問在克。試問在0.05的顯著性水平上,能否認為這天自動包裝機工作正常?的顯著性水平上,能否認為這天自動包裝機工作正常?01:1000,:1000HH合乎規定要求第一步:提出假設第一步:提出假設第二步:構造統計量第二步:構造統計量(1)xtt nsn利用:2( ,)XN u重量: 90第三步:計算統計量的值第三步:計算統計量的值986 10001.75249xtsn 第四步:在給定的顯著性水平下查臨界值:第四步:在給定的顯著性水平下查臨界值: =0.05雙側檢驗雙側檢驗 /2 /2=

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論