統計學第六版人大版復習筆記_第1頁
統計學第六版人大版復習筆記_第2頁
統計學第六版人大版復習筆記_第3頁
統計學第六版人大版復習筆記_第4頁
統計學第六版人大版復習筆記_第5頁
已閱讀5頁,還剩11頁未讀, 繼續免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

一、統計學原理期末考試試題類型及結構1、單項選擇題:30分??荚u對基本概念了解和計算方法應用。2、判斷題:10分??荚u對基本理論、基本概念記憶和了解。3、簡答題:30分??荚u對基本概念、基本理論、基本方法了解和掌握情況。4、計算題:30分??荚u對基本計算方法了解、掌握程度及綜合應用能力。二、期末考試形式及答題時限期末考試形式為閉卷筆試;答題時限為90分鐘;能夠攜帶計算器。三、各章復習內容期末復習資料:教材、學習指導書習題、作業第一章統計總論了解統計學含義答:搜集、處理、分析、解釋數據并從數據中得出結論科學(搜集數據:取得數據;處理數據:整理與圖表展示;分析數據:利用統計方法分析數據;數據解釋:結果說明;得到結論:從數據分析中得出客觀結論)第二章數據搜集數據起源答:(1)數據間接起源:系統外部數據(統計部門和政府部門公布關于資料,如各類統計年鑒、各類經濟信息中心、信息咨詢機構、專業調查機構等提供數據、各類專業期刊、報紙、書籍所提供資料、各種會議,如博覽會、展銷會、交易會及專業性、學術性研討會上交流關于資料、從互聯網或圖書館查閱到相關資料)系統內部數據(業務資料,如與業務經營活動關于各種單據,統計、經營活動過程中各種統計報表、各種財務,會計核實和分析資料等)(2)數據直接起源(原始數據)調查數據試驗數據搜集數據基本方法:調查數據(自填式、面訪式、電話式);試驗數據抽樣誤差:因為抽樣隨機性所帶來誤差;全部樣本可能結果與總體真值之間平均性差異;影響抽樣誤差大小原因(樣本量大小、總體變異性)重點:數據起源、數據搜集方法、抽樣誤差數據圖表展示重點:熟悉條形圖、直方圖、餅圖、環形圖、箱線圖、線圖等1.對分類數據和次序數據主要是作分類整理;對數值型數據則主要是作分組整理2.適合于低層次數據整理和顯示方法也適合于高層次數據;但適合于高層次數據整理和顯示方法并不適合于低層次數據3.分類數據圖示—條形圖:用寬度相同條形高度或長短來表示各類別數據圖形;有單式條形圖、復式條形圖等形式;主要用于反應分類數據頻數分布,繪制時,各類別能夠放在縱軸,稱為條形圖,也能夠放在橫軸,稱為柱形圖4.分類數據圖示—帕累托圖:按各類別數據出現頻數多少排序后繪制柱形圖;主要用于展示分類數據分布5.分類數據圖示—餅圖:也稱圓形圖,是用圓形及圓內扇形角度來表示數值大小圖形;主要用于表示樣本或總體中各組成部分所占百分比,用于研究結構性問題;繪制圓形圖時,樣本或總體中各部分所占百分比用圓內各個扇形角度表示,這些扇形中心角度,按各部分數據百分比乘以360度確定。6.環形圖:中間有一個“空洞”,樣本或總體中每一部分數據用環中一段表示;與餅圖類似,但又有區分(餅圖只能顯示一個總體各部分所占百分比;環形圖則能夠同時繪制多個樣本或總體數據系列,每一個樣本或總體數據系列為一個環);用于結構比較研究;用于展示分類和次序數據7.數值型數據A組距分組:將變量值一個區間作為一組;適合于連續變量;適合于變量值較多情況;需要遵照“不重不漏”標準;可采取等距分組,也可采取不等距分組B直方圖:用于展示分組數據分布一個圖形;用矩形寬度和高度來表示頻數分布(本質上是用矩形面積來表示頻數分布);在直角坐標中,用橫軸表示數據分組,縱軸表示頻數或頻率,各組與對應頻數就形成了一個矩形,即直方圖。C直方圖與條形圖區分:條形圖是用條形長度(橫置時)表示各類別頻數多少,其寬度(表示類別)則是固定;直方圖是用面積表示各組頻數多少,矩形高度表示每一組頻數或百分比,寬度則表示各組組距,其高度與寬度都有意義;直方圖各矩形通常是連續排列,條形圖則是分開排列;條形圖主要用于展示分類數據,直方圖則主要用于展示數值型數據。D未分組數據—莖葉圖:用于顯示未分組原始數據分布;由“莖”和“葉”兩部分組成,其圖形是由數字組成;以該組數據高位數值作樹莖,低位數字作樹葉;樹葉上只保留最終一位數字;莖葉圖類似于橫置直方圖,但又有區分(直方圖可觀察一組數據分布情況,但沒有給出詳細數值、莖葉圖既能給出數據分布情況,又能給出每一個原始數值,保留了原始數據信息、直方圖適適用于大批量數據,莖葉圖適適用于小批量數據)E未分組數據—箱線圖:用于顯示未分組原始數據分布;由一組數據5個特征值繪制而成,它由一個箱子和兩條線段組成;繪制方法(首先找出一組數據5個特征值,即最大值、最小值、中位數Me和兩個四分位數(下四分位數QL和上四分位數QU)連接兩個四分位數畫出箱子,再將兩個極值點與箱子相連接)F時間序列數據—線圖:表示時間序列數據趨勢圖形;時間通常繪在橫軸,數據繪在縱軸;圖形長寬百分比大致為10:7第四章數據概括性度量(計算章節)重點:眾數、中位數、分位數、平均數、方差(計算);自由度、偏態、峰態等1.離中趨勢:數據分布另一個主要特征;反應各變量值遠離其中心值程度(離散程度);從另一個側面說明了集中趨勢測度值代表程度;不一樣類型數據有不一樣離散程度測度值。

2.自由度:自由度是指數據個數與附加給獨立觀察值約束或限制個數之差;從字面涵義來看,自由度是指一組數據中能夠自由取值個數;當樣本數據個數為n時,若樣本平均數確定后,則附加給n個觀察值約束個數就是1個,所以只有n-1個數據能夠自由取值,其中必有一個數據不能自由取值;按著這一邏輯,假如對n個觀察值附加約束個數為k個,自由度則為n-k3.偏態:統計學家Pearson于1895年首次提出;數據分布偏斜程度測度;偏態系數=0為對稱分布、偏態系數>0為右偏分布、偏態系數<0為左偏分布、偏態系數大于1或小于-1,被稱為高度偏態分布;偏態系數在0.5~1或-1~-0.5之間,被認為是中等偏態分布;偏態系數越靠近0,偏斜程度就越低。4.峰態:統計學家Pearson于19首次提出;數據分布扁平程度測度;峰態系數=0扁平峰度適中、峰態系數<0為扁平分布、峰態系數>0為尖峰分布。第五章概率與概率分布重點:概率性質、概率加法法則、條件概率與獨立事件、期望、方差、正態分布加法公式P(A∪B)=P(A)+P(B)-P(A∩B)乘積公式:P(AB)=P(B)P(A|B),或P(AB)=P(A)P(B|A)獨立公式:P(AB)=P(A)·P(B)(1)概率性質非負性對任意事件A,有0P(A)1規范性必定事件概率為1;不可能事件概率為0。即P()=1;P()=0可加性若A與B互斥,則P(A∪B)=P(A)+P(B)推廣到多個兩兩互斥事件A1,A2,…,An,有P(A1∪A2∪…∪An)=P(A1)+P(A2)+…+P(An)(2)條件概率:在事件B已經發生條件下,求事件A發生概率,稱這種概率為事件B發生條件下事件A發生條件概率,記為P(A|B)=P(AB)P(B)事件獨立性:一個事件發生是否并不影響另一個事件發生概率,則稱兩個事件獨立;若事件A與B獨立,則P(B|A)=P(B),P(A|B)=P(A);此時概率乘法公式可簡化為P(AB)=P(A)·P(B)推廣到n個獨立事件,有P(A1A2…An)=P(A1)P(A2)…P(An)離散型隨機變量數學期望:在離散型隨機變量X一切可能取值完備組中,各可能取值xi與其取相對應概率pi乘積之和;描述離散型隨機變量取值集中程度;計算公式為離散型隨機變量方差:隨機變量X每一個取值與期望值離差平方和數學期望,記為D(X);描述離散型隨機變量取值分散程度;計算公式為正態分布函數性質:概率密度函數在x上方,即f(x)>0;正態曲線最高點在均值,它也是分布中位數和眾數;正態分布是一個分布族,每一特定正態分布經過均值和標準差來區分。決定了圖形中心位置,決定曲線平緩程度,即寬度;曲線f(x)相對于均值對稱,尾端向兩個方向無限延伸,且理論上永遠不會與橫軸相交;正態曲線下總面積等于1;隨機變量概率由曲線下面積給出(描述連續型隨機變量最主要分布)第六章統計量及其抽樣分布重點: 統計量,c2分布,t分布,F分布統計量:設X1,X2,…,Xn是從總體X中抽取容量為n一個樣本,假如由此樣本結構一個函數T(X1,X2,…,Xn),不依賴于任何未知參數,則稱函數T(X1,X2,…,Xn)是一個統計量(樣本均值、樣本百分比、樣本方差等都是統計量)統計量是樣本一個函數;統計量是統計推斷基礎2分布:由阿貝(Abbe)于1863年首先給出,日后由海爾墨特(Hermert)和卡·皮爾遜(K·Pearson)分別于1875年和19推導出來;分布變量值一直為正;分布形狀取決于其自由度n大小,通常為不對稱正偏分布,但伴隨自由度增大逐步趨于對稱;期望為:E(2)=n,方差為:D(2)=2n(n為自由度)t分布:高塞特(W.S.Gosset)于19在一篇以“Student”(學生)為筆名論文中首次提出;t分布是類似正態分布一個對稱分布,它通常要比正態分布平坦和分散;一個特定分布依賴于稱之為自由度參數。伴隨自由度增大,分布也逐步趨于正態分布。F分布:由統計學家費希爾(R.A.Fisher)提出,以其姓氏第一個字母來命名。中心極限定理:從均值為,方差為2一個任意總體中抽取容量為n樣本,當n充分大時,樣本均值抽樣分布近似服從均值為μ、方差為σ2/n正態分布。

第七章參數估量重點:置信區間置信水平:將結構置信區間步驟重復很數次,置信區間包含總體參數真值次數所占百分比稱為置信水平;表示為(1-a)%(a為是總體參數未在區間內百分比)慣用置信水平值有99%,95%,90%(對應a為0.01,0.05,0.10)置信區間:由樣本統計量所結構總體參數估量區間稱為置信區間;統計學家在某種程度上確信這個區間會包含真正總體參數,所以給它取名為置信區間;用一個詳細樣本所結構區間是一個特定區間,我們無法知道這個樣本所產生區間是否包含總體參數真值我們只能是希望這個區間是大量包含總體參數真值區間中一個,但它也可能是少數幾個不包含參數真值區間中一個;總體參數以一定概率落在這一區間表述是錯誤慣用置信水平Za/2值置信水平Aa/2Za/290%0.10.051.64595%0.050.0251.9699%0.010.0052.58第八章假設檢驗重點:原假設、備擇假設、假設檢驗流程、均值檢驗等原假設:待檢驗假設,又稱“0假設”;研究者想搜集證據給予反正確假設;總是有等號=,£或3表示為H0(H0:m=某一數值;指定為=號,即£或3;比如,H0:m=3190(克))備擇假設:與原假設對立假設,也稱“研究假設”;研究者想搜集證據給予支持假設總是有不等號:1,<或>表示為H1H1:m<某一數值,或m>某一數值比如,H1:m<3910(克),或m>3910(克)。假設檢驗中兩類錯誤:1. 第一類錯誤(棄真錯誤)原假設為真時拒絕原假設;會產生一系列后果;第一類錯誤概率為a;被稱為顯著性水平2. 第二類錯誤(取偽錯誤);原假設為假時接收原假設;第二類錯誤概率為b(Beta)假設檢驗流程:提出假設、確定適當檢驗統計量、要求顯著性水平、計算檢驗統計量值、做出統計決議。顯著性水平a:1.是一個概率值;原假設為真時,拒絕原假設概率;被稱為抽樣分布拒絕域;表示為a(alpha);慣用a值有0.01,0.05,0.10;由研究者事先確定總體均值檢驗:(選擇題:已知-Z統計量;未知-T統計量)第九章分類數據分析重點:列聯表、相關系數列聯表:由兩個以上變量交叉分類頻數分布表;行變量類別用r表示,ri表示第i個類別;列變量類別用c表示,cj表示第j個類別;每種組合觀察頻數用fij表示;表中列出了行變量和列變量全部可能組合,所以稱為列聯表;一個r行c列列聯表稱為rc列聯表列聯表中相關測量:品質相關-對品質數據(分類和次序數據)之間相關程度測度;列聯表相關測量統計量主要有(相關系數、列聯相關系數、V相關系數)相關系數:測度22列聯表中數據相關程度;對于22列聯表,系數值在0~1之間列聯相關系數:C取值范圍是0C<1;C=0表明列聯表中兩個變量獨立;C數值大小取決于列聯表行數和列數,并隨行數和列數增大而增大;依照不一樣行和列列聯表計算列聯絡數不便于比較V相關系數:V取值范圍是0V1;V=0表明列聯表中兩個變量獨立;V=1表明列聯表中兩個變量完全相關;不一樣行和列列聯表計算列聯絡數不便于比較;當列聯表中有一維為2,min[(r-1),(c-1)]=1,此時V=關于小單元頻數有兩條準則:假如只有兩個單元,每個單元期望頻數必須大于或等于5;倘若有兩個以上單元,假如百分之二十單元期望頻數小于5,則不能用2檢驗。第10章方差分析重點:單原因方差分析表(基本結構)(說出每一步驟意思)單原因方差分析分析步驟提出假設:通常提法(H0:m1=m2=…=mk自變量對因變量沒有顯著影響;H1:m1,m2,…,mk不全相等自變量對因變量有顯著影響注意:拒絕原假設,只表明最少有兩個總體均值不相等,并不意味著全部均值都不相等)結構檢驗統計量:計算各樣本均值、計算全部觀察值總均值、計算各誤差平方和(總平方和SST、組間平方和SSA、組內平方和SSESST=SSA+SSE)、計算統計量(MSA=SSA/k-1MSE=SSE/n-kF=MSA/MSE~F)統計決議:假如原假設成立,則表明沒有系統誤差,組間方差MSA與組內方差MSE比值差異就不會太大。若F>Fa則拒絕原假設HO結論:表明有顯著差異第11章一元線性回歸重點:相關系數、回歸方程相關系數:度量變量之間關系強度一個統計量;對兩個變量之間線性相關強度度量稱為簡單相關系數;若相關系數是依照總體全部數據計算,稱為總體相關系數,記為;若是依照樣本數據計算,則稱為樣本相關系數,簡稱為相關系數,記為r相關系數性質:r取值范圍是[-1,1]|r|=1,為完全相關r=1,為完全正相關r=-1,為完全負正相關r=0,不存在線性相關關系-1r<0,為負相關0<r1,為正相關|r|越趨于1表示關系越強;|r|越趨于0表示關系越弱回歸方程:描述y平均值或期望值怎樣依賴于x方程稱為回歸方程一元線性回歸方程形式以下E(y)=0+1x方程圖示是一條直線,也稱為直線回歸方程0是回歸直線在y軸上截距,是當x=0時y期望值1是直線斜率,稱為回歸系數,表示當x每變動一個單位時,y平均變動值第12章多元線性回歸重點:多重共線性、回歸方程多重共線性:回歸模型中兩個或兩個以上自變量彼此相關;多重共線性帶來問題有:可能會使回歸結果造成混亂,甚至會把分析引入歧途;可能對參數估量值正負號產生影響,尤其是各回歸系數正負號有可能同預期正負號相反多重共線性情況:模型中各對自變量之間顯著相關;當模型線性關系(F檢驗)顯著時,幾乎全部回歸系數t檢驗卻不顯著;回歸系數正負號與預期相反第13章時間

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論