統計學高教后答案_第1頁
統計學高教后答案_第2頁
統計學高教后答案_第3頁
統計學高教后答案_第4頁
統計學高教后答案_第5頁
已閱讀5頁,還剩13頁未讀 繼續免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

1、統計學第一章1. 什么是統計學?怎樣理解統計學與統計數據的關系?答:統計學是一門收集、整理、顯示和分析統計數據的科學。統計學與統計數據存在密切關系,統計學闡述的統計方法來源于對統計數據的研究,目的也在于對統計數據的研究,離開了統計數據,統計方法以致于統計學就失去了其存在意義。2簡要說明統計數據的來源答:統計數據來源于兩個方面:直接的數據:源于直接組織的調查、觀察和科學實驗,在社會經濟管理領域,主要通過統計調查方式來獲得,如普查和抽樣調查。間接的數據:從報紙、圖書雜志、統計年鑒、網絡等渠道獲得。3.簡要說明抽樣誤差和非抽樣誤差答:統計調查誤差可分為非抽樣誤差和抽樣誤差。非抽樣誤差是由于調查過程中

2、各環節工作失誤造成的,從理論上看,這類誤差是可以避免的。抽樣誤差是利用樣本推斷總體時所產生的誤差,它是不可避免的,但可以控制的。4.答:(1)有兩個總體:A品牌所有產品、B品牌所有產品 (2)變量:口味(如可用10分制表示) (3)匹配樣本:從兩品牌產品中各抽取1000瓶,由1000名消費者分別打分,形成匹配樣本。 (4)從匹配樣本的觀察值中推斷兩品牌口味的相對好壞。第二章、統計數據的描述思考題1描述次數分配表的編制過程答:分二個步驟:(1) 按照統計研究的目的,將數據按分組標志進行分組。按品質標志進行分組時,可將其每個具體的表現作為一個組,或者幾個表現合并成一個組,這取決于分組的粗細。按數量

3、標志進行分組,可分為單項式分組與組距式分組單項式分組將每個變量值作為一個組;組距式分組將變量的取值范圍(區間)作為一個組。統計分組應遵循“不重不漏”原則(2) 將數據分配到各個組,統計各組的次數,編制次數分配表。2解釋洛倫茲曲線及其用途答:洛倫茲曲線是20世紀初美國經濟學家、統計學家洛倫茲根據意大利經濟學家帕累托提出的收入分配公式繪制成的描述收入和財富分配性質的曲線。洛倫茲曲線可以觀察、分析國家和地區收入分配的平均程度。3. 一組數據的分布特征可以從哪幾個方面進行測度?答:數據分布特征一般可從集中趨勢、離散程度、偏態和峰度幾方面來測度。常用的指標有均值、中位數、眾數、極差、方差、標準差、離散系

4、數、偏態系數和峰度系數。4 怎樣理解均值在統計中的地位?答:均值是對所有數據平均后計算的一般水平的代表值,數據信息提取得最充分,具有良好的數學性質,是數據誤差相互抵消后的客觀事物必然性數量特征的一種反映,在統計推斷中顯示出優良特性,由此均值在統計中起到非常重要的基礎地位。受極端數值的影響是其使用時存在的問題。5 對比率數據的平均,為什么采用幾何平均?答:比率數據往往表現出連乘積為總比率的特征,不同于一般數據的和為總量的性質,由此需采用幾何平均。6. 簡述眾數、中位數和均值的特點和應用場合。答:眾數、中位數和均值是分布集中趨勢的三個主要測度,眾數和中位數是從數據分布形狀及位置角度來考慮的,而均值

5、是對所有數據計算后得到的。眾數容易計算,但不是總是存在,應用場合較少;中位數直觀,不受極端數據的影響,但數據信息利用不夠充分;均值數據提取的信息最充分,但受極端數據的影響。7 為什么要計算離散系數?答:在比較二組數據的差異程度時,由于方差和標準差受變量值水平和計量單位的影響不能直接比較,由此需計算離散系數作為比較的指標。練習題:1. 頻數分布表如下:服務質量等級評價的頻數分布服務質量等級家庭數(頻率)頻率%A1414B2121C3232D1818E1515合計100100 條形圖(略)2 (1)采用等距分組:n=40 全距=152-88=64 取組距為10組數為 64/10=6.4 取6組 頻

6、數分布表如下:40個企業按產品銷售收入分組表按銷售收入分組(萬元)企業數(個)頻率(%)向上累積向下累積企業數頻率企業數頻率100以下100110110120120130130140140以上591274312.522.530.017.510.07.55142633374012.535.065.082.592.5100.04035261473100.087.565.035.017.57.5合計40100.0 (2) 某管理局下屬40個企分組表按銷售收入分組(萬元)企業數(個)頻率(%)先進企業良好企業一般企業落后企業11119927.527.522.522.5合計40100.03 采用等距分組

7、全距=49-25=24n=40 取組距為5,則組數為 24/5=4.8 取5組頻數分布表:按銷售額分組(萬元)頻數(天數) 25-30 30-35 35-40 40-45 45-50461596 合計 404. (1)排序略。(2)頻數分布表如下: 100只燈泡使用壽命非頻數分布按使用壽命分組(小時)燈泡個數(只)頻率(%)650660226606705567068066680690141469070026267007101818710720131372073010107307403374075033合計100100 直方圖(略)。 (3)莖葉圖如下:651866145686713467968

8、1123334555889969001111222334455666778888997000112234566677888971002233567788972012256789973356741475 等距分組n=65 全距=9-(-25)=34 取組距為5,組數=34/5=6.8, 取 7組頻數分布表:按氣溫分組天數-25 - -20-20 - -15-15 - -10-10 - -5-5 - 00 - 55 - 108810141447合計657 (1)莖葉圖如下:A班樹莖B班數據個數樹 葉樹葉數據個數03592144044842975121197665332110601123468892

9、398877766555554443332100700113449876655200812334566632220901145660100003(3) A班考試成績的分布比較集中,且平均分數較高;B班考試成績的分布比A班分散,且平均成績較A班低8. 箱線圖如下:(特征請讀者自己分析)9(1)=274.1(萬元);Me =272.5 ;QL=260.25;QU =291.25。(2)(萬元)。10甲企業平均成本19.41(元),乙企業平均成本18.29(元);原因:盡管兩個企業的單位成本相同,但單位成本較低的產品在乙企業的產量中所占比重較大,因此拉低了總平均成本。11=426.67(萬元);11

10、6.48(萬元)13(1)離散系數,因為它消除了不同組數據水平高低的影響。 (2)成年組身高的離散系數:; 幼兒組身高的離散系數:; 由于幼兒組身高的離散系數大于成年組身高的離散系數,說明幼兒組身高的離散程度相對較大。14 表給出了一些主要描述統計量方法A方法B方法C平均165.6平均128.73平均125.53中位數165中位數129中位數126眾數164眾數128眾數126標準偏差2.13標準偏差1.75標準偏差2.77極差8極差7極差12最小值162最小值125最小值116最大值170最大值132最大值128先考慮平均指標,在平均指標相近時考慮離散程度指標。應選擇方法A,其均值遠高于其他

11、兩種方法,同時離散程度與其他兩組相近。15(1)風險的度量是一個不斷發展的問題,在古典金融理論中,主要采用標準差這個統計測度來反映,現代金融中,采用在險值(value at risk)。(2)無論采用何種風險度量,商業類股票較小(3)個人對股票的選擇,與其風險偏好等因素有關。第四章1.總體分布指某個變量在總體中各個個體上的取值所形成的分布,它是未知的,是統計推斷的對象。從總體中隨機抽取容量為n的樣本,它的分布稱為樣本分布。由樣本的某個函數所形成的統計量,它的分布稱為抽樣分布(如樣本均值、樣本方差的分布)2.重復抽樣和不重復抽樣下,樣本均值的標準差分別為: 因此不重復抽樣下的標準差小于重復抽樣下

12、的標準差,兩者相差一個調整系數3.解釋中心極限定理的含義答:在抽樣推斷中,中心極限定理指出,不論總體服從何種分布,只要其數學期望和方差存在,對總體進行重復抽樣時,當樣本容量充分大,樣本均值趨近于正態分布。中心極限定理為均值的抽樣推斷奠定了理論基礎。第四章、參數估計1 簡述評價估計量好壞的標準答:評價估計量好壞的標準主要有:無偏性、有效性和相合性。設總體參數的估計量有和,如果,稱是無偏估計量;如果和是無偏估計量,且小于,則比更有效;如果當樣本容量,則是相合估計量。2.說明區間估計的基本原理答:總體參數的區間估計是在一定的置信水平下,根據樣本統計量的抽樣分布計算出用樣本統計量加減抽樣誤差表示的估計

13、區間,使該區間包含總體參數的概率為置信水平。置信水平反映估計的可信度,而區間的長度反映估計的精確度。3解釋置信水平為95的置信區間的含義答:總體參數是固定的,未知的,置信區間是一個隨機區間。置信水平為95的置信區間的含義是指,在相同條件下多次抽樣下,在所有構造的置信區間里大約有95包含總體參數的真值。4簡述樣本容量與置信水平、總體方差、允許誤差的關系答:以估計總體均值時樣本容量的確定公式為例:樣本容量與置信水平成正比、與總體方差成正比、與允許誤差成反比。2. 解:由題意:樣本容量為(1) 若(2)(3) 若2 解:由題可得:盡管采用不重復抽樣,但因為樣本比例很小(不到0.5%),其抽樣誤差與重

14、復抽樣下近似相同,采用重復抽樣的抽樣誤差公式來計算。為大樣本,則在的顯著性水平下的置信區間為: 當,置信區間為(2.88,3.76)當,置信區間為(2.80,3.84)當,置信區間為(2.63,4.01)5解:假設距離服從正態分布,平均距離的95的置信區間為(7.18,11.57)7解:由題意:。因為均超過5,大樣本(1)總體中贊成比率的顯著性水平為的置信區間為當時,置信區間為(50.7%,77.3%)(2)如果要求允許誤差不超過10,置信水平為95,則應抽取的戶數: 8.此題需先檢驗兩總體的方差是否相等: 在5%的顯著性水平下,,不拒絕原假設認為兩總體方差是相同的。(1)即(1.93,17.

15、669)(2)即(0.27,19.32)11.大樣本的情況 (1)90%置信度下(3.021%,16.979)(2)95%置信度下(1.684%,18.316%)12解:由題可計算:兩個總體方差比在95的置信區間為:14解:由題意:則必須抽取的顧客數為:第五章、假設檢驗思考題11理解原假設與備擇假設的含義,并歸納常見的幾種建立原假設與備擇假設的原則.答:原假設通常是研究者想收集證據予以反對的假設;而備擇假設通常是研究者想收集證據予以支持的假設。建立兩個假設的原則有:(1)原假設和備擇假設是一個完備事件組。(2)一般先確定備擇假設。再確定原假設。(3)等號“”總是放在原假設上。(4)假設的確定帶

16、有一定的主觀色彩。(5)假設檢驗的目的主要是收集證據來拒絕原假設。2第一類錯誤和第二類錯誤分別是指什么?它們發生的概率大小之間存在怎樣的關系?答:第I類錯誤指,當原假設為真時,作出拒絕原假設所犯的錯誤,其概率為。第II類錯誤指當原假設為假時,作出接受原假設所犯的錯誤,其概率為。在其他條件不變時,增大,減小;增大,減小。3什么是顯著性水平?它對于假設檢驗決策的意義是什么?答:假設檢驗中犯第一類錯誤的概率被稱為顯著性水平。顯著性水平通常是人們事先給出的一個值,用于檢驗結果的可靠性度量,但確定了顯著性水平等于控制了犯第一錯誤的概率,但犯第二類錯誤的概率卻是不確定的,因此作出“拒絕原假設”的結論,其可

17、靠性是確定的,但作出“不拒絕原假設”的結論,其可靠性是難以控制的。4什么是p值?p值檢驗和統計量檢驗有什么不同?答:p值是當原假設為真時,檢驗統計量小于或等于根據實際觀測樣本數據計算得到的檢驗統計量值的概率。P值常常作為觀察到的數據與原假設不一致程度的度量。統計量檢驗采用事先確定顯著性水平,來控制犯第一類錯誤的上限,p值可以有效地補充提供地關于檢驗可靠性的有限信息。值檢驗的優點在于,它提供了更多的信息,讓人們可以選擇一定的水平來評估結果是否具有統計上的顯著性。5什么是統計上的顯著性?答:一項檢驗在統計上是顯著的(拒絕原假設),是指這樣的(樣本)結果不是偶然得到的,或者說,不是靠機遇能夠得到的。

18、顯著性的意義在于“非偶然的練習題3解(1)第一類錯誤是,供應商提供的炸土豆片的平均重量不低于60克,但店方拒收并投訴。 (2)第二類錯誤是,供應商提供的炸土豆片的平均重量低于60克,但店方沒有拒收。 (3)顧客會認為第二類錯誤很嚴重,而供應商會將第一類錯誤看得較嚴重。4解:提出假設 已知 (1) 檢驗統計量為(2) 拒絕規則是:若,拒絕;否則,不拒絕(3) 由得:,拒絕,認為改進工藝能提高其平均強度。5解: 設為如今每個家庭每天收看電視的平均時間(小時)需檢驗的假設為:調查的樣本為:大樣本下檢驗統計量為:在0.01的顯著性水平下,右側檢驗的臨界值為因為,拒絕,可認為如今每個家庭每天收看電視的平

19、均時間增加了6. 解:提出假設 已知:檢驗統計量 拒絕,可判定電視使用壽命的方差顯著大于VCR7. 解:提出假設: ,獨立大樣本,則檢驗統計量為: 而2.33 因為,拒絕,平均裝配時間之差不等于5分鐘8. 解:匹配小樣本 提出假設: 由計算得:,檢驗統計量為,不拒絕,不能認為廣告提高了潛在購買力的平均得分。9. 解:提出假設: 已知: 大樣本,則檢驗統計量為: 而,因為,拒絕,可認為信息追求者消極度假的比率顯著小于非信息追求者。10. 解:提出假設: 由題計算得: 檢驗統計量為:,而 ,所以拒絕,認為兩種機器的方差存在顯著差異。相關與回歸分析思考題1 相關分析與回歸分析的區別與聯系是什么?答:

20、相關與回歸分析是研究變量之間不確定性統計關系的重要方法,相關分析主要是判斷兩個或兩個以上變量之間是否存在相關關系,并分析變量間相關關系的形態和程度。回歸分析主要是對存在相關關系的現象間數量變化的規律性作出測度。但它們在研究目的和對變量的處理上有明顯區別。它們均是統計方法,不能揭示現象之間的本質關系。3.什么是總體回歸函數和樣本回歸函數?它們之間的區別是什么?答:以簡單線性回歸模型為例,總體回歸函數是總體因變量的條件期望表現為自變量的函數:,或。總體回歸函數是確定的和未知的,是回歸分析所估計的對象。樣本回歸函數是根據樣本數據所估計出的因變量與自變量之間的函數關系:或。回歸分析的目的是用樣本回歸函

21、數來估計總體回歸函數。它們的區別在于,總體回歸函數是未知但是確定的,而樣本回歸函數是隨樣本波動而變化;總體回歸函數的參數是確定的,而樣本回歸函數的系數是隨機變量;總體回歸函數中的誤差項不可觀察的,而樣本回歸函數中的殘差項是可以觀察的。4. 什么是隨機誤差項和殘差?它們之間的區別是什么?答:隨機誤差項表示自變量之外其他變量的對因變量產生的影響,是不可觀察的,通常要對其給出一定的假設。殘差項指因變量實際觀察值與樣本回歸函數計算的估計值之間的偏差,是可以觀測的。它們的區別在于,反映的含義是不同且可觀察性也不同,它們的聯系可有下式:5.為什么在對參數進行最小二乘估計時,要對模型提出一些基本的假定?答:

22、最小二乘法只是尋找估計量的一種方法,其尋找到的估計量是否具有良好的性質則依賴模型的一些基本的假定。只有在一系列的經典假定下,最小二乘估計量才是BLUE。15. 為什么在多元回歸中要對可決系數進行修正?答:在樣本容量一定下,隨著模型中自變量個數的增加,可決系數會隨之增加,模型的擬合程度上升,但自由度會損失,從而降低推斷的精度,因此需要用自由度來修正可決系數,用修正的可決系數來判斷增加自變量的合適性。16在多元線性回歸中,對參數作了t檢驗后為什么還要作方差分析和F檢驗?答:t檢驗僅是對單個系數的顯著性進行檢驗,由于自變量之間存在著較為復雜的關系,因此有必要對回歸系數進行整體檢驗,方差分析和F檢驗就是對回歸方程的整體統計顯著性進行的檢驗方法。練習題1. 解:設簡單線性

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論