(NEW)北京交通大學經濟管理學院《432統計學》專業碩士歷年考研真題及詳解_第1頁
(NEW)北京交通大學經濟管理學院《432統計學》專業碩士歷年考研真題及詳解_第2頁
(NEW)北京交通大學經濟管理學院《432統計學》專業碩士歷年考研真題及詳解_第3頁
(NEW)北京交通大學經濟管理學院《432統計學》專業碩士歷年考研真題及詳解_第4頁
(NEW)北京交通大學經濟管理學院《432統計學》專業碩士歷年考研真題及詳解_第5頁
已閱讀5頁,還剩93頁未讀 繼續免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

1、目錄 HYPERLINK l br0 2011 HYPERLINK l br0 年北京交通大學經濟管理學院 HYPERLINK l br0 432 HYPERLINK l br0 統計學 HYPERLINK l br0 HYPERLINK l br0 專業碩士 HYPERLINK l br0 HYPERLINK l br0 考研真題 HYPERLINK l br0 2011 HYPERLINK l br0 年北京交通大學經濟管理學院 HYPERLINK l br0 432 HYPERLINK l br0 統計學 HYPERLINK l br0 HYPERLINK l br0 專業碩士 HYPE

2、RLINK l br0 HYPERLINK l br0 考研真題及詳解 HYPERLINK l br0 2012 HYPERLINK l br0 年北京交通大學經濟管理學院 HYPERLINK l br0 432 HYPERLINK l br0 統計學 HYPERLINK l br0 HYPERLINK l br0 專業碩士 HYPERLINK l br0 HYPERLINK l br0 考研真題 HYPERLINK l br0 2012 HYPERLINK l br0 年北京交通大學經濟管理學院 HYPERLINK l br0 432 HYPERLINK l br0 統計學 HYPERLIN

3、K l br0 HYPERLINK l br0 專業碩士 HYPERLINK l br0 HYPERLINK l br0 考研真題及詳解 HYPERLINK l br0 2013 HYPERLINK l br0 年北京交通大學經濟管理學院 HYPERLINK l br0 432 HYPERLINK l br0 統計學 HYPERLINK l br0 HYPERLINK l br0 專業碩士 HYPERLINK l br0 HYPERLINK l br0 考研真題2011年北京交通大學經濟管理學院432統計學專業碩士考研真題2011年北京交通大學經濟管理學院432統計學專業碩士考研真題及詳解一、

4、簡要回答下列問題1舉例說明區分數據類型對統計分析的重要性。統計數據是對現象進行測量的結果。區分數據的類型對統計分析很重要,因為對不同類型的數據,需要采用不同的統計方法來處理和分析。比如,對分類數據,通常需要計算出各組的頻數或頻率,計算其眾數和異眾比率,進行列聯表分析和 檢驗等;對順序數據,可以計算其中位數和四分位差,計算等級相關系數等;對數值型數據,可以用更多的統計方法進行分析,如計算各種統計量,進行參數估計和假設檢驗等。如果不對數據進行區分,則會導致統計方法的濫用,使得得出的結論缺乏可靠性。22008年12月,據美國媒體報道:“本國12月新房中位價為20.65萬美元,相比2007年12月的2

5、2.77萬美元下滑了9.3%”,為什么采用中位數而不采用算數平均值?試應用描述統計學知識解釋其中的緣由。答:中位數是一組數據排序后處于中間位置上的變量值,中位數將全部 數據等分成兩部分,每部分包含50%的數據,一部分數據比中位數大,另一部分則比中位數小。中位數主要用于測度順序數據的集中趨勢,也適用于測度數值型數據的集中趨勢,但不適用于分類數據。平均數也稱為均值,它是一組數據相加后除以數據的個數得到的結果。平均數在統計學中具有重要的地位,是集中趨勢的最主要測度值,它主要適用于數值型數據,而不適用于分類數據和順序數據。題干中關于測度新房集中趨勢的指標,由于房屋價格的分布是正偏分布,存在很大的極大值

6、,而算術平均數的主要缺點是易受數據極端值的影響,對于偏態分布的數據,平均數的代表性較差。相反,中位數是一組數據中間位置上的代表值,不受數據極端值的影響。當一組數據的分布偏斜程度較大時,其作為集中趨勢測度的代表性較好。因此選用房價中位數作為房價分布集中趨勢的代表值。3一家連鎖超市,近期不斷接到消費者關于500克包裝的某產品薯片重量的投訴。店方猜想,這些投訴是由于運輸過程中沉積在口袋底部的碎片所引起。為此店方決定對來自該品牌的下一批薯片的平均重量(克)進行檢驗,如果有證據說明重量小于500克,就拒收這批薯片并 向供應商進行投訴。請建立適當的原假設和備擇假設,使得一旦拒絕原假設就拒收這批薯片并向供應

7、商進行投訴;第類錯誤和第類錯誤是什么?連鎖超市的顧客將哪類錯誤看的較嚴重?連鎖超市的供應商將哪類錯誤看的較嚴重?答:(1)原假設: 薯片的平均重量不低于500克;備擇假設: 薯片的平均重量低于500克。(2)第類錯誤是指原假設為真時拒絕原假設所犯的錯誤,本題中指薯片的平均重量是大于500克的,但是由樣本所得結果是拒絕原假設,即認為薯片的平均重量低于500克。第類錯誤是指原假設為假而接受原假設所犯的錯誤,本題中是指薯片的平均重量是小于500克的,但是由抽取樣本所得結果是接受了原假設,認為薯片的平均重量不低于500克。(3)連鎖超市的顧客將第類錯誤看得比較嚴重,因為犯第類錯誤 的概率偏大,會使得顧

8、客受到的損失較大。(4)連鎖超市的供應商將第類錯誤看得比較嚴重,因為犯第類錯 誤的概率偏大,會導致供應商受到的損失較大。4數據的誤差有哪兩類,它們的本質差別是什么?答:(1)數據誤差的類型數據的誤差是指通過調查搜集到的數據與研究對象真實結果之間的差異。數據的誤差有兩類:抽樣誤差和非抽樣誤差。抽樣誤差抽樣誤差是由抽樣的隨機性引起的樣本結果與總體真值之間的誤差。在概率抽樣中,我們依據隨機原則抽取樣本,可能抽中由這樣一些單位組成的樣本,也可能抽中由另外一些單位組成的樣本。根據不同的樣本,可以得到不同的觀測結果。抽樣誤差并不是針對某個具體樣本的檢測結果與總體真實結果的差異而言的,抽樣誤差描述的是所有樣

9、本可能的結果與總體真值之間的平均差異。抽樣誤差的大小與樣本容量、總體的變異性等因素有關。非抽樣誤差非抽樣誤差是相對抽樣誤差而言的,是指除抽樣誤差之外的,由其他原因引起的樣本觀察結果與總體真值之間的差異。抽樣誤差是一種隨機性誤差,只是存在于概率抽樣中;非抽樣誤差則不同,無論是概率抽樣、非概率抽樣,或是在全面調查中,都有可能產生非抽樣誤差。非抽樣誤差包括有抽樣框誤差、回答誤差、無回答誤差、調查員誤差、測量誤差等。(2)兩種誤差的本質差別抽樣誤差與非抽樣誤差最根本的差別是抽樣誤差是可以計算和控制的,且其只存在于概率抽樣中。而非抽樣誤差控制的重要方面是調查過程的質量控制。5“截至2010年8月,京津城

10、際高鐵進行兩年,已經累計放松4328萬人次,武廣高鐵9個月時間完成客運輸送1331萬人次,滬寧線進行兩個月,發送旅客1071萬人次”,人們對這樣的數據描述并無多少概念,如何更好的量化它們,一遍使人們印象深刻?答:文中給出了三條高鐵各自開通以來的客運數量,由于運行年限的不同,使得無法直接做出對三條高鐵客運繁忙程度的直接比較與評價,而只能觀察其總量特征。若以各高鐵客運總量除以其各自的運營時間,則可得到其單位時間的發送量,便可以對但這之間客運量的差異做出直接比較。如果利用圖形來顯示單位時間內客運量的頻數分布,就可以使得人們更加形象和直觀地度量數據的集中趨勢,也便于人們對不同的數據進行比較,觀察差別。

11、二、計算回答下列問題12008年,某地區工業總產值按當年價格計算為42.55億元,2007為33.27億元,其增長速度為多少?按2000年不變價格計算,2008年,該地區工業總產值為33.61億元,2007年為28.50億元,其增長速度是多少?你認為哪種方法計算出來的增長速度更可信?利用指數等知識,請給出合理的解釋。請解釋不變價格指數的概念。答:(1)由題意其增長速度為:即2008年相對于2007年,工業總產值的增長速度為27.89%。(2)以不變價格計算的增長速度為:即按2000年不變的價格計算,2008年相對于2007年,工業總產值的增長速度為17.93%。(3)第二種方法計算的增長速度更

12、可信,因為按照第一種方法計算出來的增長速度中包含有通貨膨脹的影響,而第二種計算方法采用不變價格計算增長速度則剔除了通貨膨脹的影響,相比較而言更能反映工業總產值增長速度。(4)不變價格又稱“可比價格”或“固定價格”,與“現行價格”(當年價格)相對應。不變價格指數是指計劃統計工作中用來計算一定時期內不同年份的商品價值指標而規定使用的某一固定期的價格。旨在消除價格變動的影響,便于比較各年之間的經濟增長速度。2研究美國1780年到1970年之間人口變化情況(人口單位:百萬)。雖然影響人口變化的因素很多,但這里只選定時間作為其解釋變量進行了回歸分析,結果如下:若將時間變量的二次項引入回歸模型,則結果如下

13、:試分別說明兩個模型檢驗效果,并分析哪種模型的效果更好,給出理由。答:通過對比兩個模型的回歸結果可得,將時間變量的二次項引入回歸模型后,模型回歸效果更好。(如下所述將時間變量的一次項的回歸模 型稱為模型1,將引入時間變量二次項的回歸模型稱為模型2。)理由如 下:(1)模型擬合程度的分析模型1中的模型2中的比較可知,模型2中的可決系數和調整之后的可決系數均大于模型1中相應的值可知模型2比模型1的擬合效果要好。(2)回歸系數的分析模型1和模型2中的各系數均通過t統計量的顯著性檢驗。相比較而言,模型2中各系數的t統計量的值遠遠大于其臨界值,故模型2比模型1的擬 合效果應該更好。綜上所述,人口變化與時

14、間應該是曲線關系而不是簡單的線性關系。三、綜合題1有些預定了賓館客房而沒有去住宿的旅客,若不能及時取消預訂,這樣的客人就被稱為“未出現者”,賓館一般采用超員預訂客房的方法,防止未出現者過多給賓館造成的損失。有一擁有4000個客房的大型連鎖賓館正在進行這方面的研究,它們抽取30天的隨機樣本,記錄其每一天的未出現者人數,頻數分布如下:根據這一樣本,運用經驗法則,賓館至少應超員預訂多少客房?旅游年鑒的數據顯示,賓館業每天的未出現者人數連續3年均穩定在20人這一平均水平。請問上述樣本能否說明賓館業每天的未出現者人數明顯降低了?答:(1)根據上述樣本,可計算出每天未出現人數的平均值為:每天未出現人數的樣

15、本方差為:其中Mi是第i組的組中值,fi是對應的頻數。根據經驗法則,約有99%的數據在平均數3個標準差的范圍之內,即賓館每天未到人數在(6.04,22.9)之間的人數包含了99%。即賓館至少應超員預定7個客房。(2)對樣本數據進行假設檢驗如下:提出假設原假設: 賓館業每天的未出現者人數未明顯降低;備擇假設: 賓館業每天的未出現者人數明顯降低。計算統計量作出決策由于, ,故拒絕原假設,即賓館業每天的未出現者人數明顯降低。2估計成本是回歸分析在會計學上的一個重要應用。根據搜集到的產 量和成本數據,利用最小二乘法可以求出關于成本和產量估計的回歸方 程。下面的Excel結果是給予某一制造業的產量(單位

16、:臺)和總成本 (單位:萬元)計算得到的。將方差分析表和參數估計表中的7個缺失值補齊;寫出總成本與產量的估計一元線性回歸方程式,并解釋回歸系數的含義;檢驗回歸方程的線性關系是否顯著(c0.05);計算判定系數R2,它有什么用途?計算估計標準誤差se,它有什么用途?公司的生產計劃進度表明,下個月必須生產60臺產品,下個月總成本 的點估計值是多少?不用計算,對下個月總成本的95%的置信區間和預期區間做簡單說 明。答:(1)由題意得:SSA3695.50,SST4046.97,k2,n129可得出:SSESSTSSA4046.973695.50351.47,而由此可得方差分析表如下:(2)由表中數據

17、可得回歸方程為:回歸系數 表示產量為0時的成本為12.677萬元;回歸系數 表示產量每增加1臺,成本平均增加0.731萬元。(3)由方差分析表知:故拒絕原假設,即回歸方程是顯著的。(4)由題意知可決系數為:表示回歸方程中,成本的變化有91.32%是由于產量的變化引起的。(5)由題意知估計的標準誤差為:估計的標準誤差反映了用估計的回歸方程預測因變量y時預測誤差的大 小。(6)將60代入估計的回歸方程可得:即下個月生產60臺產品時,成本的點估計為56.54萬元。(7)回歸估計的置信區間為:回歸估計的預測區間為:比較兩個公式可知,預測區間的寬度比置信區間的寬度要寬。3一家電器商店經營已有5年之久,在

18、這期間,iPod touch的銷售量 (單位:千臺)持續上升,見下表數據:下圖為銷售量的時間序列圖。“可以看出,銷售量有明顯的季節成分,并且后面年份的銷售量比前面年份的高,因此其中還有趨勢成分,但周期性難以判斷。可以認定iPodtouch銷售量序列是一個含有季節成分和趨勢成分的時間序列。”請結合復合型時間序列的分解、預測模型,分析、評述上面這段話的合理性。上表中,中心化移動平均值和比值兩列共有6出空格,請計算補充這6 個數據。用移動平均將趨勢剔除之后的序列(比值列),計算銷售量的季節指數(要求列出必要的表格)。從銷售量數據中剔除季節成分后,用一元線性模型求得銷售量的線性長期趨勢方程為: ,用此

19、趨勢方程并考慮季節變動,預測 2010年四個季度iPod touch銷售量。(要求有計算過程)答:(1)復合型序列是指含有趨勢、季節、周期和隨機成分的序列。 對這類序列的預測方法通常是將時間序列的各個因素依次分解出來,然 后進行預測。結合復合型時間序列可知,上面這段話對iPod touch的預 測是合理的。(2)由題意得表中數據計算如下:(3)由題意得各季節指數計算表如下:(4)預測2010年四個季度的銷售量,將t2124分別代入趨勢方程, 得:考慮季節變動,2010年四個季度的預測值分別為:19970 1.12222(千臺) 20890 0.55011(千臺) 21810 0.78917(千

20、臺) 22730 1.54135(千臺)即2010第一個季度的iPod touch的銷售量為22千臺;第二個季度的iPodtouch的銷售量為11千臺;第三個季度的iPod touch的銷售量為17千臺;第四個季度的iPod touch的銷售量為35千臺。2012年北京交通大學經濟管理學院432統計學專業碩士考研真題2012年北京交通大學經濟管理學院432統計學專業碩士考研真題及詳解一、簡要回答下列問題(本題共包括5個小題,每小題8分,共40分)1對于大多數工廠來說,按時獲得原材料和貨物供給時很重要的。因此對大多數的采購代理商來說,交貨時間的變異程度往往是選擇供應商的最主要考慮因素。數據的變異

21、程度如何反應?就選擇供應商而言,你能給采購代理人怎樣的建議?答:數據的變異程度是指各變量值偏離其中心值的程度。數據的變異程度越大,其集中趨勢對該組數據的代表性就越差。反映數據變異程度是根據數據的不同類型采取不同的測度值,主要有:四分位差、方差和標準差等。方差、標準差、四分位差的數值越大,則樣本的變異程度越大。在選擇供應商的時候,采購人應該計算分析供應商的交貨時間的平均數和標準差,如果供應商交貨時間的標準差較大說明交貨時間的變異程度很大,采購代理人選擇應該謹慎。2一個班級進行了期中考試,其中5名學生的分數為:72、66、81、89、77。試分析下面的說法哪個正確,哪個應受到懷疑?(注:只做簡單計

22、算。如樣本均值,但不用計算樣本標準差)作為樣本的5名學生的期中平均分時77;全班學生的期中平均分時77;全班學生的期中平均分的估計是77;班級中一半以上得分將在785之間;如果樣本中再加上5名學生,他們的分數會在6590之間。答:以上說法中第、種說法是正確的。由樣本數據可以計算樣本中的5名學生的平均分數是77分,因此是正 確的;僅僅由5個樣本的平均值就能得出全班學生的平均成績,樣本缺乏對 總體的代表性;77分是全班學生的平均成績的估計值;由于抽選的樣本數量較少,僅僅由樣本數據中有一半以上的學生成績 在7085就推斷全班學生有一半以上的學生成績在7085,這種推斷是 不可靠的;樣本中再加5名學生

23、,他們的成績不一定在6590之間,因為可能存 在有極端值的情況。3容量為1000毫升的桃汁包裝上的標簽標明,該種桃汁的脂肪含量的均值不超過1克。回答下列問題以驗證標簽上的說明。建立原假設和備擇假設;這時第類錯誤指什么?發生這類錯誤會導致怎樣的后果?這時第類錯誤指什么?發生這類錯誤會導致怎樣的后果?答:(1)原假設: 該種桃汁的脂肪含量的均值不超過1克;備擇假設: 該種桃汁的脂肪含量超過1克。(2)第類錯誤是指原假設為真時,拒絕原假設的情況。本題中,第類錯誤是指桃汁的脂肪含量是不超過1克,但是假設檢驗的結果卻是拒絕了原假設。發生這類錯誤將會導致由于報告了本來不存在的現象,則因此現象而衍生出的后續

24、研究、應用的危害。(3)假設檢驗的第類錯誤是指原假設為假,但是沒有拒絕原假設。本題中的第類錯誤是該種桃汁的脂肪含量超過1克,但是假設檢驗得出的結論是不拒絕原假設。犯取偽錯誤,使得本應該被推翻的假設仍然被保留,不利于研究的發展。4一元線性回歸中,一個大的R2意味著兩個變量之間存在因果關系嗎?試解釋。答:判定系數R2測度了回歸直線對觀測數據的擬合程度。一個大的R2并不意味著兩個變量之間存在因果關系,大的R2只能表示在線性回歸模型中回歸平方和占總平方和的比例越大,回歸直線與各觀測點越接近,因變量的變化中能用自變量解釋的比例比較大,反映模型的擬合程度較好。若自變量和因變量之間存在很強的相關關系,而不是

25、因果關系的話,此時的R2也非常大。5一個小店的經營者想對未來幾個月的小店的銷售額做預測。它提供了自2007年一月開店以來各月的銷售額。請你給他一些預測程序上的提示。答:時間序列分析的一個主要目的就是根據已有的歷史數據對未來進行預測。時間序列含有不同的成分,如趨勢、季節性、周期性和隨機性等。對于一個具體的時間序列,它可能只含有一種成分,也可能同時含有幾種成分。含有不同成分的時間序列所用的預測方法是不同的。因此,經營者在對時間序列進行預測時可以,通常包括以下幾個步驟:確定時間序列所包含的成分,也就是確定時間序列的類型;找出適合此類時間序列的預測方法;對可能的預測方法進行評估,以確定最佳預測方案;利

26、用最佳預測方案進行預測。二、推斷題(本題包括1個小題,共15分)試推導出一元線性回歸分析中總平方和與回歸平方和、殘差平方和的關系。答:一元線性回歸分析中,每個觀測點的離差都可以分解為:將上述式子的兩邊同時平方,并對所有的n個點求和,可得:又根據ei的性質因此其中:即,總平方和(SST)回歸平方和(SSR)殘差平方和(SSE)。三、綜合題(本題共包括5個小題,共95分)1歷史數據標明,考入西部大學的學生入學時學術考試成績的均值為900,標準差為160。每年選取一個實際樣本來檢測該年的考試成績是否與上一年在同一水平。今年有256名學生組成的樣本表明分數的樣本均值為930。回答下列問題(顯著性水平取

27、0.05)建立原假設和備擇假設;用置信區間的方法進行假設檢驗;用檢驗統計量進行假設檢驗;檢驗的p值是多少?(10分)答:(1)建立假設如下:原假設: 該年考試成績與上一年在同一水平;備擇假設: 該年考試成績與上一年有差別。(2)由樣本可得參數置信水平為10.95的置信區間為:考慮檢驗問題: ,由于 ,故拒絕原假設,即該年考試成績與上一年不在同一水平。(3)計算統計量,由于總體標準差已知,因此選擇Z統計量,計算如 下:又因為 ,故拒絕原假設,即該年考試成績與上一年不在同一水平。(4)2企業管理者管理能力高低是影響企業成長的一項不可忽視的因素,不同層級的員工對管理者的評價也會有所不同。隨機抽取24

28、名不同層級員工對公司1名管理者的管理能力打分,樣本數據如下。分值越高,說明對該管理者管理能力評價越好。解釋本題中的因素和水平各指什么?寫出解決該問題時所建立的原假設;解釋本題中的隨機誤差和系統誤差;算出F統計量的值;取顯著性水平為0.05,檢驗不同層級員工對管理層管理能力評價是否有顯著性影響。(15分)答:(1)在方差分析中,所要檢驗的對象稱為因素,因素的不同表現稱為水平。本題中的因素是指評估的1名管理者,水平是指對管理者進行評價的上級、同級、下級這三個不同的評價層級。(2)解決該問題建立的原假設為:即不同層級員工對管理者能力評價無顯著差異。(3)隨機誤差(SSE)是指每個水平各樣本數據與其組

29、均值的誤差平方和,反映了每個樣本各觀測值的離散狀況,本題中,是指不同層級評估者對管理者評價差別是由隨機因素引起的。系統誤差(SSA)是各樣本均值之間的差異程度,本題中,是指不同層 級評估者對管理者評價的差別。(4)由題意可得:(5)查F分布表可知 ,而 ,故不拒 絕原假設,即不同層級員工對管理者能力評價無顯著差異。3某投資公司有一筆資金用于投資,現有兩個項目可選擇。試分析應投資與哪個項目,并解釋原因。(20分)答:應該投資于A項目,分析如下:(1)分別計算兩個公司的投資期望回報率如下項目A:項目B:(2)分別求出兩個項目的方差:項目A:項目B:(3)比較A、B兩個項目的期望回報率和標準差因為

30、, ,即項目A的期望回報率高于項目B,且其標準差較小,說明項目A的持有到期回報率比較穩定,風險更小,因此,應該投資于A項目。4某地交通部門想要確定公共汽車安全使用的時間(年)與年維修費用(千元)之間的關系。對10輛公共汽車組成的一個樣本,采集的數據如下表。利用最小二乘法,確定估計的回歸方程:對一元線性回歸模型的誤差項做了哪些規定?根據所求出的回歸方程,計算殘差,進而做出關于x的殘差圖,并據此評價回歸模型是否合理。(20分)答:(1)用最小二乘法對回歸系數的估計如下:由題中表的數據可計算:可得:因此回歸方程為:(2)一元線性回歸模型的誤差項的假定條件主要如下:因變量y與自變量x之間具有線性關系;

31、在重復抽樣中,自變量x的取值是固定的,即假定x是非隨機的;誤差項是一個期望值為0的隨機變量,即 ;對于所有的x值,的方差 都相同。這意味著對于一個特定的x值,y 的方差也都等于 ;誤差項是一個服從正態分布的隨機變量,且獨立,即 。獨立性意味著對于一個特定的x值,它所對應的與其他x值所對應的 不相關。(3)根據回歸方程計算的殘差 ( )如表1所示,殘差圖如圖1 所示:表1圖1由殘差的分布可以看出,殘差具有零均值,同方差且不相關的性質,符 合回歸模型的GM假定,可以認為該模型充分提取了樣本的有效信 息,因此認為回歸模型合理。5為解決交通擁堵問題,某城市對居民出行行為進行了問卷調查。該城市人口為10

32、0萬,為使估計總體比例的抽樣誤差小于1%,置信水平為95%。請確定所需的樣本容量。該調查采用簡單隨機抽樣方式。試對該項調查的數據所存在的誤差進行分析,并說明如何實現對誤差的控制。 (30分)答:由抽樣誤差的公式:可以看出,樣本量越大,則抽樣誤差越小又因為p為比率估計量,有0pp,則應該拒絕原假設,認為飲食的纖維含量與血液中膽固醇含量的降低是顯著相關的。9喬在寫一篇有關美國總統背景的報告。他查了所有44位總統入主白宮時的年齡。因為喬曾修過統計課,他就用這44個數字,建立了一個歷任總統平均年齡的95%的置信區間。我們認為這樣做是行不通的。為什么?答:僅僅只是依據44名總統入住白宮時的年齡去推斷歷任

33、總統任職時的 平均年齡,簡單的計算他們的平均年齡然后構造置信區間缺乏可靠性。歷任美國總統上任時的年量差異很大,因此計算的平均年齡由于存在極端值的情況會使得平均值的代表性很差。10抽樣調查的組織者都喜歡大一些的樣本。請你描述一下,增加樣本 容量會對以下項目產生什么影響?95%置信區間的估計誤差;當H0不正確、而所有其他條件均不改變時,檢驗的P值。答:(1)根據公式: 可知:在95%置信水平下,增大樣本容 量會使得估計誤差變小。(2)由于p值是樣本概率的一個體現,因此也是一個隨機變量,樣本容量增加,抽樣必然要重新進行,p的取值亦會受樣本隨機性的影響,因此不能確定p值是否一定會變大或是減小。但從概率

34、意義上來看,當H0不正確,而其他條件不變時,隨著樣本容量的增大,檢驗統計量的值將逐漸趨于穩定,檢驗對應的p值在很大概率上也會變小。二、計算回答些列問題(本題共包括2個小題,每小題10分,共20分)1根據統計資料,2012年暑期畢業的大學生中有一半報考了公務員。2012年11月,某城市調查隊對當地800名大四學生求職意向開展了問卷調查,其中368人準備報考公務員。我們想知道是否該城市大四學生報考公務員的意向和去年的全國比例有差別。此問題中的參數是什么?寫出原假設和備擇假設。樣本比例的值是多少?檢驗的p值是指什么事件的概率?p值為0.0238。說明為什么這是合理足夠的證據指向H0不對而H1正 確。

35、結果有5%的統計顯著性水平嗎?有1%的顯著性水平嗎?答:(1)題干中的參數是指畢業的大學生報考公務員的比例。(2)原假設(H0):該城市大四學生報考公務員的意向和去年的全國比例無 差別;備擇假設(H1):該城市大四學生報考公務員的意向和去年的全國比例 有差別。(3)樣本比例的值為: ,檢驗的P值是指在假設該城市大四學 生報考公務員的意向和去年的全國比例無差別的條件下,調查抽出的報 考公務員的比例小于等于0.46的概率。(4)P值為0.0238,即在原假設為真的情況下,樣本觀察結果或更極端的結果出現的概率為0.0238。說明原假設出現的事件是一個小概率事件,即應該拒絕原假設而接受備擇假設。(5)

36、由于P0.02380.05,因此,在5%的顯著性水平下應該拒絕原假設,即結果有5%的統計顯著性水平;p0.02380.01,因此在1%的顯著性水平下不拒絕原假設,即結果沒有1%的統計顯著性水平。2美國商法曾經發表過的一篇文章提供了一個典型的存在性別歧視情況下的雇員工資水平y(美元)的模型:其中x1為工齡,x2為受教育年數,x31(女性雇員),x30(男性雇員)。從500名雇員取得樣本數據,擬合后得到如下回歸方程(括號內的數據為t值):文章對回歸分析有下列說法,請你對這些說法作出評論。“就這個樣本而言,在其他變量保持不變的條件下,工齡每增加1年,預期工資將平均增加289美元。”“我們不能以95%

37、的置信度說,所觀察到的受教育年數和工資之間的關系是統計顯著的。”“可以預期,一名女雇員的工資在考慮了工齡和受教育年數差別之后將比男雇員少397美元。”“這些自變量合在一起,解釋了(工資水平中)的絕大部分變差。”答:(1)擬合之后的回歸方程的各參數應該經過顯著性檢驗之后才能 對各回歸系數進行經濟意義的解釋,否則,得出的結論會缺乏可靠性。由估計的回歸方程可以看出,x2所對應的t值為1.02,達不到顯著性水平,因此應將x2變量剔除之后重新擬合回歸方程,然后進行回歸預測。(2)由于受教育程度的統計量t1.02t/2(n4),即在5%的顯著性水平(95%的置信度)下,所觀察到的受教育程度與工資之間的關系

38、不是統計顯著的。(3)各系數的經濟意義應該是在不考慮變量的影響之下,該解釋變量對被解釋變量的影響。而且由于估計的回歸方程中存在不顯著的變量,因此要將該變量剔除之后重新擬合回歸方程,然后進行預測。(4)題干中的評價不準確,應該是影響雇員工資的所有因素中,90% 是由工資、受教育程度以及性別所決定的。三、綜合題(本題共包括4個小題,每小題20分,共80分)1一家百貨公司在某市經營兩個商場,一個位于市區,另一個地處郊區。公司經理發現在一個商場暢銷的商品在另一個商場賣得不一定好,他初步認為這種情況是因為市區和郊區顧客群的差異。顧客可能在年齡、教育程度、收入等方面有差異。一個項目小組負責調查兩個商場的顧

39、客平均年齡的差異,下表所示為項目小組收集的顧客年齡數據:此題為例,說明在假設檢驗中涉及到檢驗統計量選擇問題時,一般要考慮哪些方面?兩個商場的顧客平均年齡是否有顯著差異(0.05。寫出檢驗的具 體步驟)?答:(1)假設檢驗中選擇統計量時,需要考慮的問題有:樣本量的大小樣本量大小是選擇檢驗統計量的一個要素。在樣本量大的條件下,如果總體為正態分布,樣本統計量服從正態分布;如果總體為非正態分布,樣本統計量漸近服從正態分布。所以在這種情況下,都可以把樣本統計量視為正態分布,這時可以使用z統計量(z分布)。總體標準差是否已知在樣本量較小的情況下,如果總體標準差已知,樣本統計量服從正態分布,這時可以采用z統

40、計量。如果總體標準差未知,進行檢驗所依賴的信息有所減少,這時只能使用樣本標準差,樣本統計量服從t分布,應該采用t統計量。(2)假設檢驗的具體步驟如下:建立假設原假設( ): 兩個商場顧客的平均年齡無差別;備擇假設( ): 兩個商場顧客的平均年齡有差別。構造統計量作出決策 時, ,由于 ,所以拒絕原假設 ,即兩個商場顧客的平均年齡有顯著差異。2管理部門每月向公眾公布當地失業統計數據,包括失業人數和平均失業周數。在2012年10月,管理部門報告當地的平均失業周數為14.6周。某個城市的市長想了解其所管轄的城市的失業狀況,為此,他收集 了城市內30名失業居民組成的樣本,了解了他們的年齡和已失業周數等

41、 數據,有關數據及初步計算見下表:建立該城市失業居民平均失業周數的95%的置信區間:該城市居民的平均失業周數是否顯著低于當地平均失業周數(0.05)?失業年齡和失業周數之間是否有關系?請解釋。答:(1)由表中數據可得:樣本的平均失業周數為:平均失業周數的方差為:故該城市失業居民平均失業周數的95%的置信區間為:即該城市失業居民平均失業周數的95%的置信區間為(10.75,16.44)。(2)假設檢驗的具體步驟如下:建立假設原假設 : ;備擇假設 : 。構造統計量作出決策由于 ,則不拒絕原假設,即該城市居民的平均失業周期數沒有顯著低于當地居民的平均失業周期數。(3)計算失業年齡與失業周期數的相關

42、系數:因此可得失業年齡與失業周期數是有關系的。因為年齡越大,相對于年輕者而言,找到工作的時間會變長,因此失業周期也會變長。3下面是A、B兩個班學生的考試成績數據:A班:B班:做直方圖表示兩個班成績分布的特點;兩個班考試成績的概括性度量如下,據此再對兩個班的成績做進一步的分析:要判斷考試成績是否有離群點,可以用哪些方法?要判斷考試成績是否服從正態分布,可使用哪些方法?答:(1)對A、B兩個班的成績分布作直方圖如圖1、2所示:圖1 A班的成績分布作直方圖圖2 B班的成績分布作直方圖(2)由表中數據可知,A班同學考試成績的平均數、中位數以及眾數都大于B班的,可知A班同學考試成績整體水平比B班高,A班

43、同學考試成績的方差也小于B班,可知A班同學的考試成績比較穩定,A班同學考試成績的偏態系數和峰態系數也均小于B班,可知A班同學的考試成績分布是較均勻的,由區域值可知,A班同學的考試成績的極差比B班小,B班存在極大值和極小值情況較嚴重。(3)判斷考試成績是否有離群點可以畫出考試成績分布的莖葉圖或者 箱線圖。(4)判斷考試成績是否服從正態分布,可以對考試成績的平均數、眾數、中位數三者進行對比,判斷考試成績的分布是否對稱,從而判斷是否屬于正態分布。4某企業準備用三種方法組裝一種新產品,為確定哪種方法每小時生產的產品數量最多,隨機抽取了30名工人,并指定每個人使用其中的一種方法。通過對每個工人生產的產量

44、進行方差分析得到如下結果。方差分析表完成上面的方差分析表;若顯著性水平0.05,檢驗三種方法組裝的產品數量之間是否有顯 著差異;上面的方差分析中包含了哪些基本假定?簡述多重比較的前提和作用。答:(1)由題意得:SSE3836,MSA210,k3,n30可得出:由此可得方差分析表如下:(2)提出假設: 三種方法組裝對產品生產數量沒有顯著影響;: 、 、 不全相等 三種方法組裝對產品生產數量有顯著影響。構造統計量F1.48作出決策由于 ,故不拒絕原假設,即三種方法組裝對產品生產數量沒有顯著影響。(3)上述方差分析包含以下三個基本假定:每個總體都應服從正態分布;各個總體的方差2必須相同;觀測值是獨立

45、的。(4)多重比較的前提是:多重比較檢驗的前提為:方差分析的三個基本假定,以及通過方差分析已經得出結論,即至少有一組的平均水平和其他組的平均水平有顯著區別。多重比較的作用是在方差分析確定了分類型自變量對數值型因變量有影響之后,可以通過對總體均值之間的配對比較來進一步檢驗到底哪些均值之間存在差異。2014年北京交通大學經濟管理學院432統計學專業碩士考研真題2014年北京交通大學經濟管理學院432統計學專業碩士考研真題及詳解一、簡述題(本大題共5個小題,每小題10分,共50分)1試述概率抽樣和非概率抽樣的區別與聯系。答:概率抽樣又稱隨機抽樣,是指遵循隨機原則進行的抽樣,總體中每個單位都有一定的機

46、會被選入樣本;非概率抽樣是相對于概率抽樣而言的,指抽取樣本時不是依據隨機原則,而是根據研究目的對數據的要求,采用某種方式從總體中抽出部分單位對其實施調查。(1)概率抽樣與非概率抽樣的聯系概率抽樣與非概率抽樣都是從被抽取樣品單位的分析、研究結果來估計和推斷全部樣品特性,是科學實驗、質量檢驗、社會調查普遍采用的經濟有效的工作和研究方法。(2)概率抽樣與非概率抽樣的區別概率抽樣是依據隨機原則抽選樣本,這時樣本統計量的理論分布是存在的,因此可以根據調查的結果對總體的有關參數進行估計,計算估計誤差,得到總體參數的置信區間,并且在進行抽樣設計時,對估計的精度提出要求,計算為滿足特定精度要求所需要的樣本量;

47、非概率抽樣不是依據隨機原則抽選樣本,樣本統計量的分布是不確切的,因而無法使用樣本的結果對總體相應的參數進行推斷。概率抽樣的技術含量更高,無論是抽選樣本還是對調查數據進行分析,都要求有較高的統計學專業知識,調查的成本也比非概率抽樣高;非概率抽樣操作簡便、時效快、成本低,而且對于抽樣中的統計學專業技術要求不是很高。2試述如何評價估計量的好壞。答:評價估計量好壞的標準有無偏性、有效性和一致性。(1)無偏性若估計量 的數學期望等于未知參數 ,即 ,則稱為 的無偏估計量。估計量 的值不一定就是的真值,因為它是一個隨機變量,若 是的無偏估計量,則盡管 的值隨樣本的不同而變化,但平均來說它會等于的真值。(2

48、)有效性設 與 都是的無偏估計量,若對于任意 ,有 ,且至少對于某一個 ,上式中的不等號成立,則稱 比 有效。(3)一致性(相合性)如果隨著n的增大, 依概率收斂于,即 ,有則稱 是的一致估計量。3試說明按采用計量尺度的不同,統計數據的分類。答:按照數據的計量尺度的不同,統計數據分為分類數據、順序數據和數值型數據。(1)分類數據是只能歸于某一類別的非數字型數據,它是對事物進行分類的結果,數據表現為類別,是用文字來表述的。例如,人口按照性別分為男、女兩類。(2)順序數據是只能歸于某一有序類別的非數字型數據。順序數據雖然也是類別,但這些類別是有序的。比如將產品分為一等品、二等品、三等品、次品等。(

49、3)數值型數據是按數字尺度測量的觀察值,其結果表現為具體的數 值。現實中所處理的大多數都是數值型數據。分類數據和順序數據說明的是事物的品質特征,通常是用文字來表述的,其結果均表現為類別,因而也可統稱為定性數據或品質數據;數值型數據說明的是現象的數量特征,通常是用數值來表現的,因此也可稱為定量數據或數量數據。4試述居民消費價格指數的作用。答:居民消費價格指數是度量居民消費品和服務項目價格水平隨時間變動的相對數,反映居民家庭購買的消費品和服務價格水平的變動情況。居民消費價格指數的作用有:(1)反映通貨膨脹狀況。通貨膨脹的嚴重程度是用通貨膨脹率來反映 的,它說明了一定時期內商品價格持續上升的幅度。(

50、2)反映居民購買力水平。貨幣購買力是指單位貨幣購買到的消費品和服務的數量。居民消費價格指數上漲,貨幣購買力則下降,反之則上升。(3)測定職工實際工資水平。消費價格指數的提高意味著實際工資的 減少,消費價格指數下降則意味著實際工資的提高。5試說明相關系數的性質。答:相關系數(r)是根據樣本數據計算的度量兩個變量之間線性關系 強度的統計量。相關系數的性質有:(1)r的取值范圍在1到1之間,即1r1。若0r1,表明x與y之間存在正線性相關關系;若1r0,表明x與y之間存在負線性相關關系;若r1,表明x與y之間存在完全的線性相關關系,即y的取值完全依賴于x,二者之間即為函數關系;當r0時,說明y的取值

51、與x無關,即二者之間不存在線性相關關系。(2)r具有對稱性。即rxyryx。(3)r的數值大小與x和y的原點以及計量尺度無關。改變x和y的數據原點及計量尺度,并不改變r的數值大小。(4)r僅僅是x與y之間線性關系的一個度量,它不能用于描述非線性關系。即r0只表示兩個變量之間沒有線性相關關系,并不能說明兩個變量之間沒有任何關系,它們之間可能存在非線性相關關系。因此當r0或者很小時,不能輕易得出兩個變量之間不存在相關關系的結論,而應該結合散點圖作出合理解釋。(5)r雖然是兩個變量線性關系的一個度量,但卻不一定意味著x與y一 定有因果關系。二、綜合分析題(本大題共5個小題,共100分)1為更好地了解

52、顧客的購買情況,某商店需要估計每位顧客來店購物比例。根據以往的歷史資料分析,購物比例為60%。現要求對顧客來店購物比例進行估計,要求估計誤差不超過3%。請設計抽取顧客的樣本容量大小,并說明樣本容量與估計誤差的關系。(10分)答:樣本估計誤差:由此可得:由題意知:E3%,p60%,取顯著性水平為5%,則代入上式可得n1025,即設計抽取顧客的樣本容量為1025人。由上述公式可知,樣本容量與估計誤差是負相關的關系,樣本容量越大,估計誤差越小;反之,估計誤差越大。2為檢驗培訓方式對工作效率的影響,某公司用三種培訓方式A,B,C員工進行培訓。為確定哪種方式效果最好,隨機抽取了48名員工,并指定每名員工

53、只采用其中的一種方式。通過對每個員工生產的產品數量進行方差分析,可得到如下結果:試完成上面的方差分析表。請寫出該題目的假設。說明本題中的因子與處理指的是什么?在顯著性水平為0.05的情況下,請檢驗不同培訓方式對產品產量是否有顯著影響?(15分)答:(1)由題意得:SSA12460,MSE120,k3,n48可得出:由此可得方差分析表如下:(2)提出假設如下:,即三種培訓方式對員工的工作效率沒有顯著影響;不全相等,即三種培訓方式對員工的工作效率有顯著影響。(3)因子是指在方差分析中所要檢驗的對象,因子的不同表現即為處理。本題中的因子是指培訓方式,培訓方式A、B、C就是培訓方式的具體表現,即為處理

54、。(4)查F分布表可知,在顯著性水平為0.05時, ,由于,則拒絕 假設,即三種培訓方式對員工的工作效率有顯 著影響。3根據以下某市場的商品銷售資料,計算該市場的銷售額指數,并利用指數體系進行因素分析。(20分)答:三種商品的銷售額的變動:報告期與基期相比,三種商品的銷售額增長了30.27%,增加的絕對值 為:其中:(1)銷售量變動的影響:銷售量指數的計算結果表明,報告期與基期相比,該市場三種商品銷售 量平均增長了14.70%,銷售量的上升使銷售額增加的絕對值為:(2)銷售價格變動的影響:銷售價格指數的計算結果表明,報告期與基期相比,該市場三種商品銷 售價格平均增長了13.57%,銷售價格的上

55、升使銷售額增加的絕對值為:由此可見,銷售額增長了30.27%,是銷售量平均增長14.70%和銷售價格平均增長13.57%共同影響的結果,即:而銷售額增加了87900元,是銷售量增長使其增加了42700元和銷售價格上升使其增加45200元共同影響的結果,即:4某種產品分別生產于三個不同的地區,產品質量被分為三個不同的等級。從產品中隨機抽取500件進行檢驗,結果如下表所示:要求:(1)試解釋列聯表的含義,并對其分布特點進行說明。(2)試說明產品質量與生產地區之間是否有依賴關系。(20分)(20.05(4)9.49,20.05(6)12.59,20.05(9)16.92)答:(1)列聯表是由兩個以上

56、的變量進行交叉分類的頻數分布表。題中的列聯表的含義為:表中的行是地區變量,這里劃分為三類:A地區、B地區、C地區;表中的列的等級變量,這里劃分為三個等級,即一級、二級、三級。因此,本題中的表是一個33列聯表。表中的每個數據,都反映來自地區和等級兩個方面的信息。列聯表的分布特點可以從兩個方面來看,即觀察值和期望值的分布。從觀察值的分布來看。表中的最右邊顯示了地區變量的總數,如A地區總共有140件,B地區總共有171件,C地區總共有189件,對此稱為行邊緣頻數;表中的最下邊顯示了等級變量的總數,如一、二、三等級的產 品件數分別為:162件、188件、150件,對此稱為列邊緣頻數。這樣,列聯表所表現

57、的就是在變量X條件下變量Y的分布,或者是在變量Y條件下變量X的分布,因此,把列聯表中的觀察值分布稱為條件分布,每個具體的觀察值就是條件頻數。條件頻數反映了數據的分布。從期望值的分布來看。在全部的500件樣本中,A地區的有140件,占總數的28%,進一步了解各等級產品屬于各地區的情況是否存在差異。從邏輯上講,如果各等級產品屬于各地區的情況相同,那么對于一級品而 言,一級品屬于A地區的應當為:0.2816245件,即為期望值。(2)預算原假設和備擇假設分別為:H0:產品質量與生產地區不存在依賴關系H1:產品質量與生產地區存在依賴關系由下表計算2統計量由表可知:自由度為:(31)(31)4, ,因此

58、 ,故拒絕原假設,即認為三種等級的產品屬于各地區的比例是不一致的,即產品質量與生產地區之間存在依賴關系。5某家電企業近年來的產品銷售額和促銷支出(單位:萬元)資料如 下:要求:(1)試計算該企業20042009年銷售額的定基增長率(以2004年為基 期)、環比增長率和平均增長率。(2)試計算20072011年該企業銷售額的增長1%的絕對值。(3)試說明利用增長率分析時需注意的問題。(4)試述回歸模型的假設條件。(5)運用EXCEL擬合銷售額對促銷支出的線性回歸模型,結果如下表所示,試寫出回歸模型,并解釋其經濟意義。(6)試對上述建立的回歸模型進行評價。(7)若要提高該模型的預測精度,可采用哪些

59、措施?(35分)答:(1)計算20042009的定基、環比增長率如下表所示:平均增長率為:(2)增長1%的絕對值表示增長率每增長1%而增加的絕對數量,其計算 公式為:20072011年改企業銷售額增長1%的絕對值如下表所示:(3)對于大多數時間序列,特別是有關社會經濟現象的時間序列,經常利用增長率來描述其增長狀況。增長的計算與分析都比較簡單,但實際應用中,有時也會出現誤用乃至濫用的情況,因此,在應用增長率分析實際問題時,應注意以下幾點:當時間序列中的觀察值出現0或負數時,不宜計算增長率;在有些情況下,不能單純就增長率論增長率,要注意將增長率與絕對水平結合起來分析;(4)回歸模型是描述因變量y如

60、何依賴于自變量x和誤差項的方程。回 歸模型的假設條件主要如下:因變量y與自變量x之間具有線性關系;在重復抽樣中,自變量x的取值是固定的,即假定x是非隨機的;誤差項是一個期望值為0的隨機變量,即 ;對于所有的x值,的方差2都相同。這意味著對于一個特定的x值,y 的方差也都等于 ;誤差項是一個服從正態分布的隨機變量,且獨立,即 。獨立性意味著對于一個特定的x值,它所對應的與其他x值所對應的不相 關。(5)由EXCEL擬合出來的回歸模型結果可得回歸方程為:回歸系數 表示,在促銷支出為0(沒有促銷)時,銷售額的平均值為1213.61萬元;回歸系數 表示,促銷支出每增加1萬元,銷售額平均增長8.59萬元

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論