




版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
應用統計學經濟、管理類基礎課程統計的應用馬寅初:1.學者離不開統計而研究2.政治家離不開統計而施政3.企業家離不開統計而執業威爾斯:——英國統計思維,就像讀和寫的能力一樣,是現代社會公民必須具備的能力了解數字美國約翰.霍普金斯大學開始接收女生時,一個不贊成異性同校的記者做了一個驚人的報道:約翰.霍普金斯大學1/3的女生嫁給了該校教師。一時輿論嘩然真相是:該校總共有3名女生,其中1人嫁給了老師了解數字在美國與西班牙交戰期間,美國海軍的死亡率是9‰,而同時期紐約市居民的死亡率是16‰海軍征兵人員就用這些數據證明:參軍更安全數據是真的,問題在于:這兩組對象是不可比的海軍主要有體格健壯的年輕人組成,而城市居民包括了嬰兒、老人、病人,他們無論在哪兒死亡率都比較高。這些數據根本不能證明:符合參軍標準的人在海軍比在其他地方有更高的存活率第1章
緒論1.1統計的產生和發展1.2統計學的分類1.3統計學的性質和特點1.4統計學在管理中的作用1.5統計中的幾個基本概念1.1統計的產生和發展統計的產生統計的發展統計學的分科1.1.1統計的產生1)產生于原始社會末期原始社會末期,統計萌芽于生產活動中的計量和計數活動《周易正義》:“事大,大結其繩;事小,小結其繩;結之多少,隨物眾寡”奴隸社會時期,統計已日益重要封建社會時期,統計已初具規模資本主社會的興起,使統計擴展到社會經濟的各個方面
2)統計是作為認識工具和管理工具而產生的
3)統計是認識社會的有力工具統計學作為一門系統的科學,距今已有300多年的歷史統計是探索奧秘的技術統計使人聰明對統計學的一知半解常常造成不必要的上當受騙對統計學的一概排斥往往造成不必要的愚昧無知統計作為認識工具和管理工具2010年上海世博會1.2010年4月30日晚8:10分開幕2.園區面積5.28平方公里3.5.1—10.31日,歷時184天4.平均每天參觀人數40萬,總數7000萬人次5.平均每天演出100場6.主題館有世界最大單體太陽能屋面,每年可減少二氧化碳排放量約2800噸統計作為認識工具和管理工具2006年以來的民工荒深層次原因:計劃生育導致出生人口數迅速減少1.北京、上海等大城市高考錄取人數超過報名人數2.1979年,中國0-14歲的少兒人口占總人口的1/3,2009年,比例不足1/5,下降速度驚人3.1993年以來,小學生人數逐年減少,從當初的13195.15萬人,減少到2010年的不足10000萬人,而小學學校,則從近70萬所,銳減到30萬所建議:1.適當放開計劃生育政策2.征收美女稅。干預青年女子嫁給外國人(白俄羅斯)3.征收無子女稅(俄羅斯)。月工資的6%為稅款1.1.2統計的發展迅速發展于資本主義社會三個統計學派:1)政治算術學派:社會經濟統計學2)國勢學派:自然技術統計學3)數理統計學派:數理統計學統計學的分科描述統計學和推斷統計學理論統計學和應用統計學描述統計學和推斷統計學描述統計學:研究如何取得反映客觀現象的數據,并通過圖表形式對所收集的數據進行加工處理和顯示,進而通過綜合、概括與分析得出反映客觀現象的規律性數量特征大樣本推斷統計學:研究如何根據樣本數據去推斷總體數量特征的方法,它是在對樣本數據進行描述的基礎上,對統計總體的未知數量特征作出以概率形式表述的推斷小樣本1.2統計學的性質和特點1.2.1統計的涵義1.2.2統計學的性質1.2.3統計學的特點1.2.1“統計”的涵義1)統計工作:
數據的收集、整理、分析等的具體工作。證券行業分析師,質量檢驗員,化驗員等2)統計資料:統計工作的成果。數據、圖表、分析報告等3)統計學:統計的理論和方法,指導統計工作三種涵義中“統計工作”是基礎1.2.2統計學的研究對象統計學研究社會經濟現象總體的數量方面研究的是反映總體特征的數據提供一套用于所有科學領域的獲取數據、分析數據并從數據中得出結論的原則和方法統計更重要的功能是分析數據
統計學是關于數據的科學1.2.3統計學研究對象的特點數量性:研究社會現象的數量方面具體性:社會現象的數量方面是客觀存在的廣泛性:任何領域都用到總體性:數量方面是說明整體特征的1.3統計學的作用1.3.1作用:1)在管理工作中的作用2)在國家宏觀調控中的作用3)在科學研究中的作用4)在國際交流中的作用5)所有現實生活領域1.3.2職能:對國民經濟和社會發展情況進行統計調查、統計分析、提供統計資料和統計咨詢意見、實行統計監督。1.4幾個基本概念總體和總體單位標志和變量統計指標指標體系存量流量1.4.1統計總體與總體單位統計總體:統計總體是統計研究的對象,是由客觀存在的許多性質相同的基本單位組成的整體。如某班級的全體學生、某企業生產的全部產品總體單位:組成總體的基本單位稱為總體單位,是統計資料的承擔者。如每一位同學、每一件產品總體單位是數據資料的承擔者是組成總體的基本元素相對于總體而言,不可細分性質:具有變異性或差異性標志與變量標志:總體單位所具有的屬性和特征的名稱,標志有數量標志和品質標志之分變量:可變的標志標志數量標志:可以量化的屬性,如人的年齡、工資等品質標志:不能量化的屬性,如人的姓名、籍貫等不變標志:所有總體單位都相同的標志,如學籍、國籍、學位等可變標志:所有總體單位不盡相同,如產品編號、型號、規格、人的年齡、職稱等性質:1)說明單位特征的
2)是資料收集的對象
3)是計算指標的基礎變量變量:
可變的標志。變量有變量名和變量值。如年齡、企業產值、工資收入等1)變量按取值的不同分為離散變量和連續變量2)變量按性質的不同分為確定性變量和隨機性變量3)變量按形式分為定量變量和定性變量離散變量和連續變量離散變量:只取整數值,如產品數、出生人口數、企業數等,取值是分散的連續變量:可取任意值,如面積、容積、成本、產值等,取值是連續的確定性變量和隨機變量確定性變量:一定條件下,變量值唯一確定水在一個大氣壓下,沸點是100度隨機性變量:一定條件下,變量值有偶然性如某地區出生的嬰兒數,某種產品的銷售量隨機性變量決定于不確定性或變數或偶然性定量變量和定性變量定量變量:觀察結果直接表現為一定的數字
如:年齡,工資,價格,產量定性變量:觀察結果表現為一定的類別或有順序的類別分類變量和順序變量如:專業,工種,產品型號,民族職稱等級,獎學金等級變量是用來表示個體(總體單位)特征的指標指標:說明總體綜合特征的數據資料指標有指標名稱、指標值、計量單位、時間特征、空間范圍等五個構成要素指標的種類1.指標按計量單位的不同分為實物指標和價值指標
電視機的產量和電視機的產值2.指標按說明的內容的不同分為數量指標和質量指標企業的利潤總量和人均利潤3.指標按時間特性分為時期指標和時點指標
某銀行的個人儲蓄存款余額和發放的貸款額指標體系1)若干個有聯系的統計指標組成的整體稱為統計指標體系。統計指標體系對統計總體的描述和刻畫更加全面和深刻
2)指標體系中的指標一定是有聯系的。其中的指標可以用另一些指標表示出來,以發揮指標體系的整體性功能存量和流量存量:是指事物在一定時點(刻)上累計或結存的總量,是按一定時點計算出來的。如儲蓄存款余額,年初人口數,流動資金余額,商品庫存額、庫存量等流量:是指事物在一定時期內發展變化的總量,是按一定時期計算出來的數量。如國內生產總值,物流量,人流量,客流量。
流量亦稱為增量中國的政府統計集中型的統計管理體制1.CPI統計改革2.住房價格統計改革中國的統計公報制度專業統計:金融統計、交通運輸統計、醫療衛生統計、海關統計等等本章小結統計的重要性統計學的研究對象統計中的基本概念第2章數據收集學習目標統計數據收集的意義統計數據的計量與類型統計數據的來源2思考在你企業生產的產品中,需要了解客戶對產品的評價,請思考:用什么辦法可以知道客戶對該產品的評價?有幾家供貨商都可以提供你企業所需的生產原料。你怎樣選擇原料供貨商?應聘企業管理宏觀調控個人入學、就業、就醫、理財和投資需要大量的數據信息作決策2.1數據收集的意義PM2.5實時監控:駱家輝的貢獻余額寶:開戶數、資金規模、年化收益率淘寶數據(大數據)1.淘寶+天貓每天發出1200萬單;每分鐘成交8300多筆訂單2.最“數碼控”:每個月更換一部手機;擁有兩臺以上平板電腦3.最該“剁手”:人均年購物額達16萬元,每兩天就要買3次東西2.2統計數據的類型統計數據是對客觀現象進行計量的結果數據的計量尺度:即計量標準或測度標準定類尺度1)是最粗略、計量層次最低的計量尺度2)只能按照事物的某種屬性對其進行平行的分類或分組3)只能區分事物的類別4)如果用數字表示某一類別,它具有=或≠的數學特性5)各類別之間是平等的,無優劣、大小之分,但各類別之間的順序可以改變6)通過計算出每一類別中各元素或個體出現的頻數或頻率來進行分析定類尺度產品類別商品類別學生按專業分類企業按經濟類型分類人口數按年齡分類、性別分類、戶籍分類人口按職業分類
分類有何益處?定序尺度1)稱為順序尺度2)對事物之間的等級差或順序差別的測度3)計量結果表現為不同的類別,但可以比較優劣和順序4)比定類尺度精確,測度出了類別之間的順序,未測量出類別之間的準確差值5)該尺度具有﹥和﹤的數學特性6)計量結果不僅能對事物分門別類,還可以比較大小,但不能進行數學運算定序尺度受教育程度:文盲、小學、中學、大學、大學以上國家:發達國家、發展中國家醫院:三級甲、三級乙、三級丙臺風預警顏色:黃色、橙色、紅色、黑色軍銜等級
中國人民解放軍軍官銜分為3等10級,即將官3級(上將、中將、少將)、校官4級(大校、上校、中校、少校)、尉官3級(上尉、中尉、少尉)。志愿兵役制士兵按軍銜等級分為:高級士官(六級土官、五級士官);中級士官(四級士官、三級士官);初級士官(二級士官、一級士官)。職稱:初級、中級、高級定距尺度1)稱為間隔尺度2)既能將事物區分為不同類型并進行排序,又可以準確指出類別之間的差距3)是對事物類別或次序之間間距的測度4)通常使用自然或度量衡單位作為計量尺度5)計量結果表現為數值,不僅具有定類尺度和定序尺度的特性,其結果還可以進行加、減運算
溫度、濕度、風力、考試分數定比尺度1)稱為比率尺度2)與定距尺度屬于同一層次,計量結果表現為數值3)可以計算兩個測度值之間的比值4)有一個絕對的零點,在定比尺度中,“0”表示“沒有”或“不存在”0度、濕度為0、考試成績是0分;0“有”產量是0,工資收入是0;0“沒有”數據類型2.3數據的來源直接來源:問卷、實驗或觀察
原始數據;初級資料;第一手資料
直接測量或觀察所得到間接來源:出版物、網絡(數據庫)
二手數據;二手資料;次級資料
已經公開發布的數據統計調查(市場調查、企業調查)1.統計報表制度:是收集統計資料的一種重要方法,是按照國家有關法規的規定,自下而上的逐級提供基本統計資料的一種調查方式。如統計公報2.專(項)門調查:為了研究某種專(項)門問題而組織的調查方式,有普查、重點調查、典型調查、抽樣調查如:房產稅對房價的影響;
電商對傳統商業的影響;
農村土地流轉對農民的影響;
互聯網金融對傳統金融的影響統計調查(市場調查、企業調查)1)全面調查:(普查)調查了全部應調查的個體,又稱普查。如人口普查;經濟普查;農業生產情況普查等2)非全面調查:只調查了一部分個體,根據一部分個體(樣本)的特征推斷總體的情況。如抽樣調查、重點調查和典型調查。如:食品質量調查;電視節目收視率調查;
產品質量檢測等普查1)是專門組織的一次性的全面調查。如:2000年的全國第五次人口普查
2004年的全國第一次經濟普查
2006年的全國第二次農業普查2013年全國經濟普查2)組織方式利用基層單位的報表成立專門的普查機構經濟普查領導小組辦公室3)普查必須設立統一的標準時點和普查項目第五次人口普查的標準時點是2000年11月1日零點第二次經濟普查的標準時點是2008年12月31日重點調查1)是專門組織的非全面調查先選取重點單位對重點單位進行全面調查2)重點單位
單位個數比較少數量標志值的總和在全部單位中所占的比重較大3)重點單位的選取不具有客觀性,我們不能用重點調查的結果來推斷總體典型調查1)是專門組織的非全面調查先選取典型單位對典型單位進行全面調查2)典型單位最具有代表性的單位最能反映總體本質特征的單位3)研究事物的本質特征、發展趨勢或規律4)典型單位的選取不具有客觀性,我們不能用典型調查的結果來推斷總體抽樣調查1)是專門組織的非全面調查2)按隨機性原則從總體中抽取樣本單位3)根據樣本的信息推斷總體4)樣本單位具有很好的代表性5)是最重要的統計調查方式,應用最廣
關于失地農民生活和就業狀況的抽樣調查為什么消費者喜歡網絡購物的抽樣調查
絕大多數社會調查都是抽樣調查諺語:你不必吃完整頭牛,才知道牛肉是老的。抽樣調查概率抽樣:保證樣本具有代表性1.簡單隨機抽樣2.分層抽樣3.系統抽樣4.整群抽樣數據來源—間接來源國家統計機構咨詢公司、行業分析公司權威報刊雜志廣播電視傳媒英特網數據庫間接數據作為比較分析的基礎本章小結統計數據的類型數據收集方法全面調查、非全面調查抽樣調查重點調查典型調查普查第2章用圖表和統計量看數據學習目標用圖形和表格描述數據的特征用統計量描述數據的特征描述統計學的基本內容和方法22.1用圖表描述數據特征數據整理用圖形和表格展示數據的基本特征2.1.1統計數據整理統計整理:是統計研究工作的重要階段,是對收集來的資料用科學的方法進行加工處理,使資料系統化、條理化、檔案化,為統計分析服務統計整理的基本任務是:提煉出大量的、復雜的、零散的數據中隱含的信息,并展示數據的規律和特性,為統計分析服務統計分組根據統計研究的目的和客觀現象的內在特點,按某個標志(或幾個標志)把被研究的總體劃分為若干個不同性質的組。例:收集到某班所有同學的統計學考試成績,為了研究需要劃分高、中、低三個成績段,每個成績段的范圍分別是85-100,70-85,0-70,將每個成績歸入到相應的組中
2.1.1統計數據整理考試成績等級人數(人)0~70低1270~85中3585~100高18合計652.1.2數據整理—統計分組1)統計分組是一種定性分類2)分組的結果要做到:組內同質性,組間差異性;不重復,不遺漏3)是對復雜總體進行認識的第一步統計分組可以:1)劃分現象的類型2)說明現象的內部結構3)分析現象之間的依存關系2.1.2統計分組例.按百分制記分,某班級40位學生統計學考試成績分別如下:
89887699746082608986939994827779977895928784796598675972848556817773656683637970
將上述資料編制成頻數分布表,如下表所示:2.1.2統計分組考分人數(人)比重(%)50—6025.060—70717.570—801127.580—901230.090—100820.0合計40100表
某班級學生統計學考試成績表2.1.3數據整理—頻數分布表頻數分布表
對數據進行分組時,需要建立頻數分布表,以便更有效地顯示數據的特征和分布。構成:頻數:各組的單位數(數據個數)頻率:各組頻數與總數之比頻數分布:由分組標志序列和各組相對應的分布次數這兩個要素構成頻率分布:由分組標志序列和各組相應的頻率構成頻率分布2.1.3定性數據的頻數分布表2014年商學院各專業的招生人數專業人數(人)比重(%)金融學9039.13財務管理5624.35會計學2310.00國際貿易3013.04工商管理3113.48合計230100.002.1.4定量數據的頻數分布表選擇組數計算各組的寬度(組距)寬度=(最大值-最小值)/組數確定組界:最大值、最小值;稱為上限、下限計算組中值=(上限+下限)/2某組的組中值作為一組的代表值根據分組整理成頻數分布表計算每個組的頻數、相對頻數(頻率)
2.1.4定量數據的頻數分布表組距數列表某車間50名工人日加工零件數分組表按零件數分組頻數(人)頻率(%)105~110110~115115~120120~125125~130130~135135~140358141064610162820128合計501002.1.5累計頻數分布表為了統計分析的需要,有時要觀察某一數值以上或某一數值以下頻數或頻率之和,這就需要在頻數分布表基本分組的基礎上計算累計頻數或累計頻率。1.向上累計由變量值小的向變量值大的方向的頻數或頻率相加2.向下累計由變量值大的向變量值小的方向的頻數或頻率相加2.1.5累計頻數分布表考分人數(人)向上累計向下累計50—60224060—70793870—8011203180—9012322090—1008408合計402.2數據圖形描述(分組后數據)用圖形展示定性數據1)條形圖或柱形圖:適合于展示分類型數據
條形圖是用寬度相同的條形的長短來表示數據的變動2)餅圖或環形圖:適合于展示結構型數據用圓形及圓內扇形的面積來表示數值大小的圖形3)帕累托圖:適合于展示分類型數據2.2.1條形圖例.某班級有60名同學,根據他們的愛好分為5組。如下表?,F將這組數據資料用條形圖和圓形圖展示出來。愛好分組人數(人)繪畫20舞蹈7音樂10文學8體育152.2.2餅圖2.2.3環形圖2)環形圖:環形圖與圓形圖類似,所不同的是,環形圖中間有一個“空洞”,總體中的每一部分數據用環中的一段弧長表示2.2.3環形圖例.在一項研究小區物業管理服務水平的社會調查中,研究人員在甲、乙兩個小區各抽查320戶家庭,其中的一個問題是:“您對您小區的物業服務水平是否滿意?”有5個備選答案:(1)非常不滿意;(2)不滿意;(3)一般;(4)滿意;(5)非常滿意。調查結果整理如下:2.2.3環形圖甲小區回答類別戶數百分比向上累計(戶)(%)戶數(戶)百分比(%)非常不滿意288.8288.8不滿意11235.014043.8一般9730.323774.1滿意4915.328689.4非常滿意3410.3320100.0合計320100——甲小區:2.2.3環形圖乙小區回答類別戶數百分比向下累計(戶)(%)戶數(戶)百分比(%)非常不滿意257.8320100.0不滿意10332.229592.2一般8225.619260.0滿意6821.211034.4非常滿意4213.24213.2合計320100.0——乙小區:2.2.3環形圖2.2.4定距數據和定比數據的展示1)分組數據用直方圖和折線圖2)未分組數據用莖葉圖2.2.5分組數據用直方圖展示1)在平面直角坐標中,用橫軸表示數據分組,縱軸表示頻數或頻率,各組與相應的頻數就形成了一個矩形,即直方圖2)用矩形的寬度和高度來表示頻數分布的圖形。實際上是用矩形的面積來表示各組的頻數分布3)直方圖下的總面積等于1某車間50名工人日加工零件數分組表表
某車間50名工人日加工零件數分組表按零件數分組頻數(人)頻率(%)110~115115~120120~125125~130130~135135~140140~145359121074610182420148合計50100
2.2.5分組數據—直方圖31151201251301351401456912
頻數(人)50名工人日產零件分組31106912
頻數(人)2.2.5直方圖與條形圖的區別1)條形圖是用條形的長度表示各類別頻數的多少,其寬度則是固定的、無意義的2)直方圖是用面積表示各組頻數的多少,矩形的高度表示每一組的頻數或頻率,寬度則表示各組的組距,其高度與寬度均有意義3)直方圖的各矩形通常是連續排列,而條形圖是分開排列的2.2.6分組數據—折線圖1)折線圖也稱頻數多邊形圖(Frequencypolygon)2)是在直方圖的基礎上,把各直方圖頂部的中點(組中值)用直線連接起來,再把原來的直方圖擦去3)折線圖的兩個終點要與橫軸相交,具體的做法是:第一個矩形的頂部中點通過左邊的豎邊中點連接到橫軸,最后一個矩形頂部中點與其右邊的豎邊中點連接到橫軸
折線圖下所圍成的面積與直方圖的面積相等,二者所表示的頻數分布是一致的2.2.6分組數據—折線圖12963110115120125130135140145日加工零件數(個)頻數(人)
某車間工人日加工零件數的折線圖12963110115120125130135140145日加工零件數(個)頻數(人)
某車間工人日加工零件數的折線圖2.2.7未分組數據—莖葉圖1)用于顯示未分組的原始數據的分布2)由“莖”和“葉”兩部分構成,其圖形是由數字組成3)以該組數據的高位數值作樹莖,低位數字作樹葉4)莖葉圖類似于橫置的直方圖,但又有區別
通過直方圖可大體上看出一組數據的分布狀況,但
看不出原始數據
莖葉圖既能給出數據的分布狀況,又能保留原始的數據信息2.2.7未分組數據—莖葉圖例題:某行業管理局所屬的40個企業2012年的產品銷售收入如下(單位:萬元),試編制莖葉圖。15212412911610010392951271041051191141151031181421351251171081051071371201361171089788123115119138112146113126871102.2.7未分組數據—莖葉圖樹莖樹葉數據個數(個)8782925731003345578891102345567789912120345679713567841426215212.2.8箱線圖奇異值最大值最小值中位數大于1.5倍四分位數間距四分位數間距范圍2.2.8箱線圖中間的黑粗線為中位數方框為四分位間距的范圍離方框上/下界的距離超過四分位數間距1.5倍的為離群值,以“O”表示;超過3倍的則為極值,用“*”表示2.2.9多變量定量數據的圖表描述
散點圖同時研究兩個數字變量的取值在圖上標出所有數對(Xi,Yi)時間序列圖表示一列定量數據如何隨時間變化組箱線圖比較多個總體的分布特征雷達圖用于要同時分析的變量個數較多的情況
標出所有數對(Xi,Yi)02040600204060XY散點圖年份銷售02468200420052006200720082009時間序列折線圖組箱線圖2.2用統計量描述數據2.2.1用一個值概括一組數據2.2.2找出數據彼此之間的差距2.2.3數據分布的形狀2.2.1用一個值概括一組數據平均值中位數眾數平均值
平均指標:表明同質總體內某一數量標志值在一定條件下的一般水平的綜合指標。如平均工資、平均成績、平均利潤等特點:
1)將總體單位數量上的差異抽象化
2)只能在同質總體內進行計算
3)能反映總體變量值的集中趨勢
4)平均指標在科學研究、國際比較和經濟管理中有重要作用平均值統計學家與數學家的對話一名統計學家遇到一位數學家,統計學家調侃數學家,說道:“你們不是說若x=y且y=z,則x=z嗎,那么想必你若喜歡一個女孩,那個女孩喜歡的男生,你也會喜歡了?”
數學家想了一下,反問道:“如果你把左手放到一鍋100度的開水中,右手放到一鍋0度的冰水里,想必你也沒事吧!因為它們平均不過是50度而已。算術平均數設x1
、x2、x3
……xn為n個變量值,為n個變量的算術平均數,則可用下式計算:加權算術平均數
加權算術平均數適合于:
1)數據個數較多
2)數據已分組設x1、x2
、x3、……、xn分別是n組變量的標志值,f1
、f2
、f3
、……、fn,是各組的頻數(次數),則
1)n個變量連乘積的n次方根稱為n個變量的幾何平均數,用2)設x1
、x2
、x3
、……、xn是n個變量,是幾何平均數,則幾何平均數
1)X≥02)幾何平均數適合于計算平均比率或平均速度3)幾何平均數也有簡單幾何平均數和加權幾何平均數之分幾何平均數的特點例1.某水泥生產企業2013年的產量為100萬噸,2014與2013年相比增長率為9%,2015年與2014相比增長率為16%,2016年與2015年相比增長率為20%。求各年的年平均增長率。年平均增長率為114.91%-100%=14.91%例題例題例2.某位投資者持有一種股票,2013年、2014年、2015年、2016年的收益率分別為4.5%、2.0%、3.5%、5.4%。計算投資者在這四年內的平均收益率。該投資者的年平均收益率為:
103.84%-100%=3.84%眾數(M0)1)一組數據中出現次數最多的變量值,用M0表示2)眾數主要用于測定數據的集中趨勢。3)不同種類的數據計算眾數的方法有所不同眾數(M0)例:下列是某班級20名同學的身高(單位:米);1.56,1.63,1.75,1.82,1.71,1.70,1.75,1.68,1.65,1.75,1.72,1.80,1.75,1.75,1.58,1.75,1.67,1.70,1.75,1.60,身高的眾數是:M0=1.75m眾數的特點1)測度數據的集中趨勢2)只有當數據的個數較多,且有明顯的集中趨勢時,計算的眾數才有意義。3)有些數據可能有雙眾數,有些數據可能沒有眾數。4)不受數據中極端大值或極端小值的影響,比前面的平均指標更有代表性。5)眾數的計算沒有用到全部的標志值,也把它稱為位置平均數。中位數1)
將一組數據按大小順序排列,處于中點位置上的變量值,叫做中位數,用Me表示2)中位數是一種位置平均數3)掌握的資料不同,計算中位數的方法也不同計算步驟:1)對數據資料排序,設x1
、x2
、x3
、……xn為n個數據,按大小順序排列為x(1)、x(2)、x(3)、……、x(n)2)根據公式(n為數據的個數)確定中點的位置,3)計算中位數。若n為奇數,則中位數為若n為偶數,則中位數為未分組數據計算中位數中位數的特點1)
是一種位置平均數2)不受極端值和開口組的影響3)對某些不具有數學特點或不能用數值測定的現象,可用中位數求其一般水平分位數1.百分位數(1)百分位數(Percentile)是用99個點將排列好的數據100等分后,分別給出從最小值到最大值區間內數據的信息分位點上的值。其中每個部分包含了1%的數據(2)百分位數的計算方法與中位數的類似分位數(1)升序或降序)進行排列。(2)確定所求百分位數的位置。假設求第p百分位數,則該第p百分位數位置為:i=pn/100(3)確定百分位數。如果計算的i為整數,則直接在排列的數據列中找到第個i個值即為所求
若i不為整數,則取位于兩側的變量的平均數作為所要求的百分位數分位數2.四分位數一組數據排序后處于25%和75%位置上的值,稱為四分位數(quartile),也稱四分位點。四分位數是通過三個點,即將全部數據等分為四部分,其中每部分包含25%的數據中間的四分位數就是中位數因此通常所說的四分位數是指處在25%位置上的數值(下四分位數)和處在75%位置上的數值(上四分位數)平均指標的代表性5859606162
4050607080兩組數據的平均數都是60,哪一組平均數的代表性好?2.2.2找出數據之間的差距極差樣本方差;標準差標準分數離散系數極差1)R=變量的最大值-變量的最小值
=最高組的上限-最小組的下限2)
度量了變量值的變動范圍3)計算簡單4)忽略了中間值的影響5)又稱為全距極差例1.某車間兩個生產小組的7名工人,各組各人日產量如下(件):甲組:20,40,60,70,80,100,120
乙組:67,68,69,70,71,72,73
各組的平均每人日產量都是70件。而各組的全距分別是:
R甲=120-20=100(件)
R乙=73-67=6(件)方差和標準差1)方差*是各變量與其算術平均數之差的平方的算術平均數*是測度數據離散程度的最主要方法*在實際中有非常重要的應用116方差和標準差2)標準差:是方差的平方根*反映了每個數據與其算術平均數相比平均相差的數值*根據全部數據計算出來的*能較準確的反映出數據的離散程度*是實際應用中最廣泛的測度離散程度的指標標準分數某個數據與平均數相比相差多少個標準差用Z表示:Z的平均數為0,標準差為1標準分數可以將數據標準化,并消除量綱的影響。Z沒有計量單位比較幾組數據的離散程度例:某企業集團,一分公司職工的平均產值是3萬元,標準差1500元;二分公司職工的平均產值是3.85萬元,標準差是1800元。問哪個公司的職工產值水平比較穩定?
怎樣解決這個問題?比較幾組數據的離散程度離散系數1)反映或說明一組數據的離散程度或差異程度或波動程度2)消除計量單位的影響3)反映現象發展的穩定性和均衡性比較幾組數據的離散程度一分公司產值的離散程度:二分公司產值的離散程度:二分公司職工的產值比一分公司穩定2.2.3數據分布的形態正態分布:鐘型分布U型分布J型分布正態分布U型分布正J型分布反J型分布2.2.3數據分布的形態偏態系數:峰態系數:2.2.3數據分布的形態偏態系數:
說明數據的分布形狀。數據是否對稱平均的分布在平均數兩邊?如果數據對稱平均的分布在其平均數兩邊,數據分布是對稱的。否則,就是有偏的。偏態系數就是衡量數據分布是否對稱的統計量1)偏態系數為0,數據分布對稱2)偏態系數大于0,右偏;小于0,左偏3)偏態系數絕對值越大,偏斜程度越大數據分布的形態對稱分布:平均值=眾數=中位數右偏分布:平均值>中位數>眾數左偏分布:平均值<中位數<眾數2.2.3數據分布的形態峰態系數:1.說明數據分布的集中程度或陡峭程度2.與標準正態分布相比較。標準正態分布的峰態系數為03.峰態系數大于0,為尖峰分布4.峰態系數小于0,為平峰分布EXCEL的圖表功能EXCEL的圖表向導功能:制作各種統計圖形。100多種圖型EXCEL制作頻數分布表EXCEL制作直方圖EXCEL制作數據透視表和透視圖EXCEL計算描述統計指標EXCEL的統計函數本章小結用圖和表描述數據的特征學習EXCEL的統計功能第3章用概率分布描述隨機變量主要內容3.1度量事件發生的可能性3.2隨機變量的概率分布3.3幾個重要的小樣本分布3.4樣本統計量的抽樣分布23.1度量事件發生的可能性確定性現象:自然界和社會生活中,在一定的條件下,某種現象的結果是唯一的,并且事先可知。
如:水在一個大氣壓下100度時必然沸騰;地鐵票價;鐵塊不能漂浮在水面上;棉花不會沉入水里。隨機現象:自然界和社會生活中,在一定的條件下,其結果不唯一;并且事先不知道哪種結果會出現。如:天氣溫度;投擲硬幣觀察向上的那一面事件:隨機現象的每一種可能的結果。記為ω;ω1,
ω2,
ω3,…ωn也稱為樣本點或基本事件。隨機事件:在一次觀察中可能發生或不發生的事件。用A,B,C,D表示。分別是樣本點的集合。投擲一枚標有1、2、3、4、5、6數字的立方體兩次,向上面上的數字之和為8。A={(26),(62),(35),(53),(44)}3.1度量事件發生的可能性頻率:做N次試驗,事件A發生了n次,事件A的頻率F(A)=n/N事件的概率P(A):表示做一次試驗,A發生的可能性大小,0≤P(A)≤1。當試驗次數無限大時,F(A)趨近于一個常數,即P(A)。P(A)=F(A)“頻率代替概率原則”事件的概率必須滿足兩個條件:必然事件的概率為1;不可能事件的概率為03.2隨機變量的概率分布隨機變量:用數值來描述特定試驗一切可能出現的結果,它的取值事先不能確定,具有隨機性。用英文字母X、Y、Z等表示如:一年內,某地區出生的嬰兒人數X
某種產品的銷售量Y
某地區的溫度Z
投籃50次,投中的次數Z1小時內120、110、119、121的電話呼叫次數X3.2隨機變量的概率分布隨機變量(一維隨機變量):1.離散型;只取整數值2.連續型;能取任意值隨機變量的密度函數:描述隨機變量的特征,表明隨機變量的取值及其取相應值的概率對離散型隨機變量而言,概率密度函數可表示為;XX1X2……XnPP1P2……Pn3.2離散型隨機變量的特征值1.隨機變量的特征值:表明隨機變量取值的基本情況;如平均值,方差,標準差等2.離散型隨機變量的平均值:稱為數學期望E(X);中心值3.離散型隨機變量的方差:Var(X)=D(x)3.2.2離散型隨機變量的概率分布伯努利(Bernoulli)分布:兩點分布;只取兩個值二項分布:把伯努利分布獨立的做n次3.2.2離散型隨機變量的概率分布泊松分布(Poisson):一段時間內,電臺的呼叫次數3.2.3連續型隨機變量的概率分布連續性隨機變量:可以取任意值,取值在某個區間內分布函數密度函數密度函數的性質3.2.3連續型隨機變量的概率分布正態分布:鐘型分布,兩頭小、中間大。正態分布密度曲線3.2.3連續型隨機變量的概率分布關于X=u對稱,均值決定了它的位置,方差決定了圖形的陡峭或平坦標準正態分布:均值u=0,方差=1。用Z表示密度函數:ф(x),分布函數u3.2.3連續型隨機變量的概率分布ECXEL中的正態分布函數1.NORMDIST;計算給定均值、方差的正態分布的概率2.NORMSDIST;計算標準正態分布的概率3.NORMSINV;計算已知概率時,標準正態分布的反函數3.3小樣本分布分布:。n個獨立的標準正態分布的平方和分布的密度曲線3.3小樣本分布ECXEL中的卡方分布函數1.CHIDIST;計算給定自由度的卡方分布的概率2.CHIINV;計算給定自由度卡方分布右尾概率的反函數3.3小樣本分布(T分布)
分布:。標準正態分布除以卡方分布的平方根0分布密度曲線3.3小樣本分布(T分布)EXCEL中的T分布函數1.TDIST;計算給定自由度T分布的右側概率值2.TINV;計算給定自由度和概率值的反函數3.3小樣本分布(F分布)分布分布的密度曲線3.3小樣本分布(F分布)EXCEL中的F分布函數1.FDIST;計算給定自由度時F分布的概率值2.FINV;計算給定自由度和概率值的右尾反函數值3.4樣本統計量的抽樣分布1)樣本統計量:是指不包含任何未知參數的樣本的函數2)樣本統計量是隨機變量3)抽樣分布:是指樣本統計量的隨機分布。如:樣本均值的分布,樣本比例的分布,樣本標準差的分布等3.4樣本統計量的抽樣分布1)樣本均值的抽樣分布當樣本量(n>30)足夠大時,樣本均值的抽樣分布服從正態分布2)樣本比例的抽樣分布3)樣本方差的抽樣分布3.4樣本統計量的抽樣分布統計量的標準誤差1)樣本均值的標準誤差:2)樣本比例的標準誤差:本章小結概率的含義隨機變量隨機變量的概率分布常見的概率分布第4章假設檢驗主要內容假設檢驗的原理總體均值的假設檢驗總體比例的假設檢驗總體方差的假設檢驗兩總體均值差的假設檢驗引例某健身俱樂部欲根據往年的會員情況,制定2016年的會員發展營銷策略。主管經理估計俱樂部會員的平均年齡是35歲,其中25~35歲的會員占總人數的70%。研究人員從2015年入會的新會員中隨機抽取40人,調查得知他們的平均年齡是32歲,其中25~35歲的會員占74%。根據這份調查結果,問主管經理對會員年齡的估計是否準確?(總體均值和總體比例)假定總體分布中的參數是未知的,但事先對參數的取值作出假定;如:均值(平均年齡)=35,25—35歲占比(P)=70%思考:1.本假定是否正確?需要檢驗。
2.如何檢驗?需要抽樣。利用樣本的信息來驗證(檢驗)原假定是否正確?
統計學是通過假設檢驗的方法來解決上述問題的。假設檢驗(Hypothesistesting)和參數估計(Parameterestimation)是統計推斷的兩個組成部分,它們都是利用樣本對總體進行某種推斷參數估計是用樣本統計量估計總體參數的方法,總體參數在估計之前是未知的假設檢驗則是先對總體參數的取值提出一個假設,然后利用樣本信息去檢驗這個假設是否成立統計方法統計方法統計描述統計推斷參數估計假設檢驗假設檢驗的基本原理假設檢驗(HypothesisTesting)也稱為顯著性檢驗,是事先作出一個關于總體參數取值的假設,然后利用樣本信息來判斷該假設是否合理,即判斷樣本信息與原假設是否有顯著差異,從而決定應接受或否定原假設的統計推斷方法假設檢驗的理論依據是概率論中的“小概率事件在一次試驗中不可能發生”原理大數定律:當試驗次數足夠大時,小概率事件必然發生“日久見人心”、“路遙知馬力”、“保險”
假設檢驗的過程和思路
——概率意義下的反證法
總體假設總體的平均年齡是35歲判斷樣本均值是32歲樣本假設檢驗的步驟第一步:根據問題要求提出原假設(Nullhypothesis,H0)和備選假設(Alternativehypothesis,H1);原假設H0:關于總體參數的取值情況的假定備選假設H1:與原假設H0相互對立,需要支持或證實的第二步:確定適當的檢驗統計量及相應的抽樣分布;第三步:選取顯著性水平α,確定原假設的接受域和拒絕域;第四步:計算檢驗統計量的值;第五步:作出統計決策下面結合例題1對每一個步驟的內容進行分析和說明舉例1某健身俱樂部主管經理估計會員的平均年齡是35歲,研究人員從2012年入會的新會員中隨機抽取40人,調查得到他們的年齡數據如下。33283226373527293330352939342737343631292926192136384239363827222934362039372239試根據調查結果判斷主管經理的估計是否準確?1.提出原假設和備選假設原假設(Nullhypothesis)又稱零假設,是需要通過樣本推斷其正確與否的命題,用H0表示本例中可以提出:H0:
m=35;這里m表示總體會員的平均年齡,意味著總體會員的平均年齡與主管經理估計的35歲沒有差異與原假設對立的假設是備選假設,用H1表示在本例中,備選假設意味著“總體會員的平均年齡與主管經理估計的會員平均年齡35歲有顯著差異”,可以表示為H1:
m≠35原假設與備選假設互斥,檢驗結果二者必取其一原假設陳述需要檢驗的假設,用H0
表示例如:H0:=35
代表“正?!钡那樾慰偸前忍枴?”。H0:p=70%檢驗以“假定原假設為真”開始反證法備擇假設為原假設的對立情況,用H1表示
例如:H1:≠35;:H1:p≠70%不包含等號;≠,>,<需要支持和證實的2.確定適當的檢驗統計量假設檢驗需要借助樣本統計量進行統計推斷,稱為檢驗統計量。不同的假設檢驗問題需要選擇不同的檢驗統計量檢驗統計量:利用樣本的信息構造的函數在具體問題中,選擇什么統計量,需要考慮的因素有:總體方差已知還是未知,用于進行檢驗的樣本是大樣本還是小樣本,等等在本例中,由于n=40>30是大樣本,所以近似服從正態分布,以樣本標準差代替總體標準差,所用的統計量是:3.選取顯著性水平,確定接受域和拒絕域顯著性水平(SignificantLevel):事先給定的形成拒絕域的小概率,用a表示通常取a=0.01,a=0.05或a=0.10;表明,當作出接受原假設的決定時,其正確的概率為99%,95%或90%拒絕域:原假設H0
成立條件下,統計量落入的小概率區域接受域:統計量能夠取值的非拒絕域本例為雙側檢驗,有接受域:-1.96≤z≤1.96拒絕域:z<-1.96或z>1.96
a/2-1.961.961-aa/2在實際應用中,一般是先給定了顯著性水平,這樣就可以由有關的概率分布表查到臨界值(criticalvalue),從而確定H0的接受域和拒絕域。對于不同形式的假設,H0的接受域和拒絕域也有所不同。0拒絕域拒絕域接受域(1)雙側檢驗0拒絕域接受域(2)左單側檢驗0拒絕域接受域(3)右單側檢驗
如圖所示,雙側檢驗的拒絕域位于統計量分布曲線的兩側,左單側檢驗的拒絕域位于統計量分布曲線的左側,右單側檢驗的拒絕域位于統計量分布曲線的右側。4.計算檢驗統計量的值在提出原假設H0和備選假設H1,確定了檢驗統計量,給定了顯著性水平a以后,接下來就要根據樣本數據計算檢驗統計量的值。其計算的基本公式為:上式不是計算檢驗統計量的唯一公式在本例中,5.作出統計決策根據樣本信息計算出統計量z的具體值,將它與臨界值相比較,就可以作出接受原假設或拒絕原假設的統計決策在本例中,由于z=3.184>1.96,落在拒絕域內,所以拒絕原假設H0??梢缘贸鼋Y論:在a=0.05的顯著性水平下,抽樣結果的平均年齡顯著低于主管經理的估計值,有理由認為經理的估計不準確假設檢驗中的兩類錯誤第一類錯誤棄真錯誤。原假設正確,因為抽樣等原因,反而拒絕了原假設后果往往很嚴重犯第一類錯誤的概率為第二類錯誤取偽錯誤。原假設錯誤,因為抽樣等原因,反而接受了原假設犯第二類錯誤的概率為假設檢驗中四種可能結果的概率不能拒絕H0(接受)拒絕H0H0為真1-a(正確判斷)a〈棄真錯誤〉H0為偽b〈取偽錯誤〉1-b
(正確判斷)對于一定的樣本量n,不能同時做到減小犯這兩種錯誤的概率。如果減小a錯誤,就會增大b錯誤的機會;如果減小b錯誤,則會增大a錯誤的概率。因此,在假設檢驗中,需要對這兩類錯誤進行控制
與的逆向關系不能同時降低兩類錯誤!假設檢驗中的P值P值(P-value)是指在原假設為真時,所得到的樣本觀察結果或更極端結果的概率根據“小概率原理”,如果P值非常小,就有理由拒絕原假設,且P值越小,拒絕的理由就越充分實際應用中,多數統計軟件直接給出P值,其檢驗判斷規則如下(雙側檢驗):若P值<a/2,則拒絕原假設;若P值≥
a/2
,則不能拒絕原假設假設檢驗的內容假設檢驗總體均值的假設檢驗總體比例的假設檢驗總體方差的假設檢驗s未知s已知大樣本小樣本兩個總體均值差的假設檢驗已知標準差,總體均值的Z檢驗1. 將樣本統計量(如)轉換為標準正態分布Z變量。
2.給定顯著性水平,可得,Z的臨界值。與Z值比較如Z檢驗統計量的值落在臨界域內則接受H0否則,不能接受H0已知,均值的雙側Z檢驗假設總體服從正態分布;當(n
30)時,不服從正態分布的總體可以用正態分布來近似原假設只有“=”號;H0=u0。H1≠u0使用Z檢驗統計量H0臨界值臨界值(1/2)
(1/2)樣本統計量拒絕域拒絕域非拒絕域拒絕域抽樣分布1
-置信度舉例22011年某地區職工平均工資為32808元,標準差為3820元?,F在隨機抽取200人進行調查,測定2012年樣本平均工資為34400元。按照5%的顯著性水平判斷該市2012年的職工平均工資與2011有無顯著差異?解答本例中,我們關心的是前后兩年職工的平均工資有沒有顯著的差異,因此,屬于雙側檢驗。檢驗過程如下:
(1)提出假設:H0:m=32808;H1:m≠32808;(2)總體標準差s已知,大樣本抽樣,故選用Z統計量;(3)顯著性水平a=0.05,由雙側檢驗,臨界值:。判斷規則為:若z>1.96或z<-1.96,則拒絕H0;若-1.96≤z≤1.96,則不能拒絕H0。(4)計算統計量Z的值(5)檢驗判斷:由于,落在拒絕域,故拒絕原假設H0。結論:以5%的顯著性水平可以認為該市2012年的職工平均工資比2011年有明顯的差異。已知,均值的單側Z檢驗1. 假設總體服從正態分布;當(n
30)時,不服從正態分布的總體可以用正態分布來逼近2. 原假設有
或者號:H0:u≤u0,H0:u≥u03. 使用Z檢驗統計量Zxxnxx/Z0Z0拒絕域拒絕域H0:0H1:<0H0:0H1:>0較小的m值與H0不矛盾.拒絕域1-1-舉例3已知某電子產品的使用壽命服從正態分布,根據歷史數據,其平均使用壽命為8000小時,標準差為370小時?,F采用新的機器設備進行生產,隨機抽取了100個產品進行檢測,得到樣本均值為7910小時。試問在5%的顯著性水平下,新的機器是否合格?解答這是一個左單側檢驗問題。抽樣的目的是為了檢測新機器生產的產品使用壽命是否達到標準,我們比較關心的是使用壽命的下限,如果新產品的使用壽命與過去相比沒有明顯降低,則說明所使用的新機器合格;反之,則說明新機器不合格。檢驗過程如下:(1)提出假設:H0:m≥8000;H1:m<8000;(2)總體標準差s已知,大樣本抽樣,故選用Z統計量;(3)顯著性水平a=0.05,由單側檢驗,臨界值(4)計算統計量Z的值:(5)檢驗判斷:由于,落在拒絕域;故拒絕原假設H0。即認為產品的使用壽命有明顯降低,新機器不合格。未知的大樣本檢驗1.假設總體服從正態分布;當(n
30)時,不服從正態分布的總體可以用正態分布來近似2.使用Z檢驗統計量,用樣本方差代替總體方差3.將樣本統計量轉換為標準正態分布Z變量4.與Z的臨界值比較如Z檢驗統計量的值落在臨界域內則接受H0否則,拒絕H0舉例4某乳制品廠生產的一種盒裝鮮奶的標準重量是495克。為了檢測產品合格率,隨機抽取100盒鮮奶,測得產品的平均重量為494克,標準差為6克,試以5%的顯著性水平判斷這批產品的質量是否合格?解答產品的標準重量是495克,過輕或者過重都不符合產品質量標準。檢驗過程如下:(1)提出假設:H0:m=495;H1:m≠495;(2)總體標準差s未知,但是由于大樣本抽樣,故仍選用Z統計量(3)顯著性水平a=0.05,由雙側檢驗,臨界值(4)計算統計量Z的值,式中用s代替s:(5)檢驗判斷:由于,落在接受域;故不能拒絕原假設H0,即不能說明這批產品不符合質量標準。未知的小樣本檢驗1.假設:總體服從正態分布;2.使用t檢驗統計量4.t檢驗的決策規則:若采用雙側檢驗,臨界值為-ta/2和ta/2
。當-ta/2≤t≤ta/2時,落入接受域,不能拒絕原假設;反之,則拒絕原假設若采用左單側檢驗,臨界值為-ta。當t<-ta時,落入拒絕域,拒絕原假設;反之,則不能拒絕原假設若采用右單側檢驗,臨界值為ta。當t>ta時,落入拒絕域,拒絕原假設;反之,則不能拒絕原假設舉例5沿用例4,對鮮奶產品進行抽樣檢查,隨機抽取10盒產品,測得每盒重量數據如下(單位:克):496、499、481、499、489、492、491、495、494、502。試以5%的顯著性水平判斷這批產品的質量是否合格?解答根據前面的分析,本例題為雙側檢驗問題。檢驗過程如下:(1)提出假設:H0:m=495;H1:m≠495;(2)總體標準差s未知,小樣本抽樣,故仍選用t統計量;(3)當a=0.05,自由度n-1=9時,由雙側檢驗,查表可以得出臨界值:(4)計算統計量t的值:(5)檢驗判斷:由于,落在接受域;故不能拒絕原假設H0,即不能說明這批產品不符合質量標準。假設檢驗的內容假設檢驗總體均值的假設檢驗總體比例的假設檢驗總體方差的假設檢驗兩個總體比例之差單一總體兩個總體均值差的假設檢驗單一總體比例的假設檢驗通常是在大樣本條件下進行的,根據正態分布來近似臨界值,其檢驗方法和步驟與均值檢驗時相同。待檢驗的假設為:雙側檢驗:左側檢驗:右側檢驗:檢驗統計量為:舉例6(雙側)沿用引例。主管經理估計25-35歲的會員占總人數的70%,隨機抽取40人,調查得知其中25-35歲的會員占74%。試以5%的顯著性水平判斷主管經理的估計是否準確?解答根據題意,建立如下假設:樣本比例p=0.74;顯著性水平
a=0.05,由雙側檢驗,臨界值:Za/2=1.96;由于是大樣本抽樣,樣本統計量Z值為:由于,即Z的值落入接受域,故不能拒絕原假設;即不能認為主管經理的估計錯誤。兩個總體比例之差的假設檢驗假設兩個總體服從二項分布。兩個總體中具有某種特征單位數的比例分別為p1和p2,但p1和p2未知,可用樣本比例p1和p2代替。待檢驗的假設為:雙側檢驗:左側檢驗:右側檢驗:檢驗統計量為:舉例7(單側)某電子產品廠商對兩條流水線上生產的同種產品進行質量檢測,檢測結果如下:A流水線:抽樣檢測產品100個,合格92個;B流水線:抽樣檢測產品80個,合格76個;能否根據上述檢測結果,以5%的顯著性水平判斷流水線B的合格率比流水線A的合格率高?解答根據題意,這是一個左單側檢驗問題,建立如下假設:樣本比例p1=0.92,p2=0.95;顯著性水平a=0.05,由左單側檢驗,
臨界值:Za=-1.645;統計量Z值為:由于,落入接受域,故不能拒絕原假設;即不能認為流水線B的產品合格率高于流水線A的假設檢驗的內容假設檢驗總體均值的假設檢驗總體比例的假設檢驗總體方差的假設檢驗兩個總體方差比單一總體兩個總體均值差的假設檢驗單一總體方差的假設檢驗對方差進行檢驗的程序,與均值檢驗、比例檢驗是類似的,它們的主要區別在于使用不同的檢驗統計量方差檢驗使用c2統計量:H0臨界值臨界值1/21/2樣本統計量拒絕域拒絕域非拒絕域拒絕域(雙側)抽樣分布1-置信度舉例8沿用例4,某乳制品廠的一種盒裝鮮奶產品的標準重量是495克,現改進生產工藝,要求每盒的誤差上下不超過3克。從新生產出的產品中隨機抽取15盒進行檢查,測得產品的重量誤差如下(克)試以5%的顯著性水平判斷這批產品的質量是否合格2.5-3.3-3.12.83.6-4.12.23.1-3.02.92.92.83.33.53.1解答本例為雙側檢驗,拒絕域為:或建立如下假設:計算得:s2=8.617顯著性水平a=0.05,查c2分布表,兩個臨界點分別為:統計量結論:由于落在接受域,故不能拒絕原假設;即認為這批產品的重量達到標準。兩個總體方差比的假設檢驗假定兩個總體都服從正態分布。用兩個樣本方差的比來進行判斷:如果接近于1,說明兩個未知的總體方差很接近;如果比值結果遠離1,說明s12和s22之間有較大差異。建立假設(雙側):或或兩個方差之比服從F分布,使用F統計量:在原假設下,檢驗統計量:,此時F統計量的兩個自由度分別為:分子自由度n1-1,分母自由度n2-1。在雙側檢驗中,拒絕域在F分布的兩側,兩個臨界點的位置分別為:在單側檢驗中,拒絕域在F分布的右側,建立如下假設:
臨界點為其中F1-a/21/21/2拒絕域拒絕域非拒絕域拒絕域(雙側)抽樣分布1-Fa/2F舉例9某校抽查了20名學生的《應用統計學》考試成績,其中,男生12人,女生8人,他們的分數見下表。根據這組數據,以5%的置信水平檢驗兩個總體(男、女生的平均成績)的方差是否相等。成績(單位:分)男688084608179765570758892女8078857985929468解答本題采用雙側檢驗,建立如下假設:計算得:統計量由a=0.05,查表得:有:結論:由于故不能拒絕;即可以認為這兩個總體的方差沒有顯著差異。
假設檢驗的內容假設檢驗總體均值的假設檢驗總體比例的假設檢驗總體方差的假設檢驗配對樣本獨立樣本兩個總體均值差的假設檢驗已知s未知s獨立樣本1.已知Z統計量2.未知,大樣本Z統計量3.未知,小樣本假設總體服從正態分布;t統計量。均值之差的Z檢驗樣本統計量:1.已知2.未知,大樣本舉例10瑜伽和舍賓是近年來流行的休閑健身方式,某健身俱樂部對這兩種方式的減肥瘦身效果進行了數據統計,結果顯示:在參加為期一個月的健身班后,瑜伽班成員的減重量標準差為0.75千克;舍賓班的減重量標準差為0.95千克?,F從兩個健身班中各抽取一個隨機樣本,樣本量分別為n1=40,n2=35,瑜伽班的平均減重量為=2.35千克,舍賓班的平均減重量為千克。試以5%的顯著性水平判斷兩種健身方式在減肥瘦身效果上是否有顯著差別?解答由于檢驗兩種健身方式在減肥效果上是否有顯著差別,沒有涉及方向,故本例是雙側檢驗。檢驗過程如下:(1)提出假設:(2)兩個總體標準差s均已知,大樣本抽樣,選用Z統計量;(3)顯著性水平a=0.05,由雙側檢驗,查表可以得出臨界值:(4)計算統計量:(5)檢驗判斷:由于,落在接受域,故不能拒絕原假設;即不能認為兩種健身方式在減肥效果上有顯著差別。均值之差的t檢驗()1.小樣本條件下,檢驗兩個具有相同方差的獨立總體的均值2.假設兩個總體都是正態分布;如果不是正態分布,可以用正態分布近似(n1
30&
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
評論
0/150
提交評論