




版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
多元統計學
Multivariatestatistics
沈琪shenqi@2/5/20231教師主講教師:沈琪E-mail:shenqi@
課程介紹2/5/20232教材《多元統計分析與SPSS應用》,汪冬華等主編,華東理工大學出版社,2010年教參書籍《應用統計學》,張建同、孫昌言、王世進主編,清華大學出版社,2010年。《應用多元統計分析》,(德)沃爾夫岡·哈德勒,(比)利奧波德·西馬著,陳詩一譯,北京大學出版社,2011年。《應用統計學》,馬慶國編著,科學出版社,2005年。《應用多元統計分析》朱建平主編,科學出版社,2006年。《多元統計分析》,何曉群編著,人民大學出版社,2008年。課程介紹2/5/20233課堂資料下載內容:補充資料、課件、案例討論、教學大
綱、復習要點等。公共Email:Msta2013@163.com
密碼:Msta2013
課程介紹2/5/20234內容安排第一講多元描述統計分析和均值的比較檢驗第二講方差分析第三講相關分析第四講聚類分析第五講判別分析第六講主成分分析第七講因子分析第八講典型相關分析實驗教學課堂教學中穿插實驗教學教學內容安排課程介紹2/5/20235多元統計分析是運用數理統計方法來研究解決多指標問題的理論和方法。近30年來,隨著計算機應用技術的發展和科研生產的迫切需要,多元統計分析技術被廣泛地應用于多個領域,已經成為解決實際問題的有效方法。隨著Internet的日益普及,各行業、單位生成、收集、存儲和處理數據的能力大大提高,數據量與日俱增,大量復雜信息層出不窮。引言2/5/20236引言顯然,大量信息在給人們帶來方便的同時也帶來一系列問題。信息量過大,超過了人們掌握、消化的能力;一些信息真偽難辯;信息組織形式的不一致性導致難以對信息進行有效統一處理;傳統的數據庫技術和數據處理手段已經不能滿足要求;在Internet中進行信息的查找如大海撈針。2/5/20237引言多元分析的開端——1928年Wishart發表論文《多元正態總體樣本協差陣的精確分布》;20世紀30年代R.A.Fisher、H.Hotelling、S.N.Roy、許寶騄等人作了一系列得奠基性工作;20世紀40年代在心理、教育、生物等方面有不少得應用,但由于計算量大,使其發展受到影響;20世紀50年代中期,隨著電子計算機得出現和發展,使多元分析方法得到廣泛得應用;20世紀60年代通過應用和實踐又完善和發展了理論,由于新的理論、新的方法不斷涌現又促使它的應用范圍更加擴大;20世紀70年代初期在我國才受到各個領域的極大關注。在20世紀末與本世紀初,多元統計與人工智能和數據庫技術相結合,已在經濟、商業、金融等行業得到了成功的應用。2/5/20238引言一
統計學的生命力在于應用統計學的發展過程中可以看出統計學產生于應用,它在應用中誕生,在應用中成熟、獨立,在應用中擴充自身的方法內容,同時擴展了應用領域,又在應用中與其他學科緊密結合形成新的邊緣學科。它的生命力在于應用。2/5/20239二
多元統計分析方法的應用引言2/5/202310引言—應用實例城鎮居民消費水平通常用八項指標來描述,如人均糧食支出、人均副食支出、人均煙酒茶支出、人均衣著商品支出、人均日用品支出、人均燃料支出、人均非商品支出。這八項指標存在一定的線性關系。為了研究城鎮居民的消費結構,需要將相關強的指標歸并到一起,這實際就是對指標進行聚類分析。2/5/202311在企業經濟效益的評價中,涉及到的指標往往很多,如百元固定資產原值實現產值、百元固定資產原值實現利稅、百元資金實現利稅、百元工業總產值實現利稅、百元銷售收入實現利稅、每噸標準煤實現工業產值、每千瓦時電力實現工業產值、全員勞動生產率、百元流動資金實現產值。如何將這些具有錯綜復雜關系的指標綜合成幾個較少的因子,既有利于對問題進行分析和解釋,又能便于抓住主要矛盾做出科學的評價。可用主成分分析和因子分析法。引言—應用實例2/5/202312第一講
(一)多元描述統計分析
descriptive
statistics
沈琪shenqi@2/5/202313描述統計—基本概念總體是根據一定目的確定的所要研究的事物的全體。它是由客觀存在的、具有某種共同性質的許多個別事物構成的整體。總體單位(簡稱單位)是組成總體的各個個體。樣本是由總體的部分單位組成的集合。標志總體各單位普遍具有的屬性或特征。2/5/202314說明現象的某一數量特征的概念也被稱為變量,變量的具體取值是變量值,統計數據就是統計變量的具體表現。連續型變量是指變量的取值在數軸上連續不斷,無法一一列舉,即在一個區間內可以取任意實數值。離散型變量是指變量的其取值是整數值,可以一一列舉。描述統計—基本概念2/5/202315描述統計—數據統計數據是總體單位標志或統計指標的具體數量表現。定類尺度定序尺度定距尺度定比尺度2/5/202316橫截面數據又稱為靜態數據,它是指在同一時間對同一總體內不同單位的數量進行觀察而獲得的數據。描述統計—數據時間序列數據又稱為動態數據,它是指在不同時間對同一總體的數量表現進行觀察而獲得的數據。2/5/202317描述統計—數據多元數據的表格形式設p個變量來記錄事物的特征,對于每個個體或單位,記錄下這些變量的測量值。我們用記號表示第i個樣本上第j個變量的測量值,即xij=第j個變量的第i項測量值2/5/202318描述統計—數據多元數據的矩陣形式X=(xij)n×p2/5/202319例題分析描述統計—數據消費者物價指數(CPI)是反映與居民生活有關的產品及勞務價格統計出來的物價變動指標,通常作為觀察通貨膨脹水平的重要指標。商品零售價格指數是反映一定時期內商品零售價格變動趨勢和程度的相對數。兩者都能為研究市場流通、進行國民經濟核算提供依據。2/5/202320樣本數據的矩陣形式為:描述統計—數據2/5/202321描述統計—統計量樣本均值矩陣形式其中,2/5/202322樣本協方差描述統計—統計量矩陣形式其中,事實上,sjk是變量j和k的協方差當j=k時,sjj是變量j的方差,也常記為sjk=skj,即S是對稱矩陣。2/5/202323樣本相關系數描述統計—統計量矩陣形式其中,R也為對稱矩陣2/5/202324描述統計—數據標準化標準差標準化公式其中,此時2/5/202325描述統計—SPSS應用SPSS應用2/5/202326描述統計—統計圖表統計表:把統計數據按一定的順序排列在表格上,就形成了統計表。它清楚地、有條理地顯示統計資料,直觀地反映統計分布特征,是統計分析的一種重要工具。2/5/202327描述統計—統計圖表利用統計圖表示數據時,首先要確定數據所屬類型是定性數據還是定量數據定性數據常用的圖形表示:條形圖餅圖環形圖定性數據常用的圖形表示:直方圖莖葉圖箱線圖散點圖氣泡圖雷達圖2/5/202328描述統計—案例分析案例2/5/202329第一講
(二)均值的比較檢驗沈琪shenqi@2/5/202330推斷樣本與總體或者兩個總體之間的差異是否顯著均值的比較檢驗—作用2/5/202331均值的比較檢驗—實例在企業市場結構的研究中,起關鍵作用的指標有市場分額、企業規模、資本收益率、總收益增長率等。為了研究市場結構的變動,研究人員通常需要將調查所得的數據與歷史數據進行比較。通過均值比較檢驗,就能比較出現在的市場結構與過去是否存在顯著性差異。在臨床上,醫生需要對病人治療前后的狀況進行控制。例如通過對比一組病人使用某種藥物后的身體指標,可以判斷該藥物對病人是否有效,效果是否顯著。2/5/202332均值的比較檢驗—內容一
單一樣本的均值檢驗二
獨立樣本的均值檢驗三
配對樣本的均值檢驗2/5/202333-檢驗樣本所在總體的均值與給定的已知值之間是否存在顯著性差異單一樣本均值的檢驗2/5/202334只對單一變量的均值加以檢驗如檢驗今年新生的統計學平均成績是否和往年有顯著差異;推斷某地區今年的人均收入與往年的人均收入是否有顯著差異等等。要求樣本數據來自于服從正態分布的單一總體假設的基本形式:
當然也可以有單側檢驗的假設形式。單一樣本均值的檢驗2/5/202335單一樣本均值的檢驗—基本步驟提出假設確定檢驗統計量若總體方差已知,此時可構造標準正態分布Z檢驗統計量通常總體方差都是未知的,此時總體方差由樣本方差代替,采用t分布構造t檢驗統計量其中S為樣本標準差,定義為做出統計推斷2/5/202336!注意在SPSS中,給出的是總體方差未知時的t檢驗統計量,因為通常總體方差是未知的。單一樣本均值的檢驗2/5/202337以學生的身高為例,已知某年級15個學生的身高數據,如表所示,檢驗其平均身高是否與整個年級的平均身高165cm相同序號123456789101112131415身高175174168173164169170166158165156152156168160單一樣本均值的檢驗—案例2/5/202338提出假設:確定檢驗統計量:由于總體方差未知,因此采用t檢驗統計量經計算得:
=164.93,S=7.126,df=15-1=14,則該例為雙側檢驗,顯著性水平α=0.05,查t分布表可得臨界值。,說明t值落在接受區域內,即原假設與樣本描述的情況無顯著差異,不能拒絕原假設。因此可以得出結論:15個學生的平均身高與整個年級的平均身高無顯著差異。 單一樣本均值的檢驗—案例2/5/202339-比較兩個獨立沒有關聯的正態總體的均值是否有顯著性差異獨立樣本均值的檢驗2/5/202340獨立樣本的均值檢驗,實質是總體均值是否相等的顯著性檢驗如分析兩個地區居民的人均收入、人均消費等指標是否存在顯著性差異;男生與女生的身高是否存在顯著性差異。要求兩個樣本來自的總體為正態分布,且相互獨立如果兩總體相互獨立,則分別從兩總體得到的樣本也相互獨立。因為要檢驗兩總體的均值是否相等,需要通過樣本進行檢驗,所以稱為獨立樣本的均值檢驗。獨立樣本均值的檢驗2/5/202341提出假設確定檢驗統計量需要分為總體方差、是否已知兩種情況進行討論做出統計推斷獨立樣本均值的檢驗—步驟2/5/202342若總體方差已知,可構造標準正態分布Z檢驗統計量獨立樣本均值的檢驗—檢驗統計量2/5/202343獨立樣本均值的檢驗—檢驗統計量若總體方差未知,可構造t檢驗統計量當時,構造的t檢驗統計量為:
式中,,、分別為兩樣本標準差。2/5/202344當時,構造的t檢驗統計量為:檢驗統計量仍服從t分布,其修正的自由度為:獨立樣本均值的檢驗—檢驗統計量2/5/202345在統計分析中,如果兩個總體的方差相等,則稱之為滿足方差齊性。確定兩個獨立樣本的方差是否相等,是構造和選擇檢驗統計量的關鍵,因此在決定要用哪一個t統計量公式前,必須進行方差齊性的檢驗。SPSS中利用LeveneF方差齊性檢驗方法檢驗兩個獨立總體的方差是否存在顯著性差異。!注意獨立樣本均值的檢驗2/5/202346提出假設確定檢驗統計量采用的是F檢驗統計量做出統計推斷拒絕域為:方差齊性的檢驗步驟2/5/202347仍以學生的身高為例,比較男生和女生的平均身高是否相等。男生12345678身高175174168164173169170166女生1234567身高158165156152156160168獨立樣本均值的檢驗—實例2/5/202348獨立樣本均值的檢驗—實例第一步,進行方差齊性檢驗已知:n1=8,n2=7。經計算:于是,檢驗統計量F的值為:取顯著性水平α=0.05,查F分布表得臨界值為說明F值落在接受區域內,即不能拒絕原假設,認為男生的身高的方差與女生的身高的方差無顯著差異。2/5/202349第二步,在方差齊性的假定下,進行均值的比較檢驗此時,取顯著性水平=0.05,進行雙側檢驗,查t分布表可得臨界值。,說明t值落在拒絕區域內,應該拒絕原假設。因此可以得出結論:男生和女生的平均身高有顯著差異。獨立樣本均值的檢驗—實例2/5/202350-比較兩個配對總體的均值是否有顯著性差異配對樣本均值的檢驗2/5/202351指不同的均值來自具有配對關系的不同樣本,此時樣本之間具有相關關系,配對樣本的兩個樣本值之間的配對是一一對應的,并且兩個樣本具有相同的容量。如,一組病人治療前和治療后身體的指標;一個年級學生的期中成績和期末成績等等。配對樣本均值的檢驗什么是配對樣本2/5/202352配對樣本的數據形式配對樣本均值的檢驗觀察序號樣本1樣本2差值1x1y1D1=x1-y12x2y2D2=x2-y
2MMMMixiyiDi=xi
-y
iMMMMnxny
nDn=xn-y
n2/5/202353配對樣本均值的檢驗基本思想配對樣本均值的檢驗就是根據兩個配對樣本,推斷兩個總體的均值是否存在顯著性差異。其基本思想是:先求出每對配對樣本的觀測值之差,形成一個新的單樣本,再對差值求均值,檢驗差值的均值是否為0。若兩個樣本的均值沒有顯著性差異,則樣本之差的均值就接近為0,這類似于單一樣本均值的檢驗。配對樣本均值的檢驗也叫作配對樣本的t檢驗(Paired-SamplesTTest)。2/5/202354檢驗步驟提出假設確定檢驗統計量做出統計推斷配對樣本均值的檢驗2/5/202355配對樣本均值的檢驗檢驗統計量配對樣本均值檢驗要求兩個樣本的差值服從正態分布。總體差值D服從正態分布,為總體差值的均值。t檢驗統計量為:式中,S為樣本差值的標準差,定義為:。2/5/202356配對樣本均值的檢驗例題分析
一個以減肥為主要目標的健美俱樂部聲稱,參加其訓練班至少可以使減肥者平均體重減重8.5kg以上。為了驗證該宣稱是否可信,調查人員隨機抽取了10名參加者,得到他們的體重記錄如下表:在α=0.05的顯著性水平下,調查結果是否支持該俱樂部的聲稱?訓練前94.5101110103.59788.596.5101104116.5訓練后8589.5101.5968680.58793.593102左側檢驗2/5/202357配對樣本均值的檢驗樣本差值計算表訓練前訓練后差值Di94.5101110103.59788.596.5101104116.58589.5101.5968680.58793.5931029.51189.57.51114.5合計—98.5配對樣本的t檢驗(例題分析)2/5/20
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 60歲以上員工免責協議書
- 標準員專業管理實務統考考試題庫(全真題版)
- 韓國申請書格式
- 海員基本安全培訓
- 廉潔自律談心談話記錄內容一問一答
- 名詞單數變復數專練課件
- 冠心病介入診治與護理要點主題
- 應急供電采購合同范本
- 備戰2025年高考二輪復習課件(高三) 政治(廣東版)大單元突破練19 唯物辯證法的實質與辯證分合
- 秋季小朋友的護理常識
- 2024年廣州市高三一模高考英語試卷試題答案詳解(含作文范文)
- (高清版)DZT 0216-2020 煤層氣儲量估算規范
- 銀行保安員培訓課件
- 手術患者預防感染
- 經典成語故事九色鹿
- 《禁毒教育班會》課件
- Zippo1992年日版年冊集合
- 數據庫系統原理教程-清華大學
- 三位數除以兩位數-有余數-豎式運算300題
- 小學校本課程-13學無止境教學課件設計
- 大單元整體教學在小學英語中的實施策略 論文
評論
0/150
提交評論