




版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
統計與應用數學學院本課程特點主要介紹各種多元統計分析方法的基本思路和原理,同時講述一些方法的數學推導過程;主要利用統計軟件——SPSS,學習和掌握各種多元統計方法;從數據入手,來講述各種分析方法,最后得出結論;學習的目標:會使用統計軟件SPSS,進行多元統計分析。本課程的主要參考書目《多元統計分析》何曉群、中國人民大學出版社《多元統計分析》于秀林、任雪松、中國統計出版社《多元統計分析》張潤楚、科學出版社《社會統計分析方法-SPSS軟件應用》郭志剛、中國人民大學出版社《統計分析與spss的應用》薛薇、中國人民大學出版社《SPSS在統計分析中的應用》,朱建平、清華大學出版社多元統計的產生和應用
多元統計的產生多元統計分析起源于本世紀初,1928年Wishart發表論文《多元正態總體樣本協差陣的精確分布》,是多元分析的開端。多元統計分析主要發展于三、四十年代,Fisher、Hotelling、Roy、徐寶祿等人做了一系列的多元統計分析的理論探索。但是由于多元分析的計算復雜,計算量又大,使其發展受到影響。隨著計算機的普遍應用及統計軟件的廣泛應用,多元統計重新出現活力,現已大量應用于各種領域中。多元統計的應用經濟學上的應用
:如不同地區的經濟發展水平比較,綜合的經濟效益評價等醫學上的應用
:如研究某種病的起因,研究某種新藥或某種醫療方法的治療效果,利用計算機初步診斷病情等。地質學上的應用:如在地質勘探中,如何根據巖石標本的多種特征來判別地層的地質年代,是有礦還是無礦,是銅礦還是鐵礦等等多元統計的應用文學上的應用:復旦大學李賢平教授帶領他的學生對《紅樓夢》進行了多元統計分析。把《紅樓夢》的120回,作為120個樣本,以虛詞作為變量,計算在每一回中(樣本)變量(虛詞)出現的次數,然后用聚類的方法進行分類。結論:120回分為兩類
前80回為一類—進一步與曹雪芹著作相比分析,答案是肯定的。
后40回為一類—進一步分析,證實不是高鶚一人所寫。另外在生態學、體育科學、社會學、考古學、軍事科學等等領域,多元統計都得到了廣泛的應用。多元統計分析的內容1.設法將數據簡化,譬如將多個變量設法綜合為一個綜合變量,以便于比較。例如:將學生的各門課程的考試成績綜合為一個總成績,用以作為學生高考錄取的標準或學生評優的標準。2.設法將數據分類,以便于各類的比較分析,這種分類既可以是對變量的分類,也可以是對樣品的分類。例如:企業需要根據對市場調查得到的各種信息數據,對其所推出的產品未來的銷售態勢進行評估,以便進行生產經營決策。3.對不同變量之間的關系進行分析,以期找出一些規律。例如:分析反映宏觀經濟運行的各種經濟指標與反映股票市場運行的各種指標之間的關系。
第一章多元正態分布的參數估計第一節基本概念第二節多元正態分布第三節多元正態分布的參數估計第一節基本概念
一、隨機向量我們所討論的是多個變量的總體,所研究的數據是同時觀測p個指標(即變量),又進行了n次觀測得到的,我們把這p個指標表示為,常用向量表示:樣品
變量X1X2…XP12nx11x21xn1x12x22xn2………x1px2pxnp隨機向量橫看上表,記為表示第個樣品的觀測值豎看上表,記為表示對第個變量的次觀測數值隨機向量樣本資料矩陣可用矩陣語言表達:隨機向量定義1:二、多元分布定義2性質(1)(2)(3)(4)定義3:注:一個p元函數能作為中某個隨機向量的密度函數的主要條件是:⑴⑵例1:試證函數定義4:例2:對例1中的求邊緣密度函數。定義5:例3:例2中的X1與X2是否相互獨立?三、隨機向量的數字特征定義6三、隨機向量的數字特征即隨機向量X的均值:三、隨機向量的數字特征當A、B為常數矩陣,X、Y為隨機向量,則可以推得均值(向量)有如下性質:⑴⑵⑶三、隨機向量的數字特征定義7:注:⑴⑵當A、B為常數矩陣時,由定義可以推出協方差陣有如下性質:⑴⑵⑶⑷數據的標準化對于隨機向量,可將其各個分量標準化,即:一、多元正態分布的定義二、多元正態分布的性質第二節多元正態分布一、多元正態分布的定義一元正態分布的密度函數為定義8注:注:定理1二、多元正態分布的性質1.如果正態隨機向量的協方差陣是對角陣,則的各分量是相互獨立的隨機變量。2.多元正態向量的任意線性變換仍然服從多元正態分布。3.多元正態分布的任何邊緣分布為正態分布。注:多元正態向量的任何一個分量子集的分布稱為的邊緣分布。第三節多元正態分布的參數估計一、多元樣本的概念二、多元樣本的數字特征三、均值向量與協差陣的最大似然估計四、維希特(Wishart)分布一、多元樣本的概念需要注意的問題1.多元樣本中的每個樣品,對p個指標的觀測值往往是有相關關系的,但不同樣品之間的觀測值一定是相互獨立的。2.多元分析處理的多元樣本觀測數據一般都屬于橫截面數據。二、多元樣本的數字特征定義9:⑴樣本均值向量定義為:⑵樣本離差陣定義為:⑶樣本協差陣定義為:⑷樣本相關陣其中:注:樣本均值向量和離差陣也可以用樣本資料陣X直接表示如下:三、均值向量與協差陣的最大似然估計均值向量與協差陣的最大似然估計均值向量與協差陣的最大似然估計均值向量與協差陣的最大似然估計注:均值向量與協差陣的最大似然估計均值向量與協差陣的最大似然估計μ和∑的估計量的基本性質⑴⑵⑶定理2四、維希特(Wishart)分布Wishart分布是Wishart在1928年推導出來的。定義10:維希特(Wishart)分布維希特分布的基本性質⑴維希特分布的基本性質⑵⑶維希特(Wishart)分布說明:什么是隨機矩陣的分布設隨機矩陣將該矩陣的列向量(或行向量)一個接一個地連起來,組成一個長的向量,即拉直向量:維希特(Wishart)分布注:多元正態分布參數估計的實例與計算機實現一二一均值向量的估計二協差陣的估計下面通過一個實例來說明多元正態分布參數估計的SPSS實現過程。從滬深兩市上市公司中隨機抽取300家公司,取其三個反映收益情況的三個財務指標:每股收益率(eps)、凈資產收益率(roe)和總資產收益率(roa)。現要求對這三個指標的均值和協差陣進行估計。一均值向量的估計1.選擇菜單項Analyze→Descriptive
Statistics→Descriptives,打開Descriptives對話框,如下圖。將待估計的三個變量移入右邊的Variables列表框中。2.單擊Options按鈕,打開Options子對話框,如下圖所示。在對話框中選擇Mean復選框,即計算樣本均值向量。單擊Continue按鈕返回主對話框。3.單擊OK按鈕,執行操作。則在結果輸出窗口中給出樣本均值向量,如下表。即樣本均值向量為(0.175,0.044,0.026)。二協差陣的估計1.選擇菜單項Analyze→Correlate→Bivariate,打開BivariateCorrelations對話框,將三個變量移入右邊的Variables列表框中。2.單擊Options按鈕,打開Options子對話框,選擇Cross-productdeviationsandcovariances復選框,即計算樣本離差陣和樣本協差陣。單擊Continue按鈕,返回主對話框。3.單擊OK按鈕,執行操作。則在結果輸出窗口中給出相關分析表。注:這里給出的樣本協差陣是S/(n-1)
,而不是S/n。統計軟件SPSS使用說明
SPSS簡介SPSS是軟件英文名稱的首字母縮寫,原意為StatisticalPackagefortheSocialScience,即“社會科學統計軟件包”。但是隨著SPSS產品服務領域的擴大和服務深度的增加,SPSS公司已于2000年正式將英文全稱更改為:
StatisticalProductandServiceSolutions,意為“統計產品與服務解決方案”.
SPSS
使統計分析過程
變得簡單容易SPSS軟件基礎知識
SPSSforWindows的安裝和啟動
SPSSforWindows作為Windows操作系統下的軟件產品,具有和其他軟件基本相同的安裝步驟。基本步驟概括如下:(1)啟動Windows,將存有SPSSforWindows的光盤放入光盤驅動器(2)運行資源管理器,讀取光盤文件。(3)雙擊執行安裝程序文件setup.exe.(4)根據用戶的需要選擇所需要安裝的程序項。
正確完成安裝步驟以后,就可以啟動運行SPSSforWindows軟件了。SPSSforWindows中的兩個基本窗口
1.SPSS的數據編輯窗口—直接進入的窗口SPSS數據編輯窗口的窗口標題為dataeditor,它是SPSSforWindows的主程序窗口。數據編輯窗口是對分析對象—SPSS數據文件進行錄入、修改、管理等基本操作的窗口。SPSS數據文件均以.Sav作為文件擴展名存儲在磁盤上。數據編輯窗口數據編輯窗口的系統狀態顯示區用來顯示系統的當前運行狀態。當系統等待用戶操作時,會出現“
SPSSprocessorisready”的提示信息。
數據編輯窗口的特點
數據編輯窗口是在系統啟動過程中自動打開的窗口,在SPSS運行過程中只能打開一個數據編輯窗口。
SPSS中的各種統計分析功能都是針對該窗口中的數據進行的。
關閉數據編輯窗口意味著退出關閉SPSS軟件系統。
SPSS的輸出窗口SPSS輸出窗口的窗口名為Output-SPSSViewer,它是顯示和管理SPSS統計分析結果、報表及圖形的窗口。出現在該輸出窗口中的內容均以.spo作為文件擴展名存儲在磁盤上。SPSS數據文件的
建立和管理
數據文件的特點SPSS數據文件是一種結構性的數據文件,它包括文件結構(VariableView)和數據(DataView)內容兩部分。SPSS數據文件中的一列數據稱為一個變量(Variable)。每個變量都應有一個名稱,即:變量名,SPSS數據文件中的一行數據稱為一條個案(Case)。所有個案組成了SPSS數據文件的數據部分。spss變量的屬性在spss數據編輯窗口中單擊Variableview標簽,進入變量視圖界面,就可以對變量的各個屬性進行設置。1.變量名(Name)變量名是變量存取的唯一標志,spss變量名的規則如下:①變量名字符個數不得超過8②首字符必須是英文字母或漢字,后面可以跟除了空格及!、?、*之外的字母或數字、漢字,且下劃線和圓點不能作為最后一個字符③變量名不區分大小寫字母④變量名不能與ALL、BY、AND、NOT、OR等spss保留字相同2.變量類型(Type)常用的spss中的變量有3種:數值型、字符型和日期型①數值型變量標準型(Numeric):是spss最常用的類型,也是默認的數據類型逗號型(Comma):用句點來分割整數部分和小數部分,整數部分從個位開始每3位以一個逗號相隔句點型(Dot):以逗號作為小數部分和整數部分的分隔符,而以句點分隔較長的整數部分科學記數型(Scientificnotation):使用科學記數法表示數據。默認長度為8,包括數據尾部的正負號、字母E和冪次美元型(Dollar):這種變量類型在數據前自動加上美元符號。自定義型(Customcurrency):可供用戶根據需要自己定制數據的表現方式②字符型變量(String)由一個字符串組成,能夠區分大小寫,不能參加算術計算該變量的長度可以在Characters框后面的輸入框中由用戶隨意設置③日期型變量(Date)用來表示日期或時間。選中Date按鈕后,VariableType對話框中自動出現日期型變量格式列表,用戶可以根據需要選擇日期型變量的數據格式3.變量名標簽與變量值標簽
(LabelandValues)變量名標簽是對變量名附加的解釋說明,其長度可以達到120個字符變量值標簽可以說明符號和數字所代表的實際意義,增強統計分析結果的可讀性4.缺失值(Missing)利用定義缺失值的方法來指定用戶缺失值,將其中存在問題的數據與正常數據區分開來5.變量的列顯示寬度和對齊方式
(ColumnsandAlign)Columns指在數據編輯窗口中該變量占的字符列數Align用于設置變量值在單元格中的對齊方式6.變量的度量尺度Scale是尺度變量,用于代表連續數據,即定距數據和定比數據Ordinal是順序變量,用于測度定序數據Nominal是名義變量,用于代表定類數據Spss系統把數字默認為Scale,把字符串默認為Nominal建立SPSS數據文件應通過兩大步驟實現第一步:定義SPSS數據文件的結構;第二步:輸入分析數據。
1.定義spss數據文件的結構①定義變量名②定義變量類型及長度③定義變量名標簽和變量值標簽定義變量名標簽只需要在Label列下的單元格中輸入相應變量的文字解釋說明定義變量值標簽要在所示的變量值標簽定義對話框中進行設置④定義缺失值選擇Missing列下相應變量對應的單元格,單擊單元格右邊的刪節號,彈出缺失值定義對話框⑤定義變量的列顯示格式及度量尺度2.在數據編輯窗口中輸入數據單擊DataView即可數據的錄入可以以樣品(觀測)為單位進行錄入,即橫向錄入;也可以以變量為單位進行錄入,即縱向錄入橫向錄入——Tab縱向錄入——Enter讀取外部數據主要介紹如何讀取Excel文件1.按File→Open→data,調出OpenFile對話框,在文件類型下拉列表中選擇“Excel(*.xls)”2.選擇要打開的Excel文件,單擊“打開”按鈕,調出OpenExcelDataSource對話框spss數據的編輯與保存
1.Edit菜單中的數據編輯功能Undo撤銷上一步操作Redo恢復上一步被撤銷的操作Cut剪切選定內容Copy復制選定內容Paste將復制或剪切的內容粘貼到指定位置Clear刪除選定的變量、記錄,或者清除選定區域的內容Insertvariable在指定位置的左側插入一個變量Insertcase在指定位置的上方插入一個記錄Gotocase用于數據的定位
2.SPSS數據文件的保存
通過File→Save或者File→Saveas菜單方式執行SPSS數據文件格式:是SPSS系統默認的數據格式,也是最常用的一種數據格式。在磁盤上以.Sav作為文件擴展名。Excel工作表格式文件:文件擴展名為.xls。Dbase數據庫文件格式文件:文件擴展名為.dbf。文本格式文件:文件擴展名為.dat。SPSS數據文件的
整理
數據排序個案排序:按照用戶指定的某一個或多個變量的變量值的升序或降序重新排列,這里用戶所指定的變量稱為排序變量。個案排序的操作步驟:Data—>SortCases
數據排秩所謂“秩”,是指對變量排序之后觀測的順序號。Spss可以實現自動計算變量的秩,并生成新的秩變量。操作步驟:Transform→RankCases數據轉置有時需要將數據文件進行轉置,即把變量和觀測進行互換。操作步驟:Data→Transpose選擇記錄的子集在統計分析中,有時候只需要對所有記錄的一部分進行分析操作步驟:Data→SelectCases數據分類匯總是指以指定的一個或多個分類變量為分類依據,將另一個或多個變量的數值按照分類結果進行描述統計。操作步驟:Data→Aggregate合并數據文件合并數據文件是指將兩個或多個數據文件中的觀測或變量合并到一個數據文件中去,它包括縱向合并(AddCases)和橫向合并(AddVariable)兩種方式1.縱向合并(AddCases)是指把兩個或多個數據文件實現上下對接。縱向合并要求兩個數據文件有相同的變量和不同的觀測。操作步驟:Data→MergeFiles→AddCases2.橫向合并(AddVariables)是指把兩個或多個數據文件實現左右對接。橫向合并要求兩個數據文件有相同的觀測和不同的變量。操作步驟:Data→MergeFiles→AddVariables數據拆分在進行統計分析時,經常要對文件中的記錄進行分組,然后按組分別進行分析。這時就要對數據進行拆分。操作步驟:Data→SplitFile注:這里的數據拆分并不是物理結構上的分成兩個數據文件,而只是在進行各項數據分析之前,做形式上的拆分。計算新變量在對數據文件中的數據進行統計分析時,有時需要對數據文件中的變量加工產生新的變量,這時就要通過計算產生新的變量。操作步驟:Transform→Compute數據重新編碼有時候收集到的數據形式不太適合作進一步的統計分析,這時就可以利用spss提供的重新編碼命令進行處理。操作步驟:數據標準化在進行統計分析時,經常需要對各統計指標數值進行標準化處理,最為常用的數據標準化方法是“標準差標準化法”,也稱為“Z分數法”。其計算公式如下:數據標準化的操作步驟:
Analyze→DescriptiveStatistics→DescriptivesSPSS數據文件的
統計描述基本概念和原理統計描述是指如何搜集、整理、分析、研究并提供統計資料的理論和方法,用于說明總體的情況和特征。頻數分布頻數分布是指在統計分組的基礎上,將總體所有的單位按某一標志進行歸類排列,并計算各組的單位數。集中趨勢指標集中趨勢指標也叫平均指標,它表明同類現象在一定時間、地點和條件下所達到的一般水平,是總體內部各單位參差不齊的標志值的代表值。集中趨勢指標平均指標有數值平均數和位置平均數兩大類。常用的數值平均數有算術平均數、調和平均數、幾何平均數。常用的位置平均數有中位數和眾數。集中趨勢指標⑴算術平均數(Mean):由樣本標志值的總和除以樣本數據的個數得出。算術平均數指標僅適用于定比數據和定距數據。⑵中位數(Meadian):是將樣本標志值按大小順序排列之后,位于中間位置的那個標志值。中位數適用于定比數據、定距數據和定序數據。集中趨勢指標⑶眾數(Mode):是指在總體中出現頻數最大的那個標志值。眾數是一種位置平均數,不受異常值的影響,在實際工作中應用較為普遍眾數指標適用于定比數據、定距數據、定序數據和定類數據。離散程度指標離散程度指標也稱為變異指標,在統計分析中具有重要作用。⑴它可以表明現象的均衡程度和穩定程度;⑵它可以表明平均指標的代表性,數據離散程度越大,則該分布的平均指標代表性就越小。常用的離散程度指標①方差(Variance)各單位標志值與算術平均數離差平方的平均數。其計算公式為:常用的離散程度指標②標準差(Std.deviat
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025年廠級員工安全培訓考試試題及答案培優B卷
- 2025公司項目部管理人員安全培訓考試試題及答案原創題
- 2024-2025項目部安全管理人員安全培訓考試試題及答案研優卷
- 2025年紡織品質量控制計劃
- 2025年倉庫人員績效評估與計劃
- 幼兒園環境衛生提升工作計劃
- 五年級語文期末復習計劃與考試準備
- 幼師心理素質提升分層培訓計劃
- 2025財務部門成就總結及未來工作計劃
- 鐵路車站消防施工計劃及維護措施
- 合伙經營煤炭協議書
- 醫生入職考試試題及答案
- 學校食堂安全風險管控清單
- 安徽省C20教育聯盟2025年九年級中考“功夫”卷(一)數學(原卷版+解析版)
- 家校社協同育人促進學生核心素養發展的實踐研究范文
- 磷礦反浮選操作規程
- 中華人民共和國醫療器械注冊申請表
- 醫院胸痛中心應知應會
- 1000道二年級數學口算練習題
- 收到個稅手續費返還獎勵給辦稅人員的文件-財稅實操
- 《晨會的重要性》課件
評論
0/150
提交評論