




版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
1、SAS中的描述性統計過程(2012-0801 18:07:01)轉載標簽: 分類:數據分析挖掘雜談SAS中的描述性統計過程描述性統計指標的計算可以用四個不同的過程來實現,它們分別是means過程、summary 過程、univariate 過程以及tabulate 過程。它們在功能范圍和具體的操作方法上存在一定的差別,下面我 們大概了解一下它們的異同點。相同點:他們均可計算出均數、標準差、方差、標準誤、總和、加權值的總和、最大值、最小值、全距、校正的和未校正的離差平方和、變異系數、樣本分布位置的t檢驗統計量、遺漏數據和有效數據個數等,均可應用by語句將樣本分割為若干個更小的樣本,以便分別進行分
2、析.不同點:(1) means 過程、summary 過程、univariate 過程可以計算樣本的偏度 (skewness )和峰度 (kurtosis ),而tabulate 過程不計算這些統計量;(2) univariate 過程可以計算出樣本的眾數(mode ),其它三個過程不計算眾數;(3) summary 過程執行后不會自動給出分析的結果,須引用 output語句和print過程來顯示分析結 果,而其它三個過程則會自動顯示分析的結果;(4)univariate 過程具有統計制圖的功能,其它三個過程則沒有;(5) tabulate 過程不產生輸出資料文件(存儲各種輸出數據的文件),其
3、它三個均產生輸出資料文件.統計制圖的過程均可以實現對樣本分布特征的圖形表示,一般情況下可以使用的有chart過程、plot過程、gchart過程和gplot過程。大家有沒有發現前兩個和后兩個只有一個字母'g('代表graph )的差別,其實它們之間(只差一個字母g的過程之間)的統計描述功能是相同的,區別僅在于繪制出的圖形的 復雜和美觀程度.chart過程和plot過程繪制的圖形類似于我們用文本字符堆積起來的圖形,只能概括地反映出 資料分布的大體形狀,實際上這兩個過程繪制的圖形并不能稱之為圖形,因為他根本就沒有涉及一般意義上圖形的任何一種元素(如顏色、分辨率等)。而 gchart
4、過程和gplot過程給出的是真正意義上的圖形,可以用很多的語句和選項來控制圖形的各方面的性質和特征chart和gchart與plot和gplot的區別則體現在不同的作圖功能,前兩個過程可以繪制出的圖形主要有條形圖(包括橫條和豎條)、圓圖、環形圖和星形圖等,后兩個過程通常用一個記錄中的兩個變量值表示點的坐標來繪制圖形,如散點圖和線圖等 .描述性統計過程的一般格式1。means過程的一般格式by 變量名稱(分組變量)class變量名稱(分組變量);freq變量名稱(數值變量,用以表示相應記錄出現的頻數)weight變量名稱(數值變量,用以表示相應記錄的權重系數)var 變量名稱(待分析的數值變量)
5、;run ;Proc means 語句后的選項主要用來指定所要計算的統計量,默認情況下,Means過程會給出頻數、均數、標準差、最大值和最小值等,其余統計量的計算均需要在選項中指定。class語句所指定的分組變量用來進彳f分組,而 by語句所指定的分組變量是用來將數據分為若干個更小的樣本,以便SAS分別在各小樣本內進行各自獨立的處理.freq語句和weight語句分別引導代表記錄出現頻數和權重系數的數值變量。var語句引導所要進行分析的所有變量的列表,SAS將對var語句所引導的所有變量分別進行描述性統計分析。summary 過程的一般格式proc summary 選項歹U表;by變量名稱(分
6、組變量);class變量名稱(分組變量);freq變量名稱(數值變量,用以表示相應記錄出現的頻數)weight變量名稱(數值變量,用以表示相應記錄的權重系數)output <out=數據集名統計量關鍵字=自定義變量名var 變量名稱(待分析的數值變量);run ;summary 過程的格式和means過程可以說是完全相同的,各條語句和選項的含義也是相同的, 包括在means過程中未列出的 output 語句也可以應用于 means過程,只是此語句在 summary 過程 應用較多(這樣才能將分析結果顯示出來),所以才將其列入一般格式中。output語句用來對分析結果輸出為數據文件進行控制
7、,其后的選項可有可無,若無則SAS按照默認方式進行。"out=數據集名”用來定義輸出數據文件的文件名稱,文件名的格式和數據步中數據文件名相同。統計量關鍵字=自定義變量名”用來自定義輸出數據文件中各種統計量的變量名稱,前者是系統定義的(和 proc語句后選項中的統計量關鍵字完全相同),必須正確無誤,后者可自行定義.默認狀態下輸出統計量只有頻數、均數、標準差、最大值和最小值,在默認狀態不能滿足需要時這一選項則是必需的。univariate過程的一般格式proc univariate選項歹U表;by變量名稱(分組變量);class變量名稱(分組變量);freq變量名稱(數值變量,用以表示相
8、應記錄出現的頻數 )weight變量名稱(數值變量,用以表示相應記錄的權重系數)histogram變量名稱/選項列表output <out=數據集名< 統計量關鍵字=自定義變量名pctlpts=百分位數-<指定需要的百分位數pctlpre=新變量名列< 指定所需百分位數對應的輸出變量名var 變量名稱(待分析的數值變量);run ;univariate過程和以上兩個過程的格式非常相似,相同的語句和選項其含義也相同,所不同的是某些統計量只能在 univariate 過程中計算(如眾數),以及 univariate 過程中所具有的繪圖功能.histogram 語句即用來指示
9、SAS對其后所指定的變量繪制直方圖,其后的選項用來指示 SAS添加不 同類型的擬合圖形(如正態分布的分布密度曲線) tabulate 過程的一般格式proc tabulate選項歹U表;by變量名稱(分組變量);class變量名稱(分組變量);freq變量名稱(數值變量,用以表示相應記錄出現的頻數)weight變量名稱(數值變量,用以表示相應記錄的權重系數)table <<頁變量表達式,行變量表達式,<列變量表達式>> </表格選項var變量名稱(待分析的數值變量,統計量列入相應的表單元格);run ;tabulate 過程和上述幾個過程的格式也基本相似,相
10、同的語句和選項也代表相同的含義.最大的不同也是tabulate 過程中最為重要的是table語句,他用來定義表格的具體格式以及表格中所要包括的統 計量。gchart過程的一般格式proc gchart選項歹U表;圖形關鍵詞變量名稱/選項列表run ;圖形關鍵字繪制的圖形類型圖形關鍵字繪制的圖形類型block方塊圖pie圓圖hbar水平的條形圖pie3d三維圓圖hbar3d水平的三維條形圖donut環形圖vbar豎立的條形圖star星形圖vbar3d豎立的三維條形圖此過程格式簡單,復雜的地方在于圖形關鍵字(每個圖形關鍵字對應一種圖形類型)所引導的語 句,這里是控制圖形類型及圖形要素的地方,涉及到
11、眾多的關鍵字和選項。gchart過程可以使用的圖形關鍵字及其所繪制的圖形類型見下表(表2.1 )。表2.1 gchart過程可以使用的圖形關鍵字及其所繪制的圖形類型圖形關鍵字后的變量名用以指定進行圖形描述時的分組變量,可以是數值型的(此時以各組的組中值為分組的標志),也可以是字符型的.其后的選項比較重要的有:(1) type=統計量關鍵字,表示以圖形對 變量(sumvar所指定的變量)的哪一種統計量進行描述,比如頻數(freq )、均數(mean )、總計(sum )、頻數百分比(pctn )等;(2)subgroup= 變量名(分組變量),指定要進行分組(各組段內再分組)的 變量;(3)su
12、mvar=變量名(數值變量),指定要進行統計計算的變量,也就是"type=統計量關鍵字"選項中統計量的計算所依據的變量。其它的選項較少用到或系統默認值即可基本滿足要求,這里還是少羅嗦,以后用到再說。gplot過程的一般格式bubble 散點圖表達式bubble2 散點圖表達式plot散點圖表達式plot2散點圖表達式run;從gplot過程的一般格式中我們就可看出,此過程只能繪制兩種類型的圖形,bubble語句指示SAS繪制泡狀散點圖,plot語句指示SAS繪制點狀散點圖。bubble2 語句和plot2語句指示SAS在同 一區域內(bubble2 和bubble在同一區域
13、,plot2和plot在同一區域)繪制第二個圖形,兩者的橫坐標 相同(同一變量),縱坐標分別位于左右兩側(可以是同一變量,也可以是兩個不同的變量)。散點圖表達式的一般形式為:(1) bubble和bubble2 語句:縱坐標變量名*橫坐標變量名=泡尺寸變量名(變量值以泡的大小表示),三者均應為數值變量;(2) plot和plot2語句:縱坐標變量名*橫坐標變量名=n/分類變量名 > ,此處等號及其后 的部分可以省略,此時 SAS以默認的散點類型繪制散點圖;若等號后為n (n為正整數,是散點類型的編 號),SAS則以指定的編號對應的散點類型繪制散點圖;若等號后為分類變量名(可為字符型或數值
14、型,為數值型時作為離散型變量處理,每一個值將被當作一個類別),此變量的具體值(或與每個具體值對應的圖形)將被作為散點用來繪制散點圖。chart過程和plot過程的一般格式及各選項使用方法分別與gchart過程和gplot過程是基本相同的,不同之處僅在于后兩者中涉及到有關三維和圖形元素(顏色等)的語句和選項在前兩者中是無效的。例如vbar3d語句在chart過程中無效,bubble語句在plot過程中無效。其余的語句和選項使用方法完 全相同,所以在掌握了gchart過程和gplot過程后,chart過程和plot過程你會不學自通。(三)描述性統計關鍵字及其含義SAS中可計算的描述性統計量多達二十
15、余種,大部分可在以上介紹的前四個過程中計算,個別 統計量在某些過程中不能計算,大家需要注意,要不然系統顯示錯誤信息時還不知道是怎么回事。我經常遇到這種情況,系統提示錯誤(此類提示信息顯示在10g窗口中)時總是摸不著頭腦,費半天勁才能搞明白。沒辦法,摸著石頭過河嘛!不過這樣也并非一無是處,最起碼可以積累很多使用經驗。下表(表2.2)列出SAS中可以計算的所有描述性統計量關鍵字及其含義,供大家使用時參考。表2.2 SAS中可以計算的描述性統計量關鍵字及其含義關鍵字所代表的含義有效數據記錄數nmiss缺失數據記錄數mean均數std標準差stderr標準誤var方差median中位數mode眾數cv變異系數max最大值min最小
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 新能源風力發電標準必要專利許可與風力發電場運維合作協議
- 管理部部長工作概述
- 護理進修述職
- 醫院培訓課件:《康復醫學》
- 鋼架大棚安裝協議書
- 食堂轉讓轉租協議書
- 車商汽車合同協議書
- 餐廳股東解散協議書
- 酒后駕駛賠償協議書
- 車輛設備移交協議書
- 2025年北京市西城區高三語文二模考試卷附答案解析
- JJF 2215-2025移動源排放顆粒物數量檢測儀校準規范
- 河北單招試題及答案英語
- 人工智能賦能新型工業化:范式變革與發展路徑
- 2025中信建投證券股份限公司校園招聘易考易錯模擬試題(共500題)試卷后附參考答案
- 2025年中考第一次模擬考試化學試卷(廣州卷)(全解全析)
- 毫針操作基本技術
- 2025-2030年中國CAE軟件行業市場行情監測及發展前景研判報告
- 江蘇南京歷年中考作文題(2002-2024)
- 實驗員考試試題及答案
- 2025年黃山黟縣國有投資集團有限公司招聘筆試參考題庫含答案解析
評論
0/150
提交評論