SPSS基礎第1部分學習資料_第1頁
SPSS基礎第1部分學習資料_第2頁
SPSS基礎第1部分學習資料_第3頁
SPSS基礎第1部分學習資料_第4頁
SPSS基礎第1部分學習資料_第5頁
已閱讀5頁,還剩180頁未讀 繼續免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

SPSS統計分析基礎教程(第2版)第一章SPSS概述第一節SPSS的發展及特點SPSS的發展SPSS最早的全稱是StatisticalPackagefortheSocialSciences,即社會科學統計程序包,是世界公認的最優秀的統計分析軟件包之一。1968年,美國斯坦福大學的三位研究生開發了最早的統計分析軟件SPSS,并于1975年在芝加哥成立了SPSS公司。SPSS原是為大中型計算機開發的,面向企事業單位用戶。

80年代初,微機開始普及以后,它率先推出了微機版本(統稱為SPSS/PC版),占領了微機市場,大大地擴大了自己的用戶量。

90年代,Microsoft推出操作系統Windows后,SPSS迅速向Windows移植(統稱為SPSSforWindows版)。2000年正式將英文全稱更改為

StatisticalProductandServiceSolutions,意為“統計產品與服務解決方案”,標志著SPSS的戰略方向正在做出重大調整。

2009年4月9日在美國的芝加哥SPSS公司宣布重新包裝旗下的SPSS產品線,定位為預測統計分析軟件(PredictiveAnalyticsSoftware)PASW,包括四部分:*PASWStatistics(SPSSStatistics):統計分析

*PASWModeler(Clementine):數據挖掘

*DataCollectionfamily(Dimensions):數據收集

*PASWCollaborationandDeploymentServices(PredictiveEnterpriseServices):企業應用服務

2009年7月28日,IBM以12億美元現金收購統計分析軟件公司SPSS。具體的收購方式為,IBM以每股50美元的價格收購SPSS,該交易全部以現金形式支付。

SPSS在2009年10月2日召開特別股東大會投票表決通過了有關該公司出售給IBM的交易。

IBM成功收購SPSS后,其名稱又發生了改變,總稱為IBMSPSS,包括四個部分:*IBMSPSSStatistics(SPSSStatistics):統計分析(ISS)

*IBMSPSSModeler(Clementine):數據挖掘(ISM)

*IBMSPSSDataCollectionfamily(Dimensions):數據收集

*IBMSPSSCollaborationandDeploymentServices(PredictiveEnterpriseServices):企業應用服務

一、功能強大(1)囊括了各種成熟的統計方法與模型,為統計分析用戶提供了全方位的統計學算法,為各種研究提供了相應的統計學方法。(2)提供了各種數據準備與數據整理技術。(3)自由靈活的表格功能。(4)各種常用的統計學圖形。二、SPSS的實驗環境要求(1)系統運行環境SPSS10.0以上版本軟件包可以工作在兩種模式下,單機模式和作為網絡系統的用戶界面模式。(2)輔助軟件環境三、SPSS的主要界面SPSS的主要界面有數據編輯窗口和結果輸出窗口。

四、SPSS的幫助系統SPSS對一些基本模塊中的統計提供了幫助,可以通過單擊Help菜單中的StatisticsCoach命令,選擇所需要的統計指導。SPSS附加模塊功能SPSSAdvanced一般線性模型、混合線性模型、對數線性模型、生存分析等SPSSCategories對應分析、感知圖、Proxscal等SPSSComplexSample多階段復雜抽樣技術等SPSSConjoint正交設計、聯合分析等,適用于市場研究SPSSExactTest精確P值計算、隨機抽樣P值計算等SPSSMaps在地圖上展示數據等SPSSMissingValueAnalysis缺失數據的報告與填補等SPSSRegressionLogistic回歸、非線性回歸、Probit回歸等SPSSTables交互式創建各種表格(如堆積表、嵌套表、分層表等)SPSSTrendsArima模型、指數平滑、自回歸等五、SPSS的運行方式SPSS提供了3種基本運行方式:完全窗口菜單方式,程序運行方式、混合運行方式。程序運行方式和混合運行方式是使用者從特殊的分析需要出發,編寫自己的SPSS命令程序,通過語句直接運行。SPSS中使用的對話框主要有兩類,一類是文件操作對話框,文件操作對話窗口操作與Windows應用軟件操作風格一致。另一類是統計分析對話框,統計分析對話框可以分為主窗口和下級窗口,在該類對話框中,選擇參與分析的各類變量及統計方法是對話框的主要任務。1.1.2spss的安裝一、啟動Windows后,把SPSS系統安裝軟盤(或光盤)插入軟驅(或光驅),并找到SPSS的安裝程序的可執行文件Setup.exe。二、雙擊Setup.exe文件,安裝程序向導將給出每一步操作的提示。在出現[Welcome(歡迎)]窗口后,選擇[Next]進入下一步。三、安裝程序顯示[SoftwareLicenseAgreement]對話框時,選擇[Yes]接受顯示的協議條款。1.2spss操作入門1.2.1spss軟件的啟動與退出單擊Windows的[開始]按鈕,在[程序]菜單項[SPSSforWindows]中找到[SPSS20.0forWindows]并單擊。1.2.2SPSS的5個窗口(1)數據編輯窗口(SPSSDataEditor)Spss處理數據的工作全在此窗口進行。(2)結果管理窗口(SPSSOutputviewer)此窗口用于存放分析結果。左邊是目錄區,右邊是內容區。(3)草稿結果窗口(SPSSDraftViewer)草稿結果是結果的一種簡化文本格式。實際上就是WORD所兼容的rtf超文本格式,因此可以在沒有安裝SPSS的PC機上使用文字編輯軟件打開。(4)語法編輯窗口(SPSSSyntaxEditor)(5)腳本窗口(SPSSScriptEditor)1.2.3SPSS的四種運行方式一、菜單對話方式首先打開SPSS軟件,然后選擇菜單FileOpenfile。然后,利用菜單AnalyzeDescriptiveStatisticsFrequencies,二、程序方式在Syntax編輯窗口中鍵入以下程序:Getfile=‘c:\programfiles\spss\employeedata.sav’.Frequenciesvariables=jobcat/order=analysis。只需要選擇菜單RunAll,運行該程序也一樣會出現相同的分析結果。三、Include命令方式當編寫Syntax程序時,如果發現將要編寫的程序語句正好是另一個Syntax文件的內容;或者發現所需要的程序語句其實是幾個Syntax文件的總和是,除了可以通過“Copy”、“Paste”的方法利用資源,生產一個新的Syntax文件外,還可以利用Include命令。Include‘c:\sytaxsample.sps’.四、spssProductionFaccility方式在Windows的程序菜單中,spss菜單組除了有“spssforwindows”項之外,還有一個“spssproductionfacility”。(1)單擊Syntax框下的“Add”按鈕,到C盤根目錄下打開“syntaxsample”。(2)單擊Syntax框下的“Edit”按鈕,對程序進行編輯。(3)單擊右下角的“uesrprompts”按鈕,添加對程序的交互分析界面。(4)單擊“Browse”按鈕制定結果保存路徑,單擊“exportoptions”按鈕還可以制定結果保存格式。1.2.4spss的四種輸出結果1、表格格式2、文本格式3、標準圖與交互圖4、結果的保存和導出第2章數據錄入與數據獲取本章主要解決兩個問題:第一個問題,根據問題類型的不同,將會從開放題、單選題和多選題的錄入方式為例進行介紹。第二個問題,重點介紹如何用SPSS直接讀取Excel類型和文本格式的數據,以及如何用ODBC接口讀取數據庫文件。什么是消費者信心指數消費者信心(ConsumerConfidenceorConsumerSentiment)是指消費者根據國家或地區的經濟發展形勢,對就業、收入、物價、利率等問題的綜合判斷后得出的一種看法和預期消費者信心指數(ConsumerSentimentIndex,CSI)的概念和方法是由美國密歇根大學調查研究中心的喬治卡通納(GeorgeKatona)在上世紀40年代后期提出的。消費者的看法、態度和預期這些心理的直接感受決定了他們的消費支出計劃。對消費者心理及其變動的測度就是對消費總量變動測度的一個補充。根據消費者調查結果可以計算消費者情緒指數(ConsumerSentimentIndex),又稱“消費者信心”。@文彤老師282025年3月19日消費者信心指數背后的經濟學原理居民在決策家庭的開銷,特別是購買諸如住宅、汽車等耐用商品時,是經過深思熟慮才決定的。不僅是以目前的經濟條件為基礎,同時結合了對未來收入、就業、物價、利率變動等因素的判斷和預期六十多年的時間已經充分驗證了上述理論在解釋宏觀經濟現狀時的有效性與合理性2025年3月19日@文彤老師29密歇根大學消費者信心指數的價值已得到實際證明是預測宏觀經濟走向的精確指標

消費者總體信心可預測GDP增長趨勢(平均領先3個季度,相關系數0.9)

消費者就業信心可預測實際失業率(平均領先3個季度,相關系數0.8)

消費者的物價預期可預測實際通脹率(平均領先1個季度,相關系數0.9)

消費者購車信心可預測實際汽車銷量(平均領先2個季度,相關系數0.73)

密歇根大學消費者信心指數對美、歐股市以及美國政府的經濟政策有直接影響

已列入美國商務部發布的主要綜合指標,并被各大媒體廣泛引用

前美國聯邦儲備委員會主席格林斯潘就曾表示,他非常重視消費者信心指數在美國及全球各大消費品生產商中廣泛使用,用于預測銷量及利潤

全球各國的消費者信心指數研究方式大致相同,其理論基礎均源于密歇根大學的研究方法,指數有效性在各國已得到廣泛驗證

中國消費者信心調研遵循了美國密歇根大學消費者信心調研的方法學,并根據中國國情進行了修正和深化,是密歇根大學消費者信心調研的中國版2025年3月19日@文彤老師30中國消費者信心調研(ChinaConsumerSentimentSurvey,CCSS)每月進行的、反映中國消費市場狀況及消費者對家庭經濟及宏觀經濟信心的獨立第三方調研目前屬于全球最大的德交-泛歐-紐交集團旗下產品中國消費者信心調研的研究方法是在美國密歇根大學社會研究院消費者信心調查課題組負責人RichardCurtin博士的協助與指導下完成的月度總信心指數現狀指數預期指數當前家庭經濟狀況耐用品消費未來1年家庭經濟預期未來1年宏觀經濟預期未來5年宏觀經濟預期行業分類指數耐用品購買房地產證券投資汽車消費消費者物價感受及預期消費者利率預期……中國消費者信心調研(CCSS)包括以下方面:2025年3月19日@文彤老師31中國消費者信心調研的研究方法發布頻率每月一次數據采集方式CATI(電腦輔助電話訪問),隨機抽樣,第一手調研樣本選擇18-64歲中國城市居民,家庭開支或投資決策者抽取中國經濟最發達的30個城市代表中國1/7的人口與1/3的GDP訪談時間長度10~15分鐘問卷問題數量不少于30題樣本量每月不少于1,000樣本2025年3月19日@文彤老師32中國消費者信心指數研究問卷S0受訪者所在城市:100北京200上海300廣州S1請問您貴姓是?___S2記錄被訪者性別:1男性2女性S3請問您的十足年齡是?___S4請問您的學歷是?1初中/技校或以下2高中/中專3大專4本科5碩士或以上2025年3月19日@文彤老師33中國消費者信心指數研究問卷C0請問您的家庭目前有下列還貸支出嗎?C0_1房貸1有2無99拒答C0_2車貸1有2無99拒答C0_3其他一般消費還貸1有2無99拒答

A3首先,請問與一年前相比,您的家庭現在的經濟狀況怎么樣呢?是變好、基本不變還是變差?

1明顯好轉2略有好轉3基本不變

4略有變差5明顯變差9說不清/拒答

A3a為什么您這樣說呢?(最多限選兩項)___0中性原因 90不知道/拒答10改善:收入相關 110惡化:收入相關20改善:就業狀況相關 120惡化:就業狀況相關30改善:投資相關 130惡化:投資相關40改善:家庭開支相關 140惡化:家庭開支相關50改善:政策/宏觀經濟 150惡化:政策/宏觀經濟相關2025年3月19日@文彤老師342.1.1統計軟件中數據的錄入格式(1)不同觀測對象的數據不能在同一記錄中出現,即同一觀測數據應當獨占一行。(2)每一個觀測量指標或影響因素只能占據一列的位置,即同一指標的數量觀測值都應當錄入到同一個變量中去。2.1數據格式概述即:一個觀測占一行,一個變量占一列在錄入數據時,歸納為以下三步:第一步:定義變量名;第一步:指定每個變量的各種屬性;第一步:錄入數據。變量名不能與spss保留字相同,spss的保留字有ALL、END、BY、EQ、GE、GT、LE、LT、NE、NOT、OR、TO、WITH。2.1.2變量屬性介紹一、變量的儲存類型SPSS中,變量有三種的基本類型:數值型、字符型和日期型。標準數值型逗號數值型圓點數值型科學技術法數值型美元數值型用戶自定義型數值型:數值型的數據是0-9的阿拉伯數字和其他符號,如美元符號、逗號或圓點組成的。日期型用戶自定義型字符型:字符型數據的默認顯示寬度為8個字符位,系統不區分變量名中的大小寫字母,并且不能進行數學運算。注意:在輸入數據時不應輸入引號,否則雙引號將會作為字符型數據的一部分。日期型:日期型數據是用來表示日期或時間的。日期型數據的顯示格式有很多,SPSS以菜單方式列出日期型數據的顯示格式以供用戶選擇。事實上,SPSS存儲中的日期型變量是該實踐與1582年10月14日零點相差的秒數。關于日期型格式的幾點說明:“m”在年與日(字母y與d)之間表示月份;在時與秒(字母h與s)之間表示“分”鐘。“mmm”表示要求書寫英文月份單詞的前三個字母組成的縮寫。“ddd”三個字母d表示要求用從元月一日算起的日數表示日期。指定了日期變量的格式,不一定在輸入時就使用指定的格式。可以輸入用“/”或“—”作分隔符的具體日期,回車后,系統將自動將輸入的格式轉化為指定的格式,顯示在單元各種。二、變量的測量尺度在SPSS中使用Measure屬性對變量的測量尺度進行定義。(1)定類尺度(NominalMeasurement):定類尺度是對事物的類別或屬性的一種測度,按照事物的某種屬性對其進行分類或分組。特點:其值僅代表了事物的類別和屬性,即能測度類別差異,不能比較各類之間的大小,所以各類之間沒有順序和等級。對定類尺度的變量只能計算頻數和頻率。在spss中,能適用定類尺度的數據可以是數值型,也可以是字符型變量。使用定類變量對事物進行分類時,必須符合窮盡原則和互斥原則。(2)定序尺度(OrdinalMeasurement):定序尺度是對事物之間的等級或順序差別的一種測度,可比較優劣或排序。特點:由于定序變量只能側度類別之間的順序,無法測出類別之間的準確差值,即測量數值不代表絕對的數量大小,所以其測量結果只能排序,不能進行運算。(3)定矩尺度(IntervalMeasurement):定矩尺度是對事物類別或次序之間間距的測度。特點:不僅能將事物區分為不同類型并進行排序,而且可能準確指出類別之間的差距是多少;定居變量通常以自然或物理單位為計量尺度,因此測量結果往往表現為數值,所以計量結果可以進行加減運算。(4)定比尺度(ScaleMeasurement):定比尺度是能夠測算兩個測度值之間比值的一種計量尺度,它的測量結果同定距變量一樣表現為數值。特點:定必變量是測量尺度的最高水平,它除了具有其他三種測量尺度的全部特點外,還具有可計算兩個側度至之間筆直的特點,因此它可以進行加、減、乘、除運算,而定居變量值可進行加減運算。三、變量名與變量標簽值Label:定義變量名標簽Value:定義變量值標簽四、缺失值Spss中缺失值有用戶自定義缺失值和系統缺失值兩大類。在SPSS中,對字符型變量,默認的缺失值為空格;對數值型變量,默認的缺失值為零。2.2數據的直接錄入2.1.1操作界面說明標尺欄菜單欄工具欄數據輸入區數據編輯區窗口標簽標題欄狀態欄當前數據欄顯示區滾動條DataView表可以直接輸入觀測數據值或存放數據,表的左端列邊框顯示觀測個體的序號,最上端行邊框顯示變量名。VariableView表用來定義和修改變量的名稱、類型及其他屬性,如圖所示。如果輸入變量名后回車,將給出變量的默認屬性。如果不定義變量的屬性,直接輸入數據,系統將默認變量Var00001,Var00002等。在VariableView表中,每一行描述一個變量,依次是:Name:變量名。變量名必須以字母、漢字及@開頭,總長度不超過8個字符,共容納4個漢字或8個英文字母,英文字母不區別大小寫,最后一個字符不能是句號。Type:變量類型。變量類型有8種,最常用的是Numeric數值型變量。其它常用的類型有:String字符型,Date日期型,Comma逗號型(隔3位數加一個逗號)等。Width:變量所占的寬度。Decimals:小數點后位數。Label:變量標簽。關于變量涵義的詳細說明。Values:變量值標簽。關于變量各個取值的涵義說明。Missing:缺失值的處理方式。Columns:變量在DateView中所顯示的列寬(默認列寬為8)。Align:數據對齊格式(默認為右對齊)。Measure:數據的測度方式。系統給出名義尺度、定序尺度和等間距尺度三種(默認為等間距尺度)。為了在統計分析過程中能有效的利用其它軟件產生的數據,SPSS軟件編輯窗口除可以使用*.sav擴展名數據文件,還可以直接打開和保存下述類型的文件:SPSSDOS版本產生的數據文件*.sys;Excel報表程序產生的數據文件*.xls;DBASE數據庫格式文件*.dbf;SAS統計軟件產生的數據文件。2.2.2開放題和簡單單選題的錄入一、在spss中定義變量錄入數據的第一步是定義變量屬性,隨后才能進行數據錄入。二、開放題的錄入三、單選題的錄入單選題的錄入可以采用字符直接錄入、字符代碼+值標簽、數值代碼+值標簽三種方式。2.2.3多選題的錄入一、多重二分法(MultipleDichotomyMethod)所謂多重二分法,是在編碼的時候,對應每一個選項都要定義一個變量,有幾個選項就有幾個變量,這些變量均為二分類,他們各自代表對一個選項的選擇結果。二、多重分類法(MultipleCategoryMethod)多重分類法,也是利用多個變量對一個多選題的答案進行定義,應該用多少個變量,由被訪者實際可能給出的最多答案數而定。三、多選題錄入在spss中的實現2.3外部數據的獲取SPSS讀入非SPSS類型的文件數據,有三種主要方式:直接打開,利用文本導向讀入文本數據以及利用數據庫OBDC接口讀入數據。2.3.1電子表格數據如何導入spss中SPSS中可以直接讀入許多常用格式的數據文件,選擇菜單FileOpenData或直接單擊快捷鍵工具欄上的快捷按鈕,系統就會彈出OpenFile對話框,單擊“文件類型”列表框,在里面能夠看到可以直接打開的數據文件格式。2.3.2文本數據如何導入spss中第一步:首先,在OpenFile文件框中選中文件,單擊“打開”,系統會自動啟動文本倒入向導對話框。第二步:選擇“NO”并單擊“下一步”按鈕。用某種字符區分固定寬度第三步:分別選擇“Delimited”和“yes”,然后單擊“下一步”按鈕。第四步第五步第六步第七步2.4數據的保存2.4.1存為spss格式2.4.2存為其他數據格式第3章數據管理3.1變量級別的數據管理對變量進行操作的內容主要集中于Transform菜單中,包括新變量的生成、記錄的排序、對變量進行計數等。

計算新變量:就是用Compute過程。

變量轉換:包括Recode、VisualBander、Count、RankCase、AutomaticRecode這五個過程。

專用過程:包括建立時間序列、缺失值代替和設定隨機種子三個過程。

RunPendingTransforming:用于執行編程中被掛起的數據整理操作。計算產生新變量變量值自動編碼設定隨機數種子創建代替缺失值變量創建時間序列變量運行其它轉換程序變量值重新編碼創建計數變量觀測量排秩連續變量進行分段3.1.1計算新變量計算新變量的功能就是在原有spss數據文件的基礎上,根據用戶的要求,使用spss算術表達式及函數,對所有記錄或滿足SPSS條件表達式的記錄,計算出一個新結果,并將結果存入一個用戶指定的變量中。一、常用基本概念(1)spss算術表達式

spss算術表達式是由常量、spss變量名、spss的算術運算符、圓括號等組成的式子。(2)spss函數

spss提供了多達70多種函數,分為八大類:算術函數、統計函數、分布函數、邏輯函數、字符串函數、日期時間函數、缺失值函數和其它函數。(3)spss條件表達式通過spss的算術表達式和函數可以對所有記錄計算一個結果,如果僅希望對部分記錄進行計算,則應當利用spss的條件表達式指定對那些記錄進行計算。二、compute過程的分析實例例3.1統計英語成績在60分以上的學生的數學和語文的平均成績。例3.2計算工人工資的所得稅。學生自己練習。3.1.2對變量值進行分組合并一、對連續變量進行分組在SPSS中可以將連續變量轉換為離散(等級或定序)變量,按照某種一一對應的關系生成新變量值,可以將新值賦給原變量。Recode過程和VisualBander過程都可以完成這一任務,但前者給為簡單和常用。例3.3

當學生英語成績小于60時取值為“不及格”,大于等于60且小于70為“及格”,大于等于70且小于80為“較好”,大于等于80為“優秀”。二、分類變量類別的合并Recode過程也常用于合并某個分類變量的幾個水平為一個水平。將上例grade中優秀、良好和及格三個等級合并為一個等級“PASS”,將grade的等級“不及格”轉換為“NOPASS”。3.1.3連續變量的可視化分段VISUALBander用于將連續變量進行分段,該過程使用百分位數、標準差范圍或者等間距方式將連續變量劃分為若干組段,并采用圖形化操作的方式。例3.4對數學成績進行分段,假設現在希望按變量math將學生分為5組,60分以下為第一組,60分以上的按照等間距的方式分為4組。3.1.4將字符變量轉換為數值變量用automaticrecode將字符變量轉換為數值變量。3.1.5變量的編秩所謂編秩,就是對記錄按照某個變量值大小來排序。Rankcase過程就是用來排序的一個專用過程。例:根據性別分組計算數學成績的秩次。3.1.6Transform菜單中的其它功能(1)count過程如果用戶需要對滿足某項條件的數據進行計數,可以使用Count命令。先在TargetVariable中指定一個變量(可以是已經存在的變量或新變量),并定義變量標簽,然后指定要統計的變量加到NumericVariables框中,再單擊DefineValues按紐,打開ValuetoCount對話框。Value:輸入某個值為清點對象;System-missing:以系統的缺失值為清點對象;System-orusermissing:以系統或用戶指定的缺失值為清點對象;Range:指定數值的計數區域:其中包括:()through()在框內指定下限和上限lowestthrough():在框內只指定上限;()highestthrough:在框內只指定下限。(2)randomNumberSeed過程:用于設定偽隨機函數的隨機種子。3.2文件級別的數據管理(一)數據編輯窗口的Data菜單為用戶創建和定義數據提供了方便的功能。這個菜單是SPSS統計軟件數據整理的特有功能菜單。它的功能包括:對變量、觀測量的編輯處理;對變量數據的變換;對觀察量數據整理。(1)簡單命令:包括插入變量、插入記錄和到達某條記錄,他們的功能實際上都可以用鼠標在數據表界面上直接完成,很少會使用菜單來調用。(2)常用的簡單過程:包括排序、拆分文件、選擇記錄和加權記錄。(3)變量與數據文件屬性導向:用于定義數據字典,或者將于定義的數據字典直接引入當前數據文件。(4)數重構過導向:用于進行數據轉置,或者對重復測量數據表進行長型、寬型記錄間的轉換。(5)文件合并過程:將幾個數據文件合并為一個大的spss數據文件,含橫向合并和縱向合并兩種情況。(6)正交設計過程:實際上是聯合分析模塊的一部分,用于生成實施聯合分析所需要的設計。(7)其他過程:包括定義日期變量過程、數據匯總過程和查找重復記錄導向。定義變量屬性定義變量日期插入觀測量拷貝數據屬性插入一個變量定位觀測量觀測量排序重構數據結構分類或不分類匯總正交設計數據文件轉置合并數據文件標識重復觀測量拆分數據文件選擇觀測量觀測量加權3.2.1記錄排序一、排序的兩種方法:(1)在數據表格的變量名處單擊右鍵,彈出的右鍵菜單最后兩項就是“sortAscending”和“SortDescending”。(2)對于多變量排序,則需要使用SortCases過程來進行。二、多變量排序需要注意的三點:(1)在多重排序中,制定排序變量名是很關鍵的,先指定的變量在排序時必然優先于后制訂的變量。(2)可以指定按某變量值升序排序的同時按另一變量值降序排序,或相反。(3)排序以后,原來記錄數據的排列次序將被打亂。3.2.2記錄拆分SplitFile分割文件的功能是把當前工作分割成兩個或兩個以上的組,隨后的分析將對每個組進行。3.2.3記錄篩選SelectCases:當用戶不需要分析全部的數據,而是按要求分析其中的一部分,使用該選擇。Allcase:選擇所有數據;Ifconditionissatisfied:按指定條件選擇數據。RandomSampleofcases:對觀察值進行隨機抽樣。Usefiltervariable:用指定變量作過濾。先選擇一個變量,系統自動在數據管理器中將該變量值為0的觀測單位標上刪除記號,系統對標有刪除記號的觀測單位不作分析。Basedontimeorcaserange:順序抽樣。單擊Range按紐,打開SelectCase:Range對話框,用戶自行定義從第幾個觀察值開始抽到第幾個觀察值結束。3.2.4加權記錄WeightCases:設定某變量為頻數變量。3.2.5數據匯總所謂分類匯總就是按指定的分類變量對觀測值進行分組,對每組記錄的各變量求指定的描述統計量,結果可以存入新數據文件,也可以替換當前數據文件。一、匯總的概念二、進行分類匯總的方法1、打開“data”菜單,選擇“Aggregate”,展開aggregatedata”對話框。2、在左側的源變量框中選擇一個或多個變量作為分類變量進入分類變量(BreakVariable[s])框中。3、在左側的源變量框中選擇一個或多個變量作為要求匯總的變量進入匯總變量(AggregateVariable[s])框中,即要求這些變量的值進行分類匯總。4、“name&label”(名稱與標簽):單擊此按鈕可以修改組合后所生成新變量名稱以及標簽:可以在name后面的矩形框中輸入新變量名。在Label后面的矩形框中輸入新變量標簽。單擊“continue”按鈕繼續。5、“Function”(函數)選擇此項可以確定匯總變量的描述內容;系統默認函數為平均數。3.3文件級別的數據管理(二)3.3.1數據字典的定義與應用在大型的數據分析項目中,數據管理是非常重要的一個環節,為了保證工作質量,數據處理人員往往會事先定義好一個非常詳細的數據格式,包括變量格式、變量標簽、標簽值、缺失值定義等,這被稱為數據字典。一、變量屬性定義導向:DefineVariableProperties具體說來,可以列出所選變量的所有值;分辨沒有值標簽的值,并且提供自動給出值標簽的功能;可以將另一個變量的屬性拷貝到所選變量,也可以將所選變量的屬性拷貝到其他變量。二、復制數據文件屬性導向CopyDataProperties過程用于將定義好的數據字典直接應用到當前文件中。操作時不僅可以將一個外部數據文件相關屬性拷貝到當前數據文件中,還可以進行自行定義,只選擇某些變量,或者某些屬性進行拷貝,這無疑大大提高了連續性項目對原有資源的利用程度。3.3.2查找重復記錄IdentifyingDuplicateCases:用于查找重復記錄。運行結束后,結果窗口會給出本次操作的信息匯總:3.3.3數據文件的重新排列與轉置一、數據的長型與寬型格式:長型格式和寬型格式指的是重復測量數據的兩種不同的排列方式。由于重復測量模型可以使用不同的統計模型加以分析,因此根據模型的要求進行長型格式和寬型格式之間的互轉換是數據分析中經常要遇到的問題。二、長型格式轉換為寬型格式:Restructure。選擇DataRestructure,系統就會彈出下圖導向。三、數據轉置Transpose:用于對數進行行列轉置,數據文件的轉置就是將數據編輯窗口中數據的行列互換,即將記錄轉為變量,將變量轉為記錄后,重新顯示在數據編輯窗口中。Variable(s):放入將要行列轉置的變量名。在數據文件中,未放入欄中的變量會遺失。字符串變量不能轉換,如強迫轉換,變量值轉變為系統缺失值。Namevariable:變量命名欄,在左側源變量欄中選擇一個變量,放入namevariable欄,技改變量的數據作為轉置后的變量名。3.3.4多個數據文件的合并縱向連接:幾個數據集中的數據相加,組成一個新的數據集,新數據集中的記錄是原來幾個數據集中記錄數的總和。橫向連接:指的是按照記錄的次序,或者某個關鍵變量的數值,將不同數據集中的不同變量合并為一個數據集,新數據集中的變量數是所有原數據集中不重名變量的總和。一、數據文件的縱向連接縱向合并實質就是將兩個數據文件的變量列,按照各個變量名的含義,一一對應的進行首尾相接。縱向合并必須遵循兩個條件:第一,兩個合并的spss數據文件,其內容合并是有實際意義的。第二,為方便spss數據文件的合并,在不同的數據文件中,最好起相同的名字,變量類型和變量長度也要盡量相同。Unpairedvariable:不匹配變量欄。指變量名相同而變量定義不同的變量,或變量名不同的變量。Variableinnewworkingdata:新工作數據變量欄。Indicatecasesourceasvariable:指示記錄來源的變量選項/二、數據文件的橫向合并橫向合并的實質是將兩個數據文件的記錄,按照記錄對應,一一進行左右對接。橫向合并遵循三個條件:第一,如果不是按照記錄號對應的規律進行合并,則兩個數據文件必須至少有一個變量名相同的公共變量,這個變量是兩個數據文件橫向合并的依據,成為關鍵變量。第二,如果是使用關鍵變量進行合并的對應,則兩個數據文件都必須事先按關鍵變量進行升序排列。第三,為方便SPSS文件的合并,在不同的數據文件中,數據含義不相同的列,變量名不應取相同的名稱。ExcludedVariables:拒絕變量名。外部文件與當前數據的同變量,拒絕加到新工作區中。NewWorkingData:新工作數據變量欄。MatchCaseonKeyVariableinsort:排序文件中按關鍵變量匹配記錄選項。Bothfilesprovidecase:由外部文件和當前數據量兩者提供記錄。Externalfileiskeyedtable:外部文件為關鍵表,以當前數據為基準,外部文件匹配當前數據的關鍵變量值,如匹配成功,外部文件的新變量值加入到當前數據的新變量中,匹配不成功則不加入。WorkingDataFileiskeyedtable:當前數據為關鍵表。KeyVariables:關鍵變量欄,在拒絕變量選擇某變量作為關鍵變量。Indicatecasesourceasvariable:指示記錄來源的變量選項。第五章spss編程操作入門

內容:

1.進入程序編輯窗口界面2.熟用Paste按鈕3.編程進行對話框無法完成的工作4.簡單編程命令介紹(變量標簽定義、Compute、Count、Recode)5.結構化語句(條件語句、循環語句)6.綜合練習進入程序編輯窗口界面

①創建一個新程序File——new——syntax②打開一個舊程序

File——open——syntax程序文件的擴展名為*.sps注:syntax窗口的菜單和SPSS窗口的菜單功能基本一致,區別在于RUN菜單。RUNALL——運行全部程序RUNSELECTION——運行所選擇的部分程序熟用Paste按鈕在所有對話框選擇完畢后,不選擇OK,而使用Paste

例如:打開xuelin編程進行對話框無法完成的工作例4.1打開cars.savP50

操作后的語句:COUNTG1=yearcylinderweight(Lowestthru76)yearcylinderweight(Lowestthru4)yearcylinderweight(3000thruHighest).EXECUTE.修改為正確的格式:COUNTG1=year(Lowestthru76)cylinder(Lowestthru4)weight(3000thruHighest).EXECUTE.注:編程基本小知識:①每句命令完成后,以點號結束,否則程序不被執行。②全部命令編輯完成后,以Execute.結束,否則程序不被執行.③學會使用help——commandsyntaxreference自學編程。簡單編程命令介紹1、變量標簽定義Variablelabelsvarname‘label’.Eg:variablelabelsx1‘語文’

x2‘數學’

x3‘英語’.2、Compute(用于給變量賦值)Computetargetvariable=expressionEx:請建立成績文件,要求包含變量X1語文/X2數學/X3英語/X4總分/X5均值其中x1服從均值為75標準差為5的正態分布,x2服從50~100的均勻分布,x3服從均值為70標準差為5的正態分布程序:Setseed5502090(可寫,也可不寫)inputprogram.loop#i=1to200.computex1=rv.normal(75,5).Computex2=rv.uniform(50,100).Computex3=rv.normal(70,5).Computex4=sum(x1,x2,x3).Computex5=mean(x1,x2,x3).variablelabelsx1'語文'x2'數學'x3'英語'x4'總分'x5'均值'.endcase.endloop.endfile.endinputprogram.execute.3、Count(用于標示某個值或某些值在某個變量的取值中是否出現)CountVarname=varlist(valuelist)KeywordsforvaluelistLo/Hi/Thru

Ex:要求,在成績文件中,統計各位同學不及格門數,以及每位同學有幾門功課處于70到80之間。Counttarget1=x1tox3(lothru60).Counttarget2=x1tox3(70through80).Counttarget3=x1tox3(60throughhi).練習答案inputprogram.loop#i=1to200.computex1=rv.normal(75,5).Computex2=rv.uniform(50,100).Computex3=rv.normal(70,5).Computex4=sum(x1,x2,x3).Computex5=mean(x1,x2,x3).variablelabelsx1'語文'x2'數學'x3'英語'x4'總分'x5'均值'.Counttarget1=x1tox3(lothru60).Counttarget2=x1tox3(70through80).Counttarget3=x1tox3(60throughhi).endcase.endloop.endfile.endinputprogram.execute.4、Recode(用于從原變量值按照某種一一對應的關系生成新變量值)Recodevariable(valuelist)intotargetvariableEx:recodex(1through2=10)(else=20)intox1.(相當于條件)Ex:stringx7(a1)(字符型)(a1表示寬度)

Computex7="女".recodex7("女"=1)intoxx.練習Ex:打開pkc.sav文件,將sex變量進行重新編碼,定義為新變量sex1,其中sex為1,sex1為女,sex為2,sex1為男。GETFILE='E:\study\大三上個學期\spss\案例數據\pkc.sav'.stringsex1(a3).recodesex(1='女')(else='男')intosex1.Execute.分支語句(條件語句)

①IF語句SPSS程序格式:IF邏輯表達式目標表達式邏輯表達式用于給出判斷條件目標比達式表示如果滿足邏輯表達式后該如何操作。練習示例1:打開案例數據brain1.sav,要求將年齡小于20,性別為1(男)的病人歸為第一組(group=1).GETFILE='F:\Jane\案例數據\brain1.sav'.ifage<20&sex=1group=1.Execute.示例2:打開案例數據brain1.sav,要求將年齡小于等于40歲的女性病人歸為組2.GETFILE='H:\案例數據\brain1.sav'.ifagele40group=2.execute.或者用recode語句來做試試!recodeage(lothru40=2)intogroup.練習1:將血小板大于等于100的取值為1。GETFILE='H:\案例數據\brain1.sav'.ifpltge100group=1.execute.用recode來試試看,也可以的!recodeplt(100thruhi=1)intogroup.練習2:打開brain1.sav,創造一個新的字符型變量sex1,當sex取值為1時,sex1取值為f,當sex取值為2時,sex1取值為m.GETFILE='H:\案例數據\brain1.sav'.stringsex1(a1).(a1寬度)computesex1='f'.ifsex=2sex1='m'.execute.

②DOIF語句如果需要多重分支,有多個條件限制時,需要用到DOIF語句SPSS程序格式:DoIF邏輯表達式目標表達式Else.

目標表達式EndIF示例1:見書(P52)GETFILE='F:\Jane\案例數據\brain1.sav'.DOIF(age<20).COMPUTEageclass=1.ELSEIF(age<30).COMPUTEageclass=2.ELSEIF(age<50).COMPUTEageclass=3.ELSE.COMPUTEageclass=4.ENDIF.EXECUTE.試一下用recode語句!!你一定行的。GETFILE='E:\study\大三上個學期\spss\案例數據\brain1.sav'.recodeage(lowestthru20=1)(20thru30=2)(30thru50=3)(else=4)intox.EXECUTE.示例2:編程完成書P31例題練習3:自己完成P33例題二、循環語句在介紹循環語句時,著重介紹Loop/EndLoop語句.該語句主要用于建立數據集和數據變換操作。SPSS程序格式:Loop控制變量名=起始值to終止值[BY步長]運算語句EndLoop示例1:見書P53。理解每句程序的含義。SETSEED55020.(將偽隨機數種子設為5502090)(解釋下)INPUTPROGRAM.(開始數據錄入程序階段)LOOP#LOP=1TO50.(一共循環50次,變量lop不寫入文件)COMPUTEA=NORMAL(1).(新變量A服從標準正態分布)ENDCASE.(結束一條記錄的定義)ENDLOOP.(結束循環)ENDFILE.(結束數據文件)ENDINPUTPROGRAM.(結束數據錄入程序)EXECUTE.(開始執行以上程序)DOIF(A>=0).COMPUTEB=A.(如果A>=0,則新變量b=a)ELSE.COMPUTEB=A*2.(否則,b=a*2)ENDIF.EXECUTE.(開始執行以上程序)LIST.(在結果窗口中輸出數據列表)實例GETFILE='E:\study\大三上個學期\spss\案例數據\brain1.sav'.SETmxloops=10.Loop.Computex1=x+1.Endloop.EXECUTE.或者:Loop#lop=1to10.開始循環,要求循環10次Computex=x+1.

將變量累加1Endloop.

示例2:產生1~200的連續自然數Inputprogram.Loop#i=1to200.

Computex=#i.

endcase.

Endloop.

Endfile.

Endinputprogram.

Execute.宏的基本格式定義DEFINE!M_SAMPLE()'ABC'*任何有效的SPSS程序段.!ENDDEFINE.

IFVARX=1VARY=!M_SAMPLE.EXECUTE.2025年3月19日@文彤老師158宏參數DEFINEM_COMP(INVAR1=!CHAREND('/')).RECODE!INVAR1(1THRU5=COPY)(ELSE=9)INTO!CONCAT('T',!INVAR1).EXEC.!ENDDEFINE.

M_COMPINVAR1=A3.2025年3月19日@文彤老師159OMS系統即輸出管理系統(OutputManagementSystem)提供了結果輸出和數據文件的自動交互功能可以將輸出結果存儲為SPSS數據格式(SAV)、XML格式、HTML格式、TXT格式、PDF格式等可以指定輸出結果中的表格、文本、圖形2025年3月19日@文彤老師160OMS控制面板2025年3月19日@文彤老師161分析實例DATASETDECLAREfreq.sav.OMS/SELECTTABLES/IFCOMMANDS=['Frequencies']SUBTYPES=['Frequencies']/DESTINATIONFORMAT=SAVNUMBERED=TableNumber_OUTFILE='freq.sav'.OMSEND.2025年3月19日@文彤老師162分析實例2025年3月19日@文彤老師163綜合練習練習1:要求產生有100條記錄的新數據集。要求:隨機變量A服從均值為5,標準差為10的正態分布的,當該變量大于5時,改為新變量B,若該變量小于等于5時,則B等于A的平方。(要求固定隨機種子)。(可以通過編程指南查找怎樣產生這樣一個正態分布)。練習2

請建立共50人的成績文件,要求包含變量X1語文/X2數學/X3英語/X4總分/X5均值,要求x1服從均值為75,標準差為5的正態分布隨機序列,x2為服從50~100之間的均勻分布隨機序列,x3服從均值為70,標準差為5的正態分布序列,x4為三科總成績,x5為三科的平均成績。(參考教材53頁例題)( 前面例子)第四講實戰案例@文彤老師CCSS項目中數據異常值的

自動核查與報告項目需求CCSS每月的數據均由電腦輔助電話訪問系統(CATI)收集而來,該系統的WINCATI軟件自帶數據核查功能,但由于數據采集完畢后還需要進行開放題的重編碼、廢卷清理等工作,為保證數據質量,在數據提交分析之前重新按照問卷設定要求進行查錯是必備步驟2025年3月19日@文彤老師168數據核查的主要工作內容

配額檢查:對于有配額限制的項目,需要檢查項目設計中所規定的配額要求是否被滿足。數值檢查――封閉題:具體選項有限,數值中不應當出現選項以外的取值,如變量A3-A16只能取值為1、2、3、4、9。數值檢查――數值開放題:相應的連續變量應在有效范圍內取值,如變量S3年齡的取值應當在18-65之間。數值檢查――多選題:如果采用多重分類法記錄數據,則同一個選項代碼不應當在不同列中重復出現。例如A3A_1和A3A_2兩變量就不應當取相同數值,否則就意味著同一個選項出現了重復選擇。邏輯查錯:出于質量控制的要求,問卷中對數值題目的取值進行了邏輯控制,例如A3、A4、A8不應當同時選擇9,否則按廢卷處理。2025年3月19日@文彤老師169數據核查的技術路線內容分解:將各種查錯工作歸類為若干個基本獨立的種類,實際上,上文我們就在完成這項工作。查錯實現:對每個分解出的類別給出適當的錯誤識別規則定義,并采用適當的技術手段來實現。結果反饋:采用適當的技術手段作為查錯結果的輸出接口,從而使得查錯的結果能夠清楚并格式統一的反饋給用戶。2025年3月19日@文彤老師170查錯實現方式使用數據驗證模塊實現使用函數功能實現查錯實現:在SPSS中提供了上百種函數,我們完全可以利用一些特殊的函數來對該個案的某個變量值是否違反查錯規則做出邏輯判斷,而當邏輯判斷結果為真時,即意味著該個案的這一變量值可能存在錯誤。結果反饋:可以考慮按照上述邏輯判斷結果形成有特定含義的字符串,每一種錯誤都用相應的字符串表示,該字符串可以直接輸出到結果窗口中,也可以生成一個或數個專用的指示變量,當出現相應錯誤時,就將所對應的字符串加入到錯誤指示變量中去。這里我們顯然推薦后者,因為這樣做的話,查錯完成后只需要檢查錯誤指示變量,就可以得知相應案例的錯誤。2025年3月19日@文彤老師171數值檢查--封閉題

封閉題由于只有若干個特定取值,因此只需要判斷相應取值是否有效即可,這可以使用IF、RECORD等命令來實現,但最方便的方式為使用專門的ANY函數:IFA3~=1&A3~=2&A3~=3&A3~=4&A3~=5&A3~=9ERROR=1.RECODEA3(1=0)(2=0)(3=0)(4=0)(5=0)(9=0)(ELSE=1)INTOERROR.COMPERROR=1-ANY(A3,1,2,3,4,5,9).2025年3月19日@文彤老師172數值檢查--開放題1.任意取值的連續變量取值范圍查錯:此類變量一般會存在一個合理的上界和下界,超過此范圍之外的就可以作為可疑數據加以核對。以變量S3為例,可以采用如下三種方式來查錯。IFS3<18|S3>65ERROR=1.RECODES3(18THRU65=0)(ELSE=1)INTOERROR.COMPERROR=1-RANGE(S3,18,65)2025年3月19日@文彤老師173數值檢查--開放題2.取值方式有限制的連續變量:此類變量除了上界和下界之外,該變量只能取整數,或者某些特別的小數,這時可以使用下面的函數來實現查錯功能。為整數:IFRND(VAR)~=VARERROR=1.為特定的小數(如只能是*.3):IFMOD(RND(VAR*10))~=3ERROR=1.為某個數的倍數(如3的倍數):IFMOD(VAR,3)~=0ERROR=1.2025年3月19日@文彤老師174多選題查錯1.多重二分法:一般規定某種取值表示該題項被選中,其余取值均代表未被選中。因此可以檢查上述題項所對應的變量是否均為相同的取值情形,以多選題C0為例,程序如下。*同時檢查.IFNOT(ANY(C0_1,1,2,99)&ANY(C0_2,1,2,99)&ANY(C0_3,1,2,99))ERROR=1.*分別檢查.IFANY(C0_1,1,2,99)ERROR=1.IFANY(C0_2,1,2,99)ERROR=2.IFANY(C0_3,1,2,99)ERROR=3.2025年3月19日@文彤老師175多選題查錯2.多重分類法:除進行類似于上面的取值范圍檢查外,多重分類法還有可能出現的錯誤是對選項進行了重復選擇。這種情況常常出現于對“其他”選項進行重編碼后,沒有檢查編碼是否已經選中就將其加入了數據集所致。CCSS數據的A3A題目就是采用多重分類法加以記錄,雖然A3A的題目設定允許重復選擇的情形出現,但我們也可以借用該題目演示一下相應的查錯方式如下。IFMISSING(A3A_1)=0&(A3A_1=A3A_2)ERROR=1.2025年3月19日@文彤老師176邏輯關系查錯邏輯錯誤又可被分為嚴格邏輯錯誤和可疑邏輯錯誤兩種,前者有明確的錯誤界限,后者則沒有,有可能的確是正確數值。但這兩種邏輯錯誤在核查方法上是沒有區別的。

邏輯關系的查錯方式是利用已知的邏輯關系,直接編制相應的程序,主要使用IF和COMP實現,例如對CCSS問卷中A3、A4、A8不應當同時選擇9這一邏輯設定,可直接按如下方式設定。IFA3=9&A4=9&A8=9ERROR=1.2025年3月19日@文彤老師177查錯結果的報告1.簡單標識變量:只給出一個查錯結果變量,用1或者某個數值表示該個案數據有錯,但變量太多時,按此查找具體的錯誤顯然非常費時。2.單獨重編碼:比如共有12個查錯條件組合,則為每個組合分別給出ERR1~12這些變量,分

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論