




版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
11十月2022SAS(StatisticalAnalysisSystem)基礎與數據預處理vicky11十月2022一、SAS系統概述SAS軟件及其模塊SAS啟動與界面SAS文件類型SAS基本概念11十月2022SAS軟件 SAS是用于數據分析和決策支持的大型集成式模塊化軟件系統。 在數據處理與統計分析領域,SAS已成為國際上流行的標準企業管理軟件。《財富》500強企業,約90%在使用
《財富》100強企業,約98%在使用IfyouhaveaSAScertification,youwillneverloseyourjob11十月2022SAS應用領域SAS廣泛地被用于金融、醫藥衛生、電信通訊、政府及教育科研等領域。在商務智能領域,SAS可以幫助用戶:CustomerSegmentation-識別最有利潤的客戶群,并揭示其中的特征CreditRiskManagement-通過準確的信用評分提高客戶的利潤率BalancedScorecard-企業均衡計分管理FraudDetection-欺詐檢測CustomerRetention-客戶流失管理CrossSelling-交叉銷售以及其他需要預測和規則發現的應用等等11十月2022版本最早由北卡羅來納大學的兩位生物統計學研究生編制,1976年成立SAS軟件研究所正式推出。版本:6.04、6.12、8.2、9.13、9.2、9.311十月2022SAS操作方式編寫程序需要熟悉SAS語言,但使用靈活高效;圖形用戶界面例如:Insight: 交互式數據探索EM:數據挖掘機11十月2022SAS啟動與界面輸出窗口,F7日志窗口,F6程序編輯窗口,F5資源管理器11十月2022SAS基本概念邏輯庫數據集變量表達式程序數據步和過程步11十月2022SAS邏輯庫1.SAS邏輯庫是指向存儲SAS文件的文件夾的SAS快捷方式名稱;2.分類:臨時庫和永久庫
臨時庫:WorK,默認的,存在于內存中永久庫:指向外存中的文件夾3.系統默認有3個庫:work(臨時庫)、sashelp(永久庫)、sasuser(永久庫)4.用戶可以定義自己的邏輯庫11十月2022邏輯庫定義命令 指定庫名的語句為全程語句,其格式如下:
Libname庫名‘路徑’;例如:
libnametestdata‘d:\data\’;
libnametestdataclear;清除邏輯庫SAS資源管理器11十月2022變量變量的類型: 字符型和數值型變量的測量水平:區間INTERVAL和類別CLASS變量的缺失值:字符型:用空格表示數值型:用.表示變量的其它屬性:名稱、長度、輸入輸出格式、標簽11十月2022變量的命名最多8個字符長,第一個字符必須是字母或者下劃線,不能有空格。特殊字符(如$,@,#)也不允許在SAS名中使用。SAS系統保留的特殊變量名,以下劃線開始和結尾。如:_N_和_ERROR_等。11十月2022SAS程序SAS程序包括多個步驟和一些控制語句,一般情況下均包括數據步和過程步,通常情況下SAS程序還包括一些全程語句,用以控制貫穿整個SAS程序的某些選項、變量或程序運行的環境。
11十月2022SAS程序規則 SAS語句對字母的大小寫不敏感,SAS語句中的詞(words)之間用空格或特殊符號分隔,一個語句可以由幾行組成,幾個語句可以在同一行內。一個SAS語句有兩個重要特征:
1.它通常由SAS關鍵詞(keyword)開始;
2.它總是以分號“;”結束;11十月2022注釋注釋*……;/*….*/11十月2022數據步
data語句有兩個重要的功能:標志數據步的開始命名將要創建的SAS數據集。SAS數據步的一般形式為:
DATA數據集;
語句; …… RUN;11十月2022過程步SAS系統用數據步生成和管理數據,用過程步進行分析、報表、繪圖。SAS過程步的一般形式為:
PROC過程名DATA=輸入數據集[選項];
過程語句/[選項];
過程語句/[選項]; …… RUN;11十月2022PRINT與SORT指定分析變量。
VAR變量名1變量名2…變量名n;
變量名列表可以使用省略的形式,如X1-X3等排序:例如:Procsortdata=sashelp.air;bydescendingdate;Run;輸出:procprintdata=name;Where條件;Var變量列表;By變量;Sum變量;Run;11十月2022二、數據處理數據集的建立與導出數據預處理數據探查數據合并數據清洗數據變換與缺失值處理數據增加與刪除11十月2022SAS數據集的建立(1)直接輸入方式
e.g.datatestinput…;datalines;/*在以前的版本下為cards*/…………(數據行)
;run;
(2)外部文件導入方式
文本文件與EXCELL文件(3)連接到關系數據庫數據導入練習導入Fdata目錄下的customer.xls:包括三個電子表:Customer1Customer2Customeradd11十月202211十月2022數據集的導出將SAS系統的數據集轉換成將其他格式(EXCEL,ACCESS,sqlserver)的數據菜單方式:文件的導出數據程序:PROC
EXPORTDATA=consumeOUTFILE=‘D:\DATA\consume1.XLS’DBMS=EXCELREPLACE;SHEET=‘consume’;RUN;11十月2022數據導出PROCEXPORTDATA=
consumeOUTFILE=“d:\data\testexp.txt"DBMS=TABREPLACE;RUN;11十月2022課后練習1.將fDATA目錄中文本文件phone讀入到SAS數據集中2.將fdata目錄中的EXCEL文件cjb導入到SAS數據集中3.將sashelp邏輯庫中的數據集class導出到EXCEL文件中11十月2022數據探查排序PROCSORTdata=name;by[descending]varname;run;顯示
procprintdata=name;…;run;11十月2022Meansprocmeansdata=data.myraw;run;procmeansdata=data.myrawnrangesumvarmeannmissmedian;varageincome;run;11十月2022SAS中可以計算的描述性
統計量部分關鍵字及其含義關鍵字所代表的含義n有效數據記錄數nmiss缺失數據記錄數mean均值std標準差var方差median中位數mode眾數CV變異系數max最大值11十月2022SAS中可以計算的描述性
統計量部分關鍵字及其含義關鍵字所代表的含義min最小值css校正的離均差平方和uss未校正的離均差平方和skew偏度kurt峰度clm可信限(上下界值)lclm可信限下側界值uclm可信限上側界值qrange四分位數間距數據探查11十月2022交互式分析insight11十月2022數據合并縱向合并(union)或數據集復制:準備工作:導入customer.xls文件的三個電子表形成三個同名的數據集。
datacustomer;setcustomer1customer2;run;橫向合并:
datacustomernew;mergecustomercustomeradd;byno;RUN;要求:先對要合并的數據集按相同的變量排序。數據合并如果customer1與customer2的變量不完全相同,需要在結果中只包含共同的變量:
datacustomer;setcustomer1(keep=保留變量名列表)customer2(keep=保留變量名列表);run;或:datacustomer;setcustomer1(drop=去除變量名列表)customer2(drop=去除變量名列表);run;11十月2022數據合并如果需要在結果中只包含部分觀測:
datacustomer;setcustomer1(where=(條件))customer2(where=(條件));run;11十月202211十月2022數據清洗查錯Dataerr;setcustomer2(where=(memo=‘err’));run;procsql或Viewtable窗口的/data/where修正數據程序datacustomer2;setcustomer2;ifmemo=‘err'thenmemo='test';run;procsql或viewtable中手工修改11十月2022缺失值填充特定值:datacustomer2;setcustomer2;ifmemo=''thenmemo='test';run;11十月2022準備數據datac9501;inputname$sex$mathchineseavg;labelname='姓名'sex='性別'math='數學'chinese='語文'avg='平均';datalines;
李明男929886.8333
張紅藝女8910688.6667
王思明男869080.5000
張聰男9810994.4167
劉潁女8011085.8333;run;title'學生信息';footnote'test';optionsnumberdatelinesize=180pagesize=40;Procsortdata=c9501;Bysex;procprintdata=c9501labelnoobs;bysex;summathchinese;run;11十月2022數據變換一般變換datanew;setc9501;vnew=avg/120*100;
run;標準化
procstandarddata=newout=new1mean=0std=1;varmathchinese;run;11十月2022數據增刪新增|刪除列變量直接使用表達式生成新變量,例如上頁中的vnew;Drop變量名;或者KEEP其它變量名;參見數據合并。刪除觀測值datacmale;setc9501;wheresex=“男”;run;或datacmale;setc9501;ifsex=“女”thendelete;run;
Procsql11十月2022三、SASEM操作流程啟動EM創建項目建立數據流程圖11十月2022SASEM數據挖掘方法--SEMMA11十月2022Sample──數據取樣數據的角色、測量水平數據取樣的方法簡單隨機取樣分層取樣數據分區訓練數據集是用于初步模型擬合。驗證數據集是用于監測和優化模型,同時也用于模型評估。測試數據集用于評估模型對新數據的適用效果。11十月2022Explore──數據特征探索、分析和預處理SAS/INSIGHT和SAS/SPECTRAVIEW兩個產品提供了可視化數據操作的最強有力的工具、方法和圖形。它們不僅能做各種不同類型統計分析顯示,而且可做多維、動態、甚至旋轉的顯示11十月2022Modify──問題明確化、數據調整和技術選擇
缺失值的處理變量轉換變量的選擇11十月2022Model──模型的研發、知識的發現關聯規則決策樹分析神經網絡回歸分析時間序列分析……11十月2022Assess──模型和知識的綜合解釋和評價同一個數據源可以利用多種數據分析方法和模型進行分析,ASSESS的目的之一就是從這些模型中自動找出一個最好的模型出來,另外就是要對模型進行針對業務的解釋和應用。11十月2022SAS數據挖掘節點和功能數據輸入節點從數據源讀入數據并定義變量屬性以便于隨后用于EnterpriseMiner進行數據處理
采樣節點:選擇采取隨機抽樣,分層隨機抽樣,樣本聚類等方法使用數據分割節點,您可以將原始數據分割為訓練、測試和驗證數據集。訓練數據集是用于初步模型擬合。驗證數據集是用于監測和優化模型,同時也用于模型評估。測試數據集是一個額外的延伸數據集,用于評估模型對新數據的適用效果。DistributionExplore
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025中國農業銀行個人消費借款合同樣本
- 2025年淡水養殖產品種苗項目發展計劃
- 2024年3月專賣店無人收銀差錯率賠償計算標準協議
- 美術課程評價與反饋機制計劃
- 年度教育研究項目申報計劃
- 醫技部個人工作計劃
- 職業生涯中目標的動態調整計劃
- 建立完善的項目管理體系的計劃
- 利用節日活動增強學生道德認知計劃
- 跨界合作的思路與實踐計劃
- 華為商務禮儀課件內部
- (完整版)作文格子紙模板
- 課后習題詳解
- 大學生心理健康教育(日照職業技術學院)智慧樹知到課后章節答案2023年下日照職業技術學院
- 第13章 實戰案例-鉆石數據分析與預測
- 鋼筋混凝土用鋼材題庫
- 人教版(2019)必修 第三冊Unit 1 Festivals and Celebrations Listening Speaking課件
- 【課件】有機化合物的同分異構體的書寫方法課件高二化學人教版(2019)選擇性必修3
- 光伏過戶轉讓協議書
- 劉禹錫浪淘沙九首賞析
- 宇電溫控器ai 500 501用戶手冊s 6中文說明書
評論
0/150
提交評論