創建 SA S 數據集的技巧-_第1頁
創建 SA S 數據集的技巧-_第2頁
創建 SA S 數據集的技巧-_第3頁
創建 SA S 數據集的技巧-_第4頁
創建 SA S 數據集的技巧-_第5頁
已閱讀5頁,還剩1頁未讀 繼續免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

1、文章編號:100424337(20030120074202中圖分類號:T P 319文獻標識碼:A創建SA S 數據集的技巧張爾強(中國醫科大學計算中心沈陽110001SA S (Statistical A nalysis System 是當今國際上最著名的統計分析軟件。SA S 采用模塊結構,統計分析分為數據步和過程步。數據步準備數據集,每個過程步完成相應的分析。SA S 有各種各樣的過程,足以滿足各種統計分析要求。數據集的建立有非常靈活的方式,既可以使用外部數據文件,也可以在SA S 作業流中實現。下面僅就創建SA S 數據集的技巧簡單介紹如下。1使用外部數據如果數據已經用其它軟件以文件的

2、形式存在磁盤上(即所謂利用已有資料,在下列情況下可以直接轉換成SA S 數據集。111EXCEL 文件人們常用EXCEL 整理數據,甚至可以進行簡單的統計分析。如果要用SA S 進行更復雜的統計分析,可以直接轉換成SA S 數據集,但必須注意以下幾點:必須保證數據從第1行A 列開始存放,否則將出現多余的變量和空觀測;如果第1行有欄頭,則每列的欄頭將成為SA S 數據集中的變量名。由于SA S 是純英文軟件,不能接受漢字為變量名,因此必須把欄頭改為英文,而且必須是8個以內的字符;如果第1行沒有欄頭,而是直接寫入數據,那么第一行數據將丟失,并且變量名將自動為F 1,F 2,;因為EXCEL 有各種

3、不同的版本,因此在轉換時要注意版本的指定;進入SA S 后,依次點擊菜單F I L E I M POR T ,然后在對話框中選擇外部文件類型(EXCEL 2000或EXCEL 6.0、瀏覽文件名,并為新數據集命名即可;成功與否的信息將出現在LO G 窗口,也可以用PR I N T 過程顯示。112A CCESS 文件A CCESS 文件是一種數據庫文件,字段名必須是英文字母、下劃線或數字,否則不能識別。字段名將變成SA S 數據集的變量名。113LO TU S 文件因為LO TU S 和EXCEL 都是電子表格文件,因此轉換方法完全相同。114DBF 文件DBA SE 、FOXBA SE 、F

4、OXPRO 、V ISUAL FOXPRO 等數據庫文件(擴展名為DBF 都可以轉換成SA S 數據集,這對以DBF 形式存放的數據文件的分析帶來了方便。但必須注意以下幾點:由于數據庫的字段名將直接變成SA S 中的變量名,SA S 是純英文軟件,不能接受漢字為變量名,因此轉換前必須把字段名改為英文;DBF 中的字符型、數值型、日期型字段轉換成同類型的SA S 變量,而邏輯型的將轉換成字符型(SA S 中無邏輯型變量;進入SA S 后,依次點擊菜單F I L E I M POR T ,然后在對話框中選擇外部文件類型(DBF 、瀏覽文件名,并為新數據集命名即可。115以逗號為間隔符的純文本文件(

5、擴展名為CSV 116制表符(T ab 鍵為間隔符的純文本文件(擴展名為TXT 無論哪種情況,都必須保證文件是在關閉狀態下,否則轉換將失敗。2數據步中建立數據集的技巧除了直接利用外部數據外,也可以利用SA S 數據步建立數據集。一般來說很簡單,但是如果一個觀測由2行或以上數據組成,或者一行上有多個觀測就需要一些技巧。在大型實驗中,常常對一個觀測對象測定較多的數據項,因此寫成數據文件時一個觀測對應原始數據的多行,例如某體育訓練中心有關運動前后生理指標的影響的研究中對運動前后各測定20項數據,形式如下:001F -002M -解決的辦法有以下三種:(1I N PU T NUM BER SEX $A

6、 12A 10 B 12B 10這里的 表示下跳一行,如果一條記錄由三行組成,可以再加上一個 去讀下一行;47Jou rnal of M athem aticalM edicine V o l.16NO .120033廣州市荔灣區中西醫結合醫院(2I N PU T NUM BER SEX $A 12A 10#2B 12B 10這里#2表示到第二行去讀,同樣也適用于多行的情況;(3I N PU T NUM BER SEX $A 12A 10;I N PU T B 12B 10即一個記錄由幾行組成,就使用幾個I N PU T 語句。如果每個觀測變量很少,則可以把多個觀測寫在一行上。例如對某地100

7、名7歲兒童身高數據進行分析,數據步可以寫成如下形式:DA TA A ;I N PU T H E IGH T ;CA RD S ;-這里為續讀符號,可以從一行上讀取多個觀測。收稿日期:2002-05-17文章編號:100424337(20030120075202中圖分類號:T P 392文獻標識碼:A用SQL Server 2000構建數據倉庫的嘗試周怡周衛平李燕茹3(廣東藥學院計算中心廣州510224摘要:介紹了作者采用SQL server 2000構建對廣州市死亡狀況數據倉庫的嘗試,探討了在目前國內醫藥業的信息系統環境下,構建數據倉庫可能會遇到的問題以及正在嘗試的解決方案。關鍵詞:數據倉庫;

8、數據挖掘;數據凈化當我們在查看醫藥信息系統數據庫中成千上萬的記錄時,所有的決策層領導都知道這些信息非常有價值。將計算機中存儲的堆積如山的數據轉化成有用的信息,已經成為當今決策層十分關注的問題。數據挖掘已成為IT 領域中的新熱點。數據挖掘是一個“數據驅動”的過程,目的是發掘以前沒有被發現或是容易被忽略的有意義的數據模式。數據挖掘的一個顯著特點是,它依靠計算機而不是人力來做那些用來建立預測模型的復雜的數學運算。大量原始數據的分析需要深層次的歸納推理,這部分工作也是由計算機來完成。推理過程結束之后,計算機再按照能為人所理解的格式輸出分析結果。數據倉庫作為一種高效的解決數據收集和使用的技術,正在越來越

9、多地應用到傳統的數據庫技術領域,數據挖掘則在數據庫和數據倉庫的支持下進行高效率的知識挖掘工作1。將分布在廣州各區的人口死亡情況登記進行電腦整合,嘗試構建死亡人口的數據倉庫,我們希望這個數據倉庫能為醫學研究、政府管理決策和智能信息系統的數據挖掘工作奠定一個基礎。1數據挖掘物理結構和數據倉庫設計數據挖掘的物理結構描述了客戶應用程序是如何與數據挖掘模型相互作用的,結構的選擇是根據待挖掘數據源的大小以及對該數據挖掘模型發布的預測查詢頻率來選擇的。根據“死亡人口數據倉庫”的應用特點,我們擬使用由兩層體系結構向三層體系結構過渡的方案。在數據倉庫開始服務時,先選用兩層體系結構。因為兩層體系結構的物理結構不太復雜,能夠在合理高效的服務器上挖掘數百萬的記錄。服務器中一并存放著數據挖掘引擎和數據倉庫,在本地運行所有處理過程。通過一個OL EDB 連接,客戶機可以簡單調用引擎執行所有必要的數據挖掘處理,并在需要時接受預測結果集。當數據挖掘任務進一步增加,客戶機選用挖掘結果需求量增大時,擬選用三層體系結構。這個結構總體上需要一個專用的高性能服務器在中間層來運作數據挖掘引擎,數據倉庫被置于后端,中間層負責挖掘其數據。中間層從后端載入數據并挖掘它,挖掘結果被傳到客戶機。到客戶機的過程與兩層體系結構是相同的。在眾多的數據倉庫產品中,我們選擇SQL server 2000

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論