數據統計學處理方法與選擇_第1頁
數據統計學處理方法與選擇_第2頁
數據統計學處理方法與選擇_第3頁
數據統計學處理方法與選擇_第4頁
數據統計學處理方法與選擇_第5頁
已閱讀5頁,還剩54頁未讀 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

2023/2/3

數據統計學處理方法與選擇第一部分數據輸入與整理一、原始數據的錄入1、原始數據的記錄形式

醫(yī)學研究的原始數據常列成類似下表的二維結構,即行與列結構的數據集形式。每一行稱為一個記錄(record),或一個觀察單位(case);每一列稱為一個變量Variable),用以表示變量、項目或觀察指標等。腎衰病人預后分析臨床資料病人編號病案號性別年齡生理評分腎毒性黃疸昏迷肌酐膽固醇腎功能預后1004757男2614無有無5204.1治愈2007950女3113無無無5234.5治愈3011093男5517無無無2093.3治愈4017555男259有無無10334.1未愈...........274279183女7815有無無3316.1未愈2、原始數據的錄入

在進行統計分析前,原始數據需錄入計算機。錄入的文件類型大致有:數據庫文件,如dBASE、FoxBASE、Lotus、EPIinfo等;Excel文件;統計應用軟件的相應文件,如SPSS數據文件、SAS數據文件、STATA數據文件等。目前,上述文件類型絕大多數都可以相互轉換。

錄人數據時,應遵循便于錄入,便于核查,便于轉換,便于分析的原則。便于錄入是指盡可能地減少錄入工作量,錄入時,用數值變量取代了字符變量,可以大大節(jié)約錄入的時間和費用。便于核查是指一定要設有標識變量,以方便數據核查。便于轉換是指錄入數據時要考慮不同軟件對字節(jié)和字符的要求,便于分析是指每項研究最好錄成一個數據文件,錄入的格式滿足各種統計分析的需要,這樣才能保證分析數據時的高效和全面。馮啟明2023/2/3二、輸入數據的質量控制1、數據核查數據錄入后,首先須對錄入的數據進行核查,以確保錄入數據的準確性和真實性。核查準確性可分兩步進行。第一步邏輯檢查,通過運行統計軟件中的基本統計量過程,列出每個變量的最大值與最小值,如果某變量的最大值或最小值不符合邏輯,則數據有誤;第二步將原始數據與輸入數據進行核對,更正錯誤。在一些大型數據的錄入過程中,為保證數據的質量,往往采用對同一資料進行雙人重復錄入的方法,然后應用程序對兩個數據庫進行比對,如有錄入結果不符,則進行核查,找出其錯誤所在。二、輸入數據的質量控制2、缺失值的處理在資料收集過程中,特別是大型數據的收集,不可避免的會有一些缺失值產生,這主要來自于資料收集中的漏填和漏報。通常認為,缺失值應控制在數據記錄總量的10%以內。在計算機的數據錄入過程中,要注意把缺失值和“0”區(qū)分開來,“0”通常用來表示“無”,即該事件未發(fā)生,具有確切的含義,表明該數據已收集到;而缺失值表示該數據未填或未收集,兩者要注意區(qū)分,以免混淆。在一般的數據庫軟件中,缺失值通常都用“.”表示。二、輸入數據的質量控制2、缺失值的處理

在資料分析中,如一例記錄的某個變量有缺失值,統計分析軟件都會自動把該例作刪除處理。因此,當資料可避免地產生了缺失值,而該例記錄由于其他的變量仍有統計分析的價值,或者當刪除該例記錄后樣本例數太少,不能保證數據分析結果的可靠性時,則可用一些統計學方法對缺失值進行填補。對缺失值進行估計填補具體方法,可參閱有關文獻。

二、輸入數據的質量控制3、離群數據的處理

當個別數據與群體數據嚴重偏離時,被稱為離群數據(outlier)。判斷離群數據的方法可通過觀察數據的頻數表或直方圖進行初步判斷;統計軟件一般都有判斷離群數據的方法,例如,SPSS軟件對其的定義為:觀察值距箱式圖(boxplot)的箱體底線(第25百分位數)或頂線(第75百分位數)的距離為箱體高度(四分位數間距)的1.5倍至3倍時被視為離群點,觀察值距箱體底線或頂線的距離超過3倍的箱體高度時被視為極端值。

二、輸入數據的質量控制3、離群數據的處理若有離群數據出現,可分為兩種情況處理:(1)如果確認數據有邏輯錯誤,又無法糾正,可直接刪除該數據。例如,若某一數據中某病例的身高變量為“1755”cm,且原始記錄亦如;又無法再找到該病例時,顯然這是一個錯誤的記錄,只能刪除。(2)若數據并無明顯的邏輯錯誤,可將該數據剔除前后各做一次分析,若結果不矛盾,則不剔除;若結果矛盾,并需要剔除,必須給以充分合理的解釋,例如用何種方法確定偏離數據,該數據在實驗中何種干擾下產生等。第二部分數據統計描述方法的選擇總體樣本統計推斷抽樣抽樣誤差一、計量資料的描述某市抽查187名賓館女性服務人員年齡資料如下

254033182225333035182420222225262428184021…………….192220223329384022181920252429313228262519187名賓館女性服務人員年齡分布年齡分組(歲)頻數<202120~4925~8930~19>=359

計量資料統計描述集中趨勢離散趨勢均數幾何均數中位數全距四分位數間距方差標準差變異系數計量資料描述的常用統計指標選擇集中趨勢指標

適用范圍離散趨勢指標

適用范圍

均數正態(tài)分布或對稱分布資料四分位數間距Q75-Q25偏態(tài)數據或“開口數據”幾何均數

G對數正態(tài)分布或成倍數關系的數據標準差

S正態(tài)分布或對稱分布資料中位數

M偏態(tài)數據或“開口數據”某市抽查187名賓館女性服務人員年齡資料如下

254033182225333035182420222225262428184021…………….192220223329384022181920252429313228262519187名賓館女性服務人員年齡分布年齡分組(歲)頻數<202120~4925~8930~19>=359

現檢測出11名梅毒患者的血清梅毒抗體滴度如下,請計算其平均抗體滴度。1:51:201:401:801:801:801:1601:1601:3201:3201:640數據之間呈倍數關系-幾何均數艾滋病患者月均收入的頻數表月均收入(天)人數<50031500~141000~131500~82000~6>=25002合計74偏態(tài)分布與開口資料,采用中位數(M)與四分位數間距(Q75-Q25)描述某人收集到如下的統計資料,從資料表達方式的角度看,存在的主要錯誤是什么?該資料應如何進行表達?艾滋病患者某藥治療前后CD4測定結果

明顯偏態(tài)資料-采用中位數描述平均水平,由于例數太少,采用最大值-最小值反映離散。

治療例數

治療前1924±38治療后191008±1586標準差大于均數,提示明顯偏態(tài)。二、分類資料的統計描述案例1請選擇適當指標描述該兩組資料結果。資料類型多項無序分類資料

艾滋病健康教育干預組與對照組的職業(yè)構成組別例數工人個體戶職員其他干預照組12030403020合計27050907060案例2請選擇適當指標描述兩組結果。兩項分類資料

兩方法治療尖銳濕疣療效比較

組別例數有效無效A方法15011238B方法13011812案例3

等級資料(多項有序分類資料)請選擇適當指標描述兩組結果。

兩方法治療尖銳濕疣療效比較

組別例數控制顯效有效無效A方方/p>

資料統計描述方法計量資料分類資料集中趨勢離散趨勢計數資料等級資料均數幾何均數中位數全距四分位數間距方差標準差變異系數二項分類資料多項無序分類資料

構成比

構成比

據表中某地、某年梅毒監(jiān)測資料,計算各年齡的構成比和梅毒報告發(fā)病率

某地、某年梅毒監(jiān)測資料年齡(歲)人口數梅毒報告數構成比/%發(fā)病率(1/萬)0-5894521920-65493519430-43256750340-123794536>=5031129261

合計1831877

1513

第三部分統計學假設檢驗方法的選擇

選擇統計方法的基本思路:

反應變量是單變量、雙變量或多變量

數據屬于哪種類型資料:計量資料、計數資料或等級資料(針對單變量數據)數據所屬的設計類型:完全隨機設計、配對設計、隨機區(qū)組設計或其他設計

影響因素是單因素還是多因素

數據是單一樣本、兩組樣本還是多組樣本

數據是否符合擬采用的統計分析方法的應用條件

(一)單變量計量資料的分析1、樣本均數于已知總體均數比較1、一般健康孕婦生產男孩的出生體重為3kg。隨機抽樣調查某地某年15名梅毒感染孕婦生產男孩的出生體重,得如下數據,問:問梅毒感染孕婦與健康孕婦生產男孩的出生體重是否有差異?樣本均數與總體均數比較15名梅毒感染孕婦生產男孩的出生體重(kg):1.82.22.52.61.61.81.92.62.21.92.02.52.61.72.0馮啟明2023/2/3

(一)單變量計量資料的分析2、配對樣本均數比較3、兩樣本均數比較40名艾滋病患者隨機分為兩組,分別給予A藥和B藥治療,治療后艾滋病患者血液CD4含量如下,請比較兩組患者治療后CD4差異。完全隨機設計兩樣本均數比較

治療后艾滋病患者血液CD4含量A藥200,250,300,500,1005,350,280,450,600,780B藥1400,1250,1580,1890,9001104,1589,789,698,1560兩種方法檢測7名艾滋病患者的血液CD4含量,所得結果如下。問:甲乙兩法檢出CD4含量是否相同,用何統計方法?

樣本號1234567

乙法270540125500485185650

甲法329602101625508175761

配對設計計量資料

(一)單變量計量資料的分析4、多個樣本均數比較

某研究者將27只感染艾滋病雄性猩猩隨機分成三組(每組9只),給予不同處理,觀察12周。測定。處理前后血液中的CD4升高值見下表。問三組的CD4升高值是否相同?

A藥組B藥組C藥組365348360394355368373319386375354369358352352370356371350324374410356368360350372完全隨機設計多樣本比較A藥B藥C藥1.671.772.102.042.032.071.381.451.481.021.091.071.291.151.921.321.051.281.171.261.082.121.872.071.641.721.651.751.852.451.651.561.38按性別相同、年齡相近、病情相近把33例艾滋病患者配成11個區(qū)組,每區(qū)組3個患者,分別給予A藥、B藥和C藥治療。治療后患者血漿中的IGA含量見表。問經三種不同藥物治療后該病患者血漿中IGA含量有無差別?

隨機區(qū)組設計計量資料

某醫(yī)院用某中藥給8名吸毒者戒毒,在治療前、治療后一周、二周、三周和四周分別測定患者的血清谷丙轉氨酶SGPT的變化,其數據如表5-2所示,試分析各周SGPT值的差別是否有顯著性意義。單因素重復測量數據方差分析組別受試號

監(jiān)測時間(小時)1234膠囊組19.7354.6155.946.8125.5050.8779.9062.3737.9623.4364.1056.0042.3718.6373.1076.0552.3755.2493.3565.4766.5032.0873.4576.27片劑組70.8425.0053.8044.2580.6817.3464.5661.0692.1414.1069.7766.65102.3053.4073.8362.00116.1725.8545.8053.80122.4553.3058.8057.80

將12名吸毒者隨機分為兩組,每組6名,采用某種藥物進行治療戒毒,一組服用膠囊,另一組服用片劑。分別于服藥后1,2,3,4小時測定血藥濃度,血藥濃度檢測結果見下表。試比較兩種劑型服用后血藥濃度有無差別?兩因素重復測量數據方差分析22例艾滋病患者隨機分成兩組:A藥組,B藥組。從治療開始日開始隨訪,隨訪時間(月)如下。試比較兩組的療效有無差異,(帶+者為截尾數據)。

A組1,2,3,5,6,9+,11,13,16,26,37+B組:10,11+,14,18,22,22,26,32,38,

40+,42+生存數據,宜用Log-rank檢驗(二)單變量計數資料的分析1、兩個率比較

據以往調查數據,某地女性梅毒發(fā)病率一般為1.2%。某人在當地女性服務人員中抽查400名,檢測出8例梅毒。問該地女性服務人員梅毒發(fā)病率是否高于一般女性?樣本率與總體率比較-基于二項分布的直接概率法

根據以往觀察,一般35歲以上孕婦有10%發(fā)生流產。現某醫(yī)院觀察35歲以上患梅毒孕婦254例,有60例發(fā)生流產。問35歲以上梅毒患者是否較容易流產?樣本率與總體率比較-基于二項分布的u檢驗法

某醫(yī)院將376例淋病患者隨機分為兩組,分別用中藥和西藥治療,結果見表7-1。問兩種藥物療效的差別有無意義?兩樣本率比較-四格表X2檢驗(二)單變量計數資料的分析2、行×列表資料比較當生殖器出現異常時,外展服務干預前后女性服務從業(yè)人員求醫(yī)行為見下表,請比較干預前后女性服務從業(yè)人員求醫(yī)行為差異有統計學意義。行×列表X2檢驗

干預前后女性從業(yè)人員求醫(yī)行為比較(%)求醫(yī)行為干預前(n=187)干預后(n=173)X2P公立醫(yī)院就診37.478.972.8720.000私人診所就診43.411.5自己買藥處理19.29.6

采用兩種方法檢測女性服務人員梅毒感染率,結果如表所示,問兩種方法的檢出率差別有無統計學意義?配對設計計數資料X2檢驗A方法合計

陽性陰性B方法陽性2080100陰性2575100

合計45155200某醫(yī)院用三種方案治療淋病254例,結果如下,問三組療效有無差別?

組別無效好轉顯效痊愈合計西藥組

4931515100中藥組45922480中西藥組1528112074合計109683839254不宜用X2檢驗,要采用秩和檢驗(三)單變量等級資料的分析1、兩組等級資料比較

有9個艾滋病血液樣品分成兩份,分別在溫度為80℃和20℃的條件下加入相同顯色劑,結果如下,請比較兩種溫度下的顯色效應差異

溫度顯色效應12345678980℃深深深中淺深深深中20℃淺淺淺淺淺中淺淺淺配對設計等級資料-配對設計秩和檢驗某醫(yī)院對比兩種療法對梅毒治療效果,結果如下,問兩組的療法是否有差別?

組別觀察例數愈合

好轉無效A療法

625471B療法

6444119合計126981810兩樣本等級資料,不宜用X2檢驗,要采用秩和檢驗(三)單變

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論