




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)
文檔簡介
原始數(shù)據(jù)的記錄形式
原始數(shù)據(jù)的記錄形式
原始數(shù)據(jù)中,變量分為標(biāo)識變量和分析變量兩種。1.標(biāo)識變量主要用于數(shù)據(jù)管理,包括數(shù)據(jù)的核對與增刪等,是研究記錄中不可缺少的內(nèi)容,如上表中的“病人編號”和“病案號”即為標(biāo)識變量。2.分析變量則是數(shù)據(jù)分析的主要內(nèi)容,上表中除上述2個標(biāo)識變量外,其它9個變量均為分析變量。分析變量又被分為反應(yīng)變量(responsevariable)和解釋變量(explanatoryvariable)。反應(yīng)變量是表示試驗效應(yīng)或觀察結(jié)果大小的變量或指標(biāo)。解釋變量又稱指示變量(indicator)、分組變量(groupingvariable)、分類變量(categoricalvariable)、協(xié)變量等。根據(jù)研究目的以及變量間的相互關(guān)系,各變量的作用并非一成不變。
原始數(shù)據(jù)的錄入
在進(jìn)行統(tǒng)計分析前,原始數(shù)據(jù)需錄入計算機。錄入的文件類型大致有:1.數(shù)據(jù)庫文件,如dBASE、FoxBASE、Lotus、EPIinfo等;Excel文件;2.文本文件,如word文件、WPS文件等;3.統(tǒng)計應(yīng)用軟件的相應(yīng)文件,如SPSS數(shù)據(jù)文件、SAS數(shù)據(jù)文件、STATA數(shù)據(jù)文件等。目前,上述文件類型絕大多數(shù)都可以相互轉(zhuǎn)換。錄入數(shù)據(jù)時,應(yīng)遵循便于錄入,便于核查,便于轉(zhuǎn)換,便于分析的原則。便于錄入是指盡可能地減少錄入工作量,例如,下圖是前表原始數(shù)據(jù)錄入為SPSS數(shù)據(jù)文件(數(shù)據(jù).sav)的形式,錄入時,用數(shù)值變量取代了字符變量(如圖中的“性別”,“腎毒性”,“黃疸”,“昏迷”),可以大大節(jié)約錄入的時間和費用。(如將性別標(biāo)記為1=“男”,0=“女”)。數(shù)據(jù)處理中的幾個基本問題2.離群數(shù)據(jù)的處理當(dāng)個別數(shù)據(jù)與群體數(shù)據(jù)嚴(yán)重偏離時,被稱為離群數(shù)據(jù)(outlier)或極端數(shù)據(jù)(extremevalue)。統(tǒng)計軟件一般都有判斷離群數(shù)據(jù)的方法。判斷離群數(shù)據(jù)有多種方法,例如,SPSS軟件對其的定義為:觀察值距箱式圖(boxplot)的箱體底線(第25百分位數(shù))或頂線(第75百分位數(shù))的距離為箱體高度(四分位數(shù)間距)的1.5倍至3倍時被視為離群點;觀察值距箱體底線或頂線的距離超過3倍的箱體高度時被視為極端值。
若有離群數(shù)據(jù)出現(xiàn),可分為兩種情況處理:一種是,如果確認(rèn)數(shù)據(jù)有邏輯錯誤,又無法糾正,可直接刪除該數(shù)據(jù)。例如,若某一數(shù)據(jù)中某病例的身高變量為“1755”cm,且原始記錄亦如此,又無法再找到該病例時,顯然這是一個錯誤的記錄,只能刪除。另一種是,若數(shù)據(jù)并無明顯的邏輯錯誤,可將該數(shù)據(jù)剔除前后各做一次分析,若結(jié)果不矛盾,則不剔除;若結(jié)果矛盾,并需要剔除,必須給以充分合理的解釋,例如用何種方法確定偏離數(shù)據(jù),該數(shù)據(jù)在實驗中何種干擾下產(chǎn)生等。數(shù)據(jù)處理中的幾個基本問題3.統(tǒng)計方法前提條件的檢驗:應(yīng)用參數(shù)方法進(jìn)行假設(shè)檢驗往往要求數(shù)據(jù)滿足某些前提條件,如兩個獨立樣本比較t檢驗或多個獨立樣本比較的方差分析,均要求方差齊性,因此需要做方差齊性檢驗。如果要用正態(tài)分布法估計參考值范圍,首先要檢驗資料是否服從正態(tài)分布。在建立各種多重回歸方程時,常需檢驗變量間的多重共線性和殘差分布的正態(tài)性。
統(tǒng)計方法選擇的基本思路
數(shù)據(jù)處理中,正確選擇統(tǒng)計方法至關(guān)重要。選擇統(tǒng)計方法可以沿著以下思路進(jìn)行。第一個層面,看反應(yīng)變量是單變量、雙變量還是多變量。對于前者,第二個層面看屬于三種資料類型中的哪一種;第三個層面看單因素還是多因素;第四個層面看單樣本、兩樣本或多樣本;第五個層面看是否是配對或配伍設(shè)計;第六個層面看是否滿足檢驗方法所需的前提條件。
單變量計量資料的分析
1.樣本均數(shù)與總體均數(shù)比較分析思路為:反應(yīng)變量為單變量→計量資料→單因素→樣本均數(shù)與總體均數(shù)比較→如果服從正態(tài)分布,選用樣本均數(shù)與總體均數(shù)比較的t檢驗(one-samplet-test);如果不服從正態(tài)分布,則考慮用非參數(shù)檢驗方法。2.兩個相關(guān)樣本均數(shù)的比較分析思路為:反應(yīng)變量為單變量→計量資料→單因素→兩個相關(guān)樣本均數(shù)比較(因為是配對設(shè)計)。如果差值服從正態(tài)分布,選用配對t檢驗(pairedt-test);如果差值不服從正態(tài)分布,選用單樣本秩和檢驗(Wilcoxonone-sampletest)。3.兩個獨立樣本均數(shù)比較
分析思路為:反應(yīng)變量為單變量→計量資料→單因素→兩個獨立樣本均數(shù)比較。如果方差齊性,且兩樣本均服從正態(tài)分布,選用兩樣本t檢驗(two-samplet-test);如果方差不齊,但兩樣本均服從正態(tài)分布,選用t’檢驗,或兩樣本秩和檢驗(Wilcoxontwo-sampletest/Mann-Whitneytest);如果方差不齊,且兩樣本不服從正態(tài)分布,選用兩樣本秩和檢驗。本例選兩樣本t檢驗。
單變量計量資料的分析4.多個樣本均數(shù)比較
應(yīng)變量為單變量,又屬計量資料時,多個樣本均數(shù)比較分為單因素和多因素兩種情形。而重復(fù)測量資料則被視為多個反應(yīng)變量的類型。(1)單因素方差分析:若方差齊性,且各樣本均服從正態(tài)分布,選單因素方差分析(one-wayANOVA);若方差不齊,或某樣本不服從正態(tài)分布,選Kruskal-Wallis秩和檢驗(Kruskal-Wallistest)。若方差分析或秩和檢驗結(jié)果顯著,需進(jìn)一步做多重比較,如SNK法,LSD法,擴展t檢驗等。(2)兩因素方差分析但不分析交互作用:主要是隨機區(qū)組設(shè)計資料,涉及2個因素,即1個處理因素和1個區(qū)組因素。如果滿足方差齊性和正態(tài)分布兩個條件,選用兩因素方差分析(two-wayANOVA),如果不滿足上述兩個條件,選用隨機區(qū)組設(shè)計資料的Friedman秩和檢驗(Friedmantest)。單變量計量資料的分析(3)三因素方差分析但不分析交互作用:主要有拉丁方設(shè)計和二階段交叉設(shè)計兩種資料類型。對于拉丁方設(shè)計資料,涉及3個因素,即1個處理因素和2個區(qū)組因素;對于二階段交叉設(shè)計資料,3個因素分別為處理因素、受試者和試驗階段。如果滿足方差齊性和正態(tài)分布兩個條件,拉丁方設(shè)計可選用三因素方差分析(three-wayANOVA),如例4-5;二階段交叉設(shè)計可選用廣義線性模型的方差分析,如例4-6。如果不滿足上述兩個條件,選用非參數(shù)方法(參見有關(guān)文獻(xiàn))。若對處理因素的方差分析或秩和檢驗結(jié)果顯著,均需進(jìn)一步做多重比較。
單變量計量資料的分析(4)多因素方差分析且分析交互作用:此類資料包括析因設(shè)計資料(例11-2),正交設(shè)計資料(例11-4),嵌套設(shè)計資料(例11-6),裂區(qū)設(shè)計資料(例11-7)等。(5)重復(fù)測量資料:單因素重復(fù)測量只有1個重復(fù)測量因素,如表12-3的數(shù)據(jù)。多因素重復(fù)測量除有1個重復(fù)測量因素外,至少還有1個其它處理因素,可分析交互作用,如例12-3。
單變量計數(shù)資料的分析
單變量等級資料的分析
若為兩組配對等級資料的比較,選Wilcoxon單樣本秩和檢驗;若為兩組獨立樣本等級資料的比較,選Wilcoxon兩樣本樣本秩和檢驗;若為多組獨立樣本等級資料的比較,選Kruskal-Wallis秩和檢驗。
雙變量資料的分析
1.簡單相關(guān)分析
分析兩變量的相關(guān)關(guān)系時,若兩變量滿足二元正態(tài)分布,可選Pearson積矩相關(guān)分析(Pearsoncorrelation);若兩變量不滿足二元正態(tài)分布,可選Spearman秩相關(guān)分析(Spearmancorrelation)。2.線性回歸分析
分析兩變量的回歸關(guān)系時,若兩變量關(guān)系呈線性趨勢,可選簡單線性回歸分析(linearregression)。3.曲線回歸分析
分析兩變量的回歸關(guān)系時,若兩變量關(guān)系呈曲線趨勢,可按曲線類型選指數(shù)曲線,多項式曲線,生長曲線,Logistic曲線等。也可選用非線性回歸分析方法。多變量資料的分析
1.有應(yīng)變量的多元分析
若應(yīng)變量Y為數(shù)值型隨機變量,且服從正態(tài)分布,自變量滿足多元正態(tài)分布,可選多元回歸分析或多元逐步回歸分析因變量Y為分類變量(二分類或多分類),且以判別分類為主要目的,自變量滿足多元正態(tài)分布,可選判別分析或逐步判別分析。若因變量Y為生存時間,并含有截尾數(shù)據(jù),可選Cox模型做生存分析,
若因變量Y為二分類變量或多分類變量,且
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 農(nóng)業(yè)職業(yè)經(jīng)理人考試文獻(xiàn)閱讀與綜述技巧試題及答案
- 2024農(nóng)業(yè)經(jīng)理人核心能力提升試題及答案
- 實踐體驗公務(wù)員省考試題及答案137
- 八年級地理上冊 2.2 氣候參考教學(xué)設(shè)計 (新版)新人教版
- Unit 2 School life 第三課時 Grammar教學(xué)設(shè)計 2024-2025學(xué)年滬教版(2024)七年級英語上冊
- 園藝產(chǎn)品質(zhì)量管理試題及答案
- 八年級英語上冊 Unit 1 Where did you go on vacation第4課時教學(xué)設(shè)計 (新版)人教新目標(biāo)版
- 抵押物評估協(xié)議書
- 公司財務(wù)結(jié)算離職協(xié)議
- 人教版七年級上冊地理教學(xué)設(shè)計:第三章第三節(jié) 降水的變化與分布
- 《養(yǎng)老護(hù)理員》-課件:協(xié)助臥床老年人使用便器排便
- 統(tǒng)編版語文八年級下冊全冊大單元整體教學(xué)設(shè)計表格式教案
- 特種加工技術(shù)課件
- 提升教師數(shù)字素養(yǎng)培訓(xùn)方案
- 康恩貝流程優(yōu)化與ERP實施項目方案建議書20150612V1.0
- 關(guān)鍵工序特殊過程培訓(xùn)課件精
- 坑機安全操作規(guī)程范本
- 飼料廠獎懲制度匯編
- HFSS射頻仿真設(shè)計實例大全
- 《互聯(lián)網(wǎng)營銷課件:市場拓展的七大技巧》
- 應(yīng)用數(shù)學(xué)智慧樹知到課后章節(jié)答案2023年下楊凌職業(yè)技術(shù)學(xué)院
評論
0/150
提交評論