SAS統(tǒng)計分析教程方法總結(jié)_第1頁
SAS統(tǒng)計分析教程方法總結(jié)_第2頁
SAS統(tǒng)計分析教程方法總結(jié)_第3頁
SAS統(tǒng)計分析教程方法總結(jié)_第4頁
SAS統(tǒng)計分析教程方法總結(jié)_第5頁
已閱讀5頁,還剩45頁未讀 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認(rèn)領(lǐng)

文檔簡介

1、設(shè)試驗因素象隨機地均分成2 組,分別接受 A1, A2, 2種處理。再設(shè)每種處理下觀測的定量指標(biāo)數(shù)為k,當(dāng)k=1時,屬于一元分析的問題;當(dāng) k2時,屬于多在成組設(shè)計中,因2 組受試對象之間未按重要的非處理因素進行兩兩對定量結(jié)果進行差異性分析1.單因素設(shè)計一元定量資料差異性分析1.1.單因素設(shè)計一元定量資料 t 檢驗與符號秩和檢驗T 檢驗前提條件: 定量資料滿足獨立性和正態(tài)分布, 若不滿足則進行單 因素設(shè)計一元定量資料符號秩和檢驗。1.2.配對設(shè)計一元定量資料 t 檢驗與符號秩和檢驗配對設(shè)計:整個資料涉及一個試驗因素的兩個水平,并且在這兩個水 平作用下獲得的相同指標(biāo)是成對出現(xiàn)的,每一對中的兩個數(shù)

2、據(jù)來自于同一 個個體或條件相近的兩個個體。1.3.成組設(shè)計一元定量資料 t 檢驗成組設(shè)計定義:A有A1, A2個水平,將全部n (n最好是偶數(shù))個受試對元分析的問題。配對,無法消除個體差異對觀測結(jié)果的影響,因此,其試驗效率低于配對 設(shè)計。T檢驗分析前提條件:獨立性、正態(tài)性和方差齊性。14成組設(shè)計一元定量資料Wilcoxon秩和檢驗不符合參數(shù)檢驗的前提條件,故選用非參數(shù)檢驗法,即秩和檢驗。精選文檔21.5.單因素k (k=3)水平設(shè)計定量資料一元方差分析方差分析是用來研究一個控制變量的不同水平是否對觀測變量產(chǎn)生了 顯著影響。這里,由于僅研究單個因素對觀測變量的影響,因此稱為單因 素方差分析。方差

3、分析的假定條件為:各處理條件下的樣本是隨機的。各處理條件下的樣本是相互獨立的,否則可能出現(xiàn)無法解析的輸出結(jié)果。各處理條件下的樣本分別來自正態(tài)分布總體,否則使用非參數(shù)分析。各處理條件下的樣本方差相同,即具有齊效性。16單因素k( k=3)水平設(shè)計定量資料一元協(xié)方差分析協(xié)方差分析(Analysis of Covarianee是將回歸分析與方差分析結(jié)合起來使用的一種分析方法。在這種分析中,先將定量的影響因素(即難以控制的因素)看作自變量,或稱為協(xié)變量(Covariate),建立因變量隨自變量變化的回 歸方程,這樣就可以利用回歸方程把因變量的變化中受不易控制的定量因 素的影響扣除掉,從而,能夠較合理地

4、比較定性的影響因素處在不同水平 下,經(jīng)過回歸分析手段修正以后的因變量的樣本均數(shù)之間的差別是否有統(tǒng) 計學(xué)意義,這就是協(xié)方差分析解決問題的基本計算原理。在試驗中,試驗因素有時會受到某個重要的定量的非試驗因素的影響,為了消除這種定量非試驗因素對定量觀測結(jié)果的影響和干擾。前提條件:一、要求各組定量資料(主要指觀測結(jié)果)來自方差相等的正態(tài)總體;二、各組的總體回歸斜率要相等且不等于零。1.7.單因素k( k=3 )水平設(shè)計一元定量資料 Kruskal-Wallis秩和檢驗精選文檔3定量資料不滿足參數(shù)檢驗的前提條件時,則可選擇秩和檢驗2.單因素設(shè)計一元生存資料差異性分析生存分析(Survival Analy

5、siS是將重點事件的出現(xiàn)與否和達(dá)到終點所經(jīng)歷的時間結(jié)合起來的一種統(tǒng)計分析方法,其主要特點就是考慮了每個觀察 對象達(dá)到終點所經(jīng)理的時間長短。終點事件不限于死亡,可以是疾病的發(fā) 生、一種處理(治療)的反映、疾病的復(fù)發(fā)等。生存分析可用于生存曲線 估計、生存曲線比較、影響因素分析和生存預(yù)測。生存分析有一套完整的方法:統(tǒng)計描述(包括求生存時間的分位數(shù)、中位生存期、平均數(shù)、生存函數(shù)的估計、判斷生存時間分布的圖示法)、非 參數(shù)檢驗(檢驗分組變量各水平所對應(yīng)的生存曲線是否一致)、COX模型(半 參數(shù))回歸分析、參數(shù)模型回歸分析。研究者比較k條生存曲線之間是否有顯著差別時,SAS軟件提供了 3種常用的方法:對數(shù)

6、秩檢驗(log-rank Test、威爾考克森(Wilcoxon Test)和似然比檢驗(Likelihood Ratio Test。當(dāng)生存時間的分布為Weibull分布或?qū)儆诒壤L(fēng)險比模型時,Log-Rank檢驗效率較高;當(dāng)生存時間的分布為對數(shù)正態(tài)分布時,Wilcox on檢驗效率較高;因似然比檢驗是建立在指數(shù)分布模型上的,故當(dāng)資料偏離此模型時, 其結(jié)果不如前兩種檢驗方法穩(wěn)健。非參數(shù)法估計生存率有乘積極限法(Product-Limit Method,PL)和壽險法(Life Table Method),其中乘積極限法又稱為 Kaplan-Meier法(簡稱KM法)。前者適用于小樣本或大樣本未

7、分組資料,后者適用于觀察倒數(shù)較多的分組資料。3.多因素設(shè)計一元定量資料差異性分析精選文檔43.1.隨機區(qū)組設(shè)計一元定量資料方差分析與Friedman秩和檢驗隨機區(qū)組設(shè)計(Randomized block design),亦稱完全隨機區(qū)組設(shè)計(random complete block dsign)。這種設(shè)計的特點是根據(jù)“局部控制”的原則,將試驗地按肥力程度劃分為等于重復(fù)次數(shù)的區(qū)組,一區(qū)組安排一重復(fù), 區(qū)組內(nèi)各處理都獨立的隨機排列。參數(shù)檢驗前提條件:獨立性、正態(tài)性和方差齊性若不滿足參數(shù)檢驗的前提條件,采用秩和檢驗。32雙因素?zé)o重復(fù)實驗設(shè)計一元定量資料方差分析有兩個試驗因素,全部試驗條件由兩因素各

8、水平全面組合而成,在每 個條件下獲得定量資料的均值數(shù)據(jù)。3.3.平衡不完全隨機區(qū)組設(shè)計一元定量資料方差分析所謂平衡不完全隨機區(qū)組試驗(Balaneed Incomplete Block Design簡稱BIB試驗)就是試驗方案因受地塊限制,不能把試驗處理全部安置在試驗區(qū)組內(nèi)的情況下,所進行的試驗設(shè)計。其缺點是:區(qū)組數(shù)必須嚴(yán)格按規(guī)定數(shù)目設(shè) 立,缺一不可,否則各處理之間的比較將失去均衡性。BIB試驗設(shè)計需滿足如下條件:N=b*k = y*v其中N為試驗小區(qū)總數(shù);為任兩處處理在同一區(qū)組中出現(xiàn)的次數(shù); F是精選文檔5每個處理的重復(fù)數(shù);b是不完全隨機區(qū)組數(shù);k是每區(qū)組內(nèi)的小區(qū)數(shù)。34拉丁方設(shè)計一元定量資

9、料方差分析拉丁方設(shè)計(Latin square design使研究人員得以在統(tǒng)計上控制兩個不相互作用的外部變量并且操縱自變量。每個外部變量或分區(qū)變量被劃分為 一個相等數(shù)目的區(qū)組或級別,自變量也同樣被分為相同數(shù)目的級別。拉丁方以表格的形式被概念化,其中行和列代表兩個外部變量中的區(qū) 組,然后將自變量的級別分配到表中各單元中。簡單的說就是某一變量在 其所處的任意行或任意列中,只出現(xiàn)一次。假設(shè)我現(xiàn)在要做一個實驗,被試一共要進行5個小測試,并且需要重測多次,因此對這5個測試的排序就需要列入變量控制之內(nèi),不可能多次 都一樣的順序,因此為了平衡這種順序效應(yīng),采取拉丁方設(shè)計,先命名 個小測試分別為1, 2,

10、3, 4, 5。那么對其的排序就是這樣的:第一組測試順序:1, 2, 5, 3, 4精選文檔6第二組測試順序:2,3, 1, 4,第三組測試順序:3,4, 2, 5,第四組測試順序:4,5, 3, 1,第五組測試順序:5,1, 4, 2,其順序是這樣確定的,橫排:1, 2, n, 3, n-1, 4, n-2 . (n 代表 要排序的量的個數(shù)) 豎排:1, 2, 3, 4, 5再輪回。3.5.二階段交叉設(shè)計一元定量資料方差分析在醫(yī)學(xué)研究中,要將A、B兩種處理先后施加于同一批試驗對象,隨機 地使半數(shù)受試者先接受A后接受B,而另一半受試者正好相反,即先接受B 再接受A。由于兩種處理在全部試驗過程中

11、交叉進行,這種設(shè)計稱為交叉設(shè) 計(cross-over design)。在交叉設(shè)計中,A、B兩種處理先后以同等的機會出現(xiàn)在兩個試驗階段中,故又稱為兩階段交叉設(shè)計。試驗效應(yīng)受到3個因素的影響,一個是處理因素,一個是處理順利因素,還有一個是試驗階段因素,而且必須保證這3個因素之間沒有交互作用。雖然交叉試驗的處理是單因素,但影響試驗結(jié)果的因素還有非人為控 制的受試者的個體差異和試驗階段這兩個因素。因此,該設(shè)計不僅平衡了 處理順序的影響,而且能把處理方法間的差別、時間先后之間的差別和受 試者之間的差別分別進行分析。3.6.析因設(shè)計一元定量資料方差分析析因設(shè)計是一種多因素的交叉分組設(shè)計。它不僅可檢驗每個

12、因素各水 平間的差異,而且可檢驗各因素間的交互作用。兩個或多個因素如存在交互作用,表示各因素不是各自獨立的,而是一個因素的水平有改變時,另 一個或幾個因素的效應(yīng)也相應(yīng)有所改變;反之,如不存在交互作用,表示 各因素具有獨立性,一個因素的水平 有所改變時不影響其他因素的效應(yīng)。3.7.含區(qū)組因素的析因設(shè)計一元定量資料方差分析精選文檔738嵌套設(shè)計一元定量資料方差分析試驗中涉及兩個或多個試驗因素,且依據(jù)專業(yè)知識可以認(rèn)為各試驗因素對觀測指標(biāo)的影響有主次之分,主要因素各水平下嵌套著次要因素,次要因素各水平下又嵌套著更次要的因素,這樣的試驗設(shè)計稱為嵌套設(shè)計。此類設(shè)計有兩種情形:第一種情形是,受試對象本身具有

13、分組再分組的 各種分組因素,處理(即最終的試驗條件)是各因素各水平的全面組合,且因素 之間在專業(yè)上有主次之分(如年齡與性別對心室射血時間的影響,性別的影 響大于年齡);第二種情形是,受試對象本身并非具有分組再分組的各種分組 因素,處理(即最終的試驗條件)不是各因素各水平的全面組合,而是各因素按 其隸屬關(guān)系系統(tǒng)分組,且因素之間在專業(yè)上有主次之分(如研究不同代次不 同家庭成年男性的身高資料,不同家庭之間的差別大于同一個家庭內(nèi)部不同 代次之間的差別)。3.9.裂區(qū)設(shè)計一元定量資料方差分析試驗因素分兩階段進入試驗過程,通常由先進入試驗的試驗因素(設(shè) 為A)構(gòu)成單因素多水平設(shè)計或由先進入試驗的試驗因素(

14、設(shè)為 A)與區(qū)組因素(設(shè)為B)構(gòu)造出含m次獨立重復(fù)試驗的隨機區(qū)組設(shè)計;再把接受因素A各水平處理或接受因素 A與因素B各組合水平處理的m個受試對象隨機地分配給在第二階段進入試驗的試驗因素C的m個水平,這樣安排試驗因素的方法稱為裂區(qū)設(shè)計或分割設(shè)計。結(jié)合實際問題,當(dāng)試驗研究過程自然形成 2個或多階段(有時稱為工序),各階段涉及的試驗因素彼此不同,但需要等整個試驗過程結(jié)束后,才 能觀測定量指標(biāo)的結(jié)果,就需要用到此設(shè)計。3.10.正交設(shè)計一元定量資料方差分析正交試驗設(shè)計(Orthogo nal exp erime ntal desig n)是研究多因素多水平的精選文檔8又一種設(shè)計方法,它是根據(jù)正交性從全

15、面試驗中挑選出部分有代表性的點 進行試驗,這些有代表性的點具備了 均勻分散,齊整可比”的特點,正交試 驗設(shè)計是分析因式設(shè)計的主要方法。是一種高效率、快速、經(jīng)濟的實驗設(shè) 計方法。正交表是一整套規(guī)則的設(shè)計表格,每個因素的每個水平與另一個因素 各水平各碰一次,這就是正交性。進行 c因素t水平n次試驗的正交表為LJr勺,其中,L為正交表的代號,n為試驗的次數(shù),t為水平數(shù),c為列數(shù),也就是可能安排最多的因素個數(shù)。3.11.重復(fù)測量設(shè)計一元定量資料方差分析重復(fù)測量設(shè)計指將一組或多組被試者先后重復(fù)地施加不同的實驗處理 或在不同場合和時間點被測量至少兩次的情況。重復(fù)測量設(shè)計大體有兩類.一類是對每個人在同一時間

16、不同因子組合 間測量;另外一類是對每個人在不同時間點上重復(fù) .前者常見于裂區(qū)設(shè)計,而后者常見于經(jīng)典試驗設(shè)計即包括前測,處理,一次或幾次后測的情況.后者 比前者要多見。3.12.常見多因素實驗設(shè)計一元定量資料協(xié)方差分析試驗中存在極為重要的非試驗因素,需進行協(xié)方差分析,判斷其對主 要因素的影響。3.13.多個單因素兩水平設(shè)計定量資料 Meta分析Meta分析是指用統(tǒng)計學(xué)方法對收集的多個研究資料進行分析和概括以提供量化的平均效果來回答研究的問題.其優(yōu)點是通過增大樣本含量來增 加結(jié)論的可信度,解決研究結(jié)果的不一致性。meta分析是對同一課題的多項獨立研究的結(jié)果進行系統(tǒng)的、定量的綜合性分析。它是文獻(xiàn)的量

17、化綜述,是以同一課題的多項獨立研究的結(jié)果為 研究對象,在嚴(yán)格設(shè)計的基礎(chǔ)上,運用適當(dāng)?shù)慕y(tǒng)計學(xué)方法對多個研究結(jié)果 進行系統(tǒng)、客觀、定量的綜合分析。精選文檔9基本分析步驟:(1)明確簡潔地提出需要解決的問題。(2)制定檢索策略,全面廣泛地收集隨機對照試驗。確定納入和排除標(biāo)準(zhǔn),易I除不符合要求的文獻(xiàn)。資料選擇和提取。(5)各試驗的質(zhì)量評估和特征描述。(6)統(tǒng)計學(xué)處理。a.異質(zhì)性檢驗(齊性檢驗)。精選文檔10An alysis ofb.統(tǒng)計合并效應(yīng)量(加權(quán)合并,計算效應(yīng)尺度及95%的置信區(qū)間)并進行統(tǒng)計推斷。C.圖示單個試驗的結(jié)果和合并后的結(jié)果。d.敏感性分析。e.通過 失安全數(shù)”的計算或采用 倒漏斗圖

18、”了解潛在的發(fā)表偏倚。(7)結(jié)果解釋、作出結(jié)論及評價。(8)維護和更新資料。4.單因素設(shè)計多元定量資料差異性分析4.1.單因素設(shè)計定量資料多元方差和協(xié)方差分析在某試驗設(shè)計之下,若每次只分析一個或多個定性影響因素對一個定量指標(biāo)的影響,常采用一元方差分析;若每次用參數(shù)法同時分析一個或多 個定性影響因素對兩個或者兩個以上在專業(yè)上有一定聯(lián)系的定量指標(biāo)的影 響時,就稱為多元方差分析(Multivariate An alysis of Varian ce, MANOVA)。做方差分析時,影響因素都是定性的。當(dāng)除了定性的影響因素之外還有定量的影響因素存在(或者不可忽略)時,要分析各影響因素對定量指標(biāo)的 影響

19、,則需要采用另外一種統(tǒng)計學(xué)分析方法,即協(xié)方差分析(Covaria nc才能達(dá)到目的。5.多因素設(shè)計多元定量資料差異性分析5.1.多因素設(shè)計定量資料多元方差分析和協(xié)方差分析對定性結(jié)果進行差異性分析精選文檔111|6.單因素設(shè)計一元定性資料差異性分析6.1.單組設(shè)計一維表資料統(tǒng)計分析groupcou nt197822262配對設(shè)計四格表資料統(tǒng)計分析1.先將實驗對象配對后隨機安排到兩個不同處理組,所得的二分類結(jié)果的資料。2.同一批對象兩個時間點(或兩個部位) 的測定,或同一對象用兩種方法(或兩種儀器、兩名化驗員、兩種條件)的測定,所得的二分類(如陽 性、陰性)結(jié)果的資料。表2-13配對設(shè)計四格表形式

20、frit63配對設(shè)計擴大形式的方表資料統(tǒng)計分析配對設(shè)計擴大形式的方表形式乙甲- +合計-1502320+2191224+1317021+02068合計1824201173精選文檔1264成組設(shè)計橫斷面研究四格表資料統(tǒng)計分析人數(shù)性別通過未通過合計男413273女43851合計8440124該表設(shè)計上屬于結(jié)果變量為二值變量的成組設(shè)計定性資料,列聯(lián)表分類上屬于橫截面研究設(shè)計四格表資料。6.5.成組設(shè)計隊列研究四格表資料統(tǒng)計分析例數(shù)血壓情況患者未患病合計偏好196180正常20465485合計39526565該資料是成組設(shè)計隊列研究四格表資料。隊列研究設(shè)計是通過對不同暴露水平的對象進行追蹤觀察,隨訪觀

21、察疾病發(fā)生情況,從而判斷該因素 與發(fā)病之間有無關(guān)聯(lián)。6.6.成組設(shè)計病例對照研究四格表資料統(tǒng)計分析例數(shù)喂養(yǎng)方式患齲未患齲合計母乳3781118人工或混合6676142合計103157260該表是成組設(shè)計病例對照研究四格表資料。病例對照設(shè)計是以確診的患者作為病例,以不患該病但具有可比性的個體作為對照,收集以往危險 因素的暴露史,用統(tǒng)計學(xué)方法比較兩組中危險因素的暴露比例,從而判斷 因素與疾病之間是否存在統(tǒng)計學(xué)關(guān)聯(lián)。精選文檔136.10. 6.11.單因素多水平設(shè)計雙向無序 RX C表資料統(tǒng)計分析6.12.6.13.單因素多水平設(shè)計雙向有序 RX C表資料統(tǒng)計分析6.7.成組設(shè)計結(jié)果變量為多值有序變

22、量的2X C表資料統(tǒng)計分析6.8.成組設(shè)計結(jié)果變量為多值名義變量的2X C表資料統(tǒng)計分析6.9.單因素多水平設(shè)計無序原因變量RX 2表資料統(tǒng)計分析單因素多水平設(shè)計有序原因變量 RX 2表資料統(tǒng)計分析單因素多水平設(shè)計有序結(jié)果變量 RX C表資料統(tǒng)計分析7.多因素設(shè)計一元定性資料差異性分析7.1.用加權(quán)咒牛僉驗處理結(jié)果變量為二值變量的高維列聯(lián)表資料在三維列聯(lián)表中,通常有兩個原因變量和一個結(jié)果變量,不同的研究 目的決定了選用不同的統(tǒng)計分析方法。對于結(jié)果變量為二值變量的高維列 聯(lián)表,可選用加權(quán)/檢驗、CMH檢驗、多重logistic回歸、對數(shù)線性模型等。若不想用復(fù)雜的對數(shù)線性模型模型或logistic

23、回歸模型來分析三維列聯(lián)表資料,并且資料又不合適采用簡單“合并”方式處理時,就可采用加權(quán)/ 檢驗(消除掉一個原因變量對結(jié)果變量的影響,考察另一個原因變量與結(jié) 果變量之間是否獨立)、CMH=檢驗(消除掉一個原因變量對結(jié)果變量的影 響,計算優(yōu)勢比OR或相對危險度RR并對其進行假設(shè)檢驗)。這兩種檢驗 方法都無法回答被合并掉的那個原因變量對結(jié)果變量的影響作用有多大, 只是對其進行分層計算,即評價另一個原因變量對結(jié)果變量的影響時將其 對結(jié)果變量的影響扣除掉。72用CHMQ檢驗處理結(jié)果變量具有3種性質(zhì)的高維列聯(lián)表資料精選文檔14結(jié)果變量為二值變量的三維列聯(lián)表,可以選用加權(quán) /檢驗,CMX檢 驗、logist

24、ic回歸和對數(shù)線性模型。CMH統(tǒng)計分析(Cochran Mantel HaenszelStatics)是在MH統(tǒng)計分析方法的基礎(chǔ)上發(fā)展并提出來的,現(xiàn)在統(tǒng)稱為擴展的MH卡方統(tǒng)計量,也統(tǒng)稱為 MH檢驗,用于分層分析即控制混雜因素后對二維列聯(lián)表資料的統(tǒng)計處理。結(jié)果變量為多值有序變量的高維列聯(lián)表資料, 可以選用CMH?檢驗(即CMH校正的秩和檢驗)和有序變量logistic回歸分析進行處理。對數(shù)線性模型無法利用資料的有序性,因此不宜選用。若采用有序變量多重logistic回歸分析,應(yīng)注意結(jié)合原因變量是否存在多值名義變量或多值有序變量而決 定對原因變量的賦值方法。結(jié)果變量為多值無序變量的高維列聯(lián)表資料,

25、可以采用CMH,檢驗、擴展的logistic回歸分析和對數(shù)線性模型。注,CMH檢驗包含三種檢驗方法:(1)非零相關(guān)檢驗(適合于原因變量與結(jié)果變量都是多值有序變量) (2)行平均得分檢驗(僅考察原因變量全部水平組之間在結(jié)果上的差 別是否具有統(tǒng)計學(xué)意義,結(jié)果變量必須是多值有序變量)。(3)般關(guān)聯(lián)性檢驗(適合于原因變量和結(jié)果變量都是名義變量)這里所提及的“原因變量”是指在多個原因變量中被保留下來的那個原因 變量。73用Meta分析分別合并處理多個成組設(shè)計定性資料 74 ROC方法分析診斷試驗資料8.多因素設(shè)計一元定性資料對數(shù)線性模型分析精選文檔158.1.用對數(shù)線性模型分析列聯(lián)表資料對數(shù)線性模型是分

26、析高維列聯(lián)表行之有效的方法,最先由Yule Bartlett利用Yule( 1900年)定義的交叉乘積比分析三維交互作用,然后由Kullback(1968年)引入方差分析的思想發(fā)展而來。對數(shù)線性模型把各分組變量(包括自變量和因變量)水平組合下期望(理論頻數(shù))的自然對數(shù)表示為各組變量及其交互作用的線性函數(shù),通過 迭代計算求得模型中參數(shù)的估計值,進而運用方差分析的思想檢驗各主效 應(yīng)和交互作用的效應(yīng)大小。對定量結(jié)果進行預(yù)測性分析9.兩變量簡單線性回歸分析9.1. Pearson線性相關(guān)分析當(dāng)兩個變量取值之間出現(xiàn)一個增大,另一個也增大(或減小)的情況時,則稱這種現(xiàn)象為共變,也就是說這兩個變量之間有“相

27、關(guān)關(guān)系”。簡單 線性相關(guān)關(guān)系是描述兩定量變量間是否含有直線關(guān)系以及直線關(guān)系的方向 和密切程度的分析方法。此分析方法主要通過計算相關(guān)系數(shù)的大小并對其 進行假設(shè)檢驗以及結(jié)合專業(yè)知識來評價得到的相關(guān)系數(shù)是否有實際意義來 完成。前提條件:兩變量需滿足正態(tài)分布。92 Spearman秩相關(guān)分析在做P ears on相關(guān)分析時,要求兩變量服從正態(tài)分布,然而當(dāng)?shù)玫降脑紨?shù)據(jù)并不服從正態(tài)分布或其總體分布未知,有時3數(shù)據(jù)中還存在所謂“超限值”(如限于儀器的靈敏度,僅知道血樣某物質(zhì)濃度小于0.001ug/ml),甚至數(shù)據(jù)本身就是等級材料。此時,宜采用等級相關(guān)或稱秩相關(guān)來分析兩 精選文檔16變量的線性聯(lián)系程度與方向

28、。這類方法是利用兩變量的秩次大小做線性相 關(guān)分析,對原變量分布不做要求,屬非參數(shù)統(tǒng)計分析方法。93簡單線性回歸分析簡單線性回歸分析是用直線回歸方程表示兩個定量變量間依存關(guān)系的 統(tǒng)計分析方法。此分析方法主要由三部分組成:(1)計算反映兩定量變量依賴關(guān)系的直線回歸方程,即計算直線回歸方程的截距a、斜率b。(2)根據(jù)樣本截距a、斜率b,檢驗樣本所抽自的總體截距a是否為0、總體斜率P是否為0。(3)結(jié)合專業(yè)知識,評價此直線回歸方程是否有實用價值。前提條件: 線性(linear):即X和丫之間的關(guān)系為線性關(guān)系; 獨立(indepen de nt):即n個個體的觀察資料間必須是獨立的; 正態(tài)(normal

29、):即給定X后,丫為正態(tài)分布,且丫的均數(shù)就是回歸線 上對應(yīng)于X值的點; 等方差(equal varianee):即不同X值對應(yīng)的丫的分布具有相同的方差,換句話說丫的方差與X無關(guān)。94加權(quán)線性回歸分析此方法未弄明白。10.兩變量可直線化曲線回歸分析精選文檔17直線化結(jié)果:10.1.對數(shù)函數(shù)、幕函數(shù)和雙曲函數(shù)曲線回歸分析1.對數(shù)函數(shù)對數(shù)函數(shù):y = a + b * IgM 變化方法:龍=IgCO精選文檔18雙曲線函數(shù)::(a0)3C變換方法:y2.幕函數(shù)直線化結(jié)果:y y = Ina + b * T3.雙曲線函數(shù)直線化結(jié)果:10.2.指數(shù)函數(shù)曲線回歸分析指數(shù)函數(shù):y = 3丹變換方法:/ = ig

30、y直線化結(jié)果:y =liia + b*x幕函數(shù):y = ax 變換方法:y=fny, X X = = hnchnct=*l11 h扁1 U 一J-X Xbl 1/ b=l/ z一Z精選文檔1911.各種復(fù)雜曲線回歸分析11.1.多項式曲線回歸分析y =Logistic 曲線:變換方法:f = In yy;L)y y = Ina-h b * x直線化結(jié)果:的可能曲線形式有:精選文檔20精選文檔2111.3.Gompertz曲線回顧分析IJJGompertz曲線方程:y = LE一口存,L為上漸近線。三項式y(tǒng)=ny=n+附x+廠辜+f產(chǎn)J精選文檔22-ax114二項型指數(shù)曲線回歸分析二項式指數(shù)曲線

31、:y = A* -5 + IB* 丁片 11.5.三項型指數(shù)曲線回歸分析三項式指數(shù)曲線:y =卄+ i*蝕+ M *宀12.多重線性回歸分析多重線性回歸是指因變量為一個、自變量為多個的線性回歸分析。前提條件:1、自變量與因變量之間存在線性關(guān)系;2、各觀測間相互獨立;3、殘差服從正太分布;4、方差齊性。需要注意的是,在回歸方程中,不能直接根據(jù)各自變量回歸系數(shù)絕對 值的大小來評價該自變量的作用大小,因為自變量的單位不盡相同,回歸 系數(shù)的大小要收到單位的影響。如果要比較各自變量的作用大小,應(yīng)消除自變量單位的影響,這就需要求標(biāo)準(zhǔn)化的回歸系數(shù)。標(biāo)準(zhǔn)化回歸系數(shù)沒有 量綱,統(tǒng)計學(xué)上常用它的絕對值大小來衡量自

32、變量對因變量影響的相對重 要性,標(biāo)準(zhǔn)化回歸系數(shù)的絕對值越大,說明該自變量對隱變量的作用越大。精選文檔2313.主成分回歸分析主成分回歸分析是將多個彼此相關(guān)、信息重疊的指標(biāo)通過適當(dāng)?shù)木€性組合,使之成為彼此獨立而又提取了原指標(biāo)變異信息并帶有特定專業(yè)含義 的綜合潛變量,即主成分,建立潛變量和因變量間的線性回歸方程,再將 回歸方程中的潛變量轉(zhuǎn)換為原自變量的一種統(tǒng)計學(xué)方法。多重線性回歸分 析和主成分回歸分析都是用于分析單因素設(shè)計多元定量資料的統(tǒng)計學(xué)方 法。基本步驟:(1)進行多重線性回歸分析,并進行共線性診斷;(2)如果自變量之間存在共線性,則可選擇進行主成分分析,以解決由于共線性的影響,造成回歸結(jié)果不

33、合理或無法解釋的問題。(3)用主成分分析求自變量的主成分和主成分得分,將貢獻(xiàn)率小的主成分舍棄。(4)將因變量對保留的主成分得分進行回歸分析。(5)將主成分的表達(dá)式回代,最后得到因變量與原始變量的回歸模型,并給予專業(yè)解釋。14.嶺回歸分析用REG過程進行多重線性回歸分析,在進行參數(shù)估計時常用最小二乘法。該方法在數(shù)據(jù)滿足 GM (Gauss-MarkoV定理時,保證了在線性無偏估 計類中的方差最小。如果進一步假設(shè)誤差服從正態(tài)分布,那么最小二乘法 還具有更多更好的性質(zhì)。但是,在實際應(yīng)用中,許多應(yīng)用實踐證明,有些 情況在運用最小二乘法時并不是很理想,在個別情況下可能不是很好。自20實際50年代特別是6

34、0年代以來,許多統(tǒng)計學(xué)家做了很多努力,試圖改進最小二乘法估計。Stein于1955年證明了:當(dāng)維數(shù)大于2時,能夠找到另 外一個估計,它在某種意義下一致優(yōu)于最小二乘法估計。據(jù)此,在后來的 精選文檔24發(fā)展中,統(tǒng)計學(xué)家提出了許多新的估計方法,主要有嶺估計、主成分估計 以及特征根估計等。這些估計的一個共同特點是有偏性。單組設(shè)計多元定量資料,可能的分析方法有多重共線性回歸分析、響 應(yīng)曲面回歸分析、嶺回歸分析、病態(tài)數(shù)據(jù)回歸分析等。哪一種方法最好或 者比較好呢?正確的分析方案將是:分別用不同的回歸分析方法對此資料 進行分析,然后對不同回歸分析方法得出的結(jié)果進行比較,哪一種方法得 到的結(jié)果最符合專業(yè)實際,也

35、就是最好或者比較好的方法。當(dāng)然也有可能 用現(xiàn)有的各種方法所得到的結(jié)果不具有推廣應(yīng)用的價值,如果是這樣,則 需要尋找別的方法。15.Poisson回歸分析Poisson回歸屬于廣義線性模型,專門適用于響應(yīng)變量是計數(shù)資料的情形,可以定量地分析多個響應(yīng)因素與計數(shù)的響應(yīng)變量之間的關(guān)系。Poisson分布是由法國數(shù)學(xué)家S.D.Possion作為二項分布的近似而引入的,常用于描述單位時間、平面或空間中罕見“質(zhì)點”數(shù)的隨機分布規(guī)律。Poisson回歸是基于Poisson分布,用于單位時間、單位面積或單位空間內(nèi)某時間發(fā)生數(shù)(事件的發(fā)生服從Poisson分布)的響應(yīng)因素分析的一種方法。前提條件:要求事件的發(fā)生是

36、獨立的。小結(jié):Poisson回歸用于描述結(jié)果變量服從 Poisson分布的資料。Poisson回歸模型與logistic回歸模型均屬于廣義線性模型,在建模的過程中除了連接函 數(shù)不同外,主要的不同之處在于數(shù)據(jù)服從何種分布,適合于用何種方法建 模。Poisson回歸一般用于單位時間、單位面積、單位空間內(nèi)某時間發(fā)生數(shù)的影響因素的探討,時間的發(fā)生服從Po isso n分布。當(dāng)結(jié)果變量是二分類或多分類時,應(yīng)根據(jù)數(shù)據(jù)的分布情況看數(shù)據(jù)是滿足Poisson分布還是可通過 logit變化進行l(wèi)ogistic回歸分析。精選文檔2516.負(fù)二項回歸與Probit回歸分析Poisson回歸分析是以計數(shù)資料為響應(yīng)變量的

37、標(biāo)準(zhǔn)回歸模型。但是在Poisso n回歸分析中要求均數(shù)和方差相等,實際數(shù)據(jù)往往并不符合這一假定,方差有時會大于均數(shù),也就是所謂的過離散(Overdispersion),這將導(dǎo)致模型參數(shù)估計值的標(biāo)準(zhǔn)誤差偏小,參數(shù)wald檢驗的假陽性率增加。這種情況的出現(xiàn)可能是由于觀測之間不獨立導(dǎo)致的;而在醫(yī)學(xué)研究中,很多事件的 發(fā)生是非獨立的。對于這類資料,可以采用負(fù)二項回歸分析。過離散在理 解負(fù)二項回歸分析中居于中心地位,負(fù)二項回歸的每一個應(yīng)用幾乎都與Poisson回歸中發(fā)現(xiàn)過離散有關(guān)。統(tǒng)計學(xué)分析的目的都是建立觀測個體產(chǎn)生某種響應(yīng)的概率與各自變量水平的關(guān)系,以便通過某觀測個體各自變量的水平取值來預(yù)測其產(chǎn)生某種

38、影響的概率。這可以通過logistic回歸分析來間接實現(xiàn),也可以通過Probit回歸分析來直接實現(xiàn)。Probit回歸分析與logistic回歸分析的最大不同點在于:Probit回歸分析中的響應(yīng)變量不再是二值變量(取值為0或1,如是否罹患心臟病),而是0-1之間的百分比變量。17.生存資料COX模型回歸分析目前,對生存資料的多因素分析最常用的方法是 COX比例風(fēng)險回歸模型(Proportional Hazards Regression Modl,簡稱 COX模型。該模型是一種多因素的生存分析法,它可同時分析眾多因素對生存期的影響,分析帶結(jié) 尾生存時間的資料,并且不要求估計資料的生存分布類型。CO

39、X模型屬比例風(fēng)險模型簇,其基本假定之一是比例風(fēng)險假定(簡稱PH假定)。只有在滿足該假定前提條件下,基于此模型的分析預(yù)測才是可靠精選文檔26有效的。正像我們所熟知的t檢驗中的正態(tài)分布假定一樣,當(dāng)使用比例風(fēng)險 模型時,比例風(fēng)險假定應(yīng)看成一個基本前提。檢查某斜變量是否滿足PH假定,最簡單的方法是觀察按該變量分組的Kaplan-Meier生存曲線。若生存曲線交叉,則提示不滿足PH假定。第2種方法是繪制按該變量分布的InC-lnSCt)對生存時間t的圖,曲線應(yīng)大致平行 或等距。如各斜變量均滿足或近似滿足 PH假定,可直接應(yīng)用基本COX模型。18.生存資料參數(shù)模型回歸分析生存資料參數(shù)模型回歸分析的一個重要

40、內(nèi)容是擬合或分布擬合。描述精選文檔27指數(shù)分布weibull 分布gamma分布對數(shù)正態(tài)分布對數(shù)logistic 分布廣義gamm分布fCCfCCS(t)h(t)AeKp(At)exp(At)A脫E EOoqOoq1 ilfAt, r)fW哪-壬巴丹1 1IntInt ii1 1 一帆,fCtF何11 +陽嚴(yán)1+(盤廣1+(盤卩r r何生存時間分布的模型通常有指數(shù)分布、 Weibull分布、對數(shù)正態(tài)分布、Gamma分布等。常見生存時間分布的概率密度函數(shù)f(t)、生存函數(shù)S(t)和風(fēng)險函數(shù) h(t)如下表。實際對生存數(shù)據(jù)作分布擬合時,可用上述模型分別進行擬合,根據(jù)擬合優(yōu)度檢驗的結(jié)果選擇適當(dāng)?shù)哪P?/p>

41、。有時,對于一批生存數(shù)據(jù),事 先不知道生存時間分布的總體趨勢,也不好判斷用什么樣的模型最合適, 許多研究者一般直接采用非參數(shù)方法或半?yún)?shù)法。但是如果一批數(shù)據(jù)確實 符合某特定的參數(shù)模型,由于非參數(shù)方法的精度一般低于參數(shù)方法,因此, 按照非參數(shù)方法進行的分析就不能有效地利用和闡述樣本數(shù)據(jù)所包含的信 息,同時它對樣本量的要求也高于參數(shù)方法。常見生存時間分布的概率密度函數(shù)f(t)、生存函數(shù)S(t)和風(fēng)險函數(shù)h(t)19.時間序列分析按某種(相等或不想等)的時間間隔對客觀事物進行動態(tài)觀察,由于 隨機因素的影響,各次觀察的指標(biāo)x1,x2,x3,xi都是隨機變量,這種按時 間順序排列的隨機變量的一組實測值稱

42、為時間序列。時間序列中每一時期的數(shù)值,都是由許多不同的因素共同作用的結(jié)果,精選文檔28SSE、而這些因素往往交織在一起,這樣就增加了分析時間序列的困難。因此, 時間序列分析通常對各種可能發(fā)生作用的因素進行分類,如長期趨勢、季 節(jié)變動、循環(huán)變動和不規(guī)則變動。時間序列分析的目的是利用所擬合的模型對某研究領(lǐng)域的動態(tài)數(shù)據(jù)的 未來狀況進行預(yù)測。時間序列分析大致包括三方面的內(nèi)容:(1)選擇模型并進行參數(shù)估計;(2)模型的適用性檢驗;(3)預(yù)測預(yù)報。19.1.指數(shù)平滑法指數(shù)平滑(Exponential Smoothing)是由 Brown 等(Brown 和 Meyers于1961年;Brown于1972年

43、)發(fā)展起來的計算模式,它擬合一種使用平 滑方案的時間趨勢模型。通式是 =血上4(1 一3-1,式中3為第t期平 滑值(t0), a為平滑系數(shù)(取值范圍0a1),叫為第t期實際觀測值,系數(shù)a和(1-a)都是表示權(quán)重。在此方案中,權(quán)重大小隨著時間的向后推移 而呈現(xiàn)幾何級數(shù)下降。所以對于事物未來發(fā)展的回評,新近的觀測值比早 期的觀測值的預(yù)測價值更大,所以在預(yù)測時,新近觀測值應(yīng)比早期觀測值 具有更大權(quán)重。作為一種預(yù)測方法,指數(shù)平滑預(yù)測效果的好壞取決于對這個序列選擇一個怎樣的平滑系數(shù)a。a值為0-1。一般來說,平滑系數(shù)a的取值大小應(yīng)當(dāng)視預(yù)測對象的特點及預(yù)測周期的長短而定。a取值偏低時,預(yù)測結(jié)果主要取決于

44、歷史情形,不能及時跟蹤數(shù)據(jù)新的變化趨勢;a取值偏高 時,預(yù)測模型具有較高的靈敏度,能夠迅速跟蹤新數(shù)據(jù)的變化,但對歷史數(shù)據(jù)的信息利用較少。在實際應(yīng)用中,通常采用多個水平的a值進行試算比較,選擇其中的最優(yōu)值做為平滑系數(shù),原則是使預(yù)測誤差平方和( 平均平方誤差(MSE或平均絕對誤差(MAE)最小。在根據(jù)上述原則進行 優(yōu)選后,還應(yīng)該對根據(jù)預(yù)測結(jié)果所得到的參數(shù)的合理性進行檢驗。192 ARIMA 模型精選文檔29193譜分析應(yīng)用時間序列分析的目的是進行預(yù)測和控制。時域分析是,通過建立 時間序列模型對時間數(shù)據(jù)樣本進行預(yù)測和估計,展現(xiàn)數(shù)據(jù)內(nèi)在的特性。頻 域數(shù)據(jù)則是從頻率角度展現(xiàn)時間序列數(shù)據(jù)的特點和規(guī)律,其中

45、最主要的任 務(wù)是通過譜分析來獲得時間數(shù)據(jù)的周期性特點,這一特點對于了解數(shù)據(jù)變 化的規(guī)律來說是一個關(guān)鍵點。時間序列研究對數(shù)據(jù)的要求是比較高的。最關(guān)鍵的是,數(shù)據(jù)必須是平 穩(wěn)序列。首先要進行時間序列分析,對序列的長度是有要求的,長度不能太短,應(yīng)該是大樣本;但是也不能太長,至少是周期的2倍以上。當(dāng)然,時間序列的頻域研究同樣也要求測量的時間間隔為等間隔。另外,若欲表 達(dá)時間序列中周期值為T的信息成分,則采樣間隔不能大于 T/2,該采樣定 理就是Nyquist采樣定理。在進行譜分析之間要先進行數(shù)據(jù)的去趨勢化,可以通過回歸過程求剩余殘差實現(xiàn),也可以通過選項ADJMEAN來實現(xiàn)。SAS軟件的SPECTRAi程

46、中是不允許缺失數(shù)據(jù)出現(xiàn)的,缺失數(shù)據(jù)將無法參與分 析,被自動排除于分析之外。如果分析變量中出現(xiàn)缺失值時,程序自作主 張將變量中沒有缺失值的最長的連續(xù)數(shù)據(jù)部分作為分析變量。在分析要注 意檢查缺失數(shù)據(jù),也可以通過補充缺失數(shù)據(jù)來實現(xiàn)。194 X12方法X12過程是根據(jù)美國人口普查局 X-12-ARIMA季節(jié)調(diào)整程序改編的,用于調(diào)整月度或季度時間序列數(shù)據(jù)。該過程包含了X-11過程、X-11-ARIMA/88模型以及一些新的特征。X12過程較X11的一個主要提高是應(yīng)用regARIMA模型 -帶有 ARIMA(Autoregressivelntegrated Moving Average誤差的回歸模型,利用

47、該模型進行移動假日、月份長度、交易日效應(yīng)等固定效應(yīng)的調(diào) 整。X-12-ARIMA模型包含了美國人口統(tǒng)計局和加拿大統(tǒng)計局開發(fā)的季節(jié)調(diào) 整模型的主要特征。對序列進行季節(jié)調(diào)整是基于這樣的假定:季節(jié)性波動可以由原始序列(Qt, t=1,,n)中測得,并能與趨勢起伏、交易日及不規(guī)則波動分離開:精選文檔30這一時間序列的季節(jié)成分(St)定義為年內(nèi)的變動,從一年到一年之間恒定 地取值或緩慢地變化;趨勢起伏項(Ct)包含由長期趨勢,經(jīng)濟起伏及其他 長期起伏因素引起的變化;交易日成分(Dt)是由歷史交易日位置變化引 起的;不規(guī)則成分(It)是殘余的變化量。對定性結(jié)果進行預(yù)測性分析精選文檔3120.非配對設(shè)計定性

48、資料多重logistic回歸分析20.1.二值變量的多重logistic回歸分析20.2.多值有序變量的多重logistic回歸分析20.3.多值名義變量的多重logistic回歸分析在生物醫(yī)學(xué)研究中最常見的問題之一是探索各種影響因素(自變量X)與疾病或健康(響應(yīng)變量Y)之間的關(guān)系。在許多情況下,疾病和健康狀況 屬于分類變量,包括二值變量、多值有序變量和多值名義變量。當(dāng)響應(yīng)變 量為分類變量時,就不適合使用線性回歸進行分析,這時可以考慮采用多 重logistic回歸。按照因變量的類型可以將logistic回歸分為三類:因變量為二值變量的logistic回歸;因變量為多值有序變量的logistic

49、回歸,稱為累積logistic回歸模型或序次logistic回歸模型;因變量為多值名義變量的logistic回歸,稱為 多項logit模型。按照設(shè)計類型可以將logistic回歸模型分為非條件logistic 回歸和條件logistic回歸,其中非條件logistic回歸就是指一般的logistic模型,適用于成組設(shè)計資料;條件logistic回歸則是針對配對設(shè)計資料。21.配對設(shè)計定性資料多重logistic回歸分析配對設(shè)計能夠改善兩組研究對象的齊同性,提高研究效率。配對的因 素一般是年齡、行唄等重要的混雜因素。最常見的配對形式是每個匹配組 中有一個病例和若干個對照,稱為1: m配對設(shè)計;當(dāng)

50、然,不同匹配組中病例和對照的人數(shù)也可以是任意的,也就是說不同匹配中病例數(shù)與對照數(shù)的比例可以不相等,稱為m: n配對設(shè)計。討論此類問題時,因關(guān)心的是在某一給定的條件下某事件發(fā)生的概率,這一概率稱為條件概率,故將此類logistic回歸稱為條件logistic回歸,將非配對設(shè)計資料的logistic回歸稱為非條件logistic回歸。精選文檔3221.1.1:1配對設(shè)計定性資料的多重logistic回歸分析21.2.m: n配對設(shè)計定性資料的多重logistic回歸分析22.原因變量為定量變量的判別分析根據(jù)明確分類的受試對象(或樣品)的多個定量指標(biāo)的取值建立一個或多個關(guān)系式(判別函數(shù)式,通常具有一

51、定程度的出錯概率),再根據(jù)某種 或某些規(guī)則,基于已建立的判別函數(shù)式實現(xiàn)對歸屬尚不明確的哪些新個體 的分類或判別,這樣一種研究方法被稱為判別分析。很顯然,判別分析中 的結(jié)果變量為分類變量(二分類變量或多分類變量)。小結(jié):適于處理定量資料的判別分析方法比較多,其中又分為參數(shù)法和非參 數(shù)法。參數(shù)法通常要求定量資料服從多元正態(tài)分布,最好類與類之間方差和 協(xié)方差矩陣相等。但是,SAS軟件中并沒有提供檢驗定量資料是否服從多元 正態(tài)分布的方法,故只能假定該條件滿足。在多元正態(tài)分布的假定成立的 前提下,若方差和協(xié)方差矩陣相等,則將各類資料合并求方差和協(xié)方差矩 陣,進而計算線性判別函數(shù)的系數(shù);否則,采用各類資料

52、的方差和協(xié)方差 矩陣計算二次型判別函數(shù)的系數(shù)。有時,非參數(shù)判別法的效果很好,它可以通過改變其待定系數(shù)的值,來獲得比較滿意的判別結(jié)果。例如,可以改變K最近鄰判別法中的K值或改變核密度判別法中的兩個選項,即改變 R值或和核密度的形式(共有正態(tài)核密度、均勻核密度等5中選項)。在采用參數(shù)法和非參數(shù)法對定量資料進行判別分析之前,最好采用逐 步判別分析方法進行變量篩選,以便淘汰掉無區(qū)分能力的定量變量,有利 于提供判別的效果。而且,對于原因變量為定量變量的判別分析,宜先采 用逐步判別分析法篩選變量,再對保留下來的定量變量采用參數(shù)法和非參 數(shù)法進行判別分析,并盡可能將可變系數(shù)或選項取遍各種可能的情況,從 中選

53、擇從中選擇使交叉驗證的誤判率最低的方法。SAS中的典型判別分析并太常用,因為它沒有提供回代判別和交叉驗證精選文檔33的結(jié)果,只能借用FREC過程間接實現(xiàn)回代判別。另外,盡量不要采用多重logistic回歸分析來間接實現(xiàn)判別分析,因為常得不到方程中參數(shù)的最大似然估計值,有時即便得到了參數(shù)估計值,也只能用FREC過程得到回代判別 結(jié)果,沒有交叉驗證結(jié)果,而且一般情況下誤判率比較高;雖然用二值線 性回歸分析間接實現(xiàn)判別分析比較簡單,但其誤判率一般也比較高,并且 只能用FREQ過程間接實現(xiàn)回代判別。23.原因變量為定性變量的判別分析結(jié)果變量是定性的,原因變量也是定性的,對這類資料進行判別分析 時,所用

54、的方法叫做原因變量為定性變量的判別分析。適于處理這種資料 的判別分析方法很少,一般只有最大似然判別法和貝葉斯公式判別法。24.決策樹分析 25.神經(jīng)網(wǎng)絡(luò)分析多變量間相互與依賴關(guān)系分析26.主成分分析主成分分析 (principal components analysiS,它是將多個變量(或指標(biāo))化為少數(shù)幾個互不相關(guān)的綜合變量(指標(biāo))的統(tǒng)計分析方法。主成分實際 上就是由原變量屁線性組合出來的m個互不相關(guān)且未丟失任何信息的 新變量,也稱為綜合變量。多指標(biāo)的主成分常被用來需找判斷某種十五或 現(xiàn)象的綜合指標(biāo),并給綜合指標(biāo)所蘊藏的信息以恰當(dāng)解釋,以便更深刻地 揭示事物內(nèi)在的規(guī)律。對于單組設(shè)計多元定量資料

55、,根據(jù)不同的研究目的,可有多種不同的 統(tǒng)計統(tǒng)計分析方法供選用。目的一:希望以互不相關(guān)的較少的綜合指標(biāo)(這些綜合指標(biāo)是不能直 接測量的)來反映原始指標(biāo)所提供的大部分信息時,即希望找出“幕后” 操縱原變量取值規(guī)律的隱變量時,可選用主成分分析。目的二:希望用較少的互相獨立的公共因子反映原有變量的絕大部分 信息,即希望以最少的信息丟失將眾多原有變量濃縮成少數(shù)幾個具有一定 精選文檔34命名解釋性的公共因子,可選用探索性因子分析。主成分分析是將主成分表示為原始變量的線性組合,而因子分析是將 原始變量表示為公共因子和特殊因子的線性組合。探索性因子分析比主成分分析更強調(diào)隱變量的實際意義,并且由于因子分析允許特

56、殊因子的存在 將得到較主成分分析更為精確的結(jié)果。一般而言,僅想把現(xiàn)有變量縮減為 少數(shù)幾個新變量而從進行后續(xù)的分析,采用主成分分析即可。小結(jié):1、主成分是原變量的線性組合,是對原變量信息的一種提取,主成分不增加總信息量,也不減少總信息量,只是對原信息進行了重新分配。當(dāng)變量之間的相關(guān)性較小時,應(yīng)用主成分分析是沒有意義的。2、主成分個數(shù)的確定依賴于主成分的貢獻(xiàn)大小。3、主成分分析本身往往并不是目的,而是達(dá)到目的的一種手段;可用于多重回歸分析,主要解決自變量間的共線性問題;可用于因子分析、聚 類分析、判別分析等,主要目的是減少變量個數(shù)(統(tǒng)計上成為降維)等。27.探索性因子分析因子分析最早由Charle

57、s Spearman在 1904年提出,其基本思想是通過對原始變量(或樣品)的相關(guān)系數(shù)矩陣(對樣品而言)內(nèi)部結(jié)構(gòu)的研究, 找出能控制所有變量(或樣品)的少數(shù)幾個隨機變量去描述多個變量(或 樣品)之間的相關(guān)(相似)關(guān)系。但這幾個隨機變量是不可觀測的,通常 稱為公共因子。然后根據(jù)相關(guān)性(或相似性)的大小把變量(或樣品)分 組,使得同組內(nèi)的變量(或樣品)之間的相關(guān)性(或相似性)較高,而不 同組的變量相關(guān)性(或相似性)較低。由于各變量存在一定的相關(guān)關(guān)系, 因此,有可能用較少的不相關(guān)的公共因子來綜合存在于變量中的各類信息。同時,提取出的公共因子保持了相互獨立的良好特性,有效地克服了變量間可能存在的多重共

58、線性問題。從全部計算過程來看,對同一批觀測數(shù)據(jù), R型因子分析和Q型因子精選文檔35分析是一樣的,只不過出發(fā)點不同,R型從相關(guān)系數(shù)矩陣出發(fā),Q型從相似 系數(shù)矩陣出發(fā)。小結(jié):1、因子分析是用較少的互相獨立的公共因子反映原有變量的絕大部分信息的多元統(tǒng)計分析方法,即研究如何以最少的信息丟失將眾多原有變量 濃縮成少數(shù)幾個具有一定命名解釋性的公共因子。2、因子載荷a訂是第i個變量兀與第j個公共因子斤的相關(guān)系數(shù),即表示尤f依賴另的份量(比重)。變量無的共同度定義為因子載荷陣 A中第i行元素的平方和。公共因子的方差貢獻(xiàn)定義為載荷陣 A中第j列元素的平方和。對因子載荷矩陣A的估計方法很多,有主成分法、極大似然

59、法、主因子法等。3、因子分析的目的之一就是要對所提取的抽象公共因子的實際含義進行合理解釋,即對公共因子進行命名。在實際工作中,從直接根據(jù)特征根、 特征向量求得的因子載荷陣難以看出公共因子的含義。為了更好地解釋每 個初始公共因子的實際意義,根據(jù)因子載荷陣的不唯一性,通常還要進行 因子旋轉(zhuǎn)。4、因子得分是因子分析的最終體現(xiàn)。當(dāng)因子載荷陣確定以后,對每一個樣品而言,希望得到它在不同公共因子上的具體數(shù)值。這些數(shù)值稱為每 個樣品的因子得分。計算出因子得分以后,就可以用因子得分來代替原始 變量的取值,從而達(dá)到降維的效果。28.路徑分析面對“單組設(shè)計多元定量資料”這樣數(shù)據(jù)結(jié)構(gòu)的資料,如何選擇統(tǒng)計 分析方法不

60、能一概而論。一要看有無附加信息,二要看附加信息的多少, 三要看分析目的。1、沒有任何附件信息。此時,意味著全部定量資料之間沒有自變量與因變量之分,事先對那些無法觀測但卻又有一定影響的“隱變量”不做任 何明確的限定,僅就給定的那些定量變量及其取值,研究它們之間的相互 精選文檔36和依賴關(guān)系,即使涉及某些“隱變量”,他們也僅僅是全部顯變量(可觀測 變量)的線性組合而已。可選擇的統(tǒng)計分析方法有變量聚類分析、樣品聚 類分析(注意,基于相關(guān)矩陣的數(shù)據(jù)結(jié)構(gòu)無法實現(xiàn)樣品聚類分析的計算) 主成分分析、探索性因子分析、定量資料對應(yīng)分析、多維尺度分析,但它 們所能達(dá)到的分析目的是不盡相同的。2、僅有少量附加信息且

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論