




版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
第七講相關分析——雙變量關系之描述一、基本概念與原理變量之間的關系:函數關系和統計關系
比如,家庭收入和支出、一個人所受教育程度與其收入、子女身高和父母身高等,…一、基本概念與原理相關分析:衡量事物之間或稱變量之間線性相關程度的強弱,并用適當的統計指標表示出來的過程。相關系數:衡量變量之間相關程度的一個量值。相關關系正相關、負相關與零相關強相關、中度相關與弱相關線性相關與非線性相關相關系數相關系數r的數值范圍是在一1到十1之間。相關系數r的正負號表示變化方向。“+”號表示變化方向一致,即正相關;“-”號表示變化方向相反,即負相關。r的絕對值表示變量之間的密切程度(即強度)。絕對值越接近1,表示兩個變量之間關系越密切;越接近0,表示兩個變量之間關系越不密切。相關系數相關系數的值,僅僅是一個比值。它不是由相等單位度量而來(即不等距),也不是百分比,因此,不能直接作加、減、乘、除運算。相關系數只能描述兩個變量之間的變化方向及密切程度,并不能揭示兩者之間的內在本質聯系,即存在相關的兩個變量,不一定存在因果關系。散點圖基本原理(以積差相關為例)若>0,則x與y之間為正相關;若<0,則x與y之間為負相關;若→0,則x與y之間無相關關系。
二、相關分析方法連續變量的相關分析等級變量的相關分析質量相關分析品質相關分析偏相關分析距離相關分析連續變量的相關分析連續變量即數據變量,它的取值之間可以比較大小,可以用加減法計算出差異的大小。如“年齡”、“收入”、“成績”等變量。當兩個變量都是正態連續變量,而且兩者之間呈線性關系時,表示這兩個變量之間的相關稱為積差相關。通常用Pearson相關系數來衡量。連續變量的相關分析Pearson相關系數的計算公式積差相關的使用條件兩個變量都是由測量獲得的連續性數據;兩個變量的總體都是呈正態分布,或接近正態分布,至少是單峰的對稱分布。必須是成對數據,而且每對數據之間必須是相互獨立。兩個變量之間呈線性關系。要排除共變因素的影響。樣本容量要大于等于30,計算出的積差相關系數才具有有效意義。積差相關系數的顯著性檢驗ρ=0統計假設H0:ρ=0;H1:ρ≠0統計量T統計量服從n-2個自由度的t分布。積差相關系數的顯著性檢驗ρ≠0ρ≠0時r的樣本分布不是正態,這時需要將r與ρ都轉換成費舍。的分布可以認為是正態,其平均數,標準誤這樣就可以進行Z檢驗了。統計量如表所示,10個學生初一數學分數與初二數學分數的相關系數為0.87,問從總體上來說,初一與初二數學分數是否存在相關?序號12345678910總和X74717268767367706574710Y76757170767965776272723檢驗的步驟提出假設計算檢驗統計量統計決斷所以,從總體上說,初一數學分數與初二數學分數存在正相關。例如:29個學生幾何期中與期末考試成績的相關系數r=0.30,問全年級幾何期中與期末考試成績的相關系數是否為0.64?提出假設等距轉換選擇檢驗統計量并計算其值統計決斷即全年級幾何期中與期末考試成績之間的相關系數極少可能是0.64。等級變量的相關分析是指以等級次序排列或以等級次序表示的變量之間的相關。當測量得到的數據不是等距或等比數據,而是具有等級順序的數據;或者得到的數據是等距或等比數據,但其所來自的總體分布不是正態的,不滿足求積差相關的要求。這時就要運用等級相關系數。它主要包括斯皮爾曼(spearman)二列等級相關及肯德爾和諧系數多列等級相關.斯皮爾曼二列等級相關當兩個變量值以等級次序排列或以等級次序表示時,兩個相應總體并不一定呈正態分布,樣本容量也不一定大于30,表示這兩變量之間的相關,稱為Spearman等級相關。例:10名高三學生學習潛在能力測驗與自學能力測驗成績如下表所示,問兩者相關情況如何?學生序號學習潛在能力自學能力等級差數差數平方X等級Y等級123456789109084767171716968666412355578910325786871092135.57.547.55.5109-110-0.5-2.51-0.52.5-111100.256.2510.256.2511總和18等級相關系數的顯著性檢驗與積差相關系數檢驗的方法相同10個學生學習潛在能力與自學能力測驗成績相關系數為0.891,問從總體上說,兩者是否存在相關?檢驗的步驟提出假設計算檢驗統計量的值統計決斷所以學生的學習潛在能力與自學能力之間存在著較高的正相關。肯德爾和諧系數(Kendall’stau-b)當多個(兩個以上)變量值以等級次序排列或以等級次序表示,描述這幾個變量之間的一致性程度的量,稱為肯德爾和諧系數。它常用來表示幾個評定者對同一組學生成績用等級先后評定多次之間的一致性程度。無相同等級的情況當同一位評定者對所有被評事物的評定無相同等級時,其肯德爾和諧系數的計算公式為:例:4位教師對6個學生作文競賽的名次排列次序如表第(2)列所示,問評定的一致性程度如何?
有相同等級的情況當同一位評定者對所有被評事物的評定有相同等級時,其肯德爾和諧系數的計算公式為:同一位教師對5份研究生入學考試政治試卷根據標準先后3次等級評定結果如下表所示,問3次評定結果的相關程度如何?質量相關分析質量相關是指一個變量為質,另一個變量為量,這兩個變量之間的相關。如智商、學科分數、身高、體重等是表現為量的變量,男與女、優與劣、及格與不及格等是表現為質的變量。質與量的相關主要包括二列相關、點二列相關、多系列相關。二列相關當兩個變量都是正態連續變量.其中一個變量被人為地劃分成二分變量(如按一定標推將屬于正態連續變量的學科考試分數劃分成及格與不及格,錄取與未錄取,把某一體育項目測驗結果劃分成通過與未通過,達標與末達標,把健康狀況劃分成好與差,等等),表示這兩個變量之間的相關,稱為二列相關。
二列相關的使用條件
①兩個變量都是連續變量,且總體呈正態分布,或總體接近正態分布,至少是單峰對稱分布。②兩個變量之間是線性關系。③二分變量是人為劃分的,其分界點應盡量靠近中值。④樣本容量應當大于80。二列相關系數的計算公式
點二列相關
當兩個變量其中一個是正態連續性變量,另一個是真正的二分名義變量(例如,男與女,已婚和未婚,色盲與非色盲,生與死,等等),這時,表示這兩個變量之間的相關,稱為點二列相關。
多系列相關
當兩個變量都是正態連續變量,其中一個變量按不同質被人為地分成多種類別(兩類以上)的正態名義變量。表示正態連續變量與多類正態名義變量之間的相關,稱為多系列相關。例如,學生的智商與學習努力程度之間的關系,智商和學習努力程度都是正態連續變量,但學習努力程度被人為地分成“努力”、“中等”、“不努力”三種類別,二者的相關稱為三系列相關。又如,不同學習成績的學生對某種教學改革的態度分為“極其不贊成”、“不贊成。、“不置可否”、“贊成”、“極其贊成”。學習成績與態度之間的相關稱五系列相關。多系列相關系數的計算公式
品質相關分析兩個變量都是按質劃分成幾種類別,表示這兩個變量之間的相關稱為品質相關。如,一個變量按性別分成男與女,另一個變量按學科成績分成及格與不及格;又如,一個變量按學校類別分成重點及非重點,另一個變量按學科成績分成優、良、中、差,等等。根據兩個變量的性質及所分類別的多少,分為四分相關、φ相關及列聯相關。四分相關
當兩個變量都是正態連續變量,且兩者呈直線關系,但兩者都被人為地劃分成二分變量,表示這兩個變量的相關,稱為四分相關。例如,將學科成績劃分成及格與不及格,達標與未達標,通過與未通過,將對事物的態度劃分成贊同與反對:將對問題的回答劃分成對與錯,等等。四分相關四分相關有多種計算方法,最常用的是皮爾遜的余弦π法,其計算公式為:
例如,45名學生跳高與跳遠成績(達標及未達標)如表所示,問跳高與跳遠成績的相關情況如何?
φ相關
當兩個變量都是二分變量,無論是真正的二分變量還是人為的二分變量,這兩個變量之間的關系,可以用由φ相關來表示。其計算公式為:
例如,從研究生入學考試的學生中,隨機抽取60人.其大學應屆與往屆畢業生錄取情況如表11.14,問應屆和往屆大學畢業生同研究生錄取與否的相關情況如何?列聯相關
當兩個變量均被分成兩個以上類別,或其中一個變量被分成兩個以上類別,表示這兩個變量之間的相關,稱為列聯相關。列聯相關系數的計算公式為:
數據類型與相關系數類型第一個變量數據類型第二個變量數據類型二分數據等級數據等距數據人為二分型真正二分型二分數據人為二分型四格相關Φ相關二列相關列聯系數二列相關真正二分型Φ相關Φ相關二列相關列聯系數點二列相關等級數據二列相關列聯系數二列相關列聯系數等級相關等級相關多列相關等距數據二列相關點二列相關等級相關多列相關積差相關偏相關分析所謂偏相關,是指在諸多相關的變量中,剔除其中的一個或若干個變量的影響后,兩個變量之間的相關關系。對應的相關分析即為偏相關分析。偏相關系數的計算公式假定有3個變量:x1、x2、x3,求剔除變量的影響后,變量和之間的偏相關系數r123:偏相關系數的顯著性檢驗公式距離相關分析距離相關分析是對觀測量之間或變量之間相似或不相似的程度的一種測量。距離相關分析可用于同一變量內部各個取值間,以考察其相互接近程度;也可用于變量間,以考察預測值對實際值的擬合優度。它有助于分析復雜的數據集合。距離相關分析根據統計量不同,分為兩種:(1)不相似性測量,通過計算樣本之間或變量之間的距離來表示。(2)相似性測量,通過計算Pearson相關系數或Cosine相關系數來表示。根據分析對象不同,分為兩種:
樣本間分析和變量間分析。三、相關分析中的可能錯誤
相關系數r是對兩個變量之間線性關系的簡單度量,因此當r=0時,只表示兩個變量之間不存在線性相關關系,并不說明變量之間沒有任何關系,比如,它們之間可能存在非線性關系,如圖8.1(e)就屬于這種情況。三、相關分析中的可能錯誤
r的計算涉及到變量的標準差和協方差,其數值大小易受極端值的影響,特別是與自變量x的變化范圍有很大關系。這時會產生兩種情況:—是多數觀察值不相關時,個別極瑞值引起中度相關,如圖8.4(a);二是大多數觀察值存在線性相關,個別極端值使觀察數據呈非線性相關.如圖8.4(b)。
三、相關分析中的可能錯誤
在對兩個時間數列的相關分析中,r所表現的相關程度同樣本數據的時間范圍有很大關系。比如.兩個現象在某段時期內的相關關系為線性的.而整個發展過程可能是非線性的,如圖(a);或者在某段時期內無線性關系,而整個發展過程可能存在線性關系,如圖(b)三、相關分析中的可能錯誤根據樣本數據計算的r帶有—定的隨機性,樣本數據越少,隨機性則越大。對于不相關的兩個變量計算出的r不—定為0,有時甚至會很高。但較大的r值不一定就意味著兩個變量之間確實存在著較高的相關;反之,較小的r也不一定就意味著變量之間無相關關系,這就是所謂的虛假相關。為避免出現分析上的錯誤,在實際應用r時,必須對r的顯著性進行檢驗,r在統計上是否顯著,才是它能否作為變量之間線性關系度量的依據。四、應用(測驗分析)信度系數衡量一次測驗可靠性、穩定性的統計指標叫做信度。通常用不同次測驗結果的相關系數來衡量,即信度系數α。信度的高低反映了測驗中隨機因素影響的大小,一次測驗中隨機因素影響小則信度大,隨機因素影響大則信度小。信度的種類(1)再測信度系數——用同一套問卷在兩個不同時間內來測試同一批對象,計算兩次測驗分數的相關系數,又稱穩定系數。(2)等值系數——用兩份等值的問卷對同一批對象進行測驗,計算兩次測驗分數的相關系數,又稱復本信度。(3)內在一致性系數——一個測驗中所包含的各個項目上所的成績的一致性,又稱同質信度。估計信度的方法用于衡量再測信度、復本信度——積差相關法。用于計算內部一致性系數——折半相關分析法——克倫巴赫α系數法——庫德-理查遜(K-R)公式
四、應用(測驗分析)效度所謂效度,就是衡量測驗有效性、準確性的統計指標。實質上是指所測量到的東西與要測量的東西之間的相符合的程度。它與信度的區別在于:信度反映了測驗中隨機誤差的大小,而效度反映了測驗中系統誤差的大小。四、應用(
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 夫妻間忠誠承諾與粉絲影響力合作合同
- 燒傷面積評估與護理要點
- 網絡直播導播臺租賃及現場燈光音響調試服務合同
- 藝術培訓機構教室租賃與課程研發合同
- 婚后家庭財產共有及分割管理細則協議
- 高清體育賽事直播權授權及賽事周邊產品開發協議
- 版權侵權賠償補充協議書
- 票務退改簽服務補充協議
- 母嬰護理服務質量規范執行與客戶權益維護協議
- 網絡教育平臺兼職教師答疑合同
- 形勢與政策(吉林大學)智慧樹知到答案2024年吉林大學
- 16G362 鋼筋混凝土結構預埋件
- DB37-T 3848-2019 地熱礦泉水綠色礦山建設規范-(高清版)
- 物質安全數據表(MSDS)84消毒液
- 集成電路單粒子效應評估技術研究PPT課件
- 心經注音版(打印版)
- 醫院醫用耗材及衛生材料采購申請表
- 入團志愿書電子版
- 創業路演路演(PPT課件)
- 1萬立儲罐施工方案
- 黑龍江省特種設備檢驗檢測收費標準
評論
0/150
提交評論