第四章-心理測驗的信度與效度課件_第1頁
第四章-心理測驗的信度與效度課件_第2頁
第四章-心理測驗的信度與效度課件_第3頁
第四章-心理測驗的信度與效度課件_第4頁
第四章-心理測驗的信度與效度課件_第5頁
已閱讀5頁,還剩109頁未讀 繼續免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

第四章心理測驗的

信度與效度任濱海1第四章心理測驗的

信度與效度任濱海1提綱信度信度概述信度的類型影響信度的因素效度效度概述效度的類型影響效度的因素2提綱信度2SV2SI2SE2SX2ST2

3SV2SI2SE2SX2ST23第一節信度一、信度定義1、通俗的定義信度,即測量的可靠性,多次測量結果保持一致性的程度。4第一節信度一、信度定義42、測量學定義:信度為一組測量分數的真分數方差和總方差(實得分數的方差)的比率。信度乃是一個被試群體的真分數與實得分數的相關系數的平方。信度乃是一個測驗X與它的任意一個平行測驗Y的相關系數。信度只受隨機誤差影響,系統誤差不影響信度52、測量學定義:5二、信度的指標信度以信度系數為指標,常用相關系數表示,表示實得分數的變異數中有多少比例是由真分數的變異決定的,信度系數以相關系數為指標,rxx=rxT2=ST2/SX2信度的平方根就是信度指數,rxT=ST/SX6二、信度的指標6信度指數(rxT)與信度系數(rXX)實得分數σx2真實分數

σT2rxx信度系數(百分比)rOT2信度指數(實得分數與真實分數的相關)rxx=rxT27信度指數(rxT)與信度系數(rXX)實得分數σx2真實分信度定理:定理1:如果滿足獨立性條件(即誤差分數與真分數無關)時,真分數方差與觀察分數方差之比(信度系數)等于真分數與觀察分數之間的相關系數的平方。定理2:如果滿足平行測驗條件時,真分數方差與觀察分數方差之比(信度系數)等于兩個平行測驗的觀察分數之間的相關系數。補充:信度系數、信度指數、測定系數的討論Baidu測定系數信度系數搜索。8信度定理:補充:信度系數、信度指數、測定系數的討論8三、信度的評估方式(一)重測信度(二)復本信度(三)內在一致性信度(四)評分者信度9三、信度的評估方式9(一)重測信度1、定義:用同一個測驗對同一組被試在不同時間施測兩次所得結果的一致性程度,其大小等于同一組被試在兩次測驗上所得分數的皮爾遜積差相關系數。又稱穩定性信度、再測信度、施測—再施測信度、跨時間一致性。10(一)重測信度10施測時間間隔再施測

相關系數圖1重測信度圖式11施測時間間隔再施測圖1重測信度圖式10名學生幸福感調查的兩次施測分數重測信度的計算舉例ABCDEFGHIJ161513131110109871516141210911867X1X21210名學生幸福感調查的兩次施測分數重測信度的計算舉例2、注意事項:所測量的心理特性必須是穩定的。遺忘和練習的效果基本上是相互抵消的。在兩次施測的間隔時期內,被試在所要測驗的心理特質方面沒有獲得的更多的學習和訓練。易受練習和記憶的影響,兩次測試的時間間隔要適當,一般是2~4周較宜,間隔時間最好不超過6個月。132、注意事項:13(二)復本信度1、定義:又稱等值性系數,是以兩個等值但題目不同的測驗(復本)來測量同一群體,然后求得被試者在兩個測驗上得分的相關系數。2、方法:為排除施測順序的影響,在實施時,可將被試先分為兩組,一組人先作A型測驗,再作B型測驗;另一組人則反之。14(二)復本信度14施測A型最短時距施測B型

相關系數圖2復本信度圖式15施測A型最短時距施測B型圖2復本信度圖式10名學生創造力的復本測驗結果復本信度的計算舉例ABCDEFGHIJX1X22019181817161412121020201916161712111391610名學生創造力的復本測驗結果復本信度的計算舉例AB3、注意事項要構造真正的平行測驗復本測驗必須在題目的內容、數量、形式、難度、區分度、指導語、時限以及所用的例題、公式、測驗其它方面都相同或相似。被試有條件接受兩個測驗。173、注意事項17(三)內部一致性信度1、定義:反映的是題目之間的關系,表示測驗能夠測量相同內容或特質的程度。2、方法:(1)分半信度:通常是先把一份測驗按題目的奇偶順序或其它方法分成兩個盡可能平行的半份測驗,然后計算兩半之間的相關,即得到分半信度系數。18(三)內部一致性信度18兩半變異數相等:積差相關斯皮爾曼-布朗公式校正19兩半變異數相等:19變異數不相等:弗朗那根(Flanagan)公式:盧倫(Rulon)公式:20變異數不相等:20(2)同質性信度:測驗內部所有題目間的一致性。用每個題目和其它題目平均數的相關。當各測題得分有較高的正相關時,即為同質;相反,測題間相關很低或為負相關則為異質。0、1計分項目(庫德(Kuder)-理查遜(Richardson)方法)非0、1計分項目(α系數或克倫巴赫(Cronbach)公式)21(2)同質性信度:21注意事項在一個測量多種特質的問卷中,不同的因子的同質性信度應該分開計算。克倫巴赫α系數相當于計算了所有項目間的一致性程度,避免了分半信度由于分半方式不同所造成的分半系數不一致的問題。22注意事項22(四)評分者信度1、定義:用于測量不同評分者之間所產生的誤差。是由多個評分者給一組測驗結果評分,所得各個分數之間的一致性。對于客觀性試題,評分所引起的誤差或忽略不計對于主觀性題目來說,不同評分人員對相同被試的評分存在差異。如心理測量中的投射測驗,學業測驗中的高考作文,職業選拔中的面試等。一般要求在成對的受過訓練的評分者之間平均一致性達0.90以上,才認為評分是客觀的。23(四)評分者信度232、計算當評分者為2人時,可以積差相關或等級相關當評分者多于2人時,可以使用肯德爾和諧系數242、計算24如有A、B、C三位專家給6位應聘者的面試評分,結果如下,試求評分者信度。

ABC175664529072603816354460604258475636969066

ABCRi15451422237345413466618533286111325如有A、B、C三位專家給6位應聘者的面試評分,結果如下,試求=14+7+13+18+8+3=63=142+72+132+182+82+32=811由題意知K=3,N=6,將上述值代入公式有:W==0.95如在評定中有相同的等級時,用下式校正。其中n為相同等級的個數

26=14+7+13+18+8+3=63由題意知K=3,N四、信度對測驗分數的意義1、解釋真實分數與實得分數的相關信度系數可以解釋為測驗的總變異中,真分數造成的變異占百分之幾。如,當rxx=0.90時,我們可以說實得分數中有90%的變異是真分數造成的,僅10%來自測驗的誤差。rxx=1.00,則表示完全沒有測量誤差,所有的變異均來自真實分數;同樣,信度系數也告訴測量的誤差比例是多少。

27四、信度對測驗分數的意義272、確定信度可以接受的水平一個測驗究竟信度多高才合適,才讓人滿意呢?當然,最理想的情況是rxx=1.00,但實際上是辦不到的。根據多年的研究結果,一般的能力測驗和成就測驗的信度系數都在0.90以上,有的可以達0.95;而人格測驗、興趣、態度、價值觀等測驗的信度一般在0.80~0.85或更高些。一般原則是:當rxx<0.70時,測驗不能用于對個人做出評價或預測,而且不能作團體比較;當0.70≤rxx<0.85時,可用于團體比較;當rxx≥0.85時,才能用來鑒別或預測個人成績或作為。282、確定信度可以接受的水平283、解釋個人分數的意義(區間估計)從信度可以解釋個人分數的意義,這就是測量標準誤的應用。它有兩個作用其一是估計真實分數的范圍;其二是了解實得分數再測時可能的變化情形。

2929由于誤差的存在,一個人通過測量得到的分數很難等于真分數。理論上,我們可以對一個人施測無數次,然后求得所得分數的平均數和標準差。在這個假設的分布里,平均數就是這個人的真分數,標準差則為誤差大小的指標。30由于誤差的存在,一個人通過測量得到的分數很難等于真分數。理論3131在實際工作中,我們用一組被試(人數足夠多)兩次施測的結果來代替對同一個人反復施測,以估計測量誤差的變異數。此時,個人在兩次測驗中的分數差異就是測量誤差。據此可制成誤差分數的分布。這個分布的標準差(誤差分布的標準差)我們稱之為測量的標準誤,是表示測量誤差的大小的指標,其計算公式為:(公式5-4)式中SE表示測量的標準誤,即誤差分布的標準差;Sx表示一次測量分數的標準差;rxx表示信度系數。32在實際工作中,我們用一組被試(人數足夠多)兩次施測的結果來代我們可以用測量的標準誤來估計個人測驗的真分數的大小。

如果選用95%的可靠性水平(置信水平),即顯著性水平(a值)為.05,,真分數有95%的可能落入X±1.96SE,即X±1.96SE的范圍之內,也可以寫成X-1.96SE

T

X+1.96SE,SE則用公式5-4代入。或有5%的可能落入這范圍之外。這實際上也表明了再測時分數改變的可能范圍。

33我們可以用測量的標準誤來估計個人測驗的真分數的大小。33例1,已知WISC-R的標準差為15,信度系數為0.95,對一名12歲的兒童實施該測驗后,IQ為110,那么他的真分數在95%的可靠度要求下,變動范圍應是多大?

34例1,已知WISC-R的標準差為15,信度系數為0.95,對=103.4<<116.635=103.4<<116.635注意幾點:(1)SE對真分數做的是區間估計,不可能由此得到一個確切的點。這就是說,測驗分數不是一個定點,而是具有一定的分布范圍。因此,兩次測驗分數之間存在差異是很正常的。(2)置信水平確定后,估計的精度主要取決于SE,SE越小,范圍越小,估計就越精確,反之也然。(3)真分數不能等同于真正能力或心理特質,真分數中包括了系統誤差。

36注意幾點:364、比較不同測驗分數的差異測量標準誤和測驗信度在評價兩個不同測驗的分數是否有明顯差異時也非常重要。這種比較包括兩個人不同分數的差別和同一被試在兩個測驗上的差別。374、比較不同測驗分數的差異37我們可以用“差異的標準誤”來檢驗差異的顯著性。差異的標準誤的公式為:(公式5-5)為差異的標準誤,S為相同尺度的標準分數的標準差,Z分數為1,T分數為10。、分別為兩個測驗的信度系數。先將原始分數化成標準分數,然后將兩個標準分數的差異與1.96SEd(0.05顯著性水平)進行比較,如果其絕對值大于此值,則差異顯著,否則差異不顯著。38我們可以用“差異的標準誤”來檢驗差異的顯著性。38例題某被試在韋氏成人智力測驗中言語智商為102,操作智商為110。假設言語測驗和操作測驗的信度分別為0.87和0.88,則該被試的操作智商與言語智商有顯著性差異嗎?解答一:標準分數差異的范圍(95%):-1.96×7.5~1.96×7.5-14.7~14.7所以被試的操作智商與言語智商無顯著性差異39例題某被試在韋氏成人智力測驗中言語智商為102,操作智商為1解答二40解答二40例,某校五年級進行了兩次數學測驗,小張第一次考了85分,此次數學測驗年級平均分是77分,標準差是8分,此次測驗的信度系數是0.84;第二次考了95分,此次數學測驗年級平均分是81分,標準差是10分,此次測驗的信度系數是0.91;問小張這兩次數學測驗的成績是否有顯著差異?

41例,某校五年級進行了兩次數學測驗,小張第一次考了85分,此次五、影響信度的因素樣本的影響樣本團體的異質性高,信度就高樣本團體平均能力水平的影響測驗長度的影響可以通過增加測驗長度的方式提高信度值。新增項目必須與試卷中的原有項目同質。新增項目的數量必須適度。42五、影響信度的因素42如由50題組成的兒童心理學測驗,其信度系數為0.72,若再增加30個與原測驗難度相近且同質性的題目,問長度增加后的測驗系數是多少?=0.8043=0.8043例:有一個包括10個題目的測驗,信度為0.50,若把測驗增加到50個題目,其信度將增加到多少?

44例:有一個包括10個題目的測驗,信度為0.50,若把測驗增加用同樣方法可以算出題目數量繼續增加時相關系數的值見下表表題目數量對相關系數的影響題目數量1050100200300400500相關系數0.500.830.910.950.9680.9760.98045用同樣方法可以算出題目數量繼續增加時相關系數的值見下表題目數由表可以看出,增加題目數量可以提高信度,但并非多多益善。測驗過長是得不償失的:(1)測驗過長,編制測驗要浪費較多的時間和精力,施測時浪費受測者的時間和精力,花費大。(2)測驗過長會引起被試的疲勞和反感,從而降低可靠性。為了節省時間和精力,有時還需要將過長的測驗適當縮短,而不使其對信度有大的損害。

46由表可以看出,增加題目數量可以提高信度,但并非多多益善。測驗測驗難度的影響測驗太難或太容易,則分數的范圍會縮小,從而降低信度。應該有一個適當的難度水平,以產生最廣的分數分布。各類選擇題的理想平均難度:五擇一測題,0.70;四擇一測題,0.74;三擇一測題,0.77;是非題,0.85.47測驗難度的影響47

1007550

250123分數評量次數難度太小難度太大適當難度平均數(M):852160標準差(

):3.94.212.4信度(KR21):0.430.460.90

分數之分散度和難度與信度之間的關係481001時間間隔的影響只對重測信度有影響49時間間隔的影響491.對5個學生進行某種測驗,得分分別為14、11、13、16、15。為了考察這個測驗的信度,在20天后用原量表再次測驗,得分分別為13、12、14、15、16。試計算穩定性系數,并解釋之。小測驗501.對5個學生進行某種測驗,得分分別為14、11、13、162.有16人參加的一項測驗,本擬再測一次以估計信度,但因學生畢業離校,無法再測,現把各人奇數題得分和偶數題得分分列后,請估計測驗結果的信度。得分被試奇數題1817181514171713偶數題1817161613181714得分被試奇數題1313161415161316偶數題1313141414161517512.有16人參加的一項測驗,本擬再測一次以估計信度,但因學生3.4位教師評閱5份試卷,所評等級如下表,問評分是否一致?

閱卷者(K=4)

作文編號(N=5)

12345張25431王15432李14532趙25431523.4位教師評閱5份試卷,所評等級如下表,問評分是否一致?4.有一種包含7個論文式題目的測驗,對6個應試者施行,得分見下表,試求該測驗的信度。題號被試12345616117897259678737969684838879591177996911710101071091112810534.有一種包含7個論文式題目的測驗,對6個應試者施行,得分第二節效度ENGLISH54第二節效度ENGLISH54一、效度的定義1、效度的通俗定義效度指的是測量的正確性,即一個測驗或量具能夠測量出其所要測量的東西的程度。效度所要回答的問題是:(1)一個測驗測量了什么特性?或者說,測驗測到了它所要測量的東西嗎?(2)它對所要測量的特性測得有多準?55一、效度的定義552、效度的理論定義:一組測量中,與測量目標有關的真實方差與總方差的比率。效度除受隨機誤差影響外,還受系統誤差的影響。562、效度的理論定義:一組測量中,與測量目標有關的真實方差與總二、效度的性質1、效度具有相對性相對某一目標的有效性2、效度具有連續性只有程度上的不同,而沒有“全有’或“全無”的區別反映有效性程度高低57二、效度的性質57三、效度評估的三種方法(一)內容效度(二)結構效度(三)實證效度58三、效度評估的三種方法58(一)內容效度1、定義:指測驗題目對欲測內容或行為取樣的適當程度,從而確定測驗是否是所欲測量的行為領域的代表性取樣2、一個測驗要有內容效度必須具備兩個條件:(1)要有定義得完好的內容范圍

20以內的加減法

中小學生的心理健康的特點和表現。

(2)測驗項目應是已界定的內容范圍的代表性樣本

如果把所有的內容視為一個總體,那么測驗項目可以視為一個樣本,這個樣本要具有代表性,這個樣本能夠代表總體的程度就是內容效度。59(一)內容效度593、確定內容效度的方法(1)專家判斷法:內容效度又稱“邏輯效度”①明確欲測內容的范圍。包括知識范圍和能力要求兩個方面。②編制雙向細目表,要求測驗編制者將各個條目所欲測的內容和技能要求列出,并將條目與第一步確定的要求相結合。③制定評定量表來冊來測量測驗的效度。603、確定內容效度的方法60雙向細目表表格左方表示教學所欲達成的目標,上方表示教材內容範圍,並逐一檢視每一試題以考驗整份測驗之內容效度題數內容範圍行為目標細胞能量代謝光合作用呼吸作用生物分子總題數分數百分比知識02110446.7理解201227711.7應用121116610.0分析112116610.0綜合211217711.7評鑑01121558.3情意10111446.7技能10010223.3簡答題1111151931.7總題數98912846

分數1110141510

60

百分比18.316.723.325.016.7

10061雙向細目表題數內容範圍行為目標細胞能量代謝光合作用呼吸作用生(2)統計分析法克倫巴赫(Cronbach)提出內容效度的統計分析方法。從同一個教學內容總體中抽取兩套獨立的平行測驗,用這兩個平行測驗來測同一批被試,求其相關。若相關低,則兩個測驗中至少有一個缺乏內容效度;若相關高,則測驗可能有較高的內容效度(除非兩個測驗取樣偏向同一個方面)。再測法在被試學習某種知識之前作一次測驗,在學過該知識之后再作同樣的測驗。這時,如果后測成績顯著的優于前測成績,則說明所測內容正是被試新近所學內容。62(2)統計分析法62(3)經驗法這種效度是通過實踐來檢驗效度,如兒童發展量表是否有效,經過對不同年齡階段的兒童進行調查,然后分析其結果。63(3)經驗法634、注意:內容效度的特性(1)內容效度與所有效度的性質一樣,不是普遍適用的,而是根據具體情況分析得來。(2)內容效度適合于測驗所要測量的內容總體能夠明確界定的情況。因此尤其適合對教育測驗的效度的考察。內容效度對各種用于人員選拔和安置的職業測驗也是適用的。職業測驗關心的是被試是否具有從事某項職業的知識、技能等,那么要明確某項職業所需的全部知識和技能,再對這些知識和技能進行取樣,取出一個有代表性的樣本。644、注意:內容效度的特性64(3)內容效度對能力傾向測驗和人格測驗不是很合適,因為它們要測量的往往是較抽象的特質,其范圍難以明確界定,沒有明確的內容范圍,就無法考證測驗項目是否具有代表性。(4)缺點:缺乏理想的數量指標,因而妨礙了信息交流和各測驗的相互比較。65(3)內容效度對能力傾向測驗和人格測驗不是很合適,因為它們要5、內容效度與表面效度(1)內容效度經常與表面效度(facevalidity)混淆。表面效度是由外行對測驗作表面上的檢查確定的,它不反映測驗實際測量的東西,只是指測驗表面上看來好像是測量所要測的東西;而內容效度是由夠資格的判斷者(專家)詳盡地、系統地對測驗作評價而建立的。665、內容效度與表面效度66(2)測驗對表面效度的考慮:表面效度不是效度的客觀指標,不能保證測驗的正確性,但能對受測者的動機產生影響,因而也會影響到測驗的效度。如:“我偷過東西。”編制測驗時應根據編制測驗的要求提高或降低表面效度,如人格測驗,表面效度應該低,使被試看不出來,從而讓被試作出真實的反應,能力測驗應該提高表面效度,以激發被試的答題動機。67(2)測驗對表面效度的考慮:67(二)構想效度(結構效度)1、定義:構想效度(constructvalidity),又稱構念效度、結構效度。構想:心理學理論中所涉及的假設性的概念或特質,如智力、焦慮等,它們往往用某種操作定義來定義、可以用測驗來測量。構想效度是指測驗分數能夠說明某一理論概念或特質的程度。也就是測驗是否實際測量了所欲測量的理論概念或特質。考察構想效度的宗旨是要回答下面一些問題:一個測驗測量的是什么心理構想?對這個構想測得有多好?測驗分數中有多少變異數是來自測驗所欲測量的構想。68(二)構想效度(結構效度)682、實際操作步驟:(1)先從某一建構的理論開始(2)提出各項心理功能或行為的基本假設(3)據以設計和編制測驗問卷(4)以相關分析、因素分析等方法來檢測結果是否符合理論之見解692、實際操作步驟:693、計算結構效度的方法(1)測驗內方法測驗的內容效度內容效度可以作為檢驗結構效度的一個方面。分析被試解答測題時的反應過程在施行個別測驗時,要求被試邊想邊說,從而可以分析被試解題時的心理過程,以核實測驗是否真正測到了所要測量的心理構想。如,人格測驗中有這樣一個題目:“我喜歡在別人面前說另一個人的缺點。”一個被試回答“否”,問他是怎么考慮的,他說:“一個人如果喜歡在別人面前說另一個人的缺點,那他就是個小人。703、計算結構效度的方法70考察測驗的同質性這種方法是以測驗的內在一致性系數(如K-R20,K-R21,以及

系數等)為指標,判斷測驗測的是單一特質還是多種特質,從而確定測驗構想效度的高低。(2)測驗間方法相容效度(congruentvalidity)計算受測者在新測驗上的分數與原有的已知效度較高的同類測驗上的分數之間的相關。如,斯坦福-比奈量表和韋氏量表是公認的效度較高的智力量表,后人編制的智力測驗常計算與這些量表的測驗分數的相關,以提供相容效度的證據。71考察測驗的同質性71區分效度(discriminantvalidity)一個有效的測驗不僅應與其他測同一構想的測驗有關,而且還必須與測量不同構想的測驗無關。用此種方法確定的效度稱區分效度。低相關:可以證明新測驗相對獨立于某些無關因素,但并不保證它一定有效。高相關:這個測驗的效度是可疑的。因素效度(factorialvalidity):通過對一組測驗進行因素分析,找到影響測驗分數的共同因素,每個測驗在共同因素上的負荷量,即每個測驗與共同因素的相關,稱作測驗的因素效度。72區分效度(discriminantvalidity)72(3)效標關聯法測驗分數與效標行為的一致性有助于證明測驗確實測量了某種構想。根據效標選取不同的被試,組成對照組,然后比較兩組被試的測驗成績,看測驗分數能否將它們區分開來。如:兩組被試,神經癥被試和正常人測驗對效標的預測能力,也可以提供構想效度的證據。73(3)效標關聯法73(4)實驗操作法通過控制某些實驗條件,觀察其對測驗分數的影響,也可以獲得構想效度的證據。如,舉行兩場考試,使被試相信一場考試關系重大,另一場考試無關緊要,在考試前進行焦慮測驗,看被試的焦慮測驗分數是否存在顯著的差異,分析原因。74(4)實驗操作法744、對構想效度的評價構想效度的主要缺點是:(1)有些構想概念模糊,缺乏一致的定義。(2)確定效度時沒有明確的操作步驟和程序。(3)構想效度是通過對測驗測量了什么、沒有測量什么的證據加以累積的,沒有單一的數量指標來描述有效的程度。比如,效度等于多少,證明效度高,等于多少,證明效度低。754、對構想效度的評價75(三)實證效度(效標效度)1、定義:什么是效標效度實證效度是指一個測驗對處于特定情境中的個體的行為進行評估的有效性。也就是說,一個測驗是否有效,應該以實踐的效果來作為檢驗標準被預測的行為是檢驗測驗效度的標準,簡稱效標。效標有兩個特點:效標獨立于測驗的結果,即效標和測驗分數兩者是獨立評定的。效標反應測驗的目的。76(三)實證效度(效標效度)76在檢驗一個測驗的效標效度時,難點在于找到合適的效標。因此效標的選擇至關重要,一個好的效標必須具備以下條件:①效標必須能最有效地反映測驗的目標,即效標測量本身必須有效;②效標必須具有較高的信度,穩定可靠,不隨時間等因素而變化;③效標可以客觀地加以測量,可用數據或等級來表示;④效標測量的方法簡單,省時省力,經濟實用。77在檢驗一個測驗的效標效度時,難點在于找到合適的效標。因此效標例如:高三模擬考試,果然能恰當地反應大學聯考成績,說明此模擬測驗效度﹝預測效度﹞好。用高考成績預測大學生的學習能力和成就用職業測驗預測工作能力用人格測驗預測哪種人容易得精神病等。用智力測驗來預測其最近的學業成績78例如:782、種類:同時效度:測驗分數與效標同時驗證例如:智力測驗以學生當時的學業成績為效標;預測效度:測驗分數與將來的效標資料進行驗證

例如:測量健康行為對未來健康狀態預測之有效程度;兩者的差異,源自測驗目的。前者與用來診斷現狀的測驗有關,后者與預測將來結果的測驗有關。792、種類:793、效標效度的確立方法確定一種恰當的效標行為及其測量方法;確定一個能代表測驗最終使用對象的適合的受測者樣本;施測并記錄每個受測者的得分;得到效標資料,對每個受測者在該效標上的操作進行測量;確定測驗分數與效標分數的相關程度。803、效標效度的確立方法804、效標效度的確定方法相關法被試12345678910測驗(x)20343247202427252216銷售額(y)2.53.8340.712.23.52.81.2814、效標效度的確定方法被試1234567891區分法被試接受測驗后,讓他們工作一段時間,再根據工作成績的好壞來分成兩組。這是再回頭來分析兩組被試原先接受測驗的分數差異情況。若差異顯著,則說明該測驗有較高的效度。效標成績測驗預測失敗成功成功(A)失誤(B)命中失敗(C)命中(D)失誤82區分法效標成績成功(A)失誤(8383四、效度的功能1、預測誤差:決定系數,標準誤效度系數的實際意義常常以決定性系數來表示,意指相關系數的平方,它表示測驗正確預測或解釋的效標的方差占總方差的比例。另一種表達方法是估計的標準誤,估計的標準誤可如同其他標準誤一樣解釋。2、預測效標分數如果X與Y兩變量呈直線相關,只要確定出二者間的回歸方程,就可以從一個變量推估出另一個變量。84四、效度的功能84五、影響效度的因素1、測驗本身的因素測驗取材的代表性、測驗長度、試題類型、難度、區分度以及編排方式等都會影響效度。要保證測驗具有較高效度,要做好以下幾點:測驗材料必須對整個內容具有代表性;測題設計時應盡量避免容易引起誤差的題型(如是非題);測題難度要適中,具有較高的區分度;測驗長度要恰當,即要有一定的測題量;測題的排列按先易后難順序。85五、影響效度的因素85測驗的長度對提升測驗效度的影響測驗的長度會影響測驗的信度,同時也會影響測驗的效度。測驗長度與效度的關系可以用下式表示:(公式6-3)式中是測驗增長為原來的n倍的效度值,n為測驗的增長倍數,為原測驗效度,為原測驗信度。

8686例:一測驗的信度系數為0.50,效度系數為0.40,現想其效度增長為0.50,問測驗的長度應增長為原來的幾倍?87例:一測驗的信度系數為0.50,效度系數為0.40,現想其效2、測驗實施中的干擾因素主試的影響因素測驗實施過程中主試的因素會影響效度。例如,是否遵從測驗使用手冊的各項規定進行標準化的實施,指導語是否統一正確,測驗的時限是否一致,評分是否合理,都會影響測驗的效度。被試的影響因素被試在測驗時的興趣、動機、情緒、態度和身心狀況、健康狀態以及是否充分合作與盡力而為等,都會影響被試在測驗情境中的反應,因而影響測驗結果的效度。被試的反應定勢也會降低測驗的效度。882、測驗實施中的干擾因素883、樣本團體的性質樣本團體的異質性如果其他條件相同,樣本團體越同質,分數分布范圍越小,測驗效度就越低;樣本團體越異質,分數分布范圍越大,測驗效度就越高。其中有幾種情況會影響樣本團體的異質性。選拔標準太高,樣本團體的同質性增加,降低了測驗的效度。893、樣本團體的性質89干涉變量樣本團體的性質對效度的影響還表現在:對于不同性質的團體,同一測驗的效度會有很大的不同。這些性質包括年齡、性別、教育水平、智力、動機、興趣、職業和任何有關的特征。由于這些特征的影響,使得測驗對于不同的團體具有不同的預測能力,故測量學上稱這些特征為干涉變量(moderatorvariable)。90干涉變量90對于如何確定干涉變量,表面上的泛泛分析和觀察很難發現,美國心理學家吉賽利(E.E.Ghiselli)提出的如何找出干涉變量的一套方法,供參考:用回歸方程求得每個人的預測效標分數,將該分數與實際效標分數相比較,獲得差異分數D。如果D的絕對值很大,說明測驗中可能存在干涉變量。根據樣本團體的組成分析,找出對照組,分別計算效度,找出干涉變量。對于欲測團體,根據某些易見的干涉變量將其區分為預測性高和預測性低的兩個亞團體。對于預測性高的團體,獲得的測驗效度會有所提高。91對于如何確定干涉變量,表面上的泛泛分析和觀察很難發現,美國心4、效標的性質效標效度是以測驗分數與效標測量的相關系數來表示的,因此效標的性質如何,在評價測驗的效度時是值得考慮的。924、效標的性質92六、提高效度的方法1、精心的編制測驗,避免出現較大的系統誤差。2、妥善組織測驗,控制隨機誤差。3、創設標準的應試情境,讓每一個被試都能整茶館南的發揮自己的水平。4、選好正確的效標,正確的使用有關公式。93六、提高效度的方法93七、效度和信度的關系X=T+E

94七、效度和信度的關系X=T+E94信度與效度的關系1.信度是效度的必要而非充分條件根據公式,可以用圖6-1來表示信度和效度的關系。Sx2

Sv2SI2SE2

ST2圖6-1信度和效度的關系從圖6-1可以看出,當隨機誤差的變異數減小時,真實分數的變異數增加,測驗信度隨之提高。信度的提高只給有效變異數的增加提供了可能。至于是否能提高效度,還要看系統誤差的變異數的大小。可見,信度高不一定效度高。但一個測驗要想效度高,真分數的變異數必須占較大的比重,即測驗的信度必須高。因此,信度高是效度高的必要但非充分條件。SV2SI2SE295信度與效度的關系SV2SI2SE2952.效度受信度的制約,信度系數規定了效度系數的上限。根據信度和效度的定義()可以得到:

962.效度受信度的制約,信度系數規定了效度系數的上限。96信度與效度的關系:有效的測驗,必須是可信的測驗;但可信的測驗,則未必是有效的測驗(效度高是測驗之終極目標)*信度低→→效度必低*信度高→→效度未必高

*效度低→→信度未必低*效度高→→信度必高97信度與效度的關系:97第三節信效度的spss實現一、信度量表信度的考驗方法為Cronbachα係數,判定α係數之準則如下:所有問卷題目一起執行計算Cronbachα係數。每個因素構面針對其所屬問卷題目,執行計算Cronbachα係數。範例一98第三節信效度的spss實現一、信度98某研究設計一份有關“商店服務屬性”之問卷初稿,為慎重起見,選取30位受測者進行前測(結果如資料檔:服務屬性前測.sav)。請問這些題項在測試結果後,是否具備內部一致性?1.點選Analyze/scale/reliabilityanalysis2.程式操作3.分析結果99某研究設計一份有關“商店服務屬性”之問卷初稿,為慎重起見,選範例一2.程式操作100範例一2.程式操作100分析結果101分析結果101分析結果α係數=0.7984,代表十五道題目測量結果之內部一致性具高可信度。若是想要再提高信度,可由”CorrectedItem-Totalcorrelation”及”CronbachAlphaifitemDeleted”兩欄數字來判斷刪除那些題目可提高內部一致性,價格的”CorrectedItem-Totalcorrelation”數字-0.0693表示「價格」與總分間的相關非常的低,如果

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論