




版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
1、第十二章第十二章 素質測評的質量分析素質測評的質量分析l一項測評能否可靠、可信?l一項測評能否準確、有用?l一項測評能否公正、公平?l一項測評能否經濟、合理?l教學內容教學內容l12-1 12-1 測評的信度測評的信度l 12-1-1 12-1-1 信度及其影響要素信度及其影響要素l 12-1-2 12-1-2 信度的評價方法信度的評價方法l12-2 12-2 測評的效度測評的效度l 12-2-1 12-2-1 效度及其影響要素效度及其影響要素l 12-2-2 12-2-2 效度的評價方法效度的評價方法l12-3 12-3 工程分析工程分析l 12-3-1 12-3-1 測評的難度分析測評的難
2、度分析l 12-3-2 12-3-2 測評的鑒別度分析測評的鑒別度分析l 12-3-3 12-3-3 測評的公平性分析測評的公平性分析l 12-3-4 12-3-4 測評的經濟效益分析測評的經濟效益分析12-1 12-1 測評的信度測評的信度l信度是規范化素質測評的根本要求之一,信度是規范化素質測評的根本要求之一,假設測評工具的信度不理想,丈量結果就假設測評工具的信度不理想,丈量結果就無法被以為能代表應試者的一致、穩定和無法被以為能代表應試者的一致、穩定和可靠的行為表現,就能夠誤導對應試者的可靠的行為表現,就能夠誤導對應試者的評價。評價。12-1-1 12-1-1 信度及其影響要素信度及其影響
3、要素l假設我們用一個游標卡尺來丈量一個鋼管的外直徑,每次丈量假設我們用一個游標卡尺來丈量一個鋼管的外直徑,每次丈量時都難免會有一定的誤差。時都難免會有一定的誤差。l首先,游標卡尺作為一種丈量工具是有一定精度限制的,也就首先,游標卡尺作為一種丈量工具是有一定精度限制的,也就是說,丈量工具本身存在誤差。當然這種誤差是必然存在的,是說,丈量工具本身存在誤差。當然這種誤差是必然存在的,而且誤差是在一定范圍中有規律的變動的,這種誤差在丈量任而且誤差是在一定范圍中有規律的變動的,這種誤差在丈量任務中被稱之為系統誤差務中被稱之為系統誤差systematic errorsystematic error。l其次
4、,我們每一次丈量都能夠出現操作上的差別,或者由于不其次,我們每一次丈量都能夠出現操作上的差別,或者由于不可預見的外界要素的影響,產生丈量誤差。這些誤差是很難控可預見的外界要素的影響,產生丈量誤差。這些誤差是很難控制的,而且無規律可循,有時大有時小,這種誤差被稱為隨機制的,而且無規律可循,有時大有時小,這種誤差被稱為隨機誤差誤差random errorrandom error。l前者在一定程度上可以控制,而后者很難控制,一個好的丈量前者在一定程度上可以控制,而后者很難控制,一個好的丈量工具應該不僅要有盡能夠高的準確度與系統誤差相關,還工具應該不僅要有盡能夠高的準確度與系統誤差相關,還可以把誤差控
5、制在一個有規律的范圍以內,這樣才可以得到穩可以把誤差控制在一個有規律的范圍以內,這樣才可以得到穩定可信的丈量結果。信度實踐上就是對隨機誤差的一種度量。定可信的丈量結果。信度實踐上就是對隨機誤差的一種度量。1、信度的概念、信度的概念l信度信度reliabilityreliability信度是標示檢驗一致性高低的信度是標示檢驗一致性高低的統計目的。主要指丈量結果的可靠性、穩定性和一統計目的。主要指丈量結果的可靠性、穩定性和一致性,可以定義為檢驗結果不受檢驗情境或檢驗過致性,可以定義為檢驗結果不受檢驗情境或檢驗過程中無關變量影響的程度。實踐上就是指檢驗分數程中無關變量影響的程度。實踐上就是指檢驗分數
6、不受丈量誤差影響的程度。可以指出檢驗出的個體不受丈量誤差影響的程度。可以指出檢驗出的個體差別在多大程度上是真正的差別,又在多大程度上差別在多大程度上是真正的差別,又在多大程度上是由于隨機誤差呵斥的。是由于隨機誤差呵斥的。l隨機誤差越大,信度就越低。反之,信度就越高。隨機誤差越大,信度就越低。反之,信度就越高。l通常任何檢驗都存在某種程度的不一致性同一受通常任何檢驗都存在某種程度的不一致性同一受試者在不同時間或在不同的檢驗條件下做同一檢驗試者在不同時間或在不同的檢驗條件下做同一檢驗l由于誤差的存在,我們永遠不能夠完全提示人的心由于誤差的存在,我們永遠不能夠完全提示人的心思特點,只能無限接近真實分
7、數。思特點,只能無限接近真實分數。l一切檢驗都有誤差,心思檢驗分數也不例外。假一切檢驗都有誤差,心思檢驗分數也不例外。假設一個人延續兩天接受同一檢驗,或者完成同一設一個人延續兩天接受同一檢驗,或者完成同一檢驗被以為是等值的兩個版本,假設得分一樣會檢驗被以為是等值的兩個版本,假設得分一樣會讓人感到詫異,假設分數有相當大的變化能夠讓讓人感到詫異,假設分數有相當大的變化能夠讓人吃驚,但是有一點可以一定,這是由于偶爾或人吃驚,但是有一點可以一定,這是由于偶爾或隨機要素影響了每次檢驗的成果。隨機要素影響了每次檢驗的成果。l然而,對于兒童,假好像一檢驗在半年或一年之然而,對于兒童,假好像一檢驗在半年或一年
8、之后測第二遍,分數有很大的差別是缺乏為奇的,后測第二遍,分數有很大的差別是缺乏為奇的,由于他們的生長導致檢驗成果的變化非常自然。由于他們的生長導致檢驗成果的變化非常自然。問題將是確定有多少變化是由于成果的隨機變化問題將是確定有多少變化是由于成果的隨機變化引起的,又有多少可以歸因于個人在這段時間內引起的,又有多少可以歸因于個人在這段時間內所發生的變化。所發生的變化。丈量結果的穩定性:丈量結果的穩定性:檢驗分數一致性的程度不同時間、檢驗條件下檢驗分數一致性的程度不同時間、檢驗條件下所得分數之間的一致性所得分數之間的一致性一個人獲得分數與一個人獲得分數與“真實分數之間的接近程度真實分數之間的接近程度
9、丈量結果的一致性能否到達實踐運用的程度丈量結果的一致性能否到達實踐運用的程度影響穩定性的緣由:影響穩定性的緣由:什么要素呵斥了這種差別誤差的來源什么要素呵斥了這種差別誤差的來源這些效應的相對作用如何分數的實踐含意這些效應的相對作用如何分數的實踐含意在研討信度時,主要應思索兩方面的問題:在研討信度時,主要應思索兩方面的問題:信度的計算:信度系數信度的計算:信度系數l信度目的的普通公式:檢驗分數信度目的的普通公式:檢驗分數 = = 真實分數真實分數 + + 丈量誤差丈量誤差 或者:或者: X = T + eX = T + el信度的高低通常以相關系數表示,稱為信度系數信度的高低通常以相關系數表示,
10、稱為信度系數reliability coefficientreliability coefficient。信度系數普通是同一樣本。信度系數普通是同一樣本所得的兩組資料的相關,因此有:所得的兩組資料的相關,因此有:l檢驗分數方差檢驗分數方差 = = 真實分數方差真實分數方差+ + 誤差分數方差誤差分數方差l X2 = X2 = T2 + T2 + e2e2l信度系數:信度系數: rxx= rxx= T2 / T2 / X2 X2 = = T2 / T2 / T2 + T2 + e2 e2 l信度系數即是真實分數方差變異數與檢驗分數總方差信度系數即是真實分數方差變異數與檢驗分數總方差變異數之比。變
11、異數之比。2、信度的作用、信度的作用l檢驗信度要可以區分出:檢驗信度要可以區分出:l導致一致性的要素:導致一致性的要素: 個體穩定的特性丈量對象個體穩定的特性丈量對象l導致不一致性的要素:導致不一致性的要素: 能夠影響檢驗,但又與檢驗能夠影響檢驗,但又與檢驗對象沒有關系的個體和環境的特性對象沒有關系的個體和環境的特性 l在素質測評中,對信度系數進展確定通常有以下作用:在素質測評中,對信度系數進展確定通常有以下作用:l解釋真實分數與實得分數之間的相關解釋真實分數與實得分數之間的相關l闡明可以接受的信度程度闡明可以接受的信度程度解釋真實分數與實得分數之間的相關l信度可以解釋為總的方差規范差的平方的
12、縮信度可以解釋為總的方差規范差的平方的縮略語中有多少比例是由真實分數的方差決議略語中有多少比例是由真實分數的方差決議的,即丈量分數的變化中有多少是真正反映了的,即丈量分數的變化中有多少是真正反映了被測者分數的變化。被測者分數的變化。l例如:當例如:當rxx = 0.90rxx = 0.90時,我們可以說,實得分時,我們可以說,實得分數中有數中有90%90%的方差是來自真實分數的變化,僅的方差是來自真實分數的變化,僅有有10%10%是來自丈量的誤差。是來自丈量的誤差。l信度系數的分布是從信度系數的分布是從0.00-1.000.00-1.00的正數范圍,的正數范圍,代表了從缺乏信度到完全可信的一切
13、情況。代表了從缺乏信度到完全可信的一切情況。l思索:假設思索:假設rxx = 1.00rxx = 1.00表示什么?表示什么? rxx = rxx = 0.000.00表示什么?表示什么?闡明可以接受的信度程度闡明可以接受的信度程度l信度的理想程度是信度的理想程度是1.001.00,但是實踐上是達,但是實踐上是達不到的。不到的。l普通才干與成就檢驗的信度系數在普通才干與成就檢驗的信度系數在0.900.90以以上;人格、興趣等檢驗的信度通常在上;人格、興趣等檢驗的信度通常在0.80-0.850.80-0.85之間。之間。l普通來說,當普通來說,當rxx 0.70rxx 0.70rxx 0.70時
14、,可用于團體間比較;當時,可用于團體間比較;當rxx 0.85rxx 0.85時,可用于鑒別個人。時,可用于鑒別個人。幾種心思檢驗的信度系數幾種心思檢驗的信度系數檢驗類型檢驗類型信度信度低低中中高高成套成就檢驗0.660.920.98學術才干檢驗0.560.900.97成套傾向性檢驗0.260.880.96客觀人格檢驗0.460.850.97興趣問卷0.420.840.93態度量表0.470.790.983、信度的影響要素、信度的影響要素l 受試者個體耐久而泛化的特性:受試者個體耐久而泛化的特性:l進展檢驗的普通技藝程度進展檢驗的普通技藝程度l了解檢驗指示語的普通才干程度了解檢驗指示語的普通才
15、干程度l進展類似檢驗的普通的人格特質進展類似檢驗的普通的人格特質l 受試者個體耐久而特殊的特性:受試者個體耐久而特殊的特性:l進展某項檢驗或其方式需求的特殊的技藝、進展某項檢驗或其方式需求的特殊的技藝、才干才干 和特質;以及穩定的反映定勢;和特質;以及穩定的反映定勢;l對某個檢驗工程內容的熟習程度對某個檢驗工程內容的熟習程度l 受試者個體短時而泛化的特性:受試者個體短時而泛化的特性:l安康、疲勞、動機、心情形狀、檢驗自若性;溫安康、疲勞、動機、心情形狀、檢驗自若性;溫度、度、 光亮、通風等檢驗外部條件光亮、通風等檢驗外部條件l 受試者個體短時而特殊的特性l對特殊檢驗的了解,檢驗所需求的特殊技巧
16、;為做檢驗所進展的練習;l對檢驗工程內容的留意、記憶等的飄忽不定。l 影響檢驗過程和解釋的外部要素系統改動l檢驗條件;對檢驗的各種限制;干擾程度;指示語的明晰度;l受試者在個性、性別、種族等與檢驗主試的交互作用;l對檢驗結果的不一致或有偏向的評判。l無法解釋的變化隨機要素l猜測、運氣,以及暫時的干擾12-1-2 12-1-2 信度的評價方法信度的評價方法l針對不同的誤差來源,信度可以有不同確實定方法。針對不同的誤差來源,信度可以有不同確實定方法。信度系數類型信度系數類型誤差來源誤差來源重測信度重測信度時間取樣時間取樣復本信度即時復本信度即時內容取樣內容取樣重測復本信度延遲重測復本信度延遲時間和
17、內容取樣時間和內容取樣分半信度分半信度內容取樣內容取樣同質性信度同質性信度內容的異質性內容的異質性評分者信度評分者信度評分者間差別評分者間差別1 1、重測信度、重測信度(test-retest reliability)(test-retest reliability)l又稱為穩定性系數,是采用重測法計算信度的又稱為穩定性系數,是采用重測法計算信度的方法,即用同一檢驗在不同時間對同一對象施方法,即用同一檢驗在不同時間對同一對象施測兩次,兩次丈量分數的相關系數即為重測系測兩次,兩次丈量分數的相關系數即為重測系數。數。l人事丈量所測查的特質中,有相當多的內容具人事丈量所測查的特質中,有相當多的內容具
18、有一定的穩定性,如人格、才干傾向等,因此,有一定的穩定性,如人格、才干傾向等,因此,對于這些內容而言,重測信度對于衡量丈量工對于這些內容而言,重測信度對于衡量丈量工具的質量是很重要的目的。具的質量是很重要的目的。l在日常生活中,他也許經常到市場上去買東西。假在日常生活中,他也許經常到市場上去買東西。假設他買了設他買了5 5斤瘦肉后覺得比上次少了點,沒有那么重,斤瘦肉后覺得比上次少了點,沒有那么重,那么他可以本人再用稱稱一下。假設也是那么他可以本人再用稱稱一下。假設也是5 5斤,那么斤,那么他能夠就會覺得確實有他能夠就會覺得確實有5 5斤。這是由于兩次稱得的結斤。這是由于兩次稱得的結果完全一致,
19、變異度為果完全一致,變異度為0 0。l人的素質測評沒有這么簡單,由于素質本身又是無人的素質測評沒有這么簡單,由于素質本身又是無法準確定義,因此我們經常把對個體測評結果的準法準確定義,因此我們經常把對個體測評結果的準確性檢驗,置于群體測評結果的相互關系之中,轉確性檢驗,置于群體測評結果的相互關系之中,轉化為兩次位置關系的一致性分析。當同一對象的測化為兩次位置關系的一致性分析。當同一對象的測評結果以同樣的測評方式再次獲得后,其順序位置評結果以同樣的測評方式再次獲得后,其順序位置關系變異很小時,那么闡明測評結果比較準確。關系變異很小時,那么闡明測評結果比較準確。l例如:在技藝測評中例如:在技藝測評中
20、A A分數分數8888,在全體被測者中排名,在全體被測者中排名第一。這能否可靠可信?我們可以再測一次,結果第一。這能否可靠可信?我們可以再測一次,結果A A分數分數9595,還是排名第一,而且其他被測的位置順序,還是排名第一,而且其他被測的位置順序變化很小。這時我們可以說第一次的技藝測評結果變化很小。這時我們可以說第一次的技藝測評結果是可靠的信度高。是可靠的信度高。重測信度的調查對象重測信度的調查對象l重測信度所調查的誤差來源是時間的變化所帶來的隨機影重測信度所調查的誤差來源是時間的變化所帶來的隨機影響氣候、噪音的干擾、疾病、疲勞、心情的影響等,響氣候、噪音的干擾、疾病、疲勞、心情的影響等,根
21、據重測相關系數的高低,可以得知丈量結果在經過一段根據重測相關系數的高低,可以得知丈量結果在經過一段時間之后的穩定程度。重測信度表示丈量可以運用于不同時間之后的穩定程度。重測信度表示丈量可以運用于不同時間的程度,信度越高闡明丈量結果受環境中日常的隨機時間的程度,信度越高闡明丈量結果受環境中日常的隨機要素影響越小,丈量結果越穩定、可靠。要素影響越小,丈量結果越穩定、可靠。l評價重測信度時,要留意重測間隔的時間,時間太短被試評價重測信度時,要留意重測間隔的時間,時間太短被試對測試題記憶猶新,必然會呵斥假性相關;時間太長,檢對測試題記憶猶新,必然會呵斥假性相關;時間太長,檢驗結果又會受應試者的身心特質
22、改動的影響,使相關系數驗結果又會受應試者的身心特質改動的影響,使相關系數降低。間隔時間的長短必需根據檢驗的性質和目的來確定。降低。間隔時間的長短必需根據檢驗的性質和目的來確定。假設希望丈量結果能預測較長時間的變化,那么重測間隔假設希望丈量結果能預測較長時間的變化,那么重測間隔時間應該長一些。例如人格檢驗普通間隔時間應該長一些。例如人格檢驗普通間隔2-62-6個月比較適個月比較適宜。宜。運用重測信度應留意:運用重測信度應留意:l重測信度普通只反映由隨機要素導致的變化,而不反映被測者重測信度普通只反映由隨機要素導致的變化,而不反映被測者行為的長久變化。例如被測者智力的開展與才干的提高,不是行為的長
23、久變化。例如被測者智力的開展與才干的提高,不是重測信度調查的要素。這些要素導致的重測相關系數的降低,重測信度調查的要素。這些要素導致的重測相關系數的降低,不能闡明檢驗的重測信度低。不能闡明檢驗的重測信度低。l不同行為受隨即誤差影響不同。例如手指矯捷性就比言語了解不同行為受隨即誤差影響不同。例如手指矯捷性就比言語了解力更容易受疲勞、環境等要素的影響。因此必需分析丈量目的力更容易受疲勞、環境等要素的影響。因此必需分析丈量目的和了解所預測的行為。當丈量的行為或特質較為穩定時,重測和了解所預測的行為。當丈量的行為或特質較為穩定時,重測信度的解釋才有效。信度的解釋才有效。l只需不大容易受反復影響的檢驗,
24、如覺得只需不大容易受反復影響的檢驗,如覺得- -運動檢驗或人格檢運動檢驗或人格檢驗,才比較適宜用重測法計算信度系數。由于被測者一旦知道驗,才比較適宜用重測法計算信度系數。由于被測者一旦知道答案就不容易忘記,從而呵斥假性相關。答案就不容易忘記,從而呵斥假性相關。2、復本信度、復本信度(alternative-form reliability)l又稱為等值性系數,它是以兩個檢驗復本功又稱為等值性系數,它是以兩個檢驗復本功能等值但標題內容不同來丈量同一對象,然能等值但標題內容不同來丈量同一對象,然后求得被測者在這兩個檢驗上得分的相關系數。后求得被測者在這兩個檢驗上得分的相關系數。復本信度反映了兩個檢
25、驗復本在內容上的等值復本信度反映了兩個檢驗復本在內容上的等值性程度。性程度。l復本信度思索的是內容取樣誤差的影響問題,復本信度思索的是內容取樣誤差的影響問題,計算復本信度的主要目的在于調查兩個檢驗復計算復本信度的主要目的在于調查兩個檢驗復本的標題取樣或內容取樣能否等值。本的標題取樣或內容取樣能否等值。l優點:優點:l可以防止重測信度的一些問題,如記憶效果、練習效可以防止重測信度的一些問題,如記憶效果、練習效應等;應等;l適用于進展長期追蹤研討或調查某些干涉變量對檢驗適用于進展長期追蹤研討或調查某些干涉變量對檢驗成果的影響;成果的影響;l減少了輔導或作弊的能夠性。減少了輔導或作弊的能夠性。l缺陷
26、:缺陷:l假設丈量的行為受練習的影響,復本信度只能減少而假設丈量的行為受練習的影響,復本信度只能減少而不能消除這種影響;不能消除這種影響;l有些檢驗的性質會由于反復丈量而發生改動,例如某有些檢驗的性質會由于反復丈量而發生改動,例如某些問題處理型的檢驗,假設掌握了解題原那么就有能些問題處理型的檢驗,假設掌握了解題原那么就有能夠產生遷移,尤其當復本只是在標題詳細內容上有改夠產生遷移,尤其當復本只是在標題詳細內容上有改動時,這種正遷移的作用會很強;動時,這種正遷移的作用會很強;l有些檢驗很難找到復本。有些檢驗很難找到復本。3、一致性信度、一致性信度Consistency Reliabilityl一致
27、性信度又稱為同質性信度,是指一個測評活分測評一致性信度又稱為同質性信度,是指一個測評活分測評中各個標題所測內容的一致性。中各個標題所測內容的一致性。l同質性是保證測評只丈量同一特質的必要條件。也就是同質性是保證測評只丈量同一特質的必要條件。也就是說,評價一組檢驗標題內部一致性程度,對于確定檢驗說,評價一組檢驗標題內部一致性程度,對于確定檢驗標題能否丈量了同一事物很重要。假好像質性差,那么標題能否丈量了同一事物很重要。假好像質性差,那么表示測評混淆了不同的測評內容,其結果就無從判別終表示測評混淆了不同的測評內容,其結果就無從判別終究能否反映了被測者的某一特質。究能否反映了被測者的某一特質。一致性
28、信度的作用一致性信度的作用l重測信度和復本信度分別注重思索丈量跨時間的重測信度和復本信度分別注重思索丈量跨時間的一致性穩定性和跨方式的一致性等值性,一致性穩定性和跨方式的一致性等值性,而內部一致性信度用內部一致性系數表示,主要而內部一致性信度用內部一致性系數表示,主要反映的是檢驗內部標題之間的關系,調查檢驗的反映的是檢驗內部標題之間的關系,調查檢驗的各個標題能否丈量了一樣的內容或特質,即檢驗各個標題能否丈量了一樣的內容或特質,即檢驗內部各部分之間具有同質性檢驗同一特性的各內部各部分之間具有同質性檢驗同一特性的各個工程的得分呈正相關。個工程的得分呈正相關。l同質性的檢驗,其結果的解釋較為明確。例
29、如:同質性的檢驗,其結果的解釋較為明確。例如:在一個同質性的言語邏輯推理才干檢驗中,應試在一個同質性的言語邏輯推理才干檢驗中,應試者的得分可以反映其言語邏輯推理才干的高低;者的得分可以反映其言語邏輯推理才干的高低;而假設一個檢驗既包含有測查邏輯推理才干的試而假設一個檢驗既包含有測查邏輯推理才干的試題,又含有測查數量分析才干的試題,那么在應題,又含有測查數量分析才干的試題,那么在應試者得分低的情況下,就無法闡明被測者究竟哪試者得分低的情況下,就無法闡明被測者究竟哪種才干缺乏。種才干缺乏。一致性信度運用實例一致性信度運用實例l例如:在人格測評中,樂觀心情特質和外向特質是例如:在人格測評中,樂觀心情
30、特質和外向特質是兩個容易混淆的內容,這就要求測評設計時可以找兩個容易混淆的內容,這就要求測評設計時可以找到相應的標題把二者區分開來。到相應的標題把二者區分開來。l再例如:在調查管理技藝時,預測和決策、監視和再例如:在調查管理技藝時,預測和決策、監視和控制等都是不太容易區分的,對標題設計的要求就控制等都是不太容易區分的,對標題設計的要求就相當高,否那么就會把不同技藝混淆,導致結論錯相當高,否那么就會把不同技藝混淆,導致結論錯誤和用人失誤。誤和用人失誤。l在設計測評標題時,一切測評標題都要保證只丈量在設計測評標題時,一切測評標題都要保證只丈量一種特質或內容,假設需求在一個測評中丈量不同一種特質或內
31、容,假設需求在一個測評中丈量不同內容,就應該將測評設計為幾個分測評進展分別測內容,就應該將測評設計為幾個分測評進展分別測評。例如評。例如16PF16PF人格測評就包括人格測評就包括1616個分測評,每個分個分測評,每個分測評量表只對一種人格特質進展測評。測評量表只對一種人格特質進展測評。一致性信度的計算方法一致性信度的計算方法l分半信度分半信度工程折半分析,是經過將檢驗分成工程折半分析,是經過將檢驗分成兩半,計算這兩半檢驗之間的相關性而獲得的信兩半,計算這兩半檢驗之間的相關性而獲得的信度系數。通常的方法是在檢驗實施后將檢驗分為度系數。通常的方法是在檢驗實施后將檢驗分為等值的兩半,并分別計算每位
32、被測者在兩半檢驗等值的兩半,并分別計算每位被測者在兩半檢驗上的得分,再求出這兩個分數的相關系數。這個上的得分,再求出這兩個分數的相關系數。這個相關系數就代表了兩半檢驗內容取樣的一致性程相關系數就代表了兩半檢驗內容取樣的一致性程度。度。l同質性信度同質性信度系數分析,是指檢驗內部的各標系數分析,是指檢驗內部的各標題在多大程度上調查了同一內容,即一切檢驗標題在多大程度上調查了同一內容,即一切檢驗標題丈量的只是單一特質或內容,表現為一切檢驗題丈量的只是單一特質或內容,表現為一切檢驗標題得分的一致性。標題得分的一致性。4、評分者信度raters reliabilityl在有些丈量情形中,評分者的評判也
33、是誤差的來源在有些丈量情形中,評分者的評判也是誤差的來源之一。例如投射檢驗、發明力檢驗、無指點小組討之一。例如投射檢驗、發明力檢驗、無指點小組討論、管理者情境模擬等,都依賴于評分者的判別,論、管理者情境模擬等,都依賴于評分者的判別,這種判別的客觀性往往呵斥不同評分者的評分很不這種判別的客觀性往往呵斥不同評分者的評分很不一致,因此有必要思索評分者信度。一致,因此有必要思索評分者信度。l評分者信度是指不同評分者對同一對象進展評定時評分者信度是指不同評分者對同一對象進展評定時的一致性。最簡單的估計方法就是隨機抽取假設干的一致性。最簡單的估計方法就是隨機抽取假設干份答卷,由兩個獨立的評分者打分,再求每
34、份答卷份答卷,由兩個獨立的評分者打分,再求每份答卷兩個評判分數的相關系數。評分者的評分越一致,兩個評判分數的相關系數。評分者的評分越一致,評分者信度越高。等級相關評分者信度越高。等級相關信度小結:信度小結:l各種信度評價的適用情景:各種信度評價的適用情景:l重測信度評價偏重調查測評跨時間的一致性重測信度評價偏重調查測評跨時間的一致性和穩定性;和穩定性;l復本信度評價偏重調查測評跨方式的一致性復本信度評價偏重調查測評跨方式的一致性和等值性;和等值性;l內部一致性信度評價主要反映的是一個測評內部一致性信度評價主要反映的是一個測評內部標題之間的關系,提示測評的各個標題內部標題之間的關系,提示測評的各
35、個標題能否丈量了一樣的內容或特質。能否丈量了一樣的內容或特質。l評分者信度評價主要是調查評分者的客觀誤評分者信度評價主要是調查評分者的客觀誤差。差。思索題:l與對某人品德測評分數的可靠性進展調查,隨機與對某人品德測評分數的可靠性進展調查,隨機抽取其中抽取其中1010個被試的分數,分別是:個被試的分數,分別是:7474、7171、8080、8585、7676、7777、7777、6868、7474、7474,再次測評后,再次測評后1010個個被試的分數分別是:被試的分數分別是:8282、7575、8181、8989、8282、8989、8888、8484、8080、8787。請問可以用什么方法評
36、價測評。請問可以用什么方法評價測評的可靠性?的可靠性?l假設一個部門的三個經理分別給部門的幾十位員假設一個部門的三個經理分別給部門的幾十位員工考核,他以為該當怎樣檢查三位評分者評定的工考核,他以為該當怎樣檢查三位評分者評定的可靠性?可靠性?l某面試考官對被試的某面試考官對被試的7 7項素質進展測評,總共面試項素質進展測評,總共面試了了8 8位被測者,其評定等級如下表,請考評一下這位被測者,其評定等級如下表,請考評一下這位面試考官的面試結果能否可靠?位面試考官的面試結果能否可靠? 測評工程被測者1234567A3651427B5641327C2751436D3672415E4762315F456
37、2317G3742516H2741635Ri2651411232144812-2 丈量的效度l效度是評價丈量工具好壞的重要規范之一。較高效度是評價丈量工具好壞的重要規范之一。較高的效度是一個良好的丈量工具最重要的特性,是的效度是一個良好的丈量工具最重要的特性,是必要條件,也是選擇和評價丈量工具質量的重要必要條件,也是選擇和評價丈量工具質量的重要根據。普通來說。效度的作用比信度的作用更為根據。普通來說。效度的作用比信度的作用更為重要。假設一個檢驗效度很低,無論它的信度有重要。假設一個檢驗效度很低,無論它的信度有多高,這項檢驗都沒有運用價值。效度高的丈量多高,這項檢驗都沒有運用價值。效度高的丈量工
38、具往往信度也高。工具往往信度也高。l經過對效度的分析,可以了解對所要丈量的心思經過對效度的分析,可以了解對所要丈量的心思學變量的丈量準確程度如何,以及對外在規范的學變量的丈量準確程度如何,以及對外在規范的預測才干怎樣。效度高的丈量工具,既可以準確預測才干怎樣。效度高的丈量工具,既可以準確的丈量出目的心思特質,又可以根據丈量結果做的丈量出目的心思特質,又可以根據丈量結果做出正確的推論。出正確的推論。12-2-1 12-2-1 效度及其影響要素效度及其影響要素1、效度的概念、效度的概念丈量結果的效度就是指丈量的有效性,即可丈量結果的效度就是指丈量的有效性,即可以丈量到所要丈量目的的程度,反映了丈以
39、丈量到所要丈量目的的程度,反映了丈量結果對丈量目的的表達程度。效度的高量結果對丈量目的的表達程度。效度的高低只需程度上的差別,不存在完全沒有或低只需程度上的差別,不存在完全沒有或完全有的情況。完全有的情況。效度可以看作為對有用性和準確性的丈量,效度可以看作為對有用性和準確性的丈量,回答的是回答的是“對什么有用?或對什么有用?或“我怎樣知道我怎樣知道這個檢驗能否值得用?的問題,普通被這個檢驗能否值得用?的問題,普通被定義為檢驗能丈量到所要丈量東西的程度。定義為檢驗能丈量到所要丈量東西的程度。在評價任何檢驗時這都是最重要的思索。在評價任何檢驗時這都是最重要的思索。“效度指從分數進展推論的證據的程度
40、。效度指從分數進展推論的證據的程度。英國英國效度與信度的關系效度與信度的關系l二者的區別:信度與效度的差別在于所思索二者的區別:信度與效度的差別在于所思索的誤差不同。信度思索的是隨機誤差的影響;的誤差不同。信度思索的是隨機誤差的影響;效度思索的誤差包括隨機誤差和對檢驗目的效度思索的誤差包括隨機誤差和對檢驗目的無關的變量引起的系統誤差。無關的變量引起的系統誤差。l二者的聯絡:信度是效度的必要條件,但不二者的聯絡:信度是效度的必要條件,但不是充分條件。換句話說,信度高不一定效度是充分條件。換句話說,信度高不一定效度必然高。但效度高必定信度高。必然高。但效度高必定信度高。2、效度的作用l就好似用磅秤
41、丈量身高,每次丈量的結果都很就好似用磅秤丈量身高,每次丈量的結果都很不斷穩定信度很高,但它并不能代表身高,不斷穩定信度很高,但它并不能代表身高,也就是說其丈量值并不反映身高這一屬性效也就是說其丈量值并不反映身高這一屬性效度很低,所以說,磅秤不是身高這一丈量對度很低,所以說,磅秤不是身高這一丈量對象的適宜丈量工具。象的適宜丈量工具。l例如例如,一個數學檢驗能夠對學生的數學成果的預一個數學檢驗能夠對學生的數學成果的預測效度很好,但對學生整體智力的預測效度就測效度很好,但對學生整體智力的預測效度就沒有那么好,對學生的性格能夠根本就沒有預沒有那么好,對學生的性格能夠根本就沒有預測效度。測效度。3、效度
42、的影響要素l一個檢驗效度的高低,很大程度上取決于該一個檢驗效度的高低,很大程度上取決于該檢驗受無關要素影響的程度。凡是能呵斥檢檢驗受無關要素影響的程度。凡是能呵斥檢驗結果誤差的要素,都會影響檢驗效度。驗結果誤差的要素,都會影響檢驗效度。l檢驗標題的質量:難易程度、暗示性、題意檢驗標題的質量:難易程度、暗示性、題意表達、試題內容取樣的代表性表達、試題內容取樣的代表性l實施檢驗時的干擾要素:指點語、計分錯誤實施檢驗時的干擾要素:指點語、計分錯誤l被試的影響要素:反響定勢、檢驗動機、心被試的影響要素:反響定勢、檢驗動機、心情情l檢驗的長度:添加檢驗標題往往能添加檢驗檢驗的長度:添加檢驗標題往往能添加
43、檢驗的信度和效度。的信度和效度。12-2-2 12-2-2 效度的評價方法效度的評價方法l對丈量效度的調查反映在下面兩個問題之中:對丈量效度的調查反映在下面兩個問題之中:l該檢驗可以很好的預測我們感興趣的成果嗎?該檢驗可以很好的預測我們感興趣的成果嗎?l該檢驗真正丈量的是什么?該檢驗真正丈量的是什么?l第一個問題集中于效標,也就是判別一個檢驗預第一個問題集中于效標,也就是判別一個檢驗預測的勝利性的規范。這就要求建立檢驗成果與那測的勝利性的規范。這就要求建立檢驗成果與那個規范之間的關系。預測效度個規范之間的關系。預測效度l第二個問題集中于檢驗,要求明確關于檢驗所丈第二個問題集中于檢驗,要求明確關
44、于檢驗所丈量目的的內在實際或心思想象。內容效度量目的的內在實際或心思想象。內容效度l檢驗效度不能按籠統的方式去丈量,而只能根據檢驗效度不能按籠統的方式去丈量,而只能根據檢驗所思索的特定用途去丈量,在決議能否運用檢驗所思索的特定用途去丈量,在決議能否運用檢驗時,我們需求了解從知檢驗結果做出某種推檢驗時,我們需求了解從知檢驗結果做出某種推論的有效性,也就是說,我們是證明檢驗的有效論的有效性,也就是說,我們是證明檢驗的有效性,還是證明我們希望對檢驗結果進展推論的有性,還是證明我們希望對檢驗結果進展推論的有效性。對于一個特定問題,丈量目的決議了所用效性。對于一個特定問題,丈量目的決議了所用的效度評定方
45、法,問題是關于運用檢驗成果來預的效度評定方法,問題是關于運用檢驗成果來預測在校標上的成果,還是關于研討檢驗實踐丈量測在校標上的成果,還是關于研討檢驗實踐丈量的內容或想象。的內容或想象。1、內容效度、內容效度content validityl內容效度是一個檢驗實踐測到的內容與所要丈量內容效度是一個檢驗實踐測到的內容與所要丈量的內容之間的吻合程度,是檢查檢驗內容能否是的內容之間的吻合程度,是檢查檢驗內容能否是所預丈量的行為領域的代表性取樣的目的。所預丈量的行為領域的代表性取樣的目的。l在實踐任務中我們編制的檢驗不能夠包含所要丈在實踐任務中我們編制的檢驗不能夠包含所要丈量的行為領域的全部能夠的資料或
46、情境,只能選量的行為領域的全部能夠的資料或情境,只能選擇一個有代表性的樣本,經過察看被試對個別標擇一個有代表性的樣本,經過察看被試對個別標題的反響,來推測他的總體行為表現。題的反響,來推測他的總體行為表現。l運用范圍:主要運用于成就檢驗、職業選拔和分類人事檢驗。l內容效度適宜于選拔和分類人事檢驗,由于這類檢驗內容是實踐任務的一個樣本,應包含實踐任務所需求的技藝和知識,經過內容效度的分析來確定檢驗能否丈量了實踐任務中需求的知識和技藝。l內容效度普通不適用于才干傾向檢驗和人格檢驗,由于這類檢驗不太要求與所取樣的行為領域的內在類似性,其檢驗標題的選擇更多的受某種假設的指點。l此外,才干傾向和人格檢驗
47、與成就檢驗不同,他們不是建立在某種課程或知識根底上,在對一樣的標題做出反響時,每個被試運用的方法和心思過程是很不一樣的,同一檢驗對不同被試來說丈量的是不同的心思過程。在這種情況下,不能夠從檢查檢驗的內容來確定檢驗丈量的功能。l內容效度的評價可以回答:內容效度的評價可以回答:l該檢驗能否是應調查的某種技藝和知識的該檢驗能否是應調查的某種技藝和知識的代表性樣本代表性樣本l檢驗成果能否不受無關要素的影響檢驗成果能否不受無關要素的影響l內容效度對效標參照檢驗尤為重要,由于內容效度對效標參照檢驗尤為重要,由于在校標參照檢驗中,被試的表現往往以檢在校標參照檢驗中,被試的表現往往以檢驗內容來解釋。驗內容來解
48、釋。確定內容效度的方法l藍圖對照分析法:藍圖對照分析法:19991999年全國碩士研討生年全國碩士研討生入學考試英語試卷構造框架入學考試英語試卷構造框架l專家比較判別法:專家比較判別法:C Cn nN N2 2N N2 2N N為專家總數,為專家總數,n n為一定人數為一定人數部分節 考試內容試題方式試題量分值權重考試時間語法構造與詞匯A語法填空單句 四選一1052020%35B語法辨錯單句 四選一105C詞語填空單句 四選一2010完形填空完形填空1篇短文四選一101010%15閱讀了解閱讀了解5篇短文四選一204040%60英譯漢正確了解英語原文并用漢語表達原文所述內容五段譯文51515%
49、30短文寫作根據所給標題或素材寫出表達、闡明或議論性的短文一篇作文11515%40總計76100100%1802、效標關聯效度、效標關聯效度criterion-related validityl效標關聯效度又稱為效標效度,指測評結果與某種效標關聯效度又稱為效標效度,指測評結果與某種規范結果的一致性程度,反映的是檢驗分數與外在規范結果的一致性程度,反映的是檢驗分數與外在規范效標的相關程度,即檢驗分數對個體的效規范效標的相關程度,即檢驗分數對個體的效標行為表現進展預測的有效性程度。效標是調查標行為表現進展預測的有效性程度。效標是調查檢驗成效的外在參照規范。檢驗成效的外在參照規范。l效標關聯效度往往
50、用于預測性檢驗,在這些檢驗中,效標關聯效度往往用于預測性檢驗,在這些檢驗中,檢驗分數普通用于甄選決策,只需當證明檢驗分數檢驗分數普通用于甄選決策,只需當證明檢驗分數確實可以預測所研討的行為時,這種決策才能夠正確實可以預測所研討的行為時,這種決策才能夠正確。確。效標效度的種類效標效度的種類l根據效標結果與測評分數獲得的時間能否一樣可分根據效標結果與測評分數獲得的時間能否一樣可分為預測效度和同時效度。同時效度的效標資料可以為預測效度和同時效度。同時效度的效標資料可以和檢驗分數差不多同時搜集。預測效度的效標資料和檢驗分數差不多同時搜集。預測效度的效標資料是在丈量終了后相隔一段時間才獲得的,它反映的是
51、在丈量終了后相隔一段時間才獲得的,它反映的是由檢驗分數對任一段時間間隔后被試行為表現的是由檢驗分數對任一段時間間隔后被試行為表現的預測程度。適用于對人員進展選拔、分類、安頓的預測程度。適用于對人員進展選拔、分類、安頓的人事丈量,這些丈量需求對應試者未來的任務績效人事丈量,這些丈量需求對應試者未來的任務績效進展可靠的預測。進展可靠的預測。l二者的差別根源不在于搜集效標的時間,而是在于二者的差別根源不在于搜集效標的時間,而是在于預測目的的不同,預測效度多用于預測未來的結果,預測目的的不同,預測效度多用于預測未來的結果,同時效度多用于診斷如今的形狀。同時效度多用于診斷如今的形狀。l“某人勝利了嗎?或
52、某人勝利了嗎?或“某人患病了嗎?某人患病了嗎?l“某人會勝利嗎?或某人會勝利嗎?或“某人會患病嗎?某人會患病嗎?常見效標種類常見效標種類l學術成就學術成就前提是前提是“智力高的人,學術成就應該智力高的人,學術成就應該越大越大 。如:在校成果、學歷、研討成果等。如:在校成果、學歷、研討成果等。l特殊訓練成果特殊訓練成果才干傾向檢驗成果常用某種特才干傾向檢驗成果常用某種特殊訓練中獲得的成果做效標。如:言語智商用語殊訓練中獲得的成果做效標。如:言語智商用語文成果做效標;機械才干用技術培訓成果做效標文成果做效標;機械才干用技術培訓成果做效標等。等。l實踐任務表現實踐任務表現l團體特征團體特征用兩個在效
53、標表現上有差別的團體用兩個在效標表現上有差別的團體比較他們在預測源分數上的差別。如:一個音樂比較他們在預測源分數上的差別。如:一個音樂傾向檢驗的效度,可以由比較音樂學院學生的分傾向檢驗的效度,可以由比較音樂學院學生的分數與普通大學生分數獲得。數與普通大學生分數獲得。l等級評定結果等級評定結果l前期測評結果前期測評結果3、構造效度、構造效度construct validityl構造效度是指檢驗可以丈量到實際上的想象或特質構造效度是指檢驗可以丈量到實際上的想象或特質的程度。所謂想象通常指一些籠統的、假設性的概的程度。所謂想象通常指一些籠統的、假設性的概念或特質,如智力、發明力、言語流暢性、焦慮等。
54、念或特質,如智力、發明力、言語流暢性、焦慮等。這些想象無法直接察看。但是每個想象都有其心思這些想象無法直接察看。但是每個想象都有其心思上的實際根底和客觀現實性,可以經過各種可察看上的實際根底和客觀現實性,可以經過各種可察看的資料加以確定。的資料加以確定。l例如言語流暢性可以經過語速、語句間的邏輯性、例如言語流暢性可以經過語速、語句間的邏輯性、口誤的數量等可察看的目的進展確定。口誤的數量等可察看的目的進展確定。l適用范圍:適用于智力檢驗、人格檢驗等。適用范圍:適用于智力檢驗、人格檢驗等。確定想象效度的方法確定想象效度的方法1 1、提出實際假設,并將其分解成細目;、提出實際假設,并將其分解成細目;
55、2 2、根據實際框架,推上演有關檢驗成果的假設操、根據實際框架,推上演有關檢驗成果的假設操作化定義;作化定義;3 3、用邏輯的和實證的方法來驗證假設排除法、咨、用邏輯的和實證的方法來驗證假設排除法、咨詢法、相關法、邏輯分析法、多元分析法。詢法、相關法、邏輯分析法、多元分析法。例如:韋克斯勒首先假設例如:韋克斯勒首先假設“智力是一個人去了解和應智力是一個人去了解和應付他周圍世界的總的才干,然后,他根據這一付他周圍世界的總的才干,然后,他根據這一定義,編制定義,編制1111個分檢驗從十幾個方面來闡明智力,個分檢驗從十幾個方面來闡明智力,編好檢驗又從多個角度加以驗證,最后,用要素編好檢驗又從多個角度
56、加以驗證,最后,用要素分析法驗證,該檢驗實踐丈量了三類共同要素,分析法驗證,該檢驗實踐丈量了三類共同要素,即即A A要素言語了解、要素言語了解、B B要素知覺組織、要素知覺組織、C C要要素記憶和留意集中。素記憶和留意集中。12-3 12-3 工程分析工程分析l工程分析是指根據試測結果對組成檢驗的各個工程分析是指根據試測結果對組成檢驗的各個標題工程進展分析,從而評價標題好壞、標題工程進展分析,從而評價標題好壞、對標題進展挑選的程序和方法。經過工程分析,對標題進展挑選的程序和方法。經過工程分析,對檢驗標題進展選擇和修正,可以提高檢驗的對檢驗標題進展選擇和修正,可以提高檢驗的信度和效度。了解工程分
57、析的概念和方法,可信度和效度。了解工程分析的概念和方法,可以協助檢驗運用者評價現有的各種檢驗。以協助檢驗運用者評價現有的各種檢驗。l定性分析:主要思索內容效度,即標題表達的定性分析:主要思索內容效度,即標題表達的恰當性和有效性等方面。恰當性和有效性等方面。l定量分析:主要調查標題難度和鑒別度能否適定量分析:主要調查標題難度和鑒別度能否適當。當。12-3-1 12-3-1 丈量的難度分析丈量的難度分析l難度分析就是對標題的難度進展估計以確定適宜的難度,難度分析就是對標題的難度進展估計以確定適宜的難度,難度的目的通常以難度的目的通常以“經過率表示,即答對或經過該標題的經過率表示,即答對或經過該標題
58、的人數百分比。經過人數越多標題越容易。也可用高分組和人數百分比。經過人數越多標題越容易。也可用高分組和低分組的經過率的平均值表示。低分組的經過率的平均值表示。l檢驗難度確實定,要根據檢驗的目的、性質和標題的方式檢驗難度確實定,要根據檢驗的目的、性質和標題的方式而定。而定。l檢驗目的:難度極大或難度極小時,都不容易區分個體差檢驗目的:難度極大或難度極小時,都不容易區分個體差別。難度中等的標題比較適宜區分個體差別。別。難度中等的標題比較適宜區分個體差別。l檢驗作用:選拔性檢驗應使難度接近錄取率。檢驗作用:選拔性檢驗應使難度接近錄取率。l標題方式:選擇題的難度普通應大于概率程度如四選一標題方式:選擇
59、題的難度普通應大于概率程度如四選一標題難度標題難度0.630.63最適宜;是非題難度應該為最適宜;是非題難度應該為0.750.75最適宜。最適宜。12-3-2 12-3-2 丈量的鑒別度分析丈量的鑒別度分析l工程鑒別度是指檢驗工程對于所測查的心思特性的工程鑒別度是指檢驗工程對于所測查的心思特性的鑒別才干和區分程度,可以從工程效度和內部一致鑒別才干和區分程度,可以從工程效度和內部一致性方面進展思索。性方面進展思索。l工程效度分析工程效度分析主要以效標為根據,調查被試在主要以效標為根據,調查被試在每個試題上的反響與其在效標上表現的相關程度,每個試題上的反響與其在效標上表現的相關程度,即每個試題所測
60、查的行為能否反映了被試在效標上即每個試題所測查的行為能否反映了被試在效標上的表現。的表現。l內部一致性分析內部一致性分析有時進展工程分析難以找到適有時進展工程分析難以找到適宜的效標,這是就用檢驗總分替代效標,調查每個宜的效標,這是就用檢驗總分替代效標,調查每個試題與總分的一致性。試題與總分的一致性。12-3-3 檢驗的公平性分析檢驗的公平性分析l擲骰子或扔硬幣協助做決策他以為公平嗎?擲骰子或扔硬幣協助做決策他以為公平嗎?l結果的公平性:在職業選拔中,結果公平指選用結果的公平性:在職業選拔中,結果公平指選用了了“最好最好 的人。如何定義的人。如何定義“最好最好 以及怎樣確以及怎樣確保保“最好最好
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- VFP考試同行評議試題及答案
- 邏輯素養提升策略試題及答案
- 經濟法基礎知識競爭題及答案
- 2025年計算機二級Web考試系統思考試題及答案
- JAVA編程項目中的測試策略及試題及答案
- 軟件設計師職場素養與能力試題及答案
- C語言中的并發編程技術及應用試題及答案
- 2025年計算機四級考試樣題及答案分享
- 神奇C語言2025年考試試題及答案
- 2025年JAVA考試最具挑戰性題目試題及答案
- 設備交接資料清單
- 20g管道焊接工藝要求
- 工程經濟學案例分析課程設計
- 民法典企業宣講會
- 科創項目可行性研究報告
- 全麻術后舌后墜護理
- 《無人機攝影測量》考試復習題庫(含答案)
- 韓國《寄生蟲》電影鑒賞解讀
- 市職業技能培訓工作調研報告
- 焊縫外觀質量檢驗標準
- 護理題庫-基層衛生崗位練兵和技能競賽試題
評論
0/150
提交評論