




版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
第三章教育測量與評價的質量特性教育測量與評價的信度教育測量與評價的效度教育測量與評價中項目的難度教育測量與評價中項目的區分度信度的意義
信度是指測量結果的穩定性程度,記為rXX
。換一句話說,信度是指用同一測量工具反復測量同一種物質對象所得多次測量結果間的一致性程度。測驗信度是對測驗工具及其操作的整體質量的一種量度,是測驗性能的重要質量指標。如果測驗本身抗干擾能力強,測驗實施過程各方面誤差因素都控制得好,多次施測所得分數(測值)的一致性就高,那么測量信度高,人們在使用所得測值時就會感覺可靠。信度的統計定義
定義1:信度是一個被測團體真分數方差與觀察分數方差之比。即:rXX=σ2T/σ2X
定義2:信度是一個被試團體的真分數與觀察分數的相關系數的平方。即:rXX=ρ2TX
定義3:信度是一個被試團體在測驗X(A卷)上的觀察分數與在測驗X的任意一個“平行測驗”X′(B卷)上觀察分數的相關系數。即:rXX=
ρXX′重測信度(穩定性系數)(1)重測信度是指用一個量表(測驗或評價表)對同一組被施測兩次所得結果的一致性程度,其大小等于同一組被試在兩次測驗上所得分數的相關系數。(2)重測信度基本假設:某測驗所要測量的潛在特質,短期內不會隨著時間推移而改變。(3)重測信度適用于異質性測驗(一個測驗包括幾個不同的部分,這幾個部分分別測量幾個不同的心理特質,它們之間可能并不存在相關或相關較低),也適用于速度測驗和運動技能測驗。復本信度(等值性系數或等值穩定性系數)
(1)復本信度是指兩個平行測驗(在試題格式、題數、難度、指導語說明、施測要求等方面都相當,并且都用來測量相同潛在特質或屬性,但試題又是不相同的測驗)測量同一批被試所得結果的一致性程度,其大小等于同一批被試在兩個復本測驗上所得分數的相關系數。(2)實施復本測驗的方式:一是在同一個時間連續施測(此時所得的復本信度叫等值性系數),二是間隔一段時間后施測(此時所得復本信度叫等值穩定性系數)。(3)使用復本信度首先要構造出兩份或兩份以上的真正的平行測驗。這是一個很難達到的條件。另外,重測信度的一些不足,在復本信度中仍然存在,需要加以克服。(4)復本信度不僅適用于難度測驗,也是估計速度測驗信度的好方法。(1)同質性信度(內部一致性信度)是指測驗內部所有題目間的一致性程度。這里題目間的一致性含有兩層意思:其一是指所有題目測的是同一種心理特質;其二是所有題目得分之間都具有較高的正相關。(2)同質性信度的基本假設:當一個測驗具有較高的同特性信度時,說明測驗主要測的是某一單個心理特質,由于眾多的題目測試了同一心理特質,那么實測結果就是該特質水平的反映。(3)同質性信度不適用于異質測驗和速度測驗。同質性信度的概念(1)分半信度分半信度指是的將一個測驗分成對等的兩半后,所有被試在這兩半上所得分數的一致性程度。分半信度的計算方法和等值復本信度的方法類似,只不過分半信度計算的是兩個“半測驗”上得分的相關系數,只是半個測驗的信度,還必須用斯皮爾曼—布朗公式加以校正。(2)庫德-理查遜信度該方法適合于測驗題目全部為二分記分題的測驗的內部一致性信度分析。常用的庫德-理查遜公式有:和(3)克龍巴赫系數當測驗題型較多,并非都是二分記分題時,估計測驗信度可采用克龍巴赫系數。其計算公式為:(4)荷伊特信度
1941年荷伊特提出用方差分量比來估計測驗內部一致性的方法,其估計值為:同質性信度的估計方法評分者信度
評分者信度的含義
評分者信度是指多個評分者給同一批人的答卷進行評分的一致性程度。
評分者信度的計算(1)當評分者人數為兩人時,評分者信度等于兩個評分者給同一批被試的答卷所評分數的相關系數。依據數據形式,可采用不同的相關系數計算方法。(2)當評分者人數多于兩人時,評分者信度可用肯德爾和諧系數進行估計。(1)百分比一致性指標(PA)
百分比一致性指標是指同一測驗或兩平行測驗先后兩次施測,其對被試的分類結果一致的比例。其計算公式為:(2)K一致性系數
K一致性系數是指實際被評定為一致的百分比與在理論上被評定為一致的最大可能次數百分比的比率。其計算公式:(其中)(3)K2指數標準參照測驗關注決斷的可靠性,而這種決斷顯然與被試團體的平均水平密切相關。在考慮到這個因素的基礎上,心理統計學家萊芬斯頓提出了K2指數作為考察標準參照測驗信度的指標。其計算公式為:或或標準參照測驗的信度分析測量標準誤
測量標準誤的含義
測量標準誤是指測驗中所得測值偏離真分數的程度,記為SE。
測量標準誤與測驗信度的關系
測量標準誤的意義
測量標準誤是反映測量結果精確性和可靠性的又一指標,同時也是人們正確解釋測驗分數的科學依據。效度的概念效度的意義
效度是指一個測驗或量表實際能測出其所要測量的特性的程度。對這一概念,我們可以從以下幾個方面來理解:
①效度始終是針對一定測量目的而言的;②效度只有程度上的差異;③效度是針對測量結果而言的;④評價一個測量是否有效要多角度、多方面地收集證據。效度的統計定義
效度可定義為目標真分數方差與觀察分數方差之比:rXY=σ2V/σ2X
效度與信度的關系
(1)信度高是效度高的必要而非充分條件(2)效度系數不會大于信度系數的平方根
如何理解“效度”的意義?思考題
效度是指一個測驗或量表實際能測出其所要測量的特性的程度。對這一概念,我們可以從以下幾個方面來理解:(1)效度始終是針對一定測量目的而言的;(2)效度只有程度上的差異;(3)效度是針對測量結果而言的;(4)評價一個測量是否有效要多角度、多方面地收集證據。答:內容效度內容效度的含義及應用范圍
內容效度是指測驗題目樣本對于應測內容與行為領域的代表性程度。如果是教學情境下的成就測驗,那么其內容效度就是看測驗題目樣本能體現教學目標與教材要求的程度。內容效度主要適用于教育測量(尤其是學業成就測驗)的情境中,也適合于某些用于選拔和分類的職業測驗,但不適合某些心理測驗(如智力測驗、人格測驗)。內容效度的分析方法①邏輯分析的方法內容效度的邏輯分析法,即依靠有關專家對測驗題目與應測內容范圍的吻合程度作出判斷。②內容效度的量化分析方法該方法要求專家在仔細審閱測驗目標的基礎上,獨立地對測驗的每個題目作出判斷:“該題目實際測到的內容與其欲測量的目標內容之間相關程度如何,并用四點量表(用完全無關、有點相關、相關較密切、完全相關來表示)來表示這種相關的程度大小”;當兩位專家完成此項工作后,統計弱相關(完全無關、有點相關)、強相關(相關較密切、完全相關)的題目數,則此測驗的內容效度系數為:內容效度系數=D/(A+B+C+D)(D表示兩位專家都判定為強相關的題目數)結構效度結構效度的含義
結構效度是指一個測驗或量表實際測到所要測量的理論結構(結構是指心理學或社會學上的一種理論構想或特質)的程度。結構效度的驗證一般步驟①提出有關理論結構的說明,并據此設計測量用的試題;②提出可以驗證該理論結構是存在的假設說明;③采用各種方法收集實際的資料,以驗證第二步提出的假設的正確性;④收集其他類型的輔助證據,淘汰與理論結構相反的試題,或是修正理論,并重復第二和第三步,直到下述的假設得到驗證,即測驗的結構效度獲得支持為止。結構效度的驗證方法①測驗內部尋找證據法
這種方法是通過研究測驗內部結構來驗證測驗的結構效度。它主要包括內容效度、作答過程分析、測驗的同質性和因素分析等四個方面。②測驗之間尋找證據法
這一方法的特點是同時考察兩個或多個測驗間的相互關系,從而來驗證測驗的結構效度。它包括相容效度、聚合效度、區分效度和“多種特質-多種方法矩陣法”等具體方法。③考察測驗的實證效度法
如果一個測驗有實證效度,則可以拿該測驗所預測的效標的性質與種類作為該測驗的結構效度指標,至少可以從效標的性質與種類來推論測量的結構效度。主要方法有差異被試比較法和先后測試分析法。效標關聯效度效標關聯效度的含義、種類及適用范圍
效標關聯效度是指一個測驗對于處于特定情境中的個體行為進行預測時的有效性。根據效標資料獲得的時間不同及測驗使用的目的不同,效標關聯效度可以分為:①同時效度:測驗分數與效標資料的取得約在同一時間內連續完成,計算這兩種資料的相關系數即代表測驗的同時效度。這種效度的目的主要用于診斷現狀,在于用更簡單、更省時、更廉價和更有效的測驗分數來取代不易搜集的效標資料。②預測效度:在測驗分數取得一段時間后才獲得效標資料,計算這兩種資料間的相關系數即代表測驗的預測效度。預測效度的作用在于預測某個個體將來的行為。效標關聯效度的估計方法①相關法:該方法就是計算測驗分數與效標測量的相關系數,具體方法有:積差相關、等級相關、點雙列相關、二列相關、四分相關、Φ相關、列聯相關法等等。在使用過程中,該選擇何種計算方法,應根據測驗分數與效標測量數據資料的形式而定。②顯著差異法:該方法是根據效標測量將被試分為兩個極端組,然后檢驗這兩組測驗分數是否具有統計學上的差異顯著性。若這兩組被試的測驗分數差異,則說明該測驗有較高的效度。③命中率:當測驗用取舍決策時,常使用命中率這一指標。因為這類測驗效度高不高,就是看其取舍是否與實際一致。命中率包括總命中率、正命中率和負命中率三種。
試比較內容效度、結構效度、效標關聯效度的異同?思考題
相同點:三者都是作為檢驗測驗有效程度的指標,都可以作為評價一個測驗優劣的標準。不同點:①考察的角度不同。內容效度是指測驗題目樣本對于應測內容與行為領域的代表性程度。結構效度是指一個測驗或量表實際測到所要測量的理論結構(結構是指心理學或社會學上的一種理論構想或特質)的程度。效標關聯效度是指一個測驗對于處于特定情境中的個體行為進行預測時的有效性。②應用的范圍不同。內容效度主要適用于教育測量(尤其是學業成就測驗)的情境中,也適合于某些用于選拔和分類的職業測驗,但對于某些特質的心理測驗(如智力測驗、人格測驗),內容效度并不適合。結構效度主要用于智力測驗、人格測驗等一些心理測驗方面。效標關聯效度適用于能夠找到有效效標的測驗,常用的效標主要有:學業成就、等級評定、臨床診斷、專門的訓練成績、實際的工作表現、對團體的區分能力以及其它現成的有效測驗。③確定的方法不同。內容效度確定的主要方法是邏輯分析法、量化分析法。結構效度確定的主要方法是測驗內部尋找證據法、測驗之間尋找證據法和考察測驗的實證效度法;效標關聯效度確定的主要方法有相關法、顯著差異法、命中率。答:題目或項目的難度,就是指被試完成題目或項目任務時所遇到的困難程度。定量刻畫被試作答一個題目的困難程度的量數,就叫做題目的難度系數,也常稱為難度值,用符號P表示。難度的概念
(1)以全體被試得分率為難度系數如果一個題目的難度大,則被試得高分的可能性小;反之,如果題目的難度小,則被試得高分的可能性就大。因此,用得分率可以作為難度系數的指標。其計算公式為:如果題目是選擇題的話,被試有可能猜對而得分,因此,對選擇題的難度系數有人建議需用下面的公式進行校正:CP=(kP-1)/(k-1)(2)以全體被試失分率為難度系數直接建立在通過率基礎上的難度系數,P值越大試題越容易,P值越小試題越難做。這與人們觀念可能不一致,因此有人提議用失分率q來表示難度,計算公式為:q=1-P難度系數的計算方法(一)(3)以兩端組被試得分率的均值為難度系數該方法是分別計算高分組被試和低分組被試的得分率,然后求取二者的平均值作為難度系數,公式為:P=(PH+PL)/2
以兩端組被試的得分率作為難度系數的具體計算步驟:①按被試的總分,將全體被試從高到低進行排序;②從高分往下找,找出高分組;由低分往上找,找出低分組。兩組人數分別占總人數的27%;③分別計算高分組、低分組的被試在該題目上的平均得分;④代入公式,分別計算分組和低分組被試在同一個題目上的難度系數;⑤把PH和PL代入公式P=(PH+PL)/2,計算這個題目的難度系數。難度系數的計算方法(二)用上述方法計算出來的難度系數,都屬于順序變量,不具有相等的單位。因此,通過P值的比較并不能客觀指出難度之間差異大小,這對我們作進一步的難度分析帶來了困難。為了解決這個問題,人們常假設每個試題所要測量的潛在特質或能力是呈正態分布的,然后就可以根據正態分布曲線,將試題的難度值P作為正態曲線下的(概率)面積,轉換成具有相等單位的等距量表,即Z分數(標準分數)。由于標準分數具有相等單位,屬于等距量表。所以,用標準分數作為題目難度的指標,為進一步作難度分析帶來了一些方便。難度的等距變換測驗由多個題目所組成,顯然,所有這些題目的難度取值都應該力求恰當,而且這些題目分布狀態也應合理。究竟怎樣的題目難度與難度分布是合適的,這主要取決于測驗的目的與性質。測驗題目的恰當難度和恰當難度分布
常模參照測驗、標準參照測驗所要求的項目恰當難度及難度分布是什么?為什么?思考題
(1)①常模參照測驗的項目恰當難度是P值盡量接近0.50,因為只有在這種情況下題目的區分性能最好。②常模參照測驗所要求的項目恰當難度分布是,圍繞這個點,有一個適當寬的全距。這樣做的原因有以下兩個:一是測驗時,通常希望開始有幾個難度較低的題目來穩定被試情緒,末尾用幾個難度稍大的題目以便只有少數高水平者才能通過,二是讓全部項目都取0.50的難度,通常難以實現。當然,在允許有適當寬的全距的前提下,仍然要力爭大多數項目難度取值接近0.50。(2)標準參照測驗的目的是要考察被試的水平是否達到應有要求,因而測驗項目的難度,就不應由被試的實際通過率來決定,而應由項目的考核要求是否體現了應有標準或教學目標來決定。無論項目通過率是高還是低,只要體現了應用的標準或教學目標,項目的難度就是合理的恰當的。答:
題目區分度是指題目區別被試水平能力的量度,記為
D。區分度的分析方法,大約可以歸納成兩類:一是外在效標法,即分析被試在測驗題目上的得分與外在客觀標準上的表現之間的關系。二是內部一致性法。即分析被試在測題上的得分與在整個測驗總分之間的一致性程度。區分度的值域范圍在-1.00至+1.00之間。通常D為正值,稱作積極區分;D為負值,稱作消極區分;D為0,稱作無區分作用。具有積極區分作用的項目,其D值越大,區分的效果越好。區分度的意義(1)相關法
區分度的實質是題分與總分的相關,因此,各種計算相關系數的方法都可以用于計算區分度。但具體采用哪一個,應根據題分、總分的數據形式而定。(2)高低分組法
被試在測驗分數序列中兩端高分、低分組被認為是兩個極端效標組。這兩個極端效標組間在特定題目上的反應差別程度可以刻畫題目的區分能力。因此,類似于前面談及應用兩端分組的辦法來估計題目的難度系數一樣,可用高分組在特定題目上的得分率和低分組在相同題目上的得分北之差作為題目區分度的指標(高分、低分組人數比例各占總人數的27%),被稱為鑒別度指數,記為
D。計算公式為:D=PH-PL
。為計算方便,還可采用公式:區分度的計算
對多級記分的論文型試題,求積差相關后剔除偽相關因素做校正,其校
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 八年級物理上《光的直線傳播》教學設計
- 城管年終總結模版
- 護理中級評聘
- 小米3小米電視發布會課件
- 中醫情志護理理論與實踐
- 中級會計知識點總結模版
- 流動超市商業計劃書-超市便利店
- 電視產品培訓
- 關愛健康 預防傳染病
- 永康國企面試題及答案
- 財務公司調賬合同協議
- 2025-2030工業燃氣燃燒器行業市場現狀供需分析及重點企業投資評估規劃分析研究報告
- 配送公司車輛管理制度
- 廣西壯族自治區2025年4月高三畢業班診斷學考試物理試卷及答案(廣西三模)
- 2025-2030中國建筑裝配行業發展分析及競爭格局與發展趨勢預測研究報告
- 現代農業產業園入園合同
- 第六單元《軍民團結一家親》課件 中學音樂人音版七年級下冊
- 做情緒的主人培訓課件
- 農業灌溉設施設備采購及安裝合同
- 銀行消防安全知識培訓
- 西安市存量房屋買賣合同
評論
0/150
提交評論