“雙新”背景下的學業質量評價研究:論素養本位表現性評價設計_第1頁
“雙新”背景下的學業質量評價研究:論素養本位表現性評價設計_第2頁
“雙新”背景下的學業質量評價研究:論素養本位表現性評價設計_第3頁
“雙新”背景下的學業質量評價研究:論素養本位表現性評價設計_第4頁
“雙新”背景下的學業質量評價研究:論素養本位表現性評價設計_第5頁
已閱讀5頁,還剩15頁未讀 繼續免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

“雙新”背景下的學業質量評價研究:論素養本位表現性評價設計摘要

素養本位表現性評價設計呼喚“像教練一樣思考”,具有突出設計性、關注過程性、強調參與性、注重反思性的特點。素養本位表現性評價設計建基于“新三維目標”與“單元成功標準”的確立,遵循兩條線索展開設計:一是證據線索,這意味著表現性評價需設計表現性任務、表現性事件等類型豐富的評價證據,以形成學生概念性理解的“證據集”;二是標準線索,這意味著每一類評價證據均需設計相應的成功標準、量規,以評定學生的學習質量。兩條線索在邏輯上相互獨立,在具體設計層面相互依存、相互交叉、結伴而行,共同維系表現性評價設計的效度與信度。關鍵詞

表現性評價;表現性任務;表現性事件;新三維目標;成功標準《義務教育課程方案(2022年版)》及各學科課程標準的正式頒布標志著我國義務教育正式邁向素養本位課程改革的新時代。“核心素養是人在特定情境中綜合運用知識、技能和態度解決問題的高級能力與人性能力。”[1]人的能力越高級、越復雜,標準化測驗(standardizedtest)就越鞭長莫及。哈佛大學零點項目(HarvardProjectZero)的重要代表珀金斯(D.Perkins)曾將素養界定為在真實情境中靈活表現的能力。這意味著素養是在真實表現性任務中得以體現與發展的,因而表現性評價是素養本位課程體系的主要評價方式。我國《義務教育課程方案(2022年版)》指出,“創新評價方式方法……注重動手操作、作品展示、口頭報告等多種方式的綜合運用,關注典型行為表現,推進表現性評價。”[2]這也明確肯定了表現性評價對發展核心素養的價值。如何設計與實施表現性評價,成為素養本位評價改革的關鍵問題。本文試對這一問題做些研究與回答。

一、像教練一樣思考威金斯(G.Wiggins)因其“逆向設計”(backwarddesign)而聞名。逆向設計是為理解而教的一種設計模式,其主要特點是以終為始,包括“確定預期結果、決定評價證據、計劃學習經驗與教學”[3]三個前后相繼的階段。評價處于“三階段論”的中間階段,它一方面為判定學生是否達到預期結果提供判定依據,另一方面指引著學習經驗的設計。教師如何設計評價?威金斯說道:“像評估員一樣思考(ThinkinglikeanAssessor)。”[4]其原因主要有二:第一,確保評價的效度(validity)。評估員因其職業性、專業性為特定領域設計評價內容,而評估員往往通過行業專家對評估設計進行“再評估”,這一過程突出了評估員設計評價的科學性,科學性確保并強化了評估的效度。威金斯說:“經過近十年的觀察,我們發現很少有教育者對有效性有一個充分的理解。”[5]“像評估員一樣思考”意味著要科學設計評價,以最適當的評估證據保證評價的有效性。第二,確保評價的信度(reliability)。量規設計是評估員評價設計的重要構成,量規的存在有效維護了評價的公平性。倘若脫離了量規,即使評價內容再科學,評價結果也難以維系其可信度。因此“像評估員一樣思考”意味著評價要關注標準的公平性,以此確保評價的信度。但“像評估員一樣思考”真能確保評價的效度與信度嗎?為保證評估員的價值中立與評價的公平性,評估員往往與被評估者相分離,“非參與性”(non-participatory)是評估員的顯著特點。非參與性是指評估員脫離被評估者的日常實踐,通過計劃的指標對評估者的實踐結果做出評價。因此,此種評估員評價本質上是一種“非參與式評價”“終結性評價”“旁觀者評價”。“像評估員一樣思考”在評價設計的實施階段至少招致如下弊端:第一,技術主義。非參與性意味著評估員以旁觀者身份進行評價,評價嚴格遵照預設的內容與標準,這漠視并忽略了被評估者的自身特點、情境的復雜性,從而使評價陷入非人性化、僵化的技術主義窠臼。執簡御繁的技術主義過分關注評價的程序化、技術化,進而淡化了評價的本質功能——經由反饋促進人的反思與發展。第二,權威主義。評估員既是評價內容、標準的設計者,又是使用者、評分者,被評估者的觀點剝離于評價設計之外。這種主導的話語權使評估員成為事實上的權威。權威主義扭曲了評價本身,它使評價異化為被評估者遮蔽自身,進而迎合權威的狀態,這凸顯了評價的無效性。“像評估員一樣思考”割裂了評價的設計與實施,實施階段技術主義與權威主義的疊加非但無助于維護評價的效度與信度,而且極大損害了評價的有效性與可信度。素養本位表現性評價設計呼喚“像教練一樣思考”(ThinkinglikeaCoach)。這種評價設計具有如下特點:第一,突出設計性。評價設計既包括課程開發階段的設計,也包括實施過程中的反思性設計;既包括教師自我及教師之間的設計,也包括師生合作設計。這恰似教練賽前整體設計比賽并在比賽過程中根據隊員表現、對手戰術進行調整性設計。它統籌預設與生成、目標與過程的關系,是一種民主的設計觀。第二,關注過程性。評價設計不僅存在于課程開發階段,也存在于課程實施階段。實施階段的評價設計根源于學生的“生成性表現”。學生學習過程中的生成性表現要求教師及時反饋并生成新的評價活動,這體現了評價設計的生成性、過程性,恰如教練基于隊員場上表現做出諸如暫停、換人等系列評價行為。第三,強調參與性。教師與學生同為評價設計與實施的主體。教師的主體性體現在教師是評價設計的“首席”。教師的身份與專業性決定了教師是設計師、組織者、引領者,教師需在評價設計中貢獻更多的智慧。學生的主體性一方面體現在評價建議及生成性表現能夠得到傾聽,進而或被采納或得到反饋并有機會改進,另一方面體現在直接參與評價設計。無論是哈佛零點項目還是國際文憑組織(InternationalBaccalaureateOrganization,簡稱IBO)均提出“教師與學生一道設計評價的成功標準”。師生的主體性表明了評價設計中的深度參與性。師生合作共同推動評價的設計與實施,這恰似教練會傾聽隊員的訴求、建議,在深度合作中尋求比賽勝利。第四,注重反思性。反思貫穿評價設計的始終,這意味著教師以開放的心態悅納各方意見,以促進評價設計的人性化、科學性與有效性。這一如教練聽取各方反饋,及時反思與改進。總之,“像教練一樣思考”并非關注評價設計的技術性方面,而是要求在師生共同參與中持續反思、改進并完善評價過程,以促進評價的持續性、有效性。“像教練一樣思考”要求素養本位表現性評價遵循以下兩條線索進行設計:一是證據線索,二是標準線索。無論是威金斯還是零點項目均認為表現性評價設計要思考上述兩條線索。威金斯認為評價設計需回答三個基礎性問題,即“我們需要什么類型的證據證明學生達到了包括理解在內的教學目標?在學生的反應、作品或行為中,哪些具體特征能決定他們達到預期結果的程度?我們所提出的證據能否讓我們推斷出學生的知識、技能或理解?”[6]這三個問題分別指向的核心概念是“證據”“標準”及“反思”。“像教練一樣思考”將反思置于評價設計的始終,而非僅僅在實施結束后展開反思。哈佛“零點項目課堂”(ProjectZeroClassroom)教育主席布萊斯(T.Blythe)認為評價設計要關注兩方面,一方面是在單元開始階段、實施過程中以及結束時應分別設計不同類型的理解性評價,另一方面是使評價具有持續性。“為理解而學中,學生借助標準、反饋與思考機會促進理解,這一過程稱為持續性評價(ongoingassessment)。”[7]因此,布萊斯在評價設計中也強調“證據”與“標準”兩個設計維度。關于證據線索,是指表現性評價設計需在教學過程中設計形式多樣、類型豐富的證據,如此才能在教學過程中收集學生概念性理解的大量證據,形成“證據集”。威金斯用“評價連續體”(continuumofassessment)指代各類評價證據。在威金斯看來,評價證據總體上可分為兩類,即“表現性任務”(performancetask)與“其他證據”(otherevidence)。其他證據又包括“對理解的非正式檢查”(口頭提問、觀察、對話等)、“測驗與考試”(testsandquizzes)及“學術提示”(academicprompts)。各類評價證據是根據“它們在規模(從簡單到復雜)、時間范圍(從短期到長期)、情境(從非真實到真實),以及框架(從高度結構化到非結構化)等方面”[8]的不同劃分的。密歇根評估聯盟(TheMichiganAssessmentConsortium,簡稱MAC)根據“評價所需的時間與是否為學生提供改進他們原初回答的機會”[9]將表現性評價分為表現性任務與表現性事件(performanceevents)。在密歇根評估聯盟看來,表現性任務需要學生花費數日乃至數月來完成一項任務,而“表現性事件是一種按需進行的表現性評價,在這種評價中,學生只需很少的時間進行回答,也僅有有限的機會來改進他們的表現”。[10]密歇根評估聯盟根據時間對表現性評價進行類型劃分,所需時間少也就意味著規模上的簡單以及高結構化的框架,因此表現性事件與威金斯評價類型中“對理解的非正式檢查”“學術提示”相一致。綜合兩者對表現性評價的分類,我們將表現性評價分為“表現性任務”與“表現性事件”兩大類,表現性事件又分為“對理解的非正式檢查”“學術提示”。需指出的是,測驗與考試是用來判定學生知識與技能的評價類型,它至多是有助于學生理解,而非指向學生概念性理解的評價證據。因此,表現性評價類型設計只包含表現性任務與表現性事件。關于標準線索,是指每一類評價證據均需設計相應的成功標準、量規以評定學生的學習質量。“成功標準描述了學生如何知道他們已實現預期學習目標。”[11]它有效保證了評價的公平性、反饋的及時性。成功標準設計除需師生共同設計外,還需提前公布,讓學生明確學習的方向。兩條線索在邏輯上相互獨立,在具體設計層面相互依存、相互交叉,共同維系評價設計的效度與信度。總之,素養本位表現性評價設計就是遵循兩條線索設計各類評價證據及其相應的成功標準、量規。表現性評價的類型如圖1所示。

圖1

表現性評價的類型二、確立新三維目標確立目標是評價設計的基礎與前提。倘若目標解決的問題是“我要到哪里”,那么評價設計解決的問題是“如何確定我已到達目的地”。目標是評價設計的前提。埃里克森(H.Erickson)指出,“概念為本的課程設計需要教師們清晰地表達他們希望學生知道什么、理解什么、能夠做什么。”[12]埃里克森由此明確提出KUD的課程目標。U即概念性理解、大觀念,K與D分別指主題單元探究中用到的知識、技能。我們可據此提出由大觀念、新知識、新能力構成的“新三維目標”。新三維目標將概念性理解置于課程目標的中心,知識、技能轉化為獲得大觀念的工具,課程目標由此實現重心的轉移。我國教師長期圍繞三維目標(知識與技能、過程與方法、情感態度與價值觀)展開課程設計,在信息時代的今天需要對此進行反思:三維目標忽視了概念性理解的目標維度。新三維目標主張將傳統三維目標置于學生真實學習情境,并將知識與技能提升至觀念層面,學生因此既獲得“情感體驗”,又能獲得“理智發展”。因此,新三維目標是對傳統三維目標的融合與超越。如何確立新三維目標?首先,撰寫大觀念。新三維目標聚焦大觀念,撰寫大觀念是確立新三維目標的核心,同時也是課程設計的關鍵。埃里克森將大觀念稱之為“概括”(generalization),并指出“概括是概念關系的陳述”。[13]這包括兩層含義:第一,概念是撰寫大觀念的工具。埃里克森區分了概念與觀念,并將概念作為獲得觀念的“棱鏡”“視角”,這意味著撰寫大觀念首先要確定概念。第二,大觀念可表述為命題。在表達層面,大觀念既不是疑問句,也不是否定句,而是陳述句,是建基于概念關系的命題。因此,撰寫大觀念首先要圍繞主題單元選取核心概念,進而在主題情境中將概念之間的關系用命題的呈現方式表達出來。例如,《義務教育數學課程標準(2022年版)》在“綜合與實踐”學習領域規定第一、二學段學生均要學習“位置與方向”的課程內容,《位置與方向》單元可提取“參照物”“位置”“方向”三大核心概念,繼而形成“參照物有助于準確確定位置與方向”的大觀念。其次,確定新知識與新能力。新知識、新能力是在主題單元探究中圍繞概念性理解學生必須學習運用的知識與技能。以大觀念統攝知識技能,能有效解決傳統教學中只注重知識技能學習的“寬度”,而忽略知識技能學習的“深度”問題。需說明的是,由于課程設計分為整體設計與精細設計兩部分,新三維目標是課程整體設計的構成。因此,新知識、新能力在此可提綱挈領、概括地表述,具體的知識技能在精細設計中完成即可。表1是《位置與方向》單元新三維目標的完整示例。表1

《位置與方向》單元新三維目標設計三、設計成功標準目標與成功標準(successcriteria)相互依存、結伴而行。希爾(T.Shiel)說:“可以將學習意圖與成功標準想象成為一對結婚五十多年的幸福夫妻。”[14]沒有課程目標就沒有成功標準,課程目標是成功標準的基礎與前提;成功標準是課程目標的指針與衡量器,兩者的聯姻使師生共同聚焦學習。因此,新三維目標確立后,要統籌設計“單元成功標準”。圍繞新三維目標設計單元成功標準具有如下意義:第一,指引價值。逆向設計將目標與評價設計置于學習活動設計之前,學習活動要參照目標、評價進行設計。圍繞新三維目標設計單元成功標準本質上是根據理解性表現與學習內容將新三維目標具體化,它清晰地闡述了學生的學習標準。這意味著成功標準為學習活動設計提供了方向與框架,對學習活動設計具有指導意義。第二,反思價值。成功標準為教師在單元教學結束時評價與反思學生學習提供標準,同時為教師反思課程設計與實施提供工具。這種持續性反思促進教師課程設計與評價設計能力的提高。第三,學習價值。如上所述,無論是哈佛零點項目抑或是IBO,均呼吁“教師與學生一道設計評價的成功標準”。師生共創成功標準既會激發學生學習的熱情,也會不斷提升學生的評價能力,使學生成為“有能力的評估者”。成功標準可借助SOLO分類理論(SOLOtaxonomy)進行設計。SOLO分類理論是學者比格斯(J.Biggs)與科利斯(K.Collis)提出的。在他們看來,一個人在回答某個問題時所表現出來的思維結構與這個人的總體認知結構沒有直接的聯系。比格斯將人的總體認知結構稱為“假定的認知結構”(HypotheticalCognitiveStructure,簡稱HCS),并認為“它是純理論性的概念,是不可檢測的”。[15]事實上,一個人在回答某個問題時所表現出的思維結構是可檢測的,是“可觀察的學習結果結構”(StructureoftheObservedLearningOutcome,簡稱SOLO)。他們在對不同年齡和不同學科學生的思維進行分類總結后,提出了“SOLO分類理論”。“SOLO分類理論是描述學生思維和理解復雜程度的模型。”[16]它由五個思維水平構成:前結構水平、單點結構水平與多點結構水平構成淺層理解;關聯結構水平、抽象拓展結構水平構成深度理解。希爾運用SOLO分類理論設計成功標準時,強調SOLO動詞的使用。在她看來,不同的動詞代表著不同的思維水平,“SOLO動詞+學習內容”構成成功標準。希爾成功勾勒了成功標準的設計方法與表述方式,但她將由SOLO動詞與學習內容構成的具體成功標準作為體現學生思維水平的唯一標準顯然是不夠的,這主要是因為學生在真實學習情境中會使用不同SOLO動詞來展示學習水平。IBO在運用SOLO為某一任務設計成功標準時避免了這一問題。他們首先在任務情境中對不同的SOLO水平做出“整體說明”,進而對每一水平舉出成功標準的示例。這既讓學生理解了SOLO水平的內涵,也能對學生學習過程中生成的學習結果做出有效判斷與評估。綜合希爾與IBO運用SOLO設計成功標準的觀點,我們也為成功標準開發了工具(工具及示例詳見表2),該“成功標準設計工具”囊括了“新三維目標”“SOLO層次”,并基于上述兩個方面設計“水平說明”“SOLO動詞”與“成功標準”三個維度,它們體現了成功標準設計的內在邏輯。需指出,“成功標準設計工具”不僅用于“單元成功標準”的設計,也可用于某一特定任務(如表現性事件)成功標準的設計。表2

《物質的形態與變化》單元成功標準設計

四、表現性任務設計課程與評價目標決定評價方式。倘若課程目標是學生掌握事實性知識與技能,那么傳統的標準化測驗是可選擇的評價方式,這是因為“這種評價易于管理,并能在相對較短的時間內提供關于學生內容知識的大量信息”[17]。但當課程目標將概念性理解置于核心時,標準化測驗就無用且失效了,這主要因為“知識、技能本身無法保證理解。人們在不理解或不知何時運用知識、技能的情況下也可以獲得知識與技能”[18]。表現性任務是為理解而教的主要評價方式。威金斯說:“評價必須錨定并專注于真實任務,因為它們為日復一日知識與技能的發展工作提供有效的方向、理智上的一致性和動力。這些任務從來不是第一次就能掌握。”[19]表現性任務使學生思維可視,使學生理解力可評。什么是表現性任務?安斯沃斯(L.Ainsworth)將表現性任務界定為“通過創造一個可以用評分量規進行評估的作品或表現,使學生能夠運用他們正在學習的概念與技能。”[20]這意味著表現性任務內在地包含“任務設計”與“量規設計”兩部分。兩者缺一不可,共同支撐表現性任務。在任務設計層面,希爾認為任務設計需包含“基本要素”與“學生指導”(studentdirections)兩部分。基本要素由真實任務(authentictask)、角色/職位(role)、對象(audience)、激勵性情境(motivatingcontext)構成,學生指導則是將上述基本要素進行整合并形成的完整陳述,它使學生更為清晰、完整、全面地理解任務。此外,希爾認為學生指導部分要明確指出學生在任務完成中需提供的產品或表現。希爾將產品或表現從基本要素中剝離開來,倘若像威金斯那樣在任務設計中不設計“學生指導”部分,那么學生如何知道自己的學習結果呢?但希爾將學生指導作為任務設計的有機構成部分,這避免了任務設計的要素主義傾向,也有益于學生整體理解任務。威金斯為任務設計開發了GRASPS工具。GRASPS工具的“每一個字母對應一個任務元素——目標(Goal)、角色(Role)、對象(Audience)、情境(Situation)、表現或產品(Performance/Product)和標準(Standards)”[21]。任務設計即根據任務要素一一進行設計。由于缺乏像希爾所提倡的“學生指導”環節,威金斯主張利用GRASPS工具進行任務設計的做法具有某些要素主義傾向。綜合兩人的觀點來看,任務設計一方面需考慮以下要素:目標、角色、情境、對象、產品或表現以及標準,另一方面也需圍繞任務要素進行完整清晰說明,即設計“學生指導”環節。由此我們以威金斯的GRASPS工具為主體,融合希爾的合理主張,為任務設計開發新的GRASP工具(工具及示例見圖2)。全新的GRASP工具由“任務要素”及“學生指導”構成,在此,我們將威金斯所主張的“標準要素”融入“量規設計”中而保留了其他要素。新GRASP工具既為任務設計提供了支架,也能保證學生及未使用過該工具的人有效理解任務。圖2

GRASP工具及示例在量規設計層面,威金斯與希爾展示了迥異的設計方法與呈現方式。“量規是基于標準的評分指南,由固定的質量等級構成,并詳細描述了每一等級的特征。量規描述了質量等級、熟練程度或者連續的理解。”[22]量規可分為整體型量規(holisticrubric)與分析型量規(analyticrubric)。整體型量規適用于終結性評價,它僅對學生任務的完成情況進行整體評價,常表現為一個分數或等級。分析型量規適用于過程性評價,它在不同維度上對學生的任務完成情況進行描述與評價,從而能更好地反饋與反思改進。威金斯與希爾在分析型量規設計思路上大體一致,他們均認為分析型量規應由“維度”“質量等級”“成功標準”構成,但他們在具體設計方法與呈現方式上卻大相徑庭,這根源于他們迥異的成功標準設計方式。威金斯認為,“程度副詞+形容詞+動詞+內容”構成成功標準,如“非常清晰地/清晰地/較為清晰地/無法清晰地表達文中主人公的觀點”。他強調使用形容詞區分質量等級與理解程度。如前所述,希爾則主張“SOLO動詞+學習內容”的成功標準設計方式,她強調用成功標準完成的數量與質量來描述和衡量學生任務完成的質量等級。其量規設計的具體方法為首先確定“滿足成功標準”這一質量等級的一套標準,“超出成功標準”質量等級則是在“滿足成功標準”的基礎上再增加幾條標準,“接近成功標準”表3

《美國政府》單元分析型量規設計“遠未達到成功標準”則視未完成“滿足成功標準”的數量而定。量規設計的重要目的是克服教師評價的主觀性,進而為教師評價提供客觀標準,保證評價的客觀性與信度。由此看來,盡管威金斯以形容詞區分學生質量等級的主張在邏輯上毫無問題,但在評價實踐中難以實現,因為教師難以區分諸如“熟練的”“較為熟練的”這類程度相近的形容詞,教師評價依然有很大的主觀性。綜合威金斯與希爾的觀點,我們為分析型量規設計開發了相應工具。該“分析型量規設計工具”(工具及示例見表3)由“任務維度”“質量層級”與“成功標準”構成,每一維度均有數量、質量不等的成功標準加以說明。“量規的最大作用在于它能產生有效反饋,增強評價的公平性,以及促進學生評價功能的發展。”[23]

五、表現性事件設計如前所述,表現性事件是素養本位表現性評價的有機組成部分,它豐富了表現性評價的類型,推動素養本位表現性評價實施的多樣化。表現性事件的設計與實施具有如下價值:第一,促進學生深度學習。“整個單元實施中,都要有機會評估學生的理解能力。如果評價只發生在單元結束,那么它就不是持續的,也不能幫助學生發展與完善他們的理解。”[24]表現性任務往往置于某探究活動或單元結束,通過設置真實情境讓學生遷移并運用觀念、知識、技能解決復雜問題,因此它無法評估表現性任務之前學生在學習過程中的理解程度。多樣的表現性事件嵌入學生學習過程,由淺入深、由簡到難的表現性事件推動學生思維水平的提高與理解的深入,評價即學習。第二,調整與規劃教學。表現性事件需要反饋,反饋既可以是非正式的(如課堂討論中對學生的回答做出回應、評價)也可以是正式的(如通過演示文稿對某一問題或學生表現做出評價)。無論是正式反饋抑或是非正式反饋,對學生的評價不僅要包括他們當下的表現,還要包括他們如何改進表現的建議。這種反饋要求教師及時調整與規劃教學活動,以確保學生學習的完整性與深度。總之,表現性事件與表現性任務相互補充,共同促進教師的教與學生的學。表現性事件可借助“理解六面”(SixF

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論