當代教育心理學/第 10 章：教師製作的評估策略/建構式反應專案

正式評估有時也包括建構式反應專案，其中要求學生回憶資訊並建立答案，而不僅僅是識別答案是否正確。建構式反應專案可用於評估各種知識，但這裡我們僅討論兩種主要型別：完形填空（或簡答或簡短回答）和擴充套件式回答。

完形填空和簡答題

完形填空和簡答題可以透過一個詞、短語、數字或符號來回答。這些專案本質上只在問題是陳述還是疑問句方面有所不同。例如

完形填空：美國第一個交通訊號燈是由……………發明的。
簡答題：誰發明了美國第一個交通訊號燈？

完形填空或簡答題經常用在數學考試中。例如

3 + 10 = …………..?

如果 x = 6，那麼 x(x-1) =……….

在以下圖形上畫出對稱軸...

這類專案的最大優勢是易於構建。然而，除了在數學中的應用外，它們不適合衡量複雜的學習成果，而且評分往往很困難。完形填空和簡答題考試有時被稱為客觀，因為它們旨在只有一個正確答案，從而減少評分的變異性。然而，除非問題措辭非常謹慎，否則往往會有多種正確答案。例如，考慮以下專案

林肯總統出生在哪裡？....................

教師可能期望答案是“在木屋裡”，但其他正確答案還有“在沉沒泉農場”、“在哈丁縣”或“在肯塔基州”。這些專案的常見錯誤在表格 10 – 4中進行了總結。

擴充套件式回答

擴充套件式回答專案在許多內容領域中都有使用，答案的長度可能從一段話到幾頁不等。要求更長答案的問題通常被稱為論述題。擴充套件式回答專案有幾個優點，其中最重要的一個是可以適應衡量複雜的學習成果。由於這些專案還要求學生寫作，因此它們也為教師提供了一種評估寫作技能的方法。一個經常被引用的優點是它們的構建容易；然而，精心措辭的、與學習成果相關的以及評估複雜學習的專案很難設計。結構良好的專案會以一種清晰的方式表達問題，使學生的任務明確。這通常涉及提供提示或計劃筆記。在下面的第一個例子中，實際的問題不僅因為措辭清晰，還因為格式清晰（即，它被放在一個框中）。在第二個和第三個例子中，提供了計劃筆記

示例 1：三年級數學^[1]

一家書店的老闆給學校送了 14 本書。校長將把相同數量的書分給三個教室，其餘的書將送給學校圖書館。還剩下多少本書？

在下面的空間和下一頁上展示你的所有工作。用文字解釋你是如何找到答案的。說明你為什麼採取了這些步驟來解決問題。

示例 2：五年級科學：草總是更綠^[2]

何塞和瑪麗亞注意到，在他們家附近的三個不同型別的土壤中，發現了黑土、沙子和粘土。他們決定研究這個問題，“草坪下面的土壤型別（黑土、沙子和粘土）如何影響草的高度？”

計劃一項調查，以回答他們的新問題。在你的計劃中，務必包括

對調查結果的預測
進行調查所需的材料
程式包括

進行調查的邏輯步驟
一個保持不變的變數（控制的）
一個被改變的變數（操縱的）
任何正在測量和記錄的變數
測量和記錄的頻率

示例 3：九年級至十一年級英語：寫作提示^[3]

有些人認為學校應該教學生如何做飯。另一些人則認為，做飯應該在家裡學習。你認為呢？解釋你為什麼這樣想。

計劃筆記：選擇一個

我認為學校應該教學生如何做飯
我認為做飯應該在家裡學習
我認為做飯應該在……………………………..學習，因為………

擴充套件式回答專案的主要缺點是評分的可靠性較差。不僅不同的教師對同一個答案有不同的評分，而且同一個教師也可能在不同的場合對同一個答案有不同的評分。可以透過各種步驟來提高評分的可靠性和效度

教師首先應該寫出模型答案的大綱。這有助於明確學生應該包括什麼。
應該閱讀答案的樣本。這有助於確定學生的水平以及問題是否導致了任何常見的誤解。
教師必須決定如何處理包含的無關資訊（例如，忽略它還是對學生進行處罰），以及如何評估語法和拼寫等機械錯誤。
應該使用評分或評分標準。在評分中，答案的組成部分會被分配分數。例如，如果學生被問到

高溫的性質、症狀和風險因素是什麼？

評分指南

定義（性質）2 分

症狀（每個 1 分）5 分

風險因素（每個 1 分）5 分

寫作 3 分

該系統為評估提供了指導，並有助於保持一致性，但評分系統往往會導致教師關注事實（例如，列舉風險因素），而不是更高層次的思維，如果教師的目標包括更高層次的思維，則可能會破壞評估的效度。更好的方法是使用評分標準來描述每個級別答案或表現的質量。

評分標準

評分標準可以是整體式或分析式。在整體式評分標準中，對錶現進行了總體描述，並獲得了一個總分。來自洛杉磯聯合學區的二年級語言藝術的例子將答案分為四個等級：不熟練、部分熟練、熟練和高階（見表格 10–5）。

分析式評分標準對各種特性的學生表現水平進行描述。例如，西北地區教育實驗室（NWREL）制定的評估寫作的六項特性為：^[4]

觀點和內容
組織
聲音
詞語選擇
句子流暢性
規範

整體式評分標準的優點是比分析式評分標準開發速度更快。它們的使用速度也更快，因為只有一個維度需要檢查。然而，它們沒有為學生提供有關答案哪些方面很強以及哪些方面需要改進的反饋。這意味著它們對促進學習的評估幫助不大。評分標準的一個重要用途是將它們用作教學工具，並在評估前提供給學生，以便他們瞭解期望的知識和技能。

教師可以透過在教學過程中向學生提供評分標準、提供多個答案，並根據評分標準分析這些答案，將評分標準用作教學的一部分。例如，使用準確的術語是表格 10-6中科學評分標準的一個維度。小學科學教師可以討論為什麼在學習科學時使用準確的術語很重要，提供不準確和準確的術語示例，向學生提供評分標準的這一部分，分發一些學生答案示例（可能來自以前的學生），然後討論如何根據評分標準對這些答案進行分類。如果教師採取以下措施，促進學習的評估策略應該會更有效

強調向學生說明使用準確的術語在學習科學時為什麼很重要，而不是如何獲得考試好成績（我們在本章後面關於動機的部分中將對此進行更詳細的說明）；
提供一個示例答案，以便學生能夠看到模型；以及
強調目標是學生在這項技能上的提高，而不是對學生進行排名。

（返回第 10 章…）

參考文獻

↑ 伊利諾伊州標準成就測試，2006 年；http://www.isbe.state.il.us/assessment/isat.htm)
↑ 華盛頓州 2004 年學生學習評估 http://www.k12.wa.us/assessment/WASL/default.aspx
↑ 伊利諾伊州英語年度增長衡量指標 http://www.isbe.state.il.us/assessment/image.htm
↑ http://www.nwrel.org/assessment/toolkit98/traits/index.html

[1] 伊利諾伊州標準成就測試，2006 年；http://www.isbe.state.il.us/assessment/isat.htm)

[2] 華盛頓州 2004 年學生學習評估 http://www.k12.wa.us/assessment/WASL/default.aspx

[3] 伊利諾伊州英語年度增長衡量指標 http://www.isbe.state.il.us/assessment/image.htm

[4] ttp://www.nwrel.org/assessment/toolkit98/traits/index.html

[1]

[2]

[3]

[4]