跳轉到內容

當代教育心理學/第 11 章:標準化和其他正式評估

來自華夏公益教科書,開放的世界,開放的書籍

瞭解標準化測試對於初級教師來說非常重要,因為 K-12 教學越來越受到標準化測試的管理和結果的影響。教師還需要能夠幫助家長和學生理解測試結果。考慮以下情況。

瓦妮莎是一名新獲得執照的體育教師,正在申請一所中學的職位。在面試過程中,校長詢問她將如何將重要的六年級數學技能融入她的體育和健康課,因為上一年的六年級學生在數學方面沒有達到每年適當進展。
丹妮爾是俄亥俄州的一名一年級科學老師,最近從土耳其移民的沃爾德威爾先生(他十歲兒子的名字叫馬裡烏斯)要求她幫助他理解測試結果。當馬裡烏斯第一次來到學校時,他參加了認知技能測試,成績排在第 85 個百分位,而他在學年後期參加的州立科學畢業考試中被評為“熟練”。
詹姆斯是一名三年級的小學老師,他在暑假期間參加了天才教育課程,因為上一年的標準化測試表明,儘管他的班級的整體閱讀成績很好,但前 20% 的學生沒有像預期那樣學習。
米格爾是一名一年級的學生,他在秋季參加了兩項測試,結果表明他的年級當量分數為閱讀 3.3,數學 3.0。威廉的父母希望他立即升入二年級,他們認為測試結果表明他已經能夠在三年級的水平上閱讀和做數學。格雷格是一名一年級老師,他向威廉的父母解釋說,3.3 的年級當量分數並不意味著威廉能夠做三年級的作業。

理解標準化測試很困難,因為有許多術語和概念需要掌握,並且近年來《不讓一個孩子掉隊法案 (NCLB)》對問責制的要求發生了變化,這使得這些概念和問題更加複雜。在本章中,我們將重點介紹初級教師需要了解的資訊,並從一些基本概念開始。

基本概念

[編輯 | 編輯原始碼]

標準化測試是由一個團隊建立的——通常是來自商業測試公司的測試專家,他們會諮詢課堂教師和大學教師——並以標準化方式進行管理。學生不僅回答相同的問題,而且他們也接受相同的指示,並且有相同的時限。使用明確的評分標準。標準化測試旨在由一個州、省或國家內的許多學生參加,有時甚至跨越國家進行。教師幫助管理一些標準化測試,並提供包含有關管理和評分的明確細節的測試手冊。例如,教師可能需要從教室牆壁上移除所有海報和圖表,使用指令碼大聲朗讀指示,並以特定的方式回答學生的問題。

標準參照標準化測試測量學生相對於特定標準或標準的成績。例如,馬薩諸塞州聯邦政府新招聘的消防員必須透過成功完成一項標準化體能測試來達到體能標準,該測試包括爬樓梯、使用梯子、推進水管和模擬透過門洞進行救援(人力資源部,未註明日期)。[1] 目前在美國學校使用的標準參照測試通常與州立課程標準掛鉤,並提供有關學生能做什麼和不能做什麼的資訊。例如,肯塔基州四年級閱讀的課程標準之一是“學生將識別和描述小說、非小說、詩歌或戲劇的特點”(2006 年綜合課程檔案閱讀 4.1),因此對個別學生的報告將表明該兒童是否能夠完成這項技能。該報告可能說明成功完成的專案數量或百分比(例如,20 箇中的 15 個,即 75%),或者包括基於對達到掌握率的百分比做出的決策的描述,例如基本、熟練或高階,這些描述是基於對達到掌握率的百分比做出的決策。

常模參照標準化測試報告學生的成績相對於其他人的情況。例如,如果一名學生在閱讀方面得分排在第 72 個百分位,這意味著她的得分高於參與測試常模組的 72% 的學生。常模組是在開發標準化測試時完成標準化測試的學生的代表性樣本。對於州立測試,常模組是從該州抽取的,而對於全國測試,樣本是從全國抽取的。有關常模組的資訊在技術測試手冊中提供,這些手冊通常不會提供給教師,但應該可以從負責學校區測試的人員那裡獲得。

標準參照和常模參照測試的報告提供不同的資訊。想象一下一項全國性的數學測試,旨在測試二年級學生的技能。如果這項測試是常模參照的,而艾麗莎收到了一份報告,表明她的得分排在第 85 個百分位,這意味著她的得分高於之前參加過測試的常模組中的 85% 的學生。如果這項測試是標準參照的,艾麗莎的報告可能會說明她掌握了為她的年級水平設計的 65% 的問題。常模參照測試報告的相對百分比提供了有關艾麗莎相對於其他學生的成績的資訊,而標準參照測試試圖描述艾麗莎或任何學生在測試旨在衡量的任何方面能做什麼或不能做什麼。在計劃教學時,課堂教師需要了解學生能做什麼和不能做什麼,因此標準參照測試通常更有用(Popham,2005)。[2] 目前的基於標準的問責制和 NCLB 主要依賴於基於標準的測試來評估對基於內容的標準的掌握。因此,學校對標準化常模參照測試的使用減少了,主要侷限於對患有特定認知障礙或具有特殊能力的兒童進行診斷和安置(Haertel & Herman,2005)。[3]

一些最近的標準化測試可以將標準參照和常模參照元素整合到同一個測試中(Linn & Miller,2005)。[4] 也就是說,測試結果不僅提供有關掌握內容標準的資訊,還提供有關達到該掌握水平的學生的百分比的資訊。

標準化測試有時可能是高風險的,這意味著考試成績會產生某種重要後果。這些後果可能是針對學生的,例如,為了獲得文憑,必須透過高中畢業考試,或者為了獲得教師資格證,必須透過 PRAXIS II。這些後果可能是針對學校的,例如,在 NCLB 下,每年每所學校中越來越多的學生必須在數學和閱讀方面達到熟練程度。未能實現這些進步的學校將面臨後果,包括減少資金和重建校舍。在 NCLB 下,這些後果旨在針對學校,而不是針對個別學生,而且測試結果可能不能準確反映學生所瞭解的知識,因為當考試對學生沒有低風險時,他們可能不會盡力(Wise & DeMars,2005)。[5]

標準化測試的用途

[編輯 | 編輯原始碼]

標準化測試用於各種原因,同一項測試有時用於多種目的。這些用途包括

在更廣闊的背景下評估學生的進步設計良好的教師評估提供了有關每個學生在課堂上的成績的至關重要的資訊。但是,教師在他們使用的評估型別方面有所不同,因此教師評估通常不提供有關學生成績與外部建立的標準相比的資訊。考慮兩個八年級的學生,布萊恩和約書亞,他們在初中數學課上都獲得了 A。但是,在標準化的常模參照數學測試中,布萊恩的得分排在第 50 個百分位,而約書亞的得分排在第 90 個百分位。這些資訊對於布萊恩、約書亞、他們的父母和學校工作人員來說都很重要。同樣,兩位三年級的學生都可以在閱讀方面得到 C,但其中一位可能透過 25% 的標準參照州立考試題目,而另一位可能透過 65% 的題目。

學生在教師評估和標準化評估中的成績可能存在差異的原因有很多。學生在標準化評估中的成績可能較低,因為他們的老師有容易的評分標準,或者他們學習的內容與標準化測試中的內容不一致,或者他們不熟悉標準化測試中的題目型別,或者他們有考試焦慮,或者他們在考試當天身體不適。學生在標準化考試中的成績可能高於課堂評估中的成績,因為他們的老師有嚴格的評分標準,或者學生在課堂上沒有始終如一地努力學習(例如,沒有完成作業),但會集中精力參加標準化考試,或者學生擅長標準化考試中的選擇題,但不太擅長老師使用的各種結構化答案和表演專案。我們應該始終非常謹慎地從一種評估中得出結論。

在一些州,為了向家長和州政府官員提供更廣泛的資訊,家庭學校的學生需要參加標準化成績測試。例如,在紐約州,家庭學校的學生在 4-8 年級必須每兩年參加一次認可的標準化測試,在 9-12 年級則必須每年參加一次。這些測試必須以標準化的方式進行,並將結果提交給當地學區的教育主管。如果學生沒有參加考試或成績低於 33%,家庭教育專案可能會被列入觀察期 (紐約州教育廳,2005)。[6]

診斷學生的優勢和劣勢 標準化測試,以及面試、課堂觀察、體檢和學校記錄,都被用來幫助診斷學生的優勢和劣勢。通常,用於此目的的標準化測試是單獨進行的,以確定孩子是否有殘疾。例如,如果一個幼兒園孩子在口頭交流方面有困難,可以進行標準化的語言發展測試,以確定孩子在理解詞語或句子結構的含義、注意到相似的詞語之間的發音差異或正確發音方面是否存在困難。還需要確定孩子是否最近才移民、是否患有聽力障礙或智力障礙。學習障礙的診斷通常需要進行至少兩種型別的標準化測試:智力測試,以評估一般認知能力;以及成就測試,以評估特定內容領域的知識 (Peirangelo & Giuliani, 2006)。[7] 我們將在本章後面討論智力測試和成就測試之間的區別。

為特定專案選拔學生 標準化測試通常被用於為特定專案選拔學生。例如,SAT (學術能力評估測試) 和 ACT (美國大學入學考試) 是常模參照測試,被用來幫助確定高中生是否被錄取到選擇性大學。常模參照標準化測試也被用來,連同其他標準,確定學生是否有資格獲得特殊教育或天才教育專案。標準參照測試被用來確定哪些學生有資格升入下一個年級或從高中畢業。將學生劃分為能力分組的學校,包括高中大學預科、學術或職業專案,也可能使用常模參照或標準參照標準化測試。當標準化測試作為重要的安置標準時,它們對於學生來說顯然具有很高的風險。

輔助教師的教學計劃 常模參照和標準參照標準化測試,以及其他有關學生的資訊來源,可以幫助教師對教學進行決策。例如,如果一位社會研究教師瞭解到大多數學生在學年開始時進行的常模參照閱讀測試中表現出色,他可能會調整教學並使用更多的一手資料。一位閱讀教師在審查糟糕的學年結束標準參照標準化閱讀測試結果後,可能會決定在下一年修改她使用的技巧。一位生物教師可能會決定她需要花更多時間講解遺傳學,因為她的學生在這部分標準參照標準化科學測試中的得分很低。這些都是“為了學習而評估”的例子,它涉及基於資料的決策。對於剛入行的教師來說,學習如何恰當地使用標準化測試資訊可能很困難。他們需要理解測試分數是重要的資訊,但也需要記住,學生在測試中的表現有許多原因。

促進問責制 標準化測試結果越來越多地被用來讓教師和管理人員對學生的學習負責。在 2002 年之前,許多州要求公開發布學生的學習進度,但在 NCLB 法案頒佈之後,所有州的學區都必須向家長和公眾傳送報告卡,其中包括每個學校標準化測試的結果。提供關於學生標準化測試的資訊並不新鮮,因為報紙在 20 世紀 70 年代和 80 年代就開始刊登學區內學生測試結果的總結 (Popham, 2006)。[8] 然而,對學校和教師的公眾問責制在美國和其他許多國家一直在加強,這種加強的問責制影響了公眾對所有教師的看法和工作,包括那些教授未被測試的科目或年級的教師。

例如,艾琳是一位初中社會研究教師,她說:“作為一名教授‘非測試’科目的教師,我花費大量時間進行教學,以支援標準化測試要求。例如,我們學校實施了‘每日詞彙’,鼓勵教師使用、定義和融入測試中經常使用的術語 (例如,“比較”、“反語”等)。我在課堂上儘可能多地使用這些術語,並將它們納入書面作業中。我還在自己的科目評估中經常使用與標準化測試格式類似的測試題 (例如,帶有雙重否定的選擇題、簡答題和擴充套件答題),因為我相信在測試題格式方面進行練習將有助於學生在被評估的科目中取得更好的成績。”問責制和標準化測試是 20 世紀 80 年代在美國發起的標準化改革教育中的兩個組成部分。另外兩個組成部分是學術內容標準,將在本章後面介紹;以及教師質量,在 第一章 中討論。

標準化測試型別

[編輯 | 編輯原始碼]

成就測試:總結過去. K-12 成就測試旨在評估學生在特定內容領域中學到了什麼。這些測試包括由各州專門設計用於評估學生對州學術內容標準的掌握情況的測試 (詳細資訊見下文),以及一些通用的測試,如《加州成就測試》、《基礎技能綜合測試》、《艾奧瓦基礎技能測試》、《大都會成就測試》和《斯坦福成就測試》。這些通用測試的設計目的是在全國範圍內使用,因此與專門設計的測試相比,它們與州內容標準的契合度沒有那麼高。一些州和加拿大省份使用專門設計的測試來評估學生對內容標準的掌握情況,以及使用通用的成就測試來提供常模資訊。

標準化成就測試的設計目的是用於幼兒園到高中階段的學生。對於年幼的孩子,問題是口頭呈現的,學生可以透過指向圖片的方式回答,並且子測試通常沒有時間限制。例如,在為幼兒園階段的學生設計的《艾奧瓦基礎技能測試》[9] 中,詞彙測試評估聽力詞彙。教師會讀出一個詞,也可能會讀出一句包含這個詞的句子。然後要求學生從三個圖片選項中選擇一個。

成就測試被用作獲得各種職業許可證的標準之一,包括護理、物理治療、社會工作、會計和法律。它們在教師教育中的使用是最近才開始的,是公共教育問責制加強的一部分。大多數州要求教師教育學生參加成就測試,以獲得教師資格證。對於那些尋求初中和高中教師資格證的人來說,這些測試是他們主修或輔修專業的領域 (例如,數學、社會研究);對於那些尋求幼兒和小學教師資格證的人來說,這些測試的重點是教授特定年級學生所需的知識。最常用的測試是 PRAXIS II 系列測試,[10] 由教育考試服務中心開發,包括三種類型的測試。

  1. 學科評估 測試一般和學科特定的教學技能和知識。它們包括選擇題和構建式回答題。
  2. 學習與教學原則 (PLT) 測試 在四個年級水平評估一般教學知識:幼兒、K-6、5-9 和 7-12。這些測試基於案例研究,包括構建式回答題和選擇題。本教科書中的大部分內容都與 PLT 測試相關,並以此為基礎進行組織。
  3. 教學基礎測試 在五個領域評估教學法:多學科 (小學)、英語、語言藝術、數學、科學和社會科學。這些測試包括構建式回答題和選擇題。

教師教育學生必須參加哪些測試以及透過每項測試所需的成績,各不相同,由每個美國州決定。

診斷測試:分析技能和能力 一些標準化測試旨在診斷技能的優勢和劣勢,通常是閱讀或數學技能。例如,一名小學兒童可能在閱讀方面有困難,而一項或多項診斷測試將提供有關三個組成部分的詳細資訊 (Joshi, 2003):[11]

  1. 詞彙識別,包括語音意識 (發音)、解碼和拼寫;
  2. 理解,包括詞彙以及閱讀和聽力理解;以及
  3. 流利度。

診斷性測試通常由學校心理學家按照標準化程式單獨進行。考官通常不僅記錄每個問題的答案,還會記錄觀察到的孩子行為,例如注意力分散或沮喪。診斷性標準化測試的結果將與課堂觀察、學校和醫療記錄以及對教師、家長和學生的訪談結合起來,以形成學生的技能和能力的畫像,並在適當的情況下診斷學習障礙。

能力測試:預測未來 能力測試與成就測試一樣,測量學生所學內容,但與其關注學校學習的特定科目(例如,數學、科學、英語或社會研究),不如關注在學校或一般文化中學習到的語言、數量、解決問題的能力(Linn & Miller,2005)。[12] 這些測試通常比成就測試短,可以用來預測一般的學校成績。如果使用測試的目的是預測特定科目(例如,語言藝術)的成功率,最好的預測是過去在語言藝術方面的成績,因此語言藝術成就測試的成績將是有用的。但是,當預測更普遍時(例如,在大學的成功率),通常使用能力測試。根據考試開發者的說法,用於預測大學成功的 ACT 和 SAT 推理考試,評估了一般的教育發展和推理、分析和解決問題的能力,以及數學、閱讀和寫作方面的題目。[13][14] SAT 科目測試側重於特定科目的掌握,例如英語、歷史、數學、科學和語言,一些大學將其作為入學標準,因此更適合歸類為成就測試,而不是能力測試,即使它們被用來預測未來。

旨在評估一般學習能力的測試傳統上被稱為智力測試,但現在通常被稱為學習能力測試認知能力測試學術能力測試學校能力測試。術語的變化反映了對“智力”一詞含義的廣泛爭議,以及其傳統用法與遺傳能力相關聯。更現代的術語強調,測試衡量的是學習中發展的能力,而不是先天的能力。例如,認知能力測試評估 K-12 學生在語言、數量概念和非語言(空間)圖片方面的推理能力。再比如,Woodcock Johnson III 包含認知能力測試和成就測試,適用於 2 至 90 歲的受試者。[15]

各州的高風險測試

[edit | edit source]

雖然許多州在 2000 年之前就有標準化考試計劃,但自那時以來,州一級考試的數量大幅增加,因為 NCLB 要求所有州在 2005-6 年之前每年對 3-8 年級學生進行閱讀和數學測試,並在高中至少進行一次測試。23 個州擴大了他們的測試範圍...(閱讀更多...)

基於標準的評估
[edit | edit source]
學術內容標準
標準、測試和課堂課程的一致性
內容抽樣
(閱讀更多...)
每年適度進步
[edit | edit source]
子群體
制裁
(閱讀更多...)

增長或增值模型

[edit | edit source]

AYP 計算方式的一個問題是,它基於學生在某一時刻的絕對錶現水平,並沒有衡量學生在每一年中進步了多少。美國教育部在 2006 年允許一些州將增長指標納入他們的 AYP 計算中...(閱讀更多...)

不同的州標準
對初級教師的影響

國際測試

[edit | edit source]
加拿大各省的測試
其他國際測試
(閱讀更多...)

理解測試結果

[edit | edit source]

為了理解標準化測試的測試結果,瞭解“測量理論”中一些基本術語和概念非常重要。測量理論的兩個主要領域——信度和效度——在上一章中進行了討論;本章重點介紹與測試分數相關的概念和術語...(閱讀更多...)

基礎知識
頻率分佈
集中趨勢和變異性的度量
正態分佈
測試分數的種類
標準分數
等級等值分數


標準化考試的問題

[edit | edit source]

許多人對標準化考試在教育中的作用有非常強烈的看法。有些人認為它們提供了一種無偏見的方式來確定個人的認知能力以及學校或學區的質量。另一些人認為標準化考試的分數是不可預測的,不能代表學生的知識,而且具有誤導性...(閱讀更多...)

標準化考試有偏見嗎?
教師會針對考試教學嗎?
學生和教育工作者會作弊嗎?

總結和結論

[edit | edit source]

標準化考試是課堂教師生活中的一部分。因此,瞭解它們能做什麼——以及不能做什麼——很重要。從廣義上講,這些測試要麼評估成績,要麼診斷學習問題,要麼預測未來的學術表現。無論是好是壞,測試結果通常也用於“高風險”目的:評估學生、教師和/或整個學校是否在學術上實現了他們應該實現的目標。由於其性質和侷限性,標準化考試很容易被誤用——無論是透過強化社會偏見,透過誘惑教師針對考試教學,透過誘惑學生在參加考試時作弊,甚至透過誘惑教師在報告分數時作弊。

參考文獻

[edit | edit source]
  1. 人力資源部 (n.d.)。馬薩諸塞州消防員公共能力測試 (PAT) 於 2006 年 11 月 19 日訪問http://www.mass.gov/?pageID=hrdtopic&L=2&L0=Home&L1=Civil+Service&sid=Ehrd
  2. Popham, W. J. (2005). 課堂評估:教師需要了解的內容。波士頓,馬薩諸塞州:皮爾遜。
  3. Haertel, E. & Herman, J. (2005) 針對問責制測試的效度論證的歷史視角。在 J. L. Herman & E. H. Haertel (Eds.) 中資料用於教育問責制和改進的用途和誤用。國家教育研究學會第 104 卷。馬爾登,馬薩諸塞州:布萊克韋爾
  4. Linn, R. L., & Miller, M. D. (2005). 教學中的測量與評估 第 9 版。上鞍河,新澤西州:皮爾遜。
  5. Wise, S. L. & DeMars, C. W. (2005). 低風險評估中受試者努力不足:問題及潛在解決方案。教育評估 10(1), 1-17。
  6. 紐約州教育部 (2005). 紐約州家庭教育。 於 2006 年 11 月 19 日從 [1] 訪問。
  7. Peirangelo, R. & Guiliani, G. (2006). 特殊教育評估。 波士頓:艾倫與培根。
  8. Popham, W. J. (2006). 教師在“不讓一個孩子掉隊”考試中的作弊行為。教育週報,25(32) 32-33。
  9. [2]
  10. http://www.ets.org
  11. Joshi, R. M. (2003). 關於閱讀障礙評估和診斷的誤解。閱讀心理學,24, 247-266。
  12. Linn, R. L., & Miller, M. D. (2005). 教學中的測量與評估,第 9 版。 紐澤西州上鞍河:皮爾遜。
  13. http://www.collegeboard.com
  14. http://www.act.org
  15. http://www.riverpub.com
華夏公益教科書