心理學應用史/評估模型

心理測驗簡史

雖然心理測驗的廣泛使用主要是 20 世紀的現象，但據記載，測驗的雛形至少可以追溯到公元前 2200 年，當時中國皇帝每三年對他的官員進行考核，以確定他們的任職資格（Gregory，1992）。這種測驗在幾個世紀中不斷修改和完善，直到漢朝引入書面考試。中國的考試製度在 1370 年左右最終成型，當時強調對儒家經典的精通。考試極其艱苦和嚴格（例如，在狹小的隔間裡度過一天一夜，撰寫關於指定主題的論文並寫一首詩）。那些透過層級考試的人將成為官吏或有資格擔任公職（Gregory，1992）。但是，古代中國傳統與當前測驗實踐之間的相似之處是膚淺的。

心理測驗也與早期精神病學一樣依賴於實驗心理學的實驗室。上世紀中葉對精神病患者的檢查導致了許多早期測試的開發。例如，1885 年，德國醫生胡貝爾特·馮·格拉謝開發了記憶鼓的前身，作為測試腦損傷患者的一種手段。1889 年，德國精神病學家康拉德·裡格爾開發了一套測試，用於評估腦損傷導致的缺陷，其中包括對長期記憶、視覺識別和短期記憶的評估（Gregory，1992）。這些早期測試缺乏標準化，最終被遺忘（Gregory，1992）。儘管如此，它們在決定心理測驗的發展方向方面具有影響力。

大多數歷史學家將心理測驗的起源追溯到 19 世紀後期在德國和英國蓬勃發展的個體差異實驗研究。早期的實驗者，如威廉·馮特、弗朗西斯·高爾頓和詹姆斯·卡特爾，為 20 世紀的測驗奠定了基礎（Gregory，1992）。他們放棄了完全主觀和內省的方法，開始在實驗室中測試人類能力。例如，高爾頓利用馮特和歐洲其他人在歐洲實踐的幾種心理物理程式，並將它們改編成一系列簡單快捷的感官運動測量。為了進一步研究個體差異，高爾頓在 1884 年的國際衛生博覽會上在倫敦建立了一個實驗室，該實驗室後來被轉移到倫敦博物館（Gregory，1992）。使用的測試和測量涉及身體和行為領域。高爾頓經常被歷史學家視為心理測驗之父（Gregory，1992）。儘管他用反應時間和感覺辨別能力來衡量智力這種簡單嘗試沒有結果，但他透過證明可以設計客觀測試，並且可以透過標準化程式獲得有意義的分數，從而為測驗運動提供了巨大的動力（Gregory，1992）。

詹姆斯·麥基·卡特爾在哥倫比亞大學定居之前，曾在馮特和高爾頓那裡學習新的實驗心理學。卡特爾繼續研究反應時間以測量個體差異（Gregory，1992）。卡特爾還在他著名的題為“心理測驗和測量”的論文中引入了“心理測驗”一詞。這篇文章描述了十種心理測驗，這些測驗是生理和感官測量，反映了他的高爾頓傳統（Gregory，1992）。卡特爾的博士畢業生之一克拉克·威斯勒進行了一項研究，以測試結果是否可以預測學業成績。他的結果表明，心理測驗分數幾乎沒有與學業成績相關的趨勢。

隨著威斯勒結果的發表，實驗心理學家在很大程度上放棄了使用反應時間和感覺辨別能力作為智力測量的指標。然而，高爾頓傳統被放棄所造成的空白並沒有持續很長時間。在歐洲，阿爾弗雷德·比奈（見下文以獲取傳記資訊）在 1905 年推出了他的智力量表，不久之後，H.H.戈達德將其引入美國。比奈在 20 世紀初開發了他的測試，以幫助確定巴黎學校系統中不太可能從普通教學中獲益的兒童。比奈的智力測量側重於高階心理過程，而不是諸如反應時間之類的基本感官過程。比奈在與西奧多·西蒙合作開發了 1905 年的量表。1905 年量表的特點在很大程度上歸功於布蘭博士 (1902) 和他的學生 M·達梅此前開發的一種測試，他們試圖透過使用一系列評估來改善智力障礙的診斷（Gregory，1992）。比奈批評這些量表過於主觀，並且包含反映正規教育的專案；然而，他對使用一系列測試的想法印象深刻，這是他在 1905 年量表中採用的一個特點（Gregory，1992）。

測試史上的早期里程碑時間軸

公元前 2200 年： 中國皇帝每三年對他的官員進行考核，以確定他們的任職資格。
公元 1862 年： 威廉·馮特使用校準的鐘擺來測量“思維速度”。
1869 年： 弗朗西斯·高爾頓出版的《根據其天賦對人類進行分類》標誌著個體差異的科學研究的開始。
1879 年： 馮特在德國萊比錫建立了第一個心理學實驗室。
1884 年： 高爾頓在國際衛生博覽會上對數千名公民進行了第一次測試。
1888 年： J·M·卡特爾在賓夕法尼亞大學開設了一個測試實驗室。
1890 年： 卡特爾在宣佈他高爾頓式測試的議程時使用了“心理測驗”一詞。
1901 年： 克拉克·威斯勒發現卡特爾式“銅製儀器”測試與大學成績沒有相關性。
1904 年： 查爾斯·斯皮爾曼描述了他的智力能力雙因素理論。第一本關於教育測量的主要教科書，E·L·桑代克的《心理和社會測量理論導論》出版。
1905 年： 比奈和西蒙發明了第一個現代智力量表。卡爾·榮格使用詞語聯想測驗來分析心理複合體。
1914 年： 斯坦因引入了智商（IQ）：心理年齡除以實際年齡。
1916 年： 劉易斯·特曼修改了比奈-西蒙量表，出版了斯坦福-比奈。修訂版分別於 1937 年、1960 年和 1986 年出版。
1917 年： 軍隊 Alpha 和軍隊 Beta，第一個團體智力測驗，被構建並用於測試美國陸軍新兵。羅伯特·伍德沃斯開發了個人資料表，這是第一個性格測驗。
1920 年： 羅夏墨跡測驗出版。
1921 年： 心理學公司——第一個主要的測驗出版商——由卡特爾、桑代克和伍德沃斯創立。
1927 年： 斯特朗職業興趣量表 for Men 的第一版出版。
1938 年： 第一本《心理測量年鑑》出版。
1939 年： 韋克斯勒-貝爾維尤智力量表出版。修訂版分別於 1955 年、1981 年和 1997 年出版。
1942 年： 明尼蘇達多項人格測驗出版。
1949 年： 韋克斯勒兒童智力量表出版。修訂版分別於 1974 年和 1991 年出版。

遺傳、歷史測量和優生學

從高爾頓到謝西：關於智力的還原論觀點

智力的還原論概念起源於高爾頓（1892）。他的假設是，藝術、科學、文學和法律領域的卓越源於微觀水平感覺和感知過程的遺傳傳遞。他認為，一般智力差異表現為個體在這些感覺和感知過程的速度和準確性上的差異。

儘管高爾頓自己的許多資料未能支援他的假設，但他的想法逐漸獲得了動力，並在 20 世紀的研究中得到了證實。20 世紀 70 年代末和 80 年代初，人們開發了改進的微觀水平任務電池。這些任務優於早期研究人員使用的任務，因為它們具有更好的心理測量特性，並且明確地關注理論上重要的認知性結構，而不是與智力能力無關的結構（例如，簡單的運動速度）。

從 20 世紀末期的這項工作來看，微觀水平測量與宏觀水平能力之間的聯絡似乎很清楚（例如，參見 Eysenck，1982 和 Jensen，1982），這表明，從本質上講，個人遺傳了具有確定效率的中樞神經系統 (CNS)。這種效率使個人能夠或多或少地有效地從環境中獲取資訊。因此，人們認為，這種微觀水平的個體差異會導致宏觀水平測量的個體差異，例如智商測試表現、學校表現和職業結果。

但是，其他人拒絕了這種最初由高爾頓提出的還原論觀點。作為一個相對較新的例子，本文簡要考慮了謝西（1990）基於他自己的實驗研究提出的論點。第一個論點是，微觀水平測量並非不受環境差異的影響。謝西使用編碼任務來證明這一點。受試者短暫地呈現一個數字，然後是未填充的刺激間間隔。然後在數字出現的位置施加了一個模式掩碼。雖然所有受試者都識別出了這個數字，但在使用掩碼的情況下，個體差異出現在檢測數字所需的時間上。據謝西所說，雖然所有受試者都可能對這個數字同樣熟悉，但他們在記憶中表示這個數字的詳細程度不同。他所說的詳細程度是指，例如，49 可以簡單地表示為奇數，或者更詳細地表示為它的因子、根和其他關聯。謝西發現，詳細程度越高，識別速度越快，這表明編碼等微觀水平任務不僅僅是 CNS 效率的直接測量；顯然，知識庫的個體差異也參與其中。

謝西（1990）提出的第二個反對高爾頓還原論的論點是，微觀水平任務之間的互相關模式無法令人滿意地用單一資源庫（即 CNS 效率）來解釋。謝西發現，概念上不同的微觀水平任務（例如，編碼形狀和編碼聽覺詞語）之間的相關性實際上高於類似的微觀水平任務（例如，音調的聽覺編碼和持續時間的聽覺編碼）之間的相關性。這些發現破壞了微觀水平測量直接反映某些基本生理資源的說法；如果確實如此，謝西認為，人們會期望在類似的微觀水平任務之間存在更高的相關性。

謝西（1990）還認為，現有的遺傳證據對於正在傳遞的具體內容是模稜兩可的。謝西觀察到，遺傳傾向本身並不被認為是智力能力的證據，但會影響個體的認知能力。他舉的例子是氣質。謝西的觀點是，從基因到智商的路徑並非一定與生物學有很大關係，而是我們如何駕馭社會環境的方式；當然，當人們回顧高爾頓自己對卓越和成就的研究以及他選擇的樣本時，這一點是相關的。

謝西（1990）繼續發展了這個論點，批評了關於現實世界成就的研究。他特別針對特曼的工作（1925；特曼和奧登，1959）對智商的預測效度進行了探討。對特曼關於高智商兒童結果的資料的一般解釋是，智商是現實世界成功的預測指標。謝西在他對特曼資料的重新分析中重點關注了收入，並報告說，事實上，在充分控制社會變數後，智商與整個智商範圍內的收入之間沒有關係。

本質上，謝西對高爾頓開始的爭論的貢獻是，從微觀水平任務的表現到宏觀水平成就指標的因果路徑是由個人生態學的方面調節的，而不是由像高爾頓思想所堅持的那樣由基本的、先天的智力直接決定。

威廉·馮特（1832-1920）

早在 1879 年馮特建立第一個心理學實驗室之前，他在 1862 年就開始了對心理過程的測量，當時他用思維計進行了實驗（格雷戈裡，2007）。這是一種校準的擺，兩側都有突出的指標。擺會來回擺動，用指標敲擊鈴鐺。觀察者的任務是記錄鈴鐺響時擺的位置。馮特認為，觀察到的擺位置與實際位置之間的差異將提供一種方法來確定觀察者思維的速度，他認為這是一個因人而異的屬性。使用經驗分析來解釋個體差異是馮特對現代心理測試最重要的貢獻（格雷戈裡，2007）。

弗朗西斯·高爾頓爵士（1822-1911）

高爾頓最初在倫敦、劍橋和伯明翰接受醫學培訓，直到 22 歲時繼承了一大筆財產。然後，他放棄了醫學研究，花了幾年時間旅行。在兩年時間裡，他在西南非洲做出了對地理學的重要貢獻。他是第一個出版天氣圖和描述反氣旋作為天氣系統的人。除了他對優生學和遺傳學的重要影響，正如他所著的《遺傳的天才》（1869）和《人類能力及其發展探究》（1883）所反映的那樣，高爾頓還研究了各種各樣的主題。例如，他開發了一種複合攝影方法來總結肖像，並進行了研究，最終導致了指紋作為識別方法的使用。高爾頓還率先研究了連續幾代人在身體和心理特徵方面的相似性，並使用雙胞胎來研究培育和天性的相對影響。他還認識到需要一種方法來描述兩個變數之間的關係，因此開發了線性相關的乘積矩公式，這被認為是他對測試理論領域最傑出的貢獻（杜波依斯，1970）。

高爾頓對量化和個體差異的迷戀促使他發明了測量人類特徵的方法。當他的表弟查爾斯·達爾文提出他的自然選擇理論——自然選擇最成功的人類特徵——高爾頓隨後建議可以測量人類特徵並對其進行排名，以培育出優等人。他對促進人類福祉的興趣促使他創立了優生學運動（邁爾斯，1998）。

“我無法忍受偶爾表達，而且經常暗示的一種假設，尤其是在為教導孩子行善而寫的童話故事中，這種假設認為嬰兒出生時基本相同，男孩與男孩之間以及男人與男人之間差異的唯一原因是堅持不懈的努力和道德努力。我以最絕對的方式反對自然平等的假象。”（高爾頓，1892 年，邁爾斯，1998 年）。

在接下來的幾年裡，高爾頓試圖測量先天的智力能力，以量化人類的優越性。在他的著作《遺傳的天才》（1869 年）中，他嘗試了測量頭部大小以評估智力的想法，並在後來的幾年裡，他開發了許多不同的方法來測量他認為的“天才的生物學基礎”（邁爾斯，1998 年，第 334 頁）。

高爾頓借鑑了馮特所實踐的心理物理程式，並將它們改編成一系列簡單的感官運動測量方法。由於他在設計可行的個體差異測量方法方面的努力，高爾頓通常被認為是“心理測試之父”（格雷戈裡，2007 年引用古德努夫，1949 年）。1884 年，他在倫敦國際衛生展覽會上建立了一個心理測量實驗室，在那裡人們可以支付少量費用進行一系列測量並記錄下來，包括身高、體重、頭部長度、頭部寬度和臂展（杜波依斯，1970 年；格雷戈裡，2007 年）。雖然高爾頓用反應時間和感官辨別力來評估智力的簡單嘗試證明是徒勞的，但他率先開發了客觀測試來調查心理問題，透過標準化程式獲得有意義的分數（杜波依斯，1970 年；格雷戈裡，2007 年）。

詹姆斯·麥基恩·卡特爾（1860-1944）

卡特爾是一位美國心理學家，他將高爾頓的測試傳統引入美國，並對早期的心理測量發展做出了重要貢獻（杜波依斯，1970；格雷戈裡，2007）。從 1880 年到 1882 年，他在馮特的心理學實驗室學習，期間他進行了一系列反應時間 (RT) 研究。他注意到他和另一位同事在 RT 上存在細微但持續的差異，並向馮特建議應該系統地研究這些個體差異。然而，他沒有得到馮特在該領域繼續研究的支援。

卡特爾還在 1888 年在高爾頓的人類測量實驗室工作，在那裡他得到了對他關於個體差異研究的熱烈支援。之後，他在劍橋和美國講課並收集心理測試資料。卡特爾也是美國第一個獲得“心理學教授”頭銜的人（杜波依斯，1970）。卡特爾（1890；引自杜波依斯，1970）在他的著名論文《心理測試與測量》中創造了“心理測試”一詞，該論文描述了他的研究計劃，詳細介紹了他提出的十項供公眾使用的心理測試。這些測試改編自高爾頓的測試電池，包括握力測試、引起疼痛的壓力程度、顏色命名時間和重量區分等專案。

1891 年，卡特爾接受了哥倫比亞大學的職位，在那裡他創立了心理學實驗室，並很快啟動了一系列身體和心理測試，每年對大約 50 名大一新生進行測試。在他的教授生涯中，他指導了許多後來在心理學領域非常有影響力的學生，例如 E.L.桑代克（著名《心理和社會測量理論導論》的作者）、R.S.伍德沃斯（第一個性格測試的創造者）、E.K.斯特朗（斯特朗職業興趣量表的創造者）和克拉克·維斯勒。維斯勒（1901；引自格雷戈裡，2007）本人對心理測試的早期歷史有很大影響，因為他證明了心理分數與學業成績不相關，這最終導致放棄使用 RT 和感覺辨別作為智力測量的指標（格雷戈裡，2007）。

智力測試

阿爾弗雷德·比奈（1857-1911）

阿爾弗雷德·比奈出生於 1857 年 7 月 11 日的尼斯。他是一個非常聰明的孩子，他的母親決定在他 12 歲時送他去巴黎學習。雖然他最出名的是發明了第一個現代智力測試，即“計量智力量表”，但他還在許多領域進行了研究，如感知、幻覺、語言和解剖學。

比奈開始他的職業生涯是醫學，後來轉向心理學。在薩爾佩特里埃醫院，比奈遇到了神經學家 J. M. 肖卡（1825-1893）；肖卡後來成為他的導師。比奈和他的同事查爾斯·費爾發表了四項研究，這些研究被認為證明了磁鐵的極性如何能在同一個被催眠的受試者身上引起完全的情緒變化，但結果遭到了嚴厲的批評。後來，比奈發表了一份對這些發現的認錯宣告，並認識到使用科學實驗程式的重要性。

從教訓中吸取經驗，比奈對教育心理學的重大貢獻是使用了科學方法，即實驗和觀察：“理論與實驗的結合”（比奈和西蒙，1908，第 1 頁）。對智力疲勞的研究，即學校對兒童施加的工作量是否過重和令人精疲力盡，是比奈及其同事（1898）進行的實驗調查的一個例證。智力疲勞的心理影響在實驗室和課堂兩種環境中得到了探索。比奈認為，在實驗室開始實驗很重要，因為可以在這種環境中解決方法論問題並確定重要的研究問題。然後，在現實生活中進行實驗，以便制定更高效、更有效和更詳細的計劃並檢驗假設。比奈斷言，所有實驗研究都應遵循四個步驟：假設、收集事實、解釋資料和重複。他堅持使用科學的可靠方法，促使他開發新的統計工具並使用對照組，為後來的心理學家提供了一個模型實驗方法。然而，值得注意的是，比奈的許多觀察結果構成了他對認知發展的大部分理論工作的基礎，而這些觀察結果來自他對自己的孩子的觀察！就像他之後的皮亞傑一樣，比奈透過他的研究中的這一定性方面獲得了對其感興趣的發展過程的寶貴見解。

1904 年，比奈被法國公共教育部長任命為一個委員會的成員，該委員會的任務是設計一種方法來識別智力遲緩的學童。在自己的博士生西奧多·西蒙的幫助下，比奈創造了“計量智力量表”。在這方面，比奈開創了普遍智力的概念，當時流行的觀點是，心理功能是截然不同的。該量表實際上包括 30 個單獨的測試（一些由比奈開發，另一些基於現有的認知測試），評估了從心理運動協調到複雜心理推理的各種能力。比奈的測試遵循了後來智力測試開發者的趨勢，難度越來越大，並提供了一種方法來確定兒童根據其實際年齡的正常表現，以及他們是否正常或異常。根據他們對量表的表現識別出有學習障礙的兒童，並將他們選入特殊教育班。值得注意的是，比奈堅持認為，在將這些特殊教育班提供給所有有異常的兒童之前，必須對其影響進行評估和實驗驗證。

比奈對異常的理解與當時流行的觀點截然不同（當時普遍認為異常兒童是指其發育減緩或停止的兒童）。他認為，異常實際上是一種不同的發展模式，其中異常兒童與正常兒童共享某些方面，而另一些方面則不同。最重要的是，這種對異常的理解意味著可以透過旨在透過特定指導和練習來改善兒童認知功能的特殊教育來解決或克服這種異常。他還強調，該量表應該只用作對兒童在施測時認知水平的指示，並建議該水平可能會隨著時間的推移而發生變化（以及作為補救和練習的結果）。他明確警告不要將兒童在智商測試中的表現解釋為兒童智力的固定測量指標。

為了識別有資格接受特殊教育的兒童，比奈還考慮了教師根據兒童在學習中的表現對“可能智力遲緩”學生的印象。實際上，比奈試圖透過將測試結果與兒童教師的印象進行印證來建立他測試的效標關聯效度。值得稱讚的是，比奈堅持要求，在測試之前，這些教師的印象是測試管理者不知道的。這有助於控制任何可能的確認偏差。比奈明確表示，他的量表只是識別智力遲緩兒童的一種評估工具，對兒童平時表現的觀察對於識別和安置決策也至關重要。

儘管比奈的目標是發現和幫助，而不是隔離智力遲緩或異常兒童，但當劉易斯·特曼於 1916 年在美國引入他的測試時，他的測試被用於他反覆強調反對的目的。特曼強調遺傳因素在解釋智商表現中的重要性。與比奈相反，他認為，將智商分數低的兒童安置在特殊班級的理由是，他們沒有希望從正常教育中受益。幸運的是，特曼的觀點當然不代表北美和歐洲學校心理學領域的當代政策和實踐。事實上，在閱讀比奈關於評估程式的作品時，有趣的是要注意到，他一個世紀前提出的許多擔憂和建議在如今用於兒童測試的權威文字中明確強調（薩特勒，2001；薩特勒和霍格，2006）。

比奈關於學習的觀點也對心理學領域產生了影響。他認識到研究不同年齡兒童之間以及同齡兒童之間個體差異的重要性，以便識別不同學習者的優勢和劣勢。因此，他強調需要評估廣泛的技能，以識別兒童的潛力，從而根據他們的能力規劃和提供最佳教育。比奈認為，只要兒童體驗到最佳的學習條件，任何兒童都可以學習。一個至關重要的條件是，所教授的材料或概念的難度水平必須針對兒童進行仔細調整，以便其理解和掌握不會完全超出兒童的能力。這個想法與維果斯基的“最近發展區”驚人地相似。此外，比奈認為學習需要實踐，學生不僅應該聽講，還應該有機會練習他們的知識。此外，比奈認為，在研究人類功能的複雜性時，必須考慮多種因素。例如，基於他認為認知功能無法與情緒功能分離的信念，他考察了飲食習慣與智力成就之間的關係。

亨利·H.戈達德（1866-1957）

1906 年，亨利·H.戈達德被新澤西州的文蘭訓練學校聘用，負責對“弱智”兒童進行分類和教育研究。很快，他就意識到需要一個診斷工具，並且驚訝地瞭解了 1908 年的比奈-西蒙量表。他立即著手翻譯量表，並進行了一些小的修改，使其適用於美國兒童（格雷戈裡，2007）。

戈達德是優生學的堅定倡導者，他利用智力測試來證明，進入美國的許多移民都是智力遲緩的（格雷戈裡，2007）。他還用他翻譯的比奈-西蒙量表測試了許多正常兒童，並支援這種觀點，即被認定為智力缺陷的兒童應該被隔離，以防止他們“汙染社會”（1911；引自格雷戈裡，2007）。他還以作為使用智力測試識別智力受損者的領先專家之一而聞名。

劉易斯·M.特曼（1877-1956）——斯坦福-比奈智力量表

路易斯·特曼於 1877 年出生在印第安納州的一個農場，是 14 個孩子中的第 11 個（Chapman，1988）。他很快就成為一個狂熱的讀者，在學校表現出色，並在 15 歲時開始為教書生涯做準備。他從閱讀達爾文的《物種起源》和威廉·詹姆斯的《心理學原理》等著名作品中對心理學產生了興趣（Chapman，1988）。他對心理測試的興趣起源於他在克拉克大學攻讀博士學位期間。在他的博士論文《天才與愚蠢》中，他從大約 500 名兒童中選出 7 名“聰明”男孩和 7 名“愚蠢”男孩作為極端案例，為他們設計了一系列測試，包括創造力和想象力、邏輯過程、數學能力和語言的測量（DuBois，1970；Chapman，1988）。他得出結論，智力本質可以透過心理測試來最好地解釋，透過這些測試，可以量化個人的表現並將其與整個人群的正常表現進行比較（Chapman，1988）。

特曼在 1910 年被任命為斯坦福大學教育系後停止了對智力測量的研究，在那裡他開始對比奈智力量表進行修訂，以便在美國使用（DuBois，1970；Chapman，1988）。以 1911 年的比奈-西蒙量表為基礎，特曼在 1916 年製作了斯坦福-比奈量表，該量表成為幾十年來智力測試的標準（DuBois，1970；Gregory，2007），也是他最著名的作品。

新量表基於全面和系統的研究（DuBois，1970；Chapman，1988）。比奈材料和 40 項額外的測試為 905 名 5 至 14 歲之間的正常兒童進行了試用，所有兒童都在生日前後兩個月內。此外，在修訂時還考慮了對大約 1400 個其他案例的測試結果，包括 200 個缺陷兒童和優等兒童以及 400 個成年人。特曼本人花費了大量時間來培訓考官，所有記錄都由他本人評分以確保一致性。

新的斯坦福-比奈量表包含 90 個專案，適用於智力障礙者、兒童以及正常和優等成年人（DuBois，1970；Gregory，2007）。它具有清晰、組織良好的管理和評分說明。特曼對該測試的主要貢獻之一是引入了“智商”（最初由路易斯·威廉·施特恩提出）的概念，透過該概念，將個人的智力年齡除以他們的實際年齡，以表示測試結果。特曼將這個比率重新命名為“智商 (IQ)”，這個術語至今仍在廣泛使用（Sattler，2001）。

大衛·韋克斯勒 (1896 – 1981) – 韋克斯勒-貝爾維尤智力量表

在智力測量的改進方面，大衛·韋克斯勒做出了重大貢獻，他在 1939 年出版了韋克斯勒-貝爾維尤智力量表（DuBois，1970）。該量表由子量表組成，以便對受試者只進行一次特定型別的任務或專案測試。智商成為標準分數，每個年齡段的平均值為 100，標準差使 50% 的智商介於 90 到 110 之間。該工具還產生了言語智商、操作智商和總智商（DuBois，1970；Gregory，2007）。對該量表進行了修改，使其比早期的量表更適合成年人，被稱為韋克斯勒成人智力量表（DuBois，1970）。1949 年開發了針對兒童的版本，即韋克斯勒兒童智力量表（Gregory，2007）。

早期的群體測試

隨著比奈量表的成功，透過一種可以同時對大量受試者進行測試的工具來測量智力能力，是一個合乎邏輯的下一步（DuBois，1970）。最早開發群體測試的人之一是派爾，他在 1913 年出版了小學生年齡規範，用於測試一系列指標，例如記憶廣度、數字符號替代和口頭單詞聯想（Gregory，2007），旨在用於診斷（DuBois，1970）。

1917 年，平特納修改了派爾的方法，以測量一般智力（DuBois，1970）。他使用派爾提出的五個似乎與一般智力相關性最高的測試，增加了一個計時取消測試，兒童需要在文字中找到字母 a 並將其劃掉（DuBois，1970；Gregory，2007）。

隨著美國在 1917 年加入第一次世界大戰，群體測試的發展速度急劇加快（Gregory，2007）。當時，羅伯特·M·耶克斯是美國心理學會的會長，他立即採取了積極的措施，發現和實施心理學在國家努力中可以發揮作用的方法（DuBois，1970）。他在 1917 年 5 月組建了招募人員考試委員會，並決定對所有新兵進行群體智力測試，以用於分類和分配（DuBois，1970；Gregory，2007）。新群體測試的一些標準包括：適應群體使用、與有效的智力測量相關、測量廣泛的能力、客觀評分和時間經濟性（DuBois，1970）。

這項努力產生了兩種群體測試：陸軍阿爾法測試和陸軍貝塔測試（Gregory，2007）。阿爾法測試包括針對平均水平和高功能新兵的八項言語測試。這八項測試是：（1）遵循口頭指示，（2）算術推理，（3）實際判斷，（4）同義詞-反義詞配對，（5）打亂的句子，（6）數字序列完成，（7）類比，（8）資訊。

貝塔測試是一種非言語群體測試，專為文盲和母語非英語的新兵設計。它包含各種視覺感知和運動測試，例如追蹤迷宮中的路徑，以及在三維圖紙中直觀地顯示正確數量的積木（Gregory，2007）。

陸軍測試計劃是智力測試首次大規模應用。大約有 175 萬新兵接受了檢查，其中至少 125 萬人接受了五種陸軍阿爾法測試中的一種（DuBois，1970）。該測試獲得了軍方機構的認可，結果被用於做出重要的人員決策。

人格測試

關於人格評估的一般方法的介紹性評論

雖然人們（甚至心理學家）對人格的定義存在很大的差異，但人格可以被認為是指個體思維、情感和行為的特徵模式，這些模式反映了一個人的個人風格，並影響著這個人與其環境的互動方式。已經闡述了許多關於人格的不同理論，並與這些理論密切相關的評估方法也存在很大差異。鑑於它們對該領域思維和評估實踐的長期影響，值得特別注意的是特質理論和精神動力學理論及其相關的評估程式。

特質理論者認為，存在著不同的性格類別或型別。個體根據他們在兩個或多個連續維度上的位置進行分類，這些維度通常使用評分量表進行測量，這些評分量表可以以預先指定的方式進行彙總和組合，以生成更高階人格特質的星座。特質理論者試圖推匯出這些特質的最佳集合，以便這些潛在結構在理論上是有意義的，並且得到實證支援，同時也充分說明了人類人格的差異性。已經開發了問卷格式人格量表，受試者在這些量表上對自己對所描述情景的思想、情感或反應進行評分。這些測試的構建和專案的納入是基於理論（理性方法）或透過使用因子分析等統計程式（標準或經驗方法）。

20 世紀期間對特質人格理論的重要貢獻包括麥克杜格爾 (1932)、瑟斯頓 (1934)、戈登·奧爾波特 (1937, 1961)、雷蒙德·卡特爾 (1943, 1947)、漢斯·艾森克 (1970) 和約翰·迪格曼 (1963, 1972) 的工作。目前，五因素人格模型（包括神經質 [適應不良]、外向性、經驗開放性、宜人性、盡責性）在該領域得到了廣泛認可，並具有堅實的實證基礎（Costa & McCrae，1985, 1989, 1992）。代表這種方法的當代量表的例子包括 NEO 人格量表 (NEO-PI-R: Costa & McCrae，1992)，以及在臨床環境中使用的明尼蘇達多項人格量表 (MMPI-2: Butcher & Megargee，1989)（見下文）。

精神動力學的人格觀暗示，無意識動機是個人在不同情況下行為（以及他們的夢境和口誤）的根本原因。弗洛伊德 (1933, 1991) 認為，人格是由 id、ego 和 superego 組成，他認為，由於每個成分遵循的原則不同，它們之間往往存在衝突。快樂原則總是驅使著對生物衝動的立即滿足，控制著 id。相反，ego 遵循現實原則，透過延遲滿足來控制 id 的衝動，直到可以採取社會可接受的方式來獲得滿足。superego 代表個人的良心，它施加道德標準，根據這些標準，個人計劃和評判自己的思想、情感和行為。在這個理論中，ego 在人格中平衡著其他兩個成分之間的影響和張力。

與特質理論家開發和使用的結構化和標準化評估程式相比，精神動力學傾向的性格評估者使用投射測驗。在這些測試中，刺激被故意設計成模稜兩可的，而個體被認為透過將自己的性格投射到刺激上，來揭示無意識的動機和願望。這些投射測試的例子包括羅夏墨跡測驗（見下文）和主題統覺測驗。這些測試的實施需要評估者進行大量的判斷和解釋。

羅伯特·S·伍德沃斯（1869-1962）——個人資料表

雖然高爾頓已經設計了一種評估方法來研究意象，但直到第一次世界大戰，R.S. 伍德沃斯才將該技術應用於開發一種工具，用於檢測軍隊新兵對情緒穩定性的敏感性（杜博伊斯，1970；格雷戈裡，2007）。在這樣做的過程中，他在 1919 年開發了個人資料表，這是歷史上第一個性格測試。

個人資料表包含 116 個問題，要求受試者用“是”或“否”回答。這些問題涉及相當嚴重的症狀。發現能夠區分正常受試者和異常受試者的專案如下：

你是否經常感到悲傷或情緒低落？
你是否經常感到有人在讀你的想法？

1919 年，伍德沃斯報告說，在調查的 100 種症狀中，普通大學生報告了大約 10 種，而典型歇斯底里患者報告了超過 40 種（杜博伊斯，1970）。

赫爾曼·羅夏（1884-1922）——羅夏墨跡測驗

赫爾曼·羅夏於 1884 年 11 月 8 日出生於蘇黎世。他在沙夫豪森度過了他的青年時代，主要在蘇黎世學習醫學。他在幾個瑞士城鎮的庇護所擔任住院醫生，並在 1914 年在莫斯科的一家療養院工作了七個月。赫爾曼在 1922 年 4 月 2 日 37 歲時因病早逝，當時他是庇護所的副主任。在他去世前十個月，即 1921 年 6 月，羅夏出版了《精神診斷學》，這是著名的墨跡測驗的專著，成為投射測試史上的里程碑（埃倫伯格，1993；格雷戈裡，2007）。羅夏墨跡測驗包含 10 個墨跡，這些墨跡是透過將墨水滴在紙上並對摺紙張形成的，形成了相對對稱的設計（格雷戈裡，2007）。五個墨跡是黑色或灰色，而五個包含顏色。由於羅夏更感興趣的是探索受試者的感知方式，而不是他們所喚起的聯想的具體內容，因此他關注受試者如何反應，比如他們的反應時間，他們是否將形狀看作整體或部分，以及形狀、運動和顏色如何影響受試者對墨跡的欣賞（杜博伊斯，1970）。

令人驚奇的是，赫爾曼在中學時期的綽號是“Klex”，意思是“墨跡”，這與他以之聞名的測試不謀而合（埃倫伯格，1993）。“Klecksography”是瑞士兒童中流行的一種遊戲，它包括在紙上製作墨跡並摺疊它來構建物體的形狀，比如鳥或蝴蝶。

一個事件激發了羅夏對研究人類無意識的興趣，那是他作為醫學生時做的一場夢（埃倫伯格，1993）。他夢見自己的大腦被切成薄片，就像他解剖時看到的那樣，他感覺到這些薄片一張一張地從他額頭上掉下來。他腦海中立即出現了兩個問題：一個人如何在夢中體驗到生理上不可能的感知？以及一系列視覺影像如何被翻譯並重新體驗為一系列動覺影像？這些問題被證明是羅夏（1964）《精神診斷學》的指導力量，他在書中得出結論：個體用於吸收經驗的工具比他在日常生活中使用的工具要廣泛得多、複雜得多。一個人擁有許多能夠讓他體驗的“登記簿”，但他只在日常生活中使用其中的少數幾個。

羅夏墨跡測驗的一個主要影響是榮格的詞語聯想測驗，這是應用於動力精神病學的第一種實驗方法（埃倫伯格，1993）。使用這種測試，榮格檢測到心理複合體，併為每種疾病確定了一種特殊的測試綜合徵。他透過區分受試者的語義和言語聯想，將他們分類為內向型和外向型。這種對答案的正式分類被認為是榮格最原始的貢獻，它極大地影響了羅夏測試的細節和框架（埃倫伯格，1993）。例如，在《精神診斷學》中，羅夏（1964）展示了 405 名受試者的觀察結果，並根據型別對他們的反應進行了分類，比如正常人、弱智者、癲癇患者和精神分裂症患者，這種結構類似於榮格的分類。雖然以完全不同的方式使用，但羅夏也借用了榮格的“內向型”一詞（羅夏，1964）。

墨跡測驗發展的另一個推動力是羅夏與 S. 亨恩的論文相遇，該論文題為“透過無定形墨跡測試學童、成年人和精神病患者的想象力”，於 1917 年出版。亨恩使用八個墨跡來評估一千名兒童、一百名正常成年人和一百名精神病患者的解釋內容（羅夏，1964；埃倫伯格，1993）。在研究結束時，亨恩對未來的研究方向提出了一些建議。他注意到，有些受試者傾向於解釋整幅圖，而另一些受試者只解釋部分，這促使他推測這種模式是否具有意義。他還注意到，他所有的八張卡片都是黑白色的，這使他考慮是否有顏色的卡片會引發不同的反應。最後，亨恩想知道是否可以使用墨跡測試來診斷精神病。羅夏（1964）在《精神診斷學》中試圖回答所有這些問題，重點是研究感知過程的模式。

邁爾斯-布里格斯、凱爾西的氣質和真實色彩

邁爾斯-布里格斯性格測試受卡爾·榮格著作的影響，由 16 種不同的性格型別組成。這些性格型別源於四個主要變數：

內向型/外向型（I/E）
感覺型/直覺型（S/N）
情感型/思考型（F/T）
判斷型/感知型（J/P）

從這種相反傾向的組合來看，假設大多數人傾向於其中的一種而不是另一種。例如，一個人可能會發現自己更傾向於外向型性格，而不是內向型性格。此外，從這些主要變數中衍生出 16 種性格型別，用四個字母表示（例如，INFJ 或 ENFP）。大多數情況下，當一個人接受這個測試時，他們會發現自己在不止一種性格型別中都能看到自己。因此，測試的管理者通常會評論說，這是一種測試一個人最常出現的偏好或主要傾向，而不是一種嚴格的診斷。

大衛·凱爾西是一位 1921 年出生於俄克拉荷馬州的著名心理學家，他修改了這個測試，將 16 種性格型別歸入四個主要氣質。他稱這些氣質為守護者、工匠、理想主義者和理性者。

真實色彩測試是另一個性格測試，它也與邁爾斯-布里格斯和凱爾西的氣質有關。唐·勞瑞在對凱爾西的著作感興趣後，於 1978 年創立了真實色彩，並研究了凱瑟琳·布里格斯、伊莎貝爾·邁爾斯和卡爾·榮格。他採用了凱爾西的四種主要性格型別，然後為兒童和成人建立了一個測試，該測試易於使用、有趣且方便。測試中的每種顏色都用於描述特定型別的人，並且還比較了顏色之間的相容性和不相容性。透過一系列測試，接受這個測試的個體可以對他們的性格中這些顏色的順序進行排名（從最普遍到最不普遍）。該測試已在課堂、公司辦公室、學徒制專案，甚至在職業發展中使用。它對於一個人瞭解自己的優勢、傾向、態度以及他人對他們的感知非常有用。

真實色彩

綠色
藍色
橙色
金色

斯塔克·R·哈撒韋（1903-1984）和 J.C. 麥金利（1891-1950）——明尼蘇達多項人格調查表（MMPI）

S.R. 哈撒韋和 J.C. 麥金利使用伍德沃斯的方法，即編寫似乎具有臨床意義的專案，並透過對比正常受試者和異常受試者的反應來建立效度，在 1943 年發表了 MMPI（杜博伊斯，1970；格雷戈裡，2007）。他們還使用了斯壯職業興趣量表的模型，即建立了一個大型專案庫，其中只有相對較小的子集包含在任何一個鍵或量表中（杜博伊斯，1970）。MMPI 還引入了效度量表的應用，用於確定虛假不良、虛假良好和隨機反應模式（杜博伊斯，1970；格雷戈裡，2007）。

MMPI 包含 566 個是非題，旨在診斷精神症狀（格雷戈裡，2007）。這些專案是從 1000 多個專案中挑選出來的，涵蓋健康狀況、習慣、個人和社會態度以及精神症狀，並且對正常受試者和表現出特定病理狀況的個人進行了測試（杜博伊斯，1970）。選擇顯示出最大差異的專案用於量表，然後在新的病例組中進行交叉驗證（杜博伊斯，1970；格雷戈裡，2007）。

20 世紀罪犯的性格測試：艾森克和哈爾的貢獻

幾個世紀以來，罪犯是與社會其他成員有所不同的個體，這種觀點一直存在，至今仍為許多人所認同。心理學對此的貢獻包括制定人格理論，解釋犯罪行為是某種人格型別的結果。作為個體差異研究心理學領域的一個分支，衡量罪犯人格的努力可以比作高爾頓和特曼區分傑出者或智者與弱智者的努力，兩者在社會工程方面的影響顯而易見。在跨學科方法的更廣泛框架內，人格理論代表了中等層次的解釋，即處於社會結構和組織的宏觀理論之下，微觀理論之上，而微觀理論基於對個體生物構成進行的研究。

社會學家涂爾幹（1895，1938）認為，犯罪實際上是一種正常的社會現象，而不是社會中的病態成分。相比之下，艾森克（1964，1970，1977）提出了犯罪者在心理上與他人不同的理論，他的工作可以被視為開啟了心理學對這一問題的研究新時代。艾森克利用人格的概念，試圖識別出一群“異常”的人，即罪犯，他們不同於更大的“正常”整體，即普通人群。雖然將犯罪視為病態的這種概念，本質上是犯罪學中的積極學派，並非新鮮事物，但艾森克引入心理測量測試來展示群體間差異則是新的。

艾森克根據他的一般人格理論，認為個人可以根據行為傾向進行分類，他假設罪犯具有獨特的人格型別，可以使用他的量表（莫德斯利人格量表，MPI；艾森克人格量表，EPI，見艾森克，1960；艾森克和艾森克，1964）進行測量。基本上，個人可以在兩個維度上定位，即外向性/內向性和神經質，它們是獨立的，代表了整體的人格維度。外向性以衝動、社交能力和總體上的外向行為為特徵，而內向性通常表現為害羞、控制、退縮和內向。根據艾森克的觀點，罪犯在外向性和神經質方面得分較高，由於這種人格型別，他們更容易犯罪。最初針對罪犯群體的研究資料總體上與這一觀點一致（艾森克，1964）。支援艾森克理論的其他證據來自雙胞胎和領養研究（艾森克，1977；梅德尼克、加布裡埃爾和赫欽斯，1984）。

然而，艾森克關於罪犯人格測試的研究也遭到了許多批評。一個問題是他的測量方法是自評問卷；材料的透明度使得它們容易受到反應偏差的影響。雖然在1964年加入了 L（說謊）量表試圖解決這個問題，但其他研究人員發現，可以在不提高該量表得分的情況下操縱反應模式（見法靈頓、比隆和勒布朗，1982）。艾森克人格量表另一個問題是發現這些維度彼此之間在不同程度上存在相關性（艾森克和艾森克，1970；艾森克和艾森克，1976）。顯然，如果人格維度被認為是基本構想，那麼它們應該彼此之間是同質的，並且相互獨立。

當然，艾森克的人格量表只是眾多人格研究成果中的一個。特南鮑姆（1977）對文獻進行了大量回顧，發現有 52 種不同的測試被用來研究罪犯人格，但總體上沒有發現明顯的鑑別效度。因此，似乎有必要開始尋找罪犯群體中更同質的子集，以便更好地闡明具有鑑別效度和預測效度的核心人格特質。因此，艾森克和艾森克（1978）試圖將精神病的概念操作化，“……精神病患者是‘瘋狂的’，因為他的認知過程是紊亂的……而神經質患者通常在精神方面是健全的，但無法控制自己的情緒（第 57 頁）。實際上，艾森克透過假設人格的三維分解，包括 E、N 和 P 維度來修改他的個性理論，該理論預測精神病患者和罪犯在 E、N 和 P 量表上的得分應該很高。哈雷（1982）發現 P 分數與他的精神病檢查表（哈雷 1980）上的 22 個條目中的 6 個相關。然而，他認為，“……P 量表上的高分可能更多地反映了犯罪和反社會傾向和行為，而不是反映精神病診斷所必需的推斷的心理構想（例如缺乏同理心、內疚、悔恨、對他人的關心等）。”同樣，DSM 中的反社會人格障礙診斷標準（見美國精神病學協會最新版，2000 年）也因僅僅提供了對慣犯的描述而受到廣泛批評。

與艾森克和其他人早期試圖衡量犯罪人格的嘗試相比，在過去 25 年裡，有相當多的經驗證據支援由哈雷的精神病檢查表（1980，1991，2003）操作化的精神病人格，哈雷是在精神科醫生赫維·克萊克利（1941）的臨床觀察和開創性理論基礎上發展起來的。精神病是一種複雜的人格障礙，其特徵是人際關係、情感和行為特徵的綜合。PCL-R 是一種結構化的臨床評估工具，用於評估一系列情感和人際交往特徵，以及社會偏差行為。它由經過培訓的評估人員根據個別訪談和檔案資料的審查進行評分。它的可靠性和有效性得到了充分的證明（哈雷，2003）。值得注意的是，研究表明，由 PCL-R 評估的精神病特質與一般罪犯群體中治療參與的負面指標相關聯（例如，哈雷、克拉克、格倫和索恩頓，2000；霍布森、閃和羅伯茨，2000；奧格洛夫、王和格林伍德，1990）。在矯正和精神科人群中，PCL-R 分數與一般犯罪和暴力犯罪再犯之間也存在很強的關聯（例如，漢普希爾·哈雷和王，1998；薩萊金、羅傑斯和塞維爾，1996）。

雖然精神病人格的病因學尚不清楚，但越來越多的證據（見帕特里克，2006）支援哈雷（1993）的假設，即“遺傳因素有助於大腦功能的生物學基礎和基本人格結構，進而影響個人對生活經歷和社會環境的反應方式和互動方式”（第 173 頁）。當然，精神病人格構想對理論和概念的影響是巨大的。作為人格評估工具，PCL-R 對研究和應用環境都產生了重大影響。它是 20 世紀人格研究與臨床和法醫心理學交匯處的關鍵進展之一，與艾森克等早期思想家和科學家相比具有優勢，這些思想家和科學家從艾森克一直追溯到塞薩雷·龍勃羅索（1835-1909）和弗朗茨·約瑟夫·加爾（1758-1828），乃至亞里士多德。

興趣量表

愛德華·K·斯特朗（1884-1963）——斯特朗職業興趣量表

愛德華·K·斯特朗是一位心理學家，他的職業生涯致力於衡量職業興趣，自 1927 年首次出版以來，他花了 36 年的時間開發針對改進後的工具（稱為斯特朗職業興趣量表，SVIB）的經驗性金鑰（杜波依斯，1970；格雷戈裡，2007）。為此，他使用了龐大且精心挑選的受試者群體，研究了測試的信度和效度，考察了職業興趣隨時間的變化，開發了手冊和裝置來幫助解釋結果，並在裝置及其評分方法上進行了各種改進（杜波依斯，1970）。參加測試的受試者可以在數十種職業的單獨金鑰上進行評分，提供一系列分數，對職業指導非常有價值（格雷戈裡，2007）。現代版本，即斯特朗興趣量表，至今仍被指導顧問廣泛使用（格雷戈裡，2007）。1933 年為女性推出了配套量表（杜波依斯，1970）。