跳轉到內容

社會統計學,第 3 章:使用迴歸進行預測

來自華夏公益教科書,開放的世界,開放的書籍

使用迴歸進行預測

[編輯 | 編輯原始碼]

全球變暖是 21 世紀世介面臨的最大威脅之一。氣候科學家現在已經完全確定全球變暖正在發生,並且與人類活動有關。全球變暖最明顯的原因是化石燃料消耗(儘管還有許多其他原因)。化石燃料是指數百萬年前埋在地球表面的煤炭、石油和天然氣等礦物。在地球漫長的歷史中,大量的碳透過自然過程從大氣中去除並沉積在地下,成為礦物。然後,從 1800 年代開始真正開始,到 1900 年代到今天,我們開始挖掘和抽取這些礦物,在我們的家中、發電廠和汽車中燃燒。每當我們燃燒這些碳礦物時,我們就會將二氧化碳 (CO2) 釋放到大氣中,從而導致全球變暖。全球變暖可能看起來是物理學家研究的話題,但實際上它是一個社會科學話題。物理學家已經告訴我們如何阻止全球變暖:如果我們只是停止燃燒化石燃料,地球就會停止變暖,最終恢復正常。問題是人們不想停止燃燒化石燃料。改變人們的態度和行為是一個社會科學問題。圖 3-1 是來自世界銀行資料庫“世界發展指標”(WDI)的資料摘錄。WDI 資料庫中的案例是國家。資料庫的列包括兩個元資料項(世界銀行國家程式碼和國家名稱)。還包括三個變數:CO2——國家人均排放的二氧化碳公噸GNP——國家的人均國內生產總值,衡量平均國民收入CARS——國家每 1000 居民的乘用車數量。沒有資料的國家被排除在外。例如,WDI 資料庫沒有包含加拿大乘用車資料,因此加拿大未包含在圖 3-1 或以下分析中。資料缺乏是該資料庫僅包含全球 200 多個國家中 51 個國家的資料的原因。

圖 3-1。2005 年世界銀行 51 個國家/地區的二氧化碳 (CO2) 排放資料

據推測,汽車越多的國家燃燒的汽油也越多。如果是這樣,我們可能假設一個國家的汽車數量與其二氧化碳排放量呈正相關。圖 3-2 顯示了圖 3-1 中 51 個國家/地區的二氧化碳排放量(因變數)與乘用車(自變數)的散點圖。線性迴歸模型已被用於在資料中放置趨勢線。雖然趨勢線周圍有很多回歸誤差,但該線的斜率絕對為正。對於一個國家每增加 100 輛汽車,二氧化碳排放量的預期值就會上升 1.25 噸/人。換句話說,迴歸線的斜率為 1.25 / 100 = .0125。這傾向於支援汽車數量與二氧化碳排放量呈正相關的假設。

圖 3-2。2005 年 51 個國家/地區的二氧化碳 (CO2) 排放量與乘用車

圖 3-2 中的兩個異常值是美國和澳大利亞。兩者的碳排放量遠高於其汽車數量所預期的水平。對於美國,這種脫節有一個簡單的解釋:許多美國人不開汽車。他們駕駛卡車和 SUV。這些車輛未包含在世界銀行的“乘用車”資料中,但它們肯定燃燒汽油併產生二氧化碳——而且很多。對於澳大利亞,解釋更為複雜,但澳大利亞高水平的二氧化碳排放量部分歸因於對燃煤發電的嚴重依賴。其他偏離其預期碳排放水平的國家/地區(新加坡、哈薩克)也有自己的故事。然而,總的來說,當國家/地區的汽車越來越多時,它們更有可能排放更多的二氧化碳。該結果是穩健的:移除澳大利亞、美國、新加坡或哈薩克對迴歸線的斜率幾乎沒有影響。圖 3-2 的一個有趣特點是當一個國家沒有汽車時的二氧化碳排放量的預期值。這可以透過在乘用車軸上找到零,然後向上讀取圖表,直到碰到迴歸線來確定。根據迴歸線,當汽車數量為零時,碳排放量的預期水平約為每人 3 噸。這意味著即使我們完全放棄駕駛,我們仍然會面臨全球變暖的問題。原因是除了汽車之外,還有許多其他碳排放來源。我們在發電廠燃燒煤炭來發電。我們燃燒天然氣來加熱我們的房屋。即使沒有汽車,我們仍然會有船舶、火車和飛機燃燒石油。解決全球變暖將非常困難。解決全球變暖的第一步可能是放棄駕駛汽車。放棄汽車並非易事。汽車無處不在,我們大多數人每天都開車。在過去 50 年中,美國、加拿大和澳大利亞等國家/地區圍繞汽車重新構建了自身。今天,沒有汽車就很難去任何地方。圖 3-2 中的結果表明,我們至少應該從減少駕駛開始解決全球變暖問題。減少汽車將大幅減少排放,即使它不會減少到零。關於我們改變生活方式會發生什麼情況的預測可以幫助我們決定要進行哪些型別的改變。制定應對全球變暖等問題的社會政策需要我們做出類似的預測。社會科學家試圖回答關於根據我們今天制定的政策,世界在未來將如何變化的問題。迴歸模型可以幫助我們回答類似的社會政策問題。迴歸模型還可以用來預測人們的收入和投票行為等。簡單的散點圖可能有助於我們瞭解兩個變數之間關係的整體形狀,但迴歸模型在使我們能夠做出具體預測方面走得更遠。

本章重點介紹如何使用線性迴歸模型對因變數的值進行預測。首先,與任何迴歸線一樣,線性迴歸線也有斜率和截距(第 3.1 節)。斜率在第 2 章中已經介紹過,但截距也為線條添加了重要的資訊。其次,迴歸斜率和截距都是計算因變數的預期值所必需的(第 3.2 節)。預期值可用於對因變數進行預測。第三,預期值可用於預測因變數的值,即使某些情況下這些變數的資料缺失(第 3.3 節)。正如預期的那樣,在先前經驗範圍內做出的預測往往比對以前從未觀察過的事件做出的預測更好。可選部分(第 3.4 節)介紹瞭如何使用迴歸預測比較社會中的不同群體。最後,本章以美國 50 個州在 2008 年選舉中人口種族構成與總統投票模式之間關係的應用案例研究結束(第 3.5 節)。本案例研究說明了如何根據斜率和截距繪製迴歸線,如何計算因變數的預期值,以及變數的平均水平如何取決於其他變數的值。本章所有關鍵概念都應用於本案例研究。在本節結束時,您應該能夠利用迴歸模型的結果來了解社會科學家感興趣的現實世界結果的決定因素。

3.1. 斜率和截距 迴歸線的最重要的特徵通常是它的斜率。然而,在許多情況下,我們也想知道當自變數等於零時迴歸線的數值。在類似圖 3-2 和圖 3-3 的散點圖中,自變數在迴歸線與因變數軸相交的點處等於零。截距是迴歸線在散點圖中與因變數軸相交的地方。截距可以提供有意義的資訊來解釋關係,就像在圖 3-2 和圖 3-3 中一樣,但它們本身也很有用。如果你知道迴歸線的斜率和截距,你就可以畫出整條線以及它上面的每一個點。圖 3-3 說明了使用斜率和截距來畫迴歸線。圖 3-3 顯示了連線乘用車和圖 3-2 中的碳排放的迴歸線,但實際資料點已被隱藏,只顯示了這條線。線的斜率是 0.0125,這意味著每增加 100 輛車,人均排放量就會增加 1.25 噸。截距約為 3。為了使所有計算簡單,我們將假設它正好為 3.00。從這個 3.00 的迴歸截距開始,每增加 100 輛車,碳排放量就會增加 1.25。所以前 100 輛車導致碳排放量為 3.00 + 1.25 = 4.25 噸/人。在這些基礎上再增加 100 輛車,導致碳排放量為 4.25 + 1.25 = 5.50 噸/人,依此類推。從 0 輛車和 3.00 噸碳的截距開始,我們可以使用斜率逐點畫出整個迴歸線。

圖 3-3. 二氧化碳 (CO2) 排放量對乘用車的迴歸(來自圖 3-2)

與在散點圖上繪製整個線相比,僅給出迴歸線的斜率和截距所佔的空間要小得多。圖 3-2 和圖 3-3 中繪製的迴歸模型在圖 3-4 中的表格中進行了彙總。在典型的迴歸表中,自變數列在第一列,迴歸係數列在後面的列中。迴歸係數是定義迴歸線的斜率和截距。在圖 3-4 中,只有一個迴歸模型(模型 1),它只有兩個係數(一個截距和一個斜率)。截距 (3.00) 列在名為 “[Constant]” 的條目旁邊。截距用括號中的 “[Constant]” 表示,因為雖然它包含在變數列表中,但它實際上並不是一個變數。社會科學家可互換地使用“常數”和“截距”這兩個術語。

圖 3-4. 二氧化碳 (CO2) 排放量對乘用車的迴歸(表格形式)

與自變數“Cars” (0.0125) 相關的斜率列在“Cars” 條目旁邊。如果有更多自變數,它們將列在其他行中。類似地,如果有更多回歸模型,它們將列在其他列中。迴歸表特別適合同時報告多個迴歸模型的結果。在第 2 章中,對澳大利亞人感到在晚上獨自步行不安全的百分比進行了迴歸分析,分析的物件是州犯罪率(圖 2-2)和個人暴力經歷(圖 2-4)。與使用散點圖相比,這兩個迴歸分析的結果可以在一個表格中簡潔地總結,如表 3-5 所示。所有與這兩個模型相關的係數都在此表格中報告。

圖 3-5. 澳大利亞人感到在晚上獨自步行不安全的百分比的迴歸模型

表 3-5 顯示,在圖 2-2 中,截距為 8.34,斜率為 3.20,而在圖 2-4 中,截距為 3.39,斜率為 1.37。僅憑這些資訊,就可以繪製出這兩幅圖中的迴歸線。這些資訊還包含了這兩條迴歸線的大部分重要事實。例如,我們知道,即使一個州的犯罪率為零,我們仍然預計該州 8.34% 的人會感到在晚上獨自步行不安全。類似地,即使一個州的任何人都沒有親身經歷過暴力,我們仍然預計該州 3.39% 的人會感到在晚上獨自步行不安全。由於兩個斜率都是正數,我們知道,實際犯罪和人們的暴力經歷都會讓他們在晚上獨自外出時感到更加不安全。要檢視與這兩個迴歸模型相關的迴歸誤差和離群值,我們需要散點圖,但係數表給了我們模型本身的基礎知識。

3.2. 計算期望值 包含斜率和截距的迴歸係數表也可以用來計算期望值。這並不令人驚訝,因為斜率和截距用來繪製迴歸線,而期望值只是迴歸線上的值。回到乘用車和二氧化碳排放量之間的關係,斜率為 0.0125,截距為 3.00(圖 3-4)。斜率和截距定義了迴歸線:當乘用車數量為 0 時,這條線從 3.00 噸的碳排放量開始,然後每增加 1 輛車就上升 0.0125 噸。每輛車增加 0.0125 等於每 100 輛車增加 125(圖 3-5)。如表 3-3 所示,0 輛車的碳排放量期望值為 3.00 噸。對於 100 輛車,期望值為 4.25 噸。對於 200 輛車,期望值為 5.50 噸,依此類推。從類似圖 3-2 或圖 3-3 的圖表中讀取期望值是一種尋找它們的方法,但更好的方法是使用斜率和截距在一個方程中計算它們。例如,計算碳排放量期望值的方程如圖 3-6 所示。此方程使用的是圖 3-4 中報告的碳排放量的斜率和截距。這些是與碳排放量與乘用車散點圖中使用的相同斜率和截距。

圖 3-6. 計算二氧化碳 (CO2) 排放量期望值的方程(來自圖 3-4)

使用此方程,可以計算出任何乘用車水平的碳排放量期望值。例如,美國乘用車水平為每 1000 人 461 輛。使用圖 3-6 中所示的方程,美國二氧化碳排放量的期望值為 3.00 + 0.0125 x 461 或 8.7625 噸/人。四捨五入到最接近的小數位,美國二氧化碳排放量的期望值約為 8.8 噸/人。美國二氧化碳排放量的實際值,19.5 噸,顯然遠高於預期。如上所述,這是因為幾乎一半的美國人駕駛 SUV 和卡車,而不是汽車。

3.3. 預測值 迴歸係數的另一個用途是預測未包含在迴歸分析中的情況下的因變數水平。預測值是對應於所選自變數值的因變數的期望值。換句話說,我們可以使用迴歸線的方程進行預測。例如,加拿大沒有包含在本節中的二氧化碳分析中,因為 WDI 資料庫(圖 3-1)缺少加拿大的乘用車資料。儘管 WDI 中沒有加拿大乘用車資料,但加拿大政府有這些資料。根據加拿大政府的官方統計資料,2005 年加拿大每 1000 人擁有 290 輛乘用車。這個數字如此之低,是因為像美國人一樣,幾乎一半的加拿大人駕駛卡車和 SUV,而不是汽車。二氧化碳排放量回歸線的方程表明,二氧化碳排放量期望值為 3.00 + 0.0125 x 乘用車(圖 3-6)。使用加拿大政府的加拿大乘用車資料,3.00 + 0.0125 x 290 = 6.625,四捨五入到大約 6.6 噸。加拿大二氧化碳排放量的實際值為 16.6 噸。這些數字在圖 3-7 中繪製出來。與美國一樣,加拿大的二氧化碳排放量遠高於根據迴歸模型的預期。

圖 3-7. 二氧化碳 (CO2) 排放量的期望值和預測值(來自圖 3-2)

預測值和期望值是非常相似的概念。事實上,許多人使用這兩個術語來表示同一個意思。它們之間的區別實際上只是意圖上的區別。迴歸線根據自變數的實際觀測值繪製因變數的期望值。預測值是在沒有資料的情況下用來預測情況的期望值。例如,在第 1 章中,當我們使用州中位收入來研究全美各地的軟飲料消費量時,我們缺少阿拉斯加和夏威夷的軟飲料資料。阿拉斯加和夏威夷都缺少因變數資料。自變數,州中位收入,這兩個州都有資料:阿拉斯加為 60,945 美元,夏威夷為 65,146 美元。這些收入資料可以與使用美國其他州資料的迴歸模型相結合,以預測阿拉斯加和夏威夷的軟飲料消費量。圖 3-8 報告了州中位收入作為自變數,州人均軟飲料消費量作為因變數的迴歸模型的結果。此模型中的迴歸線截距為 93.9,斜率為 -0.60。這意味著每增加 1000 美元的收入,軟飲料消費量就會下降 0.60 加侖。這條迴歸線是出現在圖 1-2 中散點圖上的線。這條線的方程是軟飲料消費量 = 93.9 - 0.60 x 州中位收入(以千美元為單位)。

圖 3-8. 軟飲料消費量對州中位收入的迴歸結果表(來自圖 1-2)

此方程可用來計算阿拉斯加和夏威夷的軟飲料消費量的預測值。阿拉斯加州的中位收入約為 61,000 美元(四捨五入到最接近的千位以簡化計算)。迴歸模型預測阿拉斯加的軟飲料消費量水平為 93.9 - 0.60 x 61 = 57.3 加侖。夏威夷州的中位收入約為 65,000 美元(同樣四捨五入到最接近的千位)。對夏威夷進行相同的處理,預測值為 93.9 - 0.60 x 65 = 54.9 加侖。軟飲料消費量的預測值繪製在圖 3-9 中其他 48 個州和哥倫比亞特區的州收入和軟飲料消費量散點圖上。阿拉斯加和夏威夷可能沒有圖 3-9 中繪製的軟飲料消費量水平,但這些預測值是我們根據現有資料所能做出的最佳猜測。它們是關於阿拉斯加人和夏威夷人會喝多少加侖軟飲料的預測,如果我們有資料的話。

圖 3-9. 阿拉斯加和夏威夷的軟飲料消費量的預測值(來自圖 1-2;請注意,收入 = 0 美元的迴歸截距位於圖的左側邊緣,未在圖中顯示)

預測值可以在兩種不同的情況下計算。它們可以是針對落在觀測資料範圍內的值的計算,也可以是針對落在觀測資料範圍外的值的計算。插值是使用迴歸模型計算觀測資料範圍內預測值的過程。上面計算的所有預測值——加拿大的碳排放量、阿拉斯加的軟飲料和夏威夷的軟飲料——都是插值的例子。在這三種情況下,因變數的值都落在分析中其他案例中已經觀察到的值的範圍內。然而,有時我們希望在已經觀察到的值之外進行預測。外推是使用迴歸模型計算觀測資料範圍外預測值的過程。例如,預測一個沒有私家車的世界上碳排放量將是多少需要外推。當今世界上沒有國家沒有私家車。即使是非洲西部的尼日,每 1000 人也擁有 4 輛私家車。社會科學家通常對插值感到滿意,但對外推持謹慎態度。這是因為預測值的插值基於現實世界中存在的實際經驗,而外推則不然。例如,我們可能不知道阿拉斯加和夏威夷的軟飲料消費量,但我們知道其他收入水平相似的州的消費量。這些資訊可用於預測阿拉斯加和夏威夷的消費水平,並且具有一定的可信度。另一方面,我們可能猶豫是否使用圖 3-9 中繪製的資料來預測波多黎各的軟飲料消費量。波多黎各的中位收入僅為 18,610 美元。這遠遠超出了可用資料的範圍。使用圖 3-10 中迴歸線的方程來預測波多黎各的軟飲料消費量將得到一個約 82.7 加侖/人的預測值,但大多數社會科學家不會對這種預測感到自信。

3.4. 使用預測值比較人口(可選/高階)在美國,平均而言,女性的收入低於男性,黑人的收入低於白人。根據 2008 年收入與計劃參與調查(SIPP)的資料,20-29 歲的美國女性的收入比男性低 4966 美元,黑人的收入比白人低 6656 美元(平均而言)。這些資料來自 2008 年 SIPP 的第 2 波。這裡的收入定義為工資收入(透過工作賺取的收入,而不是透過投資賺取的收入),計算為 SIPP 中記錄的月收入的 12 倍。工資收入的性別差距很大,種族差距更大。工資收入的這些性別和種族差距可能是由於歧視造成的,也可能是由於其他原因造成的。例如,有可能接受 SIPP 調查的白人男性比其他群體的人年齡更大。如果他們年齡更大,他們應該會有更高的收入。白人男性也可能在其他方面有所不同。他們可能擁有更多經驗或更多教育。有可能,性別和種族差距的一部分可以透過樣本中特定人群的具體特徵來解釋。為了公平地比較收入,必須進行同類比較。本書後面的章節將討論如何“控制”年齡、教育和經驗等混雜影響,但在某些情況下,預測值也可以完成這項工作。例如,可以使用預測值來預測如果所有人的年齡都相同,則每個群體的收入將是多少。人們的收入隨著年齡的增長而增長,從 20 歲左右開始。圖 3-10 報告了使用年齡作為自變數,工資收入作為因變數的四個迴歸模型的結果:一個針對黑人女性,一個針對黑人男性,一個針對白人女性,一個針對白人男性。請注意,這裡截距並沒有多大意義。截距是自變數等於零時因變數的預期值。在圖 3-10 中,截距將代表人們在 0 歲時的預期工資收入。顯然,這不是一個很有意義的概念。它也是對觀測資料的範圍的極端外推,這些資料是基於 10-29 歲的人。簡而言之,圖 3-10 中的截距只是迴歸線開始的地方。除了這一點之外,它們沒有任何實際意義。

圖 3-10. 2008 年,根據種族和性別,對 21-30 歲受僱 SIPP 受試者的工資收入與年齡的迴歸結果表

圖 3-10 中報告的迴歸模型的斜率對比了額外一年的年齡對不同人群工資收入的影響。對於黑人女性來說,平均而言,每多一年的年齡就會帶來 1421 美元的額外工資收入。黑人男性從多一年的年齡中獲得的優勢並不那麼大,只有 1281 美元。最大的差異出現在白人女性和男性身上。對於白人女性來說,平均而言,每多一年的年齡就會帶來 2076 美元的額外工資收入。年齡對白人男性的益處更大。對於白人男性來說,平均而言,每多一年的年齡就會帶來 2830 美元的額外工資收入。白人男性多一年的年齡的預期收益幾乎是黑人女性平均收益的兩倍。圖 3-10 中報告的四個迴歸模型的係數可用於計算黑人女性、黑人男性、白人女性和白人男性在任何給定年齡的工資收入的預測值。從圖 3-10 可以看出,黑人女性的迴歸模型為:工資收入 = -7767 + 1421 x 年齡。對於不同年齡的黑人女性,這相當於:年齡 25 歲:工資收入 = -7767 + 1421 x 25 = 27,758 美元年齡 30 歲:工資收入 = -7767 + 1421 x 30 = 34,863 美元年齡 40 歲:工資收入 = -7767 + 1421 x 40 = 49,073 美元這些資料在圖 3-11 中黑人女性的欄目中報告。黑人男性、白人女性和白人男性的資料採用相同的方式計算。對每個群體在 25 歲時的工資收入的預測是插值,因為研究中 SIPP 參與者的年齡為 20-29 歲。作為插值,它應該是對每個類別中 25 歲的人預期的收入的相當準確的估計。對 30 歲時的工資收入的預測處於插值和外推之間的邊緣,因此可能不太可靠。對 40 歲時的工資收入的預測是遠期外推,而且距離現在太遠,以至於大多數社會科學家根本不會信任它。這裡包含了 40 歲的外推,只是為了說明外推是如何工作的。

圖 3-11. 2008 年,根據 SIPP 資料,根據種族和性別,按年齡預測的收入值表

這些模型告訴我們關於歧視的什麼?在 SIPP 資料中,總體而言,二十多歲的女性和男性之間的收入差距為 4966 美元,而黑人和白人之間的收入差距為 6656 美元。比較 25 歲的人的預測收入,黑人女性的預測收入比黑人男性低 3082 美元,而白人女性的預測收入比白人男性低 3994 美元。這意味著,考慮到種族和經驗,25 歲的女性的收入比男性低約 3000-4000 美元,而不是原始資料顯示的 5000 美元。同樣,黑人女性在 25 歲的預測收入比白人女性低 4855 美元,而黑人男性的預測收入比白人男性低 5757 美元。同樣,經過年齡和性別的調整後的差異很大,但沒有原始種族差距的 6656 美元那麼大。在 25 歲時,工資收入的性別和種族差距很大,但沒有僅僅根據原始資料認為的那樣大。

3.5. 案例研究:根據種族預測州選舉結果 2008 年 11 月 4 日,巴拉克·奧巴馬當選為美國首位黑人總統。奧巴馬總統的父親是肯亞人,巴拉克·奧巴馬本人主要在夏威夷長大,遠離美國民權鬥爭的歷史中心。儘管如此,就像任何黑人美國人一樣,奧巴馬一生都受到種族歧視的影響。奧巴馬和美國在奧巴馬當選總統時克服了種族歧視,但他的種族是否是他當選的因素?迴歸模型可以幫助闡明種族在 2008 年大選中所起的作用。大多數時候歧視會傷害一個人,但有時它也會幫助一個人。在 2008 年總統大選中,黑人美國人壓倒性地投票支援巴拉克·奧巴馬。根據 CNN 新聞報道,選舉之夜的出口民調顯示,96% 的黑人投票給了奧巴馬。這些選票無疑幫助奧巴馬贏得了選舉,但美國大選不僅僅取決於投票給候選人的人數。它們由州選舉人票決定。在大多數州,誰在該州獲得的票數最多,誰就獲得該州的所有選舉人票。因此,有可能贏得最多的選票,但仍然輸掉選舉。這在 2000 年發生在戈爾身上,當時他贏得的人數比布什多,但州選舉人票少。在 2008 年的大選中,奧巴馬贏得了最多的人數投票和最多州選舉人票,因此當選總統。奇怪的是,儘管如此,他在一些黑人人口最多的州輸掉了選舉。例如,密西西比州的黑人人口比例是美國所有州中最高的(黑人佔 37.2%),但奧巴馬在密西西比州只獲得了 43.0% 的選票,輸給了他的對手約翰·麥凱恩。同樣的事情也發生在其他黑人人口眾多的州,如阿拉巴馬州和路易斯安那州。圖 3-12 繪製了州黑人人口百分比與該州投票給奧巴馬的選民百分比之間的關係。事實證明,2008 年,州的黑人人口與其總統投票之間幾乎沒有關係。迴歸線的斜率實際上略微為負。這意味著黑人人口比例較高的州往往投票給奧巴馬的比例略低。奧巴馬在他在夏威夷(71.9%)長大的州獲得了最高的投票率。奧巴馬的投票率最低的是歷史上的共和黨支援州懷俄明州(32.5%)。

圖 3-12. 2008 年支援奧巴馬的投票率與各州黑人人口比例

鑑於 96% 的黑人美國人投票支援奧巴馬,那麼為什麼各州的黑人人口數量與對奧巴馬的投票率之間沒有關係呢?答案是,在許多黑人人口眾多的州,白人壓倒性地投票支援他的對手約翰·麥凱恩。這種趨勢在南部地區尤為明顯。美國黑人爭取民權鬥爭的歷史中心一直是南部,特別是 11 個在內戰 (1861-1865) 期間脫離美國聯邦的邦聯前州。這 11 個邦聯州堅決致力於維持奴隸制制度,在被重新接納入聯邦後,他們制定了歧視其黑人公民的政策和法律。黑人美國人在美國各地都遭受過歧視,但 11 個邦聯前州的歷史歧視程度遠高於其他地區。圖 3-13 繪製了與圖 3-12 完全相同的資料,但將各州分為從未加入邦聯的 39 個“自由”州和在內戰期間脫離美國聯邦的 11 個邦聯前州。自由州用菱形標記,邦聯前州用 X 標記。分別為這兩組州繪製了迴歸線。在 39 個自由州中,黑人人口比例更高的州,對奧巴馬的投票率也更高,正如預期的那樣。在 11 個邦聯前州中,黑人人口比例更高的州,對奧巴馬的投票率實際上更低。

圖 3-13. 支援奧巴馬的投票率與各州黑人人口比例,將自由州和邦聯前州分開,2008 年

圖 3-14 總結了圖 3-12 和圖 3-13 中繪製的線的迴歸係數。圖 3-12 中繪製的所有州的線是圖 3-14 中的模型 1。圖 3-13 中繪製的自由州線是模型 2,而圖 3-13 中繪製的邦聯前州線是模型 3。每個模型的案例數量 (N) 已在表中註明。在模型 1 中,截距為 51.1,斜率為 -0.057。51.1 的截距意味著,對黑人選民為零的州,奧巴馬投票率的預測值為 51.1%。這是一個外推值,因為實際上不存在黑人人口為 0% 的州。通常,外推值不如內插值可靠,但在這個例子中,外推值非常小,因為幾個州的黑人人口比例低於 1%。

圖 3-14. 用於預測奧巴馬投票率的迴歸模型的迴歸結果表

模型 1 中的斜率為 -0.057。這意味著,對於一個州的黑人人口比例每增加 1%,預計奧巴馬的投票率將下降 0.057%。這是一個非常非常小的向下傾斜。一個州的黑人人口數量對該州對奧巴馬的總投票率幾乎沒有影響。不包括邦聯前州,自由州模型 (模型 2) 的截距為 48.1。這意味著,模型 2 會預測,在黑人選民為零的州,對奧巴馬的投票率為 48.1%。這與模型 1 的預測不同,但相差不大。這兩個預測值(模型 1 的 51.1% 和模型 2 的 48.1%)都在黑人選民數量非常少的州(如佛蒙特州和懷俄明州)對奧巴馬的實際投票率範圍內。更重要的是模型 2 的斜率。只關注 39 個自由州,迴歸線的斜率明顯為正。對於 39 個自由州,一個州的黑人人口比例每增加 1%,與對奧巴馬的投票率增加 0.576% 相關。這是一個很大的影響。黑人人口比例增加 1 個百分點,預計對奧巴馬的投票率將增加 0.5 個百分點。模型 3 重複了奧巴馬投票率對各州黑人人口比例的迴歸,但這次只使用了 11 個歷史上屬於脫離美國聯邦的邦聯的南部州(1861-1865)。在邦聯前州,對黑人選民為零的州,對奧巴馬的投票率的預測值為 47.3。這個預測值是一個遠超出這些州黑人選民數量觀察範圍的外推值,但它仍然是一個可信的數字。它比模型 1 和模型 2 中的等效預測值略低,但相差不大,並且在黑人人口比例較小的自由州對奧巴馬的實際觀察投票率範圍內。模型 3 中更重要的係數是斜率。斜率為 -0.114。這意味著,在 11 個邦聯前州,黑人人口比例增加 1%,與對奧巴馬的投票率下降 0.114% 相關。黑人人口比例每增加 1 個百分點,預計對奧巴馬的投票率將下降略高於十分之一的百分點。這很引人注目。在南部以外地區,一個州的黑人人口越多,投票支援奧巴馬的人就越多。在南部,一個州的黑人人口越多,投票支援麥凱恩的人就越多。對約翰·麥凱恩的高票數並不代表種族主義。沒有理由認為懷俄明州 67.5% 的麥凱恩票數代表懷俄明州的種族主義。但在種族主義歷史最糟糕的州(而且只有這些州),對約翰·麥凱恩的支援率在黑人公民比例最高的州最強勁。換句話說,如果南部白人有黑人鄰居,他們更有可能投票支援麥凱恩。如果一個州的黑人人口較少,白人更願意投票支援奧巴馬,但如果一個州的黑人人口較多,白人往往會投票支援麥凱恩。這是一個非常強烈的間接證據,表明這些州存在種族主義的遺留問題。需要進一步的研究才能更全面地瞭解這些投票模式,但圖 3-14 中報告的迴歸模型確實對當今美國的種族和種族主義提出了嚴重的問題。

第 3 章 關鍵詞

[編輯 | 編輯原始碼]
  • 外推是指使用迴歸模型來計算觀察資料範圍內的預測值的過程
  • 截距是指迴歸線在散點圖中與因變數軸相交的位置
  • 內插是指使用迴歸模型來計算觀察資料範圍內的預測值的過程
  • 預測值是指對應於自變數選定值的因變數的預期值
  • 迴歸係數是指定義迴歸線的斜率和截距

第 2 章 · 第 4 章


華夏公益教科書