跳到內容

社會統計學,第 10 章:多個分類預測變數:方差分析模型

來自華夏公益教科書,開放的書籍,開放的世界

多個分類預測變數:方差分析模型

[編輯 | 編輯原始碼]

在二十世紀,德國在兩次悲慘的毀滅性戰爭中入侵了其鄰國。第一次世界大戰(1914-1919 年)以及更甚的第二次世界大戰(1939-1945 年)使歐洲淪為廢墟。在歐洲七年的第二次世界大戰中,大約有 1800 萬名士兵和 2500 萬名平民喪生,其中包括在大屠殺中被系統性殺害的 600 萬名猶太人。這些死亡人數約佔當時歐洲總人口的 7%,約每 13 人中就有 1 人。我們今天很難理解這種損失的規模。在第二次世界大戰的大屠殺之後,歐洲領導人堅定地認為歐洲再也不應該發生戰爭。1951 年,六個西歐國家簽署了一項條約,成立了歐洲煤鋼共同體。在隨後的 60 年裡,這個有限的國際合作關係發展成為一個擁有 27 個國家、總人口超過 5 億、經濟規模超過美國的歐盟(EU)。今天的歐盟致力於在整個歐洲支援和平、發展、民主和人權。它透過經濟合作和集體決策來實現這一點,其中需要 27 個國家全部批准才能做出重大決定。考慮到歐盟 60 年來在防止戰爭和促進歐洲繁榮方面的良好記錄,我們可能期望歐洲公民對歐盟抱有高度的信心。事實上,他們沒有。在 2005 年至 2008 年期間,世界價值觀調查(WVS)在 11 個歐盟國家進行。另外兩個國家(保加利亞和羅馬尼亞)在 2006 年參加了 WVS,並在一年後的 2007 年加入歐盟。在這 13 個國家,所有受訪者都被問及他們對歐盟的信心程度。在 0 到 3 的範圍內,可用的答案是:0 -- 一點也沒有 1 -- 很少 2 -- 相當多 3 -- 非常多 在這 13 個國家的總體平均答案是 1.355,更接近“很少”而不是“相當多”。不包括兩個在調查進行時尚未加入的國家,平均值為 1.31。在自 1973 年以來一直是歐盟成員國的英國,對歐盟的平均信心水平僅為 1.03。在大多數國家,人們對“電視”的信心比對歐盟的信心更大。

圖 10-1。2005-2008 年對歐盟機構的平均信心(N = 13 個國家)

另一方面,所有國家並不一樣。一些國家(如義大利和西班牙)的人民確實表示對歐盟有相當高的信心。在英國,對歐盟的平均信心水平為 1.03,標準誤為 0.027,因此英國的真實平均水平可能在 0.98 到 1.08 之間(觀測平均值加減兩個標準誤)。同樣,義大利的真實平均水平可能在 1.68 到 1.76 之間。義大利的真實平均值幾乎肯定高於英國的真實平均值。在第 6 章中,我們學習瞭如何使用 t 統計量來評估組間平均值差異的統計顯著性,事實上,英國和義大利之間的差異高度顯著(t = 19.653,自由度為 1850,差異隨機產生的機率為 0.000)。跨國對歐盟的信心差異有多大?回答這個問題的一種方法是詢問跨國差異是否具有統計學意義。我們可以使用簡單迴歸模型來評估任何兩個組之間平均值差異的顯著性,但是對於 13 個國家來說,有 78 對不同的國家可以比較。顯然,我們不希望將所有這些國家都進行比較。我們可以改為將每個國家與歐洲整體平均值進行比較。這是一種更合理的策略,但它仍然需要 13 次單獨的比較,然後必須以某種方式將這些比較組合起來。一種完全不同的策略是選擇一個國家(如英國),並將所有其他國家與它進行比較。這種方法不會提供所有可能的國家比較的顯著性水平,但它是一個開始。如果將另外 12 個國家在一個單一的多個線性迴歸模型中與英國進行比較,則 R2 分數將給出一些指示,表明對歐盟的信心方面受訪者之間總的個體變異有多少可以歸因於國家之間的差異。這種方法將具有額外的優勢,因為我們已經知道如何使用其他變數進行多個線性迴歸。國與國之間的差異可以包含在更大的迴歸模型中,以使用群體成員資格和普通自變數來解釋因變數。

本章介紹了一種新的迴歸模型設計型別,即方差分析模型。首先,可以使用平均值模型來研究變數值在各組案例中如何不同(第 10.1 節)。平均值模型的主要限制是它只能用於單獨檢查每個組,而我們真正想要做的是同時考慮所有組差異。其次,可以使用迴歸模型來確定組間差異的統計顯著性(第 10.2 節)。重要的是,它們還告訴我們因變數變異的總百分比,這些變異可以追溯到組差異。第三,方差分析模型可以嵌入到更大的迴歸模型中,以建立結合了每種模型的方面的模型(第 10.3 節)。這些混合模型的解釋與普通迴歸模型沒有區別。可選部分(第 10.4 節)開發了一個新的統計量,即 F 統計量,它可以用來評估方差分析模型或任何其他迴歸模型的總體統計顯著性。最後,本章以美國教育水平種族差異的應用案例研究結束(第 10.5 節)。本案例研究說明了如何使用混合模型來解釋因變數值中的組間差異。本章的所有關鍵概念都將在此案例研究中使用。在本節結束時,您應該瞭解如何使用迴歸來研究自變數值中的組間差異。

10.1. 使用平均值模型比較組間差異 思考變數值中組間差異的自然方法是將每個組視為具有其自身的平均值。例如,在圖 10-1 中,這 13 個國家中的每一個都有其自身的對歐盟的信心水平的平均值。這 885 名保加利亞人平均值為 1.63,這 1,049 名塞普勒斯人平均值為 1.41,依此類推。這通常是人們檢視組平均值的方式,非常直觀。這種方法的問題在於,它不一定是現實的準確反映。實際上,歐洲人報告對歐盟的信心程度或多或少的原因有很多。其中一個原因是個人居住的國家。每個國家的對歐盟的信心水平的平均值取決於該國的具體歷史和情況。可以使用平均值模型來評估每個國家的真實平均值是否與所有歐洲人對歐盟的總體信心水平顯著不同。在第 6 章中,我們學習瞭如何使用 t 統計量來評估真實平均值可能為零的機率。我們同樣可以輕鬆地評估真實平均值可能為任何數字的機率。在這種情況下,我們想知道每個國家對歐盟的真實平均信心水平可能等於所有歐洲人的總體平均水平的機率。所有歐洲 WVS 受訪者(14,154 人,分為 13 個國家)的平均觀察值是 1.355。使用每個國家的平均值及其標準誤,可以計算出 t 統計量以評估每個國家與歐洲平均值的距離。這些 t 統計量及其相關機率水平報告在圖 10-2 中。

圖 10-2。2005-2008 年對歐盟機構的信心差異的平均值模型方法(N = 14,154 人,分為 13 個國家)

根據圖 10-2 中報告的結果,波蘭(平均值為 1.39)和塞普勒斯(平均值為 1.41)的平均信心水平與歐洲整體平均值沒有顯著差異,而所有其他國家的平均值與歐洲整體平均值高度顯著不同。由於有些國家的平均值顯著高於歐洲平均值,而其他國家的平均值顯著低於歐洲平均值,因此我們可以得出結論,總的來說,歐洲國家之間在對歐盟的信心方面存在重要的跨國差異。在這個例子中,幾乎所有 t 統計量都非常顯著,因此很容易看出國家之間的差異很重要。在其他情況下,情況可能並不那麼清楚。例如,我們可能想知道國家在免疫幼兒免受疾病方面的成功率是否存在區域差異。第 9 章介紹了一個關於白喉-百日咳-破傷風(DPT)免疫率的國際資料庫。該資料庫包含 100 個貧困國家的資料,這些國家被組織成六個區域。資料庫中 100 個國家按世界銀行官方區域分佈如下:東亞和太平洋(EAP)-- 14 個國家 東歐和中亞(ECA)-- 19 個國家 拉丁美洲和加勒比地區(LAC)-- 9 個國家 中東和北非(MNA)-- 8 個國家 南亞(SAS)-- 8 個國家 撒哈拉以南非洲(SSA)-- 42 個國家 DPT 疫苗用於 12-23 個月大的嬰兒。這 100 個國家中這些年齡段嬰兒的平均免疫率為 81.2%。在這六個世界銀行區域中的五個區域,免疫率高於 81.2%,但在一個區域(撒哈拉以南非洲),免疫率低於 81.2%。圖 10-3 中繪製了區域 DPT 免疫率的平均值。100 個國家的平均值也作為參考線放置在圖表中。

圖 10-3。2005 年 DPT 免疫率區域差異的條形圖(N = 100 個貧困國家)

可以使用平均模型方法來研究 DPT 免疫接種率的跨區域差異。在 DPT 的例子中,個案是國家,國家被分組為區域。在圖 10-4 中,使用 t 統計量評估區域與整體 100 個國家平均值 81.23% 的偏差。在世界銀行的六個區域中,兩個區域(ECA 和 LAC)的 DPT 免疫接種率顯著高於 100 個國家平均值,一個區域(SSA)的 DPT 免疫接種率顯著低於 100 個國家平均值,三個區域(EAP、MNA 和 SAS)的 DPT 免疫接種率與 100 個國家平均值沒有顯著差異。

圖 10-4. 2005 年 DPT 免疫接種率區域差異的平均模型(N = 100 個貧困國家)

有兩個較高,一個較低,三個相同,我們可以得出結論,DPT 免疫接種率存在有意義的區域差異嗎?這不像歐盟的例子那樣清晰。答案可能是肯定的(六個區域中有三個顯示出顯著差異),但我們沒有任何明確的指導方針來支援這一點。

10.2. 方差分析作為迴歸模型 平均模型對於回答有關變數水平的簡單問題可能很有用,但大多數社會科學家很少使用它們。社會科學家通常希望研究自變數如何影響因變數的多個方面,而這隻能在迴歸模型的背景下進行。在迴歸模型(或一系列迴歸模型)中,因變數中觀察到的總變異性可以以多種不同的方式劃分。迴歸建模的唯一真正侷限性是所有變數(因變數和自變數)都必須用數字表示。你不能在迴歸模型中使用像受訪者居住國家這樣的變數。大多數時候,當我們談論變數、統計量和迴歸模型時,我們想到的是數字。我們有一些關於一個人的資料(如年齡或受教育年限),這些資料通常從零開始並從那裡向上執行。數值變數是指取表示個案從最低數字到最高數字的有意義排序的數值的變數。數值變數不必從零開始。例如,它們也可以為負數,如不同國家科學中的性別差距(圖 7-1)。一個變數可以將數字用作值,但仍然不是數值變數,但這很少見。例如,DVD 的區域程式碼將世界劃分為六個區域(1-6),但這些數字並沒有真正的數字意義。區域 2(歐洲)與區域 1(北美)相比,“區域性”更強,這種說法沒有道理。另一方面,像 WVS 受訪者居住國家(圖 10-1)和世界銀行區域(圖 10-3)這樣的變數根本沒有與數字相關聯。相反,這些變數的值是描述個案組的名稱。像世界銀行區域這樣的描述用名稱而不是數字描述個案組的變數稱為分類變數。分類變數是將個案劃分為兩個或多個組的變數。分類變數包括具有多個組的變數(如世界銀行區域和 WVS 國家)和僅具有兩個組的變數(如“性別”編碼為男性或女性)。由於分類變數不是數字,因此它們不能加、減、乘或除。它們也不能用於迴歸模型。當我們想在迴歸模型中使用諸如性別之類的分類變數時,我們必須將其編碼為 0/1 變數,其中一個性別取值“0”,另一個性別編碼為“1”。即使變數“性別”(男/女)是分類變數,變數“女性”(0=否,1=是)是數值變數。它代表受訪者是女性的程度:0(完全不是)或 1(完全是)。由於“女性”是數值變數,因此它可以用於迴歸模型。例如,在圖 9-8 的模型 2 中,“女性”的係數為 -7230,表明(在控制其他因素後)女性的預期工資與非女性相比,變化了 1 x -7230 = -7,230 美元。具有兩個以上組的分類變數更加複雜。存在一種特殊的迴歸模型設計來適應這些變數。這些模型稱為“方差分析”模型。方差分析 (ANOVA) 是一種型別的迴歸模型,它側重於因變數中由分類變數解釋的總變異性的比例。由於所有迴歸模型都涉及方差分析,因此將“方差分析”這個名字僅用於此型別的迴歸模型有點奇怪。不幸的是,這個名字在社會科學中至少使用了一個世紀,所以現在改變它為更好的名字已經太晚了。部分作為對這種尷尬的回應,大多數社會科學家今天使用縮寫“ANOVA”來指代使用分類自變數而不是拼出完整名稱的迴歸模型。在分類變數可以用於方差分析模型之前,它們必須重新編碼為數值變數。這些新的數值變數稱為方差分析變數。方差分析變數是迴歸模型中的數值變數,它們共同描述了分類組成員關係的影響。當分類變數只有兩個組(如性別)時,它可以重新編碼為單個方差分析變數(如女性 = 男性為 0,女性為 1)。然後,此單個數值變數可以用作迴歸模型中的自變數。當分類變數有三個組時,需要兩個新變數。例如,考慮變數“政黨隸屬關係”,在大多數美國選舉調查中,它必須取三個值之一(民主黨、共和黨、獨立)。這可以重新編碼為兩個方差分析變數:民主黨——對民主黨人編碼為 1,對其他人編碼為 0共和黨——對共和黨人編碼為 1,對其他人編碼為 0這兩個數值變數然後可以用作迴歸模型中的自變數。為什麼沒有為獨立人士設定第三個變數?因為如果一個人在“民主黨”變數上取值“0”,在“共和黨”變數上取值“0”,那麼這個人一定是獨立人士。不需要額外的變數。更重要的是:如果你試圖在迴歸模型中使用第三個獨立人士變數,程式將不允許這樣做。具有兩個組的分類變數(性別)使用一個方差分析變數,具有三個組的分類變數(政黨)使用兩個方差分析變數,具有四個組的分類變數使用三個方差分析變數,等等。方差分析變數的數量始終比原始分類變數中的組數少一個。因此,例如,描述一個國家屬於哪個世界銀行區域的分類變數有六個組:EAP、ECA、LAC、MNA、SAS 和 SSA。在將此分類變數用於迴歸模型之前,它必須重新編碼為五個方差分析變數。一個組被保留,沒有被製成新變數。這個組被稱為參考組。參考組是在方差分析變數中被保留且未在方差分析模型中顯式包含為變數的組。將 SSA(撒哈拉以南非洲)作為參考組,世界銀行區域的五個方差分析變數為:東亞及太平洋——對 EAP 國家編碼為 1,對其他所有國家編碼為 0東歐和中亞——對 ECA 國家編碼為 1,對其他所有國家編碼為 0拉丁美洲和加勒比地區——對 LAC 國家編碼為 1,對其他所有國家編碼為 0中東和北非——對 MNA 國家編碼為 1,對其他所有國家編碼為 0南亞——對 SAS 國家編碼為 1,對其他所有國家編碼為 0任何在所有五個方差分析變數上編碼為“0”的國家,從排除法上看,一定是非洲國家。圖 10-5 顯示了 DPT 免疫接種率對這五個方差分析變數的迴歸。該模型的 R2 為 0.297,表明世界銀行區域解釋了 DPT 免疫接種率在國家間總變異性的 29.7%(幾乎 30%)。

圖 10-5. 以撒哈拉以南非洲為參考組,2005 年國家 DPT 免疫接種率對區域的迴歸(N = 100 個貧困國家)

圖 10-5 中模型 1 的係數可以像任何其他迴歸模型的係數一樣讀取。當所有五個自變數都等於“0”時,DPT 免疫接種率的預期值為 71.7%(常數)。這是什麼意思?這意味著 71.7% 是撒哈拉以南非洲 DPT 免疫接種率的條件平均值。在這個簡單的方差分析模型中,常數給出了參考組因變數的條件平均值。這與圖 4-6 中報告的簡單迴歸模型沒有區別,其中常數代表女性的平均收入(因為對於女性來說,變數“男性”的值為 0)。在圖 10-5 中,撒哈拉以南非洲國家在所有五個方差分析變數上取值 0。因此,他們的預期 DPT 免疫接種率為:71.7 + 11.3 x 0 + 22.5 x 0 + 15.7 x 0 + 18.1 x 0 + 9.6 x 0 = 71.7%。你可以透過在圖 10-4 中查詢非洲的 DPT 免疫接種率平均值來確認這一點。五個方差分析變數的係數代表撒哈拉以南非洲與每個區域之間的 DPT 免疫接種率平均值的差異。例如,世界銀行區域拉丁美洲和加勒比地區的國家的預期 DPT 免疫接種率為:71.7 + 11.3 x 0 + 22.5 x 0 + 15.7 x 1 + 18.1 x 0 + 9.6 x 0 = 87.4%。同樣,你也可以透過在圖 10-4 中查詢來確認這一點。由於方差分析模型中的實際迴歸係數代表了與參考組的差異,因此不同的參考組將產生不同的結果。在圖 10-5 中,所有係數都是正數,因為每個世界銀行區域的 DPT 免疫接種率平均值都高於撒哈拉以南非洲。相比之下,每個世界銀行區域的 DPT 免疫接種率平均值都低於東歐和中亞。在使用東歐和中亞作為參考組的相同方差分析中,所有係數都將為負數。圖 10-6 說明了這一點。在圖 10-6 中,R2 與圖 10-5 中相同,但所有係數(包括常數)都發生了變化。

圖 10-6. 以東歐和中亞為參考組,2005 年國家 DPT 免疫接種率對區域的迴歸(N = 100 個貧困國家)

R2 仍然是 0.297,因為無論使用哪個地區作為參考組,世界銀行地區都解釋了 DPT 免疫接種率跨國差異的 29.7%。現在常數代表東歐和中亞(參考組)DPT 免疫接種的平均水平。各地區的係數現在代表這些地區 DPT 免疫接種的平均水平與東歐和中亞的水平之間的差異。請注意,雖然所有係數都發生了變化,但模型生成的預期值都保持不變。例如,拉丁美洲和加勒比地區世界銀行地區的預期 DPT 免疫接種率仍然是:94.3 - 11.3 x 0 - 6.8 x 1 - 4.4 x 0 - 12.9 x 0 - 22.5 x 0 = 87.5%。與早期結果(87.4% 對 87.5%)的細微差異是由於四捨五入造成的。在方差分析中,無論選擇哪個組作為參考組,R2 和每個類別(根據其預期值計算)的條件均值都保持不變。圖 10-5 和圖 10-6 之間的真正區別在於係數的統計顯著性。在圖 10-5 中,所有組都與撒哈拉以南非洲進行比較,而在圖 10-6 中,所有組都與東歐和中亞進行比較。報告的顯著性水平與每個組的平均值與參考組的平均值之間的差異有關,不同的參考組將產生不同的顯著性水平。因此,在方差分析模型中,每個方差分析變數係數的具體統計顯著性通常並不重要。圖 10-5 和圖 10-6 中報告的方差分析比圖 10-4 中報告的六個均值模型更可取,原因有以下幾個:首先,方差分析模型告訴我們,免疫接種率跨國差異的總比例是多少,這是由於世界銀行地區之間的差異造成的(近 30%)。其次,它告訴我們使用單個模型(而不是六個模型)來做到這一點。第三,它將分類自變數的分析整合到迴歸模型框架中。最後一點是最重要的,因為它使我們能夠將所有迴歸模型工具應用於分類自變數影響的研究。

10.3. 混合模型方差分析模型只是具有非常特殊的自變數設定的迴歸模型。一旦建立了適當的方差分析變數來表示分類變數,它們也可以用於其他迴歸模型。例如,圖 9-6 展示了一系列七個迴歸模型,這些模型使用七個不同的變數來解釋 DPT 免疫接種率跨國差異。在圖 10-7 中,這些變數與世界銀行地區組合成一個單一分析,其中包括將方差分析變數與數值變數混合的模型。混合模型是包括方差分析成分和普通自變數的迴歸模型。與方差分析模型的係數一樣,混合模型的係數只是普通的迴歸係數,其解釋方式與任何其他迴歸係數相同。

圖 10-7. DPT 免疫接種的混合模型,按地區分,2005 年(根據圖 9-6;N = 100 個貧困國家)

圖 10-7 中的模型 1 是一個基本模型,包括與免疫接種沒有直接關係的一般發展變數。模型 2 添加了五個用於地區的方差分析變數。在控制了發展水平後,地區差異比圖 10-6(也使用東歐和中亞作為參考組)中的差異要小得多。這表明,地區之間的大部分差異是由於地區發展水平的差異造成的。事實上,模型 1 的 R2 為 0.467,而模型 2 的 R2 為 0.476,提高了 0.009。這意味著,在控制了發展水平(模型 1)之後,由於地區差異(模型 2)造成的額外解釋力只有 0.9%。健康和人口變數增加了更多的解釋力,將模型解釋的免疫接種率跨國差異的最終比例提高到模型 4 中的 54.3%。在圖 10-7 中呈現的混合模型中,方差分析變數幾乎沒有增加解釋力,並且在統計上並不顯著(至少在使用東歐和中亞作為參考組的情況下)。在其他混合模型中,方差分析變數可能產生更大的影響。圖 10-8 建立在圖 9-8 的基礎上,使用混合模型來提高我們對美國二十多歲人群中工資性別差距的理解。在圖 9-8 中,種族是透過簡單區分白人和非白人來實現的。在圖 10-8 中,種族被定義為一個四組方差分析變數,使用白人作為參考組。圖 10-8 還包括模型 5 中的另一個方差分析變數:一個人工作的行業。

圖 10-8. 解釋美國二十多歲人群工資性別差距的混合模型,2008 年(根據圖 9-8;N = 7919 名美國二十多歲人群)

圖 10-8 中的行業被定義為一個分類變數,可以取四個可能的值:AMM——農業、採礦業和製造業貿易——批發和零售貿易服務——教育、醫療保健、金融和其他服務政府——聯邦、州和地方政府,以及非營利組織薪酬最高的群體 AMM 被用作參考組。模型 5 中報告的係數表明(在控制了所有其他變數之後),從事貿易和服務的人員的收入明顯低於從事 AMM 的人員,而從事政府工作的人員的收入略微(不顯著)低於從事 AMM 的人員。控制行業對模型的 R2 影響很小(R2 從 0.210 提高到 0.214,或 0.4%),但對性別差距有很大影響。在模型 4 中,性別差距為 5,501 美元。這意味著,即使在控制了年齡、種族、民族、教育、婚姻、子女、就業狀況和入學情況之後,發現美國二十多歲的女性的收入仍然比美國二十多歲的男性少 5,501 美元。即使在考慮了所有這些控制因素之後,控制一個人所從事的行業也會使性別差距進一步縮小 791 美元,達到 4,710 美元。考慮到行業僅僅是廣義地考慮(例如,教育、醫療保健和金融都被歸入“服務”),這是一個相當大的下降。更好地控制行業和職業可能會進一步縮小性別差距。另一方面,性別差距仍然非常大,達到典型工資 20,000 美元左右的 4,000 多美元。即使在控制了許多相互競爭的解釋之後,美國二十多歲人群的工資性別差距至少為 20%,並且可能更大。

10.4. 方差分析和 F 統計量(可選/高階)儘管方差分析(在數學上)是一個迴歸模型,但大多數教科書在教授迴歸之前就介紹了它,並且沒有將兩者聯絡起來。相反,方差分析只是作為評估組差異的工具來教授的。在這種方法中,方差分析中提出的關鍵問題是:因變數的值在組之間是否存在顯著差異?透過將因變數的值在組之間的差異與因變數的值在每個組內的剩餘差異進行比較來回答這個問題。如果組間差異相對於組內差異較大,則方差分析模型解釋了因變數總體可變性的一個顯著部分。如果組間差異非常小,則方差分析模型不顯著。這種傳統方法如圖 10-9 所示。圖 10-9 使用與圖 10-3 相同的 DPT 免疫接種資料,但與圖 10-3 不同,它顯示了資料庫中 100 個貧困國家中的每個國家的免疫接種率。圖表上標註了一些示例國家。每個國家都以不同的數量和不同的原因偏離 81.2% 的總體平均免疫接種率。例如,幾內亞的 DPT 免疫接種率僅為 51.0%,遠低於 81.2% 的總體平均水平。幾內亞 DPT 免疫接種率如此低的部分原因是它位於非洲,部分原因是特定於幾內亞的模型誤差。每個國家都可以進行相同的劃分:每個國家對總體平均免疫接種率的偏差部分是由於其所在地區造成的,而部分是由於模型誤差造成的。

圖 10-9. 傳統的方差分析方法對區域差異建模國家 DPT 免疫接種率的圖形說明,2005 年(根據圖 10-3;N = 100 個貧困國家)

在傳統的方差分析模型中,區域平均值與總體平均值的偏差都被平方並加起來,形成一個平方偏差和。國家對區域平均值的剩餘偏差也被平方並加起來。然後比較這兩個和,以確定由區域造成的偏差是否構成了總平方偏差的統計顯著比例。圖 10-10 對 DPT 資料總結了此過程。區域的平方偏差和為 8000.93,而誤差偏差的平方偏差和為 18944.78。然後將每個平方偏差和除以其自由度。由於六個區域可以使用五個方差分析變數完全描述,因此區域整體(作為分類變數)只有五個自由度。與 t 統計量(第 6 章)一樣,估計均值也佔用了 1 個自由度。由於有 100 個案例,這意味著模型誤差還有 100 - 5 - 1 = 94 個自由度。

圖 10-10. 區域差異國家 DPT 免疫接種率的傳統方差分析模型,2005 年(根據圖 10-5;N = 100 個貧困國家)

歸因於組效應的均方偏差與歸因於誤差的均方偏差之比稱為“F”統計量(以統計學家羅納爾德·費舍爾的名字命名)。F 統計量有兩個不同的自由度,一個是用於分子,一個是用於分母。在圖 10-10 中,地區解釋力的 F 統計量為 7.94,自由度為 5 和 94。使用參考書或統計軟體程式來檢查其顯著性,這個 F 統計量與 0.000 的機率相關聯。世界銀行地區顯著預測 DPT 免疫接種率。F 統計量通常是針對方差分析教授的,但實際上它適用於所有迴歸模型。統計軟體程式中的迴歸輸出幾乎總是包含 F 統計量。它並不經常使用,因為它幾乎總是具有統計學意義。很少有迴歸(或方差分析)模型無法解釋因變數總體可變性的顯著部分。F 統計量在比較巢狀迴歸模型(模型集,其中一個模型包含另一個模型中使用的所有變數,以及一些額外的變數)的解釋力方面有一些有用的高階應用,但它對於描述方差分析模型的結果並不十分有用。R2 統計量通常在診斷組差異是否有實質性意義方面更有用。

10.5. 案例研究:美國教育中的種族差異 不同種族的美國人一直面臨著不同的教育機會。在20世紀60年代之前,許多學校和大學完全拒絕黑人學生入學,一些學校和大學也歧視亞裔和其他種族背景的學生。除了學校的直接歧視外,不同種族的人還面臨著基於收入、地理位置、機會意識以及許多其他因素的各種教育障礙。圖 10-11 報告了 2008 年收入與計劃參與調查 (SIPP) 第二次調查中,30 歲及以上美國成年人教育水平的種族差異。之所以關注 30 歲及以上人群,是因為大多數人在 30 歲之前已經完成了學業。

圖 10-11. 2008 年 30 歲及以上美國成年人教育水平的種族差異(SIPP 資料)

圖 10-11 中報告的資料表明,種族之間教育水平存在明顯差異。亞裔美國人的教育水平最高,而非洲裔美國人和“其他”種族(主要是原住民)的教育水平最低。方差分析模型證實,這三個種族的平均教育水平均與白人顯著不同。在圖 10-12 的模型 1 中,分類變數“種族”被操作化為三個方差分析變數。白人群體用作參考組。亞裔、黑人和“其他”種族的教育水平與白人顯著不同,其中亞裔的教育水平更高,黑人和“其他”種族的教育水平更低。另一方面,儘管這些差異在統計學上非常顯著,但它們僅解釋了教育總個體變異的不到 1%。教育水平的大部分個體差異顯然與種族無關。有可能,美國種族之間教育水平的差異至少部分是由於美國人口按種族劃分的年齡和性別構成差異:年齡和性別可能是模型 1 中的混雜變數。可以使用混合模型來檢驗這一命題,該模型控制了數值變數年齡和分類變數種族。模型 2 展示了僅使用年齡和性別來預測教育的基線模型,模型 3 包括種族。模型 3 中方差分析變數的係數表明,在控制年齡和性別後,白人和黑人以及白人和“其他”種族之間的差距實際上更大,而不是更小。在控制年齡和性別後,黑人平均接受的教育年限比白人少 0.581 年,而“其他”種族平均接受的教育年限比白人少 0.714 年。

圖 10-12. 解釋 2008 年 30 歲及以上美國成年人教育水平種族差異的混合模型 (N = 53,560 人)

顯然,美國存在著教育上的種族差異。鑑於我們對美國社會種族歧視和劣勢的悠久歷史的瞭解,這一點並不令人意外。更有趣的是,教育中的種族差距如何隨著時間的推移而變化。SIPP 樣本中年齡較大的美國人成長在一個種族隔離的美國,該國家通常不允許非白人進入大學,而 SIPP 樣本中年齡較小的美國人成長在一個社會中,該社會正式上是種族平等的,甚至鼓勵少數民族入學。希望這意味著種族差距正在隨著時間的推移而縮小。對於在 1980 年代和 1990 年代成年期的年輕美國人來說,教育中的種族差距是否比對於在 1950 年代和 1960 年代成年期的年長美國人來說更小?回答這個問題需要一種新型模型,即互動模型,這是第 11 章的重點。

第 10 章 關鍵詞

[edit | edit source]
  • 方差分析 (ANOVA) 是指 _一種迴歸模型,其重點在於解釋因變數總變異中由分類變數解釋的比例_。
  • 方差分析變數 是指 _迴歸模型中一起描述分類組成員資格效應的數值變數_。
  • 分類變數 是指 _將案例劃分為兩個或更多組的變數_。
  • 混合模型 是指 _包含方差分析成分和普通自變數的迴歸模型_。
  • 數值變數 是指 _取數值值的變數,這些數值代表案例從低到高的有意義排序_。
  • 參考組 是指 _在方差分析變數中被設定一旁且在方差分析模型中未明確包含為變數的組_。


第 9 章 · 第 11 章


華夏公益教科書