社會統計學,第 9 章:迴歸模型設計
許多人擔心現代社會正在讓人變得疏遠。疏遠意味著人們感到與更廣闊的社會脫節。疏遠是 19 世紀後期創立該學科的社會學家研究的第一個問題之一,並且至今仍是一個主要問題。疏遠的一個主要症狀是對社會缺乏信任。在人人都認識彼此的小型封閉社群中,人們有機會在多年的相互交往中發展信任關係。在現代社會中,人們最終成為了商店和餐館周圍的人、他們的鄰居,甚至他們大家庭的陌生人。人們仍然有朋友,但他們的朋友分散在廣泛的網路中。在村莊社會時代,你很可能嫁給你隔壁的鄰居,這個時代早已消失。然而,信任對於現代社會的運作至關重要,尤其是在民主國家。如果人們不信任社會,他們就不會在需要時幫助他們的鄰居,也不會簽訂長期合同(如大學學位課程),也不會參與民主選舉。在最基本的層面上,信任社會對於社會正常運作至關重要。沒有信任,我們都只能靠自己。世界價值觀調查(WVS)在 80 多個國家進行,包括六個關於社會信任的問題。它們是:你有多信任你的家人?你有多信任你鄰居的人?你有多信任你認識的人?你有多信任你第一次遇到的人?你有多信任不同宗教的人?你有多信任不同國籍的人?每個問題都可以用四個等級來回答,範圍從 0 =“一點也不信任”到 3 =“完全信任”。可以透過將每個受訪者對所有六個問題的答案加起來來計算社會整體信任指數。這個指數,“對社會的信任”,然後從可能的最低分數 0(受訪者對所有六個問題都回答“一點也不信任”)到 18(受訪者對所有六個問題都回答“完全信任”)。當然,大多數人介於兩者之間。使用 2006 年世界價值觀調查(WVS)英國版的資料,對社會信任的平均水平為 12.5,標準差為 2.4。大多數英國人對社會有很高的信任度。圖 9-1 中繪製了英國社會信任的完整分佈情況。

雖然大多數英國人對社會有很高的信任度,但仍然有很多人不信任。迴歸模型可以用來幫助我們瞭解原因。首先,我們可能預期人們在對社會信任水平方面的許多差異將由基本的人口統計因素決定:他們是誰,他們住在哪裡以及他們是如何被撫養長大的。這些因素當然應該被包含在任何模型中作為控制變數。由於對社會的信任包括對家庭和對其他宗教人士的信任,我們也可能控制家庭和宗教因素。人們對社會的信任水平也可能部分取決於不同社會地位的人們體驗社會方式的差異。對社會地位進行的社會信任迴歸應該表明社會地位的積極且統計上顯著的影響。社會地位高的人應該顯示出對社會的信任度更高,因為總的來說,社會對他們很好,而社會地位低的人應該顯示出對社會的信任度更低。使用 WVS 資料,選擇了十個變數用於研究社會信任方面的差異。其中七個是背景變數,三個是社會地位的替代操作化。這十個變數是:性別——受訪者的性別,編碼為女性 = 0 和男性 = 1 年齡——受訪者的年齡(歲)城市或城鎮規模——受訪者居住城市的規模,範圍從 1 = 少於 2000 人到 8 = 超過 800,000 人 婚姻狀況——受訪者是否已婚(已婚 = 1)父母狀況——受訪者是否為父母(是 = 1)宗教信仰——在 1 =“宗教在我的生活中一點也不重要”到 10 =“宗教在我的生活中非常重要”的十點量表上編碼 種族——白人(1)與非白人(0) 教育程度——受訪者的受教育年限 收入——受訪者的收入十分位數(最低十分之一,第二十分之一,第三十分之一,等等) 監管職位——受訪者在工作中監督他人(是 = 1)圖 9-2 中報告了一系列迴歸模型的結果,這些模型使用這十個自變數來預測社會信任。圖 9-2 中的第一列報告了每個變數與社會信任的相關性。其餘列報告了迴歸結果。所有係數都是標準化的,因此可以比較三個不同社會地位指標的影響。教育、收入和監管職位的原始非標準化變數都是以不同的量表測量的,因此它們的非標準化係數將無法直接比較。每個係數的顯著性水平都用相應的符號標記,每個模型的 R2 都報告在每列的底部。R2 分數表明,這些模型解釋了英國社會信任中總變異量的 5.5% 到 9.3%。

模型 1 將所有背景因素一起包含在一個單一的迴歸模型中。有趣的是,婚姻和育兒似乎相互補充。婚姻狀況和父母狀況都沒有與社會信任顯著相關,但在迴歸模型中,當控制其他因素時,這兩個變數都具有顯著性。模型 2 也包括所有背景因素,但增加了教育程度,它與社會信任高度顯著相關。在模型 3 中,發現收入與社會信任高度顯著相關,但在模型 4 中,在工作中擔任監管職位的效應並不顯著。在最後的模型,模型 5 中,唯一具有高度顯著係數的社會地位變數是教育程度。所有三個社會地位變數的係數在模型 5 中都小於其他模型中的係數這一事實表明,這三個變數在解釋社會信任方面相互競爭。這是可以預期的,因為它們都是對同一概念進行操作化的不同方式。受教育程度高的人往往收入高,並監督他人工作,而受教育程度低的人往往收入低,不監督他人工作。由於模型 5 中教育的(標準化)係數遠大於收入和監管職位的(標準化)係數,我們可以得出結論,教育是三種社會地位決定因素中對社會信任影響最大的因素。哪五個模型中最適合解釋社會地位如何影響社會信任?這取決於研究人員想要了解社會地位影響的具體內容。所有模型都添加了可能會有用的資訊。使用所有五個模型可以比單獨使用任何一個模型更全面地瞭解社會信任的決定因素。
本章更詳細地探討了如何在多元迴歸模型中選擇自變數。首先,在分析中不是特別具有理論意義的背景控制變數通常在一個初始基礎模型中被歸併在一起(第 9.1 節)。選擇包含在基礎模型中的變數取決於所使用的案例型別:個人、整個國家,或者介於兩者之間。其次,迴歸分析中變數的適當選擇和佈局取決於模型結果將用於的目的(第 9.2 節)。主要區別在於模型是用於預測還是用於解釋。第三,競爭控制和補充控制的概念可以幫助理解在模型中包含控制變數的許多原因中的一些(第 9.3 節)。突出了六個原因,但還可能存在其他原因。可選部分(第 9.4 節)側重於當單個模型包含兩個或多個對同一概念進行操作化的變數時可能出現的問題。最後,本章以美國工資差距的應用案例研究結束(第 9.5 節)。本案例研究說明了如何設計迴歸模型以幫助闡明社會政策中的重要主題。本章的所有關鍵概念都將在本案例研究中使用。在學完本章後,你應該對如何在迴歸模型中選擇自變數以及如何使用自變數有更深刻的理解。
9.1。基礎模型 與本書中迄今為止使用的模型相比,如圖 8-16 和 9-2 中報告的模型具有大量的自變數。大多數社會科學家使用的迴歸模型包括許多自變數,從 6 或 8 個到有時 20 個甚至更多。當模型包含如此多的變數時,有必要用某種方法來組織它們。一個好的起點是基礎模型。基礎模型是初始模型,它包括分析中所有不是迴歸分析的特定理論興趣的背景自變數。例如,在研究社會地位與社會信任之間的關係時,諸如性別、年齡、城鎮規模以及圖 9-2 中模型 1 中包含的所有其他變數之類的變數不是特定的理論興趣。它們僅被包含在其中是為了控制研究中人員的背景。模型 1 將被認為是圖 9.2 的基礎模型。通常在不同型別資料的基礎模型中使用哪種型別的變數,如表 9-3 所示。要包含在基礎模型中的變數通常僅僅取決於哪些資料可用。對於案例是單個人的資料庫,通常可以使用許多不同的變數。當您向上移動鏈條到越來越大的單元時,可用資料越來越少,因此包含的基礎模型變數也越來越少。對於比較國家之間的模型,幾乎總是包含的一個變數是人均國民收入。在迴歸分析中包含國民收入有助於調整這一事實,即像美國和日本這樣的富裕國家在幾乎所有方面都不同於柬埔寨和海地這樣的貧窮國家。如果使用跨國資料的研究人員沒有控制國民收入,那些不同意研究人員觀點的人幾乎肯定會將此作為對研究人員迴歸模型的主要批評。

基礎模型的主要目的是使案例在比較時等效。在圖 9.2 的基礎資料中,受訪者的年齡在 16 到 89 歲之間。有些人是世世代代的英國人,而有些人則是最近從牙買加或巴基斯坦移民而來。當然,有些是男性,有些是女性。他們是一個極其多樣化的人群,有著截然不同的社會經歷。控制這些背景因素可以讓我們進行同類比較。由於年齡被納入分析中的控制變數,我們可以對模型 2 做出以下陳述:在年齡保持不變的情況下,教育與社會信任之間的關係是顯著的。對於任何給定的年齡,教育對社會信任都有顯著的影響。調整年齡後的教育與社會信任之間的關係是顯著的。教育與社會信任之間的關係在剔除年齡後仍然是顯著的。這些都是用不同方式表達我們已經控制了年齡的事實。從數學角度來說,年齡差異導致的信任水平差異的一部分歸因於年齡,而另一部分則歸因於教育(以及其他變數)。基礎模型的一個重要功能是控制可能與分析中感興趣的解釋變數混淆的基本背景變數。混淆變數是指可能影響因變數和感興趣的自變數的變數。例如,年齡會影響社會信任(在圖 9.2 中,10 個變數中,r = 0.162 的相關性最強),但也會影響社會地位。你的受教育程度隨著年齡的增長而提高,但就整個社會而言,老年人的受教育程度較低,因為過去人們在學校學習的時間比現在少。事實證明,在圖 9-2 中使用的 567 名英國世界價值觀調查受訪者中,年齡與教育之間的相關性為 r = -0.218。由於老年人的受教育程度較低,對社會的信任度較高,因此年齡是教育與信任關係分析中的混淆變數。如果迴歸分析通常從基礎模型開始,則通常以飽和模型結束。飽和模型是最終模型,它包含分析中一系列模型中使用的所有變數。圖 9-2 中的模型 5 是飽和模型的一個例子。飽和模型有時難以解釋,因為使用了大量的變數,但它們幾乎總是為了完整性而包含。
9.2. 解釋性模型與預測性模型 在基礎模型和飽和模型之間,沒有關於迴歸模型中應該包含哪些變數或以何種順序包含的硬性規定。一種常見的做法是按照圖 9-2 中的做法:從基礎模型開始,然後在單獨的模型中一次新增一個感興趣的自變數,然後報告一個所有自變數同時使用的飽和模型。當模型旨在評估不同解釋因變數的相對強度時,自變數必須在單獨的模型中一次輸入一個。這使得比較它們各自解釋因變數的效果成為可能。解釋性模型是迴歸模型,其主要目的是用於評估不同理論,以解釋案例在因變數值方面的差異。另一方面,有時迴歸分析的目標僅僅是預測因變數的值,而對模型的理論意義不感興趣。預測性模型是迴歸模型,其主要目的是用於對因變數作為結果進行預測。例如,在圖 3-9 中,一個非常簡單的預測模型被用來預測美國阿拉斯加州和夏威夷州的軟飲料消費量。在預測模型中,瞭解變數係數在模型之間如何變化或控制潛在的混淆變數並不那麼重要。真正重要的是獲得高 R2 分數,因為 R2 表示模型解釋因變數總變異性的比例。一般來說,R2 分數越高的模型對因變數的預測越準確。圖 9-4 列出瞭解釋性模型和預測性模型之間的一些關鍵差異。一個主要的區別是選擇包含在每個模型型別中的自變數的方式。解釋性模型的主要目標是推斷不同自變數對因變數的影響。自變數是根據特定的理論原因仔細選擇包含的,而不重要的或無關的變數永遠不會被包含。將自變數的數量保持在最小限度也有助於更好地理解每個自變數在解釋因變數中所起的作用。換句話說,解釋性模型重視簡約性。簡約性是在使用簡單易懂的模型方面的優點。一個好的解釋性模型是能夠闡明具有理論意義的關係的模型。相比之下,預測性模型通常採取更加自由放任的“百無禁忌”的做法。只要自變數與因變數相關,它們就能幫助做出預測。一個奇怪的例子是在所謂的“廁所沖水模型”中使用汙水處理流量來預測酒店入住率。在海濱度假區,城市管理者想知道在主要的假日週末有多少遊客,但沒有一個單一的資料庫包含了所有在城市酒店、私人出租房或拜訪朋友和親戚的人員名單。相反,城市管理者使用週末透過汙水處理廠的汙水量來估計一定數量的人員必須在城市中。從理論上來說,汙水不會導致人們訪問城市,但汙水是實際訪問人數的很好預測指標。

9.3. 在解釋性模型中控制的原因 在設計迴歸模型時,一個主要的挑戰是決定要控制哪些因素。在預測模型中,決定很簡單:如果一個變數可用,並且它有助於預測因變數,就使用它。在解釋性模型中,決定要困難得多。在解釋性模型中,使用控制變數至少有六個原因,但也有其他可能的原因。它們是: A. 消除替代解釋 B. 比較不同解釋的力量 C. 保持競爭解釋不變 D. 使案例在比較時等效 E. 減少模型誤差 F. 突出因誤差而隱藏的影響 前三個原因 (A-C) 主要適用於控制變數傾向於在解釋因變數方面與其他自變數競爭的情況。在這種情況下,使用控制變數往往會降低其他自變數的影響大小和統計顯著性。最後三個原因 (D-F) 主要適用於控制變數傾向於補充其他自變數的情況。在這種情況下,使用控制變數實際上可以增加其他自變數的影響大小和顯著性。圖 9-5 總結了這六個原因以及在使用它們的各種情況下的解釋。

使用控制變數的所有六個原因都可以透過一系列迴歸模型來說明,這些模型旨在闡明為什麼有些國家在給兒童接種常見的感染疫苗方面比其他國家更成功。雖然在使用方面存在一些爭議,但聯合白喉-百日咳-破傷風 (DPT) 疫苗在世界範圍內被廣泛用於為 12 到 23 個月大的嬰兒接種三種潛在的致命兒童疾病的疫苗。世界衛生組織和大多數國家衛生當局都有正式的 DPT 免疫計劃。儘管如此,DPT 免疫率在一些非洲最貧困國家低於 40%,而在中東和東歐許多中等收入國家則超過 98%。在富裕國家,DPT 免疫率不是一個主要的政策問題,原因有兩個:一是免疫率通常超過 90%,二是這三種疾病——白喉、百日咳和破傷風——在醫療系統良好的國家通常不會危及生命。另一方面,在貧困國家,DPT 免疫對於幼童來說可能是生死攸關的事情。從政策角度來看,我們希望瞭解為什麼一些國家的 DPT 免疫計劃比其他國家更成功,尤其是在貧困國家。可能有幾種解釋。首先,在許多富裕國家,由於家長擔心疫苗的安全性,以及這些疾病現在已經很少見,以至於大多數人不再害怕它們,因此 DPT 免疫率遠低於其潛力。家長對疫苗的恐懼難以衡量,但(除了一些例外)在大多數貧困國家似乎不是一個主要因素。研究家長對疫苗的恐懼在不同國家的影響是有益的,但資料不可用。其他解釋包括國家的經濟發展水平、接觸需要免疫的嬰兒的難易程度、國家在健康方面的支出、國家可以進行免疫的訓練有素的醫務人員數量以及需要免疫的兒童數量。可能用於具體化每個解釋的特定變數是: 經濟發展水平 國民收入——人均國民收入(以千美元計) 改善水質——擁有“改善”供水的人口比例(例如,一口井) 改善衛生條件——擁有“改善”衛生設施的人口比例(例如,一個戶外廁所) 易於接觸 城市化——城市人口(佔總人口的百分比) 衛生支出 醫療支出——國家醫療支出佔國民收入的百分比 訓練有素的人員 醫生——每千人擁有的醫生數量 兒童數量 生育率——婦女平均一生生育的子女數量 可以包括其他變數,但 DPT 免疫率和所有這七個解釋性變數的資料都可以在世界發展指標中獲得,這些資料來自 100 個國家,這些國家代表了世界貧困人口的 85% 以上。從社會政策的角度來看,我們特別想知道可以採取哪些措施來提高免疫率。我們不能輕易使一個國家變得更富裕或更發達,我們也不能做太多事情來使兒童更容易接觸或減少兒童數量。另一方面,我們可以向各國提供外國援助,幫助他們增加在醫療保健方面的支出。我們還可以尋求志願醫生幫助進行免疫接種。因此,一個重要的政策問題是:提供資金還是尋找志願者更有用?圖 9-6 中針對 DPT 免疫的一系列迴歸模型有助於回答這個問題。它們還說明了使用控制變數的六個原因。每個原因的字母都已附加到迴歸表中的相應說明中。

從模型左側移動到右側,將人均國民收入作為自變數(模型 1)的加入是一個控制變數的例子,它使案例在比較時等效(D)。分析中包含的 100 個國家在財富水平上差異巨大。控制人均國民收入有助於調整這些差異,以便我們可以進行類似比較。包含對改善用水和改善衛生設施的控制(模型 2)是對使用控制變數來減少模型誤差(E)的示例。注意 R2 得分如何從模型 1 的 15.5% 躍升到模型 2 的 46.0%。差異(30.5%)意味著在模型 2 中新增的兩個變數共同解釋了免疫接種率總變異的近三分之一。水和衛生設施並不是免疫接種率的直接原因——你不需要廁所就能進行免疫接種——但它們是更發達國家的一般屬性。城市化(模型 3)的加入控制了潛在的競爭性解釋(C)。儘管與 DPT 免疫接種顯著相關,但在控制人均國民收入、水和衛生設施後,城市化的係數在迴歸模型中並不顯著。這不是問題。城市化並不是因為它的重要性而被包含在內。之所以包含它,是因為它可能會與我們感興趣的兩個變數——醫療支出和醫生數量——競爭。在模型 4 和模型 5(B)中比較了醫療支出的係數和醫生數量。儘管醫生數量的影響更大,但醫療支出的影響在統計學上是顯著的,而醫生數量的影響則不然。這是一個矛盾的結果,其原因尚不清楚。我們可以嘗試透過將醫療支出和醫生都包含在一個模型中來消除一個或另一個理論,看看在控制另一個變數時,一個或另一個是否變得明顯不重要(A)。這在模型 6 中完成。不幸的是,在模型 6 中,兩個係數幾乎相同,而且都沒有很強的顯著性。醫療支出和醫生的係數的奇怪和模稜兩可的行為可能是由於某些其他因素掩蓋了每個因素的真實影響。一個可能揭示這些真實影響的控制變數是生育率(F)。生育率高的國家與成年人相比,兒童數量眾多。這對他們的醫療系統造成了巨大的負擔,因為兒童往往比成年人需要更多的醫療保健。當然,這對免疫接種計劃造成了特別的負擔,因為接受 DPT 疫苗的是兒童。相同數量的醫療支出或相同數量的人均醫生,在生育率高的國家比在生育率低的國家影響要小得多。控制生育率(模型 7)會增加醫療支出的係數,使其在統計學上具有明顯的顯著性。另一方面,它會大幅降低醫生的係數。從模型 7 看,很明顯,在控制其他補充和競爭因素後,更高的醫療支出對於促進免疫接種比擁有更多醫生更重要。根據圖 9-6 中報告的結果,最佳政策是富裕國家增加對貧困國家的援助,而不是招募志願醫生。如果在保持醫生數量(和其他因素)不變的情況下增加支出,我們預計免疫接種率會上升。如果在保持支出(和其他因素)不變的情況下增加醫生數量,我們預計免疫接種率不會出現明顯變化。
9.4. 部分化和部分化謬誤(可選/高階)在圖 9.2 的模型 5 中,社會地位的三個不同操作化(教育、收入和監督地位)在同一模型中被用於解釋對社會的信任。在這個模型中,事實證明,即使在控制收入和監督地位後,教育也與信任顯著相關,而收入的係數只有邊際顯著,監督地位的係數根本不顯著。監督職位與信任從未密切相關,但在模型 3 中,收入與對社會的信任非常顯著相關。事實上,模型 3 中收入的係數的機率小於 0.01,表明這種強關係完全隨機產生的可能性小於 1/100。為什麼收入的係數在模型 3 中非常顯著,但在模型 5 中卻小得多,而且只有邊際顯著?答案當然是因為教育和收入是競爭性的控制因素。與收入的係數一樣,教育的係數在模型 5 中也有所下降,只是沒有下降那麼多。它可能下降更多嗎?由於所有三個變數都衡量社會地位,我們可能預期它們都沒有顯著係數。畢竟,透過在同一模型中包含社會地位的三個操作化,我們實際上是在衡量社會地位的影響,同時控制社會地位,然後再次控制社會地位。我們可能合理地預期這三個變數會在解釋對社會的信任方面更充分地相互競爭。我們可能預期,在以一種方式控制社會地位後,其他社會地位指標對社會信任不會產生額外的影響。這在圖 9-2 中沒有發生,但它在迴歸建模中經常發生。當同一概念的兩個或多個操作化被包含在迴歸模型中,並且它們相互競爭以至於它們的係數最終變得不顯著時,它們被稱為“部分化”彼此。部分化是變數之間的一種特定形式的競爭,其中兩個(或更多)變數是同一概念的替代操作化。部分化的一個例子如圖 9-7 所示。圖 9-7 報告了一系列關於 37 個美國大縣(人口在 500,000 到 1,000,000 人之間)的縣謀殺率的迴歸模型,這些模型基於縣收入的兩種操作化。縣謀殺率(每 100,000 人口)來自 FBI 統一犯罪報告資料庫。縣收入以兩種方式操作化。縣貧困率是每個縣中生活在聯邦貧困線以下收入的人口百分比。縣中位收入是每個縣平均人的收入。縣貧困率和中位收入來自美國人口普查局。縣貧困率和縣中位收入的相關係數為 r = -0.780。隨著收入的增加,貧困率下降。

正如預期的那樣,貧困率較高的縣也往往有較高的謀殺率(模型 1)。貧困率每增加 1%,每 100,000 人口被謀殺的人數就會增加 0.082 人。這不算多,但在統計學上是顯著的(機率 = 0.021,小於 5%)。同樣符合預期的是,中位收入較高的縣往往有較低的謀殺率(模型 2)。中位收入每增加 1000 美元,每 100,000 人口被謀殺的人數就會減少 0.031 人。同樣,這種關係很小,但(正好)在統計學上是顯著的(機率 - 0.050,或 5%)。然而,在模型 3 中,貧困和收入都與謀殺率沒有顯著相關性。兩個變數的係數都不顯著。一位只看模型 3,而沒有執行像模型 1 和模型 2 那樣單獨考察每個變數影響的模型的研究人員可能會得出結論,貧困和收入都與謀殺率沒有顯著相關性。這種錯誤被稱為“部分化謬誤”。部分化謬誤是指一個錯誤的結論,即自變數與因變數無關,而實際上它們是相關的。部分化謬誤標籤只適用於那些部分化彼此的變數旨在操作化同一概念的情況。至少有三種方法可以避免部分化謬誤。最簡單的方法是隻選擇概念的一個操作化,忽略任何其他操作化。更好的方法是將概念的多個操作化合併成一個單一變數。在最複雜的層面上,概念的多個操作化可以一起用在一個模型中,並透過它們對模型 R2 得分的集體影響來研究它們共同解釋因變數的能力。注意模型 3 中的 R2 得分略高於模型 1 中的 R2 得分(0.146 對 0.144)。這表明貧困和收入共同解釋了城市間謀殺率變異的比例略高於單獨的貧困。R2 得分的聯合分析的優點是,它允許研究人員使用所有可用的資料及其所有複雜性。另一方面,複雜性也是其主要缺點。有時聯合分析會增加價值,但大多數時候保持簡單更有意義。模型 1 解釋了幾乎與模型 3 相同的謀殺率變異性,而沒有管理多個變數的干擾。研究基於城市貧困水平的城市謀殺率,而不必擔心中位收入,這將是一個合理的折衷方案。
9.5. 案例研究:美國工資中的性別差距在所有曾經被研究過的國家中,婦女的工資都明顯低於男性。這並不一定意味著僱主歧視婦女,但證據表明他們確實如此。然而,並非所有年齡差距都是由於歧視造成的。關於性別差距的兩個競爭性解釋是,婦女接受工資較低的職位是為了在家庭生活中獲得更大的靈活性,以及婦女的工資較低是因為她們的工作時間較少。在第 10 章中,還將研究其他潛在的競爭性解釋。控制變數可以用來幫助我們評估這些競爭性解釋的有效性。原始性別差距在圖 4-6 中有所體現,圖 7-8 中介紹了性別差距的原始迴歸模型,但圖 9-8 中介紹了一系列更詳細的性別與工資之間關係的解釋模型。使用解釋模型而不是預測模型是因為分析的目標是瞭解一般意義上的性別差距,而不是預測任何特定婦女的工資。與前幾章一樣,分析僅限於自認為是非洲裔美國人或白人的美國二十多歲的人。使用了 2008 年收入和計劃參與調查(SIPP)第一波資料。在圖 9-8 中,個體工資在一系列四個迴歸模型中迴歸到 8 個自變數(包括性別)上。

模型 1 是一個基礎模型,包含四個背景變數:受訪者的年齡、種族、西班牙裔身份和受教育年限。不出所料,人們在年齡較大、白人而非黑人、非西班牙裔和受教育程度更高時收入更高。在模型 2 中,-7230 的係數表明,平均而言,二十多歲的女性比二十多歲的男性每年少賺 7230 美元,即使在控制了年齡、種族、西班牙裔身份和受教育年限之後。模型 3 添加了兩個家庭變數:婚姻和子女。已婚人士比單身人士收入更高,有子女的人比沒有子女的人收入更低。這兩個變數消除了模型中的一些誤差,但對性別差距的影響微乎其微。女性因家庭責任而收入低於男性,這種可能性可以安全地排除,作為女性收入較低的競爭性解釋。最終的飽和模型(模型 4)添加了兩個勞動力市場變數:人們是否全職工作以及他們是否在學校學習(這可能意味著他們沒有充分發揮自己的潛力)。控制這些競爭性解釋確實縮小了性別差距,但僅縮小了 803 美元,從 7149 美元降至 6346 美元。這些競爭性解釋都具有高度顯著的係數,似乎是工資的重要決定因素,但它們並沒有解釋女性和男性之間工資差異的大部分。儘管性別差距可能不是由於歧視造成的,但我們可以從圖 9-8 中的模型得出結論,它可能不是由家庭因素或勞動力市場因素造成的。順便說一下,圖 9-8 中的任何變數都不可能與性別混淆,因為性別是在受孕時隨機決定的,但可能存在其他混淆效應。例如,老年人可能受教育程度更高(因為樣本中最年輕的人在研究進行時可能尚未完成學業),並且收入更高,因此教育可能與年齡混淆。如果分析的目的是瞭解教育與收入之間的關係,這可能是個問題,但這裡僅使用年齡和教育,目的是使案例等效以進行比較。同樣,婚姻和子女可能會混淆,但這從性別差距的角度來看不是問題。圖 9-8 中的模型相當簡約。包含的變數很少,並且所有變數都具有統計學意義。一個更完整的二十多歲工資模型可能會控制更多的變數,但仍然不會被認為過於複雜。例如,解釋工資性別差距的重要替代解釋是,它可能是由於女性選擇在哪個行業工作。這將在第 10 章中進一步研究。
- 基礎模型是包括迴歸分析中所有非特定理論興趣的背景自變數的初始模型。
- 混淆變數是可能影響因變數和感興趣的自變數的變數。
- 解釋模型是主要用於評估不同理論,以解釋案例在因變數值方面的差異的迴歸模型。
- 簡約性是使用簡單易懂的模型的優點。
- 預測模型是主要用於預測因變數作為結果的迴歸模型。
- 飽和模型是包含分析中一系列模型中使用的所有變數的最終模型。