社會統計/第 7 章
父母和政客總是堅信他們的孩子沒有接受到足夠好的教育。為了部分滿足父母和政客的要求,以便比較不同國家之間的教育成果,經濟合作與發展組織 (OECD) 實施了國際學生評估專案 (PISA)。該專案組織了標準化測試,比較了 OECD 成員國和其他國家 15 歲學生的知識水平。PISA 測試非常重視父母和政客最擔心的主題——數學和科學——而忽略了其他可能更有助於確保幸福和成功生活的學科,如文學、藝術,當然還有社會科學。儘管如此,各國 PISA 測試結果可用於幫助回答關於國家教育成果的重要社會科學問題。父母和政客經常提出的一個擔憂是,選擇進入科學和工程專業的女性人數很少。這可能是也可能不是問題——畢竟,說科學領域缺少女性就等同於說其他領域缺少男性——但它被普遍認為是一個問題。許多 OECD 國家(包括美國)都有專門的政府資助專案,旨在增加學習科學的女孩人數以及選擇科學職業的女性人數。父母和政客尤其擔心,青少年女孩在高中的科學成績似乎不如青少年男孩。青少年女孩的科學成績真的不如青少年男孩嗎?來自 PISA 測試的跨國資料可用於回答這個問題。圖 7-1 報告了關於 PISA 科學成績的資料。

除了通常的元資料項外,圖 7-1 包含七個變數:BOYS——男孩的國家平均 PISA 科學成績 GIRLS——男孩的國家平均 PISA 科學成績 GAP——科學教育中的性別差距 (BOYS - GIRL) INCOME——人均國民收入(以美元計) SPEND——教育支出佔國民總收入的百分比 TEACHERS——每 100 名學生對應的教師人數 PISA 成績被設計為對整個 OECD 來說平均值為 500。高於 500 的國家成績高於 OECD 平均值,低於 500 的國家成績低於 OECD 平均值。由於每個國家都有男孩和女孩的科學成績,圖 7-1 中的資料庫是一個配對樣本。男孩和女孩成績之間的平均差值為 0.36 分(男孩的平均值比女孩的平均值高 0.36 分)。此差異與 t 統計量 t = 0.31(自由度為 44)相關。根據此 t 統計量,男孩和女孩之間真實平均差值為 0 的機率為 0.759。由於此機率為 75.9%,非常高,我們推斷男孩和女孩在科學方面的表現可能沒有真正的差異。儘管在所有 45 個國家中沒有發現性別差距的證據,但許多國家存在很大的性別差距。圖 7-2 列出了 13 個性別差距大於 5 分的國家。這些國家的政策制定者可能會要求社會科學家解釋性別差距,然後建議可以幫助縮小差距的政策。以下三種理論可能解釋了科學成績的性別差距:(1)收入——富裕國家擁有更大的性別平等,因此富裕國家的女孩比貧困國家的女孩更容易受到鼓勵學習科學(2)支出——高水平的教育支出往往會使所有學生的表現趨於均衡,而教育支出很少的國家可能會偏愛男孩而非女孩(3)教師——女孩比男孩更容易透過個人互動學習,因此擁有更多教師和更小的班級規模更有利於女孩的教育,而不是男孩的教育

這些理論中的每一個都可以使用圖 7-1 中報告的資料進行具體假設的操作化。收入理論預測,收入水平較高的國家將擁有較小的性別差距(隨著收入的增加,差距減小)。支出理論預測,教育支出較高的國家將擁有較小的性別差距(隨著支出的增加,差距減小)。最後,教師理論預測,教師數量較多的國家將擁有較小的性別差距(隨著教師數量的增加,差距減小)。圖 7-3 報告了與每個假設相關的迴歸模型的結果。

結果完全與收入理論相矛盾。圖 7-3 中模型 1 的斜率表明,富裕國家的性別差距實際上比貧窮國家更大(儘管這種影響在統計上並不顯著)。另一方面,結果確實傾向於證實支出理論,但支出的影響在統計上並不顯著。在模型 2 中,0.693 的機率表明,支出真實影響為 0 的機率非常大。圖 7-3 中唯一強勁的結果是教師的斜率。根據模型 3 中的斜率,每增加 100 名學生對應的教師人數,往往會將性別差距減少超過 1 分。這種結果不太可能是偶然發生的(機率小於 2.3%)。政策含義似乎是,如果一個國家想要縮小科學教育中的性別差距,就需要更多教師。顯然,僱用更多教師需要資金。然而,支出與性別差距之間的關係與 0 並沒有顯著不同。此外,只有富裕國家才能負擔得起增加教育支出的費用。簡而言之,在不同時改變其他因素的情況下,很難改變這些決定性別差距的三個因素中的任何一個。我們真正需要的是一個綜合模型,能夠同時考慮所有三個變數。為此,需要新的統計工具。
本章介紹多元線性迴歸模型。首先,沒有理由讓迴歸模型不能擁有兩個、三個甚至數十個自變數(第 7.1 節)。自變數的潛在數量僅受可用自由度的限制,但如果自變數過多,它們將都不具有統計學意義。其次,多元迴歸模型的斜率代表所有自變數對因變數的獨立影響(第 7.2 節)。迴歸模型通常用於研究一個自變數的影響,同時“控制”其他變數的影響。第三,像任何統計模型一樣,多元迴歸模型可用於預測因變數的值(第 7.3 節)。多元迴歸中的預測與只有一個自變數時的預測完全相同,只是增加了其他變數。可選部分(第 7.4 節)解釋瞭如何使用控制變數來減少迴歸模型中的誤差量,從而間接提高迴歸係數的顯著性。最後,本章以撒哈拉以南非洲國家兒童死亡率決定因素的應用案例研究(第 7.5 節)結束。本案例研究說明了當迴歸模型中新增額外的變數時,迴歸係數如何可能增加或減少。本章的所有關鍵概念都將在本案例研究中使用。在本章結束時,您應該能夠使用多元迴歸對多個自變數對單個因變數的影響做出基本的推斷。
7.1. 多元迴歸模型 社會科學家通常有多種相互競爭的理論來解釋同一現象。教育中的性別差距可能是由於國民收入、支出或教師造成的。國家的對外援助支出水平可能取決於其國民收入、歐洲國家地位或援助效率水平。人們的收入可能取決於其年齡、種族、性別和教育程度。此外,這些理論並不相互排斥。人們的收入會因種族和性別而異,而不是僅僅因為其中一個因素。社會科學中的大多數結果都是多種原因造成的。旨在研究它們的模型也必須有多個原因。多因模型是具有一個因變數但兩個或多個自變數的統計模型。儘管可能存在許多不同型別的多因模型,但最常用的多因模型是線性迴歸模型的直接擴充套件。多元線性迴歸模型是統計模型,其中因變數的期望值被認為會隨著兩個或多個自變數的值而直線上升或下降。多元迴歸模型的工作原理與簡單線性迴歸模型相同,只是它們具有額外的自變數。它們產生期望值,這些期望值是因變數僅基於自變數的值所期望具有的值。它們透過確定最小化迴歸誤差標準差的組合迴歸係數(斜率和截距)來實現這一點。實際上,多元迴歸模型根據兩個或多個自變數的值同時對因變數的觀測值進行分配。具有多種原因的社會科學現象的一個例子是外國援助。圖 7-4 顯示了官方發展援助 (ODA) 支出的多元線性迴歸模型。該模型整合了圖 6-9 中提出的三個 ODA 支出模型:一個基於收入(模型 1),一個基於歐洲國家地位(模型 2),以及一個基於管理成本(模型 3)。在簡單線性迴歸模型中,發現國民收入和歐洲國家地位都與 ODA 支出水平顯著相關(管理成本的影響不顯著)。多元線性迴歸模型(模型 4)同時將 20 個富裕國家中 ODA 水平的總變異性分佈到所有三種解釋中。模型 4 中的係數代表了係數的唯一組合,這些組合導致模型整體的迴歸誤差標準差儘可能小。

在模型 4 中,國民收入的斜率略小於模型 1 中的斜率(0.010 對比 0.013)。儘管它更小,但它仍然在統計學上顯著(機率 = 0.007 或 0.7%)。隨著國家變得更富裕,它們在 ODA 支出中投入了更多國民收入。歐洲國家地位的斜率在模型 4 中也下降了,但幅度更大(從 0.328 降至 0.199)。歐洲國家地位的新斜率較小,不再在統計學上顯著(機率 = 0.128 或 12.8%)。歐洲國家的觀測 ODA 支出水平仍然比非歐洲國家高出 0.199%,但這種差異在統計學上不顯著。換句話說,模型 4 中報告的結果表明,歐洲國家和非歐洲國家之間的 ODA 支出差異可能是由於隨機誤差造成的。在模型 4 中,與模型 3 相同,管理成本對 ODA 支出沒有可衡量的影響。所有 20 個國家 ODA 支出的平均水平為國民收入的 0.52%,標準差為 0.268%。模型 4 的迴歸誤差標準差為 0.185%。多元迴歸模型的誤差明顯小於簡單平均值模型。各國對 0.52% 的平均支出水平的總體偏差的一部分可以追溯到國家歐洲地位(歐洲或非歐洲),但更多可以追溯到國家的國民收入水平(富裕與貧窮)。模型 2 中的歐洲國家地位係數與模型 4 中的係數之間的對比表明,歐洲國家和非歐洲國家 ODA 支出水平之間的一部分差異是由於歐洲國家往往比非歐洲國家更富裕。圖 7-5 說明了這一點。

歐洲國家的 ODA 支出平均水平遠高於非歐洲國家的平均水平,但國民收入的平均水平也是如此。歐洲國家之所以在對外援助方面花費如此之多,是因為他們是歐洲國家,還是因為他們很富裕?多元迴歸模型表明,真正的答案是這兩種解釋的結合。歐洲國家確實像其他富裕國家一樣在 ODA 上花費了很多,但它們的花費甚至超出了僅基於其國民收入水平的預期。多出多少?最佳估計是歐洲國家在 ODA 上花費的國民收入比其他收入水平相似的國家高出 0.199%。這個數字來自模型 4 中的歐洲國家地位係數。0.199% 的差異與 0% 在統計學上沒有顯著差異,但它仍然是差異的最佳估計。換句話說,我們最好的猜測是,成為歐洲國家會讓一個國家在援助方面的支出比僅基於其收入水平原本應該的支出高出 0.199%。就像歐洲國家可能因為收入更高而在援助方面花費更多一樣,高收入國家可能在援助方面花費更多,部分原因是其中許多國家是歐洲國家。在圖 7-4 中,國民收入的斜率在模型 1 中為 0.013,但在模型 4 中下降到 0.010。多元迴歸模型(模型 4)中國民收入的斜率低於簡單線性迴歸模型(模型 1),因為在多元迴歸模型中,ODA 支出水平的總變異性在國民收入和歐洲國家地位之間分配。最終,多元線性迴歸所做的是將因變數的總變異性分配到所有自變數中。本質上,多個自變數都在爭奪相同的可用變異性。這通常(但並非總是)表現為多元迴歸模型中較小的斜率。在圖 7-3 中,三個不同的自變數用於解釋三個單獨線性迴歸模型中科學分數的性別差距。三個自變數是國民收入、教育支出和每 100 名學生的教師人數。圖 7-6 顯示了使用所有三個變數的科學性別差距的多元線性迴歸模型。圖 7-6 中的斜率實際上比原始三個模型中的斜率更強,而不是更弱。這種情況只有在多個自變數相互補充,捕捉因變數的不同方面時才會發生。有些國家性別差距很大,因為它們收入很高,但同時也因為它們擁有大量教師而性別差距很小。在簡單線性迴歸模型中,這兩種影響相互抵消,但在多元線性迴歸模型中,兩種單獨的影響都得到了揭示。

多元線性迴歸是社會科學中最常用的統計模型。它以非常緊湊的空間總結了關於變數如何關聯的大量資訊。多元迴歸表始終報告模型截距和每個自變數的斜率。有時它們報告係數的標準誤差,有時報告 t 統計量,有時報告 t 統計量的機率。當社會科學家想要在一張表中報告大量結果時,他們只報告係數,並使用腳註來指示其關聯的 t 統計量的機率,如圖 7-7 所示。由於多元迴歸表包含如此多的資訊,因此一篇完整的論文可以圍繞單個結果表展開。簡而言之,多元線性迴歸分析是社會統計學的主要方法。

7.2. 使用多元迴歸進行預測 多元線性迴歸模型可用於計算因變數的預測值,方法與簡單線性迴歸完全相同。由於多元線性迴歸模型比簡單迴歸模型包含更多預測因子,因此它們往往會產生更準確的預測。預測因子是迴歸模型中的自變數。圖 7-8 顯示了使用四個預測因子來預測美國 20 多歲受僱者的收入的多元迴歸模型。所有四個預測因子(年齡、種族、性別和教育)都具有高度顯著的斜率。根據 t 統計量,種族是四個自變數中最重要的,但即使是種族在統計學上也高度顯著。請注意,該模型的截距本身並沒有太大意義,但對於計算預測值來說是必要的。

基於圖 7-8 中報告的迴歸係數,工資收入的方程在圖 7-9 中列出。預測收入從 -68,933 美元開始,適用於一個沒有受過教育的 0 歲的黑人女性。當然,這是迴歸分析的無意義推斷:新生兒沒有收入或教育。儘管如此,它是計算預測值的起點。從 -68,933 美元開始,每增加一年的年齡帶來 1843 美元的收入,為白人增加 4901 美元的預測收入,為男性增加 7625 美元的預測收入,每增加一年的教育帶來 3599 美元的收入。使用圖 7-9 中的方程,可以預測任何 20 多歲的美國白人或黑人的收入。預測可能不準確,但它們會比僅僅根據美國 20 多歲人群的平均收入來預測人們的收入更準確。

圖 7-10 說明了 10 個美國 20 多歲人群的預測工資收入水平的計算。表中的值說明了單個迴歸模型(圖 7-8)如何產生各種各樣的預測。預測收入從 21,885 美元開始,適用於一個 21 歲的白人男性高中輟學者,到 61,822 美元結束,適用於一個 29 歲的白人男性 MBA 學位獲得者。更低和更高的收入也是可能的。例如,一個 21 歲的黑人女性高中輟學者的預計年收入僅為 9,359 美元。這低於美國全職工人的最低工資,但 SIPP 資料基於所有受僱者,包括兼職僱員。正如迴歸模型預測的那樣,一個 21 歲的高中輟學者可能難以找到全職工作。

當然,大多數人的收入與其預測值相差很大。差別有多大?圖 7-11 報告了六種不同預測人們收入的方法的模型誤差標準差。在平均模型中,每個人的收入都使用樣本中所有 4964 名美國二十多歲年輕人的觀測平均收入進行預測。四個簡單迴歸模型分別使用單個自變數來計算收入的預測值,而多元迴歸模型則將所有四個自變數一起使用。誤差標準差基於所有 4964 人在每個模型中對其預期收入的偏差。多元線性迴歸模型的模型誤差小於其他任何模型,但差別不大。即使知道人們的年齡、種族、性別和教育程度,也很難準確地預測他們的收入。

7.3。統計控制的意義 當多元迴歸的目的是預測特定結果(如人們的工資收入水平)時,迴歸係數的統計顯著性並不十分重要。迴歸模型中的真實斜率是否與 0 顯著不同不會改變觀測到的斜率是真實斜率的最佳可用估計這一事實。換句話說,當使用迴歸進行預測時,觀測到的斜率已經足夠好了。另一方面,當使用迴歸來評估假設時,斜率的統計顯著性至關重要。例如,在圖 7-4 中,行政成本的觀測到的斜率非常小,以至於真實斜率可能類似於 0 的機率非常高(模型 4 中的機率 = 0.912)。我們據此推斷,行政成本可能不是國家官方發展援助支出水平的重要原因。同樣,在圖 7-6 中,與教育支出相關的 t 統計量的機率為 0.243,表明教育支出不是科學成績性別差距的重要預測指標。這並不奇怪,因為教育支出在其簡單線性迴歸模型中也不顯著(圖 7-3 中的模型 2)。相反,國民收入在其簡單線性迴歸模型中並不顯著(圖 7-3 中的模型 1),但在性別差距的多元迴歸模型中卻顯著(圖 7-6 中的模型 4)。在圖 7-3 中,國民收入的觀測到的斜率為 0.09,真實斜率可能為 0 的機率為 0.208。在圖 7-6 中,國民收入的觀測到的斜率為 0.16,真實斜率可能為 0 的機率為 0.048。國民收入的真實斜率是 0 還是不是 0?更富裕的國家是否具有更大的性別差距?這個問題的簡單答案來自簡單線性迴歸:較高的國民收入與較大的性別差距相關聯,但這種關係很弱,不能排除實際上沒有真實關係的可能性。一個更細緻的答案來自多元線性迴歸結果。多元線性迴歸結果說明了控制教育支出和每 100 名學生中的教師數量後的國民收入的影響。控制變數是在多元迴歸分析中“保持不變”的變數,以便突出特定感興趣的自變數的影響。多元迴歸中國民收入的 0.16 斜率意味著,在控制教育支出和教師數量的情況下,每增加 1000 美元的國民收入,一個國家的科學成績性別差距就會增加 0.16。這與簡單線性迴歸模型中國民收入 0.09 斜率的含義不同。從預測值的意義上考慮斜率,模型 1 只使用國民收入來預測性別差距。收入更高的國家往往有更大的差距。但收入更高的國家也往往有更多的教育支出和更多的教師。當國家的收入發生變化時,它們的支出和教師數量也會發生變化。預測一個富裕國家的性別差距意味著預測一個在教育方面投入大量資金並擁有大量教師的國家的性別差距。由於模型 1 中沒有包含教育支出和每 100 名學生中的教師數量,國民收入的影響包括與更高國民收入相關聯的所有事物的效應:更大的房屋、更好的道路、更多的電影片道、更好的衣服——當然還有更多教育支出和更多每 100 名學生中的教師。模型 4 使用國民收入、教育支出和每 100 名學生中的教師數量同時預測性別差距。在模型 4 中,更高的國民收入仍然意味著更大的房屋、更好的道路、更多的電影片道和更好的衣服,但它並不意味著更多的教育支出或更多的每 100 名學生中的教師。這是因為在使用國民收入進行預測時,模型 4 中教育支出和每 100 名學生中的教師數量是“保持不變”的。要了解這一點,請考慮預測性別差距的值。當所有三個自變數都為 0 時,預測的性別差距是截距,即 13.95 分。當國民收入從 0 美元上升到 1000 美元時,預測的性別差距為 13.95 + 1 x 0.16,即 14.11 分。當國民收入上升到 2000 美元時,預測的性別差距又增加了 0.16 分,達到 14.27 分。每增加 1000 美元的收入,性別差距就會增加 0.16 分。教育支出和每 100 名學生中的教師數量發生了什麼?它們保持在 0。它們沒有改變。多元線性迴歸中國民收入的 0.16 斜率是國民收入獨立於教育支出和每 100 名學生中的教師數量的斜率。它是國民收入在“保持不變”或“控制”教育支出和每 100 名學生中的教師數量下的斜率。簡單線性迴歸中國民收入的 0.09 斜率是國民收入與其他兩個變數之間的任何關聯混合在一起的斜率。模型 4 中的多元迴歸獨立於支出理論和教師理論,考察了收入理論對性別差距的有效性。迴歸模型中自變數的順序沒有特殊之處。模型 4 中的多元線性迴歸還獨立於收入理論和教師理論,考察了支出理論的有效性,以及獨立於收入理論和支出理論,考察了教師理論的有效性。每個變數在分析上都是等效的,無論變數輸入的順序如何,迴歸結果都將相同。為什麼國民收入相關的斜率在模型 1 和模型 4 之間上升?當使用控制變數時,迴歸斜率沒有必須上升或下降的規則。國民收入的斜率上升是因為較高的國民收入通常與較多的教師數量相關聯。在模型 1 中,每當國民收入上升時,每 100 名學生中的教師數量也往往會上升。國民收入對性別差距有積極影響,而每 100 名學生中的教師數量對性別差距有消極影響。因此,收入上升往往會擴大差距,但與收入上升相關的額外教師往往會縮小差距。最終結果是,每增加 1000 美元的國民收入,差距就會略微增加 (+0.09 分)。這是兩步前進,一步後退。在模型 4 中,教師數量保持不變。教育支出水平也是如此。因此,模型 4 顯示了國民收入的全部影響,即每增加 1000 美元的國民收入,性別差距就會增加 +0.16 分。多元線性迴歸中國民收入的斜率大於簡單線性迴歸中的斜率,因為其他兩個變數的作用與國民收入的影響相反。控制其他兩個變數可以揭示國民收入的真實解釋能力。實際上,教育傳送和每 100 名學生中的教師數量補充了教育支出。補充控制是指在多元迴歸模型中透過揭示其解釋能力來補充感興趣的自變數的控制變數。補充控制非常理想,因為它們有助於闡明自變數對因變數的真實影響。自變數並不總是補充多元迴歸模型中的其他自變數。實際上,它們通常不會。在大多數情況下,控制額外的自變數要麼對模型沒有影響,要麼會降低模型中觀測到的斜率的強度。例如,圖 7-12 展示了對圖 7-5 中的官方發展援助支出迴歸的重新分析。圖 7-12 從官方發展援助支出對國民收入的簡單線性迴歸開始(模型 1),然後加入對行政成本的控制(模型 2),然後加入對歐洲身份的額外控制(模型 3)。控制行政成本對國民收入的斜率沒有影響,而控制歐洲身份則降低了國民收入的斜率。

控制歐洲身份降低了國民收入的斜率,因為歐洲身份變數與國民收入變數在解釋富裕國家之間的官方發展援助支出水平方面存在競爭。競爭控制是指透過拆分其解釋能力來與感興趣的自變數競爭的控制變數。從國民收入的角度來看,歐洲身份是一個競爭控制。另一方面,從歐洲身份的角度來看,國民收入是一個競爭控制。它們都競爭著解釋同一個事實,即富裕的歐洲國家的官方發展援助支出比其他國家更高。這在圖 7-5 中有說明。模型 3 中國民收入係數仍然顯著,而歐洲身份係數不顯著這一事實表明,國民收入是官方發展援助支出這兩個預測指標中更強的那個。多元迴歸模型中的任何自變數都可以從其他自變數的角度來看待為控制變數。是否應該將某個變數視為控制變數取決於研究人員的判斷。如果某個變數的使用意圖是在保持不變的情況下,以揭示另一個變數的真實影響,那麼它就是一個控制變數。如果某個變數本身具有研究意義,那麼它就不是。從純粹的統計角度來看,多元迴歸模型中的每個自變數都是模型中所有其他變數的控制變數。從社會科學的角度來看,如果研究人員認為某個變數是控制變數,那麼它就是控制變數,反之亦然。
7.4. 控制誤差(可選/高階)控制變數通常用於保持不變或控制一個變數,以試圖瞭解另一個變數的真實影響。根據情況,控制變數可能對感興趣變數的觀察係數沒有影響,也可能補充或競爭感興趣的變數。在所有這些情況下,控制變數的影響是直觀的,易於觀察:感興趣變數的觀察斜率發生變化(或者,在無效控制變數的情況下,不發生變化),以響應控制變數的包含。似乎這三種可能性(補充、競爭、無影響)是控制變數的唯一可能影響,但實際上,控制變數影響迴歸模型還有另一種方式。控制變數可能會減少模型中的誤差量。圖 7-13 說明了這種情況。圖 7-13 中的模型 1 重複了圖 4-8 中加拿大省份吸菸率與平均氣溫的迴歸。吸菸率隨著氣溫的升高而下降。氣溫每升高 1 華氏度,與吸菸率下降 0.44% 相關聯,並且此結果在統計上高度顯著。圖 7-13 中的模型 2 從模型 1 中取簡單的迴歸,並增加了對重度飲酒率的控制。在包括加拿大在內的所有富裕國家,酒精消費與吸菸密切相關(有趣的是,在許多貧困國家並非如此)。在模型 2 中控制重度飲酒率對氣溫的斜率沒有任何影響,氣溫的斜率仍然為 -0.44。但是,它確實影響了氣溫的斜率標準誤。

在模型 1 中,氣溫的斜率標準誤為 0.087,但在模型 2 中,標準誤下降至 0.062。模型 2 中較小的標準誤導致較大的 t 統計量。在本例中,氣溫對吸菸率的影響已經是高度顯著的(氣溫的真實斜率為 0 的機率小於 0.001),因此較高的 t 統計量不會改變我們對模型的解釋。儘管如此,與模型 1 相比,氣溫的斜率在模型 2 中更具有統計學意義。為什麼在引入控制變數後,斜率的標準誤會下降?重度飲酒與氣溫完全無關,但與吸菸率相關。事實上,重度飲酒佔了吸菸率總變異性的重要部分。因此,模型 2 中的模型誤差小於模型 1。標準誤是自變數與因變數之間關係強度、用於估計模型的案例數量以及模型中誤差量的函式。從模型 1 到模型 2,關係強度沒有改變(仍然為 -0.44),案例數量沒有改變(仍然為 13),模型誤差量已下降(由於重度飲酒的影響)。淨效應是與氣溫相關的標準誤已下降。在控制重度飲酒後,氣溫是吸菸的一個更重要的預測指標。
7.5. 案例研究:撒哈拉以南非洲兒童死亡率在非洲每 1000 個出生的孩子中,只有 850 個能活到 5 歲生日。這種 150/1000 的死亡率令人震驚地高。相比之下,富裕國家的兒童死亡率通常在每 1000 個孩子中 5-6 個左右。美國是發達國家中兒童死亡率最高的國家,到 5 歲時,每 1000 個孩子中會有 7.7 個死亡。非洲國家的兒童死亡率通常是發達國家的 20 倍。圖 7-14 報告了 44 個撒哈拉以南非洲國家的兒童死亡率及相關統計資料。除了元資料項之外,還包括四個變數:MORT - 每 1000 個出生嬰兒的 5 歲以下死亡率INCOME - 每人國民收入(以美元計)FERT - 出生率(育齡婦女的平均生育數)IMMUN - DPT(白喉-百日咳-破傷風)兒童免疫率兒童死亡率的多因素模型將預測,兒童死亡率應該隨著收入的增加而下降(富裕國家應該有較低的死亡率),隨著免疫的提高而下降(免疫效果更好的國家應該有較低的死亡率),並且隨著生育率的提高而上升(生育率更高的國家應該有較高的死亡率)。

圖 7-15 報告了三個用於預測撒哈拉以南非洲兒童死亡率的迴歸模型的結果。模型 1 是一個簡單的線性迴歸模型,只有一個預測變數,即國民收入。每增加 1000 美元的國民收入,與該國每 1000 個出生嬰兒中兒童死亡率下降 6.84 個相關聯。此結果在統計上高度顯著。

圖 7-15 中的模型 2 和模型 3 是多元線性迴歸模型。模型 2 將 DPT 免疫率作為控制變數引入。包含 DPT 免疫率實際上將國民收入的斜率從 6.84 增加到 8.49。這表明 DPT 免疫率與國民收入是互補的。與直覺相反的是,非洲的免疫率隨著國民收入的上升而下降,部分原因是在更富裕的非洲國家,父母抵制免疫。因此,控制免疫揭示了國民收入在降低兒童死亡率方面更強大的影響。模型 3 引入了出生率作為控制變數。控制出生率極大地降低了國民收入的斜率。實際上,模型 3 中國民收入的斜率與 0 並沒有顯著差異。出生率與國民收入作為解釋兒童死亡率的解釋因素強烈競爭。它還與 DPT 免疫競爭。模型 3 中 DPT 免疫的斜率比模型 2 中小得多,但仍然具有統計學意義。如何降低非洲的兒童死亡率?顯然,更高的收入不會有害,但模型 3 表明,免疫和計劃生育在降低兒童死亡率方面將更有效。這是一個好訊息,因為社會科學家對改善免疫和計劃生育方法的瞭解比對提高收入方法的瞭解要多得多。模型 3 表明,富裕國家的官方發展援助(ODA)支出應該重點放在擴大免疫和計劃生育專案,以支援非洲家庭努力改善其孩子的健康狀況。
第 7 章 關鍵術語
[edit | edit source]- 補充控制是在多元迴歸模型中,補充感興趣的自變數,從而揭示其解釋力的控制變數。
- 競爭控制是在多元迴歸模型中,與感興趣的自變數競爭,從而分割其解釋力的控制變數。
- 控制變數是在多元迴歸分析中,“保持不變”的變數,以突出特定感興趣自變數的影響。
- 多因素模型是具有一個因變數但有兩個或更多自變數的統計模型。
- 多元線性迴歸模型是統計模型,其中因變數的預期值被認為會隨著兩個或更多自變數的值而呈直線上升或下降。
- 預測變數是迴歸模型中的自變數。