跳轉到內容

社會統計學,第一章:社會統計學導論

來自華夏公益教科書

社會統計學導論

[編輯 | 編輯原始碼]

富裕父母的孩子通常長大後成為富裕的成年人,而貧困父母的孩子通常長大後成為貧困的成年人。這似乎是社會生活的一個基本事實,但事實真是如此嗎?到底有多真實?我們都聽過窮人發家致富的故事(奧普拉·溫弗瑞詹妮弗·洛佩茲史蒂夫·喬布斯),也聽說過富人揮霍無度最終變得貧困的故事。圖 1-1 描繪了美國隨機樣本中父母收入和子女收入之間的關係。如你所見,父母收入和子女收入之間存在關聯,但存在很大的誤差。富裕父母往往有富裕的孩子,但並非總是如此;貧困父母往往有貧困的孩子,但並非總是如此。這種結果在社會科學領域非常普遍。社會科學可以解釋我們世界上的很多事情,但它無法完美地解釋所有事情。總有誤差空間。

A scatter plot of income with a positive correlation
圖 1-1:50 名隨機美國人 2007 年子女收入與 1987 年父母收入(經通貨膨脹調整)的關係(NLSY 資料)

社會統計學的目標是用盡可能少的誤差儘可能簡單地解釋社會世界。在圖 1-1 中,父母收入似乎可以很好地解釋子女收入,即使不能完全解釋。解釋子女收入的誤差中,一部分可能來自測量誤差。人們在被問到收入時並不總是誠實作答。人們甚至可能不確定自己在任何一年到底賺了多少錢。人們在回答關於其收入的社會調查問題時可能會犯下不可預測的錯誤,因此,對子女報告收入的任何分析都不會完全準確。

另一方面,圖 1-1 中的大部分誤差可能與糟糕的測量無關。解釋子女收入的大部分誤差可能來自本分析中遺漏的重要收入決定因素。子女收入可能與父母收入不符,原因很多。例如,潛在的誤差來源包括以下方面:

  • 子女在學校的表現可能比父母好或差
  • 子女可能進入比父母收入更高或更低的職業
  • 子女在找工作方面的運氣可能比父母好或差
  • 子女可能比父母更有或更沒有野心

對收入進行的統計分析,如果包括子女的學校表現、職業選擇、工作運氣和野心,那麼與僅僅基於父母收入的簡單圖表相比,誤差會更小,但也會複雜得多。社會統計學總是在複雜性和誤差之間進行權衡。社會世界的一切都由許多不同的因素決定。一個人的收入水平可能部分來自朋友的工作建議、獲得良好的推薦信、面試當天表現出色、是黑人、是女性、說英語時口音很重或其他數百萬種原因。社會統計學就是想辦法利用其中一小部分原因來合理地解釋社會現實。沒有一個統計模型可以解釋一切,但如果一個模型可以僅根據人們的一些簡單事實解釋人們收入的大部分可變性,那將是相當令人印象深刻的。

本章介紹了社會統計學的一些基本構建塊。首先,社會統計學是社會科學家用來將社會理論與世界資料聯絡起來的方法之一(第 1.1 節)。如果沒有關於世界運作方式的某種理論觀點,就不可能進行有意義的統計分析。其次,社會統計學基於對案例和變數的分析(第 1.2 節)。對於我們想要研究的任何變數(如收入),我們至少需要幾個案例可用作分析 - 案例越多越好。第三,社會統計學幾乎總是涉及使用模型,其中一些變數被假設為導致其他變數(第 1.3 節)。我們通常使用統計學是因為我們相信一個變數會導致另一個變數,而不僅僅是因為我們好奇。可選部分(第 1.4 節)探討了在社會統計學中如何才能建立因果關係的問題。

最後,本章以一個關於美國 50 個州教育支出與學生成績之間關係的應用案例研究結束(第 1.5 節)。這個案例研究說明了如何將理論應用於資料、如何將資料整理成案例和變數以及如何將自變數和因變數因果聯絡起來。本章所有關鍵概念都應用於此案例研究。在本節結束時,你應該具備所有必要的工具,可以使用社會統計學開始對社會世界進行建模。

1.1:理論與資料

[編輯 | 編輯原始碼]

理論決定了我們如何看待社會世界。我們每個人都有關於世界運作方式的理論。這些理論大多基於個人經驗。這沒什麼問題:據說艾薩克·牛頓是在一顆蘋果砸到他頭上後才提出了萬有引力定律。個人經驗可能是社會理論的危險嚮導,因為你的經驗可能與其他人的經驗大不相同。這並不是一個糟糕的起點,但社會科學要求將個人經驗轉化為更通用的理論,這些理論適用於其他人,而不僅僅是你。概括是指將關於特定情況的理論轉化為適用於多種情況的理論的行為。例如,你可能認為自己吃了很多垃圾食品是因為你買不起高質量的食品。這個關於你自己的理論可以概括為關於所有人的更廣泛的理論

人們吃垃圾食品是因為他們買不起高質量的食品。

從個人經驗中概括是提出關於社會世界理論的一種方式,但並非唯一方式。有時理論來自對其他人的觀察:你可能會看到貧困社群有很多快餐店,因此推斷出人們吃垃圾食品是因為他們買不起高質量的食品。有時理論是基於其他理論發展而來的:你可能推斷出所有的人都希望儘可能地活得更長,因此得出結論,人們吃垃圾食品是因為他們買不起高質量的食品。有時想法會突然出現在你的腦海裡:你在一家餐廳喝著可以無限續杯的蘇打水,突然意識到,也許人們吃垃圾食品是因為他們買不起高質量的食品。無論如何,你都會想到一個理論。概念化是指形成關於社會世界某一方面理論的過程

你可能在廣播或電視上聽到的社會評論與真正的社會科學之間的主要區別在於,在社會科學中,理論是用正式的統計模型進行審查。統計模型是指現實世界的數學簡化。統計建模的目標是用盡可能少的誤差儘可能簡單地解釋複雜的社會事實。統計模型可能很簡單,例如一個圖表顯示富裕的父母有富裕的孩子,如圖 1-1 所示。這個圖表採用一個非常複雜的社會事實(子女收入),並用非常簡單的術語(隨著父母收入的增加而上升)來解釋,但存在很大的誤差(許多孩子的收入比父母高或低)。

社會科學家使用統計模型來評估關於世界運作方式的不同理論。在我們心中,我們每個人都有關於社會世界的理論,但在現實世界中,我們不可能都正確。在社會科學家接受一種理論之前,他們會使用關於現實世界的資料仔細評估它。在評估理論之前,必須將理論轉化為關於特定資料的具體假設。操作化是指將社會理論轉化為關於真實資料的具體假設的過程。人們吃垃圾食品是因為他們買不起高質量的食品的理論似乎非常合理,但它過於模糊,無法使用社會統計學進行檢驗。首先,它必須被操作化為更具體的東西。操作化意味著回答諸如以下問題:

  • 哪些人吃垃圾食品?世界上所有的人?所有美國人?只有貧困的美國人?
  • 什麼是垃圾食品?蘇打水?糖果?薯片?披薩?含糖穀物?炸雞?
  • 什麼是高質量的食品?只有沙拉和自制晚餐?還是牛排也包括在內?
  • 鮮榨果汁是垃圾食品(含糖量高)還是高質量食品(新鮮營養豐富)?
  • "負擔得起"是什麼意思?實際上沒有足夠的錢購買東西?除了食品之外,還有其他支出嗎?
  • 我們應該研究誰的行為?個人?家庭?住戶?整個城市?縣?州?國家?世界?

例如,研究垃圾食品消費與高質量食品可負擔性之間關係的一種方法是使用州級資料。研究美國各州非常方便,因為它們在很多方面都很相似(它們都屬於同一個國家),但也足夠不同,可以進行有趣的比較。美國政府機構收集併發布了大量關於美國各州的資料。例如,垃圾食品消費可以被量化為各州的軟飲料或含糖零食的消費量(均可從美國農業部獲得),可負擔性可以透過州中位收入來量化。大多數居住在高收入州的人應該能夠負擔得起食用更高質量的食物。

圖 1-2 顯示了人均州軟飲料消費量和州中位收入的關係圖。圖 1-2 中的每個點代表一個州。圖中標記了一些州的示例。此圖稱為散點圖。散點圖非常簡單的統計模型,它在圖表上展示資料。散點圖可用於確定軟飲料消費量在各州收入水平範圍內是上升、下降還是保持不變。在圖 1-2 中繪製的散點圖中,軟飲料消費量隨著收入的增加而趨於下降。這與以下理論一致:人們在有經濟能力時會購買健康食品,但在貧困時會食用不健康食品。該理論可能是正確的,也可能不正確。散點圖提供了支援該理論的證據,但不能最終證明該理論。畢竟,可能還有許多其他原因導致軟飲料消費量在較貧窮的州往往更高。

A scatter plot of soda consumption with a negative correlation
圖 1-2:48 個美國州(不包括阿拉斯加州和夏威夷州,因為缺乏資料)以及哥倫比亞特區的軟飲料消費量與州中位家庭收入之間的關係

解釋軟飲料消費量的統計模型中也存在很多誤差。有很多貧困州的軟飲料支出非常低,也有很多富裕州的軟飲料支出非常高。因此,雖然總體趨勢是富裕州的軟飲料支出較低,但也有很多例外情況。這可能是因為該理論是錯誤的,但也可能是因為除了貧困之外,人們消費軟飲料還有很多原因。例如,人們可能會消費軟飲料,因為

  • 他們生活在天氣炎熱的地方,會大量飲用各種飲料
  • 他們經常在外就餐,並傾向於在餐館消費軟飲料
  • 他們正在嘗試減肥,實際上正在消費零卡路里的軟飲料
  • 他們只是喜歡喝軟飲料的味道

所有這些原因(以及許多其他原因)可能導致圖 1-2 中繪製的統計模型存在大量誤差。

圖 1-3 展示了另一種對以下理論進行量化的方式:人們食用垃圾食品是因為他們負擔不起食用高質量食品。在圖 1-3 中,垃圾食品消費被量化為含糖零食(餅乾、小蛋糕、巧克力棒等)的消費量。同樣,總體理論是,人們食用垃圾食品是因為他們負擔不起食用高質量食品,因此州平均收入應該與含糖零食消費量呈負相關。換句話說,隨著州平均收入的增加,含糖零食消費量應該下降。但資料卻講述了一個不同的故事:事實證明,州平均收入與含糖零食消費量之間幾乎沒有關係。

A scatter plot of sweet snack consumption with a positive correlation
圖 1-3:48 個美國州(不包括阿拉斯加州和夏威夷州,因為缺乏資料)以及哥倫比亞特區的含糖零食消費量與州中位家庭收入之間的關係

這裡出了什麼問題?為什麼州平均收入與含糖零食消費量之間沒有關係?可能有很多原因。

首先,從一個人的經歷(食用垃圾食品是因為負擔不起食用高質量食品)泛化到社會的一般規則(人們食用垃圾食品是因為人們負擔不起食用高質量食品)可能是錯誤的。其次,從一開始就將可負擔性和垃圾食品消費之間的任何關係概念化可能是錯誤的(也許垃圾食品實際上比高質量食品更貴)。第三,在州一級量化垃圾食品消費可能是錯誤的(例如,富裕州實際上可能包含大量食用大量含糖零食的窮人)。第四,使用散點圖這樣的簡單統計模型可能是錯誤的(本書後面的章節將介紹更復雜的統計模型)。

由於社會統計中存在如此多的潛在誤差來源,統計分析通常會導致如圖 1-2 和圖 1-3 中報道的那樣的相互矛盾的結果。不一致、不確定的或完全毫無意義的結果一直出現。社會世界極其複雜。社會理論總是過於簡單,無法解釋所有問題。社會統計使我們有機會了解社會理論在現實世界中的表現。在我們的理論(人們食用垃圾食品是因為他們負擔不起食用高質量食品)中,社會統計告訴我們,有一些證據支援該理論(貧困州的軟飲料消費量往往更高),但顯然需要更好的理論來全面解釋人們垃圾食品消費量的差異。

1.2:案例和變數

[編輯 | 編輯原始碼]

正如垃圾食品示例所示,在將社會科學中的理論轉化為具體假設時,最大的障礙通常是難以獲得正確的資料。很少有定量社會科學家能夠收集自己的資料,即使他們能夠收集資料,也往往無法收集他們想要的資料。例如,想要研究人們是否有能力購買高質量食品的社會科學家,理想情況下希望瞭解各種資訊以確定可負擔性。他們當然希望瞭解人們的收入,但他們還希望瞭解健康食品在每個人所在地區的成本、人們需要開車多遠才能到達農場商店或有機超市、他們是否有汽車、人們除了食物之外還有多少其他支出等等。如此詳細的資訊可能非常難以收集,因此研究人員通常只使用收入。

當研究人員不得不依賴他人收集的資料時,找到合適的資料就更加困難。社會資料的收集通常是在非常大的規模上進行的。例如,大多數國家定期進行人口普查。在美國,這意味著每十年向超過 1 億戶家庭分發簡短的人口普查問卷。更長、更詳細的美國社群調查每月傳送給大約 25 萬戶家庭。另外 6 萬戶家庭會收到一份詳細的就業調查,即當前人口調查。其他社會資料的收集也可能非常困難且昂貴。圖 1-2 中使用的收入資料來自一項對 12,686 人及其子女的全國調查,這些人員幾乎每年都會接受調查,持續 30 年。圖 1-2 和圖 1-3 中使用的食品消費資料來自對全美 4 萬戶家庭購買的產品的條形碼掃描。顯然,沒有一個人能夠獨自收集這些資料。

好訊息是,現在可以透過網際網路下載海量的社會調查和其他社會資料。本教科書中使用的所有資料都可以從政府或大學網站免費獲取。這些公共使用資料集已刪除所有個人識別資訊,例如個人受訪者的姓名和地址。此外,這些資料集中資料的組織形式通常已格式化為適當的資料庫。

資料庫將資料排列成變數和案例的結構。當對人們進行調查時,原始資料通常需要經過處理才能使用。例如,調查通常不會詢問人們的年齡,因為(信不信由你)人們經常會弄錯自己的年齡。相反,調查員會詢問人們的出生日期。他們還會記錄調查日期。這兩個日期可以組合在一起,以確定受訪者的年齡。受訪者的年齡是關於受訪者的一個具有社會學意義的事實。諸如受訪者的出生日期和訪談日期之類的原始資料已轉化為一個變數,可用於統計模型。

變數案例的分析意義上的屬性案例已收集資料的個人或實體。資料庫通常為每個案例包含一行資料。變數排列成列。也可能包含元資料的列。元資料案例的額外屬性,不應包含在分析中。圖 1-4 展示了一個包含元資料和變數的示例資料庫。

圖 1-4:48 個美國州(不包括阿拉斯加州和夏威夷州,因為缺乏資料)以及哥倫比亞特區的收入和營養資料
州名稱 州縮寫 中位收入 零食(磅) 蘇打水(加侖) 水果蔬菜(磅)
阿拉巴馬州 AL $40,751 111.6 75.5 168.3
亞利桑那州 AZ $49,863 109.0 60.0 157.0
阿肯色州 AR $40,001 104.3 70.4 147.3
加利福尼亞州 CA $58,078 105.7 57.6 201.8
科羅拉多州 CO $57,559 109.2 59.8 159.2
康涅狄格州 CT $64,662 131.5 55.7 188.1
特拉華州 DE $56,252 134.6 56.2 218.2
哥倫比亞特區 DC $50,695 122.0 57.0 218.2
佛羅里達州 FL $48,095 104.4 60.8 168.8
佐治亞州 GA $51,673 107.1 61.8 198.4
愛達荷州 ID $49,036 130.0 57.2 185.3
伊利諾伊州 IL $52,677 127.8 69.0 198.0
印第安納州 IN $47,647 122.3 70.7 184.5
愛荷華州 IA $51,339 121.1 64.9 171.2
堪薩斯州 KS $47,498 120.9 65.0 170.8
肯塔基州 KY $41,320 144.7 77.2 170.7
路易斯安那州 LA $40,016 101.9 70.2 147.1
緬因州 ME $48,592 118.0 59.0 190.0
馬里蘭州 MD $67,364 125.1 58.0 218.5
馬薩諸塞州 MA $60,434 116.8 57.1 155.6
密歇根州 MI $51,305 122.5 70.8 181.2
明尼蘇達州 MN $59,910 120.5 65.5 172.8
密西西比州 MS $36,674 112.5 81.2 160.2
密蘇里州 MO $47,507 120.6 65.4 172.3
蒙大拿州 MN $42,524 111.0 58.0 175.0
內布拉斯加州 NE $52,134 120.6 65.3 172.4
內華達州 NV $54,500 111.5 58.0 175.3
新罕布什爾州 NH $64,512 115.6 57.4 159.0
新澤西州 NJ $71,284 135.8 53.1 201.1
新墨西哥州 NM $42,850 111.0 58.0 175.0
紐約州 NY $51,763 111.5 56.0 184.9
北卡羅來納州 NC $44,441 104.6 65.1 165.7
北達科他州 ND $45,184 122.0 64.0 169.0
俄亥俄州 OH $48,884 122.6 69.8 185.0
俄克拉荷馬州 OK $41,497 103.6 69.9 143.2
俄勒岡州 OR $49,495 111.0 51.0 173.8
賓夕法尼亞州 PA $51,416 130.0 60.0 203.7
羅德島州 RI $55,980 115.0 57.0 151.0
南卡羅來納州 SC $43,338 100.5 71.3 161.5
南達科他州 SD $48,051 122.0 64.0 169.0
田納西州 TN $43,458 113.9 79.8 167.4
德克薩斯州 TX $45,966 104.7 69.9 162.0
猶他州 UT $59,395 135.0 57.0 188.0
佛蒙特州 VE $55,716 117.8 59.0 187.1
弗吉尼亞州 VA $59,126 110.5 62.6 187.7
華盛頓州 WA $57,148 111.9 51.9 175.0
西弗吉尼亞州 WV $40,611 107.4 67.3 176.0
威斯康星州 WI $52,223 121.3 70.2 183.9
懷俄明州 WY $49,777 114.0 58.3 172.7

圖 1-4 中所示的資料庫用於進行圖 1-2 和圖 1-3 中報告的分析。資料庫中的前兩列是元資料的示例:州名稱 (STATE_NAME) 和州縮寫 (STATE_ABBR)。這些是對案例的描述性屬性,但它們在分析上沒有意義。例如,我們不會期望汽水消費量是由州縮寫決定的。資料庫中的最後四列是變數的示例。第一個變數 (MED_INCOME) 是每個州的中位收入。其他三個變數分別代表人均年甜味零食消費量(單位:磅)(LB_SNACKS)、人均年軟飲料消費量(單位:加侖)(GAL_SODA)和人均年水果和蔬菜消費量(單位:磅)(LB_FRUVEG)。與圖 1-4 中一樣,元資料通常在資料庫中首先列出,其次是變數。案例通常使用第一個元資料列作為案例識別符號進行排序。在本例中,資料按州名稱的字母順序排序。

資料庫中的案例可以是政治單位(如州或國家)、組織(如學校或公司)、個人(如個人或家庭)或任何其他型別的實體。圖 1-1 中使用的資料庫在圖 1-5 中展示。在這個資料庫中,元資料出現在第一列 (CHILD_ID) 和第五列 (MOTHER_ID) 中。每個孩子的性別在第三列 (GENDER) 中報告。性別記錄為男性為“1”,女性為“2”,母親的種族記錄為白人為“1”,非白人為“2”。孩子家庭的收入變數 (FAM_INC) 和他們母親家庭的收入變數 (PAR_INC) 出現在第二列和第五列中。請注意,孩子家庭的收入四捨五入,而母親家庭的收入是精確的。使用這些資料的研究人員必須接受這種不一致並處理它們,因為沒有辦法回去重新收集資料。我們只能使用資料庫中現有的資料。

圖 1-5:來自全國青年縱向調查 (NLSY) 的 50 名隨機兒童及其父母的收入資料
CHILD_ID FAM_INC GENDER M_RACE MOTH_ID PAR_INC
2001 $150,000 2 1 20 $113,750
4902 $90,000 1 1 49 $90,090
23102 $120,000 2 1 231 $85,811
25202 $68,000 1 1 252 $13,679
55001 $61,000 2 1 550 $71,344
76803 $100,000 2 1 768 $56,784
82802 $50,000 1 1 828 $64,246
97101 $59,000 2 1 971 $32,396
185301 $150,000 1 1 1853 $176,904
226801 $10,000 2 2 2268 $3,786
236901 $100,000 1 1 2369 $182,002
294903 $150,000 2 1 2949 $62,062
302301 $388,387 2 1 3023 $120,120
315101 $60,000 2 1 3151 $37,310
363502 $150,000 2 1 3635 $64,370
385101 $40,000 1 1 3851 $70,980
396204 $100,000 1 1 3962 $62,972
402803 $80,000 1 1 4028 $111,202
411001 $75,000 1 1 4110 $10,804
463102 $75,000 2 1 4631 $61,880
463801 $25,000 1 1 4638 $25,859
511403 $180,000 1 1 5114 $105,196
512302 $70,000 2 1 5123 $41,860
522402 $50,000 2 1 5224 $43,680
542402 $100,000 1 1 5424 $35,736
548301 $30,000 1 2 5483 $46,279
552601 $40,000 2 1 5526 $30,940
576601 $28,000 1 2 5766 $21,849
581101 $40,000 2 2 5811 $72,800
611601 $80,000 2 2 6116 $30,940
616802 $50,000 1 2 6168 $11,102
623801 $50,000 2 2 6238 $26,426
680702 $45,000 1 2 6807 $27,300
749801 $90,000 1 2 7498 $43,680
757802 $90,000 1 2 7578 $30,940
761702 $5,000 2 2 7617 $8,008
771002 $44,000 1 2 7710 $9,218
822603 $150,000 2 2 8226 $180,726
825902 $36,000 2 2 8259 $20,457
848803 $100,000 2 2 8488 $79,549
855802 $32,000 2 2 8558 $7,280
898201 $60,000 1 2 8982 $13,523
906302 $11,000 2 2 9063 $9,218
943401 $20,000 1 2 9434 $7,571
977802 $150,000 1 2 9778 $96,460
1002603 $32,000 2 2 10026 $30,476
1007202 $52,000 2 2 10072 $17,734
1045001 $60,000 2 2 10450 $78,315
1176901 $30,000 2 1 11769 $66,375
1200001 $80,000 1 1 12000 $70,525

此資料庫中的每個案例都是圍繞母子對構建的大家庭。孩子的家庭收入包括其配偶的收入,而母親的家庭收入包括其配偶的收入,但母親的配偶可能是也可能不是資料庫中孩子的父親。由於資料是在母子對上收集的,因此我們無法知道孩子的親生父親的收入,除非他們恰好在 1987 年(收集母親收入資料的時間)與母親結婚。顯然,我們想知道孩子的父親的收入水平,但資料從未明確收集過。如果父母在 1987 年沒有結婚,那麼親生父親的資料將永遠消失。資料限制,如變數的四捨五入以及變數可能不包含我們想要的所有資料,是統計模型中的主要誤差來源。

1.3:因變數和自變數

[編輯 | 編輯原始碼]

在社會統計學中,我們通常對使用一些變數來解釋其他變數感興趣。例如,在將“人們吃垃圾食品是因為他們買不起高質量的食物”的理論付諸實踐時,我們在統計模型(具體來說是散點圖)中使用了變數“州中位收入”(MED_INCOME)來解釋變數“軟飲料消費量”(GAL_SODA)。在這個簡單的模型中,我們會說軟飲料消費量取決於州中位收入。因變數是指被認為在模型中依賴於其他變數的變數。它們是某種因果過程的結果自變數是指被認為在模型中導致因變數的變數。記住它們的區別很簡單。因變數取決於其他變數。自變數是獨立的,它們不依賴於任何東西。

一個變數是自變數還是因變數是一個概念化問題。如果研究人員認為一個變數導致另一個變數,那麼原因是自變數,結果是因變數。同一個變數在一個模型中可以是自變數,而在另一個模型中可以是因變數。但是,在任何一個特定模型中,應該清楚哪些變數是自變數,哪些變數是因變數。同一個變數不能同時是兩種:一個變數不能導致它自己。

要了解一個變數如何從自變數變為因變數的例子,請回顧圖 1-1。在那張圖中,父母的收入是自變數,孩子的收入是因變數(在模型中,父母的收入導致孩子的收入)。但是,父母的收入本身也可能由其他變數引起。我們可以將一個統計模型付諸實踐,其中父母的家庭收入(變數 PAR_INC)取決於父母的種族 (M_RACE)。我們使用母親的種族來代表父母雙方的種族,因為我們沒有每個母親的配偶(如果有的話)的資料。父母家庭收入與種族的散點圖在圖 1-6 中展示。請記住,變數 M_RACE 的編碼方式是 0 = 白人,1 = 非白人。顯然,白人父母的家庭收入(平均)遠遠高於非白人父母,幾乎高出一倍。但是,與任何統計模型一樣,仍然存在大量誤差:種族在美國解釋了很多東西,但不能解釋一切。

A scatter plot of race and income with a negative correlation
圖 1-6:1987 年家庭收入(按通貨膨脹調整)與 50 名隨機美國人的種族的關係(NLSY 資料)

就像父母的收入一樣,任何變數都可以是自變數或因變數。這完全取決於具體情況。本章中迄今為止使用過的所有因變數和自變數都在圖 1-7 中總結。一個箭頭 (→) 用於指示哪個變數被認為導致哪個變數。請記住,在每個模型中,自變數導致因變數。這等同於說因變數取決於自變數。由於父母的收入被用作自變數(圖 1-1)和因變數(圖 1-6),因此它在表中出現了兩次。州中位收入也使用了兩次,兩次都用作自變數(圖 1-2 和圖 1-3)。

圖 1-7:因變數、自變數和模型示例
自變數 因變數 模型 趨勢
圖 1-1 父母的收入 → 孩子的收入 散點圖 上升
圖 1-2 州中位收入 → 軟飲料消費量 散點圖 下降
圖 1-3 州中位收入 → 甜味零食消費量 散點圖 上升
圖 1-6 父母的種族 → 父母的收入 散點圖 下降

在表 1-1 中報告的每個示例中,用於理解自變數和因變數之間關係的統計模型都是散點圖。在散點圖中,自變數始終繪製在水平 (X) 軸上。因變數始終繪製在垂直 (Y) 軸上。在每個散點圖上,點雲的中間已經畫了一條線,以幫助說明資料的總體趨勢。在圖 1-1 中,總體趨勢是上升:父母的收入與孩子的收入呈正相關。在圖 1-2 中,總體趨勢是下降:州中位收入與軟飲料消費量呈負相關。在圖 1-3 和圖 1-6 中,趨勢再次分別上升和下降。無論趨勢是上升還是下降,趨勢的存在都表明自變數和因變數之間存在關係。

散點圖是一個非常簡單的統計模型,有助於顯示一個自變數和一個因變數之間的總體關係。在以後的章節中,我們將研究更復雜的統計模型。其中許多模型將允許使用多種不同型別的自變數,但本書中使用的每個模型都只有一個因變數。具有多個因變數的模型確實存在,但它們複雜得多,不會在此處討論。

1.4:推斷因果關係

[編輯 | 編輯原始碼]
可選/高階

社會科學家幾乎總是對提出關於因果關係的主張感興趣,即聲稱一個變數導致另一個變數。我們懷疑工作場所的性別歧視會導致女性工資降低,教育會導致生活滿意度提高,社會不平等會導致社會暴力水平上升。問題是,在社會科學中,幾乎不可能證明一個變數導致另一個變數。相反,社會科學家必須利用他們掌握的事實和推理,儘可能地推斷因果關係。

在社會科學中建立因果關係非常困難,因為大多數社會科學問題無法使用實驗進行研究。在實驗中,研究物件被隨機分配到兩個組,即實驗組和對照組。實驗組的受試者接受某種處理,而對照組的受試者接受不同的處理。實驗結束時,兩個組受試者之間任何系統性的差異都必須是由於處理的差異造成的,因為這兩個組在其他方面具有相同的背景和經歷。

在社會科學中,實驗通常是不可能的。例如,我們強烈懷疑工作場所的性別歧視會導致女性工資降低。唯一確定這是否屬實的方法是招募一群女性,並將她們隨機分配到不同的工作場所,其中一些是性別歧視的,而另一些則不是。工作場所必須是相同的,除了性別歧視。然後,幾年後,我們可以打電話給這些女性,檢查一下她們的工資。任何在性別歧視工作場所工作的女性與在非性別歧視工作場所工作的女性之間工資的系統性差異都可以歸因於性別歧視,因為我們一定會知道兩個組及其經歷之間沒有其他系統性差異。

當然,這樣的實驗是不可能的。作為實驗的替代,社會科學家進行訪談和調查。我們詢問女性是否在工作中經歷過性別歧視,然後詢問她們的收入。如果經歷過性別歧視的女性收入低於沒有經歷過性別歧視的女性,我們推斷這種差異可能是由於工作場所中存在的實際性別歧視。

然而,社會科學家在得出因果推論時往往非常謹慎,因為可能存在許多其他因素。例如,研究中收入較低的女性可能錯誤地認為她們的工作場所存在性別歧視(反向因果關係)。甚至可能,在人員被裁減的高壓工作環境中,管理人員的性別歧視態度和所有人的工資降低,包括女性,同時存在(共同因果關係)。許多其他可能性也存在。在實驗框架之外,因果關係非常難以確定。

大多數社會科學家接受三個基本條件,這些條件共同確定一個自變數實際上導致了一個因變數。

  • 相關性:當自變數發生變化時,因變數也發生變化。
  • 先於性:自變數在邏輯上先於因變數。
  • 非虛假性:自變數和因變數沒有同時被其他因素所導致。

在這三個條件中,相關性是迄今為止最容易證明的。本章中描述的所有散點圖都證明了相關性。在每種情況下,因變數的值都傾向於隨著自變數的值在一個方向(向上或向下)移動。

先於性有時也很容易證明。例如,在圖 1-6 中,很明顯種族在邏輯上先於收入。爭辯相反,即人的收入導致他們的種族身份,這是沒有意義的。在其他時候,先於性可能更具爭議性。例如,許多發展社會學家認為,普及教育會導致經濟發展:受過教育的勞動力是發展所必需的。然而,也可能相反,經濟發展會導致普及教育:當國家足夠富裕能夠負擔得起時,它們就會為所有人民支付教育費用。社會政策制定的主要挑戰之一是確定連線變數的因果關係的方向。

另一方面,非虛假性幾乎總是非常難以確定的。當兩個變數之間觀察到的關係不反映變數之間任何真實聯絡時,該關係被稱為“虛假”。例如,吸菸會導致肺癌,吸菸會導致口臭,但口臭不會導致肺癌。圖 1-8 描述了這種虛假性的總體邏輯。在圖 1-8 中,統計模型中兩個變數之間存在虛假關係。自變數和因變數之間觀察到的相關性的真正原因是,它們都由第三個共同原因變數引起。這種情況在社會科學中非常普遍。為了能夠聲稱一個變數導致另一個變數,社會科學家必須證明自變數和因變數之間觀察到的關係不是虛假的。

A diagram of a spurious relationship between three variables
圖 1-8:虛假關係的圖示

證明非虛假性的問題是,可能存在許多原因導致關係可能是虛假的。回到父母收入和子女收入之間的關係,很容易看出這兩個變數之間存在相關性(圖 1-1)。父母收入先於子女收入也很明顯。但非虛假性呢?父母收入和子女收入之間的關係可能是虛假的,原因有很多。我們已經看到一個:種族。非白人父母往往有非白人子女,因此,可能不是父母收入導致子女收入,而是家庭的種族決定了父母和子女的收入(種族是共同原因變數)。這可以解釋父母收入和子女收入之間觀察到的相關性。其他可能的共同原因變數包括

  • 家庭居住地
  • 家庭重視賺錢的程度
  • 父母的受教育程度(這會影響子女的教育選擇)
  • 父母的子女數量

最後一個共同原因變數是一個具有指導意義的例子。理論上,擁有大量的孩子可能會迫使父母呆在家裡而不是工作,降低他們的收入,並使他們難以負擔得起子女的大學教育,從而導致子女收入也較低。對於大多數理智的人來說,這可能看起來像一個非常不可能的情況。問題在於,不同的人對什麼是合理的持有不同的看法。為了確定關係的非虛假性,研究人員不僅要讓自己信服,他們還需要讓其他人信服,而每個人對什麼可能會在兩個變數之間產生虛假關係都有不同的看法。最終,不可能證明非虛假性。相反,社會科學家會爭論,直到他們達成共識,或者他們只是繼續爭論。因果關係總是存在爭議。

1.5:案例研究:教育支出和學生表現

[edit | edit source]

眾所周知,有好的學校,也有不好的學校。大多數家長在尋找新住處時問的第一個問題是“學校怎麼樣?”常識表明,好的學校,平均來說,是富裕的學校。每個人都希望他們的孩子進入擁有全新的計算機實驗室、令人印象深刻的運動設施、新粉刷的走廊和漂亮的綠草坪的學校。家長們也希望他們的孩子在由擁有碩士學位和博士學位的有才華、經驗豐富的教師教授的小班裡得到個性化的關注。活躍的樂隊、合唱團和藝術專案也是一個加分項。所有這一切都需要資金。

從父母希望將孩子送入運營成本很高的學校這一觀察結果得出的合理概括是,在教育上花費更多資金的州將比在教育上花費更少資金的州擁有更好的學校。這種概括可以概念化為一個理論,即學生的總體表現取決於(至少部分取決於)一個州為每個學生花費的資金。可以使用來自美國國家教育統計中心 (NCES) 的資料來檢驗該理論。從 NCES 網站下載的資料庫在圖 1-9 中被複制。案例是美國 50 個州。有兩個元資料列 (STATEABBR) 和三個變數 (SPENDREAD_NATMATH)

  • SPEND - 每個學生的州和地方教育總支出
  • READ_NAT - 英語為母語的八年級學生的州平均閱讀分數
  • MATH - 所有八年級學生的州平均數學分數
圖 1-9:美國 50 個州的教育支出和學生表現資料
縮寫 支出 閱讀_國籍 數學
阿拉巴馬州 AL $10,356 255.5 268.5
阿拉斯加 AK $17,471 263.7 283.0
亞利桑那州 AZ $9,457 260.8 277.3
阿肯色州 AR $9,758 258.9 276.0
加利福尼亞州 CA $11,228 261.5 270.4
科羅拉多州 CO $10,118 268.5 287.4
康涅狄格州 CT $16,577 272.8 288.6
特拉華州 DE $13,792 265.6 283.8
哥倫比亞特區 DC $17,394 243.2 253.6
佛羅里達州 FL $10,995 265.3 279.3
佐治亞州 GA $11,319 260.9 277.6
夏威夷 HI $14,129 256.9 273.8
愛達荷州 ID $7,965 266.4 287.3
伊利諾伊州 IL $12,035 265.6 282.4
印第安納州 IN $11,747 266.1 286.8
愛荷華州 IA $11,209 265.6 284.2
堪薩斯州 KS $11,805 268.4 288.6
肯塔基州 KY $9,848 267.0 279.3
路易斯安那州 LA $11,543 253.4 272.4
緬因州 ME $13,257 267.9 286.4
馬里蘭州 MD $15,443 267.5 288.3
馬薩諸塞州 MA $15,196 274.5 298.9
密歇根州 MI $11,591 262.4 278.3
明尼蘇達州 MN $12,290 271.8 294.4
密西西比州 MS $8,880 251.5 265.0
密蘇里州 MO $11,042 267.0 285.8
蒙大拿州 MT $10,958 271.4 291.5
內布拉斯加州 NE $11,691 267.8 284.3
內華達州 NV $10,165 257.4 274.1
新罕布什爾州 NH $13,019 271.0 292.3
新澤西州 NJ $18,007 272.9 292.7
新墨西哥州 NM $11,110 258.5 269.7
紐約州 NY $19,081 266.0 282.6
北卡羅來納州 NC $8,439 261.1 284.3
北達科他州 ND $11,117 269.5 292.8
俄亥俄州 OH $12,476 268.8 285.6
俄克拉荷馬州 OK $8,539 260.4 275.7
俄勒岡州 OR $10,818 267.8 285.0
賓夕法尼亞州 PA $13,859 271.2 288.3
羅德島州 RI $15,062 261.3 277.9
南卡羅來納州 SC $10,913 257.5 280.4
南達科他州 SD $9,925 270.4 290.6
田納西州 TN $8,535 261.3 274.8
德克薩斯州 TX $9,749 263.2 286.7
猶他州 UT $7,629 267.2 284.1
佛蒙特州 VT $16,000 272.6 292.9
弗吉尼亞州 VA $11,803 266.6 286.1
華盛頓州 WA $10,781 268.7 288.7
西弗吉尼亞州 WV $11,207 254.9 270.4
威斯康星州 WI $12,081 266.7 288.1
懷俄明州 WY $18,622 268.6 286.1

學生的總體表現取決於一個州為每個學生花費的資金的理論可以操作化為兩個具體的假設

  • 州每學生的支出與州平均閱讀分數呈正相關
  • 州每學生的支出與州平均數學分數呈正相關

在圖 1-10 和圖 1-11 中,散點圖用作統計模型,用於將州支出與州閱讀和數學分數聯絡起來。圖 1-10 中的因變數是 READ_NAT(英語為母語的學生的閱讀表現),而圖 1-11 中的因變數MATH(數學表現)。這兩幅圖中自變數都是 SPEND。在這兩幅圖中,州平均分數在支出較高的州確實傾向於更高,但在解釋分數方面存在大量誤差。除了州支出之外,學生考試分數可能還受許多其他因素影響。分數可能會受到諸如父母受教育程度、家庭收入水平、學生吸毒水平以及州是否為了人為地提高成績而“針對考試教學”等因素的影響。儘管如此,很明顯,(平均而言)州支出越多,他們的分數就越高。

A scatter plot of spending per pupil with a positive correlation
圖 1-10:美國 50 個州的八年級英語為母語的學生平均閱讀表現與教育支出對比
A scatter plot of spending per pupil with a positive correlation
圖 1-11:美國 50 個州的八年級數學平均表現與教育支出對比

這些資料分析的結果傾向於證實學生的總體表現取決於(至少部分取決於)一個州為每個學生花費的資金的理論。該理論可能是也可能不是真的,但這裡提供的證據與該理論一致。結果表明,如果各州希望提高學生的考試成績,他們應該增加學校預算。在教育方面,就像在大多數事情中一樣,一分錢一分貨。

第一章關鍵術語

[edit | edit source]
  • 概念化關於社會世界某些方面的理論發展過程
  • 案例收集了資料的個人或實體
  • 資料庫將資料排列成變數和案例
  • 因變數在模型中被認為依賴於其他變數的變數
  • 概括將關於特定情況的理論轉化為適用於許多情況的理論的行為
  • 自變數被認為導致模型中因變數的變數
  • 元資料案例的附加屬性,這些屬性不打算包含在分析中
  • 操作化是指將社會理論轉化為關於真實資料的具體假設的過程
  • 散點圖是將資料繪製在圖表上的非常簡單的統計模型
  • 統計模型是對現實世界進行數學簡化的模型
  • 變數是案例的分析意義屬性

引言 · 第二章



華夏公益教科書