跳轉到內容

社會統計學,第 2 章:線性迴歸模型

來自華夏公益教科書

線性迴歸模型

[編輯 | 編輯原始碼]

全世界的人們都擔心犯罪,尤其是暴力犯罪。美國人比大多數人更有理由擔心。美國是一個特別暴力的國家。美國的兇殺率大約是英國的三倍,是澳大利亞的四倍,是德國的五倍。日本是一個人口超過 1.25 億人的國家,每年發生的兇殺案數量少於賓夕法尼亞州,人口不到 1250 萬。值得慶幸的是,美國的兇殺率在過去 20 年中下降了近 50%,但仍然過高。

暴力犯罪,根據定義,對受害者及其家人來說是創傷性的。曾經成為暴力犯罪受害者的人可能永遠不會在公共場合真正感到安全。暴力犯罪也可能對社會有害。從個人層面推廣到社會層面,如果人們感到不安全,他們可能會待在家裡,避免去公共場所,並退出社會。這種擔憂可以被概念化為一個正式的理論:在犯罪率高的地區,人們會覺得離開家門不安全。圖 2-1 收集了一個數據庫,可以用來評估這一理論,該資料庫使用的是從澳大利亞統計局網站上下載的資料。這裡使用了澳大利亞的資料,因為澳大利亞只有 8 個州和領地(而美國有 50 個),這使得在散點圖上標記特定州變得更容易。

圖 2-1:澳大利亞 8 個州和領地 2008 年犯罪和其他社會指標資料
STATE_TERR CODE VICTIM_PERS UNSAFE_OUT VICTIM_VIOL STRESS MOVED5YR MED_INC
澳大利亞首都領地 ACT 2.8 18.6 9.9 62.1 39.8 $712
新南威爾士州 NSW 2.8 17.4 9.3 57.0 39.4 $565
北領地 NT 5.7 30.0 18.2 63.8 61.3 $670
昆士蘭州 QLD 3.0 17.3 13.5 64.4 53.9 $556
南澳大利亞州 SA 2.8 21.8 11.4 58.2 38.9 $529
塔斯馬尼亞州 TAS 4.1 14.3 9.8 59.1 39.6 $486
維多利亞州 VIC 3.3 16.8 9.7 57.5 38.8 $564
西澳大利亞州 WA 3.8 20.9 12.8 62.8 47.3 $581

澳大利亞犯罪資料庫中的案例是澳大利亞的八個州和領地。這些欄目包括兩個元資料項(州或領地名稱和郵政編碼)。還包括六個變數

  • VICTIM_PERS – 2008 年成為人身犯罪(謀殺、企圖謀殺、襲擊、搶劫和強姦)受害者的百分比
  • UNSAFE_OUT – 晚上黑暗後獨自步行感到不安全的百分比
  • VICTIM_VIOL – 過去 12 個月內報告遭受過身體或威脅暴力的人數百分比
  • STRESS – 過去 12 個月內報告經歷過至少一次重大生活壓力的百分比
  • MOVED5YR – 過去 5 年內搬家的人數百分比
  • MED_INC – 州中位數收入

在犯罪率高的地區,人們會覺得離開家門不安全的理論可以用這些資料進行操作,形成一個具體的假設,即變數VICTIM_PERSUNSAFE_OUT之間的關係在澳大利亞的 8 個州和領地之間將呈正相關。在這個統計模型中,VICTIM_PERS(犯罪率)是自變數,UNSAFE_OUT(人們的安全感)是因變數。這兩個變數之間的實際關係如圖 2-2 所示。散點圖中的每個點都用其州的郵政編碼進行了標記。事實上,這個散點圖顯示了兩個變數之間的關係是正相關的。這與犯罪率高的地區,人們會覺得離開家門不安全的理論是一致的。

圖 2-2:澳大利亞 8 個州和領地,晚上獨自步行感到不安全的百分比與實際州暴力犯罪率對比

像往常一樣,圖 2-2 包括一條穿過所有資料點的中間的參考線。也像往常一樣,散點圖中存在很多誤差。對獨自晚上外出感到害怕會隨著犯罪率的上升而上升,但並非在所有情況下都是這樣。為了幫助闡明對外出感到害怕的總體趨勢,圖 2-2 還包括一個新的、額外的資訊:與每個觀察值(每個州)相關的誤差量。不要將散點圖簡單地看成是一組向上或向下趨勢的點,而是可以將散點圖看成是趨勢(直線)和誤差(偏離直線)的組合。這種基本的統計模型——趨勢加上誤差——是社會科學中最常用的統計模型。

在圖 2-2 中,有三個州幾乎完全落在趨勢線上:新南威爾士州、昆士蘭州和西澳大利亞州。這三個州的人們對獨自晚上外出感到害怕的程度,與他們所在州的犯罪水平預期相符。換句話說,該州的恐懼統計模型幾乎沒有誤差。居住在其他州和領地的人們比根據其犯罪率預期的害怕程度更高(南澳大利亞州、澳大利亞首都領地、北領地)或更低(維多利亞州、塔斯馬尼亞州)。特別是塔斯馬尼亞州的犯罪率相對較高(澳大利亞第二高),但害怕程度非常低(澳大利亞最低)。這意味著塔斯馬尼亞州的統計模型存在很大誤差。雖然圖 2-2 中顯示的直線確實存在向上趨勢,但個案中的誤差很大,我們可能會質疑實際犯罪率對了解人們對晚上外出感到害怕程度的用處有多大。

本章介紹了線性迴歸模型,該模型將因變數和自變數之間的關係劃分為趨勢加誤差。首先,線性迴歸模型僅僅是一種在散點圖上畫線的方法(第 2.1 節)。有很多種方法可以繪製穿過資料的直線,但在實踐中,線性迴歸模型是社會統計學中使用的一種方法。其次,散點圖上的直線實際上代表了一個關於因變數如何與自變數相關的假設(第 2.2 節)。與任何直線一樣,它也有斜率和截距,但社會科學家主要感興趣的是評估關於斜率的假設。第三,很明顯,正斜率意味著兩個變數之間的關係是正相關的,而負斜率意味著兩個變數之間的關係是負相關的(第 2.3 節)。斜率越陡峭,兩個變數之間的關係就越有可能重要。可選部分(第 2.4 節)解釋了實際繪製迴歸線背後的部分數學原理。

最後,本章以美國財產犯罪與謀殺率之間關係的應用案例研究結束(第 2.5 節)。這個案例研究說明了如何使用線性迴歸模型在散點圖上畫線,如何將關於變數的假設轉化為關於這些直線斜率的假設,以及正相關和負相關之間的區別。本章的所有關鍵概念都在這個案例研究中使用。在本節結束時,你應該對迴歸模型如何闡明社會科學中自變數和因變數之間關係的聯絡有一個基本的瞭解。

2.1. 線性迴歸模型簡介

[編輯 | 編輯原始碼]

當社會科學家對社會世界進行理論化時,他們通常不會用直線的方式進行理論化。大多數社會理論家永遠不會提出一個理論說“人們對晚上獨自散步的恐懼會隨著他們居住社群的犯罪率的上升而以完全的直線方式上升”。相反,關於社會世界的理論要模糊得多:“在犯罪率高的地區,人們會覺得離開家門不安全”。在第 1 章中檢查的所有理論也都是用模糊的語言表達的,這些語言沒有提到直線

  • 富有的父母往往有富有的孩子
  • 人們吃垃圾食品是因為他們買不起高質量的食物
  • 美國種族歧視導致非白人收入下降
  • 教育支出增加導致學生在考試中的表現更好

當理論沒有說明兩個變數之間關係的具體形狀時,一個簡單的散點圖在技術上來說是評估它們的合適方法。只需看一眼散點圖,任何人都可以看出因變數在自變數的不同值上是傾向於上升、下降還是保持不變。兩個變數之間的真實關係可能是直線、曲線,甚至是更復雜的模式,但這並不重要。這些理論沒有提到直線或曲線。這些理論只是說,當自變數上升時,因變數也會上升。

然而,散點圖也存在問題。有時很難判斷它們是向上趨勢還是向下趨勢。例如,許多美國人認為新移民到美國生了很多孩子,壓垮了學校,給納稅人造成了很多負擔。圖 2-3 繪製了 3193 個美國縣的出生率(自變數)和國際移民水平(因變數)之間的關係。出生率隨著移民的增加而上升嗎?僅從散點圖中很難看出,沒有直線的話就更難判斷。事實證明,出生率確實隨著移民率的上升而上升,但只是略微上升。

A scatter plot of birth rates with a positive correlation
圖 2-3:2009 年 3193 個美國縣的出生率與移民率

如圖 2-3 所示,散點圖的另一個問題是,當分析資料庫中的案例數量很大時,它們變得難以閱讀。當存在多個自變數時,散點圖也變得難以閱讀,正如本書後面將要討論的那樣。但是,使用散點圖評估理論的最大問題是,不同的人可能對它們有不同的看法。一個人可能會看到上升趨勢,而另一個人則認為趨勢總體上是平穩或下降的。如果沒有參考線給出明確的答案,就可能無法就正在評估的理論是否正確達成一致意見。由於這些(以及其他)原因,社會科學家通常不依賴散點圖。散點圖在社會科學中被廣泛使用,但它們被用來獲得對資料的總體印象,而不是用來評估理論。

相反,社會科學家使用像上面和第一章中繪製在散點圖上的參考線那樣的直線來評估理論。這些線稱為迴歸線,基於稱為線性迴歸模型的統計模型。線性迴歸模型是統計模型,其中因變數的預期值被認為根據自變數的值以直線上升或下降。線性迴歸模型(或簡稱為“迴歸模型”)是統計模型,這意味著它們是對現實世界的數學簡化。實際變數可能不會以直線上升或下降,但線上性迴歸模型中,我們簡化了事物,只關注變數的這個方面。

當然,因變數不會像迴歸模型所暗示的那樣真正地以直線上升或下降。社會科學家使用直線是因為它們很方便,即使它們可能並不總是理論上合適。變數之間可能存在其他型別的關係,但使用直線而不是其他型別的關係有很多充分的理由。其中一些是

  • 直線是兩個變數之間可能相關的最簡單方式,因此應該使用它,除非有充分的理由懷疑更復雜的關係
  • 直線可以使用它們的斜率和截距進行比較(你不需要每個資料點,就像比較散點圖一樣)
  • 通常,社會科學模型中存在太多誤差,以至於我們無法區分直線關係和其他關係

線性迴歸模型繪製的直線穿過散點圖中點雲的中間。它的繪製方式是,沿直線的每個點都代表了給定自變數值下因變數最可能的值。這是因變數在模型中沒有誤差的情況下預期具有的值。預期值是因變數僅基於自變數的值而預期具有的值。圖 2-4 描繪了人們對夜間獨自走路的恐懼的線性迴歸模型。來自圖 2-2 的因變數,即感到不安全的百分比,根據一個新的自變數進行迴歸,即報告親自經歷過暴力事件的人的百分比。圖 2-4 中的誤差比我們在圖 2-2 中看到的誤差要小。特別是塔斯馬尼亞現在非常接近預期值的參考線。

A scatter plot of feelings of safety with a positive correlation
圖 2-4:夜間獨自走路感到不安全的人的百分比與報告親自經歷過暴力事件的人的百分比,針對 8 個澳大利亞州和地區

夜間獨自走路感到不安全的人的百分比的預期值已在散點圖上標出。它們是根據迴歸模型預期具有的因變數的值。例如,在這個模型中,塔斯馬尼亞夜間獨自走路感到不安全的人的預期百分比為 16.9%。換句話說,根據塔斯馬尼亞人報告的暴力經歷水平,我們預計大約 16.9% 的塔斯馬尼亞人會感到在夜間獨自走路不安全。根據我們的資料,14.3% 的塔斯馬尼亞人報告稱他們在夜間獨自走路感到不安全(參見圖 2-1 中的 UNSAFE_OUT 變數,並沿著塔斯馬尼亞的行讀取)。由於迴歸模型預測為 16.9%,而實際值為 14.3%,因此圖 2-4 中塔斯馬尼亞的誤差為 2.6% ().

迴歸誤差是線性迴歸模型中因變數的預期值與其實際值之間的差異程度。迴歸誤差表示為偏離連線自變數和因變數的直線關係的趨勢。通常,迴歸誤差非常小的迴歸模型優於迴歸誤差很大的迴歸模型。當迴歸誤差非常小時,迴歸線的趨勢往往更陡峭,自變數和因變數之間的關係往往更強。

圖 2-4 中描繪的迴歸模型存在很大的迴歸誤差,但比圖 2-2 中觀察到的誤差要小。特別是,圖 2-2 中塔斯馬尼亞的迴歸誤差為 7.1%——遠高於圖 2-4 中的誤差。這表明,人們報告的親自經歷過暴力的經歷比一個州的實際犯罪率更能預測人們對夜間安全的感受。人們對安全和恐懼的體驗是非常個人的,不一定是基於整個社會層面的犯罪統計資料。如果決策者希望確保人們感到足夠安全地外出,他們需要做的不僅僅是降低犯罪率。他們還需要減少人們的個人經歷——以及人們對個人經歷的看法——暴力和犯罪。這可能更難做到,但也對社會更有益。決策者應該採取一種廣泛的措施來使社會總體上減少暴力,而不是僅僅將潛在的罪犯送進監獄。

2.2:迴歸線的斜率

[編輯 | 編輯原始碼]

在社會科學中,即使是像圖 2-4 中描繪的那樣好的線性迴歸模型也往往存在很大的誤差。迴歸建模的主要目標是找到一個自變數,它更能擬合因變數,並具有更多的趨勢和更少的誤差。圖 2-5 描繪了一個幾乎全是趨勢(誤差非常小)的關係示例。圖 2-5 中的散點圖使用州出生率作為自變數,使用州死亡率作為因變數。出生率高的州往往人口年輕,因此死亡率低。猶他州被排除在外,因為它過高的出生率(每年每 1000 人超過 20 個孩子)不適合圖表,但如果包括猶他州,它的死亡率將非常接近迴歸線。一個州的死亡率異常高(西弗吉尼亞州),而另一個州的死亡率異常低(阿拉斯加州)。

圖 2-5. 2009 年 49 個美國州加上哥倫比亞特區的死亡率與出生率(不包括猶他州)

從趨勢和誤差的角度考慮散點圖,圖 2-5 中的趨勢明顯下降。死亡率隨著出生率的上升而下降,但下降多少?迴歸線的斜率給出了答案。請記住,迴歸線穿過因變數的預期值。斜率是因變數的預期值的改變數除以自變數的值的改變數。換句話說,它是自變數每增加 1 個點時,迴歸線的變化。在圖 2-5 中,當自變數(出生率)增加 1 個點時,因變數(死亡率)的預期值減少 0.4 個點。因此,迴歸線的斜率為 −0.4 / 1 或 −0.4。斜率為負,因為直線趨勢向下。如果直線趨勢向上,斜率將為正。

圖 2-6 描繪了具有正斜率的迴歸線示例。這條直線反映了人們搬遷到新社群的一個簡單理論。美國人非常流動——比世界上大多數其他國家的人們流動性高得多——並且經常在美國境內從一個地方搬到另一個地方。一種理論是,人們會去有工作的地方:人們從經濟蕭條的地方搬到經濟繁榮的地方。在圖 2-6 中,這一理論被轉化為一個假設,即收入較高的縣(自變數)往往會吸引最多的遷移(因變數)。換句話說,縣收入與遷移呈正相關。圖 2-6 表明,這一假設是正確的——至少對於一個州(南達科他州)而言。圖 2-6 中迴歸線的斜率表明,當縣收入增加 10,000 美元時,遷移往往會增加大約 8%。實際斜率為.

圖 2-6. 2000 年代 66 個南達科他州縣的人口淨遷移率與中位收入

圖 2-6 中迴歸線的正斜率並不意味著人們總是搬到收入水平最高的縣。迴歸線周圍存在相當大的誤差。林肯縣尤其顯得遠離其他縣資料的範圍。林肯縣是南達科他州最富有的縣,也是第三人口大縣。在過去十年中,該縣快速發展,以前農村地區發展成為附近明尼哈哈縣蘇福爾斯市的郊區。南達科他州的其他許多縣的移民資料變化很大,因為這些縣很小,一家僱主的開張或倒閉都會對移民產生重大影響。在南達科他州的 66 個縣中,有 49 個縣的人口少於 10,000 人。因此,南達科他州的資料顯示出高水平的迴歸誤差並不奇怪。

如果人們確實從經濟蕭條的地方搬到經濟擴張的地方,那麼中位收入和淨移民之間的關係應該在每個州都呈正相關,而不僅僅是南達科他州。佛羅里達州是一個與南達科他州幾乎所有方面都截然不同的州。佛羅里達州只有兩個縣的人口少於 10,000 人,而且該州的平均收入遠高於南達科他州。更重要的是,許多人搬到佛羅里達州的原因與工作無關,例如氣候和生活方式。由於許多人在退休後搬到佛羅里達州,因此關於工作和移民的整個理論在那裡可能無關緊要。為了查明情況,圖 2-7 描繪了佛羅里達州 67 個縣的淨移民率與中位縣收入的迴歸關係。

圖 2-7。2000 年代佛羅里達州 67 個縣的人口每 1000 人的估計淨移民量與中位收入的對比

正如預期的那樣,佛羅里達州各縣的迴歸誤差遠大於南達科他州各縣。它們的斜率也更小。在佛羅里達州,每增加 10,000 美元的中位收入,淨移民率就會增加 5%,斜率為 。這僅僅略高於南達科他州的斜率。與南達科他州一樣,一個縣的增長速度遠遠快於該州的其他地區。佛羅里達州的弗拉格勒縣的增長原因與內布拉斯加州的林肯縣基本相同:它是一個以前是農村的縣,正在快速發展。儘管如此,儘管收入和移民之間的關係在佛羅里達州比在南達科他州弱,但迴歸線的斜率仍然是正的。這為支援以下理論提供了更多證據:人們從經濟蕭條的地方搬到經濟繁榮的地方。

2.3:異常值和穩健性

[edit | edit source]

由於社會科學家使用的統計模型存在如此多的誤差,因此同一個理論的不同操作化方法給出不同的結果並不罕見。我們在第 1 章中看到了這一點,因為對垃圾食品消費的不同操作化方法對州收入與垃圾食品消費之間的關係給出了不同的結果(圖 1-2 與圖 1-3)。當理論在不同的操作化選擇下仍然成立時,社會科學家對理論印象深刻,例如圖 2.6 和圖 2.7。理想情況下,所有旨在評估理論的統計模型都應該產生相同的結果,但實際上並非如此。當統計模型存在高水平的誤差時,統計模型可能特別不穩定。當模型存在大量誤差時,資料的細微變化會導致模型結果發生巨大變化。

穩健性是指統計模型在操作化發生變化的情況下是否會給出相似結果的程度。關於線性迴歸模型,穩健性意味著迴歸線的斜率在使用不同資料時不會發生太大變化。在穩健的迴歸模型中,迴歸線的斜率不應過分依賴於使用了哪些特定資料或是否包含或排除了任何一個案例。當線性迴歸模型滿足以下條件時,它們往往最穩健

  • 它們基於大量案例
  • 迴歸誤差相對較小
  • 所有案例都整齊地排列在迴歸線周圍的對稱帶中

基於少量案例、大量誤差和案例分佈不規則的迴歸模型可能非常不穩定(根本不穩健)。圖 2-8 中描繪了這樣一個模型。許多人認為在大城市不安全,因為他們認為犯罪,尤其是謀殺案,在大城市非常普遍。畢竟,在紐約這樣的特大城市,幾乎每天都有謀殺案的報道。另一方面,大城市按定義來說人口眾多,因此它們的實際謀殺率(每 100,000 人的謀殺案數)可能相對較低。圖 2-8 使用了美國 10 個最大城市的​​資料,繪製了城市規模與謀殺率之間的關係。迴歸線向下趨勢,斜率為 -0.7:當城市人口增加 100 萬人時,謀殺率下降 0.7/100,000。該模型表明,較大的城市比較小的城市更安全。

圖 2-8。美國 10 個人口超過 100 萬的城市的謀殺率與城市規模的對比(2008 年)

然而,有幾個理由質疑圖 2-8 中描繪的模型的穩健性。根據與穩健模型相關的三個條件評估該模型,它在各個方面都失敗了。首先,該模型基於少量案例。其次,存在大量的迴歸誤差。第三,也許最重要的是,這些案例沒有整齊地排列在迴歸線周圍的對稱帶中。在圖 2-8 中描繪的十個城市中,有八個集中在散點圖的最左側,一個(洛杉磯)更靠近中間,但仍然在左半部分,還有一個(紐約)在最右側。紐約比美國其他任何城市都要大得多,並且遠遠超出了由其他資料形成的點雲。它獨自一人,遠離所有其他資料點。

異常值是指統計模型中的資料點,這些資料點遠離大多數其他資料點。在圖 2-8 中,紐約是一個明顯的異常值。基於包含異常值的資料的統計結果往往不穩健。在 100 或 1000 個點中,一個異常值通常不會對統計模型產生太大影響,但十個點中一個異常值可能會產生很大影響。圖 2-9 繪製了與圖 2-8 完全相同的資料,但不包括紐約。基於剩餘 9 個城市的資料的新迴歸線的斜率與原始迴歸線的斜率完全不同。當紐約包含在內時,斜率為負(-0.7),這表明較大的城市更安全。當紐約排除在外時,斜率為正(0.8),這表明較大的城市更危險。城市規模與謀殺率之間的關係顯然不穩健。

圖 2-9。美國 9 個人口超過 100 萬的城市(除紐約外)的謀殺率與城市規模的對比(2008 年)

人們很容易爭辯說,異常值是應該始終排除的“不良”資料點,但一旦研究人員開始排除他們不喜歡的點,就很難停下來。例如,在圖 2-9 中,在紐約被排除在外後,費城似乎出現了一個新的異常值。所有其他城市都沿著趨勢線整齊地排列,只有費城獨自一人位於散點圖的左上角。排除費城使迴歸線的斜率變得更強:從 0.8 增加到 2.0。然後,在費城消失後,洛杉磯似乎是一個異常值。排除洛杉磯會進一步提高斜率,達到 6.0。這裡的危險是顯而易見的。如果我們只對我們喜歡的​​資料點進行分析,我們最終會對現實世界中連線變數的真實關係產生非常扭曲的印象。應該調查異常值,但穩健性始終是解釋問題,而不是透過包含或排除特定案例來證明的問題。

2.4. 最小二乘誤差

[edit | edit source]
可選/高階

線上性迴歸模型中,迴歸線代表了任何給定自變數值下因變數的期望值。有道理的是,找到因變數期望值的最佳位置應該是在將它連線到自變數的散點圖的正中間。例如,在圖 2-5 中,出生率為 15 的州最可能的死亡率不是 16 或 0,而是在中間的某個地方,例如 8。迴歸線指示的死亡率似乎是處於出生率範圍中間的州的平均死亡率。就目前而言,這似乎是合理的。很明顯,迴歸線必須位於中間的某個位置,但我們如何決定究竟在哪裡繪製它呢?一個想法可能是繪製迴歸線以最大限度地減少散點圖中的誤差量。如果散點圖是趨勢和誤差的組合,那麼最大限度地減少誤差似乎是合理的。透過散點圖正中間的一條線一定比其他線的誤差更小,對吧?奇怪的是,答案是否定的。圖 2-10、圖 2-11 和圖 2-12 說明了這個奇怪的事實。這三張圖在一個非常簡單的散點圖上顯示了不同的線。在這個散點圖中,只有四個資料點

  • X = 1, Y = 2
  • X = 1, Y = 8
  • X = 5, Y = 5
  • X = 5, Y = 8

圖 2-10 中繪製了連線自變數 (X) 與因變數 (Y) 的實際迴歸線。這條線穿過所有四個點的正中間。每個點距離迴歸線 4 個單位,因此每個點的迴歸誤差為 4。整個散點圖的總誤差為 。在散點圖上無法繪製其他線以獲得更少的誤差。到目前為止,一切順利。

圖 2-10。迴歸線 (A) 的誤差表示

問題是迴歸線 (A) 不是唯一最小化散點圖誤差的線。圖 2-11 描繪了另一條線 (B)。這條線並沒有穿過散點圖的中心。相反,它更靠近兩個低點,離兩個高點更遠。它顯然不如迴歸線好,但它恰好具有相同的誤差。與線 B 相關的誤差是 。看來線 A 和線 B 都將散點圖的誤差降至最低。

圖 2-11。顯示略低於真實迴歸線的樣本線 (B) 的誤差

這還不是全部。圖 2-12 描繪了另一條線 (C)。線 C 比線 B 更差。它位於散點圖的頂部,非常靠近兩個高點,並且離兩個低點很遠。它根本不在點雲的中心。但總誤差相同:。事實上,任何穿過點的線 - 任何線 - 都會產生相同的誤差。許多不同的趨勢會導致相同的誤差。這使得無法僅根據總誤差來選擇任何一條線。需要另一種方法。

圖 2-12。顯示遠高於真實迴歸線的樣本線 (C) 的誤差

實際上用於繪製迴歸線的這種方法是繪製誤差平方和最小的線。誤差平方和就是:誤差的平方,或者乘以自身。因此,例如,如果誤差是 4,則誤差平方和是 16 ()。對於圖 2-10 中的線 A,總誤差平方和是 或者 。對於圖 2-11 中的線 B,總誤差平方和是 或者 。對於圖 2-12 中的線 C,總誤差平方和是 或者 。誤差平方和最小的線是線 A,即穿過散點圖中心的迴歸線。所有其他線的誤差都更大。

事實證明,誤差平方和最小的線始終是唯一的 - 只有一個線可以將總誤差平方和降至最低 - 並且始終穿過散點圖的中心。作為額外的好處,計算機可以使用最小二乘誤差快速高效地計算迴歸線。最小二乘誤差的使用與線性迴歸模型密切相關,因此它們通常被稱為“最小二乘迴歸模型”。本書其餘部分中使用的所有統計模型都是基於最小化誤差平方和。最小二乘誤差是幾乎所有社會統計學背後的數學原理。

2.5:案例研究:財產犯罪和謀殺率

[edit | edit source]

謀殺是一種罕見而可怕的罪行。每次人類的生命過早結束都是一場悲劇,但當一個人的死亡是故意的而不是意外的時,這場悲劇就更加嚴重。不幸的是,使用本教科書的一些學生會認識被謀殺的人。幸運的是,我們大多數人都不認識。但我們幾乎所有人都認識過財產犯罪(如入室盜竊或盜竊)的受害者。我們中許多人甚至自己也成為過財產犯罪的受害者。財產犯罪不僅在美國,而且在世界各地都很常見。事實上,與其他富裕國家相比,美國財產犯罪的水平並不特別高。這很奇怪,因為美國的人均謀殺率很高。看來各種罪行都應該一起上升和下降。它們是這種情況嗎?

一種犯罪理論可能是高財產犯罪率會導致高謀殺率,因為人們在犯罪生涯中從輕微犯罪轉向嚴重犯罪。由於來自不同國家/地區的財產犯罪的國際資料可能不盡相同,因此使用假設和有關美國犯罪率的資料來操作化這一理論是有意義的。將財產犯罪與謀殺聯絡起來的一個具體假設是,對於人口超過 100,000 人的美國城市,財產犯罪率與謀殺率呈正相關。這種操作化排除了小型城市,因為小型城市可能在任何一年都沒有記錄到的犯罪。

來自美國聯邦調查局 (FBI) 的各種犯罪率資料可用。在圖 2-13 中,這些資料用於繪製 268 個人口超過 100,000 人的美國城市中財產犯罪率和謀殺率之間的關係。線性迴歸模型已用於在散點圖上放置趨勢線。趨勢線表示任何給定財產犯罪水平的預期謀殺率。例如,在一個財產犯罪率為每 100,000 人 5,000 人的城市中,預期謀殺率為每 100,000 人 10.2 人。一些城市的謀殺率符合其財產犯罪率的預期,但迴歸誤差很大。謀殺率分散很廣,並沒有緊密地圍繞回歸線聚集。

圖 2-13。268 個人口超過 100,000 人的美國城市(2008 年)的謀殺率與財產犯罪率的對比

迴歸線的斜率為正,如預期的那樣。這傾向於證實高財產犯罪率與高謀殺率相關的理論。財產犯罪率每增加 1,000,平均而言,與謀殺率增加 2.7 相關。這很可能是一個可靠的結果,因為它基於大量案例。另一方面,存在高水平的誤差,並且案例沒有整齊地落在迴歸線周圍的對稱帶中,因此我們可能在解釋結果時要謹慎一些。還有一個主要異常值:新奧爾良。新奧爾良的謀殺率遠高於任何其他美國城市,並且新奧爾良遠遠超出了其他資料的邊界。但是,不包括新奧爾良,迴歸線的斜率沒有發生變化,無論是否包含新奧爾良,該斜率仍然為 2.7。

總體而言,高財產犯罪率與高謀殺率相關的理論在美國城市整體上是有效的,但任何特定美國城市的謀殺率似乎與財產犯罪率並不密切相關。如果他們想要降低謀殺率,美國城市嘗試降低財產犯罪率不會有什麼壞處,但可能無法解決問題。財產犯罪率在 5,000–6,000 範圍內的城市,其謀殺率可能在接近零到 30 或更高之間。減少謀殺率的政策可能應該針對具體降低社會暴力,而不是廣泛地降低犯罪率。

第二章 關鍵術語

[編輯 | 編輯原始碼]
  • 預期值是指僅基於自變數的值,因變數預期具有的值
  • 線性迴歸模型是指統計模型,其中因變數的預期值被認為是根據自變數的值呈直線上升或下降
  • 離群值是指統計模型中遠離其他大多數資料點的點
  • 迴歸誤差是指線性迴歸模型中因變數的預期值與其實際值之間的差異程度
  • 穩健性是指統計模型在操作化發生改變時仍能給出相似結果的程度
  • 斜率是指因變數的預期值變化量除以自變數的值變化量

第一章 · 第三章


華夏公益教科書