跳轉到內容

社會統計/第 4 章

來自華夏公益教科書

平均值和標準差

[編輯 | 編輯原始碼]

北美人、歐洲人、日本人、澳大利亞人、韓國人、紐西蘭人以及其他一些國家的人民非常幸運。儘管個人生活可能很艱難,但我們的國家非常富裕。如果我們在富裕世界中存在貧困、無家可歸和營養不良等問題,那是因為我們選擇擁有這些問題。我們可以始終選擇花錢來確保每個人都能過上體面的生活。我們可能選擇不花錢,但至少我們有選擇權。世界富裕國家的國民人均收入通常為每年 30,000 至 45,000 美元,而世界所有富裕國家都實行民主政府。如何使用我們的資源取決於我們自己。在世界上許多較貧窮的國家,根本不存在足夠的資源來確保每個人都能過上體面的生活水平。更糟糕的是,其中許多國家不是民主國家,因此即使資源存在,人們也不一定擁有權力選擇公平地分享資源。因此,世界上超過三分之一的 5 歲以下兒童因營養不良而發育遲緩(身高低於預期)。世界上超過 20% 的人口無法定期負擔食物。世界上大約 40% 的人口,即約 25 億人,在需要上廁所時,實際上是在地上排便。另外 30% 的人使用旱廁。世界上只有大約 30% 的人口擁有帶自來水的廁所。如果浴室裡沒有自來水,你擦完後就很難用水沖洗。大多數富裕國家都努力幫助改善世界貧困人口的條件。圖 4-1 展示了富裕國家海外發展援助(ODA)預算的一些基本資料。海外發展援助是指一個國家為幫助貧困國家人民而支出的援助資金。該資料庫整合了世界銀行和經濟合作與發展組織(OECD)的資料。資料庫中的案例包括世界上 20 個最富裕的國家,包括美國。其中包含兩項元資料專案,即國家的名稱和三位國家程式碼。還包括四個變數:AID/GNP - 一個國家 ODA 支出與其總國民收入的比率 ADMIN/AID - 一個國家用於行政成本的援助比例 MIL/GNP - 一個國家軍事支出與其國民收入的比率 GDP_2008 - 一個國家的人均國民收入水平 EUROPEAN - 一個國家是歐洲國家(1)還是非歐洲國家(0)的指標

圖 4-1。2008 年 OECD 和世界銀行來源的 20 個富裕國家海外發展援助(ODA)資料庫及相關資料

圖 4-2 按 ODA 支出慷慨程度對圖 4-1 中包含的 20 個富裕國家進行排名。與其他富裕國家相比,美國排名墊底。美國在援助上的支出(佔其總收入的比例)低於任何其他國家,為 0.19%。其他國家更加慷慨,但並沒有慷慨太多。澳大利亞和加拿大每 100 美元捐贈 34 美分。法國和德國捐贈 40 美分。挪威、盧森堡和瑞典是最慷慨的國家,它們將大約 1% 的總國民收入捐贈給幫助他人。為了與世界上最慷慨的國家相匹配,美國必須將其年度 ODA 支出增加五倍。

圖 4-2。2008 年 20 個富裕國家的援助慷慨程度排名

圖 4-2 清楚地表明,ODA 支出中一個有趣的模式是所有最慷慨的國家都是歐洲國家。我們可以從這一觀察結果中概括推斷,歐洲國家地位是 ODA 支出水平的重要決定因素。圖 4-3 報告了 ODA 支出對歐洲國家地位進行迴歸的結果。截距為 0.27,這是當歐洲國家地位 = 0 時 ODA 支出的預期值。換句話說,富裕的非歐洲國家往往將其國民收入的約 0.27% 用於捐贈。圖 4-3 中的迴歸係數也可以用來計算歐洲國家的 ODA 支出預期值。對於歐洲國家,歐洲國家地位 = 1,因此 ODA 支出 = 0.27 + 0.33 x 1 = 0.60% 的國民收入。該預期值可用於預測不在資料庫中的富裕歐洲國家的 ODA 支出,如列支敦斯登。根據圖 4-3 中報告的迴歸,列支敦斯登的 ODA 支出預測值為其國民收入的 0.60%。由於列支敦斯登是一個歐洲國家(歐洲國家地位 = 1),因此該預測是內插而不是外推。

圖 4-3。2008 年 ODA 支出對歐洲國家地位進行迴歸

圖 4-4 描繪了歐洲國家地位與 ODA 支出之間關係的散點圖。圖形上已繪製了一條迴歸線。還標註了非歐洲國家和歐洲國家的 ODA 支出預期值。與任何迴歸模型一樣,圖 4-4 中繪製的迴歸線透過資料散點的中間。與第 1 章和第 2 章中的散點圖唯一不同的是,圖 4-4 中的自變數僅取兩個值。因此,所有點都排在歐洲國家地位 = 0 或歐洲國家地位 = 1 之上。這對迴歸線的意義或其計算方式沒有影響。該線仍然代表給定自變數(歐洲國家地位)水平下因變數(ODA 支出)的最可能值。同樣,與迴歸線的偏差仍然代表誤差。

圖 4-4。2008 年 ODA 支出與歐洲國家地位

本章解釋瞭如何使用預期值和誤差來描述和比較變數。首先,即使只有一個變數,也可以有預期值,而無需使用線性迴歸模型(第 4.1 節)。介紹了一種新模型,即均值模型,用於定義當分析中不涉及其他變數時變數的預期值。其次,任何預期值都與誤差相關聯,因為在大多數情況下,變數的值不等於其預期值(第 4.2 節)。在均值模型和迴歸模型中,誤差相互抵消,平均值為零。第三,在均值模型和迴歸模型中,都可以使用標準差來衡量誤差的大小(第 4.3 節)。統計模型中使用的大多數資料都落在誤差的標準差範圍內。可選部分(第 4.4 節)演示了統計計算機程式如何實際計算標準差。最後,本章以中國 33 個政治區域的收入和就業水平的應用案例研究作為結尾(第 4.5 節)。該案例研究說明了如何使用平均值來比較變數。它還展示了迴歸標準差與變數標準差的關係。本章所有關鍵概念都在該案例研究中使用。在學習完本章後,你應該對誤差在統計模型中所起的作用有更深入的瞭解。

4.1. 均值模型 如圖 4.4 所示,迴歸模型可用於計算非歐洲國家或歐洲國家的海外發展援助(ODA)的預期值。因變數對特定案例組(如非歐洲國家或歐洲國家)的預期值稱為條件均值。條件均值是因變數對特定案例組的預期值。圖 4-5 說明了使用條件均值的另一個示例。圖 4-5 描繪了使用 2008 年美國收入與計劃參與調查(SIPP)第二波資料對 20-29 歲的美國受僱人員進行的工資收入與性別之間的散點圖和迴歸。SIPP 資料庫包含 4964 個案例(2208 名女性和 2756 名男性)。由於數量太多,無法在散點圖上繪製,因此圖 4-5 繪製了 100 個隨機案例(46 名女性和 54 名男性)來說明資料的形式。

圖 4-5。2008 年 100 名 20-29 歲的受僱 SIPP 受訪者的隨機樣本的工資收入與性別

圖 4-6 報告了收入對性別的迴歸係數。在這個迴歸模型中,自變數是性別(編碼為“男性氣質”:女性為 0,男性為 1),因變數是工資收入(定義為透過工作獲得的收入,計算為 SIPP 中記錄的月收入的 12 倍)。迴歸模型的截距為 33876,斜率為 4866。換句話說,迴歸線的方程為 Income = 33876 + 4966 x Male。對於女性(Male = 0),工資收入的預期值為 33876 + 4966 x 0 = 33876 + 0 = 33,876 美元。對於男性(Male = 1),工資收入的預期值為 33876 + 4966 x 1 = 33876 + 4966 = 38,842 美元。換句話說,女性的條件平均收入為 33,876 美元,而男性的條件平均收入為 38,842 美元。

圖 4-6。收入對男性氣質迴歸結果表(來自圖 4-5,但使用所有 4964 個案例的資料)

如果可以根據人們的性別計算條件平均收入,那麼應該可以計算出人們總體收入的平均值。平均值是變數的預期值。如果我們將 SIPP 資料庫中的所有 4964 人整合到一個大組中,並計算其收入的預期值,會發生什麼?結果將類似於圖 4-7,該圖將圖 4-5 中的 46 名女性和 54 名男性歸入一個名為“人”的類別中。

圖 4-7。2008 年 100 名 20-29 歲的受僱 SIPP 受訪者的隨機樣本的工資收入

所有 4964 名年齡在 20-29 歲之間的受僱美國人的平均收入為 36,633 美元。平均收入可以透過將所有 4964 人的收入加起來併除以 4964 來計算。這也就是大多數人所稱的變數的“平均”值。社會科學家通常使用“平均”一詞來代替“平均”一詞,因為“平均”也可以意味著“典型”或“普通”。“平均”一詞始終只表示一個意思:它是變數的期望值,透過將變數所有個體情況的值加起來併除以情況數量來計算。平均值不僅僅是一個數學計算結果。就像所有 20 多歲的人的平均收入為 36,633 美元一樣,女性的平均收入(33,876 美元)和男性的平均收入(38,842 美元)可以透過將資料庫中所有女性或男性的收入加起來併除以女性或男性的數量來計算。圖 4-6 中迴歸模型中女性和男性收入的條件平均值與女性和男性的個人收入平均值相同。不同之處在於,使用迴歸模型計算條件平均值既提供了方程,也提供了用於將條件平均值視為預測值的統計模型。根據收入的迴歸模型(圖 4-6),預計任何受僱的 20 多歲的美國女性的收入為 33,876 美元。預計任何受僱的 20 多歲的美國男性的收入為 38,842 美元。如果 SIPP 資料庫中沒有包含有關性別的資訊,那麼預計一般受僱的 20 多歲的美國人的收入是多少?顯然,答案是 36,633 美元,即資料庫中所有 4964 人的平均收入。這種預測背後的統計模型是平均值模型。平均值模型是非常簡單的統計模型,其中變數只有一個期望值,即其平均值。平均值模型可以被認為是沒有任何自變數的線性迴歸模型。如果您將圖 4-5 中的所有資料壓縮成一個組,就像圖 4-7 中那樣,您將線性迴歸模型變成平均值模型。使用平均值模型作為統計模型與僅透過將所有值加起來併除以情況數量來計算平均值之間的主要區別在於您如何看待它。在平均值模型中,平均值是一個期望值,而不僅僅是一堆算術。每次個體情況偏離平均值時,該偏差都是一種誤差形式。線上性迴歸模型中,迴歸誤差是因變數的期望值與其實際值之間的差異程度。在平均值模型中,誤差是變數的平均值與其實際值之間的差異程度。在平均值模型中,如果一個人每年收入 30,000 美元,則該收入可以分為兩部分:平均收入(36,633 美元)和誤差(6633 美元)。如果另一個人每年收入 40,000 美元,則該收入可以分為兩部分:平均收入(36,633 美元)和誤差(3367 美元)。在平均值模型中,您的收入不僅僅是您的收入。您的收入是由像您這樣的人的平均收入加上或減去一些誤差組成的。

4.2. 模型、引數和自由度吸菸造成的可預防性殘疾和死亡人數比任何其他人類活動都要多。這對世界衛生來說是一個極其重要的挑戰。在加拿大,約 17.9% 的成年人自認為是吸菸者(2008 年加拿大衛生部資料)。圖 4-8 中的資料庫總結了加拿大 13 個省和地區的吸菸率、大量飲酒率和氣溫。這 13 個政治區劃的平均吸菸率為 20.3%。這與全國總平均值不同,因為幾個人口少的省和地區的吸菸率很高。加拿大各省和地區的吸菸率平均值模型表明,吸菸率等於期望值 20.3% 加上或減去每種情況下的誤差。

圖 4-8. 加拿大 13 個省和地區的吸菸資料,2008 年

平均值模型是瞭解吸菸率的一種非常簡單的方法。它說明了吸菸率的某些情況——並非 0% 或 50%——但沒有說明吸菸率為何在各省之間存在差異。各省之間吸菸率的所有變化都被視為模型中的誤差。迴歸模型可能有助於解釋加拿大 13 個省和地區之間吸菸率差異的一些原因。關於吸菸率差異的一種理論可能是,吸菸率取決於天氣。加拿大很冷。加拿大 13 個省和地區首府的年平均氣溫低於華氏 38 度。這比紐約(57 度)、芝加哥(51 度)或洛杉磯(66 度)冷得多。即使是明尼阿波利斯(年平均氣溫 45 度)和法戈(41 度)也比加拿大大部分地區溫暖。一種理論可能是,有些人吸菸是因為他們在寒冷的天氣裡不能出去玩而感到無聊。基於該理論的一個具體假設是,吸菸率隨著平均氣溫的下降而上升。使用年平均氣溫作為自變數,吸菸率作為因變數的迴歸模型結果如 圖 4-9 所示。

圖 4-9. 2008 年加拿大 13 個省和地區的吸菸率與平均氣溫的迴歸關係

37.00 的截距意味著年平均氣溫為 0 度的省份的預期吸菸率為 37.0%。由於加拿大的任何省份都沒有這麼冷,因此截距是外推值。從 37.0% 的截距開始,預期吸菸率值每升高 1 度就會下降 0.44%。正如吸菸的無聊理論所預測的那樣,吸菸率隨著氣溫的升高而下降。哪種模型更適合理解吸菸率,平均值模型還是線性迴歸模型?兩者都提供期望值。吸菸的平均值模型和迴歸模型之間的關係在圖 4-10 中繪製。圖 4-10 的左側描繪了吸菸的平均值模型,將所有省份排成一列,就像圖 4-7 中的 SIPP 響應者一樣。圖 4-10 的右側描繪了吸菸的迴歸模型,根據各省的氣溫將它們分散開來。箭頭顯示了平均值模型中的資料點如何對應於四個示例省份的迴歸模型中的資料點。在加拿大各省吸菸的情況下,迴歸模型似乎比平均值模型更好地解釋了吸菸情況。鑑於可以獲取氣溫資料,迴歸模型似乎比平均值模型更有用。

圖 4-10. 加拿大 13 個省和地區的吸菸率平均值模型和迴歸模型示意圖,2008 年

圖 4-10 中的平均值模型僅使用一個數字(平均值)提供整體吸菸水平的期望值,而回歸模型使用兩個數字(截距和斜率)為每個省份提供不同的吸菸期望值。這些數字稱為引數。引數是與統計模型相關的數字,例如平均值和迴歸係數。計算引數(如平均值和迴歸係數)需要資料。在加拿大各省資料(圖 4-8)中,有足夠的資料來計算平均值和迴歸係數。通常,擁有足夠的資料來計算模型引數並不是問題,但當資料點很少時,就會出現問題。如果您有一個只有一個情況的資料庫會怎樣?例如,您可能想要研究 2010 年的世界人口。世界人口約為 67 億。您可以使用平均值模型來模擬世界人口嗎?是的,2010 年世界人口的平均值為 67 億。該平均值模型中沒有誤差,因為只有一個情況——世界——並且其實際人口等於平均值。在一個只有一個情況的資料庫中,可以計算平均值模型的 1 個引數,即平均值。您可以使用線性迴歸模型來研究 2010 年的世界人口嗎?您可能會假設人口與降雨量有關。如果世界只是一個大而乾旱的沙漠,預計它的人口會很少。如果世界是一個鬱鬱蔥蔥的綠色天堂,預計它的人口會很多。這是一個好主意,但問題是隻有一個世界可以研究。當只有一個世界可以研究時,不可能計算降雨量對世界人口的影響。迴歸模型需要計算兩個引數,結果是,您必須擁有至少兩個情況的資料庫才能同時計算斜率和截距。如果您有一個有兩個情況的資料庫會怎樣?例如,您可能想要模擬朝鮮人口。有兩個朝鮮國家,朝鮮和韓國。朝鮮人口為 2400 萬,而韓國人口為 4800 萬。使用平均值模型,朝鮮國家人口的期望值為這兩個情況的平均值,即 3600 萬。朝鮮和韓國的誤差均為 1200 萬(朝鮮的人口比平均值少 1200 萬,而韓國的人口比平均值多 1200 萬)。即使看起來這兩個情況都有獨立的誤差,但實際上模型中只有一個誤差水平。如果朝鮮比平均值低 1200 萬,則韓國必須比平均值高 1200 萬才能平衡它。有兩個誤差,但只有一個可以自由變化。這個奇怪的數學事實意味著,在平均值模型中,每個情況都不能自由隨機變化。如果一個變數有 2 個情況,並且您知道變數的平均值,那麼只有一個情況可以自由變化。另一個情況必須平衡第一個情況。如果有三個情況,那麼只有兩個可以自由變化。更一般地說,如果有 N 個情況,並且您知道平均值,那麼只有 N-1 個情況可以自由變化。這個數字 N-1 稱為平均值模型的自由度。自由度是模型中實際上可以自由變化的誤差數量。平均值模型的自由度為 N-1,因為平均值模型只有一個引數,即平均值。另一方面,迴歸模型的自由度為 N-2,因為迴歸模型有兩個引數(斜率和截距)。這意味著資料庫中必須至少有兩個情況才能使用迴歸模型。由於大多數資料庫有幾十個或數百個情況,因此這通常不是問題。自由度的主要用途是在對誤差進行統計計算。統計模型中的總誤差量取決於總自由度數量,而不是取決於總情況數量。統計計算機程式在計算與統計模型相關的許多數字時使用自由度,並且通常將模型的自由度作為其模型結果輸出的一部分進行報告。不過,基本思想是,任何統計模型都會為其計算的每個引數消耗一個自由度。基於 N 個情況的具有 1 個引數的平均值模型具有 N-1 個自由度。具有 2 個引數的線性迴歸模型具有 N-2 個自由度。任何模型都不能具有負的自由度,因此至少需要 1 個情況才能使用平均值模型,至少需要 2 個情況才能使用迴歸模型。

4.3. 標準差和迴歸誤差 所有使用引數生成預期值的統計模型(如平均值模型和線性迴歸模型)都會產生模型誤差。 這僅僅意味著統計模型通常無法完美地描述世界。 所有統計模型都是對現實世界的簡化,因此它們都存在誤差。 平均值模型中的誤差通常被稱為誤差或與平均值的偏差,而回歸模型中的誤差通常被稱為迴歸誤差。 在平均值模型中,模型無法解釋變數中的任何變異性。 平均值模型只有一個引數,即平均值,變數中的所有變異性都成為平均值模型中的誤差。 因此,誤差值的分佈與變數本身的分佈一樣寬。 這種分佈可以進行測量並表示為一個數字。 最常用的變數分佈度量是標準差。 標準差是衡量變數分佈程度的指標,它與平均值模型中誤差的分佈程度相同。 變數的標準差(或平均值模型中誤差的標準差)取決於兩個因素:平均值模型中的誤差量和平均值模型中的自由度。 對於 13 個加拿大省份和地區的吸菸率,標準差為 5.3%。 線上性迴歸模型中,因變數中的一部分變異性是由自變數的變異性所解釋的。 這在圖 4-10 中得到了說明,其中 13 個加拿大省份和地區的吸菸率分佈在他們平均年氣溫水平上。 如果仔細觀察圖 4-10,你會發現迴歸誤差(迴歸線上的預期值與圖表右側吸菸率的實際值之間的差異)看起來比吸菸率的總體變異性(來自圖表左側)要小得多。 吸菸變異性的一部分用於迴歸線,而吸菸變異性的一部分用於誤差。 因此,迴歸模型中的總體誤差水平始終小於相應的平均值模型中的總體誤差水平。 圖 4-11 對加拿大省級吸菸資料比較了兩種模型的誤差。 圖 4-11 中的表格顯示了平均值模型和迴歸模型中每個省份的預期值和相關誤差。 平均值模型中的預期值始終為 20.3%(平均值)。 迴歸模型中每個省份的預期值是根據吸菸率與氣溫迴歸方程計算的(圖 4-9)。 如圖 4-11 中的表格所示,迴歸模型中的誤差通常比平均值模型中的誤差小。 對於誤差最大的省份,這種差異最大。 迴歸模型中最大的誤差為 5.8%(育空地區)。 在平均值模型中,四個不同的省份(包括育空地區)的誤差大於 5.8%。

圖 4-11. 2008 年,對 13 個加拿大省份和地區的吸菸率,平均值模型和迴歸模型中模型誤差的比較

迴歸模型中模型誤差的標準差為 3.1%。 這被稱為迴歸模型標準差。 迴歸誤差標準差是衡量回歸模型中誤差分佈程度的指標。 迴歸誤差標準差基於迴歸模型中的誤差和迴歸模型的自由度。 對於給定的迴歸模型,迴歸誤差標準差幾乎總是小於相應的平均值模型的標準差。 事實上,迴歸模型的係數(斜率和截距)的選擇方式是為了產生儘可能低的迴歸誤差標準差。 標準差測量模型中誤差的分佈程度。 較高的標準差意味著更大的誤差。 圖 4-12 說明了加拿大省級吸菸率的平均值模型和迴歸模型中誤差的分佈。 圖 4-12 中繪製的誤差資料直接取自圖 4-11 中的兩個誤差列。 圖表上標出了誤差最大的部分省份和地區。 在每個模型中,大多數省份和地區的誤差都落在零的一個標準差範圍內。 平均值模型的誤差標準差為 5.3%,13 個省份中有 9 個落在 +5.3% 和 -5.3% 之間。 所有 13 個省份都落在兩個標準差範圍內(+10.6% 和 -10.6% 之間)。 圖 4-12. 對 13 個加拿大省份和地區的吸菸率,平均值模型和迴歸模型中標準差和迴歸誤差標準差的說明,2008 年

對於迴歸模型,誤差標準差更小,但仍然有 13 個省份中有 9 個落在他們預期值的標準差範圍內,誤差範圍在 +3.1% 和 -3.1% 之間。 同樣,所有 13 個省份的模型誤差都落在兩個標準差範圍內(+6.2% 到 -6.2%)。 沒有規定誤差必須落在兩個標準差範圍內,但通常情況下是如此。 通常,模型結果看起來類似於圖 4-12,大多數預期值落在其觀察值的標準差範圍內(誤差小於一個標準差),絕大多數預期值落在其觀察值的兩個標準差範圍內(誤差小於兩個標準差)。 當模型的誤差標準差很小,這意味著模型能夠產生良好、準確的因變數估計值。

4.4. 計算方差和標準差(可選/高階) 很少需要計算變數或平均值模型或線性迴歸模型中誤差的方差和標準差。 統計計算機程式、電子表格程式,甚至計算器都能計算標準差。 另一方面,與計算迴歸係數不同,計算標準差並不太難。 計算變數標準差有六個步驟。 它們是: (1) 計算變數的平均值 (2) 計算變數每個案例的平均值偏差 (3) 對這些偏差進行平方 (4) 將所有偏差相加,得到總平方偏差 (5) 將總平方偏差除以自由度,得到方差 (6) 對方差開方,得到標準差 這六個計算標準差的步驟在圖 4-13 中得到了說明,圖中使用了關於紐約市每個區地鐵站數量的資料。 包括史坦頓島鐵路的 22 個車站作為地鐵車站,五個區共有 490 個車站。 將 490 除以 5,得到每個區的平均地鐵站數量為 98(步驟 1)。 表格中給出了每個區與該平均值 98 站的偏差(步驟 2)。 偏差右側是平方偏差(步驟 3)。 這些平方偏差的總和為 14434(步驟 4)。 由於有五個區,並且圖 4-13 中的偏差是與平均值模型的偏差(而不是迴歸模型),所以有 4 個自由度(5 - 1 = 4)。 將總平方偏差除以自由度(14434 / 4)得到每個區地鐵站數量的方差。

圖 4-13. 計算 2010 年紐約市每個區地鐵站數量的標準差

方差有時代替標準差作為衡量變數分佈程度的指標。 方差的問題在於它在直觀上意義不大。 例如,圖 4-13 中地鐵站數量的方差為 14434。 由於方差是平方偏差的總和,所以它以平方單位表示。 因此,圖 4-13 中的方差實際上是 14434 個平方車站。 由於不存在平方車站,所以對方差開方是有意義的。 對方差開方得到標準差。 圖 4-13 中的標準差代表車站數量。 紐約市每個區地鐵站的數量的平均值為 98 個車站,標準差為 60.1 個車站。 計算迴歸誤差標準差的工作方式與計算標準差完全相同,只是自由度等於 N-2 而不是 N-1。 自由度的這種差異是迴歸誤差標準差有可能(儘管不太可能)大於平均值模型的標準差的原因。 迴歸模型的預期值始終比平均值模型的預期值更接近因變數的觀察值。 這是因為迴歸模型的預期值是變化的,而平均值模型的預期值是恆定的(它們只是平均值)。 由於迴歸預期值更接近因變數的觀察值,因此它們的誤差(偏差)更小,它們的平方誤差(偏差)也更小。 但是,迴歸模型的自由度也更小(N-2 而不是 N-1)。 只有可能較小的自由度可以抵消較小的平方誤差,從而產生較大的方差。 作為一項規則,線性迴歸模型的誤差標準差始終小於平均值模型,除非斜率和案例數量(N)都非常小。 當斜率很小時,迴歸模型的預期值與平均值模型的預期值相差不大:兩者都是恆定的,或幾乎如此。 當案例數量很小時,自由度的差異可能足夠大以至於很重要(4 和 3 之間的差異比 4000 和 3999 之間的差異更重要)。 在實踐中,這種情況(幾乎)永遠不會發生。 當有資料可用以使用迴歸模型計算預期值和預測值時,這些值(幾乎)始終比平均值模型的預期值或預測值要好。 只有在沒有資料可用於使用線性迴歸模型進行預測時,才會使用平均值模型。

4.5. 案例研究:中國的收入和工資就業 自 1990 年代後期以來,中國一直經歷著極其快速的經濟增長。儘管如此,中國作為一個整體仍然是一個相對貧窮的國家。其平均收入水平不到墨西哥的一半。世界各地貧窮國家的一個特點是,許多人靠耕種土地自給自足,而不是靠工資工作。隨著收入的增加,越來越多的人離開土地,到工廠和其他提供工資報酬的工作場所尋求就業。如今,中國每年有數百萬人從小型農業村莊遷往新的城市地區,從自給自足的農業轉變為工資勞動。社會學家爭論人們是作為自給自足的農民過得更好,還是作為工資勞動者過得更好,但無論哪種方式,趨勢都是不可否認的。每年有數百萬人加入中國工資勞動者的行列。與加拿大和澳大利亞一樣,中國也擁有多種行政劃分。在中國,有 4 個直轄市(全國最大的城市)、22 個省和 5 個“自治區”,這些地區擁有大量少數民族人口,並擁有與普通省份不同的行政程式。此外,還有兩個“特別行政區”(香港和澳門)由於歷史原因,不包括在許多中國資料中。此外,中國聲稱擁有但並未控制檯灣島。總而言之,大多數中國資料集都包含 31 個主要部門的變數,不包括香港、澳門和臺灣。圖 4-14 再現了一個包含這些 31 個部門的人口、收入和就業資料的資料庫。

圖 4-14. 2008 年中國城市、省份和地區的勞動力參與率的條件均值

圖 4-14 中的兩個變數對於理解從自給自足的農業向工資勞動的轉變尤為有趣。INC$2008 變數是每個行政部門的工資勞動者的平均收入水平,而 EMP(%) 變數是勞動力參與率(每個部門中從事正式工資勞動的比例)。圖 4-15 繪製了按部門型別(直轄市、省份或地區)條件化的收入條件均值水平。圖表顯示了每種型別部門(直轄市、省份或地區)的平均收入水平。四個直轄市的收入遠高於省份和地區,但有一個相對貧困的直轄市重慶,它位於中國中部腹地。有一個明顯富裕的地區,西藏,但實際上西藏相對貧困。西藏的極高生活成本使得工資水平高於其他地方。

圖 4-15. 2008 年中國城市、省份和地區的勞動力參與率的條件均值

圖 4-16 對比了中國 22 個省份的兩種勞動力參與模型。圖 4-16 專注於省份,因為與其他部門相比,省份更多,而且直轄市和地區在很多方面都與省份不同。圖 4-16 的左側顯示了一個具有 21 個自由度的勞動力參與(標記為 LFP)的平均模型。22 個省份的勞動力參與平均水平為 54.4%,標準差為 6.9%。除浙江外,所有省份的勞動力參與率都在平均值的兩個標準差之內。圖 4-16 的右側顯示了一個具有 20 個自由度的線性迴歸模型,該模型將勞動力參與(因變數)迴歸到平均收入水平(自變數)。該模型的引數在圖 4-17 中報告。

圖 4-16. 2008 年中國 22 個省份的勞動力參與率的平均模型和迴歸模型
圖 4-17. 2008 年中國 22 個省份的勞動力參與率對省級平均收入的迴歸

迴歸模型的斜率為 6.3,這意味著工資率每上漲 1000 美元,勞動力參與率的預期值就會上漲 6.3%。該模型的迴歸誤差標準差為 3.4%,不到平均模型標準差 6.9% 的一半。迴歸模型的強正斜率和低誤差水平表明,迴歸模型比平均模型更好地反映了勞動力參與情況。中國各省的勞動力參與率至少在一定程度上確實隨著工資收入的增加而上升。

第四章 關鍵詞

[edit | edit source]
  • 條件均值是指特定組案例的因變數的預期值
  • 自由度是指模型中實際上可以自由變化的誤差數量
  • 平均模型是指非常簡單的統計模型,其中一個變數只有一個預期值,即其平均值
  • 平均值是指變數的預期值
  • 引數是指與統計模型相關的數字,例如平均值和迴歸係數
  • 迴歸誤差標準差是指衡量回歸模型誤差中擴散程度的指標
  • 標準差是指衡量變數擴散程度的指標,與平均模型誤差的擴散程度相同

第三章 · 第五章

華夏公益教科書