社會統計學/第5章
美國在種族歧視和壓迫方面有著漫長而充滿問題的歷史。直到1865年,奴隸制在美國普遍存在,富有的白人合法地擁有、壓迫和虐待黑人。在接下來的一個世紀,即1865年至1964年間,基於種族的學校、企業和其他公共場所的隔離是合法的,在該國許多地區,黑人被禁止充分參與社會。如今,任何年齡超過50歲的美國人都是在種族隔離的國家出生的,這個國家沒有給予其黑人公民平等的權利。毫不奇怪,儘管美國第一位黑人總統當選,但種族歧視仍然是美國的一個主要問題。畢竟,巴拉克·奧巴馬本人就是在法律上實行種族隔離的美國出生的。美國種族歧視歷史悠久的一個結果是黑人和白人之間持續存在的工資差距。即使在官方種族隔離結束很久以後出生的黑人,其收入也遠低於同齡的白人。我們可以使用2008年美國收入與專案參與調查 (SIPP) 的資料來說明工資中的種族差距。2008年SIPP的第二波資料包含了4964名20-29歲受僱美國人的工資收入資料(其中633人為黑人,4331人為白人)。SIPP樣本的總體平均收入為36,633美元,標準差為29,341美元。圖5-1報告了SIPP樣本中633名黑人和4331名白人的條件平均收入。黑人的平均收入比白人的平均收入低6656美元。

在針對黑人工資收入的均值模型中,20多歲美國黑人的工資收入的期望值為30,826美元。從該模型的角度來看,低於或高於30,826美元的觀察收入將是誤差。誤差的標準差(22,723美元)表明,美國黑人的實際收入存在很大的差異。20多歲美國白人的工資收入期望值為37,482美元。模型的標準差(30,096美元)表明,白人收入的差異比黑人更大。針對美國黑人的均值模型使用一個引數(其均值)並基於633個案例,因此它具有632個自由度。針對美國白人的均值模型有4331個數據點和1個引數,因此它具有4330個自由度。這兩個模型都具有足夠的自由度(超過10個左右就可以了)。另一種對黑人和白人美國人之間收入差異進行建模的方法是使用迴歸模型。圖5-2報告了收入對種族的迴歸係數。在這個迴歸模型中,自變數是種族(編碼為“黑度”:白人為0,黑人為1),因變數是工資收入。迴歸模型的截距為37482,斜率為-6656。換句話說,迴歸線的方程為收入 = 37482 - 6656 x 黑人。對於白人(黑人 = 0),工資收入的期望值為37842 - 6656 x 0 = 37482 + 0 = 37,842美元。對於黑人(黑人 = 1),工資收入的期望值為37842 + 6656 x 1 = 33876 - 6656 = 30,826美元。迴歸模型中的這些期望值與圖5-1中兩個均值模型的條件均值相同。

迴歸模型使用了所有4964個案例,並具有2個引數,使其具有4962個自由度。迴歸模型中的迴歸誤差標準差為29,263美元(迴歸模型標準差通常不會在結果表中報告,但可以使用統計軟體程式計算)。迴歸線的斜率代表了收入中的種族差距。斜率為負意味著SIPP樣本中的黑人報告的收入低於SIPP樣本中的白人。這是否意味著種族歧視仍在繼續?這很難說。較高的迴歸誤差標準差意味著人們的收入存在很大差異,迴歸模型沒有捕捉到這些差異。觀察到的6656美元的種族差距似乎相當大,但需要進一步分析才能確定它是否真正代表了美國社會中真實的種族差異。
本章在均值和迴歸模型的背景下介紹了統計推斷的概念。首先,推斷統計用於對整個社會世界做出結論(第5.1節)。這與描述性統計形成對比,描述性統計僅描述資料庫中實際觀察和記錄的資料。其次,所有推斷統計都基於這樣一個理念,即觀察資料中表示的模型誤差是從現實世界中可能發生的全部誤差中隨機抽取的樣本(第5.2節)。不同型別的非隨機抽樣對模型引數有不同的影響。第三,統計模型中估計的所有引數都與誤差相關聯(第5.3節)。引數估計中的誤差稱為標準誤差。可選部分(第5.4節)探討了樣本量與統計模型推斷世界能力之間的關係。最後,本章以一個應用案例研究結束,該案例研究探討了富裕國家在多大程度上履行了蒙特雷共識中關於對貧困國家援助的義務(第5.5節)。這個案例研究說明了如何使用標準誤差在統計模型中進行推斷。本章的所有關鍵概念都用於此案例研究。在本章結束時,您應該能夠對均值和迴歸斜率等引數做出明智的推斷,並使用這些推斷更準確地描述社會世界。
5.1. 從描述性統計到推斷統計與世界各地的大多數人一樣,美國人正在變得越來越胖。這是一個嚴重的問題,因為肥胖與一系列健康問題密切相關,包括糖尿病、關節問題和心臟病。許多人也認為肥胖不美觀,並希望比現在體重更輕。根據美國健康與營養檢查調查 (NHANES) 的資料,20-29歲的美國女性平均體重為155.9磅,男性為188.3磅。這些資料與NHANES首次進行時的資料相比大幅上升。當時,在20世紀60年代初,20多歲的美國女性和男性的平均體重分別為女性127.7磅,男性163.9磅。圖5-3報告了按性別劃分的20多歲美國人體重均值和標準差。

顯然,1960-1964年NHANES調查的672名女性記錄的體重遠低於2003-2006年NHANES調查的706名女性。這是否意味著女性在20世紀60年代真的更輕?可能確實如此,但這兩個均值都與大量的誤差相關聯。均值模型中存在誤差,因為NHANES資料庫中的每個人都因各種不同的原因偏離了全國平均水平。導致個人體重可能偏離全國同性別人群平均體重的潛在原因可能包括:一個人的身高一個人吃多少一個人鍛鍊多少一個人將能量儲存在脂肪中的基因傾向圖5-3第一列中表示的672名女性的平均體重為127.7磅。當然,她們的體重並不都是127.7磅。即使在20世紀60年代初,也不是每個人都像瑪麗蓮·夢露一樣。鑑於圖5-4中報告的23.3磅的標準差,大多數20多歲的女性體重會在104.4磅到151.0磅之間。圖5-4展示了1960-1962年NHANES調查的672名女性中一些虛構的樣本以及她們可能偏離全國平均體重的理由。實際上,每個女性都有數百或數千個偏離平均值的個人理由。我們吃的或喝的每一樣東西,我們走的每一步,甚至我們睡覺的時間長短都會影響我們的體重。即使體重完全等於平均體重的女性,也可能存在體重高於平均值的理由和體重低於平均值的理由,而這些理由恰好相互抵消。

圖5-5比較了女性體重的均值和標準差與體重均值模型中誤差的均值和標準差。圖5-5兩側唯一的區別是刻度。左側,女性體重圍繞均值(127.7磅)分佈。右側,女性體重圍繞0分佈。在這兩種情況下,分佈的程度相同(標準差 = 23.3磅)。

用於描述女性體重的平均模型,以一種簡單的描述性模型概括了我們實際擁有的體重資料特徵。描述性統計是指使用統計方法來描述我們實際掌握的資料。女性體重的平均模型告訴我們資料庫中特定女性的觀察平均體重。類似地,迴歸模型告訴我們資料庫中迴歸線的觀察斜率和截距。這些平均值、斜率和截距是根據實際資料觀察到的模型引數。觀察引數是指根據我們實際掌握的資料,觀察到的像平均值、截距和斜率等引數的實際值。描述性統計側重於尋找和報告觀察引數。看起來尋找和報告觀察引數就是統計學的全部內容,但事實是,觀察引數僅僅是故事的開始。我們並不真正感興趣的是包含在1960-1962年NHANES資料庫中的672名美國二十多歲女性的實際觀察體重。我們真正感興趣的是推斷一般美國女性的真實平均體重,或者推斷1960-1962年女性體重與2003-2006年女性體重之間的真實差異。推論性統計是指使用統計方法對我們資料背後的現實世界特徵進行推斷。我們已經使用平均模型和迴歸模型對現實世界進行推斷,但我們這樣做是比較非正式的。從描述性統計轉向推論性統計,我們將開始使用統計方法對資料背後現實世界的特徵進行正式推斷。觀察引數是描述性統計。它們說明了資料本身的一些情況,但沒有說明更廣闊的世界。它們表明,這672名特定女性在特定日期、使用特定體重的秤、在其特定醫生辦公室稱重時,平均體重為127.7磅。我們可以利用這些資訊對更廣闊的世界進行推斷,但這就像刑事案件中的間接證據。畢竟,NHANES是在三年內進行的,但你每天每小時都在增重或減輕體重。每次你吃東西、喝東西,甚至呼吸時,你的體重都會發生變化。你一直在出汗、掉頭髮、脫皮。你的身體結構在你增減脂肪、肌肉或骨骼時也在不斷變化。簡而言之,你的體重在不斷變化。因此,你在任何一個時間點的觀察體重與你的“真實”體重並不相同。真實引數是指基於世界真實(但未觀察到)特徵的平均值、截距和斜率等引數的真實值。你的觀察體重可能一直在變化,但它仍然傾向於在逐月和逐年保持大致相同的體重。在任何一個時間點,都存在一個你的身體圍繞其變化的體重。這就是你的真實體重。如果你一小時稱一次體重,持續一整年,並取所有這些觀察體重的平均值,那麼平均值將類似於你的真實體重。推論性統計的目標是推斷引數的真實值。引數的觀察值是引數可能真實值的良好指南,但觀察引數總是包含一些誤差。推論性統計側重於理解觀察引數中的誤差量。然後,利用該誤差量來推斷真實引數可能與觀察引數相差多少。例如,1960-1962年美國二十多歲女性的觀察平均體重為127.7磅。1960-1962年美國二十多歲女性的真實平均體重可能是128磅嗎?也許。他們的真實平均體重可能是130磅嗎?不太可能。他們的真實平均體重可能是155.9磅,與2003-2006年的女性相同嗎?不可能。推論性統計將使我們能夠充滿信心地得出這樣的結論。
5.2. 誤差型別 臺灣島有著艱難的歷史。長期以來,臺灣都是中國的一部分,在1895年至1945年期間經歷了50年的日本佔領。然後在1949年,150萬來自中國大陸的難民逃離了中國共產黨的接管,湧入臺灣,導致人口在一年內從600萬增加到750萬。從1950年到1991年,臺灣由一個主要由1949年逃到島上的中國人統治的軍事政府統治。簡而言之,在1991年之前的近一個世紀裡,臺灣一直由某種形式的獨裁統治。今天在臺灣生活的任何人都沒有在1991年第一次自由選舉之前體驗過民主。因此,年輕的臺灣人是在民主的環境下長大的,但年長的臺灣人對生活在獨裁統治下的記憶猶新。今天的臺灣人對他們的民主狀況滿意嗎?在世界各地,社會科學家發現人們渴望比他們認為自己擁有的更多的民主。人們對民主的渴望與人們對他們實際擁有多少民主的感知之間的差異被稱為“民主赤字”。與世界各地的人們一樣,臺灣的人們也認為他們沒有民主。可以使用2006年在臺灣進行的世界價值觀調查(WVS)資料來研究人們對臺灣民主的評價。民主評級按0到100的等級評分,其中: 評級 = 0 表示受訪者認為臺灣的民主程度不夠 評級 = 50 表示受訪者認為臺灣的民主程度恰到好處 評級 = 100 表示受訪者認為臺灣的民主程度過高 圖5-6總結了臺灣民主評級的平均模型結果。38.8的平均評級表明,大多數臺灣人認為民主程度低於他們期望的程度,這與世界其他地區一樣。由於民主評級得分低於50,因此臺灣存在民主赤字。當然,並非所有臺灣人都這麼認為。14.1的標準差表明,人們對民主的態度存在廣泛的分歧。儘管如此,赤字還是清楚地表明,臺灣人民整體上希望擁有比他們認為自己擁有的更多的民主。平均得分(38.8分)幾乎比50低了一個標準差。

在平均模型中,假設每個臺灣人都擁有38.8的得分,再加上或減去一些偏差或誤差。這種誤差被稱為模型誤差。它並不一定意味著測量某人的民主評級時出現了錯誤。這意味著模型給出了一個預期評級——38.8——對許多人來說是錯誤的。大多數人的民主評級並非正好為38.8。他們的得分要麼低於,要麼高於此值。這些較低和較高的得分平均為觀察平均值38.8分。圖5-6中總結的平均模型的目標是找到臺灣人民對民主看法的真實平均值。我們不知道真實平均值,但我們知道觀察平均值在0到100的範圍內為38.8。觀察平均值可能由於誤差而與真實平均值不同。廣義地說,平均模型中存在三種不同的模型誤差: 測量誤差 抽樣誤差 個案特定誤差 測量誤差是由於變數測量中的意外、錯誤或誤解而產生的誤差。例如,受訪者可能在調查問卷上標記了錯誤的橢圓形,或者問題措辭可能不當。受訪者可能記不起問題的答案,或者可能誤解了問題。在電話調查中,研究人員可能沒有正確聽到受訪者的回答,或者可能輸入了錯誤的答案。意外是會發生的。由於觀察到的平均民主評級是根據調查中記錄的人們的實際答案計算出來的,因此如果這些記錄的答案是錯誤的,它可能與真實平均值不同。 抽樣誤差是由於隨機選擇哪些研究物件納入樣本而產生的誤差。如今,臺灣有2280萬人口。只有1216人參與了調查。這些1216人可能並不真正代表臺灣人口。每個臺灣人對民主的評價都是數百萬種影響和經歷的結果。理想情況下,所有這些典型的臺灣經歷都應該反映在選擇參加調查的人群中。如果回答調查的人所經歷的所有這些影響的總和不同於整個人口所經歷的影響的總和,那麼調查中的觀察平均值將不同於整個人口的真實平均值。例如,調查設計可能不包括對住院或無家可歸者進行抽樣,因此他們的經歷將不會反映在觀察平均值中。 個案特定誤差是由於可能導致特定個案的值與其預期值不同的數百萬種影響和經歷中的任何一種而產生的誤差。任何統計模型中的大多數誤差都是個案特定誤差。每個人對世界的獨特體驗決定了這個人對民主等主題的看法。由於每個人對世界的體驗都不同,因此每個人都因不同的原因和不同的方式偏離平均值。在提問當天,具有不同身份、背景甚至情緒的人會給出不同的答案。由於人們的這些特徵總是在變化,因此任何一個時間點的觀察平均值可能與研究中研究物件的真實平均值不同。個案特定誤差如此之大,因為每個人對任何問題的回答都代表了社會中所有可能經歷的潛在影響的一種隨機樣本。在平均模型中,所有這些不同和獨特的經歷的結果被歸結為模型誤差。另一方面,線性迴歸模型會將其中一些獨特的經歷納入模型。迴歸模型中的自變數代表了使每個個案獨一無二的部分。例如,塑造人們對民主看法的因素之一是他們的年齡。年長的臺灣人是在軍事獨裁統治下長大的。我們可能會推測,在軍事獨裁統治下長大的人會對任何形式的民主心存感激。基於此理論的一個假設是,老年人對臺灣民主的評價會高於年輕人。圖5-7報告了使用年齡作為自變數和民主評級作為因變數的線性迴歸模型的結果。

圖 5-7 中報告的斜率為正。每增加一年的年齡,與之相關的個人民主評級的預期值就會上升 0.105。使用圖 5-7 中的係數,我們可以計算出 20 歲的臺灣人對臺灣民主的評級的預期值為 34.223 + 20 × 0.105 = 36.323,評級範圍為 0 到 100。60 歲的臺灣人的預期民主評級將為 34.223 + 60 × 0.105 = 40.523,或大約高出 4 個點。這不算很多,但確實傾向於證實年齡會影響人們對臺灣民主評級的理論。至少部分臺灣民主評級中的個案特定誤差可以追溯到年齡。事實上,理解迴歸模型的一種方法是將其視為解釋均值模型中部分個案特定誤差。這在第 4 章的圖 4-10 和圖 4-16 中得到了非常清晰的說明。在圖 4-10 中,加拿大省份吸菸率均值模型中很大一部分個案特定誤差(圖的左側)歸因於每個省份的平均氣溫(圖的右側)。均值模型中誤差的標準差為 5.3%。在考慮氣溫後,迴歸模型中誤差的標準差僅為 3.8%。均值模型中很大一部分個案特定誤差在迴歸模型中消失了。這種消失的誤差是由於加拿大各省氣溫差異造成的誤差。在臺灣民主評級的例子中,均值模型的誤差標準差為 14.1(評級範圍為 0 到 100)。迴歸模型誤差標準差(迴歸表中未報告)為 14.0(評級範圍為 0 到 100)。臺灣民主評級中非常小一部分(0.1)的個案特定誤差是由於年齡造成的。它很小,因為迴歸模型(圖 5-7)中報告的年齡效應非常小。年齡並不是臺灣民主評級的重要決定因素,但它是一個因素。它是導致人們與臺灣整體平均值存在差異的一小部分原因。測量誤差、抽樣誤差和個案特定誤差可能存在於任何統計模型中,但大多數推論統計都集中在個案特定誤差上。特別是迴歸模型專注於將因變數中部分個案特定誤差歸因於研究物件的自變數得分。測量誤差和抽樣誤差確實會影響迴歸模型,但影響方式非常微妙。這些將在第 12 章中討論。在此之前,在討論模型誤差時,我們將只關注個案特定誤差。
5.3. 引數的標準誤差 統計模型中大量的誤差可能使得推斷變得困難。回到工資中種族差距的例子(圖 5-1),我們能否有信心認為黑人和白人工資的真實均值與觀察到的 22,723 美元和 30,096 美元的均值接近?一方面,這些均值模型存在非常大的誤差。另一方面,這兩個模型中的均值都基於非常大的樣本量(633 名黑人和 4331 名白人)。當使用大量個案估計模型時,個案特定誤差往往會相互抵消。可能存在大量的個案特定誤差(如圖 5-1 所示),但如果所有正誤差都被負誤差抵消,則觀察到的均值可能非常接近真實均值。誤差只有在偶然情況下存在過多的正誤差或過多的負誤差時才成為問題。大量個案能夠平衡誤差併產生更準確的觀察均值的能力可以透過圖 5-4 中提供的美國女性體重樣本資料來說明。想象一下,如果我們試圖使用僅一位隨機女性的體重來計算 20 世紀 60 年代美國女性的平均體重。我們可能會選擇第 3 位女性並得到 140.0 磅的平均體重,或者選擇第 6 位女性並得到 115.6 磅的平均體重。如果我們僅基於一位女性的體重建立均值模型,那麼我們的觀察均值將存在很大誤差。事實上,僅使用一個個案來計算均值模型中的均值將產生一個與女性體重本身完全相同的均值範圍。基於一個個案計算的均值可以是 99.5 磅(圖 5-4 中第 4 位女性的體重)到 177.7 磅(圖 5-4 中第 9 位女性的體重)之間的任何值。僅使用兩個個案估計的均值模型將提供更準確的觀察均值。圖 5-4 中最輕的兩位女性體重為 99.5 磅(第 4 位女性)和 109.1 磅(第 5 位女性)。這兩個個案的平均值為 104.3 磅。兩位最重的女性(第 3 位和第 9 位女性)的平均值為 158.85 磅。因此,基於圖 5-4 中任意兩個隨機個案的均值模型將得出介於 104.3 磅和 158.85 磅之間的觀察均值。這與一個個案的 99.5 磅到 177.7 磅的範圍相比。兩個個案可能的均值範圍比一個個案窄。對於三個個案,它將更窄。一旦你擁有 672 個個案,個案特定誤差幾乎可以肯定會在所有個案中平均化。事實證明,均值、斜率和截距等引數的準確性隨著用於估計它們的個案數量的增加而迅速提高。隨著樣本量的增加,引數的觀察水平越來越接近其真實水平。觀察到的引數始終存在潛在的誤差,因為模型中使用的變數始終存在個案特定誤差。儘管如此,當模型使用大量個案時,觀察到的引數中的誤差量可以非常小。標準誤差是與觀察到的引數相關的誤差量的度量。觀察到的引數的標準誤差告訴我們它可能與真實引數有多接近。這極其重要,因為它使我們能夠推斷真實引數(如均值、斜率和截距)的水平。標準誤差取決於使用的個案數量和模型的總體誤差量。在均值模型中,標準誤差很容易計算,但在迴歸模型中則遵循更復雜的公式。標準誤差的計算將在第 5.4 節中介紹。與變數的標準差一樣,統計軟體程式會常規計算所有引數的標準誤差。為了理解標準誤差的來源,知道隨著個案數量的增加,引數的標準誤差會降低就足夠了。較小的標準誤差意味著觀察到的引數更準確地反映了真實引數。回到收入中的種族差距(圖 5-1),20 多歲黑人的觀察平均收入為 30,826 美元。這個均值模型的誤差標準差非常高(22,723 美元)。事實證明,該模型中觀察均值的標準誤差僅為 903 美元。引數的標準誤差可以大致按照與變數標準差相同的方式解釋:大多數情況下,真實均值位於觀察均值的一個或兩個標準誤差範圍內。因此,在圖 5-1 中,黑人的觀察平均收入為 30,826 美元,標準誤差為 903 美元。這意味著黑人的真實平均收入可能在 29,900 美元到 31,700 美元之間。白人工資平均值的標準誤差甚至更小。由於白人工資樣本量很大(4331),平均值的標準誤差僅為 457 美元。圖 5-2 中收入對種族的迴歸報告的斜率為 -6656,這意味著觀察到的收入種族差距為 6656 美元。迴歸模型的誤差水平非常高(迴歸誤差標準差 = 29,263 美元)。儘管如此,斜率的標準誤差僅為 1245 美元。這意味著收入的真實種族差距可能在 5400 美元到 7900 美元之間。真實種族差距可能正好等於 6656 美元(觀察到的差距),但可能並非如此。儘管如此,它可能非常接近。根據 1245 美元的標準誤差,我們可以推斷它幾乎肯定不為 0。換句話說,我們可以推斷收入中的種族差距確實存在。它不僅僅是我們資料中隨機誤差的結果。
5.4. 樣本量和統計功效(可選/高階) 在均值模型中計算均值的標準誤差相對簡單。它等於變數的標準差除以個案數量的平方根。迴歸斜率的標準誤差的計算要複雜得多。與均值的標準誤差一樣,它取決於迴歸誤差標準差和個案數量,但也取決於自變數的離散程度。從概念上講,斜率的標準誤差就像將因變數均值的標準誤差擴充套件到自變數的範圍內,就像圖 4-10 中自變數的值擴充套件到自變數的範圍內一樣。迴歸截距的標準誤差的計算更加複雜。但是,對於所有引數,標準誤差都隨著個案數量的平方根而下降。這意味著當您有更多個案可以使用時,您可以進行更準確的推斷。由於平方根關係,個案數量通常比模型誤差量對實現低標準誤差更重要。即使是誤差量非常大的模型(如臺灣民主評級對年齡的迴歸),只要有足夠的個案,其引數也可以具有非常低的標準誤差。圖 5-8 以圖形方式描繪了均值模型中使用的個案數量 (N) 與觀察均值的標準誤差 (SE) 之間的關係。圖上的線可以理解為當變數的標準差等於 1 時的變數均值的標準誤差。隨著個案數量從 1 增加到 20,均值的標準誤差下降非常快。在 20 到 100 個個案之間,均值的標準誤差也迅速下降,但下降速度不如之前那麼快。大約 100 個個案之後,均值的標準誤差繼續下降,但速度非常緩慢。廣義地說,一旦您擁有大約 1000 個個案,則需要大量額外的個案才能對均值的標準誤差產生任何實際影響。對於大多數社會科學應用,N = 800 - 1,000 個個案的樣本量就足夠了。

在臺灣民主評級迴歸模型中(圖 5-7),觀察到的斜率僅為 0.105,這意味著每增加一歲,一個人的民主評級就會增加 0.105 分。我們發現,人們的民主評級中,只有很小一部分(14.1 分中的 0.1 分)的個案特定誤差可歸因於年齡。儘管如此,由於模型中使用的案例數量龐大(1216 人),觀察到的迴歸斜率的標準誤差僅為 0.25 分。根據此圖,我們可以推斷,年齡對人們民主評級的影響的真實效應可能介於(大約)0.080 和 0.130 之間。換句話說,我們可以推斷,年齡的真實影響幾乎肯定不為 0。儘管迴歸模型存在大量誤差,我們仍然可以自信地得出關於態度如何隨年齡變化的結論。這種利用基於真實資料的均值估計來推斷真實均值的結論的能力稱為統計模型的功效。任何統計模型的功效都會隨著案例數量的增加而提高,因為更多的案例意味著更低的標準誤差,而且(不太重要)因為更多的案例意味著模型中有更多的自由度,從而導致更小的誤差標準差。一旦樣本量達到 1000 個左右的案例,這兩個對統計模型功效的貢獻都會呈現遞減的回報。由於社會科學中的大多數定量研究都基於調查資料,並且大多數調查的每個額外受訪者的成本都是固定的時間和金錢,因此大多數研究都基於大約 800 個案例。在調查有大約 800 名受訪者之後,每增加一個人,他們增加的功效就非常少了。
5.5. 案例研究:援助慷慨度與蒙特雷共識 在 2002 年於墨西哥蒙特雷舉行的聯合國發展籌資問題國際會議上,世界各國富裕國家承諾將其對外援助水平提高到其國民收入的 0.70%。世界上許多最富裕的國家都做到了這一點。圖 5-17 顯示了 20 個富裕國家的海外發展援助 (ODA) 支出佔國民收入的比例。每個國家的對外援助水平用一個條形表示。描述性統計可以用來描述觀察到的 ODA 支出的分佈。觀察到的所有 20 個國家的平均援助水平為國民收入的 0.52%。這一資料和蒙特雷目標 0.70% 的國民收入在圖表上都有標記。觀察到的平均值比目標值低 0.18%。儘管觀察到的平均值遠低於目標水平,但 ODA 支出佔國民收入的百分比的真實平均值是否可能真的等於 0.7% 呢?

觀察到的平均值可能由於各種原因與真實平均值不同。儘管所有 20 個國家的援助支出觀察到的平均水平低於 0.70% 的目標水平,但有 5 個國家的援助水平高於目標水平,還有 1 個國家的援助水平接近目標水平。如果所有 20 個國家都將援助水平定為 0.70%,那麼 5 個國家超過目標,1 個國家接近目標,13 個國家低於目標似乎是可能的。由於會計操作不善或研究人員的錯誤,各國報告的 ODA 支出水平可能存在測量誤差。更有可能的是,可能存在大量的個案特定誤差。各國可能設定了 0.7% 的目標,但由於經濟衰退而支出不足,或者由於人道主義危機中的緊急支出而支出過多。本例中不存在抽樣誤差,因為資料代表了世界上所有最富裕的國家,而不是富裕國家的樣本。ODA 支出的標準差為 0.27%。分析中包括 20 個國家。這兩個資料可以用來計算 ODA 支出平均值的標準誤差,結果為 0.06%。根據此標準誤差,推論統計可以用來推斷 ODA 支出的真實平均水平。0.06% 的標準誤差意味著 ODA 支出的真實平均水平可能在 0.46% 到 0.58% 的範圍內(與觀察到的平均值相差正負一個標準誤差)。真實平均值可能與觀察到的平均值相差更大,但真實平均值非常不可能為 0.70%。蒙特雷目標 0.70% 比觀察到的 0.52% 的平均值整整高出三個標準誤差。ODA 支出的真實平均水平可能不是 0.52%,但幾乎肯定不是 0.70%。世界各國富裕國家必須大幅增加 ODA 支出,才能履行其在蒙特雷做出的承諾。
- 個案特定誤差是指由於可能導致特定個案的值與其預期值不同的數百萬種影響和經驗而導致的誤差。
- 描述性統計是指使用統計資料來描述我們實際掌握的資料。
- 推論統計是指使用統計資料來推斷我們資料背後的真實世界的特徵。
- 測量誤差是指由於變數測量中的意外事故、錯誤或誤解而導致的誤差。
- 觀察到的引數是指基於我們實際掌握的資料,觀察到的引數(如均值、截距和斜率)的實際值。
- 抽樣誤差是指由於研究物件被隨機納入樣本而導致的誤差。
- 標準誤差是指衡量與觀察到的引數相關的誤差量。
- 真實引數是指基於世界(但未觀察到)的真實特徵,引數(如均值、截距和斜率)的真實值。