跳轉到內容

統計學入門/描述性統計

來自華夏公益教科書,開放的書籍,為開放的世界

描述性統計

[編輯 | 編輯原始碼]

描述性統計總結了資料集的定量特徵。它們用於描述資料,以說明某種現象在觀察到的案例中是如何出現的。描述性統計回答了諸如“有多少比例的案例是藍眼睛?”或“觀察到的案例的典型家庭收入是多少?”之類的疑問。在計算描述性統計時,我們不打算從收集的資料中推斷到觀察到的案例之外的任何更大的總體。

總體和樣本

[編輯 | 編輯原始碼]

在“描述性統計”中,我將給出“總體引數”的公式,除非另有說明。總體引數用於在收集所有正在調查的案例的資料時使用,並在計算中使用。如果資料集是“抽樣”(可能是透過收集一些代表性案例的資料),那麼將使用“樣本統計量”。引數和統計量不同,對於引數,平均值是根據“資料集中所有案例的總數(N)”計算的,並且這個“總體平均值”用於進一步的計算或引數。對於樣本統計量,平均值是根據“案例總數減一(N-1)”計算的,並且這個“樣本平均值”用於計算進一步的統計量。因此,樣本統計量近似於樣本的大小效應,因為隨著N的增加(接近總體的大小),樣本和總體之間的差異會減小。對於少量案例,從N中減去一個會產生很大的影響;對於大量案例,從N中減去一個會產生更小的影響。

可以為名義變數、序數變數和連續變數計算頻率,儘管意義略有不同。對於離散(即名義或序數)變數,頻率是資料中某個級別例項的計數。對於連續變數,通常將觀察到的值“分箱”到具有特定寬度的組中(例如,一個箱子可能包含 0 到 5 之間的分數,下一個包含 6 到 10 之間的分數,等等)。

處理單個變數(單變數)

[編輯 | 編輯原始碼]

如果我們想象一所學校的學生班級和考試成績,我們知道一些學生可能會得到 50/100 的分數,另外一些學生會得到 65/100 的分數,等等。每個級別得分的人數就是該分數的頻率。如果我們記錄這些頻率,我們就有了該變數的頻率分佈。我們可以將頻率製成資料計數、百分比和累計百分比的表格。

下表製成了“年齡”資料的表格。對於資料中遇到的每個年齡(四捨五入到最接近的年份),計算頻率並記錄絕對值,並計算百分比。

年齡 頻率 百分比 有效百分比 累計百分比
10.00 5 17.9 17.9 0 + 17.9=17.9
11.00 10 35.7 35.7 17.9+35.7=53.6
12.00 10 35.7 35.7 53.6+35.7=89.3
13.00 3 10.7 10.7 89.3+10.7=100.0
總數 28 100.0 100.0

在本例中,“有效百分比”列與“百分比”列相同,因為沒有缺失資料,即“年齡”未知的案例。

處理多個變數(雙變數/多變數)交叉表

[編輯 | 編輯原始碼]

我們可以透過“交叉表”來描述兩個類別變數(即名義和序數)的交集。在這裡,我將 76 名學生的“眼睛顏色”與“性別”進行交叉表,性別均等分配。在本例中,有兩列和五行:這是一個 2×5 的表格。哪一個變數放在行中或哪一個變數放在列中並不重要。

交叉表:眼睛顏色×性別
性別
眼睛顏色 藍色 6 6
棕色 12 12
綠色 7 7
灰色 4 6
其他 9 7
總數 38 38

表格中的每個單元格都包含觀察到的每種性別有多少學生擁有相同的眼睛顏色。因此,六名男學生擁有棕色眼睛,四名女學生擁有灰色眼睛,等等。這些是這些變數交叉表中的“觀察計數”。稍後我們將看到,這些可以與機率預測的“預期計數”進行比較。

集中趨勢

[編輯 | 編輯原始碼]

對數值資料的常見總結是資料的“中心點”或“中間”位置。該點被視為對“該變數的最典型值是什麼?”問題的指示性答案。有多種方法可以確定中心。我將在下面解釋三種最常見的“集中趨勢”度量。

眾數是資料集中出現頻率最高的數值。如果我們逐一檢視觀察值,並對每個特定分數的每次出現進行一次標記,我們就能得到資料的頻率計數。眾數就是頻率計數最高的數值。我們不能保證只有一個眾數,所以有時我們會聽到資料被描述為雙峰或多峰。

眾數是集中趨勢度量中最不強大的,因為它只利用了資料中的極少資訊。

眾數是唯一可以為名義資料計算的集中趨勢度量。它也可以為序數資料計算。

眾數通常用直方圖來視覺化。

假設我們統計了一個小學生班級的年齡(四捨五入到最接近的整年),並得到以下結果

班級年齡頻率分佈
年齡(年) 出現頻率
10 5
11 10
12 10
13 3

這裡有兩個眾數:11 歲和 12 歲。這是一個雙峰分佈的得分。

這是一個數據的直方圖

頻率資料的簡單圖表

中位數

[編輯 | 編輯原始碼]

中位數是資料集中間的得分。得分應該按順序排列,然後如果案例數是奇數,中位數就是中間排序的得分。如果數字是偶數,那麼將兩個中間值相加併除以 2 來計算中位數。

中位數比眾數利用了更多關於資料的的資訊,因為資料是按順序排列的,並且是集中趨勢的更強大的表達。

中位數可以為序數、區間和比率資料計算。

考慮上表的資料。資料中存在四個值:10、11、12、13。這是一個偶數,所以我們取中間兩個值,加起來除以二。結果為11.5歲,即中位數。

平均數

[編輯 | 編輯原始碼]

這裡,我將平均數定義為算術平均數平均值,忽略幾何平均數和調和平均數等。

平均數的計算方法是將一個變數的所有得分加起來除以樣本數量。平均數是中心趨勢的最強指標,利用了資料中的大部分資訊。公式通常寫成

平均數只能用於間隔資料和比率資料。[1]

考慮上表的資料。資料中存在四個值:10、11、12、13。該班級年齡之和為319。總樣本數為28,即N = 28。所以我們用28除以319,得到平均年齡:11.39歲。

離散度

[編輯 | 編輯原始碼]

離散度是指資料集中的值分佈的程度。變異是統計思維的核心。我將介紹一些關於值離散度的主要指標。

離散度在描述性統計中很重要,因為兩個群體或兩個變數可能具有相似的平均數、中位數或眾數,但離散度卻相差很大。例如,孟買和洛杉磯的平均收入可能相同(我不知道,我沒有查過),但你不會驚訝地發現這兩個城市人口的收入分佈差異很大。

資料集的極差是指一個變數的最高觀察值與最低觀察值之間的距離。

考慮上表的資料。資料中存在四個值:10、11、12、13。年齡的最大值為13,最小值為10。因此,極差為13 -10,即3。

四分位數和四分位距

[編輯 | 編輯原始碼]
四分位數
[編輯 | 編輯原始碼]

四分位數是資料中的三個點,將樣本劃分為相等的四部分。其中一個四分位數點是中位數,即第二四分位數。第一四分位數將資料集中最低的25%截斷,第三四分位數將資料集中最高的25%截斷。

四分位距
[編輯 | 編輯原始碼]

四分位距(IQR)定義為第三四分位數減去第一四分位數。這是衡量中位數週圍的值分佈的一個穩健指標。離群值的一種描述將其定義為一個點超過四分位距邊界1.5倍四分位距的點。離群值被理解為一個極端的值,不具有典型性。

考慮以下資料,包括32名學生在數學考試中的得分。表格顯示頻率計數和累積百分比。

考試得分 計數 累計百分比
39 1 3.125
42 1 6.250
44 1 9.375
45 1 12.500
47 1 15.625
48 1 18.750
50 3 28.125
51 1 31.250
52 3 40.625
53 2 46.875
54 1 50.000
55 2 56.250
56 3 65.625
57 1 68.750
58 2 75.000
59 1 78.125
60 2 84.375
62 2 90.625
63 1 93.750
64 2 100.00
總數 32 100

中位數得分是54.5。四分位數是

四分位數 得分
第一(最低25%) 50
第二(到中位數) 54.5
第三(到75%) 58.5

因此,四分位距是58.5 - 50 = 8.5。這可以用箱線圖來表示

顯示四分位距的箱線圖,以陰影區域表示

四分位距用陰影框表示,框中有一條線表示中位數的位置。還顯示了最小值和最大值,用“須”表示。在這個箱線圖中,“須”表示實際的最小值和最大值。有些圖表示四分位距 ± 1.5(四分位距),而不是最小值和最大值。

偏差是指觀察到的得分與所考慮變數的預期值(或者可能是與某個理想值的距離)之間的距離(在這種情況下,我們通常將偏差稱為誤差)。對於連續變數,預期值為平均數

考慮上表的資料。資料中存在四個值:10、11、12、13。平均年齡是11.39歲。要計算一個得分(例如13)相對於平均數的偏差,我們用11.39減去13,得到1.61。我們注意到偏差可以是正距離或負距離。因此,對於一個得分11歲的樣本,我們計算出相對於平均數的偏差為-0.39歲。

對資料集中相對於平均數的平均偏差進行特徵描述將是有用的,但我們會發現,最初處理相對於平均數的平方平均偏差會更容易。

方差是資料集的平均平方偏差。如果我們記得方差是一個平均數,那麼這個定義就很容易理解了。總體方差的公式為

該公式的上半部分是平方和。平方和除以樣本數量就是方差。它是資料集中的一個得分相對於該變數平均值的平均距離。

考慮以下一組值 {1, 2, 3, 4, 5, 6, 7, 8, 9, 10}。這組值的平均數為 5.5:如果我們對偏差求和,結果為零。為了避免嘗試將零除以 *N*,我們對偏差進行平方操作。因此,表格如下所示:

偏差和偏差的平方
偏差 偏差的平方
1 -4.5 20.25
2 -3.5 12.25
3 -2.5 6.25
4 -1.5 2.25
5 -0.5 0.25
6 0.5 0.25
7 1.5 2.25
8 2.5 6.25
9 3.5 12.25
10 4.5 20.25
平方和 82.50

在進行平方運算後,我們得到一個偏差平方和的值,我們可以將它除以 N 來得到方差。由於 N 為 10,方差為 8.25。

對方差的理解

[編輯 | 編輯原始碼]

這個度量,即方差,是我們資料中離散度的非常有用的總結統計量。此外,方差在統計思維中起著核心作用。許多常見的統計技術涉及計算和比較樣本、總體或變數之間的方差。然而,它有一個缺點:假設原始變數代表以米為單位的高度,則方差現在以平方米為單位表示。我們已將線性度量轉換為面積度量,即幾何度量。對偏差進行平方可以避免出現零結果,但最終結果以不同於原始值的單位表示。解決方案在於推匯出標準差。

標準差

[編輯 | 編輯原始碼]

標準差的計算方法很簡單,即方差的平方根。因此公式可以寫成

這個量現在與原始值的單位相同,克服了對解釋方差的限制。

非正式地,我們可能會說,對於隨機分佈的變數,觀測值通常在平均值的正負一個或兩個標準差內,我們將看到我們可以在下面更精確地描述這一點。

偏度告訴您值的分佈在多大程度上圍繞平均值對稱。如果值的分佈圍繞平均值對稱,則偏度為零。正態高斯分佈看起來像這樣

""
在此圖中,平均值標記為 μ,標準差為 σ

值的這種分佈可以用標準差來表示。大約 68% 的值落在平均值正負一個標準差範圍內。大約 96% 的值落在平均值正負兩個標準差範圍內。資料集中一小部分的值超過平均值正負兩個標準差。此外,在正態分佈中,中位數和平均數的值將非常接近,實際上,對於理想的正態分佈,平均數 = 中位數 = 眾數。

分佈可能出現偏斜,向左有長尾 - *負偏度*;或向右有長尾 - *正偏度*。

""
偏度的示例

峰度是指資料的尾部。具有高峰度的分佈具有比正態分佈尾部更極端(更重)的尾部(偶爾出現的極端值)。下圖中的紅線 *D* 顯示了這樣的分佈,但高峰度通常並不對應於這樣尖銳的峰值。具有低峰度的分佈具有比正態分佈尾部更不極端(更輕)的尾部。下圖中的藍線 *W* 是這種分佈的示例,但低峰度通常不會告訴您有關峰值的資訊(beta(.5,10) 是具有無限尖銳峰值的無限尖銳分佈的示例)。正態分佈(黑線,*N*)的峰度為零。

在具有高峰度的資料集中,長尾意味著資料中的大部分可變性是由於該變數相對於平均值的相對不頻繁的極端偏差造成的。在具有低峰度的資料集中,資料中的大部分可變性是由於中等但頻繁的偏差造成的。

以下圖形說明了一些知名分佈的峰度。但是請注意,在這樣的密度圖中,尾部不容易看到:即使分佈具有“肥尾”,尾部仍然接近於零,不易比較。因此,很難從這些圖形中辨別峰度。直觀地觀察尾部相對於正態分佈(即峰度)的更好方法是使用正態分位數-分位數圖。

Examples of kurtosis
峰度的示例
  1. 有時您會看到平均數被用作序數資料的集中趨勢度量,如果您相信在等級量表之下存在相對同構的區間量表,那麼這可以被證明是合理的。
  2. 術語:在本節中,我們將討論嚴格意義上的超峰度。在計算超峰度時,我們進行調整,使正態分佈的峰度為零(而不是 3)。


1 簡介

2 統計度量

3 引數方法和非引數方法

4 描述性統計

5 推斷統計:假設檢驗

6 自由度

7 顯著性

8 關聯性

9 比較組或變數

10 迴歸

華夏公益教科書