跳轉到內容

統計學入門/關聯

來自華夏公益教科書,開放的書籍,開放的世界

我們使用術語關聯來表示兩個變數不是相互獨立的。因此,我們預計一個變數的值的變化將與另一個變數的變化相關聯。我們不假設兩個變數之間的關係反映因果關係。最後一點已經成為一個老生常談的話題,值得指出的是,雖然相關性不能證明因果關係,但它可能是一個非常強烈的暗示。

從某種意義上說,關聯是最基本和最常見的統計觀察結果之一。在假設檢驗中,我們觀察兩個變數之間的關聯,一個被視為自變數(我們可以自由修改),另一個被視為因變數(我們觀察其值的變化)。

因此,例如,在標量變數的情況下,皮爾遜相關係數是關聯的常用度量,而對於分類資料,我們可以使用皮爾遜卡方檢驗[1]來檢驗關聯,並使用Cramer's V或二元變數的Phi係數[2]來表示其強度。

相關性

[編輯 | 編輯原始碼]

相關性衡量兩個變數之間關聯的強度。我們將首先考慮兩個標量變數之間的關係,然後是等級變數之間的關係。

皮爾遜相關係數

[編輯 | 編輯原始碼]

皮爾遜的R表示兩個標量變數之間關聯的強度和方向,範圍從-1(表示強烈的負相關關係)到1(表示強烈的正相關關係)。在0處,我們說沒有相關性。皮爾遜的R衡量一個變數對另一個變數的線性依賴性。線性依賴性是指一個變數可以從另一個變數透過w: 線性方程(將在下面的迴歸中稍微詳細地解釋)計算出來的程度。

R顯著性是零假設R=0為真的機率。該統計量近似於t分佈。

考慮以下嬰兒身高與年齡的測量值

年齡(月) 身高(釐米)
0 53.0
3 59.5
6 66.0
9 71.5
12 76.0
18 85.0
24 90.0

這些資料可以在此圖中視覺化

Add caption here
在此新增標題

我們可以看到,年齡(月)與身高(釐米)之間存在強烈的正相關關係。實際上,對於這些資料,相關係數的值為0.99(四捨五入到小數點後兩位)。

負相關
[編輯 | 編輯原始碼]

在以下資料中,我們看到隨著小部件數量的增加,每100個小部件的價格下降。這是一種負相關關係,皮爾遜的R值是負數。

小部件數量 每100個小部件的價格
1000 60
800 70
600 80
400 90
200 100

這可以在以下圖形中視覺化

Add caption here
在此新增標題

對於這些資料,相關係數的值為-1。

斯皮爾曼相關係數(等級資料)

[編輯 | 編輯原始碼]

斯皮爾曼相關係數(ρ - 通常發音為英文單詞row - 船而不是爭論)是皮爾遜R的對應係數,用於序數資料。該係數表示兩個序數變數之間關聯的程度。兩個具有正相關關係的變數,在這種情況下,ρ=1,會產生以下圖形

單調函式
上面我們讀到皮爾遜的R衡量xy的線性依賴性,即線性函式代表關係的程度。斯皮爾曼的ρ可以解釋為單調函式在多大程度上代表xy之間的關係。對於我們目前的目的,單調函式是指在y軸上永遠不改變方向的函式 - 也就是說,圖形中沒有凸起或凹陷。
X and Y have a Spearman correlation coefficient of 1 in this graph
X和Y在此圖中具有1的斯皮爾曼相關係數

我們看到,與其是一條直線,不如說它產生了一條曲線,雖然它可能“平穩”,但在y軸上永遠不會反轉其運動方向。-1的分數將在Y軸上產生該圖形的映象。

雖然我們通常認為ρ是皮爾遜R的“替代方法”,但實際上測量的是完全不同的東西。但是,對於我們的目的,由於它確實提供了兩個等級變數之間關聯強度的度量,因此這種表徵是可接受的。

斯皮爾曼的ρ並不是唯一非引數相關性度量,我們還看到了肯德爾的τ,雖然它也指示關聯的強度,但它是透過表達兩個序列(xy)以相同順序排列的機率來實現的,以對抗它們被不同排列的可能性。

對相關係數的推斷

[編輯 | 編輯原始碼]

關於相關性的零假設是總體相關係數為0,並且基於樣本資料和軟體計算的相關係數的p值指示你是否應該拒絕零假設。如果置信水平設定為95%,則當p<0.05時拒絕零假設。

卡方檢驗:重新審視交叉表

[編輯 | 編輯原始碼]

我們之前已經看到如何對名義變數進行交叉表並計算頻率。資料看起來像這樣

交叉表:眼睛顏色 x 性別
性別
眼睛顏色 藍色 6 6
棕色 12 12
綠色 7 7
灰色 4 6
其他 9 7
總數 38 38

我們想知道眼睛顏色性別之間是否存在任何關聯零假設是兩者之間沒有關聯:每種眼睛顏色在兩種性別中都可能被觀察到。為了檢驗這一點,我們將計算統計量皮爾遜卡方,然後檢查其在正確自由度下的顯著性。當然,我們的統計軟體包將為我們完成所有繁重的工作,我們只需要解釋結果。卡方是如何計算的?

我們首先將預期計數新增到表的單元格中。單元格的預期計數計算如下

交叉表:眼睛顏色 x 性別
性別
眼睛顏色 藍色 6 6
預期 6 6
棕色 12 12
預期 12 12
綠色 7 7
預期 7 7
灰色 4 6
預期 5 5
其他 9 7
預期 8 8
統計總數 38 38
預期總數 38 38

這些期望計數代表觀測值落在特定單元格的機率。

現在我們可以問,觀察到的計數與我們的預期相近還是相距甚遠?這是檢驗兩個分類變數之間關聯性的核心問題。

  • 計算的統計量是皮爾遜卡方。
  • 原假設是這兩個變數之間沒有關聯。
  • 自由度計算為(行數 - 1)*(列數 - 1)

您不需要了解計算卡方的公式,應該依賴您的軟體來計算它。但是,為了讓您看到它,這裡就是公式:

請注意,這個統計量再次涉及計算偏差 - 這一次是觀察到的計數和預期計數之間的差異。就像其他情況下一樣,偏差被平方,然後將此數字除以每個單元格的預期計數,並將結果相加。

我們的軟體 (我使用的是 SPSS) 提供了資料,現在我們可以解釋結果。

  • 我們將設定 95% 的置信水平 (因此我們要求 p<0.05 來拒絕原假設)。
  • 我們的資料得出的 統計量為 0.650,自由度為 (5-1)*(2-1) = 4。
  • p 的值為 0.957p>0.05

根據這些資料,我們不能拒絕原假設,因此得出結論,這兩個變數沒有關聯,而是相互獨立的。

1 簡介

2 統計測量

3 引數方法和非引數方法

4 描述性統計

5 推論統計:假設檢驗

6 自由度

7 顯著性

8 關聯性

9 比較組或變數

10 迴歸

  1. 這裡我忽略了從卡方統計量推匯出的皮爾遜列聯絡數。
  2. Cramer's V 適用於序數資料和名義資料。


華夏公益教科書