統計學入門/關聯
我們使用術語關聯來表示兩個變數不是相互獨立的。因此,我們預計一個變數的值的變化將與另一個變數的變化相關聯。我們不假設兩個變數之間的關係反映因果關係。最後一點已經成為一個老生常談的話題,值得指出的是,雖然相關性不能證明因果關係,但它可能是一個非常強烈的暗示。
從某種意義上說,關聯是最基本和最常見的統計觀察結果之一。在假設檢驗中,我們觀察兩個變數之間的關聯,一個被視為自變數(我們可以自由修改),另一個被視為因變數(我們觀察其值的變化)。
因此,例如,在標量變數的情況下,皮爾遜相關係數是關聯的常用度量,而對於分類資料,我們可以使用皮爾遜卡方檢驗[1]來檢驗關聯,並使用Cramer's V或二元變數的Phi係數[2]來表示其強度。
相關性衡量兩個變數之間關聯的強度。我們將首先考慮兩個標量變數之間的關係,然後是等級變數之間的關係。
皮爾遜的R表示兩個標量變數之間關聯的強度和方向,範圍從-1(表示強烈的負相關關係)到1(表示強烈的正相關關係)。在0處,我們說沒有相關性。皮爾遜的R衡量一個變數對另一個變數的線性依賴性。線性依賴性是指一個變數可以從另一個變數透過w: 線性方程(將在下面的迴歸中稍微詳細地解釋)計算出來的程度。
R的顯著性是零假設R=0為真的機率。該統計量近似於t分佈。
考慮以下嬰兒身高與年齡的測量值
| 年齡(月) | 身高(釐米) |
|---|---|
| 0 | 53.0 |
| 3 | 59.5 |
| 6 | 66.0 |
| 9 | 71.5 |
| 12 | 76.0 |
| 18 | 85.0 |
| 24 | 90.0 |
這些資料可以在此圖中視覺化

我們可以看到,年齡(月)與身高(釐米)之間存在強烈的正相關關係。實際上,對於這些資料,相關係數的值為0.99(四捨五入到小數點後兩位)。
在以下資料中,我們看到隨著小部件數量的增加,每100個小部件的價格下降。這是一種負相關關係,皮爾遜的R值是負數。
| 小部件數量 | 每100個小部件的價格 |
|---|---|
| 1000 | 60 |
| 800 | 70 |
| 600 | 80 |
| 400 | 90 |
| 200 | 100 |
這可以在以下圖形中視覺化

對於這些資料,相關係數的值為-1。
斯皮爾曼相關係數(ρ - 通常發音為英文單詞row - 船而不是爭論)是皮爾遜R的對應係數,用於序數資料。該係數表示兩個序數變數之間關聯的程度。兩個具有正相關關係的變數,在這種情況下,ρ=1,會產生以下圖形
| 上面我們讀到皮爾遜的R衡量x對y的線性依賴性,即線性函式代表關係的程度。斯皮爾曼的ρ可以解釋為單調函式在多大程度上代表x和y之間的關係。對於我們目前的目的,單調函式是指在y軸上永遠不改變方向的函式 - 也就是說,圖形中沒有凸起或凹陷。 |

我們看到,與其是一條直線,不如說它產生了一條曲線,雖然它可能“平穩”,但在y軸上永遠不會反轉其運動方向。-1的分數將在Y軸上產生該圖形的映象。
雖然我們通常認為ρ是皮爾遜R的“替代方法”,但實際上測量的是完全不同的東西。但是,對於我們的目的,由於它確實提供了兩個等級變數之間關聯強度的度量,因此這種表徵是可接受的。
斯皮爾曼的ρ並不是唯一非引數相關性度量,我們還看到了肯德爾的τ,雖然它也指示關聯的強度,但它是透過表達兩個序列(x和y)以相同順序排列的機率來實現的,以對抗它們被不同排列的可能性。
關於相關性的零假設是總體相關係數為0,並且基於樣本資料和軟體計算的相關係數的p值指示你是否應該拒絕零假設。如果置信水平設定為95%,則當p<0.05時拒絕零假設。
我們之前已經看到如何對名義變數進行交叉表並計算頻率。資料看起來像這樣
| 交叉表:眼睛顏色 x 性別 | ||||
| 性別 | ||||
| 女 | 男 | |||
| 眼睛顏色 | 藍色 | 6 | 6 | |
| 棕色 | 12 | 12 | ||
| 綠色 | 7 | 7 | ||
| 灰色 | 4 | 6 | ||
| 其他 | 9 | 7 | ||
| 總數 | 38 | 38 | ||
我們想知道眼睛顏色與性別之間是否存在任何關聯。零假設是兩者之間沒有關聯:每種眼睛顏色在兩種性別中都可能被觀察到。為了檢驗這一點,我們將計算統計量皮爾遜卡方,然後檢查其在正確自由度下的顯著性。當然,我們的統計軟體包將為我們完成所有繁重的工作,我們只需要解釋結果。卡方是如何計算的?
我們首先將預期計數新增到表的單元格中。單元格的預期計數計算如下
| 交叉表:眼睛顏色 x 性別 | |||||||||
| 性別 | |||||||||
| 女 | 男 | ||||||||
| 眼睛顏色 | 藍色 | 6 | 6 | ||||||
| 預期 | 6 | 6 | |||||||
| 棕色 | 12 | 12 | |||||||
| 預期 | 12 | 12 | |||||||
| 綠色 | 7 | 7 | |||||||
| 預期 | 7 | 7 | |||||||
| 灰色 | 4 | 6 | |||||||
| 預期 | 5 | 5 | |||||||
| 其他 | 9 | 7 | |||||||
| 預期 | 8 | 8 | |||||||
| 統計總數 | 38 | 38 | |||||||
| 預期總數 | 38 | 38 | |||||||
這些期望計數代表觀測值落在特定單元格的機率。
現在我們可以問,觀察到的計數與我們的預期相近還是相距甚遠?這是檢驗兩個分類變數之間關聯性的核心問題。
- 計算的統計量是皮爾遜卡方。
- 原假設是這兩個變數之間沒有關聯。
- 自由度計算為(行數 - 1)*(列數 - 1)
您不需要了解計算卡方的公式,應該依賴您的軟體來計算它。但是,為了讓您看到它,這裡就是公式:
請注意,這個統計量再次涉及計算偏差 - 這一次是觀察到的計數和預期計數之間的差異。就像其他情況下一樣,偏差被平方,然後將此數字除以每個單元格的預期計數,並將結果相加。
我們的軟體 (我使用的是 SPSS) 提供了資料,現在我們可以解釋結果。
- 我們將設定 95% 的置信水平 (因此我們要求 p<0.05 來拒絕原假設)。
- 我們的資料得出的 統計量為 0.650,自由度為 (5-1)*(2-1) = 4。
- p 的值為 0.957,p>0.05。
根據這些資料,我們不能拒絕原假設,因此得出結論,這兩個變數沒有關聯,而是相互獨立的。