跳轉到內容

統計/測試資料/卡方檢驗

來自華夏公益教科書,開放書籍,開放世界

總體思路

[編輯 | 編輯原始碼]

假設你觀察到絕對頻率 和在零假設下預期的絕對頻率 ,那麼

可能表示從 開始的簡單索引,甚至可能是從 的多重索引。

檢驗統計量 近似地服從 分佈,如果

  1. 對於所有預期的絕對頻率 滿足 ,並且
  2. 對於至少 80% 的預期的絕對頻率 滿足

注意:在不同的書籍中,你可能會發現不同的近似條件,請隨時新增更多條件。

自由度可以透過可以自由選擇的絕對觀測頻率的數量來計算。我們知道絕對預期頻率之和為

這意味著自由度的最大數量是. 我們可能需要從自由度中減去從樣本中估計所需的引數數量,因為這意味著觀察頻率之間存在進一步的關係。

檢驗統計量的分佈推導

[編輯 | 編輯原始碼]

根據 Boero, Smith 和 Wallis (2002) 的說法,我們需要了解多元統計才能理解推導過程。

描述樣本中絕對觀測頻率 的隨機變數 服從多項分佈,其中 是樣本中的觀測數量, 是未知的真實機率。在某些近似條件下(中心極限定理),可以得到以下結果:

其中 是多元 維正態分佈,,以及

.

協方差矩陣 的秩僅為 ,因為 .

如果我們考慮廣義逆,那麼可以得到以下結果:

分佈(證明見 Pringle 和 Rayner,1971)。

由於多項分佈近似於多元正態分佈,該項為

分佈。如果觀察到的機率之間存在進一步的關係,那麼 的秩將進一步降低。

一個常見的情況是,預期機率所依賴的引數需要從觀察到的資料中估計出來。如上所述,通常規定卡方分佈的自由度為 ,其中 是估計引數的數量。如果使用最大似然法進行引數估計,則只有當估計量是有效的時,這才是正確的 (Chernoff 和 Lehmann, 1954)。一般情況下,自由度介於 之間。

示例

[edit | edit source]

最著名的例子將在後面的部分詳細介紹: 獨立性檢驗、 均勻性檢驗和 分佈檢驗。

檢驗可用於生成 "快速且粗略" 的檢驗,例如:

隨機變數 是對稱分佈的,與

隨機變數 不是對稱分佈的。

我們知道,在對稱分佈的情況下,算術平均值 和中位數應該幾乎相同。因此,測試這個假設的一個簡單方法是統計有多少觀測值小於平均值 (),以及有多少觀測值大於算術平均值 ()。如果平均值和中位數相同,那麼 50% 的觀測值應該小於平均值,而 50% 的觀測值應該大於平均值。它成立

.

參考資料

[編輯 | 編輯原始碼]
華夏公益教科書