假設你觀察到絕對頻率
和在零假設下預期的絕對頻率
,那麼
可能表示從
開始的簡單索引,甚至可能是從
到
的多重索引。
檢驗統計量
近似地服從
分佈,如果
- 對於所有預期的絕對頻率
滿足
,並且
- 對於至少 80% 的預期的絕對頻率
滿足
。
注意:在不同的書籍中,你可能會發現不同的近似條件,請隨時新增更多條件。
自由度可以透過可以自由選擇的絕對觀測頻率的數量來計算。我們知道絕對預期頻率之和為
這意味著自由度的最大數量是
. 我們可能需要從自由度中減去從樣本中估計所需的引數數量,因為這意味著觀察頻率之間存在進一步的關係。
根據 Boero, Smith 和 Wallis (2002) 的說法,我們需要了解多元統計才能理解推導過程。
描述樣本中絕對觀測頻率
的隨機變數
服從多項分佈
,其中
是樣本中的觀測數量,
是未知的真實機率。在某些近似條件下(中心極限定理),可以得到以下結果:
其中
是多元
維正態分佈,
,以及
.
協方差矩陣
的秩僅為
,因為
.
如果我們考慮廣義逆
,那麼可以得到以下結果:
分佈(證明見 Pringle 和 Rayner,1971)。
由於多項分佈近似於多元正態分佈,該項為
分佈。如果觀察到的機率之間存在進一步的關係,那麼
的秩將進一步降低。
一個常見的情況是,預期機率所依賴的引數需要從觀察到的資料中估計出來。如上所述,通常規定卡方分佈的自由度為
,其中
是估計引數的數量。如果使用最大似然法進行引數估計,則只有當估計量是有效的時,這才是正確的 (Chernoff 和 Lehmann, 1954)。一般情況下,自由度介於
和
之間。
最著名的例子將在後面的部分詳細介紹:
獨立性檢驗、
均勻性檢驗和
分佈檢驗。
檢驗可用於生成 "快速且粗略" 的檢驗,例如:
隨機變數
是對稱分佈的,與
隨機變數
不是對稱分佈的。
我們知道,在對稱分佈的情況下,算術平均值
和中位數應該幾乎相同。因此,測試這個假設的一個簡單方法是統計有多少觀測值小於平均值 (
),以及有多少觀測值大於算術平均值 (
)。如果平均值和中位數相同,那麼 50% 的觀測值應該小於平均值,而 50% 的觀測值應該大於平均值。它成立
.
- Boero, G., Smith, J., Wallis, K.F. (2002). 一些擬合優度檢驗的性質, 沃裡克大學,經濟學系,沃裡克經濟學研究論文系列 653, http://www2.warwick.ac.uk/fac/soc/economics/research/papers/twerp653.pdf
- Chernoff H, Lehmann E.L. (1952). 在
擬合優度檢驗中使用最大似然估計. 數學統計年鑑; 25:576-586.
- Pringle, R.M., Rayner, A.A. (1971). 廣義逆矩陣及其在統計學中的應用. 倫敦: 查爾斯·格里芬.
- 維基百科,皮爾遜卡方檢驗: http://en.wikipedia.org/wiki/Pearson%27s_chi-square_test