跳轉到內容

統計/測試資料/t 檢驗

來自華夏公益教科書,開放的書籍,開放的世界

注意:以下文字中的一些陳述存在爭議。對於小樣本量非引數檢驗,例如 Mann-Whitney U 檢驗或 Wilcoxon 秩和檢驗,可能更傾向於使用它們,而不是 t 檢驗。


t 檢驗是用於計算小樣本均值顯著性的最強大的引數檢驗。

單樣本 t 檢驗具有以下零假設

其中希臘字母 (mu) 代表總體均值,c 代表其假定的(假設的)值。在統計學中,通常使用希臘字母表示總體引數,使用羅馬字母表示樣本統計量。t 檢驗是適合大樣本的 z 檢驗的小樣本模擬。小樣本通常被認為是樣本量 n<30 的樣本。

t 檢驗對於小樣本是必要的,因為它們的分佈不是正態分佈。如果樣本量很大(n>=30),則統計理論表明樣本均值呈正態分佈,可以使用單均值 z 檢驗。這是著名的統計定理——中心極限定理的結果。

然而,t 檢驗仍然可以應用於更大的樣本,並且隨著樣本量 n 越來越大,t 檢驗和 z 檢驗的結果越來越接近。在極限情況下,當自由度無限時,t 檢驗和 z 檢驗的結果變得相同。

為了執行 t 檢驗,首先需要計算“自由度”。該數量考慮了樣本量和正在估計的引數數量。在這裡,總體引數 mu 正在被樣本統計量 x-bar(樣本資料的均值)估計。對於 t 檢驗,單均值的自由度為 n-1。這是因為只有一個總體引數(總體均值)被樣本統計量(樣本均值)估計。

degrees of freedom (df)=n-1

例如,對於樣本量 n=15,df=14。

一位大學教授想將她的學生成績與全國平均水平進行比較。她從 20 名學生中隨機抽取一個簡單隨機樣本 (SRS),這些學生在一個標準化考試中的平均成績為 50.2。他們的成績標準差為 2.5。該考試的全國平均成績為 60。她想知道她的學生的成績是否 **明顯** 低於全國平均水平。

顯著性檢驗遵循幾個步驟的程式。

首先,用分佈來描述問題,並識別感興趣的引數。提及樣本。我們將假設教授班級中學生的成績 (X) 近似呈正態分佈,未知引數為 μ 和 σ

用符號和文字陳述假設。

零假設是她的學生的成績與全國平均水平相當。

備擇假設是她的學生的成績低於全國平均水平。

其次,確定要使用的檢驗。由於我們有一個小樣本的 SRS,並且不知道總體的標準差,我們將使用單樣本 t 檢驗。

單樣本檢驗的 t 統計量 T 的公式如下

其中 是樣本均值,S 是樣本標準差。

一個很常見的錯誤是說 t 檢驗統計量的公式是

這不是一個統計量,因為 μ 是未知的,這在這樣的問題中至關重要。大多數人甚至沒有注意到這一點。這個公式的另一個問題是使用了 x 和 s。它們應該被認為是樣本統計量,而不是它們的值。

正確的通用公式是

其中,c 是原假設指定的 μ 的假設值。

(樣本標準差除以樣本大小的平方根稱為樣本的“標準誤”)。

步驟 4

[edit | edit source]

說明在原假設下檢驗統計量的分佈。在 H0 下,統計量 T 將服從自由度為 19 的學生 t 分佈:.

步驟 5

[edit | edit source]

透過輸入以下值來計算檢驗統計量 T 的觀察值 t

步驟 6

[edit | edit source]

確定檢驗統計量 T 的值 t 的所謂 p 值。我們將拒絕原假設,因為 T 的值太小,因此我們計算左尾 p 值

p 值

學生 t 分佈在機率為 0.95 和自由度為 19 時給出 。p 值約為 1.777e-13。

步驟 7

[edit | edit source]

最後,解釋結果在問題中的意義。p 值表明結果幾乎肯定不是偶然發生的,我們有足夠的證據來 **拒絕原假設**。教授的學生得分確實顯著低於全國平均水平。

另見

[edit | edit source]
華夏公益教科書