統計學基礎/比較組別或變數
這些檢驗回答了以下問題
- 這些組別在該現象方面是否相似?
- 這些現象在該組別中是否相似?
示例將有助於闡明。
讓我們以第一個例子為例,我們可以問男性學生的平均身高是否與女性學生的平均身高相同? 在這種情況下,我們有兩個獨立的受試者組別和一個標量變數,我們將比較它們的平均得分。
對於第二個例子,假設我們測試所有學生的算術基本技能;然後我們給每個學生服用一次魚油劑,一天後我們再次測試他們的算術基本技能。我們想回答這個問題魚油劑是否能提高算術基本技能測試的表現? 在這種情況下,我們有一個組別,但有兩個變數 - 一個治療前變數和一個治療後變數。這兩個變數都是標量,我們將比較它們的平均得分。這有時被稱為重複測量設計。該第二個例子的另一個例子可能涉及詢問,學習兩種語言的學生在法語考試中的表現是否與他們在西班牙語考試中的表現一樣好。我們將比較所有法語考試得分和所有西班牙語考試得分。
這兩種情況下,兩個平均值可能永遠不會完全相同,因此我們想知道它們不是不同,而是統計上不同,或者等效地顯著不同。因此,我們將分別計算一個檢驗統計量,確定自由度,並評估結果的顯著性。
請注意,在我的第一個例子中,我詢問了兩個組別的平均身高是否相同。如果例如男性學生的平均身高高於女性學生,或者低於女性學生,則該問題將得到否定回答。這是一個雙側檢驗。
在第二個例子中,我詢問了魚油劑是否提高了學生的表現。如果治療後的表現低於或等於治療前的表現,則該問題將得到否定回答。這是一個單側檢驗。
獨立樣本t檢驗用於比較來自兩個不同總體的樣本。假設這兩個樣本之間沒有關係。不需要對兩個組別進行隨機化,因此,如果我們收集了一組學生的資料,然後按性別分組進行比較,這滿足了屬於獨立組別的標準。
對於獨立組別,檢驗會因組別的方差而變得複雜,在計算統計量之前,我們應該確定方差是否(大致)相等,或者是不相等。這可以透過計算Levene′s F來完成。原假設是方差相等。如果Levene′s F顯著,則方差不相等。根據你使用的軟體包,你需要在進行t檢驗之前執行方差檢驗,或者它會自動提供,你需要根據Levene檢驗的結果來解釋你得到的結果。
該檢驗的原假設是兩個組別的平均得分之間沒有差異。如果置信度設定為95%,你使用p<0.05來拒絕該假設,並接受兩個組別的平均得分不同的備擇假設。t檢驗的自由度由N-2給出。
配對樣本t檢驗用於比較相同受試者在兩個不同變數上的得分。這兩個變數可能代表兩個截然不同的得分,例如兩種不同語言的熟練程度,或者在不同時間或不同條件下對一個得分的評分,例如運動前後靜息心率。
配對樣本t檢驗在實踐中類似於獨立樣本檢驗,不同之處在於,它不需要進行方差齊性檢驗。例如,SPSS只返回一個t值及其顯著性。和以前一樣,原假設是這兩個變數的平均值之間沒有差異,備擇假設是有差異。如果置信度設定為95%,我們使用p<0.05來拒絕原假設。
考慮以下關於一個30名學生的班級收集的資料:15名男生和15名女生。我們記錄了他們的性別,女孩編碼為1,男孩編碼為2,以及他們在數學考試中的得分。我們可以問,根據這些資料,女生和男生在考試中的得分是否真的不同。獨立樣本t檢驗將比較兩個組別的平均得分,並告訴我們它們是否顯著不同。
| 女生 | 44 | 45 | 48 | 50 | 51 | 52 | 53 | 53 | 57 | 58 | 59 | 60 | 62 | 63 | 64 |
| 男生 | 39 | 42 | 47 | 50 | 52 | 52 | 54 | 55 | 55 | 56 | 56 | 56 | 58 | 60 | 62 |
我們將單獨的男生的平均值稱為μ-boys,單獨的女生的平均值稱為μ-girls。以下是兩個組別的平均值,以及標準差作為方差相似性的指標。
| 性別 | N | 平均值 | 標準差 |
|---|---|---|---|
| 女生 | 15 | 54.60 | 6.401 |
| 男生 | 15 | 52.93 | 6.296 |
零假設是 μ-boys=μ-girls。我們將計算 F 統計量來檢查方差的同質性,然後計算 t 統計量。我們將置信水平設定為 95%,因此如果p<0.05,我們將拒絕零假設。
- F=0.291 (p=0.594) - 由於這並不顯著,我們假設方差相等
- t = 0.719 (df = 28, p=0.478)
由於 t 統計量不顯著,我們無法拒絕零假設,並接受 μ-boys=μ-girls。
t 統計量只能用於兩個組或兩個變數。我們通常對兩個以上組或兩個以上變數水平感興趣。例如,我們想知道數學成績是否會隨著眼睛顏色的變化而有規律地變化。我們可以將藍眼睛者的平均數學成績稱為 μ-blue,棕色眼睛者的平均數學成績稱為 μ-brown,其餘的稱為 μ-other。因此,零假設是這些平均值之間沒有差異,即 μ-blue=μ-brown=μ-other。
我們用方差分析或 ANOVA 來檢驗這一點。
ANOVA 試圖透過觀察方差來確定我們觀察到的組的平均得分是否來自同一總體。具體來說,我們計算(或者更確切地說,我們的軟體會計算!)每個組的平方和以及整個資料集的平方和。透過檢查組內方差與組間方差的比率,我們可以確定它們是否實際上都來自同一總體。如果它們來自同一總體,那麼我們預計組間方差將小於組內方差,反之,如果它們來自三個不同的總體,那麼組內方差應該小於組間方差。
為了回答我們提出的問題,我們正在考慮一個單因素 ANOVA。產生的統計量是 F,自由度計算為 組數 - 1。ANOVA 只有在各組方差或多或少相等的情況下才能依賴,因此我們應該首先用 Levene 檢驗來檢查這一點(就像我們在進行獨立樣本 t 檢驗時一樣)。
ANOVA 的一個變體是重複測量比較。在這個檢驗中,我們觀察一組受試者在多次重複處理後每個處理後的得分。對於重複測量設計,除了 ANOVA 的通常假設之外,還有球形的假設。
我們用一些化學處理方法處理不同菌株的細胞,並在等待一段時間後測量細胞生長,看看所有菌株的生長是否相同。
一個 30 名學生的班級被分成三個班級,每個班級 10 名學生。這些班級用數字 1、2 或 3 來標識。每個班級的老師對同一內容採用不同的教學策略,在學年結束時,學生參加了考試。我們想知道學生的考試成績是否會受到他們所在班級的影響。考試成績被用於單因素 ANOVA,置信水平為 95%。
Levene 檢驗給出了以下結果
F = 0.8581,(p=0.4352)
因此我們不能拒絕方差同質性檢驗的零假設,並接受三個班級考試成績的方差相等。
平均值是
| 班級 | 班級 1 | 班級 2 | 班級 3 |
|---|---|---|---|
| 平均值 | 51.10 | 53.70 | 56.50 |
ANOVA 結果是
F = 1.962 (df=2, p=0.16)
由於 F 統計量不顯著,我們接受零假設,即數學考試成績在各班級之間沒有差異。
我們測試了一組學生的智商,並給學生服用魚油。在六個月內每月重複進行處理,每次處理時劑量都會增加。在每次服用魚油治療後,我們再次測試他們的智商,看看不同的治療水平是否會產生明顯不同的效果。(這個實驗設計可能非常有缺陷,但它提供了一個重複測量策略的簡單示例)。我們正在比較每個治療水平的平均得分,零假設是 μlevel1=μlevel2=μleveln。
讓我們考慮一個例子,其中感興趣的變數不是標量變數,而是序數或等級變數。我們可以想象我們正在比較澳大利亞和美國在國際游泳比賽中的結果(奇怪的是,沒有其他國家參與)。
我們能說他們的排名或多或少相似,或者一方傾向於排名更高嗎?
或者,我們可以考慮一群游泳運動員,並問:他們在自由泳和蝶泳比賽中的排名是否相同?
在每種情況下,請注意我們正在比較排名。一種可能的解釋是我們正在檢驗中心位置的相等性(例如,中位數)。
Mann-Whiteney U 檢驗比較兩個獨立的等級觀察組,並確定一個組是否大於另一個組。零假設是兩組的排名分佈相等,具體來說,如果我從第一組中選擇一個觀察值,稱為觀察值 a,然後從第二組中選擇一個觀察值,稱為 b,那麼檢驗比較的是 a>b 的機率與 b>a 的機率。備擇假設或實驗假設是 a=b 的機率小於 0.5,因此 a>b 的機率大於 0.5,或者 a<b 的機率大於 0.5。備擇假設有單尾和雙尾兩種形式。
檢驗統計量是 U。