跳轉到內容

統計學基礎/統計量度

來自華夏公益教科書,開放的書籍,開放的世界

統計量度

[編輯 | 編輯原始碼]

統計資料被分配到四個測量級別之一:名義、順序、區間比率。這是一種簡短的說法,表明資料可以在數學上以不同的方式處理。下面我簡要概述了這些級別,並提供了診斷以及每個級別的常用程式的指示。

在決定如何分析資料之前,需要確定資料的測量級別。一旦知道資料屬於哪個測量級別,就可以大大減少可用的假設檢驗程式的數量 - 因此,關於如何處理資料的決定變得更加簡單。選擇合適的統計檢驗的第一步是確定檢驗變數的正確統計量度。

我在這裡強調中心趨勢的指標,因為它經常是檢驗的目標。當有人想要“比較兩個群體”時,他們通常意味著他們想要比較一個群體的典型測量值與另一個群體的典型測量值,而一個常見的典型測量值是中心趨勢,例如平均分數。對於每個資料級別,平均的含義都是不同的。

如果用來記錄觀察值的數字實際上代表名稱,我們就稱這些資料為名義資料。例如,考慮對問題“你吸菸嗎?”的回答。對這個問題的回答可能是0,表示,或者1,表示。資料是名義的,但用數字編碼。再舉一個例子,考慮眼睛顏色。我們可以決定根據以下方案對樣本中每個人的眼睛顏色進行分類

眼睛顏色 數字程式碼
棕色 1
藍色 2
綠色 3
灰色 4
其他 5

類別和數字的配對是任意的。這裡的數字代表顏色的名稱。

常用分析技術

[編輯 | 編輯原始碼]

因為這些資料是名義的,所以只允許一個數學程式:計數。我們可以計算每個數字出現的次數並記錄總數。這些被稱為頻率。在分析多個名義變數時,最常見的做法是交叉製表,以調查變數之間的關聯 - 例如,我們可以確定眼睛顏色是否與性別相關聯或獨立。對於二維表,可以使用皮爾森卡方檢驗來檢驗假設,而對於大於二維的表,可以使用似然比卡方檢驗。

典型的指示
[編輯 | 編輯原始碼]

在名義資料的情況下,收集資料的中心點的度量是眾數

如果我們可以對資料項進行排名,那麼我們就有順序資料。因此,如果在比賽中我們將第一名分配給數字 1,第一名亞軍分配給數字 2,第二名亞軍分配給數字 3,那麼這些數字代表順序資料。我們可以像順序資料一樣計數和總計以獲得每個數字的頻率,但我們也可以有意義地對結果進行排序。順序資料的間隔沒有規律。看看李克特量表。

強烈同意 同意 既不同意也不反對 不同意 強烈不同意
1 2 3 4 5

我們可以按照數字程式碼建議的順序排列響應,但我們不假設從12的距離與從45的距離相同。

常用分析技術

[編輯 | 編輯原始碼]

順序資料可以進行交叉製表,並且可以使用非引數相關性度量(如斯皮爾曼秩相關係數或肯德爾等級相關係數)來檢驗關聯強度。順序資料也可以進行交叉製表,並且可以使用卡方檢驗來確定順序變數之間是否存在關聯,但這當然會忽略變數中的排名資訊,將其視為純粹的分類資料。

如果我們有一個分組受試者或案例的分類變數,那麼我們可以比較不同組的排名。對於兩個組,我們可以使用曼-惠特尼 U 檢驗,對於兩個以上組,我們可以使用克魯斯卡爾-沃利斯檢驗。同樣,我們可以使用威爾科克森檢驗對一個組的兩個變數進行檢驗。

標量變數

[編輯 | 編輯原始碼]

因為對於許多統計目的(以及被認為不常見的例外情況),比率區間資料通常被視為一樣,所以兩者通常被稱為標量。最主要的例外是變異係數,它只應該用於比率資料。有時會使用連續一詞來包含區間和比率資料。嚴格地說,連續變數是指在其實際範圍內任何值都可能的變數。為了增加術語上的混亂,有時使用數字變數來表示取數字值的變數,包括順序資料,這等同於使用標量變數。

區間資料位於一條編號線上,其中每個點之間的距離是有意義的且規律的:如果 20 和 30 之間有十個點差,那麼 40 和 50 之間也有相同的距離。區間尺度上的零點是任意的。一個簡單的例子是攝氏溫度尺度。在這個尺度上,零被任意定義為水的冰點,100 為水的沸點。這些之間的間隔由校準確定(例如,在汞柱上繪製等距的標記)。你可以有一個低於零的讀數。

在比率資料的情況下,測量尺度具有規律的間隔;有一個真正的零點;尺度上的值可以表示為兩個其他值的比率。考慮以米為單位的高度:十米和二十米之間的距離與四十米和五十米之間的距離相同;零表示沒有高度;如果有人身高兩米,那麼他們的身高是身高一米的人的兩倍。

常用分析技術

[編輯 | 編輯原始碼]

對於標量變數,常見的描述性統計量都是可計算的,例如集中趨勢的度量(平均值、中位數和眾數)、離散程度的度量(方差、標準差、極差、四分位數)、形狀的度量(偏度和峰度)。標量變數之間的關聯可以透過相關性(皮爾遜相關係數)來確定,如果它們滿足特定條件,則可以透過迴歸分析進一步研究。常用的假設檢驗,如學生t檢驗(用於兩個標量變數或兩組樣本)或方差分析(用於超過兩組樣本或變數),用於確定平均值是否相等或不相等。迴歸分析通常用於透過數學方程來模擬兩個或多個標量變數之間的關係。


1 簡介

2 統計量

3 引數方法和非引數方法

4 描述性統計

5 推論統計:假設檢驗

6 自由度

7 顯著性

8 關聯

9 比較組或變數

10 迴歸

華夏公益教科書