跳轉到內容

描述性統計手冊/引言

來自華夏公益教科書,開放的世界,開放的書籍

分佈是單個現象的一組測量值。如果響應數量很少,只需列出它們就足以描述。在這種情況下,不需要進行任何彙總或資料縮減。但是,如果測量值數量很多,完整列表可能無法作為通訊或分析工具。

值得慶幸的是,分佈可以被彙總。一些彙總非常簡短,只提供少量描述。例如,平均值是一個單一數字彙總,它只捕獲一組數字的一個方面。在彙總時,可能需要考慮分佈的六個方面。

樣本量

[編輯 | 編輯原始碼]

被測物件的數量或專案的數量通常是最基本的需求。例如,我們可能正在研究大學生身高的分佈,其中包含 1,234 個物件的測量值。

量表和精度

[編輯 | 編輯原始碼]

你正在處理的資料型別(連續、分類、順序等)會影響你對如何描述和分析資料的許多選擇。測量單位(英寸、公斤、%、毫摩爾、每英畝玉米的德拉克馬等)應予以注意。對於我們的示例,資料以英寸為單位記錄,精確到 0.1 英寸。換句話說,測量值在記錄之前四捨五入到最接近的十分之一英寸。對於分類資料,“量表”只是類別的名稱。如果我們還記錄了學生的性別,我們可能會有三個類別:“男性”、“女性”和“未知”。

集中趨勢

[編輯 | 編輯原始碼]

在量表上,資料大約位於哪裡?理論上,成年人身高在無窮大範圍內測量。但是,我們將觀察到的多數測量值都集中在 68 英寸(5 英尺 8 英寸)左右。描述集中趨勢的方法有很多種。對於連續資料,通常會計算平均值(或平均值)。但平均值有侷限性,其他集中趨勢度量也很有用:中位數、幾何平均值、眾數等。

離散程度

[編輯 | 編輯原始碼]

集中趨勢告訴你資料傾向於在哪裡,但並非所有資料都具有相同的值。通常,一些資料會更高,一些資料會更低。大學生的身高在約 4 英尺(48 英寸)到約 7 英尺(84 英寸)之間。資料的離散程度可以用多種方式彙總:範圍、方差、標準差、四分位間距等。

形狀是分佈中最豐富的一個方面,通常也是最難彙總的一個方面。對於許多測量值,大部分資料出現在中間,並且在更高和更低的值處觀察到的值數量會逐漸減少。經典的正態分佈就是這樣一種分佈:它呈“鐘形”。如果資料範圍內的所有值都以大約相同的頻率出現,那麼形狀被稱為“均勻”或“矩形”。如果所有資料都傾向於出現在範圍的一端,而在另一端觀察到的案例數量不斷減少,則這種分佈被稱為“偏斜”。

有一些數值方法可以用來描述分佈的形狀。例如,可以計算並報告偏斜程度。但是,通常描述形狀的最佳方法是繪製資料的圖形,例如直方圖。

異常值

[編輯 | 編輯原始碼]

通常,少量觀察值具有明顯高於或低於大部分資料的數值。這些異常值有時會令人不安或困惑,但它們可能非常重要。彙總異常值的最佳方法通常只是分別記錄它們或在圖形描述中突出顯示它們。

華夏公益教科書