統計/摘要/四分位數
資料集的四分位數是由中位數兩側的兩個邊界形成的,它們將資料集分成四個相等的部分。最低的 25% 的資料位於第一個四分位數值以下,也稱為下四分位數 (Q1)。中位數或第二個四分位數將資料集分成兩個相等的部分。最低的 75% 的資料集應該位於第三個四分位數以下,也稱為上四分位數 (Q3)。這三個數字是資料離散程度的度量,而平均數、中位數和眾數是集中趨勢的度量。
給定集合 {1, 3, 5, 8, 9, 12, 24, 25, 28, 30, 41, 50},我們將找到第一個和第三個四分位數如下
該集合中有 12 個元素,所以 12/4 給我們集合的每個四分之一有三個元素。
因此第一個或最低的四分位數是:5,第二個四分位數是中位數12,第三個或最高的四分位數是28。
但是,有些人當遇到具有偶數元素(值)的集合時,仍然想要真正的中位數(或中間值),在中位數的兩側有相同數量的資料值(而不是 12,它有 5 個值小於它,6 個值大於它)。然後,該值是 12 和 24 的平均值,得出 18 作為真正中位數(它更接近平均值 19 2/3)。然後將相同的過程應用於較低的和較高的四分位數,得到6.5、18 和29。這隻有在資料包含偶數個元素且有偶數個相等分割的部分,或者奇數個元素且有奇數個相等分割的部分時才是一個問題。
四分位間距是一個統計量,它提供有關資料集的擴充套件資訊,並透過從第三個四分位數中減去第一個四分位數來計算,從而得到資料集中間一半的範圍,修剪掉最低和最高的四分位數。由於 IQR 完全不受資料中異常值的影響,因此它是比範圍更穩健的離散程度度量。
IQR = Q3 - Q1
另一個有用的分位數是五分位數,它將資料分成五個相等的部分。五分位數的優點是它有一箇中心部分,它在中位數的兩側都有邊界,可以用作平均組。在正態分佈中,五分位數的邊界在均值(或中位數)的兩側有±0.253*s 和±0.842*s 的邊界,其中 s 是樣本標準差。請注意,在正態分佈中,均值、中位數和眾數重合。
其他常用的分位數是十分位數(10 個相等的部分)和百分位數(100 個相等的部分)