統計學/資料展示/直方圖

觀察資料的分佈或特定值在預設的特定大小的區間內出現的頻率通常很有用。這些區間的選擇取決於您,但請記住,它們應該被選擇以闡明您的資料,而不是混淆它。
直方圖類似於條形圖。但是直方圖用於連續資料(而不是離散或定性資料)。直方圖的定義屬性是
- 每個條形的面積與其頻率成正比。
如果每個區間寬度相等,那麼可以透過在縱軸上繪製頻率來輕鬆實現。但是直方圖也可以繪製在區間大小不相等的區域中,在這種情況下,可以繪製頻率密度。
要生成具有相等區間大小的直方圖
- 選擇最小值、最大值和區間大小。這三個都是由您決定的。在上面使用的直方圖資料中,最小值為 1,最大值為 110,區間大小為 10。
- 計算您的區間以及每個區間內有多少個值。對於直方圖資料,區間為
- 1 ≤ x < 10,16 個值。
- 10 ≤ x < 20,4 個值。
- 20 ≤ x < 30,4 個值。
- 30 ≤ x < 40,2 個值。
- 40 ≤ x < 50,2 個值。
- 50 ≤ x < 60,1 個值。
- 60 ≤ x < 70,0 個值。
- 70 ≤ x < 80,0 個值。
- 80 ≤ x < 90,0 個值。
- 90 ≤ x < 100,0 個值。
- 100 ≤ x < 110,0 個值。
- 110 ≤ x < 120,1 個值。
- 繪製您在上面計算出的計數。使用標準的條形圖繪製。
假設您是一位狂熱的桌面遊戲玩家,喜歡玩《機甲戰士》,這是一款基於 D6(六面骰子)的遊戲。您剛買了一個新的六面骰子,想看看它是否偏向(加上您擲骰子時的偏向)。
因此,在我們檢視擲骰子的結果之前,讓我們看看我們預期會得到什麼。首先,如果骰子沒有偏向,這意味著擲出六的機率與擲出 1 的機率完全相同——不會有任何偏向特定的值。使用算術平均值的標準方程發現,μ = 3.5。我們還預計直方圖在整個過程中大致均勻——儘管它幾乎不可能完美,因為我們正在處理隨機因素。
以下是您收集的數字
| 1 | 5 | 6 | 4 | 1 | 3 | 5 | 5 | 6 | 4 | 1 | 5 | 6 | 6 | 4 | 5 | 1 | 4 | 3 | 6 |
| 1 | 3 | 6 | 4 | 2 | 4 | 1 | 6 | 4 | 2 | 2 | 4 | 3 | 4 | 1 | 1 | 6 | 3 | 5 | 5 |
| 4 | 3 | 5 | 3 | 4 | 2 | 2 | 5 | 6 | 5 | 4 | 3 | 5 | 3 | 3 | 1 | 5 | 4 | 4 | 5 |
| 1 | 2 | 5 | 1 | 6 | 5 | 4 | 3 | 2 | 4 | 2 | 1 | 3 | 3 | 3 | 4 | 6 | 1 | 1 | 3 |
| 6 | 6 | 1 | 4 | 6 | 6 | 6 | 5 | 3 | 1 | 5 | 6 | 3 | 4 | 5 | 5 | 5 | 2 | 4 | 4 |
參考我們對無偏骰子的期望,這非常接近我們預期的結果。因此,讓我們建立一個直方圖來檢視分佈中是否存在任何重大差異。
將骰子擲出的結果劃分為區間唯一合乎邏輯的方法是根據骰子面上的點數
| 1 | 2 | 3 | 4 | 5 | 6 |
| 16 | 9 | 17 | 21 | 20 | 17 |
如果我們擅長視覺化資訊,我們可以簡單地使用表格,例如上面的表格,來檢視可能發生了什麼。但是,通常情況下,擁有一個視覺化表示非常有用。隨著我們想要顯示的資料量和多樣性的增加,對圖形而不是簡單表格的需求也隨之增加。
檢視上面的圖形,我們可以清楚地看到,1、3 和 6 面幾乎完全符合我們期望的隨機結果。4 和 5 面略高,但也不算太多,而 2 面卻低很多。這可能是隨機造成的結果,也可能代表資料中的實際異常,需要我們注意並牢記。我們將在後面的章節中再次討論這個問題。
繪製直方圖的另一種方法是計算頻率密度。
- 頻率密度
- 頻率密度是頻率除以組寬。
在直方圖中使用頻率密度的優勢在於,無論是否有明顯的標準寬度可以使用,都不重要。對於所有組,您都會計算所有組的頻率除以組寬。
外部連結
返回統計學。
