統計/摘要/方差

在描述資料時,確定分佈的擴充套件是有幫助的(在某些情況下是必要的)。測量這種擴充套件的一種方法是計算資料的方差或標準差。
在描述一個完整的總體時,資料代表了總體的所有元素。作為總體“擴充套件”的度量,人們想知道資料與總體平均值之間可能距離的度量。有幾種方法可以做到這一點。一種方法是測量偏差的平均絕對值。另一種方法稱為方差,測量這些偏差的平均平方。
應該區分處理總體或從總體中抽取的樣本。當處理完整的總體時,(總體)方差是一個常數,一個引數,有助於描述總體。當處理從總體中抽取的樣本時,(樣本)方差實際上是一個隨機變數,其值在樣本之間不同。其值只對作為總體方差的估計值感興趣。
假設總體由 N 個元素 x1,...,xN 組成。 (總體)平均值為
- .
(總體)方差 σ2 是從平均值或 (xi - μ)2 的平方偏差的平均值,即值與分佈平均值的距離的平方。
- .
由於平方,方差不能直接與平均值和資料本身進行比較。方差的平方根稱為標準差 σ。請注意,σ 是資料點與平均值之間差異的均方根。
假設樣本由從總體中抽取的 n 個元素 x1,...,xn 組成。 (樣本)平均值為
- .
樣本平均值用作總體平均值 μ 的估計值。
(樣本)方差 s2 是從(樣本)平均值平方偏差的一種平均值
- .
同樣對於樣本,我們取平方根以獲得(樣本)標準差 s
此時一個常見的問題是“為什麼我們對分子進行平方?”一個答案是:為了消除負號。數字將落在平均值之上和之下,由於方差正在尋找距離,如果這些距離相互抵消,這將是適得其反的。
當擲一個公平的骰子時,總體由 6 個可能的結果 1 到 6 組成。樣本可能包含 1000 次擲骰子的結果。
總體平均值為
- ,
和總體方差
總體標準差是
- .
請注意,這個標準差介於可能的偏差之間。
因此,如果我們使用一個六面的骰子:X = {1, 2, 3, 4, 5, 6},那麼 σ2 = 2.917。我們稍後會詳細解釋為什麼這不同,但目前,請假設你應該使用樣本方差的公式,除非你看到一些表明情況並非如此的內容。
請注意,以上公式在計算估計值時都不理想,它們都會引入舍入誤差。專門的統計軟體包使用更復雜的 對數方法,對資料進行第二次處理,以校正這些誤差。因此,如果你的標準差估計必須準確,則應使用專門的軟體。如果你使用的是非專門的軟體,比如一些流行的電子表格軟體,你應該瞭解軟體如何進行計算,而不能僅僅假設已經實現了複雜的演算法。
對於正態分佈
[edit | edit source]經驗法則指出,在一個正態分佈的資料集中,大約 68% 的資料包含在平均值的標準差之內,大約 95% 的資料包含在 2 個標準差之內,大約 99.7% 的資料包含在 3 個標準差之內。
例如,SAT 的語文部分或數學部分平均值為 500,標準差為 100。這意味著 68% 的考生得分在 400 到 600 之間,95% 的考生得分在 300 到 700 之間,99.7% 的考生得分在 200 到 800 之間,假設完全正態分佈(實際上並非如此,但這是一個很好的近似值)。
穩健估計量
[edit | edit source]對於正態分佈,標準差與四分位間距的關係大約為:SD = IQR/1.35。
對於非正態資料,標準差可能是尺度的一個糟糕估計量。例如,在存在單個異常值的情況下,標準差可能會嚴重高估資料的可變性。結果是置信區間過寬,假設檢驗缺乏效力。在某些(或大多數)領域,資料很少是正態分佈的,異常值很常見。
一個穩健的尺度估計量是“平均絕對偏差”,或稱為aad。顧名思義,使用關於位置估計的絕對偏差的平均值。這種尺度估計方法的優點是異常值的貢獻不會像在標準差中那樣平方,因此異常值對估計值的貢獻較小。這種方法的缺點是單個大的異常值可能會完全壓倒尺度估計,並對資料的擴充套件給出誤導性的描述。
另一個穩健的尺度估計量是“中位數絕對偏差”,或稱為mad。顧名思義,估計值計算為相對於位置估計值的絕對偏差的中位數。通常,資料的中間值用作位置估計值,但這不是必需的。請注意,如果資料是非正態的,則平均值可能不是位置的良好估計值。
為了使這兩個估計量與資料正態分佈時的標準差相比較,必須對它們進行縮放。通常,aad 和mad 這兩個術語用於指代縮放後的版本。很少使用未縮放的版本。