統計學基礎/引數和非引數方法
外觀
< 統計學基礎
在檢視一些統計資料之前,我們應該注意到統計檢驗中這種重要的區別。當我們在下面討論推斷時,它變得至關重要,但我在這裡介紹它是因為描述性統計的相關性。
術語引數和非引數指的是統計方法。引數方法對你的資料集做出假設——特別是關於值是如何分佈的。非引數方法對資料做出的假設相對較少。因此,引數方法在對資料進行推理時,比非引數方法擁有更多資訊。如果引數方法可用,它們會更強大;非引數方法(通常被稱為保守的)沒有那麼強大。
這些假設是關於資料集的引數(因此得名)。這些引數涵蓋了值的位置;值在度量上的離散程度;值的頻率分佈的形狀,也就是說集中趨勢、範圍、方差、偏度和峰度。
通常使用高斯或正態分佈作為這些引數的參考點,並描述其他與之偏離的分佈。
在你分析資料之前,你需要確定感興趣的變數是否具有正態分佈評分,或者至少接近正態分佈,從而確定是否使用引數方法或非引數方法。
如果需要,你有時可以轉換變數,使其值服從正態分佈,但我在這裡不會討論這種轉換——這種轉換超出了緊急指南的範圍。
你可以使用Q-Q圖來檢查資料是否服從正態分佈。
Q-Q圖將一個數據集的分位數與另一個數據集的分位數進行比較——通常與已知分佈進行比較。因此,為了達到目前的目的,你將你的資料與正態分佈的變數進行比較。如果這兩個變數都服從正態分佈,那麼這些點應該強烈地收斂到直線x=y周圍。你也可以使用Kolmogorov-Smirnov檢驗來檢查正態性。這是一個非引數檢驗,其中零假設是你的資料代表一個正態分佈的隨機變數,因此如果該檢驗的結果不顯著,你可以假設你的資料服從正態分佈。