跳轉到內容

統計學入門

25% developed
來自華夏公益教科書,開放的書籍,開放的世界

本書旨在為那些需要使用標準統計技術進行資料分析但沒有統計學訓練的讀者提供幫助。特別是,它可能對使用 SPSS 和 PASW的華夏公益教科書的讀者有所幫助。

在應用統計學中,即使沒有任何真正的數學理解,也可以勉強應付,但並不推薦這樣做。本書假設,即使是憑感覺行事,瞭解如何測量風速也是有價值的。

內容是透過列舉一個非專業統計學或應用統計學課程中本科社會科學學生需要學習的內容,然後將其簡化到最基本的程度,並特別避免過多的數學細節來確定的。

本書沒有涵蓋機率,而機率是現代統計思維的基石之一,原因是作者認為,如果真的需要,你可以幾乎完全依靠直觀的機率概念來應付。機率會時常出現,但本書只依賴於對機率的樸素、直觀的理解。

我想強調的是,我認為任何人都不能完全不瞭解統計方法,但如果你發現自己必須分析資料或進行檢驗,卻不知道從何入手,這本書可能會對你有所幫助。

我假設讀者會使用合適的計算機應用程式(SPSS、Minitab、Stata 都是例子),所以雖然我會簡要解釋一些計算,但我不會講解如何使用統計表格查詢顯著性值。

統計學的兩種用途

[編輯 | 編輯原始碼]

描述世界

[編輯 | 編輯原始碼]

描述性統計學是一種將世界的可測量特徵形式化的方式。從科學研究的角度來看,我們通常會將經驗世界的一部分隔離並簡化,以便於觀察和測量。在描述性統計學中,我們關注所研究物件的量化方面,並試圖以有用的方式對其進行描述。我們的目標是區分在相關方面不相同的事物,並清楚地表明表面上看起來非常不同的事物之間的相似之處。

檢驗關於世界的理論

[編輯 | 編輯原始碼]

科學旨在透過提供一種解釋經驗的理論來解釋我們的經驗。理論是解釋性說明,包括(除其他外)關於經驗要素的一個或多個假設。例如,這些假設可能是:x 與 y 非常相似; p 與 q 經常相關; t 通常是 r 乘以 s 的一半。也許所有 x, yz 都沒有幫助,但我們可以找到一個可能幫助的例子。假設我們認為足球運動員產生的汗液量(以服裝上汗斑的面積來衡量)取決於她持球的時間和環境溫度。我們可以嘗試將此建模為

汗斑面積 = 環境溫度 + 持球時間

現在,這是一個非常不可能的模型。稍微更可能的是,在這個等式中需要一些係數才能讓它起作用。但我們可以問,是否存在這樣的係數,使得

汗斑面積 = (環境溫度 * a) + (持球時間 * c) ± 噪聲

事實證明,世界中許多現象之間的關係都由類似這樣的等式控制。統計分析可以告訴我們是否存在這樣的等式,以及它的預測有多可靠。

顯著性檢驗的工作原理

[編輯 | 編輯原始碼]

想象一下,我有一個抽屜,裡面裝滿了襪子 - 六隻不配對的襪子,每隻襪子顏色不同,分別是紅色、藍色、綠色、橙色、黃色、灰色。如果我隨機抽出兩隻襪子,我抽出紅襪子和藍襪子在一起的可能性有多大?可能的組合如下

紅 藍

紅 綠

紅 橙

紅 黃

紅 灰

藍 綠

藍 橙

藍 黃

藍 灰

綠 橙

綠 黃

綠 灰

橙 黃

橙 灰

黃 灰

(如果你還記得關於排列組合的知識,那就是 n!/(p! (n-p)!))

簡而言之,抽出紅襪子和藍襪子在一起的機率是 1/15。實際上,你可以算出從抽屜中抽出任意數量的襪子時,任意組合的機率。我們可以知道一種組合的可能性——反之,也知道它的不可能程度。現在,想象一下,抽屜裡每種顏色的襪子都有十隻。我們可以像以前一樣計算出任意抽出任意數量襪子的機率。現在,想象一下,我們不知道抽屜裡每種顏色的襪子有多少隻,但我們知道有六種可能的顏色,總共六十隻襪子。我抽出一組襪子,比如每次抽五隻。假設我抽出了以下襪子:

綠 綠 藍 紅 橙

如果實際上抽屜裡每種顏色的襪子數量相等,我們可以計算出這種組合的可能性有多小。在襪子顏色分佈均勻的情況下,一些組合會比較容易出現,而另一些則非常不可能出現。

因此,如果我們想賭一下抽屜裡是否真的每種顏色的襪子數量相等,我們可以這樣做

  1. 做出零假設,即抽屜裡每種顏色的襪子數量相等
  2. 設定我們需要的置信水平——例如,我們希望犯錯(輸錢!)的次數不超過 5%
  3. 進行抽取
  4. 計算在零假設下,本次抽取結果的可能性有多小

如果我們得到的結果與零假設下可能出現的差異很大,我們會對拒絕零假設充滿信心,否則我們會謹慎行事,說我們沒有理由拒絕零假設。

許多統計檢驗都涉及計算一個統計量,該統計量被認為是從特定分佈的值中抽取的。這個分佈就是我們的襪子抽屜。對於這個統計量的一個給定值,在零假設下,它或多或少可能出現,這種可能性被稱為p 值。我們決定我們對什麼程度的置信度感到滿意(也就是說,我們允許自己可能被誤導的次數),然後計算在我們面前的數字是否應該拒絕零假設——我們問自己,在這種情況下,資料有多極端?。如果p 值在本次場合小於置信水平,那麼它就過於極端,無法接受零假設。

1 介紹

2 統計量

3 引數方法和非引數方法

4 描述性統計學

5 推論統計學:假設檢驗

6 自由度

7 顯著性

8 關聯

9 比較組或變數

10 迴歸

華夏公益教科書