跳至內容

統計/分佈/二項式

來自華夏公益教科書,開放書籍,開放世界
(重定向自 Statistics:Distributions/Binomial)

統計


  1. 簡介
    1. 什麼是統計?
    2. 現代統計中的主題
    3. 為什麼我應該學習統計學? 0% developed
    4. 我需要知道什麼才能學習統計學?
  2. 不同型別的資料
    1. 原始資料和次級資料
    2. 定量資料和定性資料
  3. 資料收集方法
    1. 實驗
    2. 抽樣調查
    3. 觀察性研究
  4. 資料分析
    1. 資料清理
    2. 移動平均
  5. 總結性統計量
    1. 集中趨勢的度量
      1. 平均數、中位數和眾數
      2. 幾何平均數
      3. 調和平均數
      4. 算術平均數、幾何平均數和調和平均數之間的關係
      5. 幾何中位數
    2. 離散程度的度量
      1. 資料的範圍
      2. 方差和標準差
      3. 四分位數和四分位數間距
      4. 分位數
  6. 資料展示
    1. 條形圖
    2. 比較條形圖
    3. 直方圖
    4. 散點圖
    5. 箱線圖
    6. 餅圖
    7. 比較餅圖
    8. 象形圖
    9. 折線圖
    10. 頻率多邊形
  7. 機率
    1. 組合學
    2. 伯努利試驗
    3. 貝葉斯分析入門
  8. 分佈
    1. 離散分佈
      1. 均勻分佈
      2. 伯努利分佈
      3. 二項式分佈
      4. 泊松分佈
      5. 幾何分佈
      6. 負二項式分佈
      7. 超幾何分佈
    2. 連續分佈
      1. 均勻分佈
      2. 指數分佈
      3. 伽馬分佈
      4. 正態分佈
      5. 卡方分佈
      6. 學生 t 分佈
      7. F 分佈
      8. 貝塔分佈
      9. 威布林分佈
  9. 檢驗統計假設
    1. 統計檢驗的目的
    2. 使用的形式化
    3. 不同型別的檢驗
    4. 單樣本 z 檢驗
    5. 雙樣本 z 檢驗
    6. 單樣本 t 檢驗
    7. 雙樣本 t 檢驗
    8. 配對樣本 t 檢驗用於比較均值
    9. 單因素方差分析 F 檢驗
    10. 單樣本比例 z 檢驗
    11. 雙樣本比例 z 檢驗
    12. 在 Microsoft Excel 中檢驗比例 A 是否大於比例 B
    13. 斯皮爾曼等級相關係數
    14. 皮爾遜積矩相關係數
    15. 卡方檢驗
      1. 卡方檢驗用於多個比例
      2. 卡方檢驗用於列聯表
    16. 分佈的近似
  10. 點估計100% developed  as of 12:07, 28 March 2007 (UTC) (12:07, 28 March 2007 (UTC))
    1. 無偏性
    2. 優良性的度量
    3. 一致最小方差無偏估計
    4. 完備性
    5. 充分性和最小充分性
    6. 輔助性
  11. 練習題
    1. 總結性統計量問題
    2. 資料展示問題
    3. 分佈問題
    4. 資料檢驗問題
  12. 數值方法
    1. 基本線性代數和格拉姆-施密特正交化
    2. 無約束最佳化
    3. 分位數迴歸
    4. 統計軟體的數值比較
    5. Excel 中的數值
    6. 統計/數值方法/隨機數生成
  13. 時間序列分析
  14. 多元資料分析
    1. 主成分分析
    2. 度量資料的因素分析
    3. 序數資料的因素分析
    4. 典型相關分析
    5. 判別分析
  15. 特定資料集的分析
    1. 結核病分析
  16. 附錄
    1. 作者
    2. 詞彙表
    3. 索引
    4. 連結

編輯此框

伯努利分佈提出“單個事件是否會成功?”的問題時,二項式與“在給定次數的試驗中,有多少次會成功?”的問題相關聯。一些用二項式分佈建模的示例問題包括

  • 在十次拋擲中,硬幣會落到正面多少次?
  • 在某一天在某家醫院出生的兒童中,有多少個是女孩?
  • 在某個教室裡,有多少個學生有綠色的眼睛?
  • 在蜂群中,有多少隻蚊子在噴灑殺蟲劑後會死亡?

伯努利分佈和二項式分佈之間的關係是直觀的:二項式分佈是由多個伯努利試驗組成的。我們進行 次重複實驗,其中成功的機率由引數 給出,並將成功次數加起來。這個成功次數由隨機變數 X 表示。X 的值介於 0 和 之間。

當隨機變數 X 具有引數為 的二項式分佈時,我們將其寫為 X ~ Bin(n,p) 或 X ~ B(n,p),機率質量函式由以下方程給出

其中

要複習階乘 (n!),請返回本華夏公益教科書前面部分的複習課程

一個例子

[編輯 | 編輯原始碼]

讓我們透過一個簡單的二項分佈例子來了解它。我們將使用一些非常小的數字,因為階乘計算起來很困難。我們將隨機詢問五個人是否相信外星生命的存在。在這個例子中,我們假設我們知道 30% 的人認為這是真的。我們想問的問題是:“有多少人會說他們相信外星生命?”實際上,我們想更具體一點:“**兩個人說他們相信外星生命的機率是多少?**”

我們知道將要代入方程的所有值。被問的人數,n=5。任何特定的人回答“是”的機率,p=0.3。(記住,我說 30% 的人相信外星生命存在!)最後,我們想知道正好有 2 個人回答“是”的機率,所以 k=2。這將得到以下方程

因為

以下是 X 所有可能值的機率。您可以透過將上面方程中的 k=2 替換為 0 到 5 之間的任何值來獲得這些值。


k 的值 機率 f(k)
0 0.16807
1 0.36015
2 0.30870
3 0.13230
4 0.02835
5 0.00243

從這些結果中我們可以學到什麼?首先,我們會發現只有一個人的可能性略高於兩個人承認相信外星生命存在。沒有人相信它存在有明顯的可能性(大約 17%),只有 0.24%(不到千分之二)的可能性是五個人都相信。

方程解釋

[編輯 | 編輯原始碼]

以上面這個例子為例。讓我們逐個考慮五個人。

任何人相信外星生命存在的機率是 30%,即 0.3。因此,任何兩個人都相信外星生命存在的機率是 0.3 的平方。類似地,任何人都不相信外星生命存在的機率是 70%,即 0.7,因此,任何三個都不相信外星生命存在的機率是 0.7 的立方。

現在,為了讓五個人中有兩個人相信外星生命存在,必須滿足兩個條件:兩個人相信外星生命存在,三個人不相信。因此,五個人中有兩個人相信外星生命存在的機率似乎是 0.3 的平方(兩個相信者)乘以 0.7 的立方(三個不相信者),即 0.03087。

然而,在這樣做時,我們只考慮了前兩個被選中的人是相信者的情況。我們如何考慮第三個和第五個人是相信者的情況?這也會意味著五個人中總共有兩個相信者。

答案在於組合學。考慮到五個人中前兩個人相信外星生命存在的機率是 0.03087,我們注意到有 C(5,2),即 10 種方法可以從五個人中選出一組兩個人,也就是說,有 10 種方法可以考慮五個人中的兩個人是“前兩個人”。這就是我們乘以 C(n,k) 的原因。五個人中任意兩個人是相信者的機率是 0.03087 的十倍,即 0.3087。

平均值可以這樣推導。

現在令 *w=x-1* 和 *m=n-1*。我們可以看到 *m-w=n-x*。現在我們可以將求和重寫為

現在我們可以看到,求和是在服從 Bin(m, p) 分佈的二項式隨機變數的完整機率質量函式上的求和。這等於 1(並且可以使用 二項式定理 輕鬆驗證)。因此,我們有

方差

[edit | edit source]

我們使用以下公式推匯出方差

我們已經計算了上面的 E[ *X*],所以現在我們將計算 E[ *X2*],然後回到這個方差公式

我們可以利用我們在推導均值時獲得的經驗。我們使用相同 *m* 和 *w* 的定義。

第一個和式與我們在均值(上文)中計算的和式形式相同。它加起來等於mp。第二個和式等於 1。

將此結果代入方差表示式,並結合均值(E(X) = np),得到

[編輯 | 編輯原始碼]
  1. 25
華夏公益教科書