跳轉到內容

機率/重要分佈

來自華夏公益教科書,開放的書籍,為開放的世界
(重定向自 機率:重要分佈)

離散隨機變數的分佈

[編輯 | 編輯原始碼]

初步概念:伯努利試驗

[編輯 | 編輯原始碼]

定義。(伯努利試驗)伯努利試驗是一種只有兩個可能結果的實驗,即成功和失敗。

備註。

  • '成功'和'失敗'僅作為標籤,即我們可以將實驗中的任意一個結果定義為'成功'。

定義。(伯努利試驗的獨立性)令為事件[1]。如果獨立的,則相應的伯努利試驗是獨立的

示例。如果我們將拋硬幣的結果解釋為'正面朝上'和'反面朝上',則拋硬幣是一個伯努利試驗。

Clipboard

練習。

如果我們將拋硬幣的結果解釋為'正面朝上'、'反面朝上'和'硬幣立起來',那麼拋硬幣是一個伯努利試驗嗎?

是。
否。



備註。

  • 我們通常將拋硬幣的結果解釋為'正面朝上'和'反面朝上'。

二項分佈

[編輯 | 編輯原始碼]

考慮個獨立的伯努利試驗,每個試驗的成功機率為。我們希望計算機率

表示事件 ,如上一節所述。現在考慮一個特定的結果序列,其中在 次試驗中有 次成功: 它的機率是 [2] 由於其他一些具有 次成功的序列在其他試驗中出現的機率是 相同的,並且有 個不同的可能序列[3] 這是一個服從二項分佈的隨機變數的機率質量函式。

定義

[edit | edit source]

定義. (二項分佈)

顯示了 的機率質量函式。

一個隨機變數 服從 二項分佈,它有 次獨立的伯努利試驗,每次試驗成功的機率為 ,記作 ,如果它的機率質量函式是

顯示了 的累積分佈函式。

備註。

  • 機率質量函式中的 "" 強調了分佈的 引數(即描述分佈的量)的值是 。我們也可以對機率密度函式使用類似的記號。
  • 還有一些其他方法來強調引數值。例如,當引數值為 時,機率密度函式/機率質量函式可以記作
  • 當然,這些內容並非機率密度函式/機率質量函式的必要組成部分,但它們可以使涉及的引數值更加明確和清晰。
  • 機率質量函式包含一個 二項式 係數,因此被稱為 '二項分佈'。
  • 每個分佈的一般說明:
  • 我們也可以直接寫下分佈的記號來表示分佈本身,例如 代表二項分佈。
  • 為了簡便起見,我們有時會說分佈的 pmf、pdf 或支撐,指的是遵循該分佈的隨機變數的 pmf、pdf 或支撐(分別)。(這也適用於分佈的其他性質(將在後面的章節中討論),例如均值、方差等)。



伯努利分佈

[編輯 | 編輯原始碼]

伯努利分佈只是二項式分佈的一個特例,如下所示

定義.(伯努利分佈)

的 pmf。

隨機變數 遵循成功機率為 伯努利分佈,表示為 ,如果其 pmf 為

的 cdf。

備註。

  • .
  • 這裡只涉及一次伯努利試驗,因此稱為“伯努利分佈”。

泊松分佈

[編輯 | 編輯原始碼]

泊松分佈可以被視為二項式分佈的“極限情況”。

考慮 個獨立的伯努利試驗,每次試驗成功的機率為 。根據二項分佈,

After that, consider an unit time interval, with (positive) occurrence rate of a rare event (i.e. the mean of number of occurrence of the rare event is ). We can divide the unit time interval to time subintervals of time length each. If is large and is relatively small, such that the probability for occurrence of two or more rare events at a single time interval is negligible, then the probability for occurrence of exactly one rare event for each time subinterval is by definition of mean. Then, we can view the unit time interval as a sequence of Bernoulli trials [4] with success probability . After that, we can use to model the number of occurrences of rare event. To be more precise, This is the pmf of a random variable following the Poisson distribution, and this result is known as the Poisson limit theorem (or law of rare events). We will introduce it formally after introducing the definition of Poisson distribution.

定義。 (泊松分佈)

的機率質量函式。

一個隨機變數 服從引數為正數 泊松分佈,記為 ,如果它的機率質量函式為

的累積分佈函式。

備註。

定理。(泊松極限定理)一個服從 分佈收斂 於一個服從 的隨機變數,當 .

證明。 該結果源於上面證明的結果: 的機率質量函式隨著 趨近於 的機率質量函式。

備註。

  • 因此,對於較大的 和相對較小的 ,可以使用泊松分佈來近似二項分佈。


幾何分佈

[編輯 | 編輯原始碼]

假設有一系列獨立的伯努利試驗,成功機率為。我們希望計算機率。透過考慮以下結果序列: 我們可以計算得到 [5] 這是遵循幾何分佈的隨機變數的機率質量函式。

定義

[edit | edit source]

定義.(幾何分佈)

的機率質量函式。

如果隨機變數 遵循 幾何分佈,且其 成功機率,記作 ,那麼它的機率質量函式為

的累積分佈函式。

備註。

  • 開始的機率序列,隨著輸入值 一次又一次地增加(即 )是一個 等比數列,因此得名 “幾何 分佈”。
  • 對於另一種定義,pmf 則為 ,這是機率 ,其支援為 .

命題。(幾何分佈的無記憶性)如果 ,則 對於每個 非負 整數 成立。

證明。

  • 特別地, 因為 .

備註。

  • 可以解釋為'在第一次成功之前有超過 次失敗'。
  • 可以解釋為“ 次失敗已經發生,所以第一次成功之前至少有 次失敗”。
  • 這意味著條件 不會 影響第一次成功之前剩餘失敗次數的分佈(它仍然遵循具有相同成功機率的幾何分佈)。
  • 因此,我們可以假設在發生失敗的任意試驗之後,試驗從開始。
  • 例如,如果第一次試驗失敗,那麼第一次成功之前剩餘失敗次數的分佈不受影響。
  • 同樣,如果第一次試驗成功,那麼條件變為,而不是,所以上述公式在這種情況下不適用。
  • 事實上,,因為給定 不能超過零。

負二項分佈

[編輯 | 編輯原始碼]

Consider a sequence of independent Bernoulli trials with success probability . We would like to calculate the probability . By considering this sequence of outcomes: we can calculate that Since the probability of other sequences with some of failures occuring in other trials (and some of successes (excluding the th success, which must occur in the last trial) occuring in other trials), is the same, and there are (or , which is the same numerically) distinct possible sequences [6], This is the pmf of a random variable following the negative binomial distribution.

定義. (負二項分佈)

的機率質量函式。

一個隨機變數 遵循 負二項分佈,其 成功機率,記為 ,如果其機率質量函式(pmf)為

的累積分佈函式(cdf)。

備註。

  • 負二項 係數參與其中,因此稱為“負二項 分佈”。


超幾何分佈

[編輯 | 編輯原始碼]

考慮從一個大小為 的總體中,不放回地抽取大小為 的樣本,該總體包含 個型別 1 的物體和 個其他型別的物體。那麼, [7].

  • : 從 個(可區分的)型別 1 的物件中,無放回地選擇 個物件的無序選擇。
  • : 從 個(可區分的)其他型別的物件中,無放回地選擇 個物件的無序選擇。
  • : 從 個(可區分的)物件中,無放回地選擇 個物件的無序選擇。

這是遵循 超幾何分佈 的隨機變數的機率質量函式。

定義

[edit | edit source]

定義。 (超幾何分佈)

的機率質量函式。

隨機變數 服從 超幾何分佈,從包含 個型別 1 的物件和 個其他型別物件的集合中抽取 個物件,記為 ,如果它的機率質量函式是

的累積分佈函式。

備註。

  • 機率質量函式有點類似於 超幾何 級數 [8],因此得名 “超幾何 分佈”。


有限離散分佈

[edit | edit source]

這種型別的分佈是所有具有有限支撐的離散分佈的推廣,例如伯努利分佈和超幾何分佈。

這種型別的分佈的另一個特例是 離散均勻分佈,它類似於 連續均勻分佈(將在後面討論)。

定義。 (有限離散分佈)隨機變數 遵循 有限離散分佈,其向量為 ,機率向量為 ,表示為 ,如果其機率質量函式為

備註。

  • 對於均值和方差,我們可以直接根據定義進行計算。有限離散分佈沒有特殊的公式。

定義。 (離散均勻分佈)離散均勻分佈,表示為 ,是 .

備註。

  • 其機率質量函式為

示例。 假設隨機變數 。那麼, 機率質量函式的圖形

|
|              *
|              |
|         *    |
|    *    |    |
|    |    |    |
*----*----*----*-------
     1    2    3

示例。 假設一個隨機變數 . 那麼, 機率質量函式的示例

|
|               
|               
|    *    *    *
|    |    |    |
|    |    |    |
*----*----*----*-------
     1    2    3
Clipboard

練習。

  

1 以下哪個分佈應該用於模擬城鎮每天發生的交通事故數量?

二項分佈。
泊松分佈。
幾何分佈。
負二項分佈。
超幾何分佈。

2 在 200 人中,每個人獨立地有 0.1 的機率是吸菸者。我們從他們中隨機抽取一個人,直到抽到吸菸者為止。以下哪個分佈應該用於模擬在抽到吸菸者之前需要的抽取次數?

二項分佈。
泊松分佈。
幾何分佈。
負二項分佈。
超幾何分佈。

3 已知 1000 名計程車司機中,80% 的司機購買了某保險公司的保險。從他們中隨機抽取 30 名計程車司機,不放回。以下哪個分佈應該用於模擬抽取的未購買保險的司機人數?

二項分佈。
泊松分佈。
幾何分佈。
負二項分佈。
超幾何分佈。

4 一家保險公司銷售了 500 份保單。精算師確定,每份保單都有 0.1 的機率需要向被保險人支付索賠款,並且彼此獨立。以下哪個分佈應該用於模擬需要向被保險人支付索賠款的保單數量?

二項分佈。
泊松分佈。
幾何分佈。
負二項分佈。
超幾何分佈。

5 一家保險公司銷售了 500 份保單。精算師確定,每份保單都有 0.1 的機率需要向被保險人支付索賠款,並且彼此獨立。以下哪個分佈應該用於模擬在向被保險人支付了 10 次索賠款之前檢查的保單數量?

二項分佈。
泊松分佈。
幾何分佈。
負二項分佈。
超幾何分佈。

6 以下哪個分佈應該用於模擬城鎮中患有罕見疾病的人數?

二項分佈。
泊松分佈。
幾何分佈。
負二項分佈。
超幾何分佈。

7 一個盒子裡有 100 個紅球,300 個藍球和 250 個綠球。從盒子裡抽取 100 個球。從盒子裡抽取的非藍球數量服從哪個分佈?

8 以下哪個(些)分佈恰好有兩個引數?

二項分佈。
伯努利分佈。
泊松分佈。
幾何分佈。
負二項分佈。
超幾何分佈。

9 一家制造商銷售了 200 個燈泡,每個燈泡售價 100 美元。製造商承諾,如果買家購買的燈泡在購買後的第一週內失效,將全額退款給買家。假設每個燈泡在第一週內失效的機率為 0.001,並且彼此獨立,那麼支付的退款數量服從哪個分佈?


連續隨機變數的分佈

[編輯 | 編輯原始碼]

均勻分佈 (連續)

[編輯 | 編輯原始碼]

連續均勻分佈 是對“無偏好”的建模,即其支援域上所有相同長度的區間都是 等機率 [9] (可以從對應連續均勻分佈的機率密度函式 (pdf) 中看出)。 此外還有 離散 均勻分佈,但它不像 連續 均勻分佈那麼重要。因此,從現在開始,簡稱為“均勻分佈”指的是 連續 均勻分佈,而不是離散均勻分佈。

定義。 (均勻分佈)

的機率密度函式 (pdf)。

一個隨機變數 遵循 均勻分佈,記為 ,如果其機率密度函式 (pdf) 為

備註。

  • 的支援域也可以是 ,而不會影響事件的機率,因為使用 pdf 在 單個 點上計算的機率無論如何都是
  • 分佈 標準均勻分佈

命題。

的累積分佈函式 (cdf)。

(均勻分佈的累積分佈函式) 的累積分佈函式為

證明: 因此,結果成立。


指數分佈

[edit | edit source]

具有速率引數 指數分佈通常用於描述速率為 的罕見事件的到達間隔時間

將此與泊松分佈進行比較,指數分佈描述了罕見事件的到達間隔時間,而泊松分佈描述了固定時間間隔內罕見事件的發生次數

根據速率的定義,當速率 時,到達間隔時間 (即罕見事件的頻率)。

因此,我們希望當 (即 pdf 在較小的 處具有更高的值,當 )時,pdf 在包含較小 值的區間的面積

此外,由於在固定速率 下,到達時間間隔越長髮生的可能性越小。因此,直觀地,我們也希望 pdf 是一個嚴格的 遞減 函式,這樣發生的機率(pdf 在某個區間內的面積)

我們可以看到,指數分佈的 pdf 滿足這兩個性質。

定義。(指數分佈)

的 pdf。

一個隨機變數 服從引數為正 速率 指數分佈,記為 ,如果其 pdf 為

命題。(指數分佈的 cdf)

的累積分佈函式 (CDF)。

的累積分佈函式 (CDF) 為

證明: 假設 的累積分佈函式 (CDF) 為

命題。 (指數分佈的無記憶性)如果 ,則 對每個 非負 成立。

證明。

備註。

  • 可以解釋為“罕見事件將在接下來的 個時間單位內不會發生”;
  • 可以解釋為“罕見事件在過去的 個時間單位內沒有發生”。
  • 這意味著條件 不會影響 剩餘 等待罕見事件的等待時間的分佈(它仍然遵循具有相同引數的指數分佈)。
  • 因此,我們可以假設事件的到達過程在觀察的任意時間點 重新開始


伽馬分佈

[edit | edit source]

伽馬 分佈是廣義的 指數 分佈,從某種意義上說,我們也可以改變 形狀指數 分佈的 pdf。

定義。 (伽馬分佈)

的 PDF。

隨機變數 服從 伽瑪分佈,其中 形狀 引數為正數 速率 引數為正數 ,記為 ,如果其 PDF 為

的 CDF。

備註。

  • ,因為 的 PDF 為

這是 的 PDF。

貝塔分佈

[edit | edit source]

貝塔 分佈是 的推廣,因為我們可以透過使用 兩個形狀引數 來改變 PDF 的 形狀

定義。 (貝塔分佈)

以下為 的 pdf 檔案。

隨機變數 服從 beta 分佈,其正形狀引數為 ,記為 ,如果其 pdf 為

以下為 的 cdf 檔案。

備註。

  • ,因為 的 pdf 為

它是 的機率密度函式。

柯西分佈

[edit | edit source]

柯西分佈是 重尾 分佈 [10]。因此,它是一個“病態”分佈,因為它具有一些反直覺的性質,例如,儘管它的均值和方差從其影像直接看似乎是定義好的,但實際上它的均值和方差是未定義的。

定義。 (柯西分佈)

機率密度函式累積分佈函式

隨機變數 服從 柯西分佈,其 位置 引數為 ,記作 ,如果它的機率密度函式為

備註。

  • 這個定義指的是柯西分佈的 特例。更準確地說,柯西分佈的完整定義中還包含一個 尺度 引數,這裡機率密度函式中的尺度引數被設定為 1。
  • 為了簡化起見,這裡採用此定義。
  • 由於 ,所以機率密度函式關於 對稱。

正態分佈(非常重要)

[edit | edit source]

正態分佈或高斯分佈是自然界中常見的現象,非常奇妙。這可能是因為根據 中心極限定理,樣本均值或樣本總和通常 近似 服從 正態 分佈。因此,正態分佈在統計學中非常重要。

定義。 (正態分佈)

的 PDF 檔案。

如果一個隨機變數 服從 正態分佈,其均值方差,記為 ,則其 PDF 為

的 CDF 檔案。

備註。

  • 分佈 標準 正態分佈。
  • 對於 ,其 PDF 通常記為 ,其 CDF 通常記為
  • 為機率密度函式時,.
  • 因此, 的機率密度函式為 .
  • 我們將會證明 實際上是 均值,而 實際上是 方差.
  • 該機率密度函式關於 對稱,因為 .

命題. (正態分佈隨機變數的線性變換分佈) 如果 ,並且 是常數,那麼 .

證明。 假設 [11]. 令 分別為 的累積分佈函式。由於 透過微分, 這是 的機率密度函式。

備註。

  • 一個特殊情況是當 ,因為
  • ;
  • .
  • 這表明我們可以將每個服從正態分佈的隨機變數轉換為服從標準正態分佈的隨機變數。
  • 這可以簡化與正態分佈隨機變數相關的機率計算,因為我們有 標準正態分佈表,其中給出了不同 的值。
  • 對於某些型別的標準正態分佈表,只給出了不同 非負 的值。
  • 然後,我們可以使用以下公式計算不同負 下的值:

  • 此公式成立,因為


統計學中重要的分佈,尤其是

[edit | edit source]

以下分佈在統計學中尤為重要,它們都與正態分佈相關。我們將簡要介紹它們。

卡方分佈

[編輯 | 編輯原始碼]

卡方分佈是伽馬分佈的一個特例,也與標準正態分佈相關。

定義. (卡方分佈)

的機率密度函式 .

具有正的自由度 的卡方分佈,記為 ,是 的分佈,其中 獨立同分布,且它們都服從 .

的累積分佈函式 .

備註。

  • 可以證明 ,因此 。(然後,我們可以透過這個推匯出 的機率密度函式。)
  • 這意味著對於隨機變數 .
  • 一個隨機變數 遵循具有 個自由度的 卡方 分佈,表示為 .

學生 t 分佈

[編輯 | 編輯原始碼]

學生 -分佈卡方 分佈和 正態 分佈有關。

定義。(學生 -分佈)

的 pdf .

具有 個自由度的 學生 -分佈,表示為 ,是 的分佈,其中 .

的累積分佈函式。

備註。

  • 是擴充套件實數)。
  • 時,pdf 的尾部更重。
  • 一個隨機變數 服從 (學生) -分佈 ,自由度為 ,記為
  • 可以證明, 的pdf 為

F 分佈是廣義的學生 t 分佈,因為它的引數比學生 t 分佈多一個自由度。

定義. (-分佈) 帶有 個自由度的 -分佈,記為 ,是 的分佈,其中 .

的機率密度函式。
的累積分佈函式。

備註。

  • .
  • 服從 -分佈 的隨機變數 ,其自由度分別為 ,記為 .
  • 可以證明, 的機率密度函式為

如果您想知道 卡方分佈學生 -分佈-分佈 在統計學中的應用,可以參考 Statistics/Interval Estimation(置信區間構建中的應用)和 Statistics/Hypothesis Testing(假設檢驗中的應用)。

聯合分佈

[edit | edit source]

多項式分佈

[edit | edit source]

動機

[edit | edit source]

多項式分佈是 推廣的 二項式分佈,區別在於每次試驗的結果不止兩種。

假設有 個物體要分配到 個單元格中,每個物體獨立分配到 一個且只有一個 單元格,分配到第 個單元格的機率為 () [12]。令 為分配到第 個單元格的物體數量。我們想計算機率 ,即第 個單元格有 個物體的機率。

我們可以將每次分配視為一個獨立的試驗,有 種結果(因為它可以分配到 個單元格中的一個且只有一個)。我們可以認識到,分配 個物體是將 個物體劃分成 組。因此,有 種分配方式。

所以, 尤其,分配給個物件的機率個單元格是,這是由於獨立性,因此分配給個物件到個單元格的特定情況的機率是,這是由於獨立性。

定義

[edit | edit source]

定義。(多項式分佈)隨機向量 服從多項式分佈,其中有次試驗和機率向量,記為,如果它的聯合機率質量函式為

備註。

  • 如果 .
  • 在這種情況下,如果 是二項分佈的成功次數(而 是失敗次數)。
  • 此外,。透過將物件分配到 個單元格中,並將每個單一物件的分配視為“成功”,可以看出這一點[13]。然後,成功機率是 .


多元正態分佈

[edit | edit source]

多元 正態分佈正如其名稱所暗示的那樣,是正態分佈(單變數)的多變數(也是廣義)版本。

Definition. (Multivariate normal distribution) A random vector follows the -dimensional normal distribution with mean vector and covariance matrix , denoted by [14] if its joint pdf is in which is the mean vector, and is the covariance matrix (with size ).

備註。

  • 對於 的情況,通常使用更常用的分佈,稱為 雙變數正態 分佈。
  • 另一種等效的定義是 如果

對於某些常數 ,而 個獨立同分布的標準正態隨機變數。
  • 利用上述結果,邊際分佈, 遵循 ,正如人們所期望的那樣。
  • 根據關於獨立正態隨機變數之和和正態隨機變數線性變換分佈的命題(參見機率/隨機變數變換章),均值為,方差為(根據定義,它等於)。

命題。(雙變數正態分佈的聯合機率密度函式) 的聯合機率密度函式為

其中 為正數。
雙變數正態分佈示例的圖形

證明。對於雙變數正態分佈,

  • 均值向量
  • 協方差矩陣
  • 因此,

  • 由此可知,聯合機率密度函式為


  1. 或者,我們可以將事件定義為
  2. 'indpt.' 代表獨立。
  3. 這是因為從 次試驗中(然後剩下的位置用於 '失敗')對(可區分且有序的) 次試驗進行無放回的無序選擇,以獲得 '成功'
  4. 罕見事件的發生被視為 '成功',罕見事件的未發生被視為 '失敗'。
  5. 與二項分佈的結果不同,每個 只有一個可能的序列。
  6. 次試驗中對 次試驗進行無放回的無序選擇,以獲得 '失敗'(或對 次試驗進行無放回的無序選擇,以獲得 '成功')。
  7. 的限制是為了定義二項式係數,即表示式 '有意義'。實際上,我們很少直接使用這個條件。相反,我們通常直接確定 的特定值是否 '有意義'。
  8. 這超出了本書的範圍。
  9. 機率 '均勻分佈在區間上'。
  10. 與其他 輕尾 分佈(例如正態分佈)相比,服從柯西 分佈的隨機變數有較高的機率取 極值。在圖形上,pdf 的 '尾部'(即左端和右端)。
  11. 對於 的情況類似(不等號方向相反,最終我們將有兩個負號相互抵消)。當 時,隨機變數變成一個非隨機常數,所以我們對這種情況不感興趣。
  12. 然後,.
  13. 如果物件被分配到除 個單元以外的單元,那麼它就是 '失敗'。
  14. 的下標 是為了強調該分佈是 維的,並且是可選的。
華夏公益教科書