跳轉到內容

機率/重要分佈

來自華夏公益教科書,開放的書,開放的世界

離散隨機變數的分佈

[編輯 | 編輯原始碼]

初步概念:伯努利試驗

[編輯 | 編輯原始碼]

定義. (伯努利試驗) 一個伯努利試驗是一個只有兩個可能結果的實驗,即成功和失敗。

備註。

  • '成功'和'失敗'僅僅作為標籤,即我們可以將實驗中的任何一個結果定義為'成功'。

定義. (伯努利試驗的獨立性) 令為事件[1]. 如果獨立的,那麼相應的伯努利試驗是獨立的。

示例. 如果我們將拋硬幣的結果解釋為'正面朝上'和'反面朝上',那麼拋硬幣就是一個伯努利試驗。

Clipboard

練習。

如果我們將拋硬幣的結果解釋為'正面朝上'、'反面朝上'和'硬幣立在邊上',那麼拋硬幣是伯努利試驗嗎?

是。
不是。



備註。

  • 我們通常將拋硬幣的結果解釋為'正面朝上'和'反面朝上'。

二項分佈

[編輯 | 編輯原始碼]

考慮 個獨立的伯努利試驗,每個試驗的成功機率均為 。 我們想要計算機率

為事件 ,如上一節所述。讓我們考慮一個特定的結果序列,其中有 次成功,在 次試驗中: 。它的機率是 [2] 由於其他序列的機率(其中一些 次成功發生在其他試驗中)是 相同的,並且存在 個不同的可能序列[3] 這是一個隨機變數的機率質量函式,該隨機變數遵循 二項分佈

定義

[edit | edit source]

定義。(二項分佈)

的機率質量函式。

隨機變數 服從 二項分佈,具有 個獨立的伯努利試驗和成功機率 ,表示為 ,如果其機率質量函式為

的累積分佈函式。

備註。

  • 機率質量函式中的 “” 強調了分佈的 引數(即描述分佈的量)的值為 。我們可以對機率密度函式使用類似的符號。
  • 對於強調引數值的表示,還有一些替代方法。例如,當引數值為 時,pdf/pmf 可以表示為
  • 當然,不需要將這些新增到 pdf/pmf 中,但它可以使所涉及的引數值更加明確和清晰。
  • pmf 包含一個 二項式 係數,因此得名 '二項式 分佈'。
  • 每個分佈的一般說明:
  • 我們也可以直接寫下分佈的符號來表示分佈本身,例如 代表二項式分佈。
  • 有時為了簡便,我們會說一個分佈的 pmf、pdf 或支撐,指的是遵循該分佈的隨機變數的 pmf、pdf 或支撐(分別)。(這也適用於分佈的其他屬性(將在後面的章節中討論),例如均值、方差等)。



伯努利分佈

[edit | edit source]

伯努利分佈是 二項式 分佈的一個特例,如下所示

定義。 (伯努利分佈)

的 pmf。

一個隨機變數 遵循成功機率為 伯努利分佈,記為 ,如果它的 pmf 是

的 cdf。

備註。

  • .
  • 這是一個伯努利試驗,因此得名“伯努利分佈”。

泊松分佈

[編輯 | 編輯原始碼]

泊松分佈可以被看作是二項分佈的“極限情況”。

考慮 個獨立的伯努利試驗,成功機率為。根據二項分佈,

After that, consider an unit time interval, with (positive) occurrence rate of a rare event (i.e. the mean of number of occurrence of the rare event is ). We can divide the unit time interval to time subintervals of time length each. If is large and is relatively small, such that the probability for occurrence of two or more rare events at a single time interval is negligible, then the probability for occurrence of exactly one rare event for each time subinterval is by definition of mean. Then, we can view the unit time interval as a sequence of Bernoulli trials [4] with success probability . After that, we can use to model the number of occurrences of rare event. To be more precise, This is the pmf of a random variable following the Poisson distribution, and this result is known as the Poisson limit theorem (or law of rare events). We will introduce it formally after introducing the definition of Poisson distribution.

定義。(泊松分佈)

的機率質量函式 (pmf)。

如果隨機變數 服從引數為正數 泊松分佈,記為 ,那麼它的 pmf 為

的累積分佈函式 (CDF)。

備註。

定理。 (泊松極限定理) 遵循 的隨機變數 在分佈上收斂 到一個遵循 的隨機變數,當

證明。 該結果源於上面證明的結果: 的機率質量函式 (PMF) 當 時趨近於 的 PMF。

備註。

  • 因此,泊松分佈可用於近似大的 和相對小的 的二項分佈。


幾何分佈

[編輯 | 編輯原始碼]

考慮一個獨立伯努利試驗序列,其成功機率為 。 我們想計算機率 。 透過考慮以下結果序列: ,我們可以計算出 [5] 這是一個服從幾何分佈的隨機變數的機率質量函式。

定義

[edit | edit source]

定義。 (幾何分佈)

的機率質量函式。

如果隨機變數 服從引數為 幾何分佈,記為 ,則其機率質量函式為

的累積分佈函式。

備註。

  • 開始,輸入值 依次遞增(即 ) 構成一個 等比數列,因此得名“幾何分佈”。
  • 另一種定義是,機率質量函式為 ,它是 的機率,其支撐集為

命題.(幾何分佈的無記憶性)如果 ,則對於每個 非負 整數 ,有

證明。

  • 特別是, 因為 .

備註。

  • 可以解釋為 '在第一次成功之前,有超過 次失敗';
  • 可以解釋為 '已經發生了 次失敗,所以在第一次成功之前,有超過或等於 次失敗'。
  • 這意味著條件不影響剩餘第一次成功之前的失敗次數的分佈(它仍然遵循具有相同成功機率的幾何分佈)。
  • 因此,我們可以假設試驗在任意失敗的試驗後重新開始
  • 例如,如果第一次試驗失敗,則第一次成功之前的剩餘失敗次數的分佈不會受到影響。
  • 此外,如果第一次試驗成功,則條件變為,而不是,因此上述公式不適用於這種情況。
  • 事實上,,因為考慮到不能超過零。

負二項分佈

[編輯 | 編輯原始碼]

Consider a sequence of independent Bernoulli trials with success probability . We would like to calculate the probability . By considering this sequence of outcomes: we can calculate that Since the probability of other sequences with some of failures occuring in other trials (and some of successes (excluding the th success, which must occur in the last trial) occuring in other trials), is the same, and there are (or , which is the same numerically) distinct possible sequences [6], This is the pmf of a random variable following the negative binomial distribution.

定義. (負二項分佈)

的 pmf。

隨機變數 遵循 負二項分佈,其 成功機率,記為 ,如果它的 pmf 為

的 cdf。

備註。

  • 負二項 係數被涉及,因此得名 '負二項 分佈'。


超幾何分佈

[edit | edit source]

動機

[edit | edit source]

考慮從總體大小為 的總體中,不放回地抽取大小為 的樣本,該總體包含 個型別 1 的物件和 個其他型別的物件。那麼,機率 [7].

  • : 從 個(可區分的)型別 1 的物件中,不放回地選擇 個物件的無序選擇;
  • : 從 個(可區分的)其他型別的物件中,不放回地選擇 個物件的無序選擇;
  • : 從 個(可區分的)物件中,不放回地選擇 個物件的無序選擇。

這是一個遵循 超幾何分佈 的隨機變數的 pmf。

定義

[edit | edit source]

定義。 (超幾何分佈)

的機率質量函式。

隨機變數 服從 超幾何分佈,其中從包含 個型別 1 物件和 個其他型別物件的集合中抽取 個物件,記為 ,如果它的機率質量函式是

的累積分佈函式。

備註。

  • 機率質量函式有點類似於 超幾何 級數[8],因此得名 “超幾何 分佈”。


有限離散分佈

[edit | edit source]

這種型別的分佈是所有具有有限支撐的離散分佈的推廣,例如伯努利分佈和超幾何分佈。

這種型別分佈的另一個特例是 離散均勻分佈,它類似於 連續均勻分佈(將在後面討論)。

定義。 (有限離散分佈) 隨機變數 服從向量 和機率向量 有限離散分佈,記作 ,如果它的機率質量函式為

備註。

  • 對於均值和方差,我們可以直接根據定義進行計算。有限離散分佈沒有特殊的公式。

定義。 (離散均勻分佈) 離散均勻分佈,記作 ,是指 .

備註。

  • 它的機率質量函式為

示例。 假設隨機變數 。 然後, 機率質量函式的示意圖

|
|              *
|              |
|         *    |
|    *    |    |
|    |    |    |
*----*----*----*-------
     1    2    3

示例。 假設隨機變數 。 然後, 機率質量函式的示意圖

|
|               
|               
|    *    *    *
|    |    |    |
|    |    |    |
*----*----*----*-------
     1    2    3
Clipboard

練習。

  

1 以下哪種分佈應該用於模擬城鎮一天的交通事故數量?

二項分佈。
泊松分佈。
幾何分佈。
負二項分佈。
超幾何分佈。

2 在200人中,每個人獨立地有0.1的機率成為吸菸者。我們從他們中隨機抽取一個人,直到選到一個吸菸者為止。以下哪種分佈應該用於模擬選取人數,直到選到吸菸者之前的那個數字?

二項分佈。
泊松分佈。
幾何分佈。
負二項分佈。
超幾何分佈。

3 已知在1000名計程車司機中,80%的人由一家保險公司投保。從他們中隨機抽取30名計程車司機,不放回。以下哪種分佈應該用於模擬所抽取的未投保司機的數量?

二項分佈。
泊松分佈。
幾何分佈。
負二項分佈。
超幾何分佈。

4 一家保險公司已售出500份保單。精算師確定,對於每份保單,都需要向投保人支付理賠款的機率為0.1,並且相互獨立。以下哪種分佈應該用於模擬需要向投保人支付理賠款的保單數量?

二項分佈。
泊松分佈。
幾何分佈。
負二項分佈。
超幾何分佈。

5 一家保險公司已售出500份保單。精算師確定,對於每份保單,都需要向投保人支付理賠款的機率為0.1,並且相互獨立。以下哪種分佈應該用於模擬檢查保單的次數,直到支付了10次理賠款給投保人?

二項分佈。
泊松分佈。
幾何分佈。
負二項分佈。
超幾何分佈。

6 以下哪種分佈應該用於模擬城鎮中感染罕見疾病的人數?

二項分佈。
泊松分佈。
幾何分佈。
負二項分佈。
超幾何分佈。

7 一個箱子裡有100個紅色球、300個藍色球和250個綠色球。從箱子裡抽取100個球。從箱子裡抽取的非藍色球的數量服從哪種分佈?

8 以下哪個或哪些分佈恰好有兩個引數?

二項分佈。
伯努利分佈。
泊松分佈。
幾何分佈。
負二項分佈。
超幾何分佈。

9 一家制造商銷售200個燈泡,每個燈泡的價格為100美元。製造商承諾,如果買家購買的燈泡在購買後的第一週內出現故障,將全額退款給買家。假設每個燈泡在第一週內出現故障的機率為0.001,並且相互獨立,那麼退款次數服從哪種分佈?


連續隨機變數的分佈

[編輯 | 編輯原始碼]

均勻分佈(連續)

[編輯 | 編輯原始碼]

連續均勻分佈是“無偏好”的模型,即其支撐集上所有長度相同的區間都具有相同的機率 [9](可以從對應於連續均勻分佈的機率密度函式中看出)。還存在離散均勻分佈,但它不如連續均勻分佈重要。因此,從現在開始,簡稱為“均勻分佈”是指連續分佈,而不是離散分佈。

定義。(均勻分佈)

.

如果隨機變數 遵循 均勻分佈,用 表示,如果其 pdf 為

備註。

  • 的支援也可以是 ,不會影響相關事件的機率,因為使用 pdf 在一個 單一 點上計算的機率總是
  • 標準均勻分佈

命題。

的 cdf。

(均勻分佈的 cdf) 的 cdf 為

證明。 然後,結果就出來了。


指數分佈

[編輯 | 編輯原始碼]

帶有速率引數 指數 分佈通常用於描述速率為 的罕見事件的 到達時間間隔

泊松 分佈相比,指數 分佈描述了罕見事件的到達時間間隔,而 泊松 分佈描述了在固定時間間隔內罕見事件發生的 數量

根據 速率 的定義,當 速率 時,到達時間間隔 (即,罕見事件的頻率 )。

因此,我們希望當 時,pdf 更偏向左側(即,當 時,pdf 對較小的 有更高的值),以便當 時,包含較小 值的區間的 pdf 下的面積

此外,由於速率 恆定,到達時間間隔不太可能出現更高的值。因此,直觀地說,我們也希望 pdf 是一個嚴格的 遞減 函式,以便當 時,所涉及的機率(pdf 在某個區間的下的面積)

如我們所見,指數分佈的 pdf 滿足這兩個性質。

定義。(指數分佈)

以下是 的 PDF 檔案。

隨機變數 服從 指數分佈,其正 速率 引數為 ,表示為 ,如果其 PDF 為

命題。 (指數分佈的 CDF)

以下分別是 的 CDF。

的 CDF 為

證明。 假設 . 的累積分佈函式為

命題。 (指數分佈的無記憶性) 如果 , 那麼 對於每個 非負.

證明。

備註。

  • 可以解釋為“在接下來的 個時間單位內不會發生罕見事件”;
  • 可以解釋為“在過去的 個時間單位內沒有發生罕見事件”。
  • 這意味著條件 不會影響罕見事件剩餘等待時間的分佈(它仍然遵循相同引數的指數分佈)。
  • 因此,我們可以假設事件的到達過程在觀察的任意時間點重新開始


Gamma 分佈

[edit | edit source]

Gamma 分佈是廣義的指數分佈,從某種意義上說,我們也可以改變形狀指數分佈的 pdf。

定義。 (Gamma 分佈)

的 pdf。

隨機變數 服從 伽馬分佈,其中 形狀 引數 為正數,速率 引數 為正數,記為 ,如果其機率密度函式為

的累積分佈函式。

備註。

  • ,因為 的機率密度函式

這是 的機率密度函式。

貝塔分佈

[編輯 | 編輯原始碼]

貝塔 分佈是 的推廣,因為我們可以使用 兩個形狀引數 來改變機率密度函式的 形狀

定義。 (貝塔分佈)

以下是 的 PDF 檔案。

隨機變數 遵循 beta 分佈,其正形狀引數為 ,記為 ,如果其 PDF 為

以下是 的 CDF 檔案。

備註。

  • ,因為 的 PDF 為

這是 的 pdf。

柯西分佈

[edit | edit source]

柯西分佈是一種 重尾 分佈 [10]。因此,它是一個“病態”分佈,因為它的某些性質違反直覺,例如,儘管它的均值和方差在直接觀察其圖形時 似乎 是定義的,但它卻並沒有定義均值和方差。

定義。(柯西分佈)

Pdfcdf of .

隨機變數 遵循 柯西分佈,其 位置 引數為 ,記為 ,如果其 pdf 為

備註。

  • 此定義指的是柯西分佈的一個 特例。更準確地說,柯西分佈的完整定義中還包括 尺度 引數,而這裡 pdf 中的尺度引數被設定為 1。
  • 為了簡單起見,這裡使用了此定義。
  • Pdf 關於 對稱,因為 .

正態分佈(非常重要)

[edit | edit source]

正態分佈或高斯分佈是一個美麗的事物,它出現在自然界的許多地方。這可能是因為樣本均值或樣本和經常 近似 遵循 正態 分佈,這是由 中心極限定理 決定的。因此,正態 分佈在統計學中非常重要。

定義。(正態分佈)

的 pdf。

隨機變數 服從 正態分佈,其 均值方差,記作 ,如果其機率密度函式為

的累積分佈函式。

備註。

  • 分佈 標準 正態分佈。
  • 對於 ,其機率密度函式通常記作 ,其累積分佈函式通常記作
  • 的機率密度函式為
  • 因此, 的機率密度函式是
  • 我們將證明 實際上是 均值,而 實際上是 方差
  • 該機率密度函式關於 對稱,因為

命題。(正態分佈隨機變數的線性變換分佈)如果 ,且 為常數,則

證明。 假設 [11]. 令 分別為 的累積分佈函式。由於 透過微分, 這是 的機率密度函式。

備註。

  • 一個特殊情況是當 ,因為
  • ;
  • .
  • 這表明我們可以將每個正態分佈的隨機變數轉換為服從標準正態分佈的隨機變數。
  • 這可以簡化與正態分佈隨機變數相關的機率計算,因為我們有 標準正態表,其中給出不同 值。
  • 對於某些型別的標準正態表,只給出不同 非負 值。
  • 然後,我們可以使用以下公式計算其在不同負 處的值:

  • 這個公式成立,因為


統計學中重要的分佈,尤其是

[edit | edit source]

以下分佈在統計學中尤為重要,它們都與正態分佈有關。我們將簡要介紹它們。

卡方分佈

[edit | edit source]

卡方分佈是伽馬分佈的一個特例,也與標準正態分佈有關。

定義。 (卡方分佈)

的 pdf

具有正的自由度的卡方分佈 ,表示為 ,是 的分佈,其中 是獨立同分布的,並且它們都遵循

的 cdf

備註。

  • 可以證明 ,因此 。(然後,我們可以透過此推匯出 的pdf。)
  • 這意味著對於隨機變數
  • 一個隨機變數 服從 卡方 分佈,其自由度為 ,記為

學生t分佈

[edit | edit source]

學生t分佈卡方 分佈和 正態 分佈有關。

定義.(學生 分佈)

的pdf。

帶有 個自由度的 學生 -分佈,記為 ,是 的分佈,其中 .

的累積分佈函式。

備註。

  • 是擴充套件的實數)。
  • 時,pdf 的尾部更重。
  • 一個服從 (學生) -分佈,帶有 個自由度的隨機變數 ,記為 .
  • 可以證明, 的 pdf 為

分佈在某種程度上是廣義的學生 分佈,因為它多了一個可變引數來表示另一個自由度。

定義。 ( 分佈) 具有 自由度的 -分佈,記為 ,是 的分佈,其中 .

的 PDF。
的累積分佈函式。

備註。

  • .
  • 一個服從 -分佈 的隨機變數 ,具有 自由度,記為
  • 可以證明, 的機率密度函式為

如果您想了解卡方分佈學生-分佈-分佈 在統計學中的用途,您可以簡要瀏覽一下,例如,統計學/區間估計(置信區間構建中的應用)和 統計學/假設檢驗(假設檢驗中的應用)。

聯合分佈

[編輯 | 編輯原始碼]

多項式分佈

[編輯 | 編輯原始碼]

多項式分佈是廣義二項式分佈,因為每次試驗的結果不止兩種。

假設有 個物件要分配到 個單元格,每個物件獨立分配到一個且僅一個單元格,分配到第 個單元格的機率為 () [12]。設 為分配到第 個單元格的物件數量。我們想計算機率 ,即第 個單元格有 個物件的機率。

我們可以將每個分配視為一個獨立的試驗,有 種結果(因為它只能分配到 個單元格中的一個)。我們可以認識到,對 個物件的分配是將 個物件劃分為 組。因此,有 種分配方式。

所以, 特別地,將 個物件分配到第 個單元格的機率是 ,根據獨立性,因此將 個物件分配到 個單元格的特定分配情況的機率為 ,根據獨立性。

定義. (多項式分佈) 一個隨機向量 遵循多項式分佈,其中有 次試驗和機率向量 ,記為 ,如果其聯合機率質量函式為

備註。

  • 如果 .
  • 在這種情況下,如果 是二項式分佈的成功次數(而 是失敗次數)。
  • 此外,。可以從將物件分配到第個單元格作為“成功”來看出,對於每個單個物件的分配[13]。然後,成功的機率為


多元正態分佈

[edit | edit source]

多元正態分佈,顧名思義,是正態分佈(單變數)的多變數(以及推廣)版本。

Definition. (Multivariate normal distribution) A random vector follows the -dimensional normal distribution with mean vector and covariance matrix , denoted by [14] if its joint pdf is in which is the mean vector, and is the covariance matrix (with size ).

備註。

  • 情況的分佈更常用,它被稱為雙變數正態分佈。
  • 一個替代且等效的定義是,如果

對於一些常數,以及個獨立同分布的標準正態隨機變數。
  • 利用上述結果,所服從的邊緣分佈為,正如預期的那樣。
  • 根據獨立正態隨機變數之和的命題以及正態隨機變數線性變換的分佈(參見機率/隨機變數的變換章節),均值為 ,方差為 (根據定義,這等於 )。

命題。(雙變數正態分佈的聯合機率密度函式)的聯合機率密度函式為

其中 為正數。
雙變數正態分佈示例圖

證明。對於雙變數正態分佈,

  • 均值向量
  • 協方差矩陣
  • 因此,

  • 聯合pdf為


  1. 或者,我們可以將事件定義為
  2. 'indpt.' 代表獨立。
  3. 這是因為存在對(可區分和有序)的無序選擇 次試驗以獲得 '成功',從 次試驗中進行不放回抽樣(然後剩餘的位置用於 '失敗')。
  4. 將罕見事件的發生視為'成功',而罕見事件的未發生則視為'失敗'。
  5. 與二項分佈的結果不同,每個 只有一個 可能的 序列。
  6. 次試驗中進行 '失敗'(或 '成功')的無序選擇。
  7. 的限制是為了使二項式係數有定義,即該表示式 '有意義'。在實踐中,我們很少直接使用這個條件。相反,我們通常直接確定 的特定值是否 '有意義'。
  8. 這超出了本書的範圍。
  9. 機率 '在區間上均勻分佈'。
  10. 與其他 輕尾 分佈(例如正態分佈)相比,服從 柯西 分佈的隨機變數具有相對較高的機率取 極端值。在圖形上,pdf 的 '尾部'(即左端和右端)。
  11. 對於 的情況類似(不等號方向相反,最終我們將有兩個負號相互抵消)。同樣,當 時,隨機變數變為非隨機常數,因此我們對此情況不感興趣。
  12. 那麼,
  13. 如果該物件被分配到除 格以外的格,那麼它就 '失敗'。
  14. 對於 的下標 是為了強調該分佈是 維的,是可選的。
華夏公益教科書