機率/重要分佈

隨機變數

機率
重要分佈

聯合分佈與獨立性

離散隨機變數的分佈

初步概念：伯努利試驗

定義. (伯努利試驗) 一個伯努利試驗是一個只有兩個可能結果的實驗，即成功和失敗。

備註。

'成功'和'失敗'僅僅作為標籤，即我們可以將實驗中的任何一個結果定義為'成功'。

定義. (伯努利試驗的獨立性) 令 $S_{i}$ 為事件 $\{i{\text{th Bernoulli trial is a success}}\},\quad i=1,2,\dotsc$ ^[1]. 如果 $S_{1},S_{2},\dotsc$ 是獨立的，那麼相應的伯努利試驗是獨立的。

示例. 如果我們將拋硬幣的結果解釋為'正面朝上'和'反面朝上'，那麼拋硬幣就是一個伯努利試驗。

練習。

備註。

我們通常將拋硬幣的結果解釋為'正面朝上'和'反面朝上'。

二項分佈

動機

考慮 ${\color {blue}n}$ 個獨立的伯努利試驗，每個試驗的成功機率均為 ${\color {darkgreen}p}$ 。我們想要計算機率 $\mathbb {P} (\{{\color {darkgreen}r}{\text{ successes in }}{\color {blue}n}{\text{ trials}}\})$ 。

設 $S_{i}$ 為事件 $\{i{\text{th Bernoulli trial is a success}}\},\quad i=1,2,\dotsc$ ，如上一節所述。讓我們考慮一個特定的結果序列，其中有 ${\color {darkgreen}r}$ 次成功，在 ${\color {blue}n}$ 次試驗中： ${\color {darkgreen}\underbrace {S\cdots S} _{r{\text{ successes}}}}{\color {red}\overbrace {F\cdots F} ^{{\color {blue}n}-{\color {darkgreen}r}{\text{ failures}}}}$ 。它的機率是 $\mathbb {P} ({\color {darkgreen}S_{1}\cap \dotsb S_{r}}\cap {\color {red}S_{r+1}^{c}\cap \dotsb \cap S_{\color {blue}n}^{c}}){\overset {\text{ indpt. }}{=}}{\color {darkgreen}\mathbb {P} (S_{1})\dotsb \mathbb {P} (S_{r})}{\color {red}\mathbb {P} (S_{r+1}^{c})\cdots \mathbb {P} (S_{\color {blue}n}^{c})}={\color {darkgreen}p^{r}}{\color {red}(1-{\color {darkgreen}p})^{{\color {blue}n}-{\color {darkgreen}r}}}$ ^[2] 由於其他序列的機率（其中一些 ${\color {darkgreen}r}$ 次成功發生在其他試驗中）是相同的，並且存在 ${\binom {\color {blue}n}{\color {darkgreen}r}}$ 個不同的可能序列^[3]， $\mathbb {P} (\{{\color {darkgreen}r}{\text{ successes in }}{\color {blue}n}{\text{ trials}}\})={\binom {\color {blue}n}{\color {darkgreen}r}}{\color {darkgreen}p}^{\color {darkgreen}r}{\color {red}(1-{\color {darkgreen}p})^{{\color {blue}n}-{\color {darkgreen}r}}}.$ 這是一個隨機變數的機率質量函式，該隨機變數遵循 二項分佈。

定義

定義。（二項分佈）

隨機變數 $X$ 服從 二項分佈，具有 ${\color {blue}n}$ 個獨立的伯努利試驗和成功機率 ${\color {darkgreen}p}$ ，表示為 $X\sim \operatorname {Binom} ({\color {blue}n},{\color {darkgreen}p})$ ，如果其機率質量函式為 $f({\color {darkgreen}x};{\color {blue}n},{\color {darkgreen}p})={\binom {\color {blue}n}{\color {darkgreen}x}}{\color {darkgreen}p^{x}}{\color {red}(1-{\color {darkgreen}p})^{{\color {blue}n}-{\color {darkgreen}x}}},\quad {\color {darkgreen}x}\in \operatorname {supp} (X)=\{0,1,2,\dotsc ,{\color {blue}n}\}.$

備註。

機率質量函式中的 “ $;n,p$ ” 強調了分佈的引數（即描述分佈的量）的值為 $n$ 和 $p$ 。我們可以對機率密度函式使用類似的符號。

對於強調引數值的表示，還有一些替代方法。例如，當引數值為 $\theta$ 時，pdf/pmf 可以表示為 $f(\cdot |\theta ),f_{\theta }(\cdot ),\dotsc$
當然，不需要將這些新增到 pdf/pmf 中，但它可以使所涉及的引數值更加明確和清晰。

pmf 包含一個 二項式 係數，因此得名 '二項式 分佈'。
每個分佈的一般說明:

我們也可以直接寫下分佈的符號來表示分佈本身，例如 $\operatorname {Binom} {({\color {blue}n},{\color {darkgreen}p})}$ 代表二項式分佈。
有時為了簡便，我們會說一個分佈的 pmf、pdf 或支撐，指的是遵循該分佈的隨機變數的 pmf、pdf 或支撐（分別）。（這也適用於分佈的其他屬性（將在後面的章節中討論），例如均值、方差等）。

伯努利分佈

伯努利分佈是 二項式 分佈的一個特例，如下所示

定義。 （伯努利分佈）

一個隨機變數 $X$ 遵循成功機率為 ${\color {darkgreen}p}$ 的 伯努利分佈，記為 $X\sim \operatorname {Ber} ({\color {darkgreen}p})$ ，如果它的 pmf 是 $f({\color {darkgreen}x};{\color {darkgreen}p})={\color {darkgreen}p^{x}}{\color {red}(1-{\color {darkgreen}p})^{1-{\color {darkgreen}x}}},\quad {\color {darkgreen}x}\in \operatorname {supp} (X)=\{0,1\}.$

備註。

$\operatorname {Ber} ({\color {darkgreen}p})=\operatorname {Binom} (1,{\color {darkgreen}p})$ .
這是一個伯努利試驗，因此得名“伯努利分佈”。

泊松分佈

動機

泊松分佈可以被看作是二項分佈的“極限情況”。

考慮 ${\color {blue}n}$ 個獨立的伯努利試驗，成功機率為 ${\color {darkgreen}p}=\lambda /{\color {blue}n}$ 。根據二項分佈， $\mathbb {P} ({\color {darkgreen}r}{\text{ successes in }}{\color {blue}n}{\text{ trials}})={\binom {\color {blue}n}{\color {darkgreen}r}}{\color {darkgreen}(\lambda /{\color {blue}n})^{r}}{\color {red}(1-\lambda /{\color {blue}n})^{{\color {blue}n}-{\color {darkgreen}r}}}.$

After that, consider an unit time interval, with (positive) occurrence rate $\lambda$ of a rare event (i.e. the mean of number of occurrence of the rare event is $\lambda$ ). We can divide the unit time interval to ${\color {blue}n}$ time subintervals of time length $1/{\color {blue}n}$ each. If ${\color {blue}n}$ is large and ${\color {darkgreen}p}$ is relatively small, such that the probability for occurrence of two or more rare events at a single time interval is negligible, then the probability for occurrence of exactly one rare event for each time subinterval is ${\color {darkgreen}p}=\lambda /{\color {blue}n}$ by definition of mean. Then, we can view the unit time interval as a sequence of ${\color {blue}n}$ Bernoulli trials ^[4] with success probability ${\color {darkgreen}p}=\lambda /{\color {blue}n}$ . After that, we can use $\operatorname {Binom} {({\color {blue}n},\lambda /{\color {blue}n})}$ to model the number of occurrences of rare event. To be more precise, ${\begin{aligned}\mathbb {P} (\underbrace {{\color {darkgreen}r}{\text{ successes in }}{\color {blue}n}{\text{ trials}}} _{{\color {darkgreen}r}{\text{ rare events in the unit time}}})&={\binom {\color {blue}n}{\color {darkgreen}r}}{\color {darkgreen}(\lambda /{\color {blue}n})^{r}}{\color {red}(1-\lambda /{\color {blue}n})^{{\color {blue}n}-{\color {darkgreen}r}}}\\&={\frac {{\color {blue}n}({\color {blue}n}-1)\dotsb ({\color {blue}n}-{\color {darkgreen}r}+1)}{{\color {darkgreen}r}!}}(\lambda ^{\color {darkgreen}r}/{\color {blue}n}^{\color {darkgreen}r})(1-\lambda /{\color {blue}n})^{{\color {blue}n}-{\color {darkgreen}r}}\\&=(\lambda ^{\color {darkgreen}r}/{\color {darkgreen}r}!)\overbrace {(1-\underbrace {1/{\color {blue}n}} _{\to 0{\text{ as }}n\to \infty })\dotsb {\big (}1-\underbrace {({\color {darkgreen}r-1})/{\color {blue}n}} _{\to 0{\text{ as }}n\to \infty }{\big )}} ^{\to 1{\text{ as }}n\to \infty }\underbrace {(1-\lambda /{\color {blue}n})^{\overbrace {{\color {blue}n}-{\color {darkgreen}r}} ^{\to n{\text{ as }}n\to \infty }}} _{\to e^{-\lambda }{\text{ as }}n\to \infty }\\&\to e^{-\lambda }\lambda ^{\color {darkgreen}r}/{\color {darkgreen}r}!{\text{ as }}n\to \infty .\end{aligned}}$ This is the pmf of a random variable following the Poisson distribution, and this result is known as the Poisson limit theorem (or law of rare events). We will introduce it formally after introducing the definition of Poisson distribution.

定義

定義。（泊松分佈）

如果隨機變數 $X$ 服從引數為正數 $\lambda$ 的泊松分佈，記為 $X\sim \operatorname {Pois} (\lambda )$ ，那麼它的 pmf 為 $f({\color {darkgreen}x};\lambda )=e^{-\lambda }\lambda ^{\color {darkgreen}x}/{\color {darkgreen}x}!,\quad {\color {darkgreen}x}\in \operatorname {supp} (X)=\{0,1,2,\dotsc \}.$

備註。

它以法國數學家西蒙·德尼·泊松命名。

定理。 (泊松極限定理) 遵循 $\operatorname {Binom} {({\color {blue}n},\lambda /{\color {blue}n}})$ 的隨機變數 在分佈上收斂 到一個遵循 $\operatorname {Pois} {(\lambda )}$ 的隨機變數，當 ${\color {blue}n}\to \infty$ 。

證明。 該結果源於上面證明的結果： $\operatorname {Binom} ({\color {blue}n},\lambda /{\color {blue}n})$ 的機率質量函式 (PMF) 當 ${\color {blue}n}\to \infty$ 時趨近於 $\operatorname {Pois} {(\lambda )}$ 的 PMF。

$\Box$

備註。

因此，泊松分佈可用於近似大的 ${\color {blue}n}$ 和相對小的 ${\color {darkgreen}p}=\lambda /{\color {blue}n}$ 的二項分佈。

幾何分佈

動機

考慮一個獨立伯努利試驗序列，其成功機率為 ${\color {darkgreen}p}$ 。我們想計算機率 $\mathbb {P} (\{{\color {red}x}{\text{ failures before first success}}\})$ 。透過考慮以下結果序列： ${\color {red}\underbrace {F\cdots F} _{{\color {red}x}{\text{ failures}}}}{\color {darkgreen}S},$ ，我們可以計算出 $\mathbb {P} (\{{\color {red}x}{\text{ failures before first success}}\})={\color {red}(1-{\color {darkgreen}p})^{x}}{\color {darkgreen}p},\quad {\color {red}x}\in \operatorname {supp} (X)=\{0,1,2,\dotsc \}$ ^[5] 這是一個服從幾何分佈的隨機變數的機率質量函式。

定義

定義。 （幾何分佈）

${\color {green}\operatorname {Geo} (0.2)},{\color {blue}\operatorname {Geo} (0.5)}$ 和 ${\color {red}\operatorname {Geo} (0.8)}$ 的機率質量函式。

如果隨機變數 $X$ 服從引數為 ${\color {darkgreen}p}$ 的幾何分佈，記為 $X\sim \operatorname {Geo} ({\color {darkgreen}p})$ ，則其機率質量函式為 $f({\color {red}x};{\color {darkgreen}p})={\color {red}(1-{\color {darkgreen}p})^{x}}{\color {darkgreen}p},\quad {\color {red}x}\in \operatorname {supp} (X)=\{0,1,2,\dotsc \}.$

備註。

從 $f(0;{\color {darkgreen}p})$ 開始，輸入值 ${\color {red}x}$ 依次遞增（即 ${\color {darkgreen}p},{\color {red}(1-{\color {darkgreen}p})}{\color {darkgreen}p},{\color {red}(1-{\color {darkgreen}p})^{2}}{\color {darkgreen}p},\dotsc$ ) 構成一個 等比數列，因此得名“幾何分佈”。
另一種定義是，機率質量函式為 $(1-p)^{x-1}p$ ，它是 $\mathbb {P} (\{x{\text{ trials before first success}}\})$ 的機率，其支撐集為 $\operatorname {supp} (X)=\{1,2,\dotsc \}$ 。

命題.（幾何分佈的無記憶性）如果 $X\sim \operatorname {Geo} (p)$ ，則對於每個非負整數 $m$ 和 $n$ ，有 $\mathbb {P} (X>m+n|X\geq m)=\mathbb {P} (X>n)$ 。

證明。 ${\begin{aligned}\mathbb {P} (X>m+n|X\geq m)&{\overset {\text{ def }}{=}}{\frac {\mathbb {P} (\overbrace {X>m+n\cap X\geq m)} ^{=X>m+n}}{\mathbb {P} (X\geq m)}}\\&{\overset {\text{ def }}{=}}{\frac {{\cancel {p}}\left((1-p)^{m+n+1}+(1-p)^{m+n+2}+\dotsb \right)}{{\cancel {p}}\left((1-p)^{m}+(1-p)^{m+1}+\dotsb \right)}}\\&={\frac {(1-p)^{{\cancel {m}}+n+1}{\cancel {/{\big (}1-(1-p){\big )}}}}{{\cancel {(1-p)^{m}}}{\cancel {/{\big (}1-(1-p){\big )}}}}}&{\text{by geometric series formula}}\\&=(1-p)^{n+1}\cdot {\frac {\color {darkgreen}p}{\color {blue}p}}\\&={\color {darkgreen}p}\cdot {\frac {(1-p)^{n+1}}{\color {blue}1-(1-p)}}\\&={\color {darkgreen}p}\left((1-p)^{n+1}+(1-p)^{n+2}+\dotsb \right)&{\text{by geometric series formula}}\\&{\overset {\text{ def }}{=}}\mathbb {P} (X>n)&{\text{since }}X>n\Leftrightarrow X=n+1,n+2,\dotsc .\\\end{aligned}}$

特別是， $X>m+n\cap X\geq m=X>m+n$ 因為 $\underbrace {X>m+n} _{X=m+n+1,m+n+2,\dotsc }\subsetneq \underbrace {X\geq m} _{X=m,m+1,\dotsc }$ .

$\Box$

備註。

$X>m+n$ 可以解釋為 '在第一次成功之前，有超過 $m+n$ 次失敗'；
$X\geq m$ 可以解釋為 '已經發生了 $m$ 次失敗，所以在第一次成功之前，有超過或等於 $m$ 次失敗'。
這意味著條件 $X\geq m$ 不影響剩餘第一次成功之前的失敗次數的分佈（它仍然遵循具有相同成功機率的幾何分佈）。
因此，我們可以假設試驗在任意失敗的試驗後重新開始。

例如，如果第一次試驗失敗，則第一次成功之前的剩餘失敗次數的分佈不會受到影響。
此外，如果第一次試驗成功，則條件變為 $X=0$ ，而不是 $X\geq m$ ，因此上述公式不適用於這種情況。

事實上， $\mathbb {P} (X>m+n|X=0)=0$ ，因為考慮到 $X=0$ ， $X$ 不能超過零。

負二項分佈

動機

Consider a sequence of independent Bernoulli trials with success probability ${\color {darkgreen}p}$ . We would like to calculate the probability $\mathbb {P} (\{{\color {red}x}{\text{ failures before }}{\color {darkgreen}k}{\text{th success}}\})$ . By considering this sequence of outcomes: $\overbrace {{\color {red}\underbrace {F\cdots F} _{x_{1}{\text{ failures}}}}{\color {darkgreen}S}{\color {red}\underbrace {F\cdots F} _{x_{2}{\text{ failures}}}}{\color {darkgreen}S}\cdots {\color {red}\underbrace {F\cdots F} _{x_{k}{\text{ failures}}}}} ^{{\color {red}x}+{\color {darkgreen}k}-1{\text{ trials}}}{\color {darkgreen}\overbrace {S} ^{k{\text{th success}}}},\quad {\color {red}x_{1}}+{\color {red}x_{2}}+\dotsb +{\color {red}x_{k}}={\color {red}x},$ we can calculate that $\mathbb {P} (\{{\color {red}x}{\text{ failures before }}{\color {darkgreen}k}{\text{th success}}\})={\color {red}(1-{\color {darkgreen}p})^{x}}{\color {darkgreen}p^{k}},\quad {\color {red}x}\in \operatorname {supp} (X)=\{0,1,2,\dotsc \}.$ Since the probability of other sequences with some of ${\color {red}x}$ failures occuring in other trials (and some of ${\color {darkgreen}k}-1$ successes (excluding the ${\color {darkgreen}k}$ th success, which must occur in the last trial) occuring in other trials), is the same, and there are ${\binom {{\color {red}x}+{\color {darkgreen}k}-1}{\color {red}x}}$ (or ${\binom {{\color {red}x}+{\color {darkgreen}k}-1}{{\color {green}k}-1}}$ , which is the same numerically) distinct possible sequences ^[6], $\mathbb {P} (\{{\color {red}x}{\text{ failures before }}{\color {darkgreen}k}{\text{th success}}\})={\binom {{\color {red}x}+{\color {darkgreen}k}-1}{\color {red}x}}{\color {red}(1-{\color {darkgreen}p})^{x}}{\color {darkgreen}p^{k}},\quad {\color {red}x}\in \operatorname {supp} (X)=\{0,1,2,\dotsc \}.$ This is the pmf of a random variable following the negative binomial distribution.

定義

定義. (負二項分佈)

隨機變數 $X$ 遵循 負二項分佈，其 成功機率 為 ${\color {darkgreen}p}$ ，記為 $X\sim \operatorname {NB} ({\color {darkgreen}k,p})$ ，如果它的 pmf 為 $f({\color {red}x};{\color {darkgreen}k,p})={\binom {{\color {red}x}+{\color {darkgreen}k}-1}{\color {red}x}}{\color {red}(1-{\color {darkgreen}p})^{x}}{\color {darkgreen}p^{k}},\quad {\color {red}x}\in \operatorname {supp} (X)=\{0,1,2,\dotsc \}.$

備註。

負二項 係數被涉及，因此得名 '負二項 分佈'。

超幾何分佈

動機

考慮從總體大小為 $N$ 的總體中，不放回地抽取大小為 $n$ 的樣本，該總體包含 $K$ 個型別 1 的物件和 $N-K$ 個其他型別的物件。那麼，機率 $\mathbb {P} (\{k{\text{ type 1 objects are found when }}n{\text{ objects are drawn from }}N{\text{ objects}}\})=\underbrace {\binom {K}{k}} _{\text{type 1}}\overbrace {\binom {N-K}{n-k}} ^{\text{another type}}{\bigg /}\underbrace {\binom {N}{n}} _{\text{all outcomes}},\quad k\in {\big \{}\max\{n-N+K,0\},\dotsc ,\min {\{K,n\}}{\big \}}$ ^[7].

${\binom {K}{k}}$ : 從 $K$ 個（可區分的）型別 1 的物件中，不放回地選擇 $k$ 個物件的無序選擇；
${\binom {N-K}{n-k}}$ : 從 $N-K$ 個（可區分的）其他型別的物件中，不放回地選擇 $n-k$ 個物件的無序選擇；
${\binom {N}{n}}$ : 從 $N$ 個（可區分的）物件中，不放回地選擇 $n$ 個物件的無序選擇。

這是一個遵循 超幾何分佈 的隨機變數的 pmf。

定義

定義。 （超幾何分佈）

${\color {blue}\operatorname {HypGeo} (500,50,100)},{\color {darkgreen}\operatorname {HypGeo} (500,60,200)}$ 和 ${\color {red}\operatorname {HypGeo} (500,70,300)}$ 的機率質量函式。

隨機變數 $X$ 服從 超幾何分佈，其中從包含 $K$ 個型別 1 物件和 $N-K$ 個其他型別物件的集合中抽取 $n$ 個物件，記為 $X\sim \operatorname {HypGeo} (N,K,n)$ ，如果它的機率質量函式是 $f(k;N,K,n)={\binom {K}{k}}{\binom {N-K}{n-k}}{\bigg /}{\binom {N}{n}},\quad k\in \operatorname {supp} (X)={\big \{}\max\{n-N+K,0\},\dotsc ,\min {\{K,n\}}{\big \}}.$ 。

${\color {blue}\operatorname {HypGeo} (500,50,100)},{\color {darkgreen}\operatorname {HypGeo} (500,60,200)}$ 和 ${\color {red}\operatorname {HypGeo} (500,70,300)}$ 的累積分佈函式。

備註。

機率質量函式有點類似於 超幾何 級數^[8]，因此得名 “超幾何 分佈”。

有限離散分佈

這種型別的分佈是所有具有有限支撐的離散分佈的推廣，例如伯努利分佈和超幾何分佈。

這種型別分佈的另一個特例是 離散均勻分佈，它類似於 連續均勻分佈（將在後面討論）。

定義。 （有限離散分佈）隨機變數 $X$ 服從向量 $\mathbf {x} =(x_{1},\dotsc ,x_{n})^{T}$ 和機率向量 $\mathbf {p} =(p_{1},\dotsc ,p_{n})^{T},\quad p_{1},\dotsc ,{\text{ and }}p_{n}\geq 0,p_{1}+\dotsb +p_{n}=1$ 的 有限離散分佈，記作 $X\sim \operatorname {FD} (\mathbf {x} ,\mathbf {p} )$ ，如果它的機率質量函式為 $f(x_{i};\mathbf {p} )=p_{i},\quad i=1,\dotsc ,{\text{ or }}n.$

備註。

對於均值和方差，我們可以直接根據定義進行計算。有限離散分佈沒有特殊的公式。

定義。 （離散均勻分佈） 離散均勻分佈，記作 $\operatorname {D} {\mathcal {U}}\{x_{1},\dotsc ,x_{n}\}$ ，是指 $\operatorname {FD} (\mathbf {x} ,\mathbf {p} ),\quad \mathbf {p} ={\bigg (}\underbrace {{\frac {1}{n}},\dotsc ,{\frac {1}{n}}} _{n{\text{ times}}}{\bigg )}^{T}$ .

備註。

它的機率質量函式為 $f(x_{i})={\frac {1}{n}},\quad i=1,\dotsc ,{\text{ or }}n.$

示例。 假設隨機變數 $X\sim \operatorname {FD} {\big (}(1,2,3)^{T},(0.2,0.3,0.5)^{T}{\big )}$ 。然後， $\mathbb {P} (X=1)=0.2,\mathbb {P} (X=2)=0.3,{\text{ and }}\mathbb {P} (X=3)=0.5.$ 機率質量函式的示意圖

|
|              *
|              |
|         *    |
|    *    |    |
|    |    |    |
*----*----*----*-------
     1    2    3

示例。 假設隨機變數 $X\sim \operatorname {D} {\mathcal {U}}\{1,2,3\}$ 。然後， $\mathbb {P} (X=1)=\mathbb {P} (X=2)=\mathbb {P} (X=3)={\frac {1}{3}}.$ 機率質量函式的示意圖

|
|               
|               
|    *    *    *
|    |    |    |
|    |    |    |
*----*----*----*-------
     1    2    3

習題

練習。

連續隨機變數的分佈

均勻分佈（連續）

連續均勻分佈是“無偏好”的模型，即其支撐集上所有長度相同的區間都具有相同的機率 ^[9]（可以從對應於連續均勻分佈的機率密度函式中看出）。還存在離散均勻分佈，但它不如連續均勻分佈重要。因此，從現在開始，簡稱為“均勻分佈”是指連續分佈，而不是離散分佈。

定義。（均勻分佈）

如果隨機變數 $X$ 遵循 均勻分佈，用 $X\sim {\mathcal {U}}[a,b]$ 表示，如果其 pdf 為 $f(x)=1/(b-a),\quad x\in \operatorname {supp} (X)=[a,b],{\text{ and }}a\leq b.$

備註。

${\mathcal {U}}[a,b]$ 的支援也可以是 $[a,b),(a,b]$ 或 $(a,b)$ ，不會影響相關事件的機率，因為使用 pdf 在一個單一點上計算的機率總是零。
${\mathcal {U}}[0,1]$ 是 標準均勻分佈。

命題。

(均勻分佈的 cdf) ${\mathcal {U}}[a,b]$ 的 cdf 為 $F(x)={\begin{cases}0,&x<a;\\(x-a)/(b-a),&a\leq x\leq b;\\1,&x>b.\end{cases}}$

證明。 $F(x)=\int _{-\infty }^{x}{\frac {\mathbf {1} \{a\leq x\leq b\}}{b-a}}\,dy={\frac {1}{b-a}}\int _{a}^{x}\mathbf {1} \{a\leq x\leq b\}\,dy={\begin{cases}0/(b-a),&x<a;\\[][y]_{a}^{x}/(b-a),&a\leq x\leq b;\\[][y]_{a}^{b}/(b-a),&x>b.\end{cases}}$ 然後，結果就出來了。

$\Box$

指數分佈

帶有速率引數 $\lambda$ 的指數分佈通常用於描述速率為 $\lambda$ 的罕見事件的 到達時間間隔。

與泊松分佈相比，指數分佈描述了罕見事件的到達時間間隔，而泊松分佈描述了在固定時間間隔內罕見事件發生的數量。

根據速率的定義，當速率 $\uparrow$ 時，到達時間間隔 $\downarrow$ （即，罕見事件的頻率 $\uparrow$ ）。

因此，我們希望當 $\lambda \uparrow$ 時，pdf 更偏向左側（即，當 $\lambda \uparrow$ 時，pdf 對較小的 $x$ 有更高的值），以便當 $\lambda \uparrow$ 時，包含較小 $x$ 值的區間的 pdf 下的面積 $\uparrow$ 。

此外，由於速率 $\lambda$ 恆定，到達時間間隔不太可能出現更高的值。因此，直觀地說，我們也希望 pdf 是一個嚴格的遞減函式，以便當 $x\uparrow$ 時，所涉及的機率（pdf 在某個區間的下的面積） $\downarrow$ 。

如我們所見，指數分佈的 pdf 滿足這兩個性質。

定義。（指數分佈）

隨機變數 $X$ 服從 指數分佈，其正速率引數為 $\lambda$ ，表示為 $X\sim \operatorname {Exp} (\lambda )$ ，如果其 PDF 為 $f(x)=\lambda e^{-\lambda x},\quad x\in \operatorname {supp} (X)=[0,\infty ).$

命題。 （指數分佈的 CDF）

$\operatorname {Exp} (\lambda )$ 的 CDF 為 $F(x)=1-e^{-\lambda x},\quad x\geq 0.$

證明。 假設 $X\sim \operatorname {Exp} (\lambda )$ . $X$ 的累積分佈函式為 ${\begin{aligned}F(x)&=\int _{-\infty }^{x}\lambda e^{-\lambda y}\mathbf {1} \{y\geq 0\}\,dy\\&={\begin{cases}\int _{0}^{x}\lambda e^{-\lambda y}\,dy,&x\geq 0;\\0,&x<0\\\end{cases}}&\left({\text{When }}x<0,x\notin \operatorname {supp} (X),{\text{ so }}F(x)=\mathbb {P} (X\leq x)=0\right)\\&=\mathbf {1} \{x\geq 0\}\lambda \int _{0}^{x}e^{-\lambda y}\,dy\\&=\mathbf {1} \{x\geq 0\}{\frac {\lambda }{-\lambda }}[e^{-\lambda }y]_{0}^{x}\\&=-\mathbf {1} \{x\geq 0\}(e^{-\lambda x}-1)\\&=(1-e^{-\lambda x})\mathbf {1} \{x\geq 0\}.\\\end{aligned}}$

$\Box$

命題。 (指數分佈的無記憶性) 如果 $X\sim \operatorname {Exp} (\lambda )$ , 那麼 $\mathbb {P} (X>s+t|X>s)=\mathbb {P} (X>t)$ 對於每個非負數 $s$ 和 $t$ .

證明。 $\mathbb {P} (X>s+t|X>s){\overset {\text{ def }}{=}}{\frac {\mathbb {P} (X>s+t\cap X>s)}{\mathbb {P} (X>s)}}={\frac {\mathbb {P} (X>s+t)}{\mathbb {P} (X>s)}}={\frac {1-(1-e^{-\lambda (s+t)})}{1-(1-e^{-\lambda s})}}={\frac {e^{-\lambda (s+t)}}{e^{-\lambda s}}}=e^{-\lambda t}=\mathbb {P} (X>t).$

$\Box$

備註。

$X>s+t$ 可以解釋為“在接下來的 $t$ 個時間單位內不會發生罕見事件”；
$X>s$ 可以解釋為“在過去的 $s$ 個時間單位內沒有發生罕見事件”。
這意味著條件 $X>s$ 不會影響罕見事件剩餘等待時間的分佈（它仍然遵循相同引數的指數分佈）。
因此，我們可以假設事件的到達過程在觀察的任意時間點重新開始。

Gamma 分佈

Gamma 分佈是廣義的指數分佈，從某種意義上說，我們也可以改變形狀的指數分佈的 pdf。

定義。 （Gamma 分佈）

隨機變數 $X$ 服從 伽馬分佈，其中形狀引數 $\alpha$ 為正數，速率引數 $\lambda$ 為正數，記為 $X\sim \operatorname {Gamma} (\alpha ,\lambda )$ ，如果其機率密度函式為 $f(x)={\frac {\lambda ^{\alpha }x^{\alpha -1}e^{-\lambda x}}{\Gamma (\alpha )}},\quad x\in \operatorname {supp} (X)=[0,\infty ).$

備註。

$\operatorname {Gamma} (1,\lambda )\equiv \operatorname {Exp} (\lambda )$ ，因為 $\operatorname {Gamma} (1,\lambda )$ 的機率密度函式

$f(x)={\frac {\lambda x^{1-1}e^{-\lambda }}{\underbrace {\Gamma (1)} _{=0!=1}}}\mathbf {1} \{x\geq 0\}=\lambda e^{-\lambda x},$

這是

\operatorname {Exp} (\lambda )

的機率密度函式。

貝塔分佈

貝塔分佈是 ${\mathcal {U}}[0,1]$ 的推廣，因為我們可以使用 兩個形狀引數 來改變機率密度函式的形狀。

定義。 (貝塔分佈)

隨機變數 $X$ 遵循 beta 分佈，其正形狀引數為 $\alpha$ 和 $\beta$ ，記為 $X\sim \operatorname {Beta} (\alpha ,\beta )$ ，如果其 PDF 為 $f(x)={\frac {\Gamma (\alpha +\beta )}{\Gamma (\alpha )\Gamma (\beta )}}x^{\alpha -1}(1-x)^{\beta -1},\quad x\in \operatorname {supp} (X)=[0,1].$

備註。

$\operatorname {Beta} (1,1)\equiv {\mathcal {U}}[0,1]$ ，因為 $\operatorname {Beta} (1,1)$ 的 PDF 為

$f(x)={\frac {\overbrace {\Gamma (2)} ^{=1!=1}}{\underbrace {\Gamma (1)} _{=0!=1}\Gamma (1)}}x^{1-1}(1-x)^{1-1}\mathbf {1} \{0\leq x\leq 1\}=\mathbf {1} \{0\leq x\leq 1\},$

這是

{\mathcal {U}}[0,1]

的 pdf。

柯西分佈

柯西分佈是一種重尾分佈 ^[10]。因此，它是一個“病態”分佈，因為它的某些性質違反直覺，例如，儘管它的均值和方差在直接觀察其圖形時似乎是定義的，但它卻並沒有定義均值和方差。

定義。（柯西分佈）

隨機變數 $X$ 遵循 柯西分佈，其位置引數為 $\theta$ ，記為 $X\sim \operatorname {Cauchy} (\theta )$ ，如果其 pdf 為 $f(x)={\frac {1}{\pi (1+(x-\theta )^{2})}},\quad x\in \operatorname {supp} (X)=\mathbb {R} .$

備註。

此定義指的是柯西分佈的一個特例。更準確地說，柯西分佈的完整定義中還包括尺度引數，而這裡 pdf 中的尺度引數被設定為 1。

為了簡單起見，這裡使用了此定義。

Pdf 關於 $\theta$ 對稱，因為 $f(\theta +x)=f(\theta -x)$ .

正態分佈（非常重要）

正態分佈或高斯分佈是一個美麗的事物，它出現在自然界的許多地方。這可能是因為樣本均值或樣本和經常近似遵循正態分佈，這是由 中心極限定理 決定的。因此，正態分佈在統計學中非常重要。

定義。（正態分佈）

隨機變數 $X$ 服從 正態分佈，其均值為 $\mu$ ，方差為 $\sigma ^{2}$ ，記作 $X\sim {\mathcal {N}}(\mu ,\sigma ^{2})$ ，如果其機率密度函式為 $f(x)={\frac {1}{\sqrt {2\pi \sigma ^{2}}}}\exp \left(-{\frac {(x-\mu )^{2}}{2\sigma ^{2}}}\right),\quad x\in \operatorname {supp} (X)=\mathbb {R} .$

備註。

分佈 ${\mathcal {N}}(0,1)$ 是標準正態分佈。

對於 ${\mathcal {N}}(0,1)$ ，其機率密度函式通常記作 $\varphi (\cdot )$ ，其累積分佈函式通常記作 $\Phi (\cdot )$ 。
${\mathcal {N}}(0,1)$ 的機率密度函式為 $\varphi (x)={\frac {1}{\sqrt {2\pi }}}e^{-x^{2}/2}$ 。
因此， ${\mathcal {N}}(\mu ,\sigma ^{2})$ 的機率密度函式是 $(1/\sigma )\varphi (x-\mu /\sigma )$ 。

我們將證明 $\mu$ 實際上是均值，而 $\sigma$ 實際上是方差。
該機率密度函式關於 $\mu$ 對稱，因為 $f(\mu +x)=f(\mu -x)$ 。

命題。（正態分佈隨機變數的線性變換分佈）如果 $X\sim {\mathcal {N}}(\mu ,\sigma ^{2})$ ，且 ${\color {blue}a}$ 和 ${\color {red}b}$ 為常數，則 $Y={\color {blue}a}X+{\color {red}b}\sim {\mathcal {N}}({\color {blue}a}\mu +{\color {red}b},{\color {blue}a^{2}}\sigma ^{2})$ 。

證明。 假設 $a>0$ ^[11]. 令 $F_{X}$ 和 $F_{Y}$ 分別為 $X$ 和 $Y$ 的累積分佈函式。由於 $F_{Y}(y)=\mathbb {P} (Y\leq y)=\mathbb {P} ({\color {blue}a}X+{\color {red}b}\leq y)=\mathbb {P} (X\leq (y-{\color {red}b})/{\color {blue}a})=F_{X}{\big (}(y-{\color {red}b})/{\color {blue}a}{\big )},$ 透過微分， ${\begin{aligned}f_{Y}(y)&={\frac {1}{\color {blue}a}}f_{X}{\big (}(y-{\color {red}b})/{\color {blue}a}{\big )}\\&={\frac {1}{{\color {blue}a}{\sqrt {2\pi \sigma ^{2}}}}}\exp \left(-{\big (}(y-{\color {red}b})/{\color {blue}a}-\mu {\big )}^{2}/2\sigma ^{2}\right)\\&={\frac {1}{\sqrt {2\pi {\color {blue}a^{2}}\sigma ^{2}}}}\exp \left(-{\big (}y-({\color {blue}a}\mu +{\color {red}b}){\big )}^{2}/2{\color {blue}a^{2}}\sigma ^{2}\right)&\quad {\text{since }}a>0,\\\end{aligned}}$ 這是 ${\mathcal {N}}({\color {blue}a}\mu +{\color {red}b},{\color {blue}a^{2}}\sigma ^{2})$ 的機率密度函式。

$\Box$

備註。

一個特殊情況是當 $a=1/\sigma$ 且 $b=-\mu /\sigma$ ， $Y=aX+b=(X-\mu )/\sigma \sim {\mathcal {N}}(0,1)$ ，因為
$a\mu +b=(1/\sigma )\mu -\mu /\sigma =0$ ;
$a^{2}\sigma ^{2}=\sigma ^{2}/\sigma ^{2}=1$ .
這表明我們可以將每個正態分佈的隨機變數轉換為服從標準正態分佈的隨機變數。
這可以簡化與正態分佈隨機變數相關的機率計算，因為我們有 標準正態表，其中給出不同 $x$ 的 $\Phi (x)$ 值。
對於某些型別的標準正態表，只給出不同非負 $x$ 的 $\Phi (x)$ 值。
然後，我們可以使用以下公式計算其在不同負 $x$ 處的值：

$\Phi (-x)=1-\Phi (x).$

這個公式成立，因為 ${\begin{aligned}&&\phi (-y)&=\phi (y)\\&\Leftrightarrow &\int _{-\infty }^{x}\phi (-y)\,dy&=\int _{-\infty }^{x}\phi (y)\,dy\\&\Leftrightarrow &-\int _{\infty }^{-x}\phi (u)\,du&=\Phi (x)&{\text{let }}u=-y\Rightarrow dy=-dy.\\&\Leftrightarrow &[\Phi (u)]_{-x}^{\infty }&=\Phi (x)\\&\Leftrightarrow &\underbrace {\Phi (\infty )} _{=\mathbb {P} (\Omega )=1}-\Phi (-x)&=\Phi (x).\end{aligned}}$

統計學中重要的分佈，尤其是

以下分佈在統計學中尤為重要，它們都與正態分佈有關。我們將簡要介紹它們。

卡方分佈

卡方分佈是伽馬分佈的一個特例，也與標準正態分佈有關。

定義。 （卡方分佈）

具有正的自由度的卡方分佈 ${\color {blue}\nu }$ ，表示為 $\chi _{\color {blue}\nu }^{2}$ ，是 $Z_{1}^{2}+\dotsb +Z_{\color {blue}\nu }^{2}$ 的分佈，其中 $Z_{1},\dotsc ,Z_{\color {blue}\nu }$ 是獨立同分布的，並且它們都遵循 ${\mathcal {N}}(0,1)$ 。

備註。

可以證明 $\chi _{\color {blue}\nu }^{2}\equiv \operatorname {Gamma} ({\color {blue}\nu }/2,1/2)$ ，因此 $\operatorname {Gamma} (\alpha ,\lambda )\equiv {\frac {1}{2\lambda }}\chi _{2\alpha }^{2}$ 。（然後，我們可以透過此推匯出 $\chi _{\nu }^{2}$ 的pdf。）
這意味著對於隨機變數 $X\sim \chi _{2\alpha }^{2}$ ， ${\frac {X}{2\lambda }}\sim \operatorname {Gamma} (\alpha ,\lambda )$ 。
一個隨機變數 $X$ 服從卡方分佈，其自由度為 ${\color {blue}\nu }$ ，記為 $X\sim \chi _{\color {blue}\nu }^{2}$ 。

學生t分佈

學生t分佈 與卡方分佈和正態分佈有關。

定義.（學生 $t$ 分佈）

帶有 ${\color {blue}\nu }$ 個自由度的 學生 $t$ -分佈，記為 $t_{\color {blue}\nu }$ ，是 ${\frac {Z}{\sqrt {Y/{\color {blue}\nu }}}}$ 的分佈，其中 $Y\sim \chi _{\color {blue}\nu }^{2}$ 且 $Z\sim {\mathcal {N}}(0,1)$ .

備註。

$t_{1}=\operatorname {Cauchy} (0)$ 且 $t_{\infty }={\mathcal {N}}(0,1)$ （ $\infty$ 是擴充套件的實數）。
當 ${\color {blue}\nu }\downarrow$ 時，pdf 的尾部更重。
一個服從 （學生） $t$ -分佈，帶有 ${\color {blue}\nu }$ 個自由度的隨機變數 $X$ ，記為 $X\sim t_{\color {blue}\nu }$ .
可以證明， $t_{\color {blue}\nu }$ 的 pdf 為

$f(x;{\color {blue}\nu })={\frac {\Gamma {\big (}({\color {blue}\nu }+1)/2{\big )}}{{\sqrt {{\color {blue}\nu }\pi }}\Gamma ({\color {blue}\nu }/2)}}\left({\frac {\color {blue}\nu }{x^{2}+{\color {blue}\nu }}}\right)^{({\color {blue}\nu }+1)/2}.$

F 分佈

$F$ 分佈在某種程度上是廣義的學生 $t$ 分佈，因為它多了一個可變引數來表示另一個自由度。

定義。 ( $F$ 分佈) 具有 ${\color {red}\nu _{1}}$ 和 ${\color {blue}\nu _{2}}$ 自由度的 $F$ -分佈，記為 $F_{{\color {red}\nu _{1}},{\color {blue}\nu _{2}}}$ ，是 ${\frac {X_{1}/{\color {red}\nu _{1}}}{X_{2}/{\color {blue}\nu _{2}}}}$ 的分佈，其中 $X_{1}\sim \chi _{\color {red}\nu _{1}}^{2}$ 且 $X_{2}\sim \chi _{\color {blue}\nu _{2}}^{2}$ .

備註。

$F_{1,\nu }=t_{\nu }^{\color {purple}2}$ .
一個服從 $F$ -分佈 的隨機變數 $X$ ，具有 ${\color {red}\nu _{1}}$ 和 ${\color {blue}\nu _{2}}$ 自由度，記為 $X\sim F_{{\color {red}\nu _{1}},{\color {blue}\nu _{2}}}$ 。
可以證明， $F_{{\color {red}\nu _{1}},{\color {blue}\nu _{2}}}$ 的機率密度函式為

$f(x;{\color {red}\nu _{1}},{\color {blue}\nu _{2}})={\frac {\Gamma {\big (}({\color {red}\nu _{1}}+{\color {blue}\nu _{2}})/2{\big )}{\color {red}\nu _{1}}^{{\color {red}\nu _{1}}/2}{\color {blue}\nu _{2}}^{{\color {blue}\nu _{2}}/2}}{\Gamma ({\color {red}\nu _{1}}/2)\Gamma ({\color {blue}\nu _{2}}/2)}}\cdot {\frac {x^{{\color {red}\nu _{1}}/2-1}}{({\color {blue}\nu _{2}}+{\color {red}\nu _{1}}x)^{({\color {red}\nu _{1}}+{\color {blue}\nu _{2}})/2}}}.$

如果您想了解卡方分佈、學生 $t$ -分佈 和 $F$ -分佈 在統計學中的用途，您可以簡要瀏覽一下，例如，統計學/區間估計（置信區間構建中的應用）和統計學/假設檢驗（假設檢驗中的應用）。

聯合分佈

多項式分佈

動機

多項式分佈是廣義二項式分佈，因為每次試驗的結果不止兩種。

假設有 $n$ 個物件要分配到 $k$ 個單元格，每個物件獨立分配到一個且僅一個單元格，分配到第 $i$ 個單元格的機率為 $p_{i}$ ( $i=1,2,\dotsc ,k$ ) ^[12]。設 $X_{i}$ 為分配到第 $i$ 個單元格的物件數量。我們想計算機率 $\mathbb {P} {\big (}\mathbf {X} {\overset {\text{ def }}{=}}(X_{1},\dotsc ,X_{k})^{T}=\mathbf {x} {\overset {\text{ def }}{=}}(x_{1},\dotsc ,x_{k})^{T}{\big )}$ ，即第 $i$ 個單元格有 $x_{i}$ 個物件的機率。

我們可以將每個分配視為一個獨立的試驗，有 $k$ 種結果（因為它只能分配到 $k$ 個單元格中的一個）。我們可以認識到，對 $n$ 個物件的分配是將 $n$ 個物件劃分為 $k$ 組。因此，有 ${\binom {n}{x_{1},\dotsc ,x_{k}}}$ 種分配方式。

所以， $\mathbb {P} (\mathbf {X} =\mathbf {x} )={\binom {n}{x_{1},\dotsc ,x_{k}}}p_{1}^{x_{1}}\dotsb p_{k}^{x_{k}}.$ 特別地，將 $x_{i}$ 個物件分配到第 $i$ 個單元格的機率是 $p_{i}^{x_{i}}$ ，根據獨立性，因此將 $n$ 個物件分配到 $k$ 個單元格的特定分配情況的機率為 $p_{1}^{x_{1}}\dotsb p_{k}^{x_{k}}$ ，根據獨立性。

定義

定義. (多項式分佈) 一個隨機向量 $\mathbf {X} =(X_{1},\dotsc ,X_{k})^{T}$ 遵循多項式分佈，其中有 $n$ 次試驗和機率向量 $\mathbf {p} =(p_{1},\dotsc ,p_{k})^{T}$ ，記為 $\mathbf {X} \sim \operatorname {Multinom} (n,\mathbf {p} )$ ，如果其聯合機率質量函式為 $f_{\mathbf {X} }(x_{1},\dotsc ,x_{k};n,\mathbf {p} )={\binom {n}{x_{1},\dotsc ,x_{k}}}p_{1}^{x_{1}}\dotsb p_{k}^{x_{k}},\quad x_{1},\dotsc ,x_{k}\geq 0,{\text{ and }}x_{1}+\dotsb +x_{k}=n.$

備註。

$\operatorname {Multinom} (n,\mathbf {p} )\equiv \operatorname {Binom} (n,p)$ 如果 $\mathbf {p} =(p,1-p)^{T}$ .

在這種情況下，如果 $(X_{1},X_{2})^{T}\sim \operatorname {Multinom} (n,\mathbf {p} )$ ， $X_{1}$ 是二項式分佈的成功次數（而 $X_{2}(=n-X_{1})$ 是失敗次數）。

此外， $X_{i}\sim \operatorname {Binom} (n,p_{i})$ 。可以從將物件分配到第 $i$ 個單元格作為“成功”來看出，對於每個單個物件的分配^[13]。然後，成功的機率為 $p_{i}$ 。

多元正態分佈

多元正態分佈，顧名思義，是正態分佈（單變數）的多變數（以及推廣）版本。

Definition. (Multivariate normal distribution) A random vector $\mathbf {X} =(X_{1},\dotsc ,X_{k})^{T}$ follows the $k$ -dimensional normal distribution with mean vector ${\boldsymbol {\mu }}$ and covariance matrix ${\boldsymbol {\Sigma }}$ , denoted by $\mathbf {X} \sim {\mathcal {N}}_{k}({\boldsymbol {\mu }},{\boldsymbol {\Sigma }})$ ^[14] if its joint pdf is $f_{\mathbf {X} }(x_{1},\dotsc ,x_{k};{\boldsymbol {\mu }},{\boldsymbol {\Sigma }})={\frac {\exp \left(-(\mathbf {x} -{\boldsymbol {\mu }})^{T}{\boldsymbol {\Sigma }}^{-1}(\mathbf {x} -{\boldsymbol {\mu }})/2\right)}{\sqrt {(2\pi )^{k}\det {\boldsymbol {\Sigma }}}}},\quad \mathbf {x} =(x_{1},\dotsc ,x_{k})^{T}\in \mathbb {R} ^{k}$ in which ${\boldsymbol {\mu }}=(\mu _{1},\dotsc ,\mu _{k})^{T}=(\mathbb {E} [X_{1}],\dotsc ,\mathbb {E} [X_{k}])^{T}$ is the mean vector, and ${\boldsymbol {\Sigma }}={\begin{pmatrix}\operatorname {Cov} (X_{1},X_{1})&\cdots &\operatorname {Cov} (X_{1},X_{k})\\\vdots &\ddots &\vdots \\\operatorname {Cov} (X_{k},X_{1})&\cdots &\operatorname {Cov} (X_{k},X_{k})\end{pmatrix}}={\begin{pmatrix}\sigma _{1}^{2}&\cdots &\operatorname {Cov} (X_{1},X_{k})\\\vdots &\ddots &\vdots \\\operatorname {Cov} (X_{k},X_{1})&\cdots &\sigma _{k}^{2}\end{pmatrix}}$ is the covariance matrix (with size $k\times k$ ).

備註。

情況 $k=2$ 的分佈更常用，它被稱為雙變數正態分佈。
一個替代且等效的定義是 $\mathbf {X} =(X_{1},\dotsc ,X_{k})^{T}\sim {\mathcal {N}}_{k}({\boldsymbol {\mu }},{\boldsymbol {\Sigma }})$ ，如果

${\begin{aligned}X_{1}&=a_{11}Z_{1}+\dotsb +a_{1n}Z_{n}+\mu _{1};\\\vdots \\X_{k}&=a_{k1}Z_{1}+\dotsb +a_{kn}Z_{n}+\mu _{k},\\\end{aligned}}$

對於一些常數

a_{11},\dotsc ,a_{1n},\dotsc ,a_{k1},\dotsc ,a_{kn},\mu _{1},\dotsc ,\mu _{k}

，以及

Z_{1},\dotsc ,Z_{n}

是

n

個獨立同分布的標準正態隨機變數。

利用上述結果， $X_{i}$ 所服從的邊緣分佈為 ${\mathcal {N}}(\mu _{i},\sigma _{i}^{2}),\quad i=1,2,\dotsc ,{\text{ or }}k$ ，正如預期的那樣。

根據獨立正態隨機變數之和的命題以及正態隨機變數線性變換的分佈（參見機率/隨機變數的變換章節），均值為 $0+\dotsb +0+\mu _{i}=\mu _{i}$ ，方差為 $a_{i1}^{2}+\dotsb +a_{in}^{2}$ （根據定義，這等於 $\sigma _{i}^{2}$ ）。

命題。（雙變數正態分佈的聯合機率密度函式） ${\mathcal {N}}_{2}({\boldsymbol {\mu }},{\boldsymbol {\Sigma }})$ 的聯合機率密度函式為 $f(x,y)={\frac {1}{2\pi \sigma _{X}\sigma _{Y}{\sqrt {1-\rho ^{2}}}}}\exp \left(-{\frac {1}{2(1-\rho ^{2})}}\left(\left({\frac {x-\mu _{X}}{\sigma _{X}}}\right)^{2}-2\rho \left({\frac {x-\mu _{X}}{\sigma _{X}}}\right)\left({\frac {y-\mu _{Y}}{\sigma _{Y}}}\right)+\left({\frac {y-\mu _{Y}}{\sigma _{Y}}}\right)^{2}\right)\right),\quad (x,y)^{T}\in \mathbb {R} ^{2}$

其中

\rho =\rho (X,Y)

且

\sigma _{X},\sigma _{Y}

為正數。

證明。對於雙變數正態分佈，

均值向量 為 ${\boldsymbol {\mu }}=(\mu _{X},\mu _{Y})$ ；
該 協方差矩陣 是 ${\boldsymbol {\Sigma }}={\begin{pmatrix}\operatorname {Cov} (X,X)&\operatorname {Cov} (X,Y)\\\operatorname {Cov} (Y,X)&\operatorname {Cov} (Y,Y)\end{pmatrix}}={\begin{pmatrix}\operatorname {Var} (X)&\operatorname {Cov} (X,Y)\\\operatorname {Cov} (X,Y)&\operatorname {Var} (Y)\\\end{pmatrix}}={\begin{pmatrix}\sigma _{X}^{2}&\rho \sigma _{X}\sigma _{Y}\\\rho \sigma _{X}\sigma _{Y}&\sigma _{Y}^{2}\\\end{pmatrix}}.$
因此，

${\begin{aligned}(\mathbf {x} -{\boldsymbol {\mu }})^{T}{\boldsymbol {\Sigma }}^{-1}(\mathbf {x} -{\boldsymbol {\mu }})&={\frac {1}{\det {\boldsymbol {\Sigma }}}}\left((x-\mu _{X},y-\mu _{Y})^{T}\right)^{T}{\begin{pmatrix}\sigma _{Y}^{2}&-\rho \sigma _{X}\sigma _{Y}\\-\rho \sigma _{X}\sigma _{Y}&\sigma _{X}^{2}\\\end{pmatrix}}(x-\mu _{X},y-\mu _{Y})^{T})\\&={\frac {1}{\det {\boldsymbol {\Sigma }}}}{\begin{pmatrix}{\color {blue}x-\mu _{X}}&{\color {red}y-\mu _{Y}}\end{pmatrix}}{\begin{pmatrix}{\color {darkgreen}\sigma _{Y}^{2}}&{\color {darkorange}-\rho \sigma _{X}\sigma _{Y}}\\{\color {purple}-\rho \sigma _{X}\sigma _{Y}}&{\color {maroon}\sigma _{X}^{2}}\\\end{pmatrix}}{\begin{pmatrix}x-\mu _{X}\\y-\mu _{Y}\end{pmatrix}}\\&={\frac {1}{\det {\boldsymbol {\Sigma }}}}{\begin{pmatrix}{\color {blue}(x-\mu _{X})}{\color {darkgreen}\sigma _{Y}^{2}}{\color {purple}-}{\color {red}(y-\mu _{Y})}{\color {purple}\rho \sigma _{X}\sigma _{Y}}&{\color {darkorange}-}{\color {blue}(x-\mu _{X})}{\color {darkorange}\rho \sigma _{X}\sigma _{Y}}+{\color {red}(y-\mu _{Y})}{\color {maroon}\sigma _{X}^{2}}\end{pmatrix}}{\begin{pmatrix}{\color {deeppink}x-\mu _{X}}\\{\color {deeppink}y-\mu _{Y}}\end{pmatrix}}\\&={\frac {1}{\underbrace {\det {\boldsymbol {\Sigma }}} _{\sigma _{X}^{2}\sigma _{Y}^{2}-(\rho \sigma _{X}\sigma _{Y})^{2}}}}{\big (}(x-\mu _{X})^{\color {deeppink}2}\sigma _{Y}^{2}\underbrace {-{\color {deeppink}(x-\mu _{X})}(y-\mu _{Y})\rho \sigma _{X}\sigma _{Y}-(x-\mu _{X}){\color {deeppink}(y-\mu _{Y})}\rho \sigma _{X}\sigma _{Y}} _{=-2\rho (x-\mu _{X})(y-\mu _{Y})\sigma _{X}\sigma _{Y}}+(y-\mu _{Y})^{\color {deeppink}2}\sigma _{X}^{2}{\big )}\\&={\frac {(x-\mu _{X})^{2}\sigma _{Y}^{2}-2\rho (x-\mu _{X})(y-\mu _{Y})\sigma _{X}\sigma _{Y}+(y-\mu _{Y})^{2}\sigma _{X}^{2}}{\sigma _{X}^{2}\sigma _{Y}^{2}(1-\rho )^{2}}}\\&={\frac {1}{1-\rho ^{2}}}\left(\left({\frac {x-\mu _{X}}{\sigma _{X}}}\right)^{2}-2\rho \left({\frac {(x-\mu _{X})(y-\mu _{Y})}{\sigma _{X}\sigma _{Y}}}\right)+\left({\frac {y-\mu _{Y}}{\sigma _{Y}}}\right)^{2}\right).\end{aligned}}$

聯合pdf為

${\begin{aligned}f(x,y)&={\frac {1}{\sqrt {(2\pi )^{2}\det {\boldsymbol {\Sigma }}}}}\exp \left(-{\frac {1}{2}}\cdot {\frac {1}{1-\rho ^{2}}}\left(\left({\frac {x-\mu _{X}}{\sigma _{X}}}\right)^{2}-2\rho \left({\frac {(x-\mu _{X})(y-\mu _{Y})}{\sigma _{X}\sigma _{Y}}}\right)+\left({\frac {y-\mu _{Y}}{\sigma _{Y}}}\right)^{2}\right)\right)\\&={\frac {1}{2\pi {\sqrt {\sigma _{X}^{2}\sigma _{Y}^{2}(1-\rho ^{2})}}}}\exp \left({\frac {-1}{2(1-\rho ^{2})}}\left(\left({\frac {x-\mu _{X}}{\sigma _{X}}}\right)^{2}-2\rho \left({\frac {(x-\mu _{X})(y-\mu _{Y})}{\sigma _{X}\sigma _{Y}}}\right)+\left({\frac {y-\mu _{Y}}{\sigma _{Y}}}\right)^{2}\right)\right)\\&={\frac {1}{2\pi \sigma _{X}\sigma _{Y}{\sqrt {1-\rho ^{2}}}}}\exp \left({\frac {-1}{2(1-\rho ^{2})}}\left(\left({\frac {x-\mu _{X}}{\sigma _{X}}}\right)^{2}-2\rho \left({\frac {x-\mu _{X}}{\sigma _{X}}}\right)\left({\frac {y-\mu _{Y}}{\sigma _{Y}}}\right)+\left({\frac {y-\mu _{Y}}{\sigma _{Y}}}\right)^{2}\right)\right).\\\end{aligned}}$

$\Box$

隨機變數

機率
重要分佈

聯合分佈與獨立性

↑ 或者，我們可以將事件定義為 $\{i{\text{th Bernoulli trial is a failure}}\}.$
↑ 'indpt.' 代表獨立。
↑ 這是因為存在對（可區分和有序）的無序選擇 ${\color {darkgreen}r}$ 次試驗以獲得 '成功'，從 ${\color {blue}n}$ 次試驗中進行不放回抽樣（然後剩餘的位置用於 '失敗'）。
↑ 將罕見事件的發生視為'成功'，而罕見事件的未發生則視為'失敗'。
↑ 與二項分佈的結果不同，每個 ${\color {red}x}$ 只有一個 可能的 序列。
↑ 從 ${\color {red}x}+{\color {darkgreen}k}-1$ 次試驗中進行 ${\color {red}x}$ 次 '失敗'（或 ${\color {darkgreen}k}-1$ 次 '成功'）的無序選擇。
↑ 對 $k$ 的限制是為了使二項式係數有定義，即該表示式 '有意義'。在實踐中，我們很少直接使用這個條件。相反，我們通常直接確定 $x$ 的特定值是否 '有意義'。
↑ 這超出了本書的範圍。
↑ 機率 '在區間上均勻分佈'。
↑ 與其他輕尾分佈（例如正態分佈）相比，服從柯西分佈的隨機變數具有相對較高的機率取 極端值。在圖形上，pdf 的 '尾部'（即左端和右端）。
↑ 對於 $a<0$ 的情況類似（不等號方向相反，最終我們將有兩個負號相互抵消）。同樣，當 $a=0$ 時，隨機變數變為非隨機常數，因此我們對此情況不感興趣。
↑ 那麼， $p_{1}+p_{2}+\dotsb +p_{k}=1$ 。
↑ 如果該物件被分配到除 $i$ 格以外的格，那麼它就 '失敗'。
↑ 對於 ${\mathcal {N}}$ 的下標 $k$ 是為了強調該分佈是 $k$ 維的，是可選的。

[1] 或者，我們可以將事件定義為 $\{i{\text{th Bernoulli trial is a failure}}\}.$

[2] 'indpt.' 代表獨立。

[3] 這是因為存在對（可區分和有序）的無序選擇 ${\color {darkgreen}r}$ 次試驗以獲得 '成功'，從 ${\color {blue}n}$ 次試驗中進行不放回抽樣（然後剩餘的位置用於 '失敗'）。

[4] 將罕見事件的發生視為'成功'，而罕見事件的未發生則視為'失敗'。

[5] 與二項分佈的結果不同，每個 ${\color {red}x}$ 只有一個 可能的 序列。

[6] 從 ${\color {red}x}+{\color {darkgreen}k}-1$ 次試驗中進行 ${\color {red}x}$ 次 '失敗'（或 ${\color {darkgreen}k}-1$ 次 '成功'）的無序選擇。

[7] 對 $k$ 的限制是為了使二項式係數有定義，即該表示式 '有意義'。在實踐中，我們很少直接使用這個條件。相反，我們通常直接確定 $x$ 的特定值是否 '有意義'。

[8] 這超出了本書的範圍。

[9] 機率 '在區間上均勻分佈'。

[10] 與其他輕尾分佈（例如正態分佈）相比，服從柯西分佈的隨機變數具有相對較高的機率取 極端值。在圖形上，pdf 的 '尾部'（即左端和右端）。

[11] 對於 $a<0$ 的情況類似（不等號方向相反，最終我們將有兩個負號相互抵消）。同樣，當 $a=0$ 時，隨機變數變為非隨機常數，因此我們對此情況不感興趣。

[12] 那麼， $p_{1}+p_{2}+\dotsb +p_{k}=1$ 。

[13] 如果該物件被分配到除 $i$ 格以外的格，那麼它就 '失敗'。

[14] 對於 ${\mathcal {N}}$ 的下標 $k$ 是為了強調該分佈是 $k$ 維的，是可選的。

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]

[12]

[13]

[14]

	$\operatorname {HypGeo} (650,100,300)$
	$\operatorname {HypGeo} (650,350,100)$
	$\operatorname {HypGeo} (650,250,100)$
	$\operatorname {HypGeo} (650,100,100)$
	$\operatorname {HypGeo} (650,100,350)$

	$\operatorname {Binom} (200,0.001)$
	$\operatorname {Binom} (200,0.999)$
	$\operatorname {Binom} (20000,0.001)$
	$\operatorname {Binom} (20000,0.999)$
	$\operatorname {Binom} (2,0.001)$

	是。
	不是。

正確答案加一分
錯誤答案的得分
忽略問題的係數

	二項分佈。
	泊松分佈。
	幾何分佈。
	負二項分佈。
	超幾何分佈。

	二項分佈。
	泊松分佈。
	幾何分佈。
	負二項分佈。
	超幾何分佈。