機率/分佈的性質

聯合分佈和獨立性

機率
分佈的性質

條件分佈

引言

回想一下，pdf（或 cdf）描述了隨機變數完全的隨機行為。然而，我們有時會發現 pdf（或 cdf）過於複雜，只想知道關於隨機變數的一些部分資訊。鑑於此，我們在本章中研究了一些分佈的性質，這些性質提供了隨機變數隨機行為的部分描述。

此類部分描述的一些示例包括

位置（例如，pdf 位於左側還是右側？），
分散度（例如，pdf 是“尖銳”還是“扁平”？），
偏度（例如，pdf 是對稱的，向左偏斜還是向右偏斜？），以及
尾部性質（例如，pdf 具有“輕”尾部還是“重”尾部？）。

我們可以定性地描述它們，但此類描述非常主觀且不準確。為了給出這些描述更客觀和準確的度量，我們使用從隨機變數的 pdf（或 cdf）中推匯出的某些定量度量定量地評估它們。

我們將在本章中討論一些此類定量度量。其中，期望是最重要的一個，因為許多其他性質都基於期望的概念。

期望

期望有不同的替代名稱，例如預期值和均值。

定義。（期望）隨機變數 $X$ 的期望是

(i) (如果 $X$ 是離散的) $\mathbb {E} [X]=\sum _{x\in \operatorname {supp} (X)}^{}x\mathbb {P} (X=x)=\sum _{x\in \operatorname {supp} (X)}^{}x\underbrace {f(x)} _{\text{pmf}}$ ，其中 $f$ 是 $X$ 的 pmf；

(ii) (如果 $X$ 是連續的) $\mathbb {E} [X]=\int _{-\infty }^{\infty }x\underbrace {f(x)} _{\text{pdf}}\,dx$ ，其中 $f$ 是 $X$ 的 pdf；

(iii) (如果 $X$ 是混合的) 如果 $X={\begin{cases}{\text{discrete random variable}}\;V\;{\text{with probability}}\;\alpha ,\\{\text{continuous random variable}}\;W\;{\text{with probability}}\;1-\alpha ,\end{cases}}$ $\mathbb {E} [X]=\alpha \mathbb {E} [V]+(1-\alpha )\mathbb {E} [W]=\alpha \sum _{u\in \operatorname {supp} (X)}^{}v\underbrace {f_{V}(v)} _{\text{pmf}}+(1-\alpha )\int _{-\infty }^{\infty }w\underbrace {f_{W}(w)} _{\text{pdf}}\,dw,$ 其中 $f_{V}$ 是 $V$ 的 pmf，而 $f_{W}$ 是 $W$ 的 pdf。

備註。

$X$ 的期望是我們對 $X$ 值的預期，如果我們要對 $X$ 進行觀測。
它實際上是 $X$ 所有可能取值（即 $\operatorname {supp} (X)$ ）的 加權平均，其中對 pmf 或 pdf 值更高 的點賦予 更重的 權重。
期望告訴我們 $X$ 分佈的“中心”，以及 $X$ 在長期生成時的“平均”位置。
實際上，“ $\in \operatorname {supp} (X)$ ” 是不需要的，因為對於不在其支援範圍內的輸入，pmf 或 pdf 將為零。

示例： 假設 $X$ 是擲一次公平的六面骰子後朝上的數字。那麼， $X$ 的期望值為 $\mathbb {E} [X]=1[\underbrace {\mathbb {P} (X=1)} _{1/6}]+2[\underbrace {\mathbb {P} (X=2)} _{1/6}]+\cdots +6[\underbrace {\mathbb {P} (X=6)} _{1/6}]=3.5.$ 如果骰子是不公平的，並且數字“6”朝上的機率變成 0.5，而其他五個數字朝上的機率相等，那麼 $X$ 的期望值將變成 $\mathbb {E} [X]=1[\underbrace {\mathbb {P} (X=1)} _{0.1}]+2[\underbrace {\mathbb {P} (X=2)} _{0.1}]+\cdots +5[\underbrace {\mathbb {P} (X=5)} _{0.1}]+6[\underbrace {\mathbb {P} (X=6)} _{0.5}]=4.5.$

示例。 （均勻分佈的期望）設 $X\sim {\mathcal {U}}[a,b]$ ，為引數為 $a$ 和 $b$ 的均勻分佈。那麼， $X$ 的機率密度函式為 $f(x)={\frac {\mathbf {1} \{x\in [a,b]\}}{b-a}},$ ， $X$ 的期望為 $\mathbb {E} [X]=\int _{-\infty }^{\infty }x{\frac {\mathbf {1} \{x\in [a,b]\}}{b-a}}\,dx={\frac {1}{b-a}}\underbrace {\int _{a}^{b}x\,dx} _{b^{2}/2-a^{2}/2}={\frac {b^{2}-a^{2}}{2(b-a)}}={\frac {{\cancel {(b-a)}}(b+a)}{2{\cancel {(b-a)}}}}={\frac {a+b}{2}}.$

練習。 在一個過程中，我們首先拋一次 不公平 的硬幣，正面朝上的機率為 $p$ 。如果第一次拋擲正面朝上，我們再拋一次 另一個不公平 的硬幣，正面朝上的機率為 $q$ 。如果第一次拋擲反面朝上，我們向地面拋射一支箭。設 $X$ 為所有拋擲中正面的次數， $Y$ 為箭頭的方向與正北方向之間的角度，以弧度逆時針測量， $Z$ 為該過程最終得到的數字。假設 $Y\sim {\mathcal {U}}[0,2\pi )$ 。

接下來，我們將介紹一個有用的結果，它給出了期望和機率之間的關係。我們可以利用這個結果，用期望來簡化機率的計算。

命題. (機率和期望之間的基本橋樑) 對於每個事件 $E\subseteq \Omega$ , $\mathbb {E} [\mathbf {1} \{E\}]=\mathbb {P} (E).$

證明. 令 $X=\mathbf {1} \{E\}$ 。因為 $X=\mathbf {1} \{E\}\sim \operatorname {Ber} (\mathbb {P} (E))$ (這是一個離散隨機變數)， $\mathbb {E} [X]=0[\mathbb {P} (X=0)]+1[\mathbb {P} (X=1)]=\mathbb {P} (\mathbf {1} \{E\}=1)=\mathbb {P} (E).$

$\Box$

當涉及多個隨機變數時，我們可以先推匯出聯合pmf或pdf來計算期望，但這可能非常困難和複雜。實際上，我們更常使用以下定理。

定理. (無意識統計學家法則(LOTUS)) 令 $X_{1},\ldots ,X_{n}$ 為隨機變數。定義 $Y=g(X_{1},\ldots ,X_{n})$ 對於一個函式 $g$ 。那麼，

(i) (如果 $Y$ 是離散的) $\mathbb {E} [Y]=\sum _{x_{1}}^{}\cdots \sum _{x_{n}}^{}g(x_{1},\ldots ,x_{n})\underbrace {f(x_{1},\ldots ,x_{n})} _{\text{joint pmf}},$ 其中 $f$ 是 $(X_{1},\ldots ,X_{n})$ 的聯合機率質量函式；

(ii) (如果 $Y$ 是連續的) $\mathbb {E} [Y]=\int _{-\infty }^{\infty }\cdots \int _{-\infty }^{\infty }g(x_{1},\ldots ,x_{n})\underbrace {f(x_{1},\ldots ,x_{n})} _{\text{joint pdf}}\,dx_{1}\cdots \,dx_{n},$ 其中 $f$ 是 $(X_{1},\ldots ,X_{n})$ 的聯合機率密度函式。

備註。

如果 $Y$ 是混合的，我們可以應用期望的定義，並使用上面兩個關於離散和連續隨機變數的期望的結果。
這個定理被稱為 無意識統計學家定律，因為我們經常傾向於使用這個等式而不意識到它是一個定理的結果，而不是一個定義。
這個定理也適用於只有一個隨機變數的情況（聯合機率質量函式和機率密度函式變成普通機率質量函式和機率密度函式），例如：

$\mathbb {E} [g(X)]=\int _{-\infty }^{\infty }g(x)f(x)\,dx$

證明相當複雜，因此我們跳過它。接下來，我們將介紹期望的幾個性質，這些性質可以幫助我們簡化期望的計算。

命題。 (期望的性質) 對於每個常數 $\alpha ,\beta ,\gamma$ 和隨機變數 $X,Y$ ,

(線性) $\mathbb {E} [\alpha X+\beta Y+\gamma ]=\alpha \mathbb {E} [X]+\beta \mathbb {E} [Y]+\gamma$ ;
(非負性) 如果 $X\geq 0$ , $\mathbb {E} [X]\geq 0$ ;
(單調性) 如果 $X\geq Y$ , $\mathbb {E} [X]\geq \mathbb {E} [Y]$ ;
(三角不等式) $|\mathbb {E} [X]|\leq \mathbb {E} [|X|]$ ;
(獨立性下的乘法性) 如果 $X,Y$ 是獨立的, $\mathbb {E} [XY]=\mathbb {E} [X]\mathbb {E} [Y]$ .

證明。

線性:

對於連續隨機變數 $X,Y$ ， ${\begin{aligned}\mathbb {E} [\alpha X+\beta Y+\gamma ]=\int _{-\infty }^{\infty }\int _{-\infty }^{\infty }(\alpha x+\beta y+\gamma )\underbrace {f(x,y)} _{\text{joint pdf}}\,dx\,dy&=\alpha \int _{-\infty }^{\infty }x\underbrace {\int _{-\infty }^{\infty }f(x,y)\,dy} _{{\text{marginal pdf of }}X}\,dx+\beta \int _{-\infty }^{\infty }y\underbrace {\int _{-\infty }^{\infty }f(x,y)\,dx} _{{\text{margianl pdf of }}Y}\,dy+\gamma \underbrace {\int _{-\infty }^{\infty }f(x,y)\,dx\,dy} _{1}\\&=\alpha \underbrace {\int _{-\infty }^{\infty }xf_{X}(x)\,dx} _{\mathbb {E} [X]}+\beta \underbrace {\int _{-\infty }^{\infty }yf_{Y}(y)\,dy} _{\mathbb {E} [Y]}+\gamma \\&=\alpha \mathbb {E} [X]+\beta \mathbb {E} [Y]+\gamma .\end{aligned}}$ 類似地，對於離散隨機變數 $X,Y$ ， ${\begin{aligned}\mathbb {E} [\alpha X+\beta Y+\gamma ]&=\sum _{x}^{}\sum _{y}^{}(\alpha x+\beta y+\gamma )f(x,y)\\&=\alpha \sum _{x}^{}x\sum _{y}^{}f(x,y)+\beta \sum _{y}^{}y\sum _{x}^{}f(x,y)+\gamma \sum _{x}^{}\sum _{y}^{}f(x,y)\\&=\alpha \sum _{x}^{}f_{X}(x)+\beta \sum _{y}^{}f_{Y}(y)+\gamma (1)\\&=\alpha \mathbb {E} [X]+\beta \mathbb {E} [Y]+\gamma .\end{aligned}}$

非負性:

對於連續隨機變數 $X$ ， $\underbrace {\int _{0}^{\infty }} _{\because X\geq 0}xf_{X}(x)\geq 0.$ 類似地，對於離散隨機變數 $X$ ， $\underbrace {\sum _{x\geq 0}^{}} _{\because X\geq 0}xf_{X}(x)\geq 0.$

單調性:

對於隨機變數 $X,Y$ ，它們要麼都是離散的，要麼都是連續的， $X\geq Y\Rightarrow X-Y\geq 0\Rightarrow \mathbb {E} [X]-\mathbb {E} [Y]{\overset {\text{linearity}}{=}}\mathbb {E} [X-Y]{\overset {\text{nonnegativity}}{\geq }}0.$

三角不等式:

$-|X|\leq X\leq |X|{\overset {\text{monotonicity}}{\Rightarrow }}-{\color {green}\mathbb {E} [}|X|{\color {green}]}\leq {\color {green}\mathbb {E} [}X{\color {green}]}\leq {\color {green}\mathbb {E} [}|X|{\color {green}]}$

獨立性下的乘法性:

對於連續隨機變數 $X,Y$ ， $\mathbb {E} [XY]=\int _{-\infty }^{\infty }\int _{-\infty }^{\infty }xy\underbrace {f(x,y)} _{\text{joint pdf}}\,dx\,dy={\color {red}\int _{-\infty }^{\infty }}{\color {blue}\int _{-\infty }^{\infty }x}{\color {red}y}\underbrace {{\color {blue}f_{X}(x)}{\color {red}f_{Y}(y)}} _{\text{marginal pdf's}}{\color {blue}\,dx}{\color {red}\,dy}={\color {red}\int _{-\infty }^{\infty }yf_{Y}(y)}\underbrace {\color {blue}\int _{-\infty }^{\infty }xf_{X}(x)\,dx} _{{\text{independent from }}y}{\color {red}\,dy}={\color {blue}\int _{-\infty }^{\infty }xf_{X}(x)\,dx}{\color {red}\int _{-\infty }^{\infty }yf_{Y}(y)\,dy}=\mathbb {E} [X]\mathbb {E} [Y].$ 同樣地，對於離散隨機變數 $X,Y$ ， $\mathbb {E} [XY]=\sum _{x}^{}\sum _{y}^{}xy\underbrace {f(x,y)} _{\text{joint pmf}}={\color {red}\sum _{y}^{}}{\color {blue}\sum _{x}^{}x}{\color {red}y}\underbrace {{\color {blue}f_{X}(x)}{\color {red}f_{Y}(y)}} _{\text{marginal pmf's}}=\left({\color {blue}\sum _{x}^{}xf_{X}(x)}\right)\left({\color {red}\sum _{y}^{}yf_{Y}(y)}\right)=\mathbb {E} [X]\mathbb {E} [Y].$

$\Box$

備註。

(非乘法性) $\mathbb {E} [XY]\neq \mathbb {E} [X]\mathbb {E} [Y]$ 一般情況下.
當期望內部的函式為非線性函式時，我們不能類似地應用線性性質。例如， $\mathbb {E} [2^{X}]\neq 2^{\mathbb {E} [X]}$ 一般情況下。
從線性性質，我們可以看到常數的期望值就是常數本身。這是直觀的，因為我們對常數的期望值就是常數本身。
獨立性下乘法性的逆命題在一般情況下是正確的，但並不總是成立。對於某些特殊的相關隨機變數，逆命題不成立。

離散隨機變數某些分佈的均值

命題. (伯努利和二項式隨機變數的均值) 設 $X\sim \operatorname {Ber} (p)$ 且 $Y\sim \operatorname {Binom} (n,p)$ . 那麼， $\mathbb {E} [X]=p$ ，且 $\mathbb {E} [Y]=np$ .

證明。

$\mathbb {E} [X]=\underbrace {0\cdot \mathbb {P} (X=0)} _{=0}+1\cdot \underbrace {\mathbb {P} (X=1)} _{=p}=p$ .
因為 $Y=X_{1}+\dotsb +X_{n}$ ，其中 $X_{1},\dotsc ,X_{n}$ 是獨立同分布的，服從 $\operatorname {Ber} (p)$ ^[1],
$\mathbb {E} [Y]=\mathbb {E} [X_{1}+\dotsb +X_{n}]{\overset {\text{ linearity }}{=}}\mathbb {E} [X_{1}]+\dotsb +\mathbb {E} [X_{n}]=\underbrace {p+\dotsb +p} _{n{\text{ times}}}=np$ .

$\Box$

命題。 (泊松隨機變數的均值) 令 $X\sim \operatorname {Pois} (\lambda )$ . 則 $\mathbb {E} [X]=\lambda .$

證明。 $\mathbb {E} [X]=\sum _{k=0}^{\infty }k\underbrace {\left({\frac {\lambda ^{k}e^{-\lambda }}{k!}}\right)} _{\mathbb {P} (X=k)}=\lambda \left(0+\sum _{\underbrace {\color {blue}k=1} _{k-1=0}}^{\infty }\underbrace {{\cancel {k}}\left({\frac {\lambda ^{k-1}e^{-\lambda }}{{\cancel {k}}(k-1)!}}\right)} _{\mathbb {P} (X=k-1)}\right)=\lambda (0+1)=\lambda .$

$\Box$

命題。 (幾何隨機變數和負二項式隨機變數的均值) 令 $X\sim \operatorname {Geo} (p)$ 和 $Y\sim \operatorname {NB} (k,p)$ . 則 $\mathbb {E} [X]={\frac {1-p}{p}}$ , 以及 $\mathbb {E} [Y]={\frac {k(1-p)}{p}}$ .

證明。

由於

${\begin{aligned}\mathbb {E} [X]&=\sum _{k=0}^{\infty }k\underbrace {(1-p)^{k}p} _{\mathbb {P} (X=k)}\\&=\sum _{k=0}^{\infty }(k-1)(1-p)^{k}p+\overbrace {\sum _{k=0}^{\infty }\underbrace {(1-p)^{k}p} _{\mathbb {P} (X=k)}} ^{=1}\\&=\underbrace {\color {blue}(0-1)(1-p)^{0}p} _{=-p}+\left((1-p)\sum _{\color {blue}k-1=0}^{\infty }(k-1)(1-p)^{k-1}p\right)+1\\&=-p+(1-p)\mathbb {E} [X]+1,\\\end{aligned}}$

因此， $\;p\mathbb {E} [X]=1-p\Rightarrow \mathbb {E} [X]={\frac {1-p}{p}}.$ .
由於 $Y=X_{1}+\dotsb +X_{k}$ ，其中 $X_{1},\dotsc ,X_{k}$ 是 i.i.d.，並服從 $\operatorname {Geo} (p)$ ^[2],
$\mathbb {E} [Y]=\mathbb {E} [X_{1}]+\dotsb +\mathbb {E} [X_{k}]=\underbrace {{\frac {1-p}{p}}+\dotsb +{\frac {1-p}{p}}} _{k{\text{ times}}}={\frac {k(1-p)}{p}}.$

$\Box$

命題. （超幾何隨機變數的均值）設 $X\sim \operatorname {HypGeo} (N,K,n)$ 。那麼， $\mathbb {E} [X]=nK/N$ .

證明。

由於 $X=X_{1}+\dotsb +X_{n}$ ，其中 $X_{1},\dotsc ,X_{n}\sim \operatorname {Ber} (K/N)$ （每個伯努利隨機變數指示相應的球是否為型別 1，機率為 $K/N$ ，而不知道其他抽取的結果 ^[3]，因為每次抽取都等可能地是 $N$ 個球中的任何一個） ^[4] ，
因此， $\mathbb {E} [X]=\mathbb {E} [X_{1}]+\dotsb +\mathbb {E} [X_{n}]=\underbrace {{\frac {K}{N}}+\dotsb +{\frac {K}{N}}} _{n{\text{ times}}}={\frac {nK}{N}}.$

$\Box$

連續隨機變數的一些分佈的均值

我們將介紹一些連續隨機變數分佈的均值公式，這些公式相對簡單。

命題.（均勻隨機變數的均值）設 $X\sim {\mathcal {U}}[a,b]$ （ $a<b$ ）。則， $\mathbb {E} [X]={\frac {a+b}{2}}$ .

證明. $\mathbb {E} [X]=\int _{a}^{b}{\frac {x}{b-a}}\,dx={\frac {1}{2(b-a)}}(b^{2}-a^{2})={\frac {{\cancel {(b-a)}}(b+a)}{2{\cancel {(b-a)}}}}.$

$\Box$

命題.（伽馬、指數和卡方隨機變數的均值）設 $X\sim \operatorname {Gamma} (\alpha ,\lambda )$ ， $Y\sim \operatorname {Exp} (\lambda )$ ，以及 $Z\sim \chi _{\nu }^{2}$ 。則， $\mathbb {E} [X]=\alpha /\lambda$ ， $\mathbb {E} [Y]=1/\lambda$ ，以及 $\mathbb {E} [Z]=\nu$ .

證明。

證明伽馬隨機變數均值公式就足夠了，因為指數和卡方隨機變數本質上是伽馬隨機變數的特例，因此我們可以簡單地將一些值代入伽馬隨機變數均值公式中，得到它們的公式。
${\begin{aligned}\mathbb {E} [X]&=\int _{0}^{\infty }{\color {red}x}\cdot {\frac {\lambda ^{\alpha }x^{\alpha -1}e^{-\lambda x}}{\Gamma (\alpha )}}\,dx\\&={\frac {\color {purple}\alpha }{\color {blue}\lambda }}\underbrace {\int _{0}^{\infty }{\frac {\lambda ^{\alpha {\color {blue}+1}}x^{\alpha {\color {red}+1}-1}e^{-\lambda x}}{\Gamma (\alpha {\color {purple}+1})}}\,dx} _{=F(\infty )=1},&F{\text{ is the cdf of }}\operatorname {Gamma} (\alpha +1,\lambda ),\\&={\frac {\alpha }{\lambda }}.\\\end{aligned}}$
由於 $\operatorname {Exp} (\lambda )\equiv \operatorname {Gamma} (1,\lambda )$ ，將 $\alpha =1$ 代入，則 $\mathbb {E} [Y]=1/\lambda$ 。
由於 $\chi _{\nu }^{2}\equiv \operatorname {Gamma} (\nu /2,1/2)$ ，將 $\alpha =\nu /2$ 和 $\lambda =1/2$ 代入，則 $\mathbb {E} [Z]=(\nu {\cancel {/2}})/{\cancel {(1/2)}}=\nu$ 。

$\Box$

命題. （貝塔隨機變數的均值）令 $X\sim \operatorname {Beta} (\alpha ,\beta )$ 。那麼， $\mathbb {E} [X]={\frac {\alpha }{\alpha +\beta }}$ 。

證明。

我們使用與之前證明類似的方法。

${\begin{aligned}\mathbb {E} [X]&=\int _{0}^{1}{\color {red}x}\cdot {\frac {\Gamma (\alpha +\beta )}{\Gamma (\alpha )\Gamma (\beta )}}x^{\alpha -1}(1-x)^{\beta -1}\,dx\\&={\frac {\color {purple}\alpha }{\color {blue}\alpha +\beta }}\underbrace {\int _{0}^{1}{\frac {\Gamma (\alpha +\beta {\color {blue}+1})}{\Gamma (\alpha {\color {purple}+1})\Gamma (\beta )}}x^{\alpha {\color {red}+1}-1}(1-x)^{\beta -1}\,dx} _{F(1)=1},&F{\text{ is the cdf of }}\operatorname {Beta} (\alpha +1,\beta ),\\&={\frac {\alpha }{\alpha +\beta }}.\end{aligned}}$

$\Box$

命題。 (柯西隨機變數的未定義均值) 令 $X\sim \operatorname {Cauchy} (\theta )$ . 那麼， $\mathbb {E} [X]$ 是 未定義.

證明. ${\begin{aligned}\mathbb {E} [X]&=\mathbb {E} [X{\color {blue}-\theta }]{\color {blue}+\theta }&{\text{by linearity}},\\&=\theta +{\frac {1}{\pi }}\int _{-\infty }^{\infty }(x-\theta )\cdot {\frac {1}{1+(x-\theta )^{2}}}\,dx\\&=\theta +{\frac {1}{\pi }}\int _{-\infty }^{\infty }{\frac {u}{1+u^{2}}}\,du,&{\text{let }}u=x-\theta \Rightarrow du=dx,\\&=\theta +{\frac {1}{\pi }}\left(\int _{-\infty }^{0}{\frac {u}{1+u^{2}}}\,du+\int _{0}^{\infty }{\frac {u}{1+u^{2}}}\,du\right)\\&=\theta +{\frac {1}{\pi }}\left({\frac {1}{2}}[\ln(1+u^{2})]_{u=-\infty }^{u=0}+{\frac {1}{2}}[\ln(1+u^{2})]_{u=0}^{u=\infty }\right)\\&=\theta +{\frac {1}{\pi }}(\underbrace {-\infty +\infty } _{\text{undefined}}).\end{aligned}}$

$\Box$

命題. (正態隨機變數的均值) 假設 $X\sim {\mathcal {N}}(\mu ,\sigma ^{2})$ . 那麼， $\mathbb {E} [X]=\mu$ .

證明。

設 $Z={\frac {X-\mu }{\sigma }}\sim {\mathcal {N}}(0,1)$ .
${\begin{aligned}\mathbb {E} [Z]&=\int _{-\infty }^{\infty }x\varphi (x)\,dx\\&={\frac {1}{\sqrt {2\pi }}}\int _{-\infty }^{\infty }xe^{-x^{2}/2}\,dx\\&=-{\frac {1}{\sqrt {2\pi }}}\int _{-\infty }^{-\infty }e^{u}\,du,&{\text{let }}u=-{\frac {x^{2}}{2}}\Rightarrow du=-dx\\&=-{\frac {1}{\sqrt {2\pi }}}(\underbrace {e^{-\infty }} _{=0}-\underbrace {e^{-\infty }} _{=0})\\&=0.\end{aligned}}$
因此， $\mathbb {E} [X]=\mathbb {E} [\sigma Z+\mu ]=\sigma \underbrace {\mathbb {E} [Z]} _{=0}+\mu =\mu$ .

$\Box$

例子

例子. （聖彼得堡悖論）考慮一個遊戲，玩家擲一枚公平的硬幣 $X$ 次，直到出現正面。由於 $X-1\sim \operatorname {Geo} (1/2)$ ，期望值 of $X-1$ 是 $\underbrace {\mathbb {E} [X-1]} _{\mathbb {E} [X]-1}={\frac {1-1/2}{1/2}}\Rightarrow \mathbb {E} [X]=1+1={\color {green}2}.$ 也就是說，玩家平均需要兩次投擲才能出現正面。

遊戲獎勵玩家 $\$8$ 來玩這個遊戲，但玩家必須在出現正面後償還 $\$2^{X}$ 。

有些人可能認為玩家的預期淨收益是 $\$8-\$2^{\color {green}2}=\$4,$ 所以玩家在這個遊戲中佔有優勢。

然而，這是 錯誤的，因為正確預期的淨收益應該是 $\mathbb {E} \left[8-2^{X}\right]{\overset {\text{linearity}}{=}}8-\mathbb {E} \left[2^{X}\right]=8-\sum _{x=1}^{\infty }[2^{x}\cdot \underbrace {(1/2)^{x-1}(1/2)} _{{\text{pdf of }}X}]=8-\sum _{x=1}^{\infty }1=-\infty ,$ 也就是說，平均來說，玩家將 無限虧損!

練習。

	$\mathbb {E} [X]\geq 0$ 對於每個隨機變數 $X$ .
	$\mathbb {E} [\|X\|]\geq 0$ 對於每個隨機變數 $X$ .
	$\|\mathbb {E} [X]\|\geq 0$ 對於每個隨機變數 $X$ .
	$\mathbb {E} [XYZ]=\mathbb {E} [X]\mathbb {E} [Y]\mathbb {E} [Z]$ 如果隨機變數 $X,Y$ 和 $Z$ 是成對獨立的。

	$a\mathbb {E} [X]+\mathbb {E} [bY+c]$
	$c\mathbb {E} [(a/c)X+(b/c)Y]+c$
	$(b-a)k+c$
	$\mathbb {E} [-ak+bk+c]$

讓我們用這個橋樑來證明容斥原理，以此說明機率和期望之間基本橋樑的用途。

例：（容斥公式的證明）回想容斥公式是

對於每個事件

A_{1},A_{2},\ldots

和

A_{n}

,

$\mathbb {P} (A_{1}\cup A_{2}\cup \cdots \cup A_{n})=\sum _{j=1}^{n}(-1)^{j-1}\sum _{i_{1}<i_{2}<\cdots <i_{j}}^{}\mathbb {P} (A_{i_{1}}\cap A_{i_{2}}\cap \cdots \cap A_{i_{j}}).$ 證明如下：

${\begin{aligned}&&X&=\mathbf {1} \{A_{1}\cup \cdots \cup A_{n}\}\\&&&=1-\mathbf {1} \{A_{1}^{c}\cap \cdots \cap A_{n}^{c}\}\\&&&=1-\mathbf {1} \{A_{1}^{c}\}\cdots \mathbf {1} \{A_{n}^{c}\}\\&&&=1-(1-\mathbf {1} \{A_{1}\})\cdots (1-\mathbf {1} \{A_{n}\})\\&&&=\mathbf {1} \{A_{1}\}+\cdots +\mathbf {1} \{A_{n}\}-(\underbrace {\mathbf {1} \{A_{1}\}\mathbf {1} \{A_{2}\}} _{\mathbf {1} \{A_{1}\cap A_{2}\}}+\cdots +\underbrace {\mathbf {1} \{A_{n-1}\}\mathbf {1} \{A_{n}\}} _{\mathbf {1} \{A_{n-1}\cap A_{n}\}})+(\cdots )-(\cdots )\cdots +(-1)^{n-1}\underbrace {\mathbf {1} \{A_{1}\}\cdots \mathbf {1} \{A_{n}\}} _{\mathbf {1} \{A_{1}\cap \cdots \cap A_{n}\}}\\&&&=\sum _{j=1}^{n}(-1)^{j-1}\sum _{i_{1}<\cdots <i_{j}}^{}\mathbf {1} \{A_{i_{1}}\cap \cdots \cap A_{i_{j}}\}\\&\Rightarrow &\underbrace {\mathbb {E} [\mathbf {1} \{A_{1}\cup \cdots \cup A_{n}\}]} _{\mathbb {P} (A_{1}\cup \cdots \cup A_{n})}&=\sum _{j=1}^{n}(-1)^{j-1}\sum _{i_{1}<\cdots <i_{j}}^{}\underbrace {\mathbb {E} \left[\mathbf {1} \{A_{i_{1}}\cap \cdots \cap A_{i_{j}}\}\right]} _{\mathbb {P} \left(A_{i_{1}}\cap \cdots \cap A_{i_{j}}\right)}\qquad {\text{by linearity}}\\\end{aligned}}$ $\Box$

機率生成函式

期望的一個應用是 機率生成函式。顧名思義，它可以生成一些意義上的機率。

定義： （機率生成函式）令 $X$ 是一個離散的隨機變數，其支撐集為 $\{0,1,2,\dotsc \}$ 。 $X$ 的 機率生成函式 是 $G(y)=\mathbb {E} [y^{X}]=\sum _{x=0}^{\infty }y^{x}\mathbb {P} (X=x).$

備註。

還有 矩生成函式，它可以生成一些意義上的矩（下一節定義）。我們將在隨機變數的變換一章中討論。
透過對機率生成函式求導，我們可以生成機率

${\frac {1}{k!}}\cdot \left.{\frac {d^{k}}{dy^{k}}}G(y)\right|_{k=0}=\mathbb {P} (X=k).$

這可以透過直接計算導數來看到。

方差（和標準差）

事實上，方差是中心矩 的一個特例，並且在某種程度上與矩相關。

定義. ( $r$ 階矩) 隨機變數 $X$ 的 $r$ 階矩是 $\mathbb {E} [X^{r}]$ .

定義. ( $r$ 階中心矩) 隨機變數 $X$ 的 $r$ 階中心矩 是 $\mathbb {E} {\bigg [}(X-\underbrace {\mathbb {E} [X]} _{\text{constant}})^{r}{\bigg ]}$ .

定義. (方差) 隨機變數 $X$ 的方差，記為 $\operatorname {Var} (X)$ ，是它的二階中心矩，即 $\mathbb {E} {\bigg [}(X-\underbrace {\mathbb {E} [X]} _{\text{constant}})^{2}{\bigg ]}$ .

由於 $(X-\mathbb {E} [X])^{2}$ 是 $X$ 的值與其平均值的平方偏差，根據方差的定義，我們可以看到方差衡量了分佈的離散度（或擴充套件），因為它是我們對隨機變數進行觀測時預期的平方偏差。

另一個密切相關的術語是標準差。

定義. (標準差) 隨機變數 $X$ 的標準差，通常記為 $\sigma$ ，是 ${\sqrt {\operatorname {Var} (X)}}$ 。

備註。

標準差的解釋與方差類似
標準差有時也簡寫為's.d.'
隨機變數 $X$ 的標準差與 $X$ 具有相同的單位，這是它的一個優勢，也是使用標準差而不是方差來衡量離散程度的原因之一。
由於標準差通常用 $\sigma$ 表示，因此我們可以將方差表示為 $\sigma ^{2}$ ，儘管它不像 $\operatorname {Var} (\cdot )$ 表示法那麼常見。

命題。（方差的性質）

（方差的另一種表示式）

$\operatorname {Var} (X)=\mathbb {E} \left[X^{2}\right]-\left(\mathbb {E} [X]\right)^{2}$

（在位置引數變化下保持不變）

$\operatorname {Var} (X+a)=\operatorname {Var} (X)$ 對於每個常數 $a$

（二階齊次性）

$\operatorname {Var} (bX)=b^{2}\operatorname {Var} (X)$ 對於每個常數 $b$

（非負性）

$\operatorname {Var} (X)\geq 0$

（零方差意味著非隨機性）

$\operatorname {Var} (X)=0\Rightarrow X={\text{non-random constant}}\Leftrightarrow {\text{there exists a constant }}c{\text{ such that }}\mathbb {P} (X=c)=1$

（獨立性下的可加性）

$X_{1},\ldots ,X_{n}{\text{ are independent}}\Rightarrow \operatorname {Var} (X_{1}+\cdots +X_{n})=\operatorname {Var} (X_{1})+\cdots +\operatorname {Var} (X_{n})$

證明。

方差的另一種表示式

設

\mu =\mathbb {E} [X]

為了更清晰的表達。

$\mathbb {E} \left[(X-\mu )^{2}\right]=\mathbb {E} \left[X^{2}-2X\mu +\mu ^{2}\right]=\mathbb {E} \left[X^{2}\right]-2\mu \underbrace {\mathbb {E} [X]} _{\mu }+\mu ^{2}=\mathbb {E} \left[X^{2}\right]-\mu ^{2},$ 然後得出結論。

在位置引數變化下保持不變

$\operatorname {Var} (X+a)=\mathbb {E} {\bigg [}(X{\cancel {+a}}-\underbrace {\mathbb {E} [X+a]} _{\mathbb {E} [X]{\cancel {+a}}})^{2}{\bigg ]}=\mathbb {E} \left[(X-\mathbb {E} [X])^{2}\right]=\operatorname {Var} (X).$

非負性：它來自 $(X-\mathbb {E} [X])^{2}\geq 0$ .
零方差意味著非隨機性

設

\mu =\mathbb {E} [X]

為了更清晰的表達。考慮事件

E_{n}=\{|X-\mu |\geq n^{-1}\}

，其中

n

是一個正整數。

由於

0=\operatorname {Var} (X)=\mathbb {E} \left[(X-\mu )^{2}\right]\geq \mathbb {E} [(X-\mu )^{2}\underbrace {\mathbf {1} \{E_{n}\}} _{\leq 1}]=\mathbb {E} \left[|X-a|^{2}\mathbf {1} \{E_{n}\}\right]\geq \mathbb {E} [\underbrace {n^{-2}} _{\text{constant}}\mathbf {1} \{E_{n}\}]=\underbrace {n^{-2}} _{\geq 0}\underbrace {\mathbb {P} (E_{n})} _{\geq 0}\geq 0,

我們有

0\geq n^{-2}\mathbb {P} (E_{n})\geq 0\Rightarrow 0\geq \mathbb {P} (E_{n})\geq 0\Rightarrow \mathbb {P} (E_{n})=0

.

因此，

$\mathbb {P} (\underbrace {|X-\mu |>0} _{X\neq \mu })=\mathbb {P} \left(\bigcup _{n=1}^{\infty }E_{n}\right){\overset {\text{a lemma}}{=}}\lim _{n\to \infty }\underbrace {\mathbb {P} (E_{n})} _{0}=0\Rightarrow \mathbb {P} (X=\mu )=1-\underbrace {\mathbb {P} (X\neq \mu )} _{0}=1$

獨立性下的可加性

對於每個隨機變數

X

和

Y

，它們是相互獨立的，其期望值分別為

\mu ,\nu

${\begin{aligned}\operatorname {Var} (X+Y)&=\mathbb {E} \left[(X+Y-\mathbb {E} [X+Y])^{2}\right]\\\operatorname {Var} (X+Y)&=\mathbb {E} \left[(X+Y-\mu -\nu )^{2}\right]&{\text{by linearity}}\\&=\underbrace {\mathbb {E} \left[(X-\mu )^{2}\right]} _{\operatorname {Var} (X)}+\underbrace {\mathbb {E} \left[(Y-\nu )^{2}\right]} _{\operatorname {Var} (Y)}+2\mathbb {E} [(X-\mu )(Y-\nu )]&{\text{by linearity}}\\&=\operatorname {Var} (X)+\operatorname {Var} (Y)+2\mathbb {E} [XY]-2\nu \mathbb {E} [X]-2\mu \mathbb {E} [Y]+2\mu \nu &{\text{by linearity}}\\&=\operatorname {Var} (X)+\operatorname {Var} (Y)+2\underbrace {\mathbb {E} [X]\mathbb {E} [Y]} _{\mu \nu }-2\nu \mu {\cancel {-2\mu \nu }}{\cancel {+2\mu \nu }}&{\text{by independence of }}X,Y\\&=\operatorname {Var} (X)+\operatorname {Var} (Y){\cancel {+2\mu \nu }}{\cancel {-2\nu \mu }}\\&=\operatorname {Var} (X)+\operatorname {Var} (Y).\end{aligned}}$ 因此，透過歸納， $\operatorname {Var} (X_{1}+\cdots +X_{n})=\operatorname {Var} (X_{1})+\operatorname {Var} (X_{2}+\cdots +X_{n})=\cdots =\operatorname {Var} (X_{1})+\cdots +\operatorname {Var} (X_{n})$ 如果 $X_{1},\ldots ,X_{n}$ 是獨立的。

$\Box$

離散隨機變數的一些分佈的方差

命題。（伯努利和二項式隨機變數的方差）設 $X\sim \operatorname {Ber} (p)$ 且 $Y\sim \operatorname {Binom} (n,p)$ 。則， $\operatorname {Var} (X)=p(1-p)$ 且 $\operatorname {Var} (Y)=np(1-p)$ 。

證明。

$\mathbb {E} [X^{2}]=0\cdot \mathbb {P} (X=0)+1\cdot \mathbb {P} (\underbrace {X^{2}=1} _{\Leftrightarrow X=1})=p$ ，因為 $X$ 是非負的。
由此可得 $\operatorname {Var} (X)=\mathbb {E} [X^{2}]-(\mathbb {E} [X])^{2}=p-p^{2}=p(1-p)$ 。
類似於伯努利和二項式隨機變數均值的證明， $Y=X_{1}+\dotsb +X_{n}$ ，其中 $X_{1},\dotsc ,X_{n}$ 是獨立同分布的，且服從 $\operatorname {Ber} (p)$ 。
由於 獨立性（來自獨立同分布的性質）， $\operatorname {Var} (Y)=\underbrace {\operatorname {Var} (X_{1})+\dotsb +\operatorname {Var} (X_{n})} _{n{\text{ times}}}=np(1-p).$

$\Box$

命題。（泊松隨機變數的方差）設 $X\sim \operatorname {Pois} (\lambda )$ 。則， $\operatorname {Var} (X)=\lambda$ 。

證明。

$\mathbb {E} [X^{2}]=\sum _{k=0}^{\infty }k^{2}\underbrace {\left({\frac {\lambda ^{k}e^{-\lambda }}{k!}}\right)} _{\mathbb {P} (X=k)}=\lambda \left(0+\sum _{\underbrace {\color {blue}k=1} _{k-1=0}}^{\infty }{\cancel {k}}\left({\frac {k\lambda ^{k-1}e^{-\lambda }}{{\cancel {k}}(k-1)!}}\right)\right)=\lambda \left(\underbrace {\sum _{k-1=0}^{\infty }{\frac {(k{\color {red}-1})e^{-\lambda }\lambda ^{k-1}}{(k-1)!}}} _{\mathbb {E} [X]}+{\color {red}\overbrace {\sum _{k-1=0}^{\infty }\underbrace {\frac {e^{-\lambda }\lambda ^{k-1}}{(k-1)!}} _{\mathbb {P} (X=k-1)}} ^{=1}}\right)=\lambda (\lambda +1).$
因此， $\operatorname {Var} (X)=\mathbb {E} [X^{2}]-(\mathbb {E} [X])^{2}=\lambda (\lambda +1)-\lambda ^{2}=\lambda .$

$\Box$

命題。 （幾何分佈和負二項分佈的方差）令 $X\sim \operatorname {Geo} (p)$ 且 $Y\sim \operatorname {NB} (k,p)$ 。那麼， $\operatorname {Var} (X)={\frac {1-p}{p^{2}}}$ ，且 $\mathbb {E} [Y]={\frac {k(1-p)}{p^{2}}}$ .

證明。

由於

${\begin{aligned}\mathbb {E} [X]&=\sum _{k=0}^{\infty }k^{2}\underbrace {(1-p)^{k}p} _{\mathbb {P} (X=k)}\\&=\sum _{k=0}^{\infty }(k-1+1)^{2}\underbrace {(1-p)^{k}p} _{\mathbb {P} (X=k)}\\&=\sum _{k=0}^{\infty }(k-1)^{2}(1-p)^{k}p+\sum _{k=0}^{\infty }2(k-1)(1-p)^{k}p+\overbrace {\sum _{k=0}^{\infty }\underbrace {(1-p)^{k}p} _{\mathbb {P} (X=k)}} ^{=1}\\&=\underbrace {\color {blue}(0-1)^{2}(1-p)^{0}p} _{=p}+(1-p)\sum _{\color {blue}k-1=0}^{\infty }(k-1)^{2}(1-p)^{k-1}p+\underbrace {\color {red}2(0-1)(1-p)^{0}p} _{=-2p}+2(1-p)\sum _{\color {red}k-1=0}^{\infty }(k-1)(1-p)^{k-1}p+1\\&=p+(1-p)\mathbb {E} [X^{2}]-2p+2(1-p)\underbrace {\mathbb {E} [X]} _{(1-p)/p}+1\\&=(1-p)\mathbb {E} [X^{2}]+{\frac {2(1-p)^{2}}{p}}+1-p,\\\end{aligned}}$

由此可知 $\;p\mathbb {E} [X^{2}]={\frac {2(1-p)^{2}}{p}}+1-p\Rightarrow \mathbb {E} [X^{2}]={\frac {2(1-p)^{2}+p(1-p)}{p^{2}}}$ .
因此， $\operatorname {Var} (X)=\mathbb {E} [X^{2}]-(\mathbb {E} [X])^{2}={\frac {2(1-p)^{2}+p(1-p)}{p^{2}}}-{\frac {(1-p)^{2}}{p^{2}}}={\frac {(1-p)^{2}+p(1-p)}{p^{2}}}={\frac {(1-p)(1{\cancel {-p+p}})}{p^{2}}}$ .
類似地， $Y=X_{1}+\dotsb +X_{k}$ 其中 $X_{1},\dotsc ,X_{k}$ 是獨立同分布的，並且服從 $\operatorname {Geo} (p)$ ^[5]。
由於獨立性， $\operatorname {Var} (Y)=\operatorname {Var} (X_{1})+\dotsb +\operatorname {Var} (X_{k})=\underbrace {{\frac {1-p}{p^{2}}}+\dotsb +{\frac {1-p}{p^{2}}}} _{k{\text{ times}}}={\frac {k(1-p)}{p^{2}}}.$

$\Box$

連續隨機變數的一些分佈的方差

命題。 (均勻隨機變數的方差) 令 $X\sim {\mathcal {U}}[a,b]$ 。( $a<b$ ) 那麼， $\operatorname {Var} (X)={\frac {(b-a)^{2}}{12}}$ .

證明。 ${\begin{aligned}\operatorname {Var} (X)&=\mathbb {E} \left[X^{2}\right]-(\mathbb {E} [X])^{2}\\&=\int _{a}^{b}{\frac {x^{2}}{b-a}}\,dx-\left({\frac {b+a}{2}}\right)^{2}\\&={\frac {1}{b-a}}\left(b^{3}/3-a^{3}/3\right)-\left({\frac {a+b}{2}}\right)^{2}\\&={\frac {1}{3(b-a)}}\left(b^{3}-a^{3}\right)-\left({\frac {a+b}{2}}\right)^{2}\\&={\frac {1}{3{\cancel {(b-a)}}}}{\cancel {(b-a)}}(b^{2}+ba+a^{2})-{\frac {a^{2}+2ab+b^{2}}{4}}\\&={\frac {{\color {blue}{\cancel {4}}}b^{2}{\color {purple}{\cancel {+4ab}}}+{\color {red}{\cancel {4}}}a^{2}{\color {blue}{\cancel {-3b^{2}}}}-{\color {purple}{\overset {2}{\cancel {6}}}}ab{\color {red}{\cancel {-3a^{2}}}}}{12}}\\&={\frac {b^{2}-2ab+a^{2}}{12}}\\&={\frac {(b-a)^{2}}{12}}.\\\end{aligned}}$

$\Box$

命題。 (伽馬、指數和卡方隨機變數的方差) 令 $X\sim \operatorname {Gamma} (\alpha ,\lambda )$ , $Y\sim \operatorname {Exp} (\lambda )$ , 和 $Z\sim \chi _{\nu }^{2}$ . 那麼， $\operatorname {Var} (X)=\alpha /\lambda ^{2}$ , $\operatorname {Var} (Y)=1/\lambda ^{2}$ , 和 $\operatorname {Var} (Z)=2\nu$ .

證明。

類似地，只需證明伽馬隨機變數方差的公式即可。
${\begin{aligned}\mathbb {E} [X^{2}]&=\int _{0}^{\infty }{\color {red}x^{2}}\cdot {\frac {\lambda ^{\alpha }x^{\alpha -1}e^{-\lambda x}}{\Gamma (\alpha )}}\,dx\\&={\frac {\color {purple}(\alpha +1)\alpha }{\color {blue}\lambda ^{2}}}\underbrace {\int _{0}^{\infty }{\frac {\lambda ^{\alpha {\color {blue}+2}}x^{\alpha {\color {red}+2}-1}e^{-\lambda x}}{\Gamma (\alpha {\color {purple}+2})}}\,dx} _{=F(\infty )=1},&F{\text{ is the cdf of }}\operatorname {Gamma} (\alpha +2,\lambda ),\\&={\frac {(\alpha +1)\alpha }{\lambda ^{2}}}.\\\end{aligned}}$
因此， $\operatorname {Var} (X)=\mathbb {E} [X^{2}]-(\mathbb {E} [X]^{2})={\frac {({\cancel {\alpha }}+1)\alpha }{\lambda ^{2}}}{\cancel {-{\frac {\alpha ^{2}}{\lambda ^{2}}}}}={\frac {\alpha }{\lambda ^{2}}}.$
因為 $\operatorname {Exp} (\lambda )\equiv \operatorname {Gamma} (1,\lambda )$ ，將 $\alpha =1$ 代入，可得 $\operatorname {Var} (Y)=1/\lambda ^{2}$ 。
因為 $\chi _{\nu }^{2}\equiv \operatorname {Gamma} (\nu /2,1/2)$ ，將 $\alpha =\nu /2$ 和 $\lambda =1/2$ 代入，可得 $\operatorname {Var} (Z)=(\nu /2)/(1/2)^{2}=2\nu$ 。

$\Box$

提案。 假設 $X\sim \operatorname {Beta} (\alpha ,\beta )$ 。那麼， $\operatorname {Var} (X)={\frac {\alpha \beta }{(\alpha +\beta )^{2}(\alpha +\beta +1)}}$ 。

證明。

${\begin{aligned}\mathbb {E} [X^{2}]&=\int _{0}^{1}{\color {red}x^{2}}\cdot {\frac {\Gamma (\alpha +\beta )}{\Gamma (\alpha )\Gamma (\beta )}}x^{\alpha -1}(1-x)^{\beta -1}\,dx\\&={\frac {\color {purple}(\alpha +1)\alpha }{\color {blue}(\alpha +\beta +1)(\alpha +\beta )}}\underbrace {\int _{0}^{1}{\frac {\Gamma (\alpha +\beta {\color {blue}+2})}{\Gamma (\alpha {\color {purple}+2})\Gamma (\beta )}}x^{\alpha {\color {red}+2}-1}(1-x)^{\beta -1}\,dx} _{F(1)=1},&F{\text{ is the cdf of }}\operatorname {Beta} (\alpha +2,\beta ),\\&={\frac {(\alpha +1)\alpha }{(\alpha +\beta +1)(\alpha +\beta )}}.\end{aligned}}$
由此可知， ${\begin{aligned}\operatorname {Var} (X)&=\mathbb {E} [X^{2}]-(\mathbb {E} [X])^{2}={\frac {(\alpha +1)\alpha }{(\alpha +\beta +1)(\alpha +\beta )}}-{\frac {\alpha ^{2}}{(\alpha +\beta )^{2}}}\\&={\frac {(\alpha +1)(\alpha )(\alpha +\beta )-\alpha ^{2}(\alpha +\beta +1)}{(\alpha +\beta )^{2}(\alpha +\beta +1)}}\\&={\frac {\alpha ({\cancel {\alpha ^{2}+\alpha \beta +\alpha }}+\beta {\cancel {-\alpha ^{2}-\alpha \beta -\alpha }})}{(\alpha +\beta )^{2}(\alpha +\beta +1)}}\\&={\frac {\alpha \beta }{(\alpha +\beta )^{2}(\alpha +\beta +1)}}.\\\end{aligned}}$

$\Box$

命題。（柯西隨機變數的未定義方差）令 $X\sim \operatorname {Cauchy} (\theta )$ 。那麼， $\operatorname {Var} (X)$ 是 未定義的。

證明。 由於柯西隨機變數的未定義平均值的命題，以及公式 $\operatorname {Var} (X)=\mathbb {E} [X^{2}]-(\mathbb {E} [X])^{2}$ （任意項減去未定義項是未定義的）。

$\Box$

命題。 （正態隨機變數的方差）令 $X\sim {\mathcal {N}}(\mu ,\sigma ^{2})$ 。那麼， $\operatorname {Var} (X)=\sigma ^{2}$ 。

證明。

設 $Z={\frac {X-\mu }{\sigma }}\sim {\mathcal {N}}(0,1)$ .
${\begin{aligned}\mathbb {E} [Z^{2}]&=\int _{-\infty }^{\infty }x^{2}\varphi (x)\,dx\\&={\frac {1}{\sqrt {2\pi }}}\int _{-\infty }^{\infty }x^{2}e^{-x^{2}/2}\,dx\\&=-{\frac {1}{\sqrt {2\pi }}}\int _{-\infty }^{\infty }xd(e^{-x^{2}/2})\\&=-{\frac {1}{\sqrt {2\pi }}}\left([xe^{-x^{2}/2}]_{-\infty }^{\infty }-\int _{-\infty }^{\infty }e^{-x^{2}/2}\,dx\right)&{\text{by integration by parts}},\\&=-{\frac {1}{\sqrt {2\pi }}}\left(0-0-\int _{-\infty }^{\infty }e^{-x^{2}/2}\,dx\right)&{\text{since exponential function }}\downarrow {\text{ much faster than linear function, or by L'Hospital rule}},\\&=\underbrace {\int _{-\infty }^{\infty }\varphi (x)\,dx} _{=\Phi (\infty )=1}\\&=1.\end{aligned}}$
因此， $\operatorname {Var} (Z)=\mathbb {E} [Z^{2}]-(\mathbb {E} [Z])^{2}=1-0=1$ .
因此， $\operatorname {Var} (X)=\operatorname {Var} (\sigma Z+\mu )=\sigma ^{2}\operatorname {Var} (Z)=\sigma ^{2}$ .

$\Box$

練習。

	$\operatorname {Var} (aX)=0\Rightarrow X={\text{non-random constant}}$ 對於每個常數 $a$ .
	$\operatorname {Var} (aX+b)=a^{2}\operatorname {Var} (X)$ 對於每個隨機變數 $X$ ，以及每個常數 $a,b$ 。
	$\operatorname {Var} (X)=\mathbb {E} [X]\Rightarrow X={\text{non-random constant}}$
	$\operatorname {Var} (X)\leq 0$ 如果 $X\leq 0$
	隨機變數 $X$ 的標準差， $\sigma <\operatorname {Var} (X)$

變異係數

定義.（變異係數） 變異係數 是 標準差 與均值之比，即 $\sigma /\mu$ 。

備註。

它也被稱為相對標準差，因為它測量了相對於均值的離散程度。
因此，它比沒有均值的標準差更準確地描述了離散程度。
此外，變異係數沒有單位。
所以，它在比較不同資料集的離散程度時很有用。
它顯示了相對於均值的離散程度。
然而，如果均值為零，則變異係數將無法定義。因此，這是一個侷限性。

示例. 如果 $\mathbb {E} [X]=10$ 且 $\sigma _{X}=2$ ，那麼對於每個 $a\neq 0$ ， $aX$ 的變異係數是 ${\frac {\sqrt {\operatorname {Var} (aX)}}{\mathbb {E} [aX]}}={\frac {\sqrt {a^{2}\operatorname {Var} (X)}}{a\mathbb {E} [X]}}={\frac {|a|\operatorname {Var} (X)}{a\mathbb {E} [X]}}={\begin{cases}1/5,\quad a>0;\\-1/5,\quad a<0,\end{cases}}$ ，而 $X$ 的變異係數為 1/5，等於 $aX$ 的變異係數，如果 $a>0$ ，等於 $aX$ 的變異係數的負數，如果 $a<0$ （它們的大小相同，即絕對值相同）。這是預期的，因為隨機變數本身的縮放不應該影響其分散程度。

練習。

備註。

一般來說，當均值為負時，變異係數將是非正的，因為標準差始終是非負的。

分位數

接下來，我們將討論 分位數。特別是，中位數 和 四分位距 與 分位數 密切相關。

定義。（分位數） 分位數 的階數為 $\alpha$ ( $\alpha$ 分位數) 的隨機變數 $X$ 是 $F^{-1}(\alpha )=\inf\{x\in \mathbb {R} :F(x)>\alpha \}.$

備註。

分位數的定義 不唯一。有一些替代定義，即

$\inf\{x\in \mathbb {R} :F(x)\geq \alpha \},\sup\{x\in \mathbb {R} :F(x)\leq \alpha \}{\text{ and }}\sup\{x\in \mathbb {R} :F(x)<\alpha \}.$

如果 $F$ 是 嚴格遞增 的，所有替代定義都變得等價，並且等於 cdf 在 $\alpha$ 處的逆函式 $F^{-1}(\alpha )$ ，因此我們可以透過求解方程 $F(x)=\alpha$ 來計算 $\alpha$ 分位數。
實際應用僅關注 $\alpha \in (0,1)$ 。

以下是與 分位數 相關的術語。

定義。（百分位數） $(100\alpha )$ 百分位數 是 $\alpha$ 分位數。

示例。 第 70 個百分位數是第 0.7 個分位數。

定義。（中位數） 中位數 是第 0.5 個分位數。

定義。（四分位數） $j$ 四分位數是 $(j/4)$ 分位數，其中 $j\in \{1,2,3\}$ 。

示例。 第 2 個四分位數是第 0.5 個分位數，也就是中位數。

定義。（四分位距） 四分位距 是第 3 個四分位數減去第 1 個四分位數。

中位數 和 四分位距 分別衡量了資料的集中趨勢和離散程度。回想一下，均值和方差分別衡量了相同的東西。中位數 和 四分位距 的一個優點是它們是 穩健的，因為它們始終定義，而均值和方差可能無限大，在這些情況下，它們無法衡量集中趨勢和離散程度。然而，中位數 和 四分位距 也有一些缺點，例如，它們可能更難計算，並且可能不太準確。

示例。 （均勻分佈的分位數）引數為 $a$ 和 $b>a$ 的均勻分佈的 $\alpha$ 分位數是 $a+\alpha (b-a),$ 因為 $F(x)={\frac {x-a}{b-a}}\mathbf {1} \{a<x<b\}=\alpha \Rightarrow x=F^{-1}(\alpha )=a+\alpha (b-a),$ 我們可以看到，如果 $\alpha \in (0,1)$ ，則 $x\in (a,b)$ 。

然後，均勻分佈的 中位數 是 ${\frac {a+b}{2}}$ ，它與均值相同，而均勻分佈的 四分位距 是 ${\cancel {a}}+(3/4)(b-a){\cancel {-a}}-(1/4)(b-a)={\frac {b-a}{2}},$ ，它與方差不同，即 ${\frac {(b-a)^{2}}{12}}$ 。

練習。

眾數

眾數是衡量集中趨勢的另一種方法。

定義。 （眾數）

機率質量函式 (pmf) 或機率密度函式 (pdf) 的眾數是 $x$ 的值，在該值處 pmf (pdf) 取得其最大值（區域性最大值）。

備註。

眾數是最有可能被取樣的值（對於 pmf）。
眾數的使用頻率低於均值。

示例。 投擲一個公平的六面骰子時出現的數字的 pmf 的眾數是 1、2、3、4、5 和 6，因為每個數字出現的機率是 1/6，所以 pmf 在這些數字的每個數字處都取得其最大值（1/6）。

練習。

備註。

從這個例子中，我們可以看到眾數並不一定是唯一的。

協方差和相關係數

在本節中，我們將討論聯合分佈的兩個重要性質，即 協方差 和 相關係數。正如我們將看到的，協方差在某種程度上與方差相關，而相關係數與相關性密切相關。

定義。 （協方差）對於每個隨機變數 $X,Y$ ， $X,Y$ 的 協方差 是 $\operatorname {Cov} (X,Y)=\mathbb {E} [(X-\mathbb {E} [X])(Y-\mathbb {E} [Y])].$

定義。 （相關係數）對於每個隨機變數 $X,Y$ ，使得 $\operatorname {Var} (X),\operatorname {Var} (Y)>0$ ，相關係數 是 $\rho (X,Y)={\frac {\operatorname {Cov} (X,Y)}{\sqrt {\operatorname {Var} (X)\operatorname {Var} (Y)}}}.$

協方差 和 相關係數 都是用來衡量 $X$ 和 $Y$ 之間 線性關係 的。正如我們將看到的， $\rho (X,Y)\in [-1,1]$ ，當 $|\rho (X,Y)|$ 增大時， $X,Y$ 的相關性越高，並且如果 $|\rho (X,Y)|=1$ ，則 $X$ 與 $Y$ 之間存線上性關係。

命題。 （協方差的性質）

(i) (對稱性) 對於每個隨機變數 $X,Y$ ， $\operatorname {Cov} (X,Y)=\operatorname {Cov} (Y,X)$ (ii) 對於每個隨機變數 $X$ ， $\operatorname {Cov} (X,X)=\operatorname {Var} (X)$ (iii) (協方差的另一種公式) $\operatorname {Cov} (X,Y)=\mathbb {E} [XY]-\mathbb {E} [X]\mathbb {E} [Y]$ (iv) 對於每個常數 $a_{1},\ldots ,a_{n},b_{1},\ldots ,b_{m},c,d$ ，以及每個隨機變數 $X_{1},\ldots ,X_{n},Y_{1},\ldots ,Y_{m}$ ， $\operatorname {Cov} \left(\sum _{i=1}^{n}(a_{i}X_{i}+c),\sum _{j=1}^{m}(b_{j}Y_{j}+d)\right)=\sum _{i=1}^{n}\sum _{j=1}^{m}a_{i}b_{j}\operatorname {Cov} (X_{i},Y_{j})$ (v) 對於每個隨機變數 $X_{1},\ldots ,X_{n}$ ， $\operatorname {Var} (X_{1}+\cdots +X_{n})=\sum _{i=1}^{n}\operatorname {Var} (X_{i})+2\sum _{1\leq i<j\leq n}^{}\operatorname {Cov} (X_{i},Y_{j})$

證明。

(i) $\operatorname {Cov} (X,Y)=\mathbb {E} [(X-\mathbb {E} [X])(Y-\mathbb {E} [Y])]=\mathbb {E} [(Y-\mathbb {E} [Y])(X-\mathbb {E} [X])]=\operatorname {Cov} (Y,X)$ (ii) $\operatorname {Cov} (X,X)=\mathbb {E} [(X-\mathbb {E} [X])(X-\mathbb {E} [X])]=\mathbb {E} [(X-\mathbb {E} [X])^{2}]=\operatorname {Var} (X)$ (iii) ${\begin{aligned}\operatorname {Cov} (X,Y)&=\mathbb {E} [(X-\mathbb {E} [X])(Y-\mathbb {E} [Y])]\\&=\mathbb {E} [XY-X\mathbb {E} [Y]-Y\mathbb {E} [X]+\mathbb {E} [X]\mathbb {E} [Y]]\\&=\mathbb {E} [XY]-\mathbb {E} [Y]\mathbb {E} [X]{\cancel {-\mathbb {E} [X]\mathbb {E} [Y]+\mathbb {E} [X]\mathbb {E} [Y]}}\qquad {\text{by linearity}}\\&=\mathbb {E} [XY]-\mathbb {E} [X]\mathbb {E} [Y]\end{aligned}}$ (iv) ${\begin{aligned}\operatorname {Cov} \left(\sum _{i=1}^{n}(a_{i}X_{i}+c),\sum _{j=1}^{m}(b_{j}Y_{j}+d)\right)&=\mathbb {E} \left[\left(\sum _{i=1}^{n}(a_{i}X_{i}+c)-\sum _{i=1}^{n}\mathbb {E} [a_{i}X_{i}+c]\right)\left(\sum _{j=1}^{m}(b_{j}Y_{j}+d)-\sum _{j=1}^{m}\mathbb {E} [b_{j}Y_{j}+d]\right)\right]\\&=\mathbb {E} \left[\sum _{i=1}^{n}(a_{i}X_{i}-\mathbb {E} [a_{i}X_{i}])\sum _{j=1}^{m}(b_{j}Y_{j}-\mathbb {E} [b_{j}Y_{j}])\right]\\&=\mathbb {E} \left[\sum _{i=1}^{n}\sum _{j=1}^{m}(a_{i}X_{i}-\mathbb {E} [a_{i}X_{i}])(b_{j}Y_{j}-\mathbb {E} [b_{j}Y_{j}])\right]\\&=\sum _{i=1}^{n}\sum _{j=1}^{m}\mathbb {E} [(a_{i}X_{i}-a_{i}\mathbb {E} [X_{i}])(b_{j}Y_{j}-b_{j}\mathbb {E} [Y_{j}])]&{\text{by linearity}}\\&=\sum _{i=1}^{n}\sum _{j=1}^{m}a_{i}b_{j}\mathbb {E} [X_{i}-\mathbb {E} [X_{i}]]\mathbb {E} [Y_{j}-\mathbb {E} [Y_{j}]]\\&=\sum _{i=1}^{n}\sum _{j=1}^{m}a_{i}b_{j}\operatorname {Cov} (X_{i},Y_{j})\end{aligned}}$ (v) ${\begin{aligned}\operatorname {Var} \left(\sum _{i=1}^{n}X_{i}\right)&{\overset {\text{(ii)}}{=}}\operatorname {Cov} \left(\sum _{i=1}^{n}X_{i},\sum _{j=1}^{n}X_{j}\right)\\&{\overset {\text{(iv)}}{=}}\sum _{i=1}^{n}\sum _{j=1}^{n}\operatorname {Cov} (X_{1},X_{j})\\&=\sum _{1\leq i=j\leq n}^{}\operatorname {Cov} (X_{i},X_{j})+\sum _{1\leq i\neq j\leq n}^{}\operatorname {Cov} (X_{i},X_{j})\\&{\overset {\text{(ii)}}{=}}\sum _{i=1}^{n}\operatorname {Var} (X_{i})+\sum _{1\leq i<j\leq n}^{}\operatorname {Cov} (X_{i},X_{j})+\sum _{1\leq j<i\leq n}^{}\operatorname {Cov} (X_{i},X_{j})\\&{\overset {\text{(i)}}{=}}\sum _{i=1}^{n}\operatorname {Var} (X_{i})+2\sum _{1\leq i<j\leq n}^{}\operatorname {Cov} (X_{i},X_{j})\end{aligned}}$

$\Box$

接下來，我們將討論相關係數。以下是兩個隨機變數之間相關性的定義。

定義。 (兩個隨機變數之間的相關性) 隨機變數 $X,Y$ 是不相關的，如果 $\operatorname {Cov} (X,Y)=0$ ，並且是相關的，如果 $\operatorname {Cov} (X,Y)\neq 0$

備註。

$\operatorname {Cov} (X,Y)=0\Leftrightarrow \rho (X,Y)=0$ ，以及 $\operatorname {Cov} (X,Y)\neq 0\Leftrightarrow \rho (X,Y)\neq 0$ 如果 $\operatorname {Var} (X)\neq 0$ 並且 $\operatorname {Var} (Y)\neq 0$ 。這解釋了為什麼我們使用協方差而不是相關係數。因為協方差始終定義，而相關係數可能未定義。

協方差和相關係數相似，但它們之間存在差異。特別是， $\operatorname {Cov} (X,Y)$ 取決於 $X$ 和 $Y$ 的方差，而不僅僅是它們之間的關係。因此，這個數字會受到方差的影響，並且不能準確地衡量它們之間的關係。另一方面， $\rho (X,Y)$ 調整了 $X$ 和 $Y$ 的方差，因此更 準確地 衡量了它們之間的關係。

以下是相關係數最重要的性質之一。

命題。 （相關係數的通用度量）相關係數介於 -1 和 1 之間（包含端點）。

證明。 對於每個隨機變數 $X,Y$ ，

目標：證明 $\rho (X,Y)\leq 1\Leftrightarrow {\frac {\operatorname {Cov} (X,Y)}{\sqrt {\operatorname {Var} (X)\operatorname {Var} (Y)}}}\leq 1$ 。為了去除平方根使證明更簡潔，我們在不等式的兩邊平方，得到 ${\frac {\operatorname {Cov} (X,Y)^{2}}{\operatorname {Var} (X)\operatorname {Var} (Y)}}\leq 1\Leftrightarrow {\frac {\operatorname {Cov} (X,Y)^{2}}{\operatorname {Var} (Y)}}\leq \operatorname {Var} (X)\Leftrightarrow \operatorname {Var} (X)+{\frac {\operatorname {Cov} (X,Y)^{2}}{\operatorname {Var} (Y)}}\geq 0$ 。

回顧一下， $\operatorname {Var} (\cdot )\geq 0$ 。因此，證明最右邊不等式的一種方法是將它的左側表示為 $\operatorname {Var} (\cdot )$ ，如下： $\operatorname {Var} (X)-{\frac {\operatorname {Cov} (X,Y)^{2})}{\operatorname {Var} (Y)}}=\operatorname {Var} (X)+\left({\frac {\operatorname {Cov} (X,Y))}{\operatorname {Var} (Y)}}\right)^{2}\operatorname {Var} (Y)-2\left({\frac {\operatorname {Cov} (X,Y)}{\operatorname {Var} (Y)}}\right){\overset {\text{(iv,v)}}{=}}\operatorname {Var} \left(X-{\frac {\operatorname {Cov} (X,Y)}{\operatorname {Var} (Y)}}Y\right).$ 因此，結果成立。

$\Box$

備註。 對於每個隨機變數 $X,Y$ ，

$|\rho (X,Y)|$ 越大，則 $X,Y$ 之間的相關性越大
因此，我們可以比較不同隨機變數對的相關性
如果 $\rho (X,Y)=1$ ， $X$ 隨 $Y$ 線性增加
如果 $\rho (X,Y)=-1$ ， $X$ 隨 $Y$ 線性減小

接下來，我們將定義幾個與相關係數相關的術語。

定義。（正相關、負相關和不相關）隨機變數 $X,Y$ 如果 $\rho (X,Y)>0\;(<0)$ ，即 $X$ 傾向於 $\uparrow (\downarrow )$ 當 $Y\uparrow$ 時，被稱為正（負）相關。

如果 $\rho (X,Y)=0$ ，則它們是 不相關的。

接下來，我們將陳述一個與獨立性和相關性相關的重要的結果。直觀地，你可能會認為 "獨立" 等同於 "不相關"。然而，這是錯誤的。事實上，"獨立" 比 "不相關" 更強。

命題。 (獨立性和相關性之間的關係) 如果兩個隨機變數是 獨立的，那麼它們是 不相關的。

證明。 對於每個獨立的隨機變數 $X,Y$ ，其均值分別為 $\mu ,\nu$ ，有 $\operatorname {Cov} (X,Y)=\mathbb {E} [(X-\mu )(Y-\nu )]{\overset {\text{independence}}{=}}\mathbb {E} [X-\mu ]\mathbb {E} [Y-\nu ]{\overset {\text{linearity}}{=}}(\underbrace {\mathbb {E} [X]} _{\mu }-\mu )(\underbrace {\mathbb {E} [Y]} _{\nu }-\nu )=0$

$\Box$

然而，反過來不成立，正如我們將在下例中看到的那樣。

例。令 $V,W\sim \operatorname {Ber} (1/2)$ ，使得它們是獨立的。設 $X=V+W,Y=|V-W|$ 。由於 $V=W=0\Leftrightarrow X=Y=0$ ， $(V,W)=(1,0){\text{ or }}(0,1)\Leftrightarrow X=Y=1$ ，以及 $V=W=1\Leftrightarrow X=2{\text{ and }}Y=0$ ，它們的聯合pmf為 $f(x,y)=\mathbf {1} \{X=Y=0\}/4+\mathbf {1} \{X=Y=1\}/2+\mathbf {1} \{X=2{\text{ and }}Y=0\}/4.$ 協方差 $\operatorname {Cov} (X,Y)=\mathbb {E} [XY]-\mathbb {E} [X]\mathbb {E} [Y]=1(1)(1/2)-[1(1/2)+2(1/4)][1(1/2)]=0,$ 因此 $X,Y$ 不相關。

另一方面， $\mathbb {P} (X=Y=0)=1/4\neq \mathbb {P} (X=0)\mathbb {P} (Y=0)=(1/4)(1/4+1/4)=1/8,$ ，因此 $X,Y$ 不是獨立的。

這說明“不相關”並不意味著“獨立”。

練習。

聯合分佈和獨立性

機率
分佈的性質

條件分佈

↑ 每個伯努利隨機變數充當對應試驗成功的指示器。由於有 $n$ 個獨立的伯努利試驗，因此有 $n$ 個這樣的指示器。
↑ 每個幾何隨機變量表示對應成功之前失敗的次數。
↑ 由於這個機率是無條件的，因為相應的平均值也是無條件的，因此它們的總和也是無條件平均值（如命題中所示）
↑ $X_{1},\dotsc ,X_{n}$ 是 相關的，但我們仍然可以使用期望的線性性，因為它不需要獨立性。
↑ 每個幾何隨機變量表示對應成功之前失敗的次數。

[1] 每個伯努利隨機變數充當對應試驗成功的指示器。由於有 $n$ 個獨立的伯努利試驗，因此有 $n$ 個這樣的指示器。

[2] 每個幾何隨機變量表示對應成功之前失敗的次數。

[3] 由於這個機率是無條件的，因為相應的平均值也是無條件的，因此它們的總和也是無條件平均值（如命題中所示）

[4] $X_{1},\dotsc ,X_{n}$ 是 相關的，但我們仍然可以使用期望的線性性，因為它不需要獨立性。

[5] 每個幾何隨機變量表示對應成功之前失敗的次數。

[1]

[2]

[3]

[4]

[5]

	$p$
	$q$
	$p+q$
	$(1-p)(1-q)+p(1-q)+q(1-p)+2pq$
	$2p(1-q)+2pq$

	$\pi$
	$p\pi$
	$q\pi$
	$(1-p)\pi$
	$(1-q)\pi$

	$pq+(1-p)\pi$
	$p(p+q)+(1-p)\pi$
	$pq+(1-p)q\pi$
	$p(p+q)+(1-p)p\pi$

	$\mathbb {E} [Z]$ 增加。
	$\mathbb {E} [Z]$ 減少。
	的變化 $\mathbb {E} [Z]$ 取決於 $p$ 和 $q$ 的值。
	$\mathbb {E} [Y]$ 保持不變。
	$\mathbb {E} [Z]$ 增加如果 $p=q=1/3$ .

	第 20 個百分位數是第 0.2 個百分點
	第 4 個四分位數是第 1 個百分位數
	第 2 個百分位數未定義。
	第 0 個百分位數 = 第 0 個百分點 = 第 0 個四分位數。
	四分位距必須是非負的。
	中位數必須是非負的。

	如果兩個隨機變數 $X,Y$ 中至少有一個是非隨機常數，則它們是不相關的。
	對於每個隨機變數，它與其自身不相關。
	對於每個隨機變數，它隨自身線性增加。
	如果 $\rho (X,Y)>\rho (V,W)$ ，則隨機變數 $X,Y$ 的相關性比隨機變數 $V,W$ 的相關性更高。