假設發生了一場地震。令 X {\displaystyle X} 為傷亡人數, Y {\displaystyle Y} 為地震的里氏震級 。
(a) 在沒有給定任何資訊的情況下, X {\displaystyle X} 的分佈是什麼?
(b) 假設 Y = 1 {\displaystyle Y=1} , X {\displaystyle X} 的分佈是什麼?
(c) 假設 Y = 9 {\displaystyle Y=9} , X {\displaystyle X} 的分佈是什麼?
備註。
Y = 1 {\displaystyle Y=1} 表示地震微弱, Y = 9 {\displaystyle Y=9} 表示地震強烈。
你對 (a)、(b)、(c) 的答案是否不同?
在 (b) 和 (c) 中,我們分別有 條件 分佈 X {\displaystyle X} 在給定 Y = 1 {\displaystyle Y=1} 時的分佈,以及 條件 分佈 X {\displaystyle X} 在給定 Y = 9 {\displaystyle Y=9} 時的分佈。
一般情況下,我們有給定 Y {\displaystyle Y} 的 條件分佈 X {\displaystyle X} (在 觀察 Y {\displaystyle Y} 的值 之前 ),或者給定 Y = y {\displaystyle Y=y} 的 X {\displaystyle X} (在 觀察 Y {\displaystyle Y} 的值 之後 )。
回顧條件機率 的定義: P ( A | B ) = P ( A ∩ B ) P ( B ) , {\displaystyle \mathbb {P} (A|B)={\frac {\mathbb {P} (A\cap B)}{\mathbb {P} (B)}},} 其中 A , B {\displaystyle A,B} 是事件,且 P ( B ) > 0 {\displaystyle \mathbb {P} (B)>0} 。將此定義應用於離散隨機變數 X , Y {\displaystyle X,Y} ,我們有 P ( X = x | Y = y ) = P ( X = x ∩ Y = y ) P ( Y = y ) = f ( x , y ) f Y ( y ) , {\displaystyle \mathbb {P} (X=x|Y=y)={\frac {\mathbb {P} (X=x\cap Y=y)}{\mathbb {P} (Y=y)}}={\frac {f(x,y)}{f_{Y}(y)}},} 其中 f ( x , y ) {\displaystyle f(x,y)} 是 X {\displaystyle X} 和 Y {\displaystyle Y} 的聯合 pmf,而 f Y ( y ) {\displaystyle f_{Y}(y)} 是 Y {\displaystyle Y} 的邊際 pmf。很自然地,我們將這種條件機率稱為條件 pmf ,對吧?我們將這種條件機率記為 f X | Y ( x | y ) {\displaystyle f_{X|Y}(x|y)} 。那麼,這基本上就是條件 pmf 的定義: X {\displaystyle X} 在給定 Y = y {\displaystyle Y=y} 條件下的條件 pmf 是條件機率 P ( X = x | Y = y ) {\displaystyle \mathbb {P} (X=x|Y=y)} 。自然地,我們希望條件 pdf 的定義也類似。事實確實如此。
為了更直觀地理解連續情況下的定義,請考慮以下圖表。
Top view:
|
|
*---------------*
| |
| |
fixed y *===============* <--- corresponding interval
| |
| |
*---------------*
|
*---------------- x
Side view:
*
/ \
*\ * /
/|#\ \
| / |##\ / *---------*
| * |###\ /\
| |\ |##/#\----------/--\
| | \|#/###*--------* /
| | \/############/#\ /
| |y *\===========/===*
| | / *---------* /
| |/ \ /
| *----------------*
|/
*------------------------- x
Front view:
|
|
|
*\
|#\
|##\
|###\
|####\ <------ Area: f_Y(y)
|#####*--------*
|###############\
*================*-------------- x
*---*
|###| : corresponding cross section from joint pdf
*---*
我們可以看到,當我們對 Y = y {\displaystyle Y=y} 進行條件化時,我們從聯合機率密度函式下的區域中“切”出一片,這片“切片”的面積就是 單變數 聯合機率密度函式 f ( x , y ) {\displaystyle f(x,y)} 在固定 y {\displaystyle y} 且變數 x {\displaystyle x} 時,與 x {\displaystyle x} 軸之間的面積。由於面積由 ∫ − ∞ ∞ f ( x , y ) d x = f Y ( y ) {\displaystyle \int _{-\infty }^{\infty }f({\color {darkgreen}x},y)\,d{\color {darkgreen}x}=f_{Y}(y)} 給出,而根據機率公理,面積應該等於 1。因此,我們透過將單變數聯合機率密度函式 f ( x , y ) {\displaystyle f(x,y)} 除以 f Y ( y ) {\displaystyle f_{Y}(y)} 來縮小“切片”面積的 f Y ( y ) {\displaystyle f_{Y}(y)} 倍。之後,縮小“切片”頂部的那條曲線就是條件機率密度函式 f ( x , y ) f Y ( y ) {\displaystyle {\frac {f(x,y)}{f_{Y}(y)}}} 的影像。
現在,我們已經討論了兩個隨機變數都是離散或連續的情況。那麼其中一個變數是離散,另一個是連續的情況呢?在這種情況下,這兩個隨機變數沒有“聯合機率函式”,因為一個是離散的,另一個是連續的!但是,我們仍然可以透過其他方式定義條件機率函式。為了引出下面的定義,設 F X | Y ( x | y ) {\displaystyle F_{X|Y}(x|y)} 是條件機率 P ( X ≤ x | Y = y ) {\displaystyle \mathbb {P} (X\leq x|Y=y)} 。然後,對 F X | Y ( x | y ) {\displaystyle F_{X|Y}(x|y)} 關於 x {\displaystyle x} 求導應該得到條件pdf f X | Y ( x | y ) {\displaystyle f_{X|Y}(x|y)} 。所以,我們有 f X | Y ( x | y ) = d d x F X | Y ( x | y ) = lim h → 0 P ( X ≤ x + h | Y = y ) − P ( X ≤ x | Y = y ) h = lim h → 0 P ( x < X ≤ x + h | Y = y ) h = lim h → 0 P ( Y = y | x < X ≤ x + h ) P ( x < X ≤ x + h ) h P ( Y = y ) = lim h → 0 P ( Y = y | x < X ≤ x + h ) P ( x < X ≤ x + h ) h P ( Y = y ) = lim h → 0 P ( Y = y | x ≤ X ≤ x + h ) P ( Y = y ) lim h → 0 P ( x < X ≤ x + h ) h = P ( Y = y | X = x ) d d x F X ( x ) P ( Y = y ) = P ( Y = y | X = x ) f X ( x ) P ( Y = y ) . {\displaystyle {\begin{aligned}f_{X|Y}(x|y)={\frac {d}{dx}}F_{X|Y}(x|y)&=\lim _{h\to 0}{\frac {\mathbb {P} (X\leq x+h|Y=y)-\mathbb {P} (X\leq x|Y=y)}{h}}\\&=\lim _{h\to 0}{\frac {\mathbb {P} (x<X\leq x+h|Y=y)}{h}}\\&=\lim _{h\to 0}{\frac {\mathbb {P} (Y=y|x<X\leq x+h)\mathbb {P} (x<X\leq x+h)}{h\mathbb {P} (Y=y)}}\\&=\lim _{h\to 0}{\frac {\mathbb {P} (Y=y|x<X\leq x+h)\mathbb {P} (x<X\leq x+h)}{h\mathbb {P} (Y=y)}}\\&=\lim _{h\to 0}{\frac {\mathbb {P} (Y=y|x\leq X\leq x+h)}{\mathbb {P} (Y=y)}}\lim _{h\to 0}{\frac {\mathbb {P} (x<X\leq x+h)}{h}}\\&={\frac {\mathbb {P} (Y=y|X=x){\frac {d}{dx}}F_{X}(x)}{\mathbb {P} (Y=y)}}\\&={\frac {\mathbb {P} (Y=y|X=x)f_{X}(x)}{\mathbb {P} (Y=y)}}.\\\end{aligned}}} 因此,自然地給出以下定義。
現在,我們來討論一下當 X {\displaystyle X} 是離散的而 Y {\displaystyle Y} 是連續的情況。在這種情況下,我們使用上述定義作為定義的動機。然而,我們應該交換 X {\displaystyle X} 和 Y {\displaystyle Y} 的位置,以確保假設仍然成立。然後,我們得到 f Y | X ( y | x ) = P ( X = x | Y = y ) f Y ( y ) P ( X = x ) . {\displaystyle f_{Y|X}(y|x)={\frac {\mathbb {P} (X=x|Y=y)f_{Y}(y)}{\mathbb {P} (X=x)}}.} 在這種情況下, X {\displaystyle X} 是離散的,因此很自然地將給定 Y = y {\displaystyle Y=y} 的 X {\displaystyle X} 的條件機率質量函式定義為 P ( X = x | Y = y ) {\displaystyle \mathbb {P} (X=x|Y=y)} 在表示式中。現在,在重新排列項之後,我們得到 P ( X = x | Y = y ) = f Y | X ( y | x ) P ( X = x ) f Y ( y ) . {\displaystyle \mathbb {P} (X=x|Y=y)={\frac {f_{Y|X}(y|x)\mathbb {P} (X=x)}{f_{Y}(y)}}.} 因此,我們有以下定義。
基於條件機率函式的定義,我們可以自然地定義 條件 累積分佈函式如下。
備註。
需要注意的是,當 Y {\displaystyle Y} 是連續的,事件 { Y = y } {\displaystyle \{Y=y\}} 的機率為零。因此,根據條件機率的定義,在這種情況下,條件累積分佈函式應該是 未定義 的。然而,在這種情況下,我們仍然將條件機率定義為一個有意義且已定義的表示式。
定義的圖形說明(連續隨機變數)
Top view:
|
|
*---------------*
| |
| |
fixed y *=========@=====* <--- corresponding interval
| x |
| |
*---------------*
|
*----------------
Side view:
*
/ \
*\ * /
/|#\ \
| / |##\ / *---------*
| * |###\ /\
| |\ |##/#\----------/--\
| | \|#/###*--------* /
| | \/######### / \ /
| |y *\========@==/===*
| | / *-------x-* /
| |/ \ /
| *----------------*
|/
*------------------------- x
Front view:
|
|
|
*\
|#\
|##\
|###\
|####\ <------------- Area: f_Y(y)
|#####*--------*
|########### \
*==========@=====*--------------
x
*---*
|###| : the desired region from the cross section from joint pdf, whose area is the probability from the cdf
*---*
如果 Y = 1 { A } {\displaystyle Y=\mathbf {1} \{A\}} 對於某個事件 A {\displaystyle A} ,為了簡化,我們有一些特殊的記號
給定 Y = y {\displaystyle Y=y} 的 X {\displaystyle X} 的條件機率函式變為
f X | Y ( x | y ) = { f ( x | A ) , y = 1 ; f ( x | A c ) , y = 0. {\displaystyle f_{X|Y}({\color {darkgreen}x}|y)={\begin{cases}f({\color {darkgreen}x}|A),&y=1;\\f({\color {darkgreen}x}|A^{c}),&y=0.\end{cases}}}
給定 Y = y {\displaystyle Y=y} 的 X {\displaystyle X} 的條件累積分佈函式變為
F X | Y ( x | y ) = P ( X ≤ x | Y = y ) = { F ( x | A ) , y = 1 ; F ( x | A c ) , y = 0. {\displaystyle F_{X|Y}({\color {darkgreen}x}|y)=\mathbb {P} (X\leq {\color {darkgreen}x}|Y=y)={\begin{cases}F({\color {darkgreen}x}|A),&y=1;\\F({\color {darkgreen}x}|A^{c}),&y=0.\end{cases}}}
證明。 回想一下兩個隨機變數之間獨立性的定義
X , Y {\displaystyle X,Y} 是獨立的,如果
f ( x , y ) = f X ( x ) f Y ( y ) {\displaystyle f(x,y)=f_{X}(x)f_{Y}(y)}
對於每個 x , y {\displaystyle x,y} .
由於 f X | Y ( x | y ) = f ( x , y ) ⏞ f X ( x ) f Y ( y ) f Y ( y ) = f X ( x ) and f Y | X ( y | x ) = f ( y , x ) ⏞ f Y ( y ) f X ( x ) f X ( x ) = f Y ( y ) {\displaystyle f_{X|Y}({\color {darkgreen}x}|y)={\frac {\overbrace {f({\color {darkgreen}x},y)} ^{f_{X}({\color {darkgreen}x})f_{Y}(y)}}{f_{Y}(y)}}=f_{X}(x){\text{ and }}f_{Y|X}({\color {darkgreen}y}|x)={\frac {\overbrace {f({\color {darkgreen}y},x)} ^{f_{Y}({\color {darkgreen}y})f_{X}(x)}}{f_{X}(x)}}=f_{Y}(y)} 對於每個 x , y {\displaystyle x,y} ,我們得到了所需的結果。
◻ {\displaystyle \Box }
備註。
這是意料之中的,因為對獨立事件的條件化不應該影響另一個獨立事件的發生。
我們可以將條件機率函式和cdf的定義擴充套件到隨機變數組,對於聯合cdf和聯合機率函式,如下所示
定義。 (條件聯合機率函式)令 X = ( X 1 , … , X r ) T {\displaystyle \mathbf {X} =(X_{1},\dotsc ,X_{r})^{T}} 和 Y = ( Y 1 , … , Y s ) T {\displaystyle \mathbf {Y} =(Y_{1},\dotsc ,Y_{s})^{T}} 為兩個隨機向量。給定 Y = ( y 1 , … , y s ) {\displaystyle \mathbf {Y} =(y_{1},\dotsc ,y_{s})} 時, X = ( x 1 , … , x r ) {\displaystyle \mathbf {X} =(x_{1},\dotsc ,x_{r})} 的 條件 聯合機率函式為 f X | Y ( x 1 , … , x r | y 1 , … , y s ) = def P ( X 1 = x 1 ∩ ⋯ ∩ X r = x r | Y 1 = y 1 ∩ ⋯ ∩ Y s = y s ) = f ( x 1 , … , x r , y 1 , … , y s ) f Y ( y 1 , … , y s ) {\displaystyle f_{\mathbf {X} |\mathbf {Y} }({\color {darkgreen}x_{1},\dotsc ,x_{r}}|y_{1},\dotsc ,y_{s}){\overset {\text{ def }}{=}}\mathbb {P} (X_{1}={\color {darkgreen}x_{1}}\cap \dotsb \cap X_{r}={\color {darkgreen}x_{r}}|Y_{1}=y_{1}\cap \dotsb \cap Y_{s}=y_{s})={\frac {f({\color {darkgreen}x_{1},\dotsc ,x_{r}},y_{1},\dotsc ,y_{s})}{f_{\mathbf {Y} }(y_{1},\dotsc ,y_{s})}}}
然後,我們也有類似的命題來判斷兩個隨機向量的獨立性。
命題。 (確定兩個隨機向量的獨立性)隨機向量 X = ( X 1 , … , X r ) T , Y = ( Y 1 , … , Y s ) T {\displaystyle \mathbf {X} =(X_{1},\dotsc ,X_{r})^{T},\mathbf {Y} =(Y_{1},\dotsc ,Y_{s})^{T}} 當且僅當 f X | Y ( x 1 , … , x r | y 1 , … , y s ) = f X ( x 1 , … , x r ) or f Y | X ( y 1 , … , y s | x 1 , … , x r ) = f Y ( y 1 , … , y s ) {\displaystyle f_{\mathbf {X} |\mathbf {Y} }(x_{1},\dotsc ,x_{r}|y_{1},\dotsc ,y_{s})=f_{\mathbf {X} }(x_{1},\dotsc ,x_{r}){\text{ or }}f_{\mathbf {Y} |\mathbf {X} }(y_{1},\dotsc ,y_{s}|x_{1},\dotsc ,x_{r})=f_{\mathbf {Y} }(y_{1},\dotsc ,y_{s})} 對於每個 x 1 , … , x r , y 1 , … , y s {\displaystyle x_{1},\dotsc ,x_{r},y_{1},\dotsc ,y_{s}} 。
證明。 兩個隨機向量之間獨立性的定義是
X = ( X 1 , … , X r ) T , Y = ( Y 1 , … , Y s ) T {\displaystyle \mathbf {X} =(X_{1},\dotsc ,X_{r})^{T},\mathbf {Y} =(Y_{1},\dotsc ,Y_{s})^{T}} 是獨立的,如果
f ( x 1 , … , x r , y 1 , … , y s ) = f X ( x 1 , … , x r ) f Y ( y 1 , … , y s ) {\displaystyle f(x_{1},\dotsc ,x_{r},y_{1},\dotsc ,y_{s})=f_{\mathbf {X} }(x_{1},\dotsc ,x_{r})f_{\mathbf {Y} }(y_{1},\dotsc ,y_{s})}
對於每個 x 1 , … , x r , y 1 , … , y s {\displaystyle x_{1},\dotsc ,x_{r},y_{1},\dotsc ,y_{s}} 。
由於對於每個 x 1 , … , x r , y 1 , … , y s {\displaystyle x_{1},\dotsc ,x_{r},y_{1},\dotsc ,y_{s}} ,我們有期望的結果。
◻ {\displaystyle \Box }
回想一下機率/重要分佈 一章, N 2 ( μ , Σ ) {\displaystyle {\mathcal {N}}_{2}({\boldsymbol {\mu }},{\boldsymbol {\Sigma }})} 的聯合機率密度函式為 f ( x , y ) = 1 2 π σ X σ Y 1 − ρ 2 exp ( − 1 2 ( 1 − ρ 2 ) ( ( x − μ X σ X ) 2 − 2 ρ ( x − μ X σ X ) ( y − μ Y σ Y ) + ( y − μ Y σ Y ) 2 ) ) , ( x , y ) ∈ R 2 {\displaystyle f(x,y)={\frac {1}{2\pi \sigma _{X}\sigma _{Y}{\sqrt {1-\rho ^{2}}}}}\exp \left(-{\frac {1}{2(1-\rho ^{2})}}\left(\left({\frac {x-\mu _{X}}{\sigma _{X}}}\right)^{2}-2\rho \left({\frac {x-\mu _{X}}{\sigma _{X}}}\right)\left({\frac {y-\mu _{Y}}{\sigma _{Y}}}\right)+\left({\frac {y-\mu _{Y}}{\sigma _{Y}}}\right)^{2}\right)\right),\quad (x,y)\in \mathbb {R} ^{2}} ,並且在本例中 X ∼ N ( μ X , σ X 2 ) {\displaystyle X\sim {\mathcal {N}}(\mu _{X},\sigma _{X}^{2})} 和 Y ∼ N ( μ Y , σ Y 2 ) {\displaystyle Y\sim {\mathcal {N}}(\mu _{Y},\sigma _{Y}^{2})} 。其中 ρ = ρ ( X , Y ) {\displaystyle \rho =\rho (X,Y)} 且 σ X , σ Y {\displaystyle \sigma _{X},\sigma _{Y}} 為正數。
命題。 (二元正態分佈的條件分佈)設 ( X , Y ) T ∼ N 2 ( μ , Σ ) {\displaystyle (X,Y)^{T}\sim {\mathcal {N}}_{2}({\boldsymbol {\mu }},{\boldsymbol {\Sigma }})} . 那麼, X | ( Y = y ) ∼ N ( μ X + ρ ⋅ σ X σ Y ( y − μ Y ) , σ X 2 ( 1 − ρ 2 ) ) , and Y | ( X = x ) ∼ N ( μ Y + ρ ⋅ σ Y σ X ( x − μ X ) , σ Y 2 ( 1 − ρ 2 ) ) {\displaystyle X|(Y=y)\sim {\mathcal {N}}\left(\mu _{X}+\rho \cdot {\frac {\sigma _{X}}{\sigma _{Y}}}(y-\mu _{Y}),\sigma _{X}^{2}(1-\rho ^{2})\right),{\text{ and }}Y|(X=x)\sim {\mathcal {N}}\left(\mu _{Y}+\rho \cdot {\frac {\sigma _{Y}}{\sigma _{X}}}(x-\mu _{X}),\sigma _{Y}^{2}(1-\rho ^{2})\right)} (符號濫用:當我們說“ X | ( Y = y ) {\displaystyle X|(Y=y)} ”的分佈時,我們的意思是條件 分佈 X {\displaystyle X} 在給定 Y = y {\displaystyle Y=y} 下的分佈)。
我們可以透過將先前為“無條件”分佈建立的概念的條件 版本類推地應用於條件 分佈,方法是將“無條件”的累積分佈函式 (cdf)、機率密度函式 (pdf) 或機率質量函式 (pmf)(即 F ( ⋅ ) {\displaystyle F(\cdot )} 或 f ( ⋅ ) {\displaystyle f(\cdot )} )替換為它們的條件 對應部分,即 F ( ⋅ | ⋅ ) {\displaystyle F(\cdot {\color {darkgreen}|\cdot })} 或 f ( ⋅ | ⋅ ) {\displaystyle f(\cdot {\color {darkgreen}|\cdot })} 。
定義. 隨機變數 X 1 , X 2 , … , X n {\displaystyle X_{1},X_{2},\dotsc ,X_{n}} 在給定 Y = y {\displaystyle Y=y} 的情況下,條件 獨立,當且僅當 F X 1 , … , X n | Y ( x 1 , … , x n | y ) = F X 1 | Y ( x 1 | y ) ⋯ F X n | Y ( x n | y ) {\displaystyle F_{X_{1},\dotsc ,X_{n}{\color {darkgreen}|Y}}(x_{1},\dotsc ,x_{n}{\color {darkgreen}|y})=F_{X_{1}{\color {darkgreen}|Y}}(x_{1}{\color {darkgreen}|y})\dotsb F_{X_{n}{\color {darkgreen}|Y}}(x_{n}{\color {darkgreen}|y})} 或者 f X 1 , … , X n | Y ( x 1 , … , x n | y ) = f X 1 | Y ( x 1 | y ) ⋯ f X n | Y ( x n | y ) {\displaystyle f_{X_{1},\dotsc ,X_{n}{\color {darkgreen}|Y}}(x_{1},\dotsc ,x_{n}{\color {darkgreen}|y})=f_{X_{1}{\color {darkgreen}|Y}}(x_{1}{\color {darkgreen}|y})\dotsb f_{X_{n}{\color {darkgreen}|Y}}(x_{n}{\color {darkgreen}|y})} 。對於每個實數 x 1 , … , x n , y {\displaystyle x_{1},\dotsc ,x_{n},{\color {darkgreen}y}} 以及每個正整數 n {\displaystyle n} ,其中 F X 1 , … , X n | Y {\displaystyle F_{X_{1},\dotsc ,X_{n}{\color {darkgreen}|Y}}} 和 f X 1 , … , X n | Y {\displaystyle f_{X_{1},\dotsc ,X_{n}{\color {darkgreen}|Y}}} 分別表示 ( X 1 , … , X n ) {\displaystyle (X_{1},\dotsc ,X_{n})} 在給定 Y = y {\displaystyle Y=y} 的條件下的聯合累積分佈函式和機率函式。
備註。
對於隨機變數,條件獨立和獨立之間沒有關係,也就是說其中一個不 意味著另一個。
類似地,我們有無意識統計學家定律的條件版本。
證明: E [ g ( X ) | Y ] = { ∑ x g ( x ) f X | Y ( x | Y ) = ∑ x g ( x ) f X ( x ) = E [ g ( X ) ] , X is discrete ; ∫ − ∞ ∞ g ( x ) f X | Y ( x | Y ) d x = ∫ − ∞ ∞ g ( x ) f X ( x ) d x = E [ g ( X ) ] , X is continuous . {\displaystyle \mathbb {E} [g(X)|Y]={\begin{cases}\displaystyle \sum _{x}^{}g(x)f_{X|Y}(x|Y)=\sum _{x}^{}g(x)f_{X}(x)=\mathbb {E} [g(X)],&X{\text{ is discrete}};\\\displaystyle \int _{-\infty }^{\infty }g(x)f_{X|Y}(x|Y)\,dx=\int _{-\infty }^{\infty }g(x)f_{X}(x)\,dx=\mathbb {E} [g(X)],&X{\text{ is continuous}}.\end{cases}}}
◻ {\displaystyle \Box }
備註。
如果 X , Y {\displaystyle X,Y} 不獨立,則該等式可能不 成立。
E [ ⋅ ] {\displaystyle \mathbb {E} [\cdot ]} 的性質仍然適用於條件期望 E [ ⋅ | Y ] {\displaystyle \mathbb {E} [\cdot {\color {darkgreen}|Y}]} ,其中所有“無條件”期望都被替換為“條件”期望,並進行了一些適當的修改,如下所示
命題. (條件期望的性質)對於每個隨機變數 Y {\displaystyle Y} ,
(線性) E [ α ( Y ) ⏟ constant given Y X 1 + β ( Y ) ⏟ constant given Y X 2 + γ ( Y ) ⏟ constant given Y | Y ] = α ( Y ) E [ X 1 | Y ] + β ( Y ) E [ X 2 | Y ] + γ ( Y ) {\displaystyle \mathbb {E} [\underbrace {\alpha {\color {darkgreen}(Y)}} _{{\text{constant given }}Y}X_{1}+\underbrace {\beta {\color {darkgreen}(Y)}} _{{\text{constant given }}Y}X_{2}+\underbrace {\gamma {\color {darkgreen}(Y)}} _{{\text{constant given }}Y}{\color {darkgreen}|Y}]=\alpha {\color {darkgreen}(Y)}\mathbb {E} [X_{1}{\color {darkgreen}|Y}]+\beta {\color {darkgreen}(Y)}\mathbb {E} [X_{2}{\color {darkgreen}|Y}]+\gamma {\color {darkgreen}(Y)}}
對於每個函式 α ( Y ) , β ( Y ) , γ ( Y ) {\displaystyle \alpha (Y),\beta (Y),\gamma (Y)} 是 Y {\displaystyle Y} 的函式, 以及每個隨機變數 X 1 , X 2 {\displaystyle X_{1},X_{2}}
(非負性) 如果 X | Y ≥ 0 {\displaystyle X{\color {darkgreen}|Y}\geq 0} , 那麼 E [ X | Y ] ≥ 0 {\displaystyle \mathbb {E} [X{\color {darkgreen}|Y}]\geq 0}
(單調性) 如果 X 1 ≥ X 2 {\displaystyle X_{1}\geq X_{2}} , 那麼 E [ X 1 | Y ] ≥ E [ X 2 | Y ] {\displaystyle \mathbb {E} [X_{1}{\color {darkgreen}|Y}]\geq \mathbb {E} [X_{2}{\color {darkgreen}|Y}]} 對於每個隨機變數 X 1 , X 2 {\displaystyle X_{1},X_{2}}
(三角不等式)
| E [ X | Y ] | ≤ E [ | X | | Y ] {\displaystyle |\mathbb {E} [X{\color {darkgreen}|Y}]|\leq \mathbb {E} [|X|{\color {darkgreen}|Y}]}
(在獨立性下的乘法性) 如果 X 1 , X 2 {\displaystyle X_{1},X_{2}} 在給定 Y {\displaystyle Y} 時條件獨立,
E [ X 1 X 2 | Y ] = E [ X 1 | Y ] E [ X 2 | Y ] {\displaystyle \mathbb {E} [X_{1}X_{2}{\color {darkgreen}|Y}]=\mathbb {E} [X_{1}{\color {darkgreen}|Y}]\mathbb {E} [X_{2}{\color {darkgreen}|Y}]}
證明。 證明與“無條件”期望的證明類似。
◻ {\displaystyle \Box }
關於條件期望的以下定理非常重要。
證明。 E [ E [ g ( X ) | Y ] ] = { ∑ y E [ g ( X ) | Y = y ] f Y ( y ) = ∑ x ( ∑ y g ( x ) f X | Y ( x | y ) ⏞ f ( x , y ) / f Y ( y ) f Y ( y ) ) = ∑ x g ( x ) ( ∑ y f ( x , y ) ⏞ f X ( x ) ) = E [ g ( X ) ] , X is discrete ; ∫ − ∞ ∞ E [ g ( X ) | Y = y ] f Y ( y ) d y = ∫ − ∞ ∞ ( ∫ − ∞ ∞ g ( x ) f X | Y ( x | y ) ⏟ f ( x , y ) / f Y ( y ) d x ) f Y ( y ) d y = ∫ − ∞ ∞ g ( x ) ( ∫ − ∞ ∞ f ( x , y ) d y ⏟ f X ( x ) ) d x = E [ g ( X ) ] , X is continuous . {\displaystyle \mathbb {E} [\mathbb {E} [g(X)|Y]]={\begin{cases}\displaystyle \sum _{y}^{}\mathbb {E} [g(X)|Y=y]f_{Y}(y)=\sum _{x}^{}{\bigg (}\sum _{y}^{}g(x)\overbrace {f_{X|Y}(x|y)} ^{f(x,y){\cancel {/f_{Y}(y)}}}{\cancel {f_{Y}(y)}}{\bigg )}=\sum _{x}^{}g(x){\bigg (}\overbrace {\sum _{y}^{}f(x,y)} ^{f_{X}(x)}{\bigg )}=\mathbb {E} [g(X)],&X{\text{ is discrete}};\\\displaystyle \int _{-\infty }^{\infty }\mathbb {E} [g(X)|Y=y]f_{Y}(y)\,dy=\int _{-\infty }^{\infty }{\bigg (}\int _{-\infty }^{\infty }g(x)\underbrace {f_{X|Y}(x|y)} _{f(x,y){\cancel {/f_{Y}(y)}}}\,dx{\bigg )}{\cancel {f_{Y}(y)}}\,dy=\int _{-\infty }^{\infty }g(x){\bigg (}\underbrace {\int _{-\infty }^{\infty }f(x,y)\,dy} _{f_{X}(x)}{\bigg )}\,dx=\mathbb {E} [g(X)],&X{\text{ is continuous}}.\end{cases}}}
◻ {\displaystyle \Box }
備註。
我們可以用 g ( X , Y , Z , … ) {\displaystyle g(X,Y,Z,\dotsc )} 代替 g ( X ) {\displaystyle g(X)} ,得到
E [ g ( X , Y , Z , … ) ] = E [ E [ g ( X , Y , Z , … ) | Y ] ] = E [ E [ g ( X , Y , Z , … | Y , Z , … ] ] = ⋯ {\displaystyle \mathbb {E} [g(X,Y,Z,\dotsc )]=\mathbb {E} [\mathbb {E} [g(X,{\color {darkgreen}Y},Z,\dotsc ){\color {darkgreen}|Y}]]=\mathbb {E} [\mathbb {E} [g(X,{\color {darkgreen}Y,Z,\dotsc |Y,Z,\dotsc }]]=\dotsb }
推論. (全機率公式的推廣)對於每一個事件 A {\displaystyle A} , E Y [ P ( A | Y ) ] = P ( A ) . {\displaystyle \mathbb {E} _{Y}[\mathbb {P} (A|{\color {darkgreen}Y})]=\mathbb {P} (A).}
證明。
E [ 1 { A } | Y ] = 1 ( P ( 1 { A } = 1 | Y ) + 0 ( P ( 1 { A } = 0 | Y ) = P ( A | Y ) . {\displaystyle \mathbb {E} [\mathbf {1} \{A\}|Y]=1(\mathbb {P} (\mathbf {1} \{A\}=1|Y)+0(\mathbb {P} (\mathbf {1} \{A\}=0|Y)=\mathbb {P} (A|Y).}
E Y [ P ( A | Y ) ] = above E Y [ E [ 1 { A } | Y ] ] = E [ 1 { A } ] = P ( A ) . {\displaystyle \mathbb {E} _{Y}[\mathbb {P} (A|{\color {darkgreen}Y})]{\overset {\text{ above }}{=}}\mathbb {E} _{Y}[\mathbb {E} [\mathbf {1} \{A\}|{\color {darkgreen}Y}]]=\mathbb {E} [\mathbf {1} \{A\}]=\mathbb {P} (A).}
◻ {\displaystyle \Box }
備註。
事件的數量可以是有限的,只要它們是互斥的,並且它們的並集是整個樣本空間
如果 X = 1 { B } {\displaystyle X=\mathbf {1} \{B\}} ,它簡化為 全機率公式
示例。 令 X {\displaystyle X} 是人類身高(單位:米)。從一個由 相同數量 的男性和女性組成的群體中隨機選擇一個人。假設男性的平均身高是 1.8 米,女性的平均身高是 1.7 米,那麼整個人口的平均身高是 E [ X ] = E [ X | { man selected } ] P ( man selected ) + E [ X | { woman selected } ] P ( woman selected ) = 1.8 ( 1 / 2 ) + 1.7 ( 1 / 2 ) = 1.75 {\displaystyle \mathbb {E} [X]=\mathbb {E} [X|\{{\text{man selected}}\}]\mathbb {P} ({\text{man selected}})+\mathbb {E} [X|\{{\text{woman selected}}\}]\mathbb {P} ({\text{woman selected}})=1.8(1/2)+1.7(1/2)=1.75}
證明。 根據條件期望加權平均計算期望的公式, E [ X 1 { A } ] = E [ X 1 { A } ⏟ 1 | A ] P ( A ) + E [ X 1 { A } ⏟ 0 | A c ] P ( A c ) = E [ X | A ] P ( A ) , {\displaystyle \mathbb {E} [X\mathbf {1} \{A\}]=\mathbb {E} [X\underbrace {\mathbf {1} \{A\}} _{1}|A]\mathbb {P} (A)+\mathbb {E} [X\underbrace {\mathbf {1} \{A\}} _{0}|A^{c}]\mathbb {P} (A^{c})=\mathbb {E} [X|A]\mathbb {P} (A),} ,如果 P ( A ) > 0 {\displaystyle \mathbb {P} (A)>0} ,則結果成立。
◻ {\displaystyle \Box }
備註。
如果 X = 1 { B } {\displaystyle X=\mathbf {1} \{B\}} ,它將簡化為條件機率 P ( B | A ) {\displaystyle \mathbb {P} (B|A)} 的 定義 ,這是機率和期望之間的基本橋樑。
定義了 條件 期望後,我們也可以有 條件 方差、協方差和相關係數,因為方差、協方差和相關係數都是基於期望構建的。
命題。 (雙變數正態分佈的條件期望)令 ( X , Y ) T ∼ N 2 ( μ , Σ ) {\displaystyle (X,Y)^{T}\sim {\mathcal {N}}_{2}({\boldsymbol {\mu }},{\boldsymbol {\Sigma }})} . 那麼, E [ X | Y = y ] = E [ X ] + ρ ( X , Y ) ⋅ Var ( X ) Var ( Y ) ( y − E [ Y ] ) , and E [ Y | X = x ] = E [ Y ] + ρ ( X , Y ) ⋅ Var ( Y ) Var ( X ) ( x − E [ X ] ) . {\displaystyle \mathbb {E} [X|Y=y]=\mathbb {E} [X]+\rho (X,Y)\cdot {\frac {\sqrt {\operatorname {Var} (X)}}{\sqrt {\operatorname {Var} (Y)}}}(y-\mathbb {E} [Y]),{\text{ and }}\mathbb {E} [Y|X=x]=\mathbb {E} [Y]+\rho (X,Y)\cdot {\frac {\sqrt {\operatorname {Var} (Y)}}{\sqrt {\operatorname {Var} (X)}}}(x-\mathbb {E} [X]).}
證明。
該結果直接從關於雙變數正態分佈的條件分佈的命題得出。
◻ {\displaystyle \Box }
類似地,我們有 條件 方差的性質,它們與方差的性質類似。
證明. 證明類似於方差性質的證明。
◻ {\displaystyle \Box }
除了全期望公式,我們還有全方差公式,如下
命題. (全方差公式) 對於每個隨機變數 X , Y {\displaystyle X,Y} , Var ( X ) = E [ Var ( X | Y ) ] + Var ( E [ X | Y ] ) . {\displaystyle \operatorname {Var} (X)=\mathbb {E} [\operatorname {Var} (X|Y)]+\operatorname {Var} (\mathbb {E} [X|Y]).}
證明。 E [ Var ( X | Y ) ] + Var ( E [ X | Y ] ) = E [ E [ X 2 | Y ] − ( E [ X | Y ] ) 2 ] + E [ ( E [ X | Y ] ) 2 ] − ( E [ E [ X | Y ] ] ) 2 = E [ E [ X 2 | Y ] ] + E [ ( E [ X | Y ] ) 2 ] + E [ ( E [ X | Y ] ) 2 ] − ( E [ E [ X | Y ] ] ) 2 = E [ X 2 ] − ( E [ X ] ) 2 by law of total expectation = Var ( X ) {\displaystyle {\begin{aligned}\mathbb {E} [\operatorname {Var} (X|Y)]+\operatorname {Var} (\mathbb {E} [X|Y])&=\mathbb {E} \left[\mathbb {E} [X^{2}|Y]-(\mathbb {E} [X|Y])^{2}\right]+\mathbb {E} \left[(\mathbb {E} [X|Y])^{2}\right]-(\mathbb {E} [\mathbb {E} [X|Y]])^{2}\\&=\mathbb {E} [\mathbb {E} [X^{2}|Y]]{\cancel {+\mathbb {E} \left[(\mathbb {E} [X|Y])^{2}\right]}}+\mathbb {E} \left[(\mathbb {E} [X|Y])^{2}\right]{\cancel {-(\mathbb {E} [\mathbb {E} [X|Y]])^{2}}}\\&=\mathbb {E} [X^{2}]-(\mathbb {E} [X])^{2}\qquad {\text{by law of total expectation}}\\&=\operatorname {Var} (X)\end{aligned}}}
◻ {\displaystyle \Box }
備註。
我們可以用 ( Y 1 , … , Y s ) T {\displaystyle (Y_{1},\dotsc ,Y_{s})^{T}} ,一個隨機向量,來替換 Y {\displaystyle Y} 。
命題。 (二元正態分佈的條件方差)令 ( X , Y ) T ∼ N 2 ( μ , Σ ) {\displaystyle (X,Y)^{T}\sim {\mathcal {N}}_{2}({\boldsymbol {\mu }},{\boldsymbol {\Sigma }})} 。那麼, Var ( X | Y = y ) = ( 1 − ( ρ ( X , Y ) ) 2 ) Var ( X ) , and Var ( Y | X = x ) = ( 1 − ( ρ ( X , Y ) 2 ) Var ( Y ) {\displaystyle \operatorname {Var} (X|Y=y)={\big (}1-(\rho (X,Y))^{2}{\big )}\operatorname {Var} (X),{\text{ and }}\operatorname {Var} (Y|X=x)={\big (}1-(\rho (X,Y)^{2}{\big )}\operatorname {Var} (Y)}
證明。
這個結果可以直接從關於二元正態分佈條件分佈的命題中得出。
◻ {\displaystyle \Box }
備註。
可以觀察到,條件中的 x {\displaystyle x} 和 y {\displaystyle y} 的精確值並不重要。對於不同的值,結果是相同的。
命題。 (條件協方差的性質)
(i) (symmetry) for each random variable X , Y {\displaystyle X,Y} , Cov ( X , Y | Z ) = Cov ( Y , X | Z ) {\displaystyle \operatorname {Cov} (X,Y{\color {darkgreen}|Z})=\operatorname {Cov} (Y,X{\color {darkgreen}|Z})} (ii) for each random variable X {\displaystyle X} , Cov ( X , X | Z ) = Var ( X | Z ) {\displaystyle \operatorname {Cov} (X,X{\color {darkgreen}|Z})=\operatorname {Var} (X{\color {darkgreen}|Z})} (iii) (alternative formula of covariance) Cov ( X , Y | Z ) = E [ X Y | Z ] − E [ X | Z ] E [ Y | Z ] {\displaystyle \operatorname {Cov} (X,Y{\color {darkgreen}|Z})=\mathbb {E} [XY{\color {darkgreen}|Z}]-\mathbb {E} [X{\color {darkgreen}|Z}]\mathbb {E} [Y{\color {darkgreen}|Z}]} (iv) for each constant a 1 , … , a n , b 1 , … , b m , c , d {\displaystyle a_{1},\dotsc ,a_{n},b_{1},\dotsc ,b_{m},c,d} , and for each random variables X 1 , … , X n , Y 1 , … , Y m {\displaystyle X_{1},\dotsc ,X_{n},Y_{1},\dotsc ,Y_{m}} , Cov ( ∑ i = 1 n ( a i X i + c ) , ∑ j = 1 m ( b j Y j + d ) | Z ) = ∑ i = 1 n ∑ j = 1 m a i b j Cov ( X 1 , Y j | Z ) {\displaystyle \operatorname {Cov} \left(\sum _{i=1}^{n}(a_{i}X_{i}+c),\sum _{j=1}^{m}(b_{j}Y_{j}+d){\color {darkgreen}|Z}\right)=\sum _{i=1}^{n}\sum _{j=1}^{m}a_{i}b_{j}\operatorname {Cov} (X_{1},Y_{j}{\color {darkgreen}|Z})} (v) for each random variable X 1 , … , X n {\displaystyle X_{1},\dotsc ,X_{n}} , Var ( X 1 + ⋯ + X n | Z ) = ∑ i = 1 n Var ( X i | Z ) + 2 ∑ 1 ≤ i < j ≤ n Cov ( X i , Y j | Z ) {\displaystyle \operatorname {Var} (X_{1}+\dotsb +X_{n}{\color {darkgreen}|Z})=\sum _{i=1}^{n}\operatorname {Var} (X_{i}{\color {darkgreen}|Z})+2\sum _{1\leq i<j\leq n}^{}\operatorname {Cov} (X_{i},Y_{j}{\color {darkgreen}|Z})}
備註。
類似於“無條件”相關係數,條件 相關係數也介於 − 1 {\displaystyle -1} 和 1 {\displaystyle 1} 之間(包含邊界值)。證明方法類似,只是將所有無條件項替換為條件項。
備註。
然後,我們可以得到 條件 中位數、四分位距等,它們以與無條件分位數相同的方式使用 條件 分位數來定義。