通常,來自隨機實驗的隨機變數 X {\displaystyle X} 被假設 服從某個具有未知(但固定 )引數(向量)[ 1] θ ∈ R k {\displaystyle \theta \in \mathbb {R} ^{k}} [ 2] ( k {\displaystyle k} 是一個正整數,其值取決於分佈)的分佈,取值範圍為集合 Θ {\displaystyle \Theta } ,稱為引數空間。
備註。
在頻率統計學 (此處討論的上下文)中,引數被視為固定 的。
另一方面,在貝葉斯統計學 的上下文中,引數被視為隨機變數 。
例如,假設隨機變數 X {\displaystyle X} 被假設服從正態分佈 N ( μ , σ 2 ) {\displaystyle {\mathcal {N}}(\mu ,\sigma ^{2})} 。那麼,在這種情況下,引數向量 θ = ( μ , σ ) ∈ Θ {\displaystyle \theta =(\mu ,\sigma )\in \Theta } 是未知的,引數空間 Θ = { ( μ , σ ) : μ ∈ R , σ > 0 } {\displaystyle \Theta =\{(\mu ,\sigma ):\mu \in \mathbb {R} ,\sigma >0\}} 。通常,透過某些方法估計 這些未知引數來“理解”隨機變數 X {\displaystyle X} 更有幫助。我們希望確保估計足夠好 [ 3] ,以便理解更準確。
直觀地說,隨機樣本 的(實現) X 1 , … , X n {\displaystyle X_{1},\dotsc ,X_{n}} 應該是有用的。實際上,本章介紹的估計量在某種意義上都是基於隨機樣本的,這就是點估計 的含義。更準確地說,讓我們定義點估計 和點估計值 。
定義。 (點估計)點估計 是一個使用統計量 的值來給出未知引數的單一值估計(可以理解為一個點 )的過程。
備註。
回想一下,統計量 是隨機樣本的函式。
我們將未知引數稱為總體引數 (因為與引數相對應的基礎分佈稱為總體 )。
統計量稱為點估計量 ,其實現值稱為點估計值 。
點估計量 的符號通常帶有 ^ {\displaystyle {\hat {}}} 。
點 估計將與區間 估計形成對比,區間估計使用統計量的值來估計未知引數的區間 可能值。
示例. 假設 X 1 , … , X n {\displaystyle X_{1},\dotsc ,X_{n}} 是從正態分佈 N ( μ , σ 2 ) {\displaystyle {\mathcal {N}}(\mu ,\sigma ^{2})} 中抽取的 n {\displaystyle n} 個隨機樣本。
我們可以使用 統計量 X ¯ = X 1 + ⋯ + X n n {\displaystyle {\overline {X}}={\frac {X_{1}+\dotsb +X_{n}}{n}}} 來直觀地估計 μ {\displaystyle \mu } , X ¯ {\displaystyle {\overline {X}}} 被稱為 點估計量 ,其實現值 x ¯ {\displaystyle {\overline {x}}} 被稱為 點估計 。
或者,我們可以簡單地使用統計量 X 1 {\displaystyle X_{1}} (儘管它不涉及 X 2 , … , X n {\displaystyle X_{2},\dotsc ,X_{n}} ,但它仍然可以被視為 X 1 , … , X n {\displaystyle X_{1},\dotsc ,X_{n}} 的函式)來估計 μ {\displaystyle \mu } 。也就是說,我們使用正態分佈的第一個隨機樣本的值作為該分佈均值的點估計!直觀地說,這種估計量似乎“很糟糕”。
這種僅直接取一個隨機樣本的估計量稱為 單觀測估計量 。
我們稍後將討論如何評估點估計量的“好壞”。
接下來,我們將介紹兩個著名的點估計量,它們實際上“很好”,即 最大似然估計量 和 矩估計量 。
顧名思義,這種估計量是 最大化 某種“似然性”的估計量。現在,我們想知道為了以“良好”的方式估計未知引數(複數),應該最大化什麼樣的“似然性”。此外,如引言部分所述,估計量在某種意義上是基於隨機樣本的。因此,這種“似然性”也應該在某種意義上基於隨機樣本。
為了激發最大似然估計量的定義,請考慮以下示例。
示例. 在一個隨機實驗中,一枚(公平或不公平)硬幣被拋擲一次。設隨機變數 X = 1 {\displaystyle X=1} 如果出現正面,則為 0 {\displaystyle 0} 否則。那麼, X {\displaystyle X} 的機率質量函式為 f ( x ; p ) = p x ( 1 − p ) 1 − x , x ∈ { 0 , 1 } {\displaystyle f(x;p)=p^{x}(1-p)^{1-x},\quad x\in \{0,1\}} ,其中未知引數 p {\displaystyle p} 表示出現正面的機率,並且 p ∈ Θ = { p : p ∈ ( 0 , 1 ) } {\displaystyle p\in \Theta =\{p:p\in (0,1)\}} 。
現在,假設你得到一個隨機樣本 X 1 , X 2 , … , X n {\displaystyle X_{1},X_{2},\dotsc ,X_{n}} ,透過拋擲硬幣 n {\displaystyle n} 次獨立試驗(這種隨機樣本稱為獨立 隨機樣本,因為所涉及的隨機變數是獨立的),對應的實現值為 x 1 , x 2 , … , x n {\displaystyle x_{1},x_{2},\dotsc ,x_{n}} 。那麼,對於 X 1 = x 1 , X 2 = x 2 , … , and X n = x n {\displaystyle X_{1}=x_{1},X_{2}=x_{2},\dotsc ,{\text{ and }}X_{n}=x_{n}} ,即隨機樣本恰好具有這些實現值的機率為 P ( X 1 = x 1 ∩ X 2 = x 2 ∩ ⋯ ∩ X n = x n ) = P ( X 1 = x 1 ) P ( X 2 = x 2 ) ⋯ P ( X n = x n ) by independence = f ( x 1 ; p ) f ( x 2 ; p ) ⋯ f ( x n ; p ) = p x 1 ( 1 − p ) 1 − x 1 p x 2 ( 1 − p ) 1 − x 2 ⋯ p x n ( 1 − p ) 1 − x n = p x 1 + x 2 + ⋯ + x n ( 1 − p ) n − x 1 − x 2 − ⋯ − x n . {\displaystyle {\begin{aligned}\mathbb {P} (X_{1}=x_{1}\cap X_{2}=x_{2}\cap \dotsb \cap X_{n}=x_{n})&=\mathbb {P} (X_{1}=x_{1})\mathbb {P} (X_{2}=x_{2})\dotsb \mathbb {P} (X_{n}=x_{n})&{\text{by independence}}\\&=f(x_{1};p)f(x_{2};p)\dotsb f(x_{n};p)\\&=p^{x_{1}}(1-p)^{1-x_{1}}p^{x_{2}}(1-p)^{1-x_{2}}\dotsb p^{x_{n}}(1-p)^{1-x_{n}}\\&=p^{x_{1}+x_{2}+\dotsb +x_{n}}(1-p)^{n-x_{1}-x_{2}-\dotsb -x_{n}}.\end{aligned}}}
備註。
關於符號的說明 :你可能會注意到在 X {\displaystyle X} 的機率質量函式中有一個額外的" ; p {\displaystyle ;p} "。這種符號表示機率質量函式是引數值為 p {\displaystyle p} 的”。它被包含在內是為了強調 我們所指的引數值。
一般來說,我們用 f ( ⋅ ; θ ) {\displaystyle f(\cdot ;\theta )} 表示引數值為 θ {\displaystyle \theta } ( θ {\displaystyle \theta } 可以是向量)的機率質量函式/機率密度函式。
對於相同的含義,存在一些備選的記號: f ( ⋅ | θ ) , f θ ( ⋅ ) , … {\displaystyle f(\cdot |\theta ),f_{\theta }(\cdot ),\dotsc } 。
類似地,我們也有類似的記號,例如 P θ ( A ) , P ( A | θ ) , P ( A ; θ ) , … {\displaystyle \mathbb {P} _{\theta }(A),\mathbb {P} (A|\theta ),\mathbb {P} (A;\theta ),\dotsc } ,表示事件 A {\displaystyle A} 發生的機率,引數值為 θ {\displaystyle \theta } 。(通常使用第一個記號: P θ ( A ) {\displaystyle \mathbb {P} _{\theta }(A)} 。)
對於均值、方差、協方差等,我們也有類似的記號,例如 E θ [ ⋅ ] , Var θ ( ⋅ ) , Cov θ ( ⋅ ) , … {\displaystyle \mathbb {E} _{\theta }[\cdot ],\operatorname {Var} _{\theta }(\cdot ),\operatorname {Cov} _{\theta }(\cdot ),\dotsc } 。
直觀地,對於這些特定的實現(固定的),我們希望找到一個 p {\displaystyle p} 的值,使該機率最大化,即使獲得的實現成為“最有可能”或“似然最大”的實現。現在,讓我們正式定義與最大似然估計相關的術語。
定義。 (似然函式)設 X 1 , … , X n {\displaystyle X_{1},\dotsc ,X_{n}} 是一個具有聯合 機率質量函式(pmf)或機率密度函式(pdf) f {\displaystyle f} 的隨機樣本,引數(向量) θ ∈ Θ {\displaystyle \theta \in \Theta } ( Θ {\displaystyle \Theta } 是引數空間)。假設 x 1 , … , x n {\displaystyle x_{1},\dotsc ,x_{n}} 是隨機樣本 X 1 , … , X n {\displaystyle X_{1},\dotsc ,X_{n}} 的對應實現。那麼,似然函式 ,記為 L ( θ ; x 1 , … , x n ) {\displaystyle {\mathcal {L}}(\theta ;x_{1},\dotsc ,x_{n})} ,是函式 θ ↦ f ( x 1 , … , x n ; θ ) {\displaystyle \theta \mapsto f(x_{1},\dotsc ,x_{n};\theta )} ( θ {\displaystyle \theta } 是一個變數, x 1 , … , x n {\displaystyle x_{1},\dotsc ,x_{n}} 是固定的)。
備註。
為了簡便,我們可以使用符號 L ( θ ; x ) {\displaystyle {\mathcal {L}}(\theta ;\mathbf {x} )} 代替 L ( θ ; x 1 , … , x n ) {\displaystyle {\mathcal {L}}(\theta ;x_{1},\dotsc ,x_{n})} 。有時,為了方便起見,我們也可能只寫“ L ( θ ; x ) {\displaystyle {\mathcal {L}}(\theta ;\mathbf {x} )} ”。
當我們將 x 1 , … , x n {\displaystyle x_{1},\dotsc ,x_{n}} 替換為 X 1 , … , X n {\displaystyle X_{1},\dotsc ,X_{n}} 時,得到的“似然函式”就變成了一個隨機變數,我們用 L ( θ ; X 1 , … , X n ) {\displaystyle {\mathcal {L}}(\theta ;X_{1},\dotsc ,X_{n})} 或 L ( θ ; X ) {\displaystyle {\mathcal {L}}(\theta ;\mathbf {X} )} 表示它。
似然函式與聯合機率質量函式或機率密度函式本身形成對比,在聯合機率質量函式或機率密度函式中, θ {\displaystyle \theta } 是固定的,而 x 1 , … , x n {\displaystyle x_{1},\dotsc ,x_{n}} 是變數。
當隨機樣本來自離散 分佈時,似然函式的值就是引數向量 θ {\displaystyle \theta } 下機率 P ( X 1 = x 1 ∩ ⋯ ∩ X n = x n ) {\displaystyle \mathbb {P} (X_{1}=x_{1}\cap \dotsb \cap X_{n}=x_{n})} 。也就是說,獲得這個特定實現的精確機率。
當隨機樣本來自連續 分佈時,似然函式的值不是 機率。相反,它只是聯合機率密度函式在 ( x 1 , … , x n ) {\displaystyle (x_{1},\dotsc ,x_{n})} 處的取值(可能大於1)。但是,該值仍然可以用來“反映”獲得“非常接近”這個特定實現的機率,其中機率可以透過對 ( x 1 , … , x n ) {\displaystyle (x_{1},\dotsc ,x_{n})} 周圍“非常小”區域內的聯合機率密度函式進行積分來獲得。
似然函式的自然對數, ln L ( θ ; x ) {\displaystyle \ln {\mathcal {L}}(\theta ;\mathbf {x} )} (或有時為 ln L ( θ ; X ) {\displaystyle \ln {\mathcal {L}}(\theta ;\mathbf {X} )} ),稱為對數似然函式 。
請注意,似然函式的“表示式”實際上與聯合機率密度函式的表示式相同,只是輸入不同。因此,人們仍然可以對似然函式關於 x 1 , … , x n {\displaystyle x_{1},\dotsc ,x_{n}} 進行積分/求和(在某種意義上,在這種情況下,將似然函式轉換為聯合機率密度函式/機率質量函式),就像它是聯合機率密度函式/機率質量函式一樣,以獲得機率。
現在,讓我們找到之前拋硬幣示例中未知引數 p {\displaystyle p} 的 MLE。
有時,在求解引數的最大似然估計時,會對引數施加約束。在這種情況下,引數的最大似然估計稱為受限 最大似然估計。我們將在以下示例中說明這一點。
示例: 繼續前面拋硬幣的例子。假設對 p {\displaystyle p} 施加約束,其中 0 ≤ p ≤ 1 2 {\displaystyle 0\leq p\leq {\frac {1}{2}}} 。在這種情況下,求 p {\displaystyle p} 的最大似然估計。
解: 關於推導似然函式和對數似然函式的步驟,在這種情況下是相同的。在沒有限制的情況下, p {\displaystyle p} 的最大似然估計是 X ¯ {\displaystyle {\overline {X}}} 。現在,在存在限制的情況下, p {\displaystyle p} 的最大似然估計為 X ¯ {\displaystyle {\overline {X}}} ,僅當 X ¯ ≤ 1 2 {\displaystyle {\overline {X}}\leq {\frac {1}{2}}} 時(我們始終有 X ¯ ≥ 0 {\displaystyle {\overline {X}}\geq 0} ,因為 X ≥ 0 {\displaystyle X\geq 0} )。
If X ¯ > 1 2 {\displaystyle {\overline {X}}>{\frac {1}{2}}} (and thus x ¯ > 1 / 2 {\displaystyle {\overline {x}}>1/2} ), even though ln L ( p ) {\displaystyle \ln {\mathcal {L}}(p)} is maximized at p = x ¯ {\displaystyle p={\overline {x}}} , we cannot set the MLE to be X ¯ {\displaystyle {\overline {X}}} due to the restriction on p {\displaystyle p} : 0 ≤ p ≤ 1 2 {\displaystyle 0\leq p\leq {\frac {1}{2}}} . Under this case, this means d ln L ( p ) d p > 0 {\displaystyle {\frac {d\ln {\mathcal {L}}(p)}{dp}}>0} when p ≤ 1 2 < X ¯ {\displaystyle p\leq {\frac {1}{2}}<{\overline {X}}} (we have d ln L ( p ) d p > 0 {\displaystyle {\frac {d\ln {\mathcal {L}}(p)}{dp}}>0} when p < x ¯ {\displaystyle p<{\overline {x}}} from previous example), i.e., ln L ( p ) {\displaystyle \ln {\mathcal {L}}(p)} is strictly increasing when p ≤ 1 2 {\displaystyle p\leq {\frac {1}{2}}} . Thus, ln L ( p ) {\displaystyle \ln {\mathcal {L}}(p)} is maximized when p = 1 2 {\displaystyle p={\frac {1}{2}}} with the restriction. As a result, the MLE of p {\displaystyle p} is 1 2 {\displaystyle {\frac {1}{2}}} (the MLE can be a constant, which can still be regarded as a function of X 1 , … , X n {\displaystyle X_{1},\dotsc ,X_{n}} ).
因此, p {\displaystyle p} 的最大似然估計可以寫成一個分段函式: θ ^ = { X ¯ , X ¯ ≤ 1 2 1 2 , X ¯ > 1 2 {\displaystyle {\hat {\theta }}={\begin{cases}{\overline {X}},&{\overline {X}}\leq {\frac {1}{2}}\\{\frac {1}{2}},&{\overline {X}}>{\frac {1}{2}}\end{cases}}} ,或者可以寫成 θ ^ = min { X ¯ , 1 2 } {\displaystyle {\hat {\theta }}=\min \left\{{\overline {X}},{\frac {1}{2}}\right\}} 。
為了找到最大似然估計,我們有時會使用導數檢驗以外的方法,並且不需要找到對數似然函式。讓我們在下面的例子中說明這一點。
示例: 令 X 1 , … , X n {\displaystyle X_{1},\dotsc ,X_{n}} 是來自均勻分佈 U [ 0 , β ] {\displaystyle {\mathcal {U}}[0,\beta ]} 的一個隨機樣本。求 β {\displaystyle \beta } 的最大似然估計。
解: 均勻分佈的機率密度函式為 f ( x ; β ) = 1 β 1 { 0 ≤ x ≤ β } {\displaystyle f(x;\beta )={\frac {1}{\beta }}\mathbf {1} \{0\leq x\leq \beta \}} 。因此,似然函式為 L ( β ) = ∏ i = 1 n 1 β 1 { 0 ≤ x i ≤ β } = 1 β n ∏ i = 1 n 1 { 0 ≤ x i ≤ β } {\displaystyle {\mathcal {L}}(\beta )=\prod _{i=1}^{n}{\frac {1}{\beta }}\mathbf {1} \{0\leq x_{i}\leq \beta \}={\frac {1}{\beta ^{n}}}\prod _{i=1}^{n}\mathbf {1} \{0\leq x_{i}\leq \beta \}} 。
為了使 L ( β ) {\displaystyle {\mathcal {L}}(\beta )} 達到最大值,首先,我們需要確保對於每個 i ∈ { 1 , … , n } {\displaystyle i\in \{1,\dotsc ,n\}} ,都有 0 ≤ x i ≤ β {\displaystyle 0\leq x_{i}\leq \beta } ,這樣似然函式中指示函式的乘積才不為零(在這種情況下,值實際上為1)。除此之外,由於 β ↦ 1 β n {\displaystyle \beta \mapsto {\frac {1}{\beta ^{n}}}} 是 β {\displaystyle \beta } 的嚴格遞減函式(因為 d d β ( 1 β n ) = − n β n + 1 < 0 {\displaystyle {\frac {d}{d\beta }}\left({\frac {1}{\beta ^{n}}}\right)={\frac {-n}{\beta ^{n+1}}}<0} (我們有 n , β > 0 {\displaystyle n,\beta >0} )),我們應該選擇一個儘可能小的 β {\displaystyle \beta } ,使得 1 β n {\displaystyle {\frac {1}{\beta ^{n}}}} ,因此 L ( β ) {\displaystyle {\mathcal {L}}(\beta )} ,儘可能大。
因此,我們應該選擇一個儘可能小的 β {\displaystyle \beta } ,前提條件是對於每個 i ∈ { 1 , … , n } {\displaystyle i\in \{1,\dotsc ,n\}} ,都有 0 ≤ x i ≤ β {\displaystyle 0\leq x_{i}\leq \beta } ,這意味著 β ≥ x i {\displaystyle \beta \geq x_{i}} (無論 β {\displaystyle \beta } 如何選擇, x i ≥ 0 {\displaystyle x_{i}\geq 0} 總是成立)。由此可知,當 β {\displaystyle \beta } 是 x 1 , … , x n {\displaystyle x_{1},\dotsc ,x_{n}} 的最大值時, L ( β ) {\displaystyle {\mathcal {L}}(\beta )} 達到最大值。因此, β {\displaystyle \beta } 的最大似然估計是 β ^ = max { X 1 , … , X n } {\displaystyle {\hat {\beta }}=\max\{X_{1},\dotsc ,X_{n}\}} 。
練習。 證明如果均勻分佈變為 U [ 0 , β ) {\displaystyle {\mathcal {U}}[0,\beta )} ,則 β {\displaystyle \beta } 的最大似然估計不存在。
解答
Proof. In this case, the constraint from the indicator functions become 0 ≤ x i < β {\displaystyle 0\leq x_{i}<\beta } for each i ∈ { 1 , … , n } {\displaystyle i\in \{1,\dotsc ,n\}} . With similar argument, for the MLE of β {\displaystyle \beta } , we should choose a β {\displaystyle \beta } that is as small as possible subject to this constraint, which means β > x i {\displaystyle \beta >x_{i}} for each i ∈ { 1 , … , n } {\displaystyle i\in \{1,\dotsc ,n\}} . However, in this case, we cannot set β {\displaystyle \beta } to be the maximum of x 1 , … , x n {\displaystyle x_{1},\dotsc ,x_{n}} , or else the constraint will not be satisfied and the likelihood function becomes zero due to the indicator function. Instead, we should set β {\displaystyle \beta } to be slightly greater than the maximum of x 1 , … , x n {\displaystyle x_{1},\dotsc ,x_{n}} , so that the constraint can still be satisifed, and β {\displaystyle \beta } is quite small. However, for each such β > max { x 1 , … , x n } {\displaystyle \beta >\max\{x_{1},\dotsc ,x_{n}\}} , we can always chooses a smaller β {\displaystyle \beta } that still satisfies the constraint. For example, for each β {\displaystyle \beta } , the smaller beta, β ′ {\displaystyle \beta '} can be selected as max { x 1 , … , x n } + β − max { x 1 , … , x n } 2 > max { x 1 , … , x n } {\displaystyle \max\{x_{1},\dotsc ,x_{n}\}+{\frac {\beta -\max\{x_{1},\dotsc ,x_{n}\}}{2}}>\max\{x_{1},\dotsc ,x_{n}\}} [ 4] . Hence, we cannot find a minimum value of β {\displaystyle \beta } subject to this constraint. Thus, there is no maximum point for ln L ( p ) {\displaystyle \ln {\mathcal {L}}(p)} , and hence the MLE does not exist.
◻ {\displaystyle \Box }
在下面的例子中,我們將找到引數向量的最大似然估計。
例。 令 X 1 , … , X n {\displaystyle X_{1},\dotsc ,X_{n}} 為來自均值為 θ 1 {\displaystyle \theta _{1}} ,方差為 θ 2 {\displaystyle \theta _{2}} 的正態分佈的隨機樣本, N ( θ 1 , θ 2 ) {\displaystyle {\mathcal {N}}(\theta _{1},\theta _{2})} 。求 ( θ 1 , θ 2 ) {\displaystyle (\theta _{1},\theta _{2})} 的最大似然估計。
解 :令 θ = ( θ 1 , θ 2 ) {\displaystyle \theta =(\theta _{1},\theta _{2})} 。似然函式為 L ( θ ; x ) = ∏ i = 1 n 1 2 π θ 2 exp ( − ( x i − θ 1 ) 2 2 θ 2 ) = ( 2 π θ 2 ) − n / 2 exp ( − ∑ i = 1 n ( x i − θ 1 ) 2 2 θ 2 ) {\displaystyle {\mathcal {L}}(\theta ;\mathbf {x} )=\prod _{i=1}^{n}{\frac {1}{\sqrt {2\pi \theta _{2}}}}\exp \left(-{\frac {(x_{i}-\theta _{1})^{2}}{2\theta _{2}}}\right)=(2\pi \theta _{2})^{-n/2}\exp \left(-\sum _{i=1}^{n}{\frac {(x_{i}-\theta _{1})^{2}}{2\theta _{2}}}\right)} ,因此對數似然函式為 ln L ( θ ; x ) = − n 2 ln ( 2 π θ 2 ) − ∑ i = 1 n ( x i − θ 1 ) 2 2 θ 2 {\displaystyle \ln {\mathcal {L}}(\theta ;\mathbf {x} )=-{\frac {n}{2}}\ln(2\pi \theta _{2})-\sum _{i=1}^{n}{\frac {(x_{i}-\theta _{1})^{2}}{2\theta _{2}}}} 。由於該函式是多元函式,我們可以使用多元微積分中的二階偏導數檢驗來尋找最大值點。但是,在本例中,我們實際上不需要使用這種檢驗。相反,我們可以逐個固定變數,使函式成為一元函式,這樣我們就可以使用一元函式的導數檢驗來尋找最大值點(在另一個變數固定的情況下)。
由於 ∂ ln L ( θ ; x ) ∂ θ 1 = 1 θ 2 ∑ i = 1 n ( x i − θ 1 ) {\displaystyle {\frac {\partial \ln {\mathcal {L}}(\theta ;\mathbf {x} )}{\partial \theta _{1}}}={\frac {1}{\theta _{2}}}\sum _{i=1}^{n}(x_{i}-\theta _{1})} 和 ∂ ln L ( θ ; x ) ∂ θ 2 = − 2 n π 4 π θ 2 + 1 2 θ 2 2 ∑ i = 1 n ( x i − θ 1 ) 2 = − n 2 θ 2 + 1 2 θ 2 2 ∑ i = 1 n ( x i − θ 1 ) 2 {\displaystyle {\frac {\partial \ln {\mathcal {L}}(\theta ;\mathbf {x} )}{\partial \theta _{2}}}=-{\frac {2n\pi }{4\pi \theta _{2}}}+{\frac {1}{2\theta _{2}^{2}}}\sum _{i=1}^{n}(x_{i}-\theta _{1})^{2}=-{\frac {n}{2\theta _{2}}}+{\frac {1}{2\theta _{2}^{2}}}\sum _{i=1}^{n}(x_{i}-\theta _{1})^{2}} 。
此外, ∂ ln L ( θ ; x ) ∂ θ 1 = 0 ⟹ ∑ i = 1 n ( x i − θ 1 ) = 0 ⟹ − n θ 1 + ∑ i = 1 n x i = 0 ⟹ θ 1 = ∑ i = 1 n x i n = x ¯ {\displaystyle {\frac {\partial \ln {\mathcal {L}}(\theta ;\mathbf {x} )}{\partial \theta _{1}}}=0\implies \sum _{i=1}^{n}(x_{i}-\theta _{1})=0\implies -n\theta _{1}+\sum _{i=1}^{n}x_{i}=0\implies \theta _{1}={\frac {\sum _{i=1}^{n}x_{i}}{n}}={\overline {x}}} ,它與 θ 2 {\displaystyle \theta _{2}} 無關(這對我們使用這種方法很重要)並且 ∂ ln L ( θ ; x ) ∂ θ 2 = 0 ⟹ n 2 θ 2 = 1 2 θ 2 2 ( ∑ i = 1 n ( x i − θ 1 ) 2 ) ⟹ n = 1 θ 2 ( ∑ i = 1 n ( x i − θ 1 ) 2 ) ⟹ θ 2 = ∑ i = 1 n ( x i − θ 1 ) 2 n {\displaystyle {\frac {\partial \ln {\mathcal {L}}(\theta ;\mathbf {x} )}{\partial \theta _{2}}}=0\implies {\frac {n}{2\theta _{2}}}={\frac {1}{2\theta _{2}^{2}}}\left(\sum _{i=1}^{n}(x_{i}-\theta _{1})^{2}\right)\implies n={\frac {1}{\theta _{2}}}\left(\sum _{i=1}^{n}(x_{i}-\theta _{1})^{2}\right)\implies \theta _{2}={\frac {\sum _{i=1}^{n}(x_{i}-\theta _{1})^{2}}{n}}} 。
由於 ∂ 2 ln L ( θ ; x ) ∂ θ 1 2 = ∂ ∂ θ 1 ( 1 θ 2 ∑ i = 1 n ( x i − θ 1 ) ) = 1 θ 2 ∑ i = 1 n ( − 1 ) = − n θ 2 < 0 {\displaystyle {\frac {\partial ^{2}\ln {\mathcal {L}}(\theta ;\mathbf {x} )}{\partial \theta _{1}^{2}}}={\frac {\partial }{\partial \theta _{1}}}\left({\frac {1}{\theta _{2}}}\sum _{i=1}^{n}(x_{i}-\theta _{1})\right)={\frac {1}{\theta _{2}}}\sum _{i=1}^{n}(-1)={\frac {-n}{\theta _{2}}}<0} ,根據一元函式的二階導數檢驗, ln L ( θ ; x ) {\displaystyle \ln {\mathcal {L}}(\theta ;\mathbf {x} )} 在 θ 1 = x ¯ {\displaystyle \theta _{1}={\overline {x}}} 處取得最大值,在任意固定的 θ 2 {\displaystyle \theta _{2}} 的情況下。
另一方面,由於 ∂ 2 ln L ( θ ; x ) ∂ θ 2 2 = n 2 θ 2 2 − 1 θ 2 3 ∑ i = 1 n ( x i − θ 1 ) 2 {\displaystyle {\frac {\partial ^{2}\ln {\mathcal {L}}(\theta ;\mathbf {x} )}{\partial \theta _{2}^{2}}}={\frac {n}{2\theta _{2}^{2}}}-{\frac {1}{\theta _{2}^{3}}}\sum _{i=1}^{n}(x_{i}-\theta _{1})^{2}} ,因此 ∂ 2 ln L ( θ ; x ) ∂ θ 2 2 | θ 2 = ∑ i = 1 n ( x i − θ 1 ) 2 n = 1 2 n ( ∑ i = 1 n ( x i − θ 1 ) 2 ) 2 − n 3 ( ∑ i = 1 n ( x i − θ 1 ) 2 ) 2 = 1 − 2 n 4 2 n ( ∑ i = 1 n ( x i − θ 1 ) 2 ) 2 < 0 {\displaystyle \left.{\frac {\partial ^{2}\ln {\mathcal {L}}(\theta ;\mathbf {x} )}{\partial \theta _{2}^{2}}}\right\vert _{\theta _{2}={\frac {\sum _{i=1}^{n}(x_{i}-\theta _{1})^{2}}{n}}}={\frac {1}{2n\left(\sum _{i=1}^{n}(x_{i}-\theta _{1})^{2}\right)^{2}}}-{\frac {n^{3}}{\left(\sum _{i=1}^{n}(x_{i}-\theta _{1})^{2}\right)^{2}}}={\frac {1-2n^{4}}{2n\left(\sum _{i=1}^{n}(x_{i}-\theta _{1})^{2}\right)^{2}}}<0} (因為 2 n 4 > 1 {\displaystyle 2n^{4}>1} )。
因此,根據二階導數檢驗, ln L ( θ ; x ) {\displaystyle \ln {\mathcal {L}}(\theta ;\mathbf {x} )} 在 θ 2 = ∑ i = 1 n ( x i − θ 1 ) 2 n {\displaystyle \theta _{2}={\frac {\sum _{i=1}^{n}(x_{i}-\theta _{1})^{2}}{n}}} 處取得最大值,在任何給定的固定 θ 1 {\displaystyle \theta _{1}} 下。
因此,現在我們固定 θ 1 = x ¯ {\displaystyle \theta _{1}={\overline {x}}} ,因此我們有 ln L ( θ ; x ) {\displaystyle \ln {\mathcal {L}}(\theta ;\mathbf {x} )} 在 θ 2 = ∑ i = 1 n ( x i − x ¯ ) 2 n = s 2 {\displaystyle \theta _{2}={\frac {\sum _{i=1}^{n}(x_{i}-{\overline {x}})^{2}}{n}}=s^{2}} 處取得最大值,其中 s 2 {\displaystyle s^{2}} 是樣本方差 S 2 {\displaystyle S^{2}} 的取值。現在,固定 θ 2 {\displaystyle \theta _{2}} 為 s 2 {\displaystyle s^{2}} ,並且我們知道 ln L ( θ ; x ) {\displaystyle \ln {\mathcal {L}}(\theta ;\mathbf {x} )} 在 θ 1 = x ¯ {\displaystyle \theta _{1}={\overline {x}}} 處取得最大值,對於每個固定的 θ 2 {\displaystyle \theta _{2}} 都是如此,包括這個固定的 θ 2 = s 2 {\displaystyle \theta _{2}=s^{2}} 。結果, ln L ( θ ; x ) {\displaystyle \ln {\mathcal {L}}(\theta ;\mathbf {x} )} 在 ( θ 1 , θ 2 ) = ( x ¯ , s 2 ) {\displaystyle (\theta _{1},\theta _{2})=({\overline {x}},s^{2})} 處取得最大值。因此, ( θ 1 , θ 2 ) {\displaystyle (\theta _{1},\theta _{2})} 的最大似然估計是 ( X ¯ , S 2 ) {\displaystyle ({\overline {X}},S^{2})} 。
練習。
(a) 計算 ln L ( θ ; x ) {\displaystyle \ln {\mathcal {L}}(\theta ;\mathbf {x} )} 在 ( θ 1 , θ 2 ) = ( x ¯ , s 2 ) {\displaystyle (\theta _{1},\theta _{2})=({\overline {x}},s^{2})} 處的 Hessian 矩陣的行列式,可以表示為 ∂ 2 ln L ∂ θ 1 2 ( x ¯ , s 2 ) ∂ 2 ln L ∂ θ 2 2 ( x ¯ , s 2 ) − ( ∂ 2 ln L ∂ θ 2 ∂ θ 1 ( x ¯ , s 2 ) ) 2 {\displaystyle {\frac {\partial ^{2}\ln {\mathcal {L}}}{\partial \theta _{1}^{2}}}({\overline {x}},s^{2}){\frac {\partial ^{2}\ln {\mathcal {L}}}{\partial \theta _{2}^{2}}}({\overline {x}},s^{2})-\left({\frac {\partial ^{2}\ln {\mathcal {L}}}{\partial \theta _{2}\partial \theta _{1}}}({\overline {x}},s^{2})\right)^{2}} 。
(b) 因此,使用二階偏導數檢驗驗證 ( θ 1 , θ 2 ) = ( x ¯ , s 2 ) {\displaystyle (\theta _{1},\theta _{2})=({\overline {x}},s^{2})} 是 ln L ( θ ; x ) {\displaystyle \ln {\mathcal {L}}(\theta ;\mathbf {x} )} 的最大值點。
解答
(a) 首先,
∂ 2 ln L ∂ θ 1 2 ( x ¯ , s 2 ) = above − n θ 2 | θ 2 = s 2 = − n s 2 {\displaystyle {\frac {\partial ^{2}\ln {\mathcal {L}}}{\partial \theta _{1}^{2}}}({\overline {x}},s^{2}){\overset {\text{above}}{=}}\left.{\frac {-n}{\theta _{2}}}\right\vert _{\theta _{2}=s^{2}}={\frac {-n}{s^{2}}}}
∂ 2 ln L ∂ θ 2 2 ( x ¯ , s 2 ) = above n 2 θ 2 2 − 1 θ 2 3 ∑ i = 1 n ( x i − θ 1 ) 2 | ( θ 1 , θ 2 ) = ( x ¯ , s 2 ) = n 2 ( s 2 ) 2 − 1 ( s 2 ) 3 ⋅ n s 2 = n 2 ( s 2 ) 2 − n ( s 2 ) 2 = − n 2 ( s 2 ) 2 {\displaystyle {\frac {\partial ^{2}\ln {\mathcal {L}}}{\partial \theta _{2}^{2}}}({\overline {x}},s^{2}){\overset {\text{above}}{=}}\left.{\frac {n}{2\theta _{2}^{2}}}-{\frac {1}{\theta _{2}^{3}}}\sum _{i=1}^{n}(x_{i}-\theta _{1})^{2}\right\vert _{(\theta _{1},\theta _{2})=({\overline {x}},s^{2})}={\frac {n}{2(s^{2})^{2}}}-{\frac {1}{(s^{2})^{3}}}\cdot ns^{2}={\frac {n}{2(s^{2})^{2}}}-{\frac {n}{(s^{2})^{2}}}={\frac {-n}{2(s^{2})^{2}}}}
∂ 2 ln L ∂ θ 2 ∂ θ 1 ( x ¯ , s 2 ) = above ∂ ∂ θ 2 ( 1 θ 2 ∑ i = 1 n ( x i − θ 1 ) ) | ( θ 1 , θ 2 ) = ( x ¯ , s 2 ) = − ∑ i = 1 n ( x i − θ 1 ) θ 2 2 | ( θ 1 , θ 2 ) = ( x ¯ , s 2 ) = − ∑ i = 1 n ( x i − x ¯ ) ( s 2 ) 2 = − ∑ i = 1 n ( x i ) − n x ¯ ( s 2 ) 2 = − n x ¯ − n x ¯ ( s 2 ) 2 = 0 {\displaystyle {\frac {\partial ^{2}\ln {\mathcal {L}}}{\partial \theta _{2}\partial \theta _{1}}}({\overline {x}},s^{2}){\overset {\text{above}}{=}}\left.{\frac {\partial }{\partial \theta _{2}}}\left({\frac {1}{\theta _{2}}}\sum _{i=1}^{n}(x_{i}-\theta _{1})\right)\right\vert _{(\theta _{1},\theta _{2})=({\overline {x}},s^{2})}=\left.-{\frac {\sum _{i=1}^{n}(x_{i}-\theta _{1})}{\theta _{2}^{2}}}\right\vert _{(\theta _{1},\theta _{2})=({\overline {x}},s^{2})}=-{\frac {\sum _{i=1}^{n}(x_{i}-{\overline {x}})}{(s^{2})^{2}}}=-{\frac {\sum _{i=1}^{n}(x_{i})-n{\overline {x}}}{(s^{2})^{2}}}=-{\frac {n{\overline {x}}-n{\overline {x}}}{(s^{2})^{2}}}=0}
因此,Hessian矩陣的行列式為 − n s 2 ⋅ − n 2 ( s 2 ) 2 = n 2 2 ( s 2 ) 3 {\displaystyle {\frac {-n}{s^{2}}}\cdot {\frac {-n}{2(s^{2})^{2}}}={\frac {n^{2}}{2(s^{2})^{3}}}} 。
(b) 從(a)可知,Hessian矩陣的行列式為正。此外, ∂ 2 ln L ∂ θ 1 2 ( x ¯ , s 2 ) = − n s 2 < 0 {\displaystyle {\frac {\partial ^{2}\ln {\mathcal {L}}}{\partial \theta _{1}^{2}}}({\overline {x}},s^{2})=-{\frac {n}{s^{2}}}<0} 。因此,根據二階偏導數檢驗, ln L ( θ ; x ) {\displaystyle \ln {\mathcal {L}}(\theta ;\mathbf {x} )} 在 ( θ 1 , θ 2 ) = ( x ¯ , s 2 ) {\displaystyle (\theta _{1},\theta _{2})=({\overline {x}},s^{2})} 處取得最大值。
對於最大似然估計,我們需要利用似然函式,該函式來自分佈中隨機樣本的聯合機率質量函式或機率密度函式。然而,在實踐中我們可能並不知道分佈的機率質量函式或機率密度函式的確切形式。相反,我們可能只知道關於分佈的一些資訊,例如均值、方差和一些矩( r {\displaystyle r} 階隨機變數 X {\displaystyle X} 的矩為 E [ X r ] {\displaystyle \mathbb {E} [X^{r}]} ,為了簡單起見,我們將其表示為 μ r {\displaystyle \mu _{r}} )。這些矩通常包含關於未知引數的資訊。例如,對於正態分佈 N ( μ , σ 2 ) {\displaystyle {\mathcal {N}}(\mu ,\sigma ^{2})} ,我們知道 μ = μ 1 {\displaystyle \mu =\mu _{1}} 和 σ 2 = μ 2 − ( μ 1 ) 2 {\displaystyle \sigma ^{2}=\mu _{2}-(\mu _{1})^{2}} 。因此,當我們想要估計引數時,可以透過估計矩來實現。
現在,我們想知道如何估計矩。我們令 m r = ∑ i = 1 n X i r n {\displaystyle m_{r}={\frac {\sum _{i=1}^{n}X_{i}^{r}}{n}}} 為 r {\displaystyle r} 階樣本矩 [ 5] ,其中 X i {\displaystyle X_{i}} 是獨立同分布的。根據大數定律 (假設條件滿足),我們有
X ¯ = m 1 → p E [ X ] = μ 1 {\displaystyle {\overline {X}}=m_{1}\;{\overset {p}{\to }}\;\mathbb {E} [X]=\mu _{1}}
m 2 → p E [ X 2 ] = μ 2 {\displaystyle m_{2}\;{\overset {p}{\to }}\;\mathbb {E} [X^{2}]=\mu _{2}} (這可以透過在大數定律中將“ X {\displaystyle X} ”替換為“ X 2 {\displaystyle X^{2}} ”來觀察,那麼條件仍然滿足,因此我們仍然可以應用大數定律)
通常情況下,我們有 m r → p μ r {\displaystyle m_{r}\;{\overset {p}{\to }}\;\mu _{r}} ,因為在弱大數定律中用 X r {\displaystyle X^{r}} 替換 X {\displaystyle X} 後,條件仍然滿足。
基於這些結果,我們可以使用第 r {\displaystyle r} 個樣本矩 m r {\displaystyle m_{r}} 來估計第 r {\displaystyle r} 階矩 μ r {\displaystyle \mu _{r}} ,當 n {\displaystyle n} 很大時,這種估計會“更好”。例如,在上面正態分佈的例子中,我們可以用 m 1 {\displaystyle m_{1}} 估計 μ {\displaystyle \mu } ,用 m 2 − ( m 1 ) 2 {\displaystyle m_{2}-(m_{1})^{2}} 估計 σ 2 {\displaystyle \sigma ^{2}} ,這些估計量實際上被稱為矩估計法 。
更準確地說,我們給出矩估計法 的定義如下:
定義。 (矩估計法)設 X 1 , … , X n {\displaystyle X_{1},\dotsc ,X_{n}} 是來自具有機率密度函式或機率質量函式 f ( x ; θ 1 , … , θ k ) {\displaystyle f(x;\theta _{1},\dotsc ,\theta _{k})} 的分佈的一個隨機樣本。將 k {\displaystyle k} 個矩,例如 μ 1 , … , μ k {\displaystyle \mu _{1},\dotsc ,\mu _{k}} ,分別寫成 θ 1 , … , θ k {\displaystyle \theta _{1},\dotsc ,\theta _{k}} 的函式: g 1 ( θ 1 , … , θ k ) , … , g k ( θ 1 , … , θ k ) {\displaystyle g_{1}(\theta _{1},\dotsc ,\theta _{k}),\dotsc ,g_{k}(\theta _{1},\dotsc ,\theta _{k})} 。那麼, θ 1 , … , θ k {\displaystyle \theta _{1},\dotsc ,\theta _{k}} 的矩估計量 (MME),分別為 θ ^ 1 , … , θ ^ k {\displaystyle {\hat {\theta }}_{1},\dotsc ,{\hat {\theta }}_{k}} ,由以下方程組(以 θ ^ 1 , … , θ ^ k {\displaystyle {\hat {\theta }}_{1},\dotsc ,{\hat {\theta }}_{k}} 關於 m 1 , … , m k {\displaystyle m_{1},\dotsc ,m_{k}} 的形式給出,對應於 k {\displaystyle k} 個矩 μ 1 , … , μ k {\displaystyle \mu _{1},\dotsc ,\mu _{k}} 的解給出)得到以下方程組: { m 1 = g 1 ( θ ^ 1 , … , θ ^ k ) ⋮ m k = g k ( θ ^ 1 , … , θ ^ k ) {\displaystyle {\begin{cases}m_{1}=g_{1}({\hat {\theta }}_{1},\dotsc ,{\hat {\theta }}_{k})\\\vdots \\m_{k}=g_{k}({\hat {\theta }}_{1},\dotsc ,{\hat {\theta }}_{k})\\\end{cases}}}
在本節中,我們將介紹一些用於評估點估計量“好壞”的標準,即無偏性 、有效性 和一致性 。
對於 θ ^ {\displaystyle {\hat {\theta }}} 成為引數 θ {\displaystyle \theta } 的“良好”估計量, θ ^ {\displaystyle {\hat {\theta }}} 的一個理想特性是其期望值等於引數 θ {\displaystyle \theta } 的值,或者至少接近該值。正因為如此,我們引入了偏差 這一概念,來衡量 θ ^ {\displaystyle {\hat {\theta }}} 的均值與 θ {\displaystyle \theta } 的接近程度。
定義。 (偏差)估計量 θ ^ {\displaystyle {\hat {\theta }}} 的偏差 為 Bias ( θ ^ ) = E [ θ ^ ] − θ . {\displaystyle \operatorname {Bias} ({\hat {\theta }})=\mathbb {E} [{\hat {\theta }}]-\theta .}
我們還將定義一些與偏差相關的術語。
備註。
無偏估計量必須是漸近無偏估計量,但反之不成立,即漸近無偏估計量可能不是無偏估計量。因此,有偏估計量也可能是漸近無偏估計量。
當我們根據無偏性討論估計量的優劣時,無偏估計量優於漸近無偏估計量,漸近無偏估計量優於有偏估計量。
然而,除了無偏性之外,還有其他評估估計量優劣的標準,因此,當我們也考慮其他標準時,有偏估計量在總體上可能比無偏估計量“更好”。
我們已經討論瞭如何評估估計量的無偏性。現在,如果我們有兩個無偏估計量, θ ^ {\displaystyle {\hat {\theta }}} 和 θ ~ {\displaystyle {\tilde {\theta }}} ,我們應該如何比較它們的好壞?如果我們只從無偏性的角度比較它們,那麼它們的好壞是相同的。因此,在這種情況下,我們需要另一個標準。一種可能的方法是比較它們的方差 ,方差較小的那個更好,因為平均而言,該估計量與其均值的偏差較小,而根據無偏估計量的定義,其均值就是未知引數的值,因此方差較小的那個在某種偏差意義上更準確。實際上,無偏估計量仍然可能具有較大的方差,從而與其均值產生很大的偏差。這樣的估計量是無偏的,因為正偏差和負偏差在某種程度上相互抵消。這就是效率 的思想。
實際上,對於無偏估計量的方差,由於無偏估計量的均值是未知引數 θ {\displaystyle \theta } ,它衡量了與 θ {\displaystyle \theta } 偏差的平方值的均值,並且我們對此偏差有一個特定的術語,即均方誤差 (MSE)。
備註。
根據此定義, MSE ( θ ^ ) {\displaystyle \operatorname {MSE} ({\hat {\theta }})} 是 θ ^ − θ {\displaystyle {\hat {\theta }}-\theta } 的誤差 的平方 的均值 ,因此得名均方誤差 。
注意,在 MSE 的定義中,我們沒有規定 θ ^ {\displaystyle {\hat {\theta }}} 必須是無偏估計量。因此,定義中的 θ ^ {\displaystyle {\hat {\theta }}} 可能是存在偏差的。我們已經提到,當 θ ^ {\displaystyle {\hat {\theta }}} 是無偏的時,它的方差實際上就是它的 MSE。在下文中,我們將給出 MSE ( θ ^ ) {\displaystyle \operatorname {MSE} ({\hat {\theta }})} 和 Var ( θ ^ ) {\displaystyle \operatorname {Var} ({\hat {\theta }})} 之間更一般的關係,而不僅僅是針對無偏估計量。
命題. (均方誤差與方差之間的關係)如果 Var ( θ ^ ) {\displaystyle \operatorname {Var} ({\hat {\theta }})} 存在,則 MSE ( θ ^ ) = Var ( θ ^ ) + [ Bias ( θ ^ ) ] 2 {\displaystyle \operatorname {MSE} ({\hat {\theta }})=\operatorname {Var} ({\hat {\theta }})+[\operatorname {Bias} ({\hat {\theta }})]^{2}} 。
現在,我們知道無偏估計量的方差越小,其效率(和“更好”)就越高。因此,我們自然想知道什麼是最 有效的(即“最佳”)無偏估計量,即方差最小的無偏估計量。對於這種無偏估計量,我們有一個特定的名稱,即一致最小方差無偏估計量 (UMVUE) [ 6] 。更準確地說,我們對 UMVUE 有以下定義
定義。 (一致最小方差無偏估計量)一致最小方差無偏估計量 (UMVUE) 是在所有無偏估計量中具有最小方差 的無偏估計量。
事實上,UMVUE 是唯一 的,即在所有無偏估計量中,只有一個無偏估計量具有最小方差,我們將在下面證明這一點。
證明. 假設 W {\displaystyle W} 是 τ ( θ ) {\displaystyle \tau (\theta )} 的UMVUE,並且 W ′ {\displaystyle W'} 是 τ ( θ ) {\displaystyle \tau (\theta )} 的另一個UMVUE。定義估計量 W ∗ = 1 2 ( W + W ′ ) {\displaystyle W^{*}={\frac {1}{2}}(W+W')} 。由於 E [ W ∗ ] = 1 2 ( E [ W ] + E [ W ′ ] ) = 1 2 ( τ ( θ + θ ) = τ ( θ ) {\displaystyle \mathbb {E} [W^{*}]={\frac {1}{2}}(\mathbb {E} [W]+\mathbb {E} [W'])={\frac {1}{2}}(\tau (\theta +\theta )=\tau (\theta )} , W ∗ {\displaystyle W^{*}} 是 τ ( θ ) {\displaystyle \tau (\theta )} 的無偏估計量。
Now, we consider the variance of W ∗ {\displaystyle W^{*}} . Var ( W ∗ ) = 1 4 Var ( W + W ′ ) = 1 4 [ Var ( W ) + Var ( W ′ ) + 2 Cov ( W , W ′ ) ] ≤ 1 4 Var ( W ) + 1 4 Var ( W ′ ) + 1 2 Var ( W ) Var ( W ′ ) ( covariance inequality ) = 1 4 Var ( W ) + 1 4 Var ( W ) + 1 2 ( Var ( W ) ) 2 ( Var ( W ) = Var ( W ′ ) since W and W ′ are both UMVUE ) = 1 2 Var ( W ) + 1 2 Var ( W ) ( Var ( W ) > 0 ) = Var ( W ) . {\displaystyle {\begin{aligned}\operatorname {Var} (W^{*})&={\frac {1}{4}}\operatorname {Var} (W+W')\\&={\frac {1}{4}}\left[\operatorname {Var} (W)+\operatorname {Var} (W')+2\operatorname {Cov} (W,W')\right]\\&\leq {\frac {1}{4}}\operatorname {Var} (W)+{\frac {1}{4}}\operatorname {Var} (W')+{\frac {1}{2}}{\sqrt {\operatorname {Var} (W)\operatorname {Var} (W')}}&({\text{covariance inequality}})\\&={\frac {1}{4}}\operatorname {Var} (W)+{\frac {1}{4}}\operatorname {Var} (W)+{\frac {1}{2}}{\sqrt {(\operatorname {Var} (W))^{2}}}&(\operatorname {Var} (W)=\operatorname {Var} (W'){\text{ since }}W{\text{ and }}W'{\text{ are both UMVUE}})\\&={\frac {1}{2}}\operatorname {Var} (W)+{\frac {1}{2}}\operatorname {Var} (W)&(\operatorname {Var} (W)>0)\\&=\operatorname {Var} (W).\end{aligned}}} Thus, we now have either Var ( W ∗ ) < Var ( W ) {\displaystyle \operatorname {Var} (W^{*})<\operatorname {Var} (W)} or Var ( W ∗ ) = Var ( W ) {\displaystyle \operatorname {Var} (W^{*})=\operatorname {Var} (W)} . If the former is true, then W {\displaystyle W} is not an UMVUE of τ ( θ ) {\displaystyle \tau (\theta )} by definition, since we can find another unbiased estimator, namely W ∗ {\displaystyle W^{*}} , with smaller variance than it. Hence, we must have the latter, i.e., Var ( W ∗ ) = Var ( W ) . {\displaystyle \operatorname {Var} (W^{*})=\operatorname {Var} (W).} This implies when we apply the covariance inequality, the equality holds, i.e., Cov ( W , W ′ ) = Var ( W ) Var ( W ′ ) ⟺ ρ ( W ′ , W ) = 1 , {\displaystyle \operatorname {Cov} (W,W')={\sqrt {\operatorname {Var} (W)\operatorname {Var} (W')}}\iff \rho (W',W)=1,} which means W ′ {\displaystyle W'} is increasing linearly with W {\displaystyle W} , i.e., we can write W ′ = a W + b {\displaystyle W'=aW+b} for some constants a > 0 {\displaystyle a>0} and b {\displaystyle b} .
現在,我們考慮協方差 Cov ( W , W ′ ) {\displaystyle \operatorname {Cov} (W,W')} 。 Cov ( W , W ′ ) = above Cov ( W , a W + b ) = properties a Cov ( W , W ) = property a Var ( W ) . {\displaystyle \operatorname {Cov} (W,W'){\overset {\text{ above }}{=}}\operatorname {Cov} (W,aW+b){\overset {\text{ properties }}{=}}a\operatorname {Cov} (W,W){\overset {\text{ property }}{=}}a\operatorname {Var} (W).} 另一方面,由於協方差不等式中存在等號,並且 Var ( W ) = Var ( W ′ ) {\displaystyle \operatorname {Var} (W)=\operatorname {Var} (W')} (因為它們都是UMVUE), Cov ( W , W ′ ) = Var ( W ) Var ( W ′ ) = ( Var ( W ) ) 2 = Var ( W ) . {\displaystyle \operatorname {Cov} (W,W')={\sqrt {\operatorname {Var} (W)\operatorname {Var} (W')}}={\sqrt {(\operatorname {Var} (W))^{2}}}=\operatorname {Var} (W).} 因此,我們有 a = 1 {\displaystyle a=1} 。
接下來需要證明 b = 0 {\displaystyle b=0} ,以證明 W = W ′ {\displaystyle W=W'} ,從而得出結論 W {\displaystyle W} 是唯一的 。
從上面,我們現在有 W ′ = W + b ⟹ E [ W ′ ] = E [ W ] + b ⟹ τ ( θ ) = τ ( θ ) + b ⟹ b = 0 {\displaystyle W'=W+b\implies \mathbb {E} [W']=\mathbb {E} [W]+b\implies \tau (\theta )=\tau (\theta )+b\implies b=0} ,如預期的那樣。
◻ {\displaystyle \Box }
備註。
因此,當我們能夠找到一個UMVUE時,它就是唯一的,並且任何其他可能的無偏估計量的方差都嚴格大於UMVUE的方差。
在不使用一些結果的情況下,確定UMVUE是相當困難的,因為存在許多(甚至可能是無限多個)可能的無偏估計量,因此很難確保一個特定的無偏估計量相對於所有其他可能的無偏估計量更有效。
因此,我們將介紹一些有助於我們找到UMVUE的方法。對於第一種方法,我們找到所有可能的無偏估計量的方差的下界 [ 7] 。在獲得這樣的下界後,如果我們能找到一個方差正好等於下界的無偏估計量,那麼該下界就是方差的最小值,因此根據定義,這樣的無偏估計量就是UMVUE。
備註。
存在許多可能的下界,但是當界限越大時,它就越接近方差的實際最小值,因此“更好”。
即使無偏估計量的方差沒有達到下界,它仍然可以是UMVUE。
找到這樣的下界的一種常見方法是使用克拉美-羅下界 (CRLB),並且我們透過克拉美-羅不等式 得到CRLB。在陳述不等式之前,讓我們定義一些相關的術語。
備註。
∂ ln L ( θ ; X ) ∂ θ {\displaystyle {\frac {\partial \ln {\mathcal {L}}({\boldsymbol {\theta }};\mathbf {X} )}{\partial \theta }}} 稱為得分函式 ,記為 S ( θ ; X ) {\displaystyle S(\theta ;\mathbf {X} )} 。
“ θ {\displaystyle {\boldsymbol {\theta }}} ”可能是也可能不是一個引數向量。如果它只是一個單個引數(通常情況下),那麼它與“ θ {\displaystyle \theta } ”相同。我們使用“ θ {\displaystyle {\boldsymbol {\theta }}} ”而不是“ θ {\displaystyle \theta } ”是為了強調 I n ( θ ) {\displaystyle {\mathcal {I}}_{n}(\theta )} 和 S ( θ ; X ) {\displaystyle S(\theta ;\mathbf {X} )} 中的“ θ {\displaystyle \theta } ”指的是 ∂ ∂ θ {\displaystyle {\frac {\partial }{\partial \theta }}} 中的“ θ {\displaystyle \theta } ”。
可以定義“關於引數向量的費歇爾資訊”,但在這種情況下,費歇爾資訊採用矩陣 的形式而不是單個數字,它被稱為費歇爾資訊矩陣 。然而,由於它比較複雜,我們這裡不討論它。
由於得分函式的期望值為
E [ S ( θ ; X ) ] E [ ∂ ln L ( θ ; X ) ∂ θ ] = ∫ − ∞ ∞ ⋯ ∫ − ∞ ∞ ∂ ln L ( θ ; x ) ∂ θ ⋅ L ( θ ; x ) d x n ⋯ d x 1 = ∫ − ∞ ∞ ⋯ ∫ − ∞ ∞ ∂ L ( θ ; x ) ∂ θ L ( θ ; x ) ⋅ L ( θ ; x ) d x n ⋯ d x 1 = ∫ − ∞ ∞ ⋯ ∫ − ∞ ∞ ∂ L ( θ ; x ) ∂ θ d x n ⋯ d x 1 , {\displaystyle \mathbb {E} [S(\theta ;\mathbf {X} )]\mathbb {E} \left[{\frac {\partial \ln {\mathcal {L}}({\boldsymbol {\theta }};\mathbf {X} )}{\partial \theta }}\right]=\int _{-\infty }^{\infty }\dotsi \int _{-\infty }^{\infty }{\frac {\partial \ln {\mathcal {L}}({\boldsymbol {\theta }};\mathbf {x} )}{\partial \theta }}\cdot {\mathcal {L}}({\boldsymbol {\theta }};\mathbf {x} )\,dx_{n}\cdots \,dx_{1}=\int _{-\infty }^{\infty }\dotsi \int _{-\infty }^{\infty }{\frac {\frac {\partial {\mathcal {L}}({\boldsymbol {\theta }};\mathbf {x} )}{\partial \theta }}{{\mathcal {L}}({\boldsymbol {\theta }};\mathbf {x} )}}\cdot {\mathcal {L}}({\boldsymbol {\theta }};\mathbf {x} )\,dx_{n}\cdots \,dx_{1}=\int _{-\infty }^{\infty }\dotsi \int _{-\infty }^{\infty }{\frac {\partial {\mathcal {L}}({\boldsymbol {\theta }};\mathbf {x} )}{\partial \theta }}\,dx_{n}\cdots \,dx_{1},}
並且,在允許導數和積分交換的一些正則條件下 ,這等於 ∂ ∂ θ ∫ − ∞ ∞ ⋯ ∫ − ∞ ∞ L ( θ ; x ) d x n ⋯ d x 1 = ∂ ∂ θ ( 1 ) = 0 {\displaystyle {\frac {\partial }{\partial \theta }}\int _{-\infty }^{\infty }\dotsi \int _{-\infty }^{\infty }{\mathcal {L}}({\boldsymbol {\theta }};\mathbf {x} )\,dx_{n}\cdots \,dx_{1}={\frac {\partial }{\partial \theta }}(1)=0} ,關於 θ {\displaystyle \theta } 的費雪資訊也是得分函式的方差,即 Var ( S ( θ ; X ) ) = Var ( ∂ ln L ( θ ; X ) ∂ θ ) {\displaystyle \operatorname {Var} (S(\theta ;\mathbf {X} ))=\operatorname {Var} \left({\frac {\partial \ln {\mathcal {L}}({\boldsymbol {\theta }};\mathbf {X} )}{\partial \theta }}\right)} 。
對於允許導數和積分交換的正則條件,它們包括
所涉及的偏導數應該存在,即所涉及函式的(自然對數)是可微的
所涉及的積分應該是可微的
支援域不依賴於所涉及的引數
我們有一些結果可以幫助我們計算費雪資訊。
證明。 I n ( θ ) = E [ ( ∂ ln L ( θ ; x ) ∂ θ ) 2 ] = Var ( ∂ ln L ( θ ; x ) ∂ θ ) 根據以上說明 = Var ( ∂ ∂ θ ( ln ∏ i = 1 n f ( X i ; θ ) ) ) ( L ( θ ; x ) = ∏ i = 1 n f ( x i ; θ ) ) = Var ( ∂ ∂ θ ( ∑ i = 1 n ln f ( X i ; θ ) ) ) = Var ( ∑ i = 1 n ∂ ∂ θ ln f ( X i ; θ ) ) 根據微分的線性性質 = ∑ i = 1 n Var ( ∂ ∂ θ ln f ( X i ; θ ) ) 根據獨立性 = n Var ( ∂ ∂ θ ln f ( X i ; θ ) ) 根據同分布性 = n E [ ( ∂ ln f ( X ; θ ) ∂ θ ) 2 ] 根據以上說明 = n I ( θ ) . {\displaystyle {\begin{aligned}{\mathcal {I}}_{n}(\theta )&=\mathbb {E} \left[\left({\frac {\partial \ln {\mathcal {L}}({\boldsymbol {\theta }};\mathbf {x} )}{\partial \theta }}\right)^{2}\right]\\&=\operatorname {Var} \left({\frac {\partial \ln {\mathcal {L}}({\boldsymbol {\theta }};\mathbf {x} )}{\partial \theta }}\right)&{\text{根據以上說明}}\\&=\operatorname {Var} \left({\frac {\partial }{\partial \theta }}\left(\ln \prod _{i=1}^{n}f(X_{i};{\boldsymbol {\theta }})\right)\right)&\left({\mathcal {L}}(\theta ;\mathbf {x} )=\prod _{i=1}^{n}f(x_{i};\theta )\right)\\&=\operatorname {Var} \left({\frac {\partial }{\partial \theta }}\left(\sum _{i=1}^{n}\ln f(X_{i};{\boldsymbol {\theta }})\right)\right)\\&=\operatorname {Var} \left(\sum _{i=1}^{n}{\frac {\partial }{\partial \theta }}\ln f(X_{i};{\boldsymbol {\theta }})\right)&{\text{根據微分的線性性質}}\\&=\sum _{i=1}^{n}\operatorname {Var} \left({\frac {\partial }{\partial \theta }}\ln f(X_{i};{\boldsymbol {\theta }})\right)&{\text{根據獨立性}}\\&=n\operatorname {Var} \left({\frac {\partial }{\partial \theta }}\ln f(X_{i};{\boldsymbol {\theta }})\right)&{\text{根據同分布性}}\\&=n\mathbb {E} \left[\left({\frac {\partial \ln f(X;{\boldsymbol {\theta }})}{\partial \theta }}\right)^{2}\right]&{\text{根據以上說明}}\\&=n{\mathcal {I}}(\theta ).\end{aligned}}}
◻ {\displaystyle \Box }
命題。 在允許導數和積分交換的一些正則條件下, I ( θ ) = − E [ ∂ 2 ln f ( X ; θ ) ∂ θ 2 ] {\displaystyle {\mathcal {I}}(\theta )=-\mathbb {E} \left[{\frac {\partial ^{2}\ln f(X;{\boldsymbol {\theta }})}{\partial \theta ^{2}}}\right]} 。
備註。
這個命題非常有用,因為在對 ln f ( X ; θ ) {\displaystyle \ln f(X;{\boldsymbol {\theta }})} 進行偏微分後,許多 X {\displaystyle X} 很可能會消失,從而使期望值的計算變得更容易。
Proof. Since W {\displaystyle W} is an unbiased estimator of τ ( θ ) {\displaystyle \tau (\theta )} , we have by definition E [ W ] = τ ( θ ) {\displaystyle \mathbb {E} [W]=\tau (\theta )} . By definition of expectation, we have E [ W ] = ∫ − ∞ ∞ ⋯ ∫ − ∞ ∞ w L ( θ ; x ) d x n ⋯ d x 1 {\displaystyle \mathbb {E} [W]=\int _{-\infty }^{\infty }\dotsi \int _{-\infty }^{\infty }w{\mathcal {L}}(\theta ;\mathbf {x} )\,dx_{n}\cdots \,dx_{1}} where L ( θ ; x ) {\displaystyle {\mathcal {L}}(\theta ;\mathbf {x} )} is the likelihood function. Thus, ∫ − ∞ ∞ ⋯ ∫ − ∞ ∞ w L ( θ ; x ) d x n ⋯ d x 1 = τ ( θ ) ⇒ ∂ ∂ θ ∫ − ∞ ∞ ⋯ ∫ − ∞ ∞ w L ( θ ; x ) d x n ⋯ d x 1 = ∂ ∂ θ τ ( θ ) ⇒ ∫ − ∞ ∞ ⋯ ∫ − ∞ ∞ ∂ ∂ θ ( w L ( θ ; x ) ) d x n ⋯ d x 1 = τ ′ ( θ ) ⇒ ∫ − ∞ ∞ ⋯ ∫ − ∞ ∞ w ∂ ∂ θ ( L ( θ ; x ) ) ⋅ 1 L ( θ ; x ) ⋅ L ( θ ; x ) d x n ⋯ d x 1 = τ ′ ( θ ) ⇒ ∫ − ∞ ∞ ⋯ ∫ − ∞ ∞ w ∂ ln L ( θ ; x ) ∂ θ L ( θ ; x ) d x n ⋯ d x 1 = τ ′ ( θ ) ⇒ E [ W ⋅ ∂ ln L ( θ ; x ) ∂ θ ] = τ ′ ( θ ) ⇒ E [ W S ( θ ; X ) ] = τ ′ ( θ ) ( S ( θ ; X ) = ∂ ln L ( θ ; x ) ∂ θ ) ⇒ E [ W S ( θ ; X ) ] − E [ W ] E [ S ( θ ; X ) ] ⏟ = 0 = τ ′ ( θ ) ( E [ S ( θ ; X ) ] = 0 by remark about Fisher information ) ⇒ Cov ( W , S ( θ ; X ) ) = τ ′ ( θ ) {\displaystyle {\begin{aligned}&&\int _{-\infty }^{\infty }\dotsi \int _{-\infty }^{\infty }w{\mathcal {L}}(\theta ;\mathbf {x} )\,dx_{n}\cdots \,dx_{1}&=\tau (\theta )\\&\Rightarrow &{\frac {\partial }{\partial \theta }}\int _{-\infty }^{\infty }\dotsi \int _{-\infty }^{\infty }w{\mathcal {L}}(\theta ;\mathbf {x} )\,dx_{n}\cdots \,dx_{1}&={\frac {\partial }{\partial \theta }}\tau (\theta )\\&\Rightarrow &\int _{-\infty }^{\infty }\dotsi \int _{-\infty }^{\infty }{\frac {\partial }{\partial \theta }}\left(w{\mathcal {L}}(\theta ;\mathbf {x} )\right)\,dx_{n}\cdots \,dx_{1}&=\tau '(\theta )\\&\Rightarrow &\int _{-\infty }^{\infty }\dotsi \int _{-\infty }^{\infty }w{\frac {\partial }{\partial \theta }}\left({\mathcal {L}}(\theta ;\mathbf {x} )\right)\cdot {\frac {1}{{\mathcal {L}}(\theta ;\mathbf {x} )}}\cdot {\mathcal {L}}(\theta ;\mathbf {x} )\,dx_{n}\cdots \,dx_{1}&=\tau '(\theta )\\&\Rightarrow &\int _{-\infty }^{\infty }\dotsi \int _{-\infty }^{\infty }w{\frac {\partial \ln {\mathcal {L}}(\theta ;\mathbf {x} )}{\partial \theta }}{\mathcal {L}}(\theta ;\mathbf {x} )\,dx_{n}\cdots \,dx_{1}&=\tau '(\theta )\\&\Rightarrow &\mathbb {E} \left[W\cdot {\frac {\partial \ln {\mathcal {L}}(\theta ;\mathbf {x} )}{\partial \theta }}\right]&=\tau '(\theta )\\&\Rightarrow &\mathbb {E} \left[WS(\theta ;\mathbf {X} )\right]&=\tau '(\theta )&\left(S(\theta ;\mathbf {X} )={\frac {\partial \ln {\mathcal {L}}(\theta ;\mathbf {x} )}{\partial \theta }}\right)\\&\Rightarrow &\mathbb {E} \left[WS(\theta ;\mathbf {X} )\right]-\mathbb {E} [W]\underbrace {\mathbb {E} [S(\theta ;\mathbf {X} )]} _{=0}&=\tau '(\theta )&(\mathbb {E} [S(\theta ;\mathbf {X} )]=0{\text{ by remark about Fisher information}})\\&\Rightarrow &\operatorname {Cov} (W,S(\theta ;\mathbf {X} ))&=\tau '(\theta )\\\end{aligned}}} Consider the covariance inequality: ( Cov ( X , Y ) ) 2 ≤ Var ( X ) Var ( Y ) {\displaystyle (\operatorname {Cov} (X,Y))^{2}\leq \operatorname {Var} (X)\operatorname {Var} (Y)} . We have ( Cov ( W , S ( θ ; X ) ) ) 2 ≤ Var ( W ) Var ( S ( θ ; X ) ) ⟹ ( τ ′ ( θ ) ) 2 ≤ Var ( W ) Var ( S ( θ ; X ) ) ⟹ Var ( W ) ≥ ( τ ′ ( θ ) ) 2 Var ( S ( θ ; X ) ) = ( τ ′ ( θ ) ) 2 I n ( θ ) . {\displaystyle {\big (}\operatorname {Cov} (W,S(\theta ;\mathbf {X} )){\big )}^{2}\leq \operatorname {Var} (W)\operatorname {Var} (S(\theta ;\mathbf {X} ))\implies (\tau '(\theta ))^{2}\leq \operatorname {Var} (W)\operatorname {Var} (S(\theta ;\mathbf {X} ))\implies \operatorname {Var} (W)\geq {\frac {(\tau '(\theta ))^{2}}{\operatorname {Var} (S(\theta ;\mathbf {X} ))}}={\frac {(\tau '(\theta ))^{2}}{{\mathcal {I}}_{n}(\theta )}}.} ( I n ( θ ) = Var ( S ( θ ; X ) ) {\displaystyle {\mathcal {I}}_{n}(\theta )=\operatorname {Var} (S(\theta ;\mathbf {X} ))} by remark about Fisher information)
◻ {\displaystyle \Box }
有時,我們無法使用 CRLB 方法來尋找 UMVUE,因為
正則條件可能不滿足,因此我們無法使用克拉美-拉奧不等式,以及
無偏估計量的方差可能不等於 CRLB,但我們不能由此得出它不是 UMVUE 的結論,因為 CRLB 可能根本無法達到,並且所有無偏估計量中最小的方差實際上是該估計量的方差,它大於 CRLB。
我們將在下面舉例說明這兩種情況。
由於CRLB有時可以達到,有時無法達到,因此很自然地會提出這樣的問題:何時 可以達到CRLB。換句話說,我們想知道CRLB的可達條件 ,這些條件在以下推論中給出。
Proof. Considering the proof for Cramer-Rao inequality, we have Var ( W ) = ( τ ′ ( θ ) ) 2 I n ( θ ) ⟺ ( Cov ( W , S ( θ ; X ) ) ) 2 = Var ( W ) Var ( S ( θ ; X ) ) {\displaystyle \operatorname {Var} (W)={\frac {(\tau '(\theta ))^{2}}{{\mathcal {I}}_{n}(\theta )}}\iff (\operatorname {Cov} (W,S(\theta ;\mathbf {X} )))^{2}=\operatorname {Var} (W)\operatorname {Var} (S(\theta ;\mathbf {X} ))} We can write Cov ( W , S ( θ ; X ) ) {\displaystyle \operatorname {Cov} (W,S(\theta ;\mathbf {X} ))} as Cov ( W − τ ( θ ) ⏟ constant , S ( θ ; X ) ) {\displaystyle \operatorname {Cov} (W-\underbrace {\tau (\theta )} _{\text{constant}},S(\theta ;\mathbf {X} ))} (by result about covariance). Also, Var ( W ) = Var ( W − τ ( θ ) ⏟ constant ) {\displaystyle \operatorname {Var} (W)=\operatorname {Var} (W-\underbrace {\tau (\theta )} _{\text{constant}})} (by result about variance). Thus, we have ( Cov ( W − τ ( θ ) , S ( θ ; X ) ) ) 2 = Var ( W − τ ( θ ) ) Var ( S ( θ ; X ) ) ⇔ ( Cov ( W − τ ( θ ) , S ( θ ; X ) ) ) 2 Var ( W − τ ( θ ) ) Var ( S ( θ ; X ) ) = 1 ⇔ ( Cov ( S ( θ ; X ) , W − τ ( θ ) ) ) 2 Var ( W − τ ( θ ) ) Var ( S ( θ ; X ) ) = 1 ⇔ ( ρ ( S ( θ ; X ) , W − τ ( θ ) ) ) 2 = 1 ⇔ ρ ( S ( θ ; X ) , W − τ ( θ ) ) = ± 1 {\displaystyle {\begin{aligned}&&{\big (}\operatorname {Cov} (W-\tau (\theta ),S(\theta ;\mathbf {X} )){\big )}^{2}&=\operatorname {Var} (W-\tau (\theta ))\operatorname {Var} (S(\theta ;\mathbf {X} ))\\&\Leftrightarrow &{\frac {{\big (}\operatorname {Cov} (W-\tau (\theta ),S(\theta ;\mathbf {X} )){\big )}^{2}}{\operatorname {Var} (W-\tau (\theta ))\operatorname {Var} (S(\theta ;\mathbf {X} ))}}&=1\\&\Leftrightarrow &{\frac {{\big (}\operatorname {Cov} (S(\theta ;\mathbf {X} ),W-\tau (\theta )){\big )}^{2}}{\operatorname {Var} (W-\tau (\theta ))\operatorname {Var} (S(\theta ;\mathbf {X} ))}}&=1\\&\Leftrightarrow &{\big (}\rho (S(\theta ;\mathbf {X} ),W-\tau (\theta )){\big )}^{2}&=1\\&\Leftrightarrow &\rho (S(\theta ;\mathbf {X} ),W-\tau (\theta ))&=\pm 1\end{aligned}}} where ρ ( ⋅ , ⋅ ) {\displaystyle \rho (\cdot ,\cdot )} is the correlation coefficient between two random variables. This means S ( θ ; X ) {\displaystyle S(\theta ;\mathbf {X} )} increases or decreases linearly with W − τ ( θ ) {\displaystyle W-\tau (\theta )} , i.e., S ( θ ; X ) = k ( W − τ ( θ ) ) + c {\displaystyle S(\theta ;\mathbf {X} )=k(W-\tau (\theta ))+c} for some constants c , k {\displaystyle c,k} . Now, it suffices to show that the constant c {\displaystyle c} is actually zero.
我們知道 E [ W ] = τ ( θ ) {\displaystyle \mathbb {E} [W]=\tau (\theta )} (因為 W {\displaystyle W} 是 τ ( θ ) {\displaystyle \tau (\theta )} 的無偏估計量),並且 E [ S ( θ ; X ) ] = 0 {\displaystyle \mathbb {E} [S(\theta ;\mathbf {X} )]=0} (來自關於Fisher資訊的備註)。因此,在兩邊應用期望得到 E [ S ( θ ; X ) ] = k E [ W − τ ( θ ) ] + c ⟺ E [ S ( θ ; X ) ] = k ( E [ W ] − τ ( θ ) ⏟ = 0 ) + c ⟺ 0 = 0 + c ⟺ c = 0. {\displaystyle \mathbb {E} [S(\theta ;\mathbf {X} )]=k\mathbb {E} [W-\tau (\theta )]+c\iff \mathbb {E} [S(\theta ;\mathbf {X} )]=k(\underbrace {\mathbb {E} [W]-\tau (\theta )} _{=0})+c\iff 0=0+c\iff c=0.} 然後,結果就出來了。
◻ {\displaystyle \Box }
示例。 延續前面的例子。證明 σ 2 {\displaystyle \sigma ^{2}} 的 CRLB **不能** 使用 CRLB 的可達條件得到。
備註。
即使我們知道 σ 2 {\displaystyle \sigma ^{2}} 的CRLB不可達,我們仍然不知道 n n − 1 ⋅ S 2 {\displaystyle {\frac {n}{n-1}}\cdot S^{2}} 是否為UMVUE,因為可能存在一些具有更小方差(但未達到CRLB)的無偏估計量。
我們之前討論過MLE,MLE實際上是漸近的(即,當樣本量 n → ∞ {\displaystyle n\to \infty } )“最佳選擇”,根據以下定理。
Proof. Partial proof : we consider the Taylor series of order 2 for d d θ ln L ( θ ) {\displaystyle {\frac {d}{d\theta }}\ln {\mathcal {L}}(\theta )} , and we will get d d θ ln L ( θ ^ ) = d d θ ln L ( θ ) + ( θ ^ − θ ) d 2 d θ 2 ln L ( θ ) + 1 2 ( θ ^ − θ ) 2 d 3 d θ 3 ln L ( θ ) | θ = θ ∗ {\displaystyle {\frac {d}{d\theta }}\ln {\mathcal {L}}({\hat {\theta }})={\frac {d}{d\theta }}\ln {\mathcal {L}}(\theta )+({\hat {\theta }}-\theta ){\frac {d^{2}}{d\theta ^{2}}}\ln {\mathcal {L}}(\theta )+{\frac {1}{2}}({\hat {\theta }}-\theta )^{2}{\frac {d^{3}}{d\theta ^{3}}}\ln {\mathcal {L}}(\theta ){\bigg \vert }_{\theta =\theta ^{*}}} where θ ∗ {\displaystyle \theta ^{*}} is between θ {\displaystyle \theta } and θ ^ {\displaystyle {\hat {\theta }}} . Since θ ^ {\displaystyle {\hat {\theta }}} is the MLE of θ {\displaystyle \theta } , from the derivative test, we know that d d θ ln L ( θ ^ ) = 0 {\displaystyle {\frac {d}{d\theta }}\ln {\mathcal {L}}({\hat {\theta }})=0} (we apply regularity condition to ensure the existence of this derivative). Hence, we have d d θ ln L ( θ ) + ( θ ^ − θ ) d 2 d θ 2 ln L ( θ ) + 1 2 ( θ ^ − θ ) 2 d 3 d θ 3 ln L ( θ ) | θ = θ ∗ = 0 ⇒ − n ( θ ^ − θ ) d 2 d θ 2 ln L ( θ ) − n 2 ( θ ^ − θ ) 2 d 3 d θ 3 ln L ( θ ) | θ = θ ∗ = n d d θ ln L ( θ ) ⇒ n ( θ ^ − θ ) = d d θ ln L ( θ ) / n − n − 1 d 2 d θ 2 ln L ( θ ) − ( 2 n ) − 1 ( θ ^ − θ ) d 3 d θ 3 ln L ( θ ) | θ = θ ∗ . {\displaystyle {\begin{aligned}&&{\frac {d}{d\theta }}\ln {\mathcal {L}}(\theta )+({\hat {\theta }}-\theta ){\frac {d^{2}}{d\theta ^{2}}}\ln {\mathcal {L}}(\theta )+{\frac {1}{2}}({\hat {\theta }}-\theta )^{2}{\frac {d^{3}}{d\theta ^{3}}}\ln {\mathcal {L}}(\theta ){\bigg \vert }_{\theta =\theta ^{*}}&=0\\&\Rightarrow &-{\sqrt {n}}({\hat {\theta }}-\theta ){\frac {d^{2}}{d\theta ^{2}}}\ln {\mathcal {L}}(\theta )-{\frac {\sqrt {n}}{2}}({\hat {\theta }}-\theta )^{2}{\frac {d^{3}}{d\theta ^{3}}}\ln {\mathcal {L}}(\theta ){\bigg \vert }_{\theta =\theta ^{*}}={\sqrt {n}}{\frac {d}{d\theta }}\ln {\mathcal {L}}(\theta )\\&\Rightarrow &{\sqrt {n}}({\hat {\theta }}-\theta )={\frac {{\frac {d}{d\theta }}\ln {\mathcal {L}}(\theta )/{\sqrt {n}}}{-n^{-1}{\frac {d^{2}}{d\theta ^{2}}}\ln {\mathcal {L}}(\theta )-(2n)^{-1}({\hat {\theta }}-\theta ){\frac {d^{3}}{d\theta ^{3}}}\ln {\mathcal {L}}(\theta ){\bigg \vert }_{\theta =\theta ^{*}}}}.\end{aligned}}} Since Var ( ∑ i = 1 n ∂ ln f ( X i ; θ ) ∂ θ ) = ∑ i = 1 n Var ( ∂ ln f ( X i ; θ ) ∂ θ ) = ∑ i = 1 n E [ ( ∂ ln f ( X i ; θ ) ∂ θ ) 2 ] = n I ( θ ) ( 1 ) , {\displaystyle \operatorname {Var} \left(\sum _{i=1}^{n}{\frac {\partial \ln f(X_{i};\theta )}{\partial \theta }}\right)=\sum _{i=1}^{n}\operatorname {Var} \left({\frac {\partial \ln f(X_{i};\theta )}{\partial \theta }}\right)=\sum _{i=1}^{n}\mathbb {E} \left[\left({\frac {\partial \ln f(X_{i};\theta )}{\partial \theta }}\right)^{2}\right]=n{\mathcal {I}}(\theta )\qquad (1),} by central limit theorem, d d θ ln L ( θ ) n = 1 n ∑ i = 1 n ∂ ln f ( X i ; θ ) ∂ θ → d N ( 0 , ( 1 / n ) n I ( θ ) ) ≡ N ( 0 , I ( θ ) ) . {\displaystyle {\frac {{\frac {d}{d\theta }}\ln {\mathcal {L}}(\theta )}{\sqrt {n}}}={\frac {1}{\sqrt {n}}}\sum _{i=1}^{n}{\frac {\partial \ln f(X_{i};\theta )}{\partial \theta }}\;{\overset {d}{\to }}\;{\mathcal {N}}(0,(1/n)nI(\theta ))\equiv {\mathcal {N}}(0,{\mathcal {I}}(\theta )).} Furthermore, we apply the weak law of large number to show that − n − 1 d 2 d θ 2 ln L ( θ ) = − 1 n ∑ i = 1 n ∂ 2 ln f ( X i ; θ ) ∂ θ 2 → p − E [ ∂ 2 ln f ( X i ; θ ) ∂ θ 2 ] = I ( θ ) ( 2 ) . {\displaystyle -n^{-1}{\frac {d^{2}}{d\theta ^{2}}}\ln {\mathcal {L}}(\theta )=-{\frac {1}{n}}\sum _{i=1}^{n}{\frac {\partial ^{2}\ln f(X_{i};\theta )}{\partial \theta ^{2}}}\;{\overset {p}{\to }}\;-\mathbb {E} \left[{\frac {\partial ^{2}\ln f(X_{i};\theta )}{\partial \theta ^{2}}}\right]={\mathcal {I}}(\theta )\qquad (2).} It can be shown in a quite complicated way (and using regularity conditions) that − ( 2 n ) − 1 ( θ ^ − θ ) d 3 d θ 3 ln L ( θ ) | θ = θ ∗ → p 0. ( 3 ) . {\displaystyle -(2n)^{-1}({\hat {\theta }}-\theta ){\frac {d^{3}}{d\theta ^{3}}}\ln {\mathcal {L}}(\theta ){\bigg \vert }_{\theta =\theta ^{*}}\;{\overset {p}{\to }}\;0.\qquad (3).} Considering ( 2 ) {\displaystyle (2)} and ( 3 ) {\displaystyle (3)} , using property of convergence in probability, we have − n − 1 d 2 d θ 2 ln L ( θ ) − ( 2 n ) − 1 ( θ ^ − θ ) d 3 d θ 3 ln L ( θ ) | θ = θ ∗ → p I ( θ ) + 0 = I ( θ ) ( 4 ) . {\displaystyle -n^{-1}{\frac {d^{2}}{d\theta ^{2}}}\ln {\mathcal {L}}(\theta )-(2n)^{-1}({\hat {\theta }}-\theta ){\frac {d^{3}}{d\theta ^{3}}}\ln {\mathcal {L}}(\theta ){\bigg \vert }_{\theta =\theta ^{*}}\;{\overset {p}{\to }}\;{\mathcal {I}}(\theta )+0={\mathcal {I}}(\theta )\qquad (4).} Considering ( 1 ) {\displaystyle (1)} and ( 4 ) {\displaystyle (4)} , and using Slutsky's theorem, we have n ( θ ^ − θ ) = d d θ ln L ( θ ) / n − n − 1 d 2 d θ 2 ln L ( θ ) − ( 2 n ) − 1 ( θ ^ − θ ) d 3 d θ 3 ln L ( θ ) | θ = θ ∗ → d Y I ( θ ) {\displaystyle {\sqrt {n}}({\hat {\theta }}-\theta )={\frac {{\frac {d}{d\theta }}\ln {\mathcal {L}}(\theta )/{\sqrt {n}}}{-n^{-1}{\frac {d^{2}}{d\theta ^{2}}}\ln {\mathcal {L}}(\theta )-(2n)^{-1}({\hat {\theta }}-\theta ){\frac {d^{3}}{d\theta ^{3}}}\ln {\mathcal {L}}(\theta ){\bigg \vert }_{\theta =\theta ^{*}}}}\;{\overset {d}{\to }}\;{\frac {Y}{{\mathcal {I}}(\theta )}}} where Y ∼ N ( 0 , I ( θ ) ) {\displaystyle Y\sim {\mathcal {N}}(0,{\mathcal {I}}(\theta ))} , and hence Y I ( θ ) ∼ N ( 0 , I ( θ ) [ I ( θ ) ] 2 ) ≡ N ( 0 , 1 / I ( θ ) ) {\displaystyle {\frac {Y}{{\mathcal {I}}(\theta )}}\sim {\mathcal {N}}\left(0,{\frac {{\mathcal {I}}(\theta )}{[{\mathcal {I}}(\theta )]^{2}}}\right)\equiv {\mathcal {N}}(0,1/{\mathcal {I}}(\theta ))} . It follows that n ( θ ^ − θ ) → d N ( 0 , 1 / I ( θ ) ) . {\displaystyle {\sqrt {n}}({\hat {\theta }}-\theta )\;{\overset {d}{\to }}\;{\mathcal {N}}(0,1/{\mathcal {I}}(\theta )).} This means θ ^ − θ → d N ( 0 , 1 / ( n I ( θ ) ) ) ≡ N ( 0 , 1 / I n ( θ ) ) , {\displaystyle {\hat {\theta }}-\theta \;{\overset {d}{\to }}\;{\mathcal {N}}(0,1/(n{\mathcal {I}}(\theta )))\equiv {\mathcal {N}}(0,1/{\mathcal {I}}_{n}(\theta )),} and thus θ ^ − θ 1 / I n ( θ ) → d N ( 0 , 1 / ( n I ( θ ) ) 1 / I n ( θ ) ⏟ = n I ( θ ) ) ≡ N ( 0 , 1 ) {\displaystyle {\frac {{\hat {\theta }}-\theta }{\sqrt {1/{\mathcal {I}}_{n}(\theta )}}}\;{\overset {d}{\to }}\;{\mathcal {N}}{\Bigg (}0,{\frac {1/(n{\mathcal {I}}(\theta ))}{1/\underbrace {{\mathcal {I}}_{n}(\theta )} _{=n{\mathcal {I}}(\theta )}}}{\Bigg )}\equiv {\mathcal {N}}(0,1)} as desired.
◻ {\displaystyle \Box }
由於在某些情況下我們無法使用CRLB來找到UMVUE,因此我們將在下面介紹另一種找到UMVUE的方法,該方法使用充分性 和完備性 的概念。
直觀地講,一個充分統計量 T ( X 1 , … , X n ) {\displaystyle T(X_{1},\dotsc ,X_{n})} ,它是給定隨機樣本 X 1 , … , X n {\displaystyle X_{1},\dotsc ,X_{n}} 的函式,包含了估計未知引數(向量) θ {\displaystyle \theta } 所需的所有資訊。因此,統計量 T ( X 1 , … , X n ) {\displaystyle T(X_{1},\dotsc ,X_{n})} 本身對於估計未知引數(向量) θ {\displaystyle \theta } 是“充分”的。
正式地,我們可以如下定義和描述充分統計量
備註。
f ( x 1 , … , x n | T ; θ ) = f ( x 1 , … , x n | T ) {\displaystyle f(x_{1},\dotsc ,x_{n}|T;\theta )=f(x_{1},\dotsc ,x_{n}|T)}
其中 f {\displaystyle f} 是 X 1 , … , X n {\displaystyle X_{1},\dotsc ,X_{n}} 的聯合機率密度函式或機率質量函式。
該等式意味著 X 1 , … , X n {\displaystyle X_{1},\dotsc ,X_{n}} 給定( T {\displaystyle T} 的)值的聯合條件機率質量函式或機率密度函式與 X 1 , … , X n {\displaystyle X_{1},\dotsc ,X_{n}} 給定( T {\displaystyle T} 的)值,以及引數值 θ {\displaystyle \theta } 的聯合條件機率質量函式或機率密度函式相同。
這意味著即使提供了引數值 θ {\displaystyle \theta } ,機率質量函式 (pmf) 或機率密度函式 (pdf) 也不會發生變化,這反過來意味著給定 T {\displaystyle T} 的值, X 1 , … , X n {\displaystyle X_{1},\dotsc ,X_{n}} 的聯合條件 pmf 或 pdf 實際上並不依賴於 θ {\displaystyle \theta } 。
f ( x 1 , … , x n | T ) {\displaystyle f(x_{1},\dotsc ,x_{n}|T)} 指的是 f X 1 , … , X n | T ( x 1 , … , x n | t ) {\displaystyle f_{X_{1},\dotsc ,X_{n}|T}(x_{1},\dotsc ,x_{n}|t)} 在實現 T = t {\displaystyle T=t} 之前 ,它是一個隨機變數(隨機性來自 T {\displaystyle T} )。
在實現 T = t {\displaystyle T=t} 之後,該等式仍然成立( T {\displaystyle T} 修改為 T = t {\displaystyle T=t} )。
我們將在下面正式陳述上述關於充分統計量變換的說明。
現在,我們討論一個定理,它可以幫助我們檢查統計量的充分性,即(Fisher-Neyman)因子分解定理 。
定理. (因子分解定理)設 f ( x 1 , … , x n ; θ ) {\displaystyle f(x_{1},\dotsc ,x_{n};\theta )} 是隨機樣本 X 1 , … , X n {\displaystyle X_{1},\dotsc ,X_{n}} 的聯合機率密度函式或機率質量函式。統計量 T = T ( X 1 , … , X n ) {\displaystyle T=T(X_{1},\dotsc ,X_{n})} 是 θ {\displaystyle \theta } 的充分統計量 當且僅當存在函式 g {\displaystyle g} 和 h {\displaystyle h} 使得 f ( x 1 , … , x n ; θ ) = g ( T ( x 1 , … , x n ) ; θ ) h ( x 1 , … , x n ) {\displaystyle f(x_{1},\dotsc ,x_{n};\theta )=g(T(x_{1},\dotsc ,x_{n});\theta )h(x_{1},\dotsc ,x_{n})} 其中 g {\displaystyle g} 僅透過 T ( x 1 , … , x n ) {\displaystyle T(x_{1},\dotsc ,x_{n})} 依賴於 x 1 , … , x n {\displaystyle x_{1},\dotsc ,x_{n}} ,並且 h {\displaystyle h} 不 依賴於 θ {\displaystyle \theta } 。
證明。 由於連續情況下的證明相當複雜,我們只給出離散情況下的證明。為簡化表達,令 X = ( X 1 , … , X n ) {\displaystyle \mathbf {X} =(X_{1},\dotsc ,X_{n})} , T = T ( X 1 , … , X n ) {\displaystyle T=T(X_{1},\dotsc ,X_{n})} , x = ( x 1 , … , x n ) {\displaystyle \mathbf {x} =(x_{1},\dotsc ,x_{n})} , 以及 t = T ( x 1 , … , x n ) {\displaystyle t=T(x_{1},\dotsc ,x_{n})} ,因此根據這些可以得到不同型別的機率質量函式的符號。根據定義, f X | T ( x | t ; θ ) = f X | T ( x , t ) {\displaystyle f_{\mathbf {X} |T}(\mathbf {x} |t;\theta )=f_{\mathbf {X} |T}(\mathbf {x} ,t)} 。此外,我們有 X = x ⟺ X = x ∩ T ( X ) = T ( x ) ⟺ X = x ∩ T = t {\displaystyle \mathbf {X} =\mathbf {x} \iff \mathbf {X} =\mathbf {x} \cap T(\mathbf {X} )=T(\mathbf {x} )\iff \mathbf {X} =\mathbf {x} \cap T=t} 。因此,我們可以寫成 f X , T ( x , t ; θ ) = f X ( x ; θ ) ( ∗ ) {\displaystyle f_{\mathbf {X} ,T}(\mathbf {x} ,t;\theta )=f_{\mathbf {X} }(\mathbf {x} ;\theta )\quad (*)} 。
“僅當” ( ⇒ {\displaystyle \Rightarrow } ) 方向:假設 T {\displaystyle T} 是充分統計量。然後,我們選擇 g ( t ; θ ) = f T ( t ; θ ) {\displaystyle g(t;\theta )=f_{T}(t;\theta )} 和 h ( x ) = f X | T ( x | t ) {\displaystyle h(\mathbf {x} )=f_{\mathbf {X} |T}(\mathbf {x} |t)} ,根據充分統計量的定義,它不依賴於 θ {\displaystyle \theta } 。現在需要驗證對於這個選擇,方程是否成立。
因此, f X ( x ; θ ) = f X , T ( x , t ; θ ) = def f X | T ( x | t ; θ ) f T ( t ; θ ) = sufficiency f X | T ( x | t ) f T ( t ; θ ) = h ( x ) g ( t ; θ ) . {\displaystyle f_{\mathbf {X} }(\mathbf {x} ;\theta )=f_{\mathbf {X} ,T}(\mathbf {x} ,t;\theta ){\overset {\text{ def }}{=}}f_{\mathbf {X} |T}(\mathbf {x} |t;\theta )f_{T}(t;\theta ){\overset {\text{ sufficiency }}{=}}f_{\mathbf {X} |T}(\mathbf {x} |t)f_{T}(t;\theta )=h(\mathbf {x} )g(t;\theta ).}
"if" ( ⇐ {\displaystyle \Leftarrow } ) direction: Assume we can write f X ( x ; θ ) = g ( t ; θ ) h ( x ) {\displaystyle f_{\mathbf {X} }(\mathbf {x} ;\theta )=g(t;\theta )h(\mathbf {x} )} . Then, f T ( t ; θ ) = marginal pmf ∑ x f X , T ( x , t ; θ ) = (*) ∑ x f X ( x ; θ ) = assumption ∑ x g ( t ; θ ) h ( x ) = g ( t ; θ ) ⏟ independent from x ∑ x h ( x ) . {\displaystyle f_{T}(t;\theta ){\overset {\text{ marginal pmf }}{=}}\sum _{\mathbf {x} }^{}f_{\mathbf {X} ,T}(\mathbf {x} ,t;\theta ){\overset {\text{ (*) }}{=}}\sum _{\mathbf {x} }^{}f_{\mathbf {X} }(\mathbf {x} ;\theta ){\overset {\text{ assumption }}{=}}\sum _{\mathbf {x} }^{}g(t;\theta )h(\mathbf {x} )=\underbrace {g(t;\theta )} _{{\text{independent from }}\mathbf {x} }\sum _{\mathbf {x} }^{}h(\mathbf {x} ).} Now, we aim to show that f X | T ( x | t ) {\displaystyle f_{\mathbf {X} |T}(\mathbf {x} |t)} does not depend on θ {\displaystyle \theta } , which means T {\displaystyle T} is a sufficient statistic for θ {\displaystyle \theta } . We have f X | T ( x | t ) = def f X , T ( x , t ; θ ) f T ( t ; θ ) = (*) f X ( x ; θ ) f T ( t ; θ ) = g ( t ; θ ) h ( x ) ⏞ assumption g ( t ; θ ) ∑ x h ( x ) ⏟ above = h ( x ) ∑ x h ( x ) , {\displaystyle f_{\mathbf {X} |T}(\mathbf {x} |t){\overset {\text{ def }}{=}}{\frac {f_{\mathbf {X} ,T}(\mathbf {x} ,t;\theta )}{f_{T}(t;\theta )}}{\overset {\text{ (*) }}{=}}{\frac {f_{\mathbf {X} }(\mathbf {x} ;\theta )}{f_{T}(t;\theta )}}={\frac {\overbrace {g(t;\theta )h(\mathbf {x} )} ^{\text{assumption}}}{\underbrace {g(t;\theta )\sum _{\mathbf {x} }^{}h(\mathbf {x} )} _{\text{above}}}}={\frac {h(\mathbf {x} )}{\sum _{\mathbf {x} }^{}h(\mathbf {x} )}},} which does not depend on θ {\displaystyle \theta } , as desired.
◻ {\displaystyle \Box }
備註。
h ( x 1 , … , x n ) {\displaystyle h(x_{1},\dotsc ,x_{n})} 也可能是一個常數,顯然不依賴於 θ {\displaystyle \theta } 。
示例. 考慮來自 N ( μ , σ 2 ) {\displaystyle {\mathcal {N}}(\mu ,\sigma ^{2})} 的一個隨機樣本 X 1 , … , X n {\displaystyle X_{1},\dotsc ,X_{n}} 。找到 θ = ( μ , σ 2 ) {\displaystyle \theta =(\mu ,\sigma ^{2})} 的充分統計量。
Solution : The joint pdf of X 1 , … , X n {\displaystyle X_{1},\dotsc ,X_{n}} is f ( x 1 , … , x n ; θ ) = ∏ i = 1 n 1 2 π σ 2 exp ( − ( x i − μ ) 2 2 σ 2 ) = ( 2 π σ 2 ) − n / 2 exp ( ∑ i = 1 n ( x i − μ ) 2 2 σ 2 ) = ( 2 π σ 2 ) − n / 2 exp ( ∑ i = 1 n ( x i − x ¯ + x ¯ − μ ) 2 2 σ 2 ) = ( 2 π σ 2 ) − n / 2 exp ( ∑ i = 1 n ( x i − x ¯ ) 2 + 2 ( x i − x ¯ ) ( x ¯ − μ ) + ( x ¯ − μ ) 2 2 σ 2 ) = ( 2 π σ 2 ) − n / 2 exp ( ∑ i = 1 n ( x i − x ¯ ) 2 + ( x ¯ − μ ) 2 2 σ 2 ) ( ∑ i = 1 n ( x i − x ¯ ) ( x ¯ − μ ) = ( x ¯ − μ ) ∑ i = 1 n ( x i − x ¯ ) = ( x ¯ − μ ) ( ∑ i = 1 n x i − ∑ i = 1 n x ¯ ) = ( x ¯ − μ ) ( n x ¯ − n x ¯ ) = 0 ) = ( 2 π σ 2 ) − n / 2 exp ( 1 2 σ 2 ( ∑ i = 1 n ( x i − x ¯ ) 2 + ∑ i = 1 n ( x ¯ − μ ) 2 ) ) = ( 2 π ) − n / 2 ⏟ h ( x 1 , … , x n ) σ − n exp ( 1 2 σ 2 ( n s 2 + n ( x ¯ − μ ) 2 ) ) ⏟ g ( T ( x 1 , … , x n ) ; θ ) ( ( x ¯ − μ ) 2 is independent from i ) . {\displaystyle {\begin{aligned}f(x_{1},\dotsc ,x_{n};\theta )&=\prod _{i=1}^{n}{\frac {1}{\sqrt {2\pi \sigma ^{2}}}}\exp \left(-{\frac {(x_{i}-\mu )^{2}}{2\sigma ^{2}}}\right)\\&=(2\pi \sigma ^{2})^{-n/2}\exp \left(\sum _{i=1}^{n}{\frac {(x_{i}-\mu )^{2}}{2\sigma ^{2}}}\right)\\&=(2\pi \sigma ^{2})^{-n/2}\exp \left(\sum _{i=1}^{n}{\frac {(x_{i}{\color {darkgreen}-{\overline {x}}+{\overline {x}}}-\mu )^{2}}{2\sigma ^{2}}}\right)\\&=(2\pi \sigma ^{2})^{-n/2}\exp \left(\sum _{i=1}^{n}{\frac {(x_{i}{\color {darkgreen}-{\overline {x}}})^{2}+2(x_{i}-{\overline {x}})({\overline {x}}-\mu )+({\color {darkgreen}{\overline {x}}}-\mu )^{2}}{2\sigma ^{2}}}\right)\\&=(2\pi \sigma ^{2})^{-n/2}\exp \left(\sum _{i=1}^{n}{\frac {(x_{i}{\color {darkgreen}-{\overline {x}}})^{2}+({\color {darkgreen}{\overline {x}}}-\mu )^{2}}{2\sigma ^{2}}}\right)&\left(\sum _{i=1}^{n}(x_{i}-{\overline {x}})({\overline {x}}-\mu )=({\overline {x}}-\mu )\sum _{i=1}^{n}(x_{i}-{\overline {x}})=({\overline {x}}-\mu )\left(\sum _{i=1}^{n}x_{i}-\sum _{i=1}^{n}{\overline {x}}\right)=({\overline {x}}-\mu )(n{\overline {x}}-n{\overline {x}})=0\right)\\&=(2\pi \sigma ^{2})^{-n/2}\exp \left({\frac {1}{2\sigma ^{2}}}\left(\sum _{i=1}^{n}(x_{i}{\color {darkgreen}-{\overline {x}}})^{2}+\sum _{i=1}^{n}({\color {darkgreen}{\overline {x}}}-\mu )^{2}\right)\right)\\&=\underbrace {(2\pi )^{-n/2}} _{h(x_{1},\dotsc ,x_{n})}\underbrace {\sigma ^{-n}\exp \left({\frac {1}{2\sigma ^{2}}}\left(ns^{2}+n({\overline {x}}-\mu )^{2}\right)\right)} _{g(T(x_{1},\dotsc ,x_{n});\theta )}&\left(({\overline {x}}-\mu )^{2}{\text{ is independent from }}i\right).\\\end{aligned}}} Notice that the function g {\displaystyle g} depends on x 1 , … , x n {\displaystyle x_{1},\dotsc ,x_{n}} only through T ( x 1 , … , x n ) = ( x ¯ , s 2 ) {\displaystyle T(x_{1},\dotsc ,x_{n})=({\overline {x}},s^{2})} , so we can conclude that T ( X 1 , … , X n ) = ( X ¯ , S 2 ) {\displaystyle T(X_{1},\dotsc ,X_{n})=({\overline {X}},S^{2})} .
備註。
我們也可以將 ( X ¯ , S 2 ) {\displaystyle ({\overline {X}},S^{2})} 寫成 ( S 2 , X ¯ ) {\displaystyle (S^{2},{\overline {X}})} θ {\displaystyle \theta } 的充分統計量。
直觀地說,這是因為後者也包含相同的統計量,因此包含相同的資訊。
或者,我們可以將函式 v {\displaystyle v} 定義為 ( z 1 , z 2 ) ↦ ( z 2 , z 1 ) {\displaystyle (z_{1},z_{2})\mapsto (z_{2},z_{1})} ,這是一個雙射函式,因此 v ( X ¯ , S 2 ) = ( S 2 , X ¯ ) {\displaystyle v({\overline {X}},S^{2})=(S^{2},{\overline {X}})} 也是 θ {\displaystyle \theta } 的充分統計量。
我們需要從 ( 2 π σ 2 ) − n / 2 {\displaystyle (2\pi \sigma ^{2})^{-n/2}} 中分離出 σ − n {\displaystyle \sigma ^{-n}} ,因為對於函式 h ( x 1 , … , x n ) {\displaystyle h(x_{1},\dotsc ,x_{n})} ,它不能依賴於 θ = ( μ , σ 2 ) {\displaystyle \theta =(\mu ,\sigma ^{2})} 。因此,我們不能在 h ( x 1 , … , x n ) {\displaystyle h(x_{1},\dotsc ,x_{n})} 函式的定義中包含 σ − n {\displaystyle \sigma ^{-n}} 。
在這種情況下,定義 g {\displaystyle g} 和 h {\displaystyle h} 函式的方法有很多。
對於一些“良好”的分佈,它們屬於指數族 ,可以使用另一種替代方法更容易且更方便地找到充分統計量。這種方法之所以有效,是因為這些分佈的pdf或pmf具有“良好”的形式,其特徵如下
定義。 (指數族分佈)隨機變數 X {\displaystyle X} 的分佈屬於指數族分佈,如果 X {\displaystyle X} 的機率密度函式或機率質量函式具有以下形式: f ( x ; θ ) = h ( x ) g ( θ ) exp ( ∑ i = 1 s η i ( θ ) T i ( x ) ) {\displaystyle f(x;\theta )=h(x)g(\theta )\exp \left(\sum _{i=1}^{\color {darkgreen}s}\eta _{i}(\theta )T_{i}(x)\right)} 其中 θ = ( θ 1 , … , θ s ) ∈ Θ ⊆ R s {\displaystyle \theta =(\theta _{1},\dotsc ,\theta _{\color {darkgreen}s})\in \Theta \subseteq \mathbb {R} ^{\color {darkgreen}s}} ,對於某些函式 h , g , η i , T i {\displaystyle h,g,\eta _{i},T_{i}} ( i = 1 , 2 … , s {\displaystyle i=1,2\dotsc ,s} )。
定理. (指數族的充分統計量)設 X 1 , … , X n {\displaystyle X_{1},\dotsc ,X_{n}} 是來自指數族分佈的一個隨機樣本,其機率密度函式或機率質量函式為 f ( x ; θ ) {\displaystyle f(x;\theta )} ,其中 θ ∈ R s {\displaystyle \theta \in \mathbb {R} ^{s}} 。那麼, θ {\displaystyle \theta } 的一個充分統計量 是 T ( X 1 , … , X n ) = ( ∑ j = 1 n T 1 ( X j ) , … , ∑ j = 1 n T s ( X j ) ) . {\displaystyle T(X_{1},\dotsc ,X_{n})=\left(\sum _{j=1}^{n}T_{1}(X_{j}),\dotsc ,\sum _{j=1}^{n}T_{s}(X_{j})\right).}
Proof. Since the distribution belongs to the exponential family, the joint pdf or pmf of X 1 , … , X n {\displaystyle X_{1},\dotsc ,X_{n}} can be expressed as f ( x 1 , … , x n ; θ ) = ∏ j = 1 n [ h ( x j ) g ( θ ) exp ( ∑ i = 1 s η i ( θ ) T i ( x j ) ) ] = [ ∏ j = 1 n h ( x j ) ] ( g ( θ ) ) n exp ( ∑ j = 1 n ∑ i = 1 s η i ( θ ) T i ( x j ) ) = [ ∏ j = 1 n h ( x j ) ] ( g ( θ ) ) n exp ( ∑ i = 1 s ∑ j = 1 n η i ( θ ) T i ( x j ) ) ( changing summation order, where the upper bounds are constants ) = [ ∏ j = 1 n h ( x j ) ] ( g ( θ ) ) n exp ( ∑ i = 1 s η i ( θ ) ⏟ independent from j ∑ j = 1 n T i ( x j ) ) = [ ∏ j = 1 n h ( x j ) ] ( g ( θ ) ) n exp ( η 1 ( θ ) ∑ j = 1 n T 1 ( x j ) + ⋯ + η s ( θ ) ∑ j = 1 n T s ( x j ) ) . {\displaystyle {\begin{aligned}f(x_{1},\dotsc ,x_{n};\theta )&=\prod _{{\color {blue}j}=1}^{n}\left[h(x_{\color {blue}j})g(\theta )\exp \left(\sum _{i=1}^{\color {darkgreen}s}\eta _{i}(\theta )T_{i}(x_{\color {blue}j})\right)\right]\\&=\left[\prod _{j=1}^{n}h(x_{j})\right](g(\theta ))^{n}\exp \left(\sum _{{\color {blue}j}=1}^{n}\sum _{i=1}^{s}\eta _{i}(\theta )T_{i}(x_{\color {blue}j})\right)\\&=\left[\prod _{j=1}^{n}h(x_{j})\right](g(\theta ))^{n}\exp \left(\sum _{i=1}^{s}\sum _{{\color {blue}j}=1}^{n}\eta _{i}(\theta )T_{i}(x_{\color {blue}j})\right)&({\text{changing summation order, where the upper bounds are constants}})\\&=\left[\prod _{j=1}^{n}h(x_{j})\right](g(\theta ))^{n}\exp \left(\sum _{i=1}^{s}\underbrace {\eta _{i}(\theta )} _{{\text{independent from }}j}\sum _{{\color {blue}j}=1}^{n}T_{i}(x_{\color {blue}j})\right)\\&={\color {purple}\left[\prod _{j=1}^{n}h(x_{j})\right]}{\color {red}(g(\theta ))^{n}\exp \left(\eta _{1}(\theta )\sum _{{\color {blue}j}=1}^{n}T_{1}(x_{\color {blue}j})+\dotsb +\eta _{s}(\theta )\sum _{{\color {blue}j}=1}^{n}T_{s}(x_{\color {blue}j})\right)}.\\\end{aligned}}} From here, for applying the factorization theorem, we can identify the purple part of the function as " h ( x 1 , … , x n ) {\displaystyle h(x_{1},\dotsc ,x_{n})} ", and the red part of the function as " g ( T ( x 1 , … , x n ) ; θ ) {\displaystyle g(T(x_{1},\dotsc ,x_{n});\theta )} ". We can notice that the red part of the function depends on x 1 , … , x n {\displaystyle x_{1},\dotsc ,x_{n}} only through ( ∑ j = 1 n T 1 ( x j ) , … , ∑ j = 1 n T s ( x j ) ) {\displaystyle \left(\sum _{j=1}^{n}T_{1}(x_{j}),\dotsc ,\sum _{j=1}^{n}T_{s}(x_{j})\right)} . The result follows.
◻ {\displaystyle \Box }
例. 考慮來自 N ( μ , σ 2 ) {\displaystyle {\mathcal {N}}(\mu ,\sigma ^{2})} 的一個隨機樣本 X 1 , … , X n {\displaystyle X_{1},\dotsc ,X_{n}} 。利用尋找指數族充分統計量的結果,證明 θ = ( μ , σ 2 ) {\displaystyle \theta =(\mu ,\sigma ^{2})} 的充分統計量是 ( X ¯ , S 2 ) {\displaystyle \left({\overline {X}},S^{2}\right)} 。
證明. 從前面的例子中,我們已經證明正態分佈屬於指數族,並且從那裡的表示式中,我們可以看出 θ {\displaystyle \theta } 的充分統計量是 T = ( ∑ j = 1 n X , ∑ j = 1 n X 2 ) = ( n X ¯ , n X 2 ¯ ) {\displaystyle T=\left(\sum _{j=1}^{n}X,\sum _{j=1}^{n}X^{2}\right)=\left(n{\overline {X}},n{\overline {X^{2}}}\right)} 。
由於 S 2 = 1 n ∑ j = 1 n ( X j − X ¯ ) 2 = 1 n ∑ j = 1 n ( X j 2 − 2 X j X ¯ + ( X ¯ ) 2 ) = ∑ j = 1 n X j 2 n − 2 X ¯ n ∑ j = 1 n X j + ( X ¯ ) 2 = X 2 ¯ − 2 ( X ¯ ) 2 + ( X ¯ ) 2 = X 2 ¯ − ( X ¯ ) 2 {\displaystyle S^{2}={\frac {1}{n}}\sum _{j=1}^{n}(X_{j}-{\overline {X}})^{2}={\frac {1}{n}}\sum _{j=1}^{n}\left(X_{j}^{2}-2X_{j}{\overline {X}}+({\overline {X}})^{2}\right)={\frac {\sum _{j=1}^{n}X_{j}^{2}}{n}}-{\frac {2{\overline {X}}}{n}}\sum _{j=1}^{n}X_{j}+({\overline {X}})^{2}={\overline {X^{2}}}-2({\overline {X}})^{2}+({\overline {X}})^{2}={\overline {X^{2}}}-({\overline {X}})^{2}} ,我們可以定義函式 v {\displaystyle v} 為 ( z 1 , z 2 ) ↦ ( z 1 / n , z 2 / n − ( z 1 / n ) 2 ) , {\displaystyle (z_{1},z_{2})\mapsto \left(z_{1}/n,z_{2}/n-(z_{1}/n)^{2}\right),} ,可以證明這是一個雙射函式。
因此, v ( T ) = ( X ¯ , S 2 ) {\displaystyle v(T)=\left({\overline {X}},S^{2}\right)} 也是 θ {\displaystyle \theta } 的充分統計量。
◻ {\displaystyle \Box }
現在,我們將開始討論充分統計量與UMVUE之間的關係。我們從Rao-Blackwell定理 開始討論。
為了實際確定UMVUE,我們需要另一個定理,稱為萊曼-謝菲定理 ,它基於Rao-Blackwell定理,並且需要完備性 的概念。
當隨機樣本 X 1 , … , X n {\displaystyle X_{1},\dotsc ,X_{n}} 來自指數族中的分佈時,也可以很容易地找到完備統計量,類似於充分統計量的情況。
定理. (指數族的完備統計量)如果 X 1 , … , X n {\displaystyle X_{1},\dotsc ,X_{n}} 是來自指數族分佈的一個隨機樣本,其中未知引數(向量) θ ∈ Θ ⊆ R s {\displaystyle \theta \in \Theta \subseteq \mathbb {R} ^{\color {darkgreen}s}} ,則 T ( X 1 , … , X n ) = ( ∑ j = 1 n T 1 ( X j ) , ∑ j = 1 n T 2 ( X j ) , … , ∑ j = 1 n T s ( X j ) ) {\displaystyle T(X_{1},\dotsc ,X_{n})=\left(\sum _{j=1}^{n}T_{1}(X_{j}),\sum _{j=1}^{n}T_{2}(X_{j}),\dotsc ,\sum _{j=1}^{n}T_{\color {darkgreen}s}(X_{j})\right)} 是一個完備統計量,前提是 引數空間 Θ {\displaystyle \Theta } 在 R s {\displaystyle \mathbb {R} ^{\color {darkgreen}s}} 中包含一個開集 .
證明. 略。
◻ {\displaystyle \Box }
示例. 考慮來自 N ( μ , σ 2 ) {\displaystyle {\mathcal {N}}(\mu ,\sigma ^{2})} 的一個隨機樣本 X 1 , … , X n {\displaystyle X_{1},\dotsc ,X_{n}} 。令未知引數向量為 θ = ( μ , σ 2 ) {\displaystyle \theta =(\mu ,\sigma ^{2})} 。
(a) 證明 θ {\displaystyle \theta } 的充分統計量,即 ( X ¯ , S 2 ) {\displaystyle \left({\overline {X}},S^{2}\right)} ,也是一個完備統計量。
(b) 因此,證明 X ¯ {\displaystyle {\overline {X}}} 和 n n − 1 ⋅ S 2 {\displaystyle {\frac {n}{n-1}}\cdot S^{2}} 分別是 μ {\displaystyle \mu } 和 σ 2 {\displaystyle \sigma ^{2}} 的UMVUE。
解答 :
(a)
(b)
示例。 考慮來自伯努利分佈的隨機樣本 X 1 , … , X n {\displaystyle X_{1},\dotsc ,X_{n}} ,其成功機率為 p {\displaystyle p} ,即 Ber ( p ) {\displaystyle \operatorname {Ber} (p)} ,其機率質量函式為 f ( x ; p ) = p x ( 1 − p ) 1 − x , x = 0 , 1 {\displaystyle f(x;p)=p^{x}(1-p)^{1-x},\quad x=0,1} 。
(a) 找到 p {\displaystyle p} 的一個完備充分統計量 T {\displaystyle T} 。
(b) 因此,找到 p {\displaystyle p} 的UMVUE。
(c) 證明 1 { X 1 = 1 } {\displaystyle \mathbf {1} \{X_{1}=1\}} 是 p {\displaystyle p} 的無偏估計量,並且 E [ 1 { X 1 = 1 } | T ] {\displaystyle \mathbb {E} [\mathbf {1} \{X_{1}=1\}|T]} 是 p {\displaystyle p} 的UMVUE。
解答
(a) 機率質量函式 (pmf) f ( x ; p ) = p x ( 1 − p ) 1 − x = ( 1 − p ) ( p 1 − p ) x = ( 1 ) ⏟ h ( x ) ( 1 − p ) ⏟ g ( θ ) exp ( x ⏟ T ( x ) ln ( p 1 − p ) ⏟ η ( p ) ) {\displaystyle f(x;p)=p^{x}(1-p)^{1-x}=(1-p)\left({\frac {p}{1-p}}\right)^{x}=\underbrace {(1)} _{h(x)}\underbrace {(1-p)} _{g(\theta )}\exp \left(\underbrace {x} _{T(x)}\underbrace {\ln \left({\frac {p}{1-p}}\right)} _{\eta (p)}\right)} 。這意味著伯努利分佈屬於指數族。此外,引數空間 Θ = { p : 0 ≤ p ≤ 1 } {\displaystyle \Theta =\{p:0\leq p\leq 1\}} 在 R {\displaystyle \mathbb {R} } 中包含一個開集。因此, T = ∑ j = 1 n X j {\displaystyle T=\sum _{j=1}^{n}X_{j}} 是 p {\displaystyle p} 的完備充分統計量。
(b) 注意到 E [ T / n ] = E [ X ¯ ] = n p n = p {\displaystyle \mathbb {E} [T/n]=\mathbb {E} [{\overline {X}}]={\frac {np}{n}}=p} 。因此, X ¯ {\displaystyle {\overline {X}}} (它是 T {\displaystyle T} 的函式)是 p {\displaystyle p} 的UMVUE。
(c)
證明。 由於 E [ 1 { X 1 = 1 } ] = ( 1 ) P ( X 1 = 1 ) = p {\displaystyle \mathbb {E} [\mathbf {1} \{X_{1}=1\}]=(1)\mathbb {P} (X_{1}=1)=p} , 1 { X 1 = 1 } {\displaystyle \mathbf {1} \{X_{1}=1\}} 是 p {\displaystyle p} 的無偏估計量。
Now, we consider E [ 1 { X 1 = 1 } | T ] = E [ 1 { X 1 = 1 } | ∑ j = 1 n X j ] {\displaystyle \mathbb {E} [\mathbf {1} \{X_{1}=1\}|T]=\mathbb {E} \left[\mathbf {1} \{X_{1}=1\}|\sum _{j=1}^{n}X_{j}\right]} . We denote ∑ j = 1 n X j {\displaystyle \sum _{j=1}^{n}X_{j}} by S n {\displaystyle S_{n}} . Then, this expectation becomes E [ 1 { X 1 = 1 } | S n ] {\displaystyle \mathbb {E} [\mathbf {1} \{X_{1}=1\}|S_{n}]} . In the following, we evaluate E [ 1 { X 1 = 1 } | S n = s n ] {\displaystyle \mathbb {E} [\mathbf {1} \{X_{1}=1\}|S_{n}=s_{n}]} . E [ 1 { X 1 = 1 } | ∑ j = 1 n X j = s n ] = ( 1 ) P ( 1 { X 1 = 1 } = 1 | ∑ j = 1 n X j = s n ) ( definition ) = P ( X 1 = 1 | ∑ j = 1 n X j = s n ) = P ( ∑ j = 1 n X j = s n | X 1 = 1 ) P ( X 1 = 1 ) P ( ∑ j = 1 n X j = s n ) ( Bayes' theorem ) = P ( ∑ j = 2 n X j = s n − 1 ) ⋅ p P ( ∑ j = 1 n X j = s n ) {\displaystyle {\begin{aligned}\mathbb {E} \left[\mathbf {1} \{X_{1}=1\}|\sum _{j=1}^{n}X_{j}=s_{n}\right]&=(1)\mathbb {P} \left(\mathbf {1} \{X_{1}=1\}=1|\sum _{j=1}^{n}X_{j}=s_{n}\right)&({\text{definition}})\\&=\mathbb {P} \left(X_{1}=1|\sum _{j=1}^{n}X_{j}=s_{n}\right)\\&={\frac {\mathbb {P} \left(\sum _{j=1}^{n}X_{j}=s_{n}|X_{1}=1\right)\mathbb {P} (X_{1}=1)}{\mathbb {P} \left(\sum _{j=1}^{n}X_{j}=s_{n}\right)}}&({\text{Bayes' theorem}})\\&={\frac {\mathbb {P} \left(\sum _{j=2}^{n}X_{j}=s_{n}-1\right)\cdot p}{\mathbb {P} \left(\sum _{j=1}^{n}X_{j}=s_{n}\right)}}\\\end{aligned}}} Notice that ∑ j = 1 n X j {\displaystyle \sum _{j=1}^{n}X_{j}} follows the binomial distribution with n {\displaystyle n} trials with success probability p {\displaystyle p} , i.e., Binom ( n , p ) {\displaystyle \operatorname {Binom} (n,p)} , and ∑ j = 2 n X j ∼ Binom ( n − 1 , p ) {\displaystyle \sum _{j=2}^{n}X_{j}\sim \operatorname {Binom} (n-1,p)} . Hence, P ( ∑ j = 2 n X j = s n − 1 ) ⋅ p P ( ∑ j = 1 n X j = s n ) = ( n − 1 s n − 1 ) p s n − 1 ( 1 − p ) n − 1 − s n + 1 ⋅ p ( n s n ) p s n ( 1 − p ) n − s n ( binomial distribution pmf's ) = ( n − 1 ) ! ( s n − 1 ) ! ( n − s n ) ! n ! s n ! ( n − s n ) ! = ( n − 1 ) ! s n ( s n − 1 ) ! n ( n − 1 ) ! ( s n − 1 ) ! ( s n ! = s n ( s n − 1 ) ! and n ! = n ( n − 1 ) ! ) = s n n . {\displaystyle {\begin{aligned}{\frac {\mathbb {P} \left(\sum _{j=2}^{n}X_{j}=s_{n}-1\right)\cdot p}{\mathbb {P} \left(\sum _{j=1}^{n}X_{j}=s_{n}\right)}}&={\frac {{\binom {n-1}{s_{n}-1}}p^{s_{n}-1}(1-p)^{n-1-s_{n}+1}\cdot p}{{\binom {n}{s_{n}}}p^{s_{n}}(1-p)^{n-s_{n}}}}&({\text{binomial distribution pmf's}})\\&={\frac {\frac {(n-1)!}{(s_{n}-1)!(n-s_{n})!}}{\frac {n!}{s_{n}!(n-s_{n})!}}}\\&={\frac {(n-1)!s_{n}(s_{n}-1)!}{n(n-1)!(s_{n}-1)!}}&(s_{n}!=s_{n}(s_{n}-1)!{\text{ and }}n!=n(n-1)!)\\&={\frac {s_{n}}{n}}.\end{aligned}}} Now, replacing s n {\displaystyle s_{n}} by S n = ∑ j = 1 n X j {\displaystyle S_{n}=\sum _{j=1}^{n}X_{j}} gives E [ 1 { X 1 = 1 } | ∑ j = 1 n X j ] = ∑ j = 1 n X j n = X ¯ , {\displaystyle \mathbb {E} \left[\mathbf {1} \{X_{1}=1\}|\sum _{j=1}^{n}X_{j}\right]={\frac {\sum _{j=1}^{n}X_{j}}{n}}={\overline {X}},} which is the UMVUE of p {\displaystyle p} , as desired.
◻ {\displaystyle \Box }
練習。 我們能否使用 p {\displaystyle p} 的CRLB找到 p {\displaystyle p} 的UMVUE?如果可以,請用這種方法找到它。如果不行,請解釋原因。
解答
不可以。這是因為對數似然函式不可微(僅當 x = 0 , 1 {\displaystyle x=0,1} 時才具有非零值),因此費舍爾資訊未定義。因此,CRLB 不存在。
練習。 考慮來自引數為 λ {\displaystyle \lambda } 的泊松分佈的隨機樣本 X 1 , … , X n {\displaystyle X_{1},\dotsc ,X_{n}} ,其機率質量函式(pmf)為 f ( x ; λ ) = e − λ λ x x ! {\displaystyle f(x;\lambda )={\frac {e^{-\lambda }\lambda ^{x}}{x!}}} 。
(a) 求 λ {\displaystyle \lambda } 的完備充分統計量。
(b) 求 λ / n {\displaystyle \lambda /n} 的UMVUE。
在前面的章節中,我們討論了 無偏性 和 有效性 。在本節中,我們將討論另一個稱為 一致性 的性質。
Proof. Assume θ ^ {\displaystyle {\hat {\theta }}} is an (asymptotically) unbiased estimator of an unknown parameter θ {\displaystyle \theta } and Var ( θ ^ ) → 0 {\displaystyle \operatorname {Var} ({\hat {\theta }})\to 0} as n → ∞ {\displaystyle n\to \infty } . Since θ ^ {\displaystyle {\hat {\theta }}} is an (asymptotically) unbiased estimator of θ {\displaystyle \theta } , we have lim n → ∞ Bias ( θ ^ ) = 0 {\displaystyle \lim _{n\to \infty }\operatorname {Bias} ({\hat {\theta }})=0} (this is true for both asymptotically unbiased estimator and unbiased estimator of θ {\displaystyle \theta } ). In addition to this, we have by assumption that lim n → ∞ Var ( θ ^ ) = 0 {\displaystyle \lim _{n\to \infty }\operatorname {Var} ({\hat {\theta }})=0} . By definition of mean squared error, these imply that lim n → ∞ MSE ( θ ^ ) = 0 ⇒ lim n → ∞ E [ ( θ ^ − θ ) 2 ] = 0 {\displaystyle \lim _{n\to \infty }\operatorname {MSE} ({\hat {\theta }})=0\Rightarrow \lim _{n\to \infty }\mathbb {E} [({\hat {\theta }}-\theta )^{2}]=0} . Thus, as n → ∞ {\displaystyle n\to \infty } , we have by Chebyshov's inequality (notice that MSE ( θ ^ ) = E [ ( θ ^ − θ ) 2 ] {\displaystyle \operatorname {MSE} ({\hat {\theta }})=\mathbb {E} [({\hat {\theta }}-\theta )^{2}]} exist from above), for each ε > 0 {\displaystyle \varepsilon >0} , P ( | θ ^ − θ | > ε ) ≤ E [ ( θ ^ − θ ) 2 ] ε 2 → 0 ε 2 = 0. {\displaystyle \mathbb {P} (|{\hat {\theta }}-\theta |>\varepsilon )\leq {\frac {\mathbb {E} [({\hat {\theta }}-\theta )^{2}]}{\varepsilon ^{2}}}\to {\frac {0}{\varepsilon ^{2}}}=0.} Since probability is nonnegative ( ≥ 0 {\displaystyle \geq 0} ), and this probability is less than or equal to an expression that tends to be 0 as n → ∞ {\displaystyle n\to \infty } , we conclude that this probability tends to be zero as n → ∞ {\displaystyle n\to \infty } . That is, θ ^ {\displaystyle {\hat {\theta }}} is a consistent estimator of θ {\displaystyle \theta } .
◻ {\displaystyle \Box }
↑ 對於引數向量,它包含控制分佈的所有引數。
↑ 當我們不知道它是引數向量還是隻是一個引數時,我們將簡單地使用“ θ {\displaystyle \theta } ”。如果我們知道它確實是一個引數向量,我們可以使用 θ {\displaystyle \theta } 來代替。
↑ 我們將在#估計量的性質 部分討論“好”的一些標準。
↑ β − β ′ = ( max { x 1 , … , x n } + β − max { x 1 , … , x n } ) − ( max { x 1 , … , x n } + β − max { x 1 , … , x n } 2 ) = β − max { x 1 , … , x n } 2 > 0 {\displaystyle \beta -\beta '={\big (}\max\{x_{1},\dotsc ,x_{n}\}+\beta -\max\{x_{1},\dotsc ,x_{n}\}{\big )}-\left(\max\{x_{1},\dotsc ,x_{n}\}+{\frac {\beta -\max\{x_{1},\dotsc ,x_{n}\}}{2}}\right)={\frac {\beta -\max\{x_{1},\dotsc ,x_{n}\}}{2}}>0} . 因此, β ′ < β {\displaystyle \beta '<\beta } .
↑ 對於每個正整數 r {\displaystyle r} , m r {\displaystyle m_{r}} 始終存在,不像 μ r {\displaystyle \mu _{r}} 。
↑ “一致”表示與其他無偏估計量相比,方差最小,在引數空間 Θ {\displaystyle \Theta } 上(即,對於 θ ∈ Θ {\displaystyle \theta \in \Theta } 的每個可能值)。也就是說,方差不僅對於 θ {\displaystyle \theta } 的特定值最小,而是對於 θ {\displaystyle \theta } 的所有可能值最小。
↑ 這與最小值不同。對於下界 ,它只需要小於所有相關的方差,並且可能不存在任何實際達到此下界的方差。但是,對於最小值,它必須是方差的值之一。
↑ 注意,這比 Rao-Blackwell 定理中的結果更強,後者僅說明 Var ( φ ( T ) ) ≤ Var ( W ) {\displaystyle \operatorname {Var} (\varphi (T))\leq \operatorname {Var} (W)} ,對於與 φ ( T ) {\displaystyle \varphi (T)} 對應的 W {\displaystyle W} 成立。
↑ 實際上,我們知道 UMVUE 根據之前的命題必須是唯一的。但是,在這個論證中,當我們證明 φ ( T ) {\displaystyle \varphi (T)} 是 UMVUE 時,我們也自動證明了它是唯一的。