跳轉至內容

統計學/假設檢驗

來自華夏公益教科書

在前面的章節中,我們討論了兩種用於估計未知引數的方法,即點估計區間估計。估計未知引數是統計推斷中一個重要的領域,在本節中,我們將討論另一個重要領域,即假設檢驗,它與決策有關。事實上,置信區間假設檢驗的概念密切相關,正如我們將演示的那樣。

基本概念和術語

[編輯 | 編輯原始碼]

在討論如何進行假設檢驗以及評估假設檢驗的“好壞”之前,讓我們首先介紹一些與假設檢驗相關的基本概念和術語。

定義。 (假設)一個(統計)假設是對總體引數的陳述。

有兩個術語用來對假設進行分類

定義。 (簡單和複合假設)如果一個假設完全指定了總體的分佈(也就是說,該分佈是完全已知的,沒有任何未知引數參與),則它是簡單假設,否則它是複合假設

有時,是否一個假設是簡單還是複合並不立即清楚。為了更清楚地理解假設的分類,讓我們考慮以下示例。

示例。 考慮一個引數為的分佈,它在引數空間中取值。確定以下每個假設是簡單還是複合。

(a) .

(b) 其中 是已知的。

(c) .

(d) 其中 是已知的。

(e) 其中 是已知的。

(f) 其中 的一個非空子集。[1]

解決方案.

  • (a) 和 (b) 是簡單假設,因為它們都完全指定了分佈。
  • (c)、(d) 和 (e) 是複合假設,因為引數 沒有完全確定,那麼分佈也是如此。
  • (f) 可能是簡單假設或複合假設,具體取決於 。如果 僅包含一個元素,那麼它就是簡單假設。否則,它是複合假設。

在假設檢驗中,我們考慮兩個假設。

定義: (零假設和備擇假設) 在假設檢驗中,被檢驗的假設是 零假設 (用 表示),另一個 互補 假設 (對 ) 是 備擇假設 (用 表示)。

備註:

  • 的互補假設,是指如果 為真 (假),那麼 為假 (真) (恰好 之一為真)。因此,我們通常說 被檢驗 對抗 (所以我們經常寫 )。
  • 通常, 通常對應於 現狀 (“無影響”),而 對應於一些有趣的 “研究發現” (因此, 有時也被稱為 研究假設 )。
  • 由於 通常對應於現狀,我們通常 假設 為真,除非有充分的證據反駁它。
  • 這在某種程度上類似於法律原則的無罪推定,該原則指出,任何被指控犯罪的人都被認為是無罪被假定為真),直到被證明有罪(有足夠的證據反對)。

的一般形式是,其中,它是補集(相對於),即 是引數空間,包含的所有可能值)。選擇的補集在中的原因是的補充假設,如上述定義所示。

備註:

  • 在一些書籍中,只需要 為引數空間 的不相交(非空)子集,並且沒有必要
  • 但是,通常情況下,仍然假設恰好一個 為真,這意味著 不應該取值在集合 之外(否則, 都不為真)。
  • 因此,在這種情況下,我們實際上可以說引數空間確實是。在這個引數空間(因為 假設在這個並集取值),那麼 的補集。
  • 或者,有些人可能認為引數空間與分佈“相關聯”,因此對於給定的分佈,引數空間被固定為分佈本身所建議的。所以,在這種情況下, 不是 的補集(相對於引數空間)。
  • 儘管對 的定義有所不同,但一個共同的特點是,我們假設 恰好 之一為真。

示例. 假設你的朋友給你一枚硬幣讓你拋,你不知道它是否是公平的。然而,由於這枚硬幣是由你的朋友給你的,你相信這枚硬幣是公平的,除非有充分的證據表明並非如此。在這個背景下,零假設和備擇假設是什麼(假設硬幣永遠不會立起來)?

解答. 令 為拋硬幣後正面朝上的機率。零假設是 。備擇假設是 .

Clipboard

練習. 假設我們在上面的問題中將“硬幣”替換為“六面骰子”。零假設和備擇假設是什麼?(提示: 你可以令 分別表示“1”、“2”、“3”、“4”、“5”、“6” 在擲骰子後出現的機率)

解決方案

分別表示“1”、“2”、“3”、“4”、“5”、“6” 在擲骰子後出現的機率。零假設是 ,備擇假設是 (事實上,當 中的一個不等於 時,它必然會導致至少另一個機率不同於 )。


我們已經提到,假設 之一為真。為了做出決定,我們需要 決定 哪個假設應該被認為是正確的。當然,正如你可能預料的那樣,這個決定並不完美,我們的決定會有一些錯誤。因此,我們不能說我們“證明”一個特定的假設是正確的(也就是說,我們不能 確定 一個特定的假設是正確的)。儘管如此,當我們有 足夠的證據 讓我們做出這個決定(理想情況下,錯誤很小 [2])時,我們可以“認為”(或“接受”)一個特定的假設是正確的(但 不是 證明它是正確的)。

備註:

  • 從哲學角度來說,“不拒絕”與“接受”是不同的,因為“不拒絕”可能意味著我們實際上並不認為 是真的,只是沒有足夠的證據來拒絕,而不是意味著我們認為 是真的。另一方面,“接受”應該意味著我們認為 是真的。
  • 儘管如此,我們不會處理這些哲學問題,我們將假設只要沒有足夠的證據來拒絕(即,我們不拒絕),我們將像 為真一樣行動,也就是說,仍然接受,即使我們可能實際上並不“相信”
  • 當然,在其他一些地方,由於這些哲學問題,避免使用“接受零假設”的說法。

現在,我們面臨著兩個問題。首先,我們應該考慮哪些證據?其次,“足夠”是什麼意思?對於第一個問題,一個自然的答案是,我們應該考慮觀察到的樣本,對嗎?這是因為我們對總體進行假設,而樣本是從總體中抽取的,因此與總體密切相關,這應該有助於我們做出決定。

為了回答第二個問題,我們需要假設檢驗的概念。特別是在假設檢驗中,我們將構建一個所謂的拒絕域臨界域來幫助我們確定是否應該拒絕假設(即,認為 為假),因此(自然地)認為 為真(“接受”)(我們假設 中只有一個為真,因此當我們認為其中一個為假時,我們應該認為另一個為真)。特別地,當我們拒絕 時,我們將像 為真那樣行動,或者接受 為真(因此也應該拒絕 ,因為 中只有一個為真)。

讓我們正式定義以下與假設檢驗相關的術語。

定義. (假設檢驗)一個假設檢驗 是一個規則,它指定對於哪些觀測樣本值,我們(不拒絕並)接受 為真(因此拒絕 ),以及對於哪些觀測樣本值,我們拒絕 並接受.

備註:

  • 假設檢驗有時為了簡潔起見簡稱為“檢驗”。我們有時也使用希臘字母"","",等等來表示檢驗。

定義。(拒絕域和接受域)設 是包含隨機樣本 所有可能觀測值的集合,拒絕域(用 表示)是 的子集,其中拒絕 。拒絕域的補集(相對於集合 )()是 接受域(因此它是 的子集,其中接受 )。

備註:

  • 圖形上,它看起來像
    S
*------------*
|///|........|
|///\........|
|////\.......| 
|/////\......|
*------------*

*--*
|//|: R
*--*

*--*
|..|: R^c
*--*

通常,我們使用 檢驗統計量(用於進行假設檢驗的統計量)來指定拒絕域。例如,如果隨機樣本是 且檢驗統計量是 ,則拒絕域可能是,例如,(其中 分別是 的觀察值)。透過這種方式,我們可以直接構建假設檢驗:當 時,我們拒絕 並接受 。否則,如果 ,我們接受 。因此,一般來說,為了在假設檢驗中指定規則,我們只需要一個 拒絕域。之後,我們將應用該檢驗來檢驗 相對於 。關於以這種方式構建的假設檢驗,有一些相關的術語

定義。(左、右和雙尾檢驗)令 為假設檢驗的觀察檢驗統計量,且 為隨機樣本的實現。

  • 如果拒絕域的形式為 ,則該假設檢驗稱為 左尾檢驗(或下尾檢驗)。
  • 如果拒絕域的形式為,那麼假設檢驗稱為右尾檢驗(或上尾檢驗)。
  • 如果拒絕域的形式為,那麼假設檢驗稱為雙尾檢驗

備註:

  • 不等式符號可以是嚴格的,也就是說,上面的不等式符號可以替換為 "" 和 ""。
  • 我們使用“尾部”這個術語,因為拒絕域包括位於分佈“極端部分”(即最左邊(具有小值)或最右邊(具有大值)部分)(稱為尾部)的值。
  • 時,我們可以說雙尾檢驗是等尾的。在這種情況下,我們也可以將拒絕域表示為
  • 我們有時也將上尾檢驗和下尾檢驗稱為單邊檢驗,雙尾檢驗稱為雙邊檢驗

示例。假設拒絕域為,並且觀察到。我們應該接受哪個假設, 還是

解答。由於,我們應該(不拒絕並)接受

Clipboard

練習。這種假設檢驗是什麼型別?

解決方案

右尾檢驗。


正如我們已經提到的,假設檢驗做出的決定不應該完美,並且會發生錯誤。事實上,當我們仔細思考時,實際上有兩種型別的錯誤,如下所示

定義。 (I 類和 II 類錯誤)I 類錯誤 是在 時,拒絕 II 類錯誤 是在 時,接受

我們可以使用以下表格更清楚地說明這兩種型別的錯誤。

I 類和 II 類錯誤
接受 拒絕
為真 正確決策 I 類錯誤
為假 II 類錯誤 正確決策

我們可以表示 。另外,假設拒絕域為 (即,用 "" 替換 "" 的拒絕域)。通常,當 "" 與 "" 結合在一起時,我們假設

接下來,我們針對犯第一類和第二類錯誤的 機率 做一些符號和表示式說明:(假設 是一個隨機樣本,)

  • 犯第一類錯誤的機率,記作 ,當 時,為
  • 犯第二類錯誤的機率,記作 ,當 時,為

備註:

  • 符號說明:在其他地方, 可能被表示為 ""、"" 或 ""。要注意,這些符號不應被理解為條件機率[3]。它們只是符號而已。 也是同理。
  • 只包含一個值時,我們將 I 類錯誤機率簡單地表示為 。同樣,當 只包含一個值時,我們將 II 類錯誤機率簡單地表示為

請注意, 中有一個共同的表示式,即“”。事實上,我們也可以將此表示式寫成 透過此表示式,我們可以觀察到,它包含了所有關於錯誤機率的資訊,這些錯誤機率來自於一個具有拒絕域 的假設檢驗。因此,我們將為它賦予一個特殊的名稱。

定義。 (功效函式)令 為一個假設檢驗的拒絕域,並且 為一個隨機樣本。則,該假設檢驗的 功效函式 其中

備註:

  • ” 可以理解為希臘字母“p”。我們選擇 而不是 ,因為“” 有時用於表示機率(質量或密度)函式。
  • 功效函式將是我們評估檢驗的優劣或比較兩個不同檢驗的基礎。

示例: 假設我們擲一枚(公平或不公平)硬幣 5 次(假設硬幣永遠不會側立),並且我們有以下假設: 其中 是擲硬幣後正面朝上的機率。令 為 5 次擲硬幣的隨機樣本,並且 是相應的實現。此外,隨機樣本的值為 1(如果出現正面),否則為 0。假設我們將在所有 5 次擲硬幣中都出現正面時拒絕

(a) 確定拒絕區域

(b) 功率函式是什麼 (用 表示)?

(c) 計算

解決方案.

(a) 拒絕區域

(b) 功率函式為

(c) 我們有 以及 。(注意,雖然 I 類錯誤的機率可能很低,但 II 類錯誤的機率可能很高。這是因為,直觀地,拒絕 是“困難”的,因為要求很嚴格。所以,即使 是假的,它可能不被拒絕,從而導致 II 類錯誤。)

Clipboard

練習. 是否存在 ?如果存在,請計算它。

解決方案

存在,並且 (注意 是一個嚴格遞增函式)。

您注意到這個假設檢驗的 II 類錯誤可能很大,因此您想修改檢驗以降低 II 類錯誤。

(a) 以上假設檢驗中 是什麼?

(b) 假設拒絕域被修改為 。計算 。(提示:考慮二項分佈。)

(c) 假設拒絕域被修改為 。計算

(d) 在哪種假設檢驗中被最小化:原始的、(b) 中的還是 (c) 中的?

解決方案

(a) 如果

(b) 在這種情況下,我們有 ,以及 .

(c) 在這種情況下,我們有 以及 .

(d) 在原始的假設檢驗中,,在 (b) 中的假設檢驗中,,在 (c) 中的假設檢驗中,。因此, 在 (b) 中的假設檢驗中被最小化。


示例。 假設 是來自正態分佈 的隨機樣本,其中 已知。考慮以下假設: 其中 是一個常數。我們使用檢驗統計量 進行假設檢驗,當且僅當 時,我們拒絕

求功效函式

解決方案。 冪函式是 因此, 並且 (一些符號上的濫用),根據累積分佈函式的定義。(事實上, 的嚴格遞增函式。)

Clipboard

練習。 證明如果 ,則

解決方案

證明。 假設 。 那麼,



理想情況下,我們希望將 都降到任意小。但這通常是不可能的。為了理解這一點,我們可以考慮以下極端例子。

  • 將拒絕域 設定為 ,即所有可能的隨機樣本觀測值的集合。那麼,對於每個 ,都有 。由此,當然我們有 ,這是很好的。但嚴重的問題是,由於盲目拒絕,
  • 另一個極端情況是將拒絕域 設定為空集 。那麼,對於每個 ,都有 。由此,我們有 ,這是很好的。但是,再次,嚴重的問題是,由於盲目接受,

我們可以觀察到,為了使 )非常小,不可避免地,)將隨之增加,這是因為“接受”(拒絕)了“太多”。因此,我們只能嘗試最小化犯一種型別錯誤的機率,同時將犯另一種型別錯誤的機率控制在一定範圍內。

現在,我們感興趣的是瞭解應該控制哪種型別的錯誤。為了激發這種選擇,我們可以再次考慮無罪推定法律原則的類比。在這種情況下,I 類錯誤意味著將無辜者判為有罪,而 II 類錯誤意味著赦免有罪者。然後,正如 布萊克斯通比率 所建議的那樣,I 類錯誤比 II 類錯誤更嚴重,也更重要。這促使我們控制 I 類錯誤的機率,即 ,在指定的小值 處,以便我們可以控制犯這種更嚴重錯誤的機率。在那之後,我們考慮“在該水平上控制 I 類錯誤機率”的檢驗,其中具有最小 的檢驗是“最佳”檢驗(從犯錯機率的角度來看)。

為了更精確地描述“在該水平上控制 I 類錯誤機率”,讓我們定義以下術語。

定義。(檢驗的功效)具有功效函式 的檢驗是一個 大小為 的檢驗,如果 ,其中

備註:

  • 上確界類似於最大值,在“良好”情況下(你可以假設這裡的情況是“良好”的),上確界與最大值相同。因此,選擇 上的上確界作為檢驗的大小意味著檢驗的大小給出其 I 類錯誤的最大機率(當 為真時拒絕 ),考慮到所有情況,即所有使 為真的 的不同可能值。
  • 直觀地,我們選擇 I 類錯誤的最大機率作為大小,以便大小可以告訴我們 I 類錯誤在 最壞情況下 發生的機率,以表明該檢驗能 控制 I 類錯誤的程度 [4]
  • 特殊情況:如果 僅包含一個引數,比如(已知值)(即, 是一個簡單的假設,說明 ),那麼 .
  • 也被稱為 顯著性水平(這些術語與 統計(不)顯著性 的概念有關,而這又與 -值 的概念有關。我們將在後面討論這些。)
  • 這裡的 "" 和置信係數中的 "" 實際上可以透過將置信區間與假設檢驗聯絡起來來解釋為“相同的”。我們將在後面討論這些。
  • 由於這個定義,零假設通常包含一個等式(例如, 的形式),因為如果這樣,檢驗的功效可以更方便地計算。

因此,根據這個定義,將 I 類錯誤機率控制在特定水平 意味著檢驗的功效不應超過 ,即 (在其他一些地方,這種檢驗被稱為 水平 檢驗。)

例: 考慮正態分佈 (引數空間為:),以及假設 。令 為來自正態分佈 的隨機樣本,相應的實現值為 。假設拒絕域為 .

(a) 求 使得檢驗的顯著性水平為 .

(b) 計算第二類錯誤機率 。要使第二類錯誤機率 ,最小樣本量是多少(使用相同的拒絕域)?

解決方案.

(a) 為了使顯著性水平為0.05,我們需要滿足。因此,這意味著 其中。然後我們有

(b) II 類錯誤機率為 () 樣本量為 時,II 類錯誤機率為 當樣本量 增加時, 將變得更負,因此 II 類錯誤機率會降低。因此, 因此,最小樣本量為 12。

Clipboard

練習。 當樣本量為 12 時(拒絕域保持不變),計算 I 類錯誤機率和 II 類錯誤機率。

解決方案

II 類錯誤機率為 I 類錯誤機率為 因此,在相同拒絕域和不同樣本量的情況下,檢驗的顯著性水平(在本例中為 I 類錯誤機率)發生了變化。


到目前為止,我們一直專注於使用 拒絕域 來進行假設檢驗。但這並不是唯一的方法。另外,我們可以使用 -值。

定義。 (值) 令 為檢驗統計量 在假設檢驗中的觀測值。

  • 情況 1:檢驗是左尾檢驗。那麼,值是 .
  • 情況 2:檢驗是右尾檢驗。那麼,值是 .
  • 情況 3:檢驗是雙尾檢驗。
  • 子情況 1 的分佈關於零點對稱(當 為真時)。那麼,值是 .
  • 子情況 2 的分佈不關於零對稱(當 為真)。然後,-值是

備註:

  • -值可以解釋為在假設檢驗中,當 為真時,檢驗統計量至少與觀測到的檢驗統計量一樣 "極端" 的機率。這裡,"極端" 有利於 ,即 "極端的方向" 是朝著檢驗的 "尾部方向"(當檢驗統計量越接近尾部方向,它越有可能落在拒絕域中,因此拒絕 並接受 )。
  • 因此,當 -值很小時,這意味著檢驗統計量的觀測值已經非常 "極端",導致檢驗統計量不太可能比觀測值更 "極端"。
  • 通常,手動計算 -值可能非常困難。因此,-值通常使用軟體(例如 R)計算。
  • 對於情況 3 子情況 1,請考慮以下圖表
            pdf of T(X)
             |
           *---*
          /  |  \
         /   |   \
        /    |    \
       /|    |    |\
      /#|    |    |#\
     /##|    |    |##\    
 ---*###|    |    |###*---
 #######|    |    |#######
-------------*-------------
      ^            ^
<---->|   =====>   |<---->             T(x)<0
     T(x)         -T(x) 
"more extreme"          "more extreme"

T(X)<=T(x)          T(X)>=-T(x)          ====> |T(X)|>=|T(x)| ( T(x)=-|T(x)|, -T(x)=|T(x)|)

<-->^                ^<-->
    |                |                 T(x)>0
   -T(x)            T(x) 

T(X)<=-T(x)         T(X)>=T(x)            ====> |T(X)|>=|T(x)| (-T(x)=-|T(x)|, T(x)=|T(x)|)
  • 對於情況 3 子情況 2,請考慮以下圖表
                  pdf of T
    |
    |     /*----*
    |    /|      \
    |   /#|       \
    |  /##|        \       
    | /###|         *---|--------*
    |/####|             |#########\
----*------------------------------
        ^                      
        |
        T(x)
    |---|-------------------------|
  T(X)<=T(x)   T(X)>=T(x)       &&&&&: T(X)>= -T(x)
  choose
                              ^
                              |
                              t
    |-------------------------|---|
            T(X)<=T(x)      T(X)>=T(x)
     &&&:                      choose
    T(X)<=-T(x)
我們可以觀察到,觀測值 可能位於左側尾部或右側尾部。無論哪種情況,對於 而言,要使其更“極端”,所得的不等式對應於機率較小的那個。因此,我們有 ""。但我們也需要考慮另一個尾部的“極端”。直觀地說,當 更“極端”(在另一個尾部),則 也應該被視為“更極端”。因此,存在一個 ""

下面的定理允許我們使用 -值進行假設檢驗。

定理。 是假設檢驗中檢驗統計量 的一個觀測值。原假設 在顯著性水平 下被拒絕 當且僅當 -值小於或等於 .

Proof. (Partial) We can prove "if" and "only if" directions at once. Let us first consider the case 1 in the definition of -value. By definitions, -value is and (Define such that .). Then, we have For other cases, the idea is similar (just the directions of inequalities for are different).

備註:

  • 由此可見, 值可以用來以更“連續”的方式報告檢驗結果,而不僅僅是一個簡單的“接受 ” 或 “拒絕 ” 的決定,因為如果 值“遠小於”顯著性水平 ,那麼我們就有更“強”的證據來拒絕 (更強是指,即使顯著性水平很低(對 I 類錯誤的非常嚴格的要求), 仍然可以被拒絕)。
  • 此外,報告 值允許讀者自己選擇適當的顯著性水平 ,並將 值與 進行比較,從而做出自己的決定,這些決定不一定與檢驗報告中做出的決定相同(因為讀者可能選擇與報告中不同的顯著性水平)。
  • 這裡,我們還要提到一下 統計顯著性 的概念。如果一個觀測結果在原假設為真的情況下“不太可能”發生(即觀察值相當“極端”),則該觀測結果具有 統計顯著性。更準確地說,就 值而言,這意味著一個檢驗統計量的觀察值是 統計顯著的,如果 值小於或等於 ,否則我們就說觀察值是 統計不顯著的。因此, 可以解釋為“顯著”或“極端”的基準,因此得名 顯著性水平

示例。 回想之前示例的設定:考慮正態分佈 的引數空間為:),以及假設 是來自正態分佈 的隨機樣本,對應的實現為 .

在顯著性水平 下,我們已經確定拒絕域為 。假設觀察到 .

(a) 使用拒絕域來確定我們是否應該拒絕

(b) 使用 值來確定我們是否應該拒絕

解決方案.

(a) 由於 ,我們有 。因此,我們不應該拒絕

(b) 由於檢驗是右尾檢驗,-值是 ,其中 。因此, 不應該被拒絕。

Clipboard

練習。

選擇顯著性水平,基於觀察結果, 會被 拒絕。

0.01
0.04
0.06
0.08
0.1

備註:

  • 由此,我們可以注意到,可以透過改變顯著性水平來“操縱”決策。事實上,如果將顯著性水平設為 1,則 必須被拒絕(因為 -值是機率,必須小於或等於 1)。但是,這種顯著性水平毫無意義,因為它意味著 I 類錯誤的機率可以高達 1,因此這種檢驗有很大的錯誤,結果也不可靠。
  • 另一方面,如果將顯著性水平設為 0,則 不應該被拒絕(除非 -值正好為零,這極不可能,因為零 -值意味著觀察結果是 最極端的,因此檢驗統計量至少與觀察結果一樣極端(幾乎)不可能)。



評估假設檢驗

[edit | edit source]

在討論了一些基本概念和術語之後,我們現在來研究一些評估假設檢驗好壞的方法。正如我們之前提到的,我們希望犯 I 類錯誤和 II 類錯誤的機率都很小,但我們已經提到,通常不可能使這兩個機率都任意小。因此,我們建議控制 I 類錯誤,使用檢驗的規模,並且“最佳”檢驗應該是控制 I 類錯誤後,具有最小犯 II 類錯誤機率的檢驗。

這些想法導致了以下定義。

定義。 (檢驗功效)檢驗的 功效 是在 為假時拒絕 的機率。也就是說,如果犯 II 類錯誤的機率是 ,那麼功效是

使用這個定義,與其說“最佳”檢驗(具有最小 II 類錯誤機率的檢驗),不如說“具有最大功效的檢驗”,換句話說,就是“最強大的檢驗”。

定義. (一致最強大檢驗)一個檢驗 ,其拒絕域為 , 是一個 一致最強大 (UMP) 檢驗, 檢驗的顯著性水平為 , 用於檢驗 ) 如果

  • 的顯著性水平), 並且
  • (UMP) , 對每個 , 以及對每個拒絕域為 的檢驗 ,並且 是檢驗 的功效函式)。

分別是檢驗 的功效函式。)

備註:

  • 拒絕域 有時被稱為大小為 最佳拒絕域
  • 換句話說,如果一個檢驗的大小為 ,並且它的功效在所有大小小於或等於 的其他檢驗中最大,那麼它就是大小為 的 UMP 檢驗,對於每一個 都是這樣。副詞“一致”強調了這一點,即對於 每個 都是如此。
  • 由於功效在 的每個值中都最大,UMP 檢驗的拒絕域 依賴於 的選擇,也就是說,無論選擇 為何值,拒絕域都是相同的。這是可以預料的,因為拒絕域 不應該隨著 的選擇而改變。拒絕域 (固定)應該總是最好的,對於每個 都是如此。
  • 如果 是簡單的,我們可以簡單地將 UMP 檢驗稱為 最強大 (MP) 檢驗

構建假設檢驗

[編輯 | 編輯原始碼]

構建假設檢驗的方法很多,但當然並非所有方法都是好的(即“強大”的)。在下文中,我們將提供一些構建假設檢驗的常用方法。特別是,以下引理對於構建大小為 的 MP 檢驗非常有用。

Neyman-Pearson 引理

[編輯 | 編輯原始碼]

引理。(奈曼-皮爾遜引理)令 是來自具有機率密度函式或機率質量函式 可以是一個引數向量,引數空間為 )的隨機樣本。令 為似然函式。則檢驗 具有拒絕域 和大小 是用於檢驗 的最優檢驗,其中 是由大小 決定的值。

證明。 讓我們首先考慮基礎分佈是連續的情況。 假設 的大小為 ,作為 UMP 檢驗的“大小”要求立即得到滿足。因此,只需證明 滿足作為 MP 檢驗的“UMP”要求。

請注意,在這種情況下,“” 只是 。因此,對於每個具有拒絕區域 的檢驗 ,我們將證明

Since we have as desired.

對於底層分佈為離散的情況,證明非常類似(只需將積分替換為求和),因此省略。

備註:

  • 有時,我們稱 似然比
  • 事實上,由 Neyman-Pearson 引理構建的 MP 檢驗是 似然比檢驗 的一種變體,它更一般,因為它可以為 複合 零假設和備擇假設構建似然比檢驗,而不僅僅是 簡單 零假設和備擇假設。但是,似然比檢驗可能不是 (U)MP。我們將在後面討論似然比檢驗。
  • 對於 離散 分佈,可能 不可能 為某些 確定拒絕區域 。在這種情況下,我們稱這種 不可實現
  • 直觀地,這個檢驗意味著當 的 “似然” () 不如 的 “似然” () (),相對於觀察到的樣本。對於 “不如” 的含義,取決於大小
  • 直觀地,我們預計 應該是一個 嚴格小於 1 的正值,這樣 “不太可能”。這通常,但不一定,是這種情況。特別是,當大小 很大時, 可能大於 1。
  • 通常,為了確定 的值,我們需要將 “” 轉換為另一個 等價 不等式,在該不等式下,在 下的機率更容易計算。
  • 它必須是等價的,這樣它在下的機率與“” 在 下的機率相同。因此,在轉換過程中,最好使用“”,而不是僅僅“”,甚至逐行寫出不同的不等式。
  • 如果是一個向量,那麼也應該是向量。

即使奈曼-皮爾遜引理中涉及的假設很簡單,在一些條件下,我們可以使用該引理來構造一個UMP檢驗,以檢驗複合零假設與複合備擇假設。具體細節如下:為了檢驗

  1. 找到一個MP檢驗,其大小為,用於檢驗,使用奈曼-皮爾遜引理,其中是任意值,使得
  2. 如果拒絕域 不依賴於 ,那麼檢驗 對每個 都有最大的功效。因此,檢驗 是一個大小為 的UMP檢驗,用於檢驗
  3. 如果我們能進一步證明 ,這意味著測試 的大小仍然是 ,即使零假設被更改為 。因此,在將 更改為 並且不改變 (同時也調整了測試 的引數空間),測試 仍然滿足“MP”要求(因為沒有改變 ,因此步驟 2 中的結果仍然適用),並且測試 將滿足“大小”要求(因為以這種方式改變了 )。因此,測試 是一個大小為 的 UMP 測試,用於測試 .

對於測試 ,步驟類似。但一般來說,對於測試 ,不存在UMP檢驗。

當然,當步驟 3 中的條件成立而步驟 2 中的條件不成立時,步驟 1 中的檢驗 是一個大小為 的UMP檢驗,用於測試 ,其中 是一個常數(大於 ,否則 不相交)。但是,假設通常不採用這種形式。

示例。 是從正態分佈 中抽取的隨機樣本。

(a) 構造一個大小為 0.05 的MP檢驗 ,用於測試

(b) 因此,證明檢驗 也是一個大小為 0.05 的 UMP 檢驗,用於檢驗

(c) 因此,證明檢驗 也是一個大小為 0.05 的 UMP 檢驗,用於檢驗

Solution. (a) We can use the Neyman-Pearson lemma. First, consider the likelihood ratio Now, we have where are some constants. To find , consider the size 0.05: () Hence, we have . Now, we can construct the rejection region: and the test with the rejection region is a MP test with size 0.05 for testing .

(b)

證明。 為任意值,使得 。然後,我們可以證明(見下個練習) 其中 是某些常數(可能與上面的常數不同)。由於 這裡與 (a) 中的 相同,構建的拒絕域也是 注意, 不依賴於 的值。因此,檢驗 是一個大小為 0.05 的 UMP 檢驗,用於檢驗


(c)

證明。 我們只需要證明 。首先考慮功率函式 ,其中 的累積分佈函式。現在,由於當 增加 時, 減小,因此 減小,可以推出功率函式 嚴格遞增 函式。因此, 然後,結果隨之而來。

Clipboard

練習。 證明對於所有 成立。

解決方案

證明。 首先,考慮似然比 然後,我們有 (最後一個等價關係成立,因為 。)



備註:

  • 此拒絕區域已在之前的示例中出現過。

現在,讓我們考慮另一個例子,其中基礎分佈是離散的。

例: 為一個離散隨機變數,其機率質量函式為 (注意每行值的總和均為 1。引數空間為 。)給定一個 單一觀測值 ,構建一個大小為 0.1 的最優檢驗來檢驗

Solution. We use the Neyman-Pearson lemma. First, we calculate the likelihood ratio for each value of : For convenience, let us sort the likelihood ratios in ascending order (we put the undefined value at the last): By Neyman-Pearson lemma, the MP test with size 0.1 for testing is a test with size 0.1 and rejection region So, it remains to determine . Since the size is 0.1, we have Notice that So, we can choose (approximately), so that rejection region is

Clipboard

練習: 計算上述檢驗的第二類錯誤機率。

解決方案

機率為 (注意儘管該檢驗是最優的,但這種情況下第二類錯誤機率仍然很大。)

使用 Neyman-Pearson 引理構建另一個大小為 0.05 的最優檢驗來檢驗

解決方案

使用 Neyman-Pearson 引理無法構建此大小的最優檢驗,因為我們無法選擇一個 使得 。我們可以選擇 (近似)使大小為 0.04,或者選擇 使大小為 0.06,但我們無法選擇一個 使大小為 0.05。



似然比檢驗

[edit | edit source]

之前,我們建議使用 Neyman-Pearson 引理來構建檢驗簡單零假設與簡單備擇假設的最優檢驗。然而,當假設是複合的時候,我們可能無法使用 Neyman-Pearson 引理。因此,在接下來的內容中,我們將提供一個通用的方法來構建任何假設檢驗,不受限於簡單假設。但我們應該注意到,構建的檢驗不一定是均勻最優檢驗。

定義。(似然比檢驗)令 。大小為 似然比檢驗 用於檢驗 ,以及 可能是一個向量)具有拒絕域 ,其中 是由大小 決定的常數。

備註:

  • 存在,我們有 其中 中的受限最大似然估計,而 中的最大似然估計。我們可以在以下假設其存在。
  • 由於 ,因此我們有
  • 直觀上,當 很小時,即 ,這表明在 中有許多 中的所有 更可能。因此, 應該直觀地被拒絕。
  • 另一方面,當 非常接近 1 時,即 ,這表明在 中只有極少數 中的所有 更可能。因此, 應該直觀地 被拒絕。
  • 當簡單假設和備擇假設都為簡單假設時,似然比檢驗將與 Neyman-Pearson 引理中提出的檢驗相同。


假設檢驗與置信區間的關係

[edit | edit source]

我們已經提到,假設檢驗與置信區間之間存在相似之處。在本節中,我們將介紹一個定理,該定理建議如何從置信區間(或更一般地,置信 )構造假設檢驗,反之亦然。

定理。 對於每個 ,令 為大小為 的檢驗 的拒絕域。另外,令 為來自潛在分佈的隨機樣本 的對應實現。此外,令

定義一個集合 那麼,隨機集合 置信集

相反,設集合 是一個未知引數 置信集。對於每一個 ,定義 那麼, 是一個檢驗 的大小為 的拒絕域。

證明。 對於第一部分,由於 是大小為 的檢驗的拒絕域,我們有 因此,隨機集 的覆蓋機率為 這意味著隨機集 置信集的 .

對於第二部分,根據假設,我們有 因此,拒絕域為 的檢驗的大小為

備註:

  • "" 可以取 中的任意值。因此,可以將 視為分佈的未知引數。
  • 通常,第一個結果更有用。但是,第二個結果證明了我們的直覺:給定未知引數 的置信區間,如果某個特定值 位於置信區間內,那麼我們有 "" 的信心,認為 。現在,從這個定理中,我們知道我們可以將“有 的信心認為 ” 解釋為“在顯著性水平 下接受 ”。
  • 例如,如果 的 95% 置信區間是 ,並且由於 ,我們直觀地說,我們有 95% 的信心認為 。現在,我們可以更正式地說,我們在顯著性水平 下接受
  • 因此,置信係數 和顯著性水平 之間的關係現在很清楚了。
  • 在某些情況下,給定一些觀察值,當一個 置信區間 包含零時,則 只有 統計上不顯著 的差異。當我們考慮置信係數和顯著性水平之間的關係時,這種說法是自然的。
  • 由於 0 包含在置信區間中,我們在顯著性水平 下接受(不拒絕) 。這意味著觀察值 統計上不顯著。因此,我們有了這種說法。


  1. 如果 為空,則該假設毫無意義,所以我們對此情況不感興趣。
  2. 因此,一個自然衡量假設檢驗“好壞”的指標是它的“誤差大小”。我們將在本章後面討論這些。
  3. 這是因為在""或"(為真)"上進行條件化是沒有意義的,因為它們不是隨機的,因此機率為零或一。當機率為零時,“條件機率”沒有定義。當機率為一時,在它上的條件化與不在它上的條件化相同。
  4. 即使對於 中的大多數引數值,測試犯第一類錯誤的機率很低,如果對於 中的某個特定引數值,該測試犯第一類錯誤的機率很高,那麼直觀地說,這意味著該測試 不能很好地控制 第一類錯誤,對嗎?
華夏公益教科書