統計/預備知識

統計
預備知識

本章討論了一些與統計學相關的預備知識，這些知識將用於高階部分的後續章節。

經驗分佈

定義。 (隨機樣本) 假設 $X$ 是一個隨機變數，它來自一個隨機實驗，具有特定的分佈。重複這個隨機實驗 $n$ 次，我們獲得了 $n$ 個 獨立同分布 (iid) 隨機變數，用 $X_{1},X_{2},\dotsc ,X_{n}$ 表示，與這 $n$ 個結果相關。它們被稱為樣本大小為 $n$ 的分佈的 隨機樣本。

備註。

我們通常將底層分佈稱為總體。
通常，計算機 對進行此類實驗並重復多次很有用。
特別是，一種稱為 R 的程式語言通常用於計算統計學。你可以檢視華夏公益教科書 R 程式設計，以瞭解有關它的更多資訊。
因此，本節中討論的內容（以及有關重抽樣的部分）與計算統計學非常相關。

由於所有這些 $n$ 個隨機變數都遵循與 $X$ 相同的 cdf，我們可以預期它們的分佈應該與 $X$ 的分佈有些相似，實際上，這是正確的。在展示這是如何實現之前，我們需要更精確地定義“這些 $n$ 個隨機變數的分佈”，如下所示

定義。 (經驗分佈) 經驗分佈 的 cdf，即經驗 cdf，隨機樣本 $X_{1},X_{2},\dotsc ,X_{n}$ ，用 $F_{\color {darkgreen}n}(x)$ 表示，為 ${\frac {1}{n}}\sum _{k=1}^{n}\mathbf {1} \{X_{k}\leq x\}$ .

備註。

$\mathbf {1} \{A\}$ 是指示函式，當 $A$ 為真時值為 1，否則為 0。
我們可以看到 $F_{n}(x)$ 將機率（或“質量”） $1/n$ 分配給每個 $X_{1},X_{2},\dotsc ,X_{n}$ ，這確實是一個有效的累積分佈函式。

這是因為對於每個 $X_{1},\dotsc ,X_{n}$ ，如果它小於或等於 $x$ ，那麼和中相應的指示函式為 1，因此累積分佈函式貢獻了 " $1/n$ "。
為了更清楚地理解這一點，請考慮以下示例。

我們可以將 $F_{n}(x)$ 解釋為事件 $\{X\leq x\}$ 的 相對頻率。回想一下，事件機率的頻率論定義是事件的“長期”相對頻率（即在重複隨機實驗無限次後事件的相對頻率）。因此，我們直觀地預期 $F_{n}(x)\approx F(x)$ 當 $n$ 很大時。

示例。 從一個未知分佈中抽取大小為 5 的隨機樣本，得到以下數字

-1.4, 2.3, 0.8, 1.9, -1.6

(a) 求經驗累積分佈函式。

(b) 令 $Y$ 是一個（離散的）隨機變數，其累積分佈函式與 (a) 中的經驗累積分佈函式完全相同。證明 $Y$ 的機率質量函式（稱為 經驗機率質量函式）為 $f_{Y}(y)=\mathbb {P} (Y=y)={\frac {1}{5}},\quad y=-1.6,-1.4,0.8,1.9{\text{ or }}2.3.$ 解

(a) 首先，我們將樣本資料按升序排列，以便我們更方便地找到經驗累積分佈函式

-1.6, -1.4, 0.8, 1.9, 2.3

經驗累積分佈函式由以下公式給出： $F_{5}(x)={\begin{cases}0,&x<-1.6;\\1/5,&-1.6\leq x<-1.4;\\2/5,&-1.4\leq x<0.8;\\3/5,&0.8\leq x<1.9;\\4/5,&1.9\leq x<2.3;\\1,&x\geq 2.3.\\\end{cases}}$ 解釋

對樣本資料進行排序後，我們將每個數字視為隨機樣本的觀測值： $X_{1}=-1.6,X_{2}=-1.4,X_{3}=0.8,X_{4}=1.9,X_{5}=2.3$ .
然後，當 $x<1.6$ 時，沒有一個 $X_{1},\dotsc ,X_{5}$ 小於或等於 $x$ 。因此，所有相關的指示函式都為零，經驗累積分佈函式的值也為零。
當 $-1.6\leq x<-1.4$ 時，只有 $X_{1}\leq x$ ，因此只有指示函式 $\mathbf {1} \{X_{1}\leq x\}=1$ 在這種情況下，所有其他指示函式都為零。因此，該值為 ${\frac {\sum _{k=1}^{5}\mathbf {1} \{X_{k}\leq x\}}{5}}={\frac {\mathbf {1} \{X_{1}\leq x\}+0+0+0+0}{5}}={\frac {1}{5}}$ .
類似地，當 $-1.4\leq x<0.8$ 時，只有 $X_{1},X_{2}\leq x$ ，因此只有指示函式 $\mathbf {1} \{X_{1}\leq x\}=1$ 和 $\mathbf {1} \{X_{2}\leq x\}=1$ 在這種情況下，所有其他指示函式均為零。因此，該值為 ${\frac {\sum _{k=1}^{5}\mathbf {1} \{X_{k}\leq x\}}{5}}={\frac {\mathbf {1} \{X_{1}\leq x\}+\mathbf {1} \{X_{2}\leq x\}+0+0+0}{5}}={\frac {2}{5}}$ 。
...
當 $x\geq 2.3$ 時，所有 $X_{1},\dotsc ,X_{5}\leq x$ 。因此，所有指示函式均為一，因此經驗 cdf 的值為 ${\frac {1+1+1+1+1}{5}}=1$ 。

(b)

證明。 首先，請注意 $Y$ 的 cdf 為 $F_{Y}(y)=\mathbb {P} (Y\leq y)=\mathbb {P} (Y<y)+\mathbb {P} (Y=y)=\mathbb {P} (Y<y)+f_{Y}(y)\implies f_{Y}(y)=\mathbb {P} (Y\leq y)-\mathbb {P} (Y<y)$ 。

然後，我們觀察到當 $y=-1.6$ 時， $\mathbb {P} (Y\leq y)=F_{5}(-1.6)=1/5$ ，並且 $\mathbb {P} (Y<y)=\mathbb {P} (Y<-1.6)=0$ （從經驗累積分佈函式得出）。因此， $f_{Y}(y)={\frac {1}{5}}$ 在這種情況下。類似地，當 $y=-1.4$ 時， $\mathbb {P} (Y\leq y)=F_{5}(-1.4)=2/5$ ，並且 $\mathbb {P} (Y<y)=\mathbb {P} (Y<-1.4)={\frac {1}{5}}$ 。因此， $f_{Y}(y)={\frac {2}{5}}-{\frac {1}{5}}={\frac {1}{5}}$ 在這種情況下也是如此。用類似的論證，我們可以證明 $f_{Y}(y)={\frac {1}{5}}$ 當 $y=0.8,1.9,{\text{ or }}2.3$ 時也是如此。

$\Box$

備註。

從 (b) 中觀察到 $Y$ 的支援正好包含樣本資料中的數字，這些數字是隨機樣本 $X_{1},\dotsc ,X_{5}$ 的實現。這表明機率 $1/5$ 被“分配”給每個 $X_{1},\dotsc ,X_{5}$ 。

定理。（格利文科-坎泰利定理）當 $n\to \infty$ 時， $\sup _{x\in \mathbb {R} }|F_{n}(x)-F(x)|\to 0$ 幾乎必然（a.s.）。

備註。

$\sup$ 代表集合的上確界（滿足一些技術要求），即集合的最小上界，也就是大於或等於集合中所有其他元素的最小元素。

$\sup _{x\in \mathbb {R} }|F_{n}(x)-F(x)|$ 的含義是包含 $|F_{n}(x)-F(x)|$ 在 $x\in \mathbb {R}$ 上的所有值的集合的最小上界。
上確界類似於最大值的概念（實際上，如果最大值存在，則最大值與上確界相同），但它們之間的一個區別是，有時上確界存在而最大值不存在。
例如，集合（或區間） $[0,1)$ 的上確界是 1（直觀上）。但是，集合 $[0,1)$ 的最大值（即集合中的最大元素）不存在（注意 1 不包含在這個集合中）^[1]。

術語“幾乎必然”意味著這發生的機率為 1。將此稱為“幾乎必然”而不是“必然”的原因涉及對測度論的一些理解，因此此處省略。
粗略地說，從這個定理中，我們知道 $F_{n}(x)$ 是 $F(x)$ 的一個好的估計，當 $n$ 很大時，是 $F(x)$ 的一個更好的估計（或“更接近”），對於每一個實現 $x_{1},\dotsc ,x_{n}$ （它們都是實數），因為絕對差的最小上界已經趨於零，然後我們直觀上會期望 每一個 這樣的絕對差也趨於零。
這個定理有時被稱為 統計學基本定理，表明它在統計學中的重要性。

我們已經提到了如何近似 cdf，現在我們想估計 pdf/pmf。讓我們首先討論如何估計 pmf。

對於離散隨機變數 $X$ ，從經驗 cdf 中，我們知道每個 $X_{1},\dotsc ,X_{n}$ 都被“分配”了機率 $1/n$ 。此外，考慮到前面的例子，經驗 pmf 是 $f_{n}(x)={\frac {\sum _{k=1}^{n}\mathbf {1} \{X_{k}=x\}}{n}}$ .

備註。

經驗 pmf $f_{n}(x)$ 顯示了 $x$ 出現的相對頻率，因此可以近似估計 $x$ 出現的機率，即 $x$ 出現的長期相對頻率。

為了討論連續隨機變數的 pdf 估計，我們首先需要定義 類間隔。

定義。 （類間隔）首先，選擇一個整數 $i\geq 1$ 和一個實數序列 $c_{0},c_{1},\dotsc ,c_{i}$ ，使得 $c_{0}<c_{1}<\dotsb <c_{i}$ 。那麼，類間隔 為 $(c_{0},c_{1}],(c_{1},c_{2}],\dotsc ,(c_{i-1},c_{i}]$ 。

對於連續隨機變數 $X$ ，構建 $X$ 的類別區間，這些區間是非重疊的，並對區間 $[X_{\text{min}},X_{\text{max}}]$ 進行劃分，其中 $X_{\text{min}}$ 和 $X_{\text{max}}$ 是樣本中的最小值和最大值。然後，pdf $f(x)\approx {\frac {F(c_{j})-F(c_{j-1})}{c_{j}-c_{j-1}}},\quad x\in (c_{j-1},c_{j}]{\text{ and }}j=1,2,\dotsc ,i,$ 當 $c_{j-1}$ 和 $c_{j}$ 很接近，即每個類別區間的長度很小。（儘管上述類別區間的並集是 $(c_{0},c_{i}]$ ，因此值 $c_{0}$ 不包含在區間內，但這並不重要，因為 pdf 在 $c_{0}$ 的值不會影響機率的計算。）這裡， $c_{0}$ 是 $X_{\text{min}}$ ，而 $c_{i}$ 是 $X_{\text{max}}$ 。

由於 $F(c_{j})-F(c_{j-1})=\mathbb {P} (X\in (c_{j-1},c_{j}])\approx {\color {darkgreen}{\frac {\sum _{k=1}^{n}\mathbf {1} \{X_{k}\in (c_{j-1},c_{j}]\}}{n}}}$ 是事件 $\{X_{k}\in (c_{j-1},c_{j}]\}$ 的相對頻率，我們可以將上面的表示式改寫為 $f(x)\approx h_{n}(x)={\frac {\color {darkgreen}\sum _{k=1}^{n}\mathbf {1} \{X_{k}\in (c_{j-1},c_{j}]\}}{{\color {darkgreen}n}(c_{j}-c_{j-1})}},\quad x\in (c_{j-1},c_{j}]{\text{ and }}j=1,2,\dotsc ,i$ ，其中 $h_{n}(x)$ 被稱為 相對頻率直方圖。

由於構建類別區間的可能方法很多，所以 $h_{n}(x)$ 的值即使在相同的 $n$ 和 $x$ 時也會有所不同。當 $n$ 很大並且每個類別區間的長度很小時，我們期望 $h_{n}(x)$ 是 $f(x)$ （理論 pdf）的良好估計。

與相對頻率直方圖相關的某些屬性如下

命題.（相對頻率直方圖的屬性）

(i) $h_{n}(x)\geq 0$ ；

(ii) 由 $h_{n}(x)$ 和 $x$ 軸所包圍的總面積為 1，即 $\int _{c_{0}}^{c_{i}}h_{n}(x)\,dx=1$ ^[2];

(iii) 事件 $A$ 是某些類間距的並集，其機率為 $\mathbb {P} (A)\approx \int _{A}^{}h_{n}(x)\,dx$ .

證明。

(i) 由於指示函式是非負的（其值要麼是 0 要麼是 1）， $n$ 為正數，並且 $c_{j}>c_{j-1}$ ，因此 $c_{j}-c_{j-1}$ 為正數，根據定義，我們有 $h_{n}(x)\geq 0$ 。

(ii) ${\begin{aligned}\int _{c_{0}}^{c_{i}}h_{n}(x)\,dx&=\int _{c_{0}}^{c_{1}}h_{n}(x)\,dx+\int _{c_{1}}^{c_{2}}h_{n}(x)\,dx+\dotsb +\int _{c_{i-1}}^{c_{i}}h_{n}(x)\,dx\\&={\frac {1}{n}}\left(\int _{c_{0}}^{c_{1}}{\frac {\sum _{k=1}^{n}\mathbf {1} \{X_{k}\in (c_{0},c_{1}]\}}{c_{1}-c_{0}}}\,dx+\int _{c_{1}}^{c_{2}}{\frac {\sum _{k=1}^{n}\mathbf {1} \{X_{k}\in (c_{1},c_{2}]\}}{c_{2}-c_{1}}}\,dx+\dotsb +\int _{c_{i-1}}^{c_{i}}{\frac {\sum _{k=1}^{n}\mathbf {1} \{X_{k}\in (c_{i-1},c_{i}]\}}{c_{i}-c_{i-1}}}\,dx\right)\\&={\frac {1}{n}}\left({\frac {\sum _{k=1}^{n}\mathbf {1} \{X_{k}\in (c_{0},c_{1}]\}}{c_{1}-c_{0}}}\cdot (c_{1}-c_{0})+{\frac {\sum _{k=1}^{n}\mathbf {1} \{X_{k}\in (c_{1},c_{2}]\}}{c_{2}-c_{1}}}\cdot (c_{2}-c_{1})+\dotsb +{\frac {\sum _{k=1}^{n}\mathbf {1} \{X_{k}\in (c_{i-1},c_{i}]\}}{c_{i}-c_{i-1}}}\cdot (c_{i}-c_{i-1})\right)\\&={\frac {1}{n}}\left(\sum _{k=1}^{n}\mathbf {1} \{X_{k}\in (c_{0},c_{1}]\}+\sum _{k=1}^{n}\mathbf {1} \{X_{k}\in (c_{1},c_{2}]\}+\dotsb +\sum _{k=1}^{n}\mathbf {1} \{X_{k}\in (c_{i-1},c_{i}]\}\right)\\&={\frac {1}{n}}\left(\sum _{k=1}^{n}\mathbf {1} \{X_{k}\in (c_{0},c_{1}]\cup (c_{1},c_{2}]\cup \dotsb \cup (c_{i-1},c_{i}]\}\right)\\&={\frac {1}{n}}\left(\sum _{k=1}^{n}\mathbf {1} \{X_{k}\in \underbrace {(c_{0},c_{i}]} _{{\text{sample space of }}X}\}\right)\\&={\frac {1}{n}}\cdot \sum _{k=1}^{n}1\\&={\frac {1}{n}}\cdot n\\&=1.\end{aligned}}$ Here, $c_{0}$ is $X_{\text{min}}$ and $c_{i}$ is $X_{\text{max}}$ .

(iii) 我們可以在類似於 (ii) 的方式中“拆分”積分，然後最終積分等於 ${\frac {1}{n}}\cdot \sum _{k=1}^{n}\mathbf {1} \{X_{k}\in A\}$ ，並且它可以近似 $\mathbb {P} (A)$ ，因為它是在 $n$ 次試驗中事件 $\{X_{k}\in A\}$ 發生的相對頻率。

$\Box$

期望

在本節中，我們將討論一些關於期望的結果，這些結果涉及某種不等式。設 $a$ 和 $b$ 為常數。此外，設 $\Omega$ 為 $X$ 的樣本空間。

命題。 令 $X$ 是一個離散或連續隨機變數。如果 $\mathbb {P} (a<X\leq b)=1$ ，那麼 $a<\mathbb {E} [X]\leq b$ .

證明。 假設 $\mathbb {P} (a<X\leq B)=1$ .

情況 1: $X$ 是離散的。

根據期望的定義， $\mathbb {E} [X]=\sum _{x\in \Omega }^{}xf(x)$ 。然後，我們有 $\sum _{x\in \Omega }^{}af(x)<\sum _{x\in \Omega }^{}xf(x)\leq \sum _{x\in \Omega }^{}bf(x)\Rightarrow a\sum _{x\in \Omega }^{}f(x)<\mathbb {E} [X]\leq b\sum _{x\in \Omega }^{}f(x)\Rightarrow a<\mathbb {E} [X]\leq b$ ，因為條件 $\mathbb {P} (a<X\leq b)=1$ .

情況 2: $X$ 是連續的。

類似地，我們有 $\int _{\Omega }^{}af(x)\,dx<\int _{\Omega }^{}xf(x)\,dx\leq \int _{\Omega }^{}bf(x)\,dx\Rightarrow a<\mathbb {E} [X]\leq b$ ，因為條件 $\mathbb {P} (a<X\leq b)=1$ .

$\Box$

備註。

我們可以互換 “ $<$ ” 和 “ $\leq$ ” 而不影響結果。這可以從證明中看到。

命題。 （馬爾可夫不等式）假設 $\mathbb {E} [X]$ 是有限的。令 $X$ 為一個連續的非負隨機變數。那麼，對於每個正數 $a$ ， $\mathbb {P} (X\geq a)\leq {\frac {\mathbb {E} [X]}{a}}$ 。

證明。 ${\frac {\mathbb {E} [X]}{a}}={\frac {1}{a}}\int _{-\infty }^{\infty }\underbrace {xf(x)} _{\color {darkgreen}\geq 0}\,dx{\color {darkgreen}\geq }\int _{a}^{\infty }xf(x)\,dx{\color {darkgreen}\geq }{\frac {1}{a}}\int _{a}^{\infty }af(x)\,dx=\int _{a}^{\infty }f(x)\,dx=\mathbb {P} (X\geq a),$ 如所願。

$\Box$

推論。 （切比雪夫不等式）假設 $\mathbb {E} [X^{2}]$ 是有限的。那麼，對於每個正數 $a$ ， $\mathbb {P} (|X|\geq a)\leq {\frac {\mathbb {E} [X^{2}]}{a^{2}}}.$

證明。 首先，觀察到 $X^{2}$ 是一個非負隨機變數。那麼，根據馬爾可夫不等式，對於每個 (正) $a'=a^{2}$ ，我們有 $\mathbb {P} (X^{2}\geq a')\leq {\frac {\mathbb {E} [X^{2}]}{a'}}\implies \mathbb {P} (X^{2}\geq a^{2})\leq {\frac {\mathbb {E} [X^{2}]}{a^{2}}}\implies \mathbb {P} \left({\sqrt {X^{2}}}\geq {\sqrt {a^{2}}}\right)\leq {\frac {\mathbb {E} [X^{2}]}{a^{2}}}\implies \mathbb {P} (|X|\geq a)\leq {\frac {\mathbb {E} [X^{2}]}{a^{2}}}$ ，因為 $a$ 是正數。

$\Box$

命題。 (詹森不等式) 令 $X$ 為一個連續隨機變數。如果 $g$ 是一個凸函式，則 $g\left(\mathbb {E} [X]\right)\leq \mathbb {E} [g(X)]$ .

證明。 令 $L(x)=a+bx$ 為函式 $g(x)$ 在 $x=\mathbb {E} [X]$ 處的切線。那麼，由於 $g$ 是凸函式，我們有 $g(x)\geq L(x)$ 對每個 $x$ （非正式地說，我們可以從圖形上觀察到這一點）。因此，我們有 ${\begin{aligned}&&\int _{\Omega }^{}g(x)f(x)\,dx&\geq \int _{\Omega }^{}L(x)f(x)\,dx\\&\Rightarrow &\mathbb {E} [g(X)]&\geq \mathbb {E} [L(X)]\\&&&=\mathbb {E} [a+bX]\\&&&=a+b\mathbb {E} [X]\\&&&=L(\mathbb {E} [X])\\&&&=g(\mathbb {E} [X])&{\text{since }}L(x){\text{ is tangent of }}g(x){\text{ at }}x=\mathbb {E} [X],\end{aligned}}$ 如所願。

$\Box$

定理。 （柯西-施瓦茨不等式）假設 $\mathbb {E} [X^{2}]$ 和 $\mathbb {E} [Y^{2}]$ 是有限的。那麼， $(\mathbb {E} [XY])^{2}\leq \mathbb {E} [X^{2}]\mathbb {E} [Y^{2}]$

證明： ${\begin{aligned}0&\leq \mathbb {E} [(X\mathbb {E} [Y^{2}]-Y\mathbb {E} [XY])^{2}]\\&={\color {darkgreen}\mathbb {E} [}X^{2}\underbrace {(\mathbb {E} [Y^{2}])^{2}} _{\text{constant}}-2XY\underbrace {\mathbb {E} [Y^{2}]\mathbb {E} [XY]} _{\text{constant}}+Y^{2}\underbrace {(\mathbb {E} [XY])^{2}} _{\text{constant}}{\color {darkgreen}]}\\&=(\mathbb {E} [Y^{2}])^{2}{\color {darkgreen}\mathbb {E} [}X^{2}{\color {darkgreen}]}-2\mathbb {E} [Y^{2}]\mathbb {E} [XY]{\color {darkgreen}\mathbb {E} [}XY{\color {darkgreen}]}+(\mathbb {E} [XY])^{2}{\color {darkgreen}\mathbb {E} [}Y^{2}{\color {darkgreen}]}\\&=\mathbb {E} [Y^{2}]\left(\mathbb {E} [X^{2}]\mathbb {E} [Y^{2}]-2(\mathbb {E} [XY])^{2}+(\mathbb {E} [XY])^{2}\right)\\&=\mathbb {E} [Y^{2}]\left(\mathbb {E} [X^{2}]\mathbb {E} [Y^{2}]-(\mathbb {E} [XY])^{2}\right)\\\end{aligned}}$ 由於 $\mathbb {E} [Y^{2}]\geq 0$ ，我們必須有 $\mathbb {E} [X^{2}]\mathbb {E} [Y^{2}]-(\mathbb {E} [XY])^{2}\geq 0\Leftrightarrow (\mathbb {E} [XY])^{2}\leq \mathbb {E} [X^{2}]\mathbb {E} [Y^{2}]$ .

$\Box$

示例. （協方差不等式）使用期望的柯西-施瓦茨不等式（上面的定理）來證明 協方差不等式（有時簡單地稱為柯西-施瓦茨不等式）： ${\big (}\operatorname {Cov} (X,Y){\big )}^{2}\leq \operatorname {Var} (X)\operatorname {Var} (Y)$ （假設協方差和方差存在）。

證明. 令 $X'=X-\mathbb {E} [X]$ 和 $Y'=Y-\mathbb {E} [Y]$ 。然後， $\mathbb {E} [X']$ 和 $\mathbb {E} [Y']$ 是有限的。因此，根據柯西-施瓦茨不等式， $(\mathbb {E} [X'Y'])^{2}\leq \mathbb {E} [(X')^{2}]\mathbb {E} [(Y')^{2}]\Leftrightarrow (\mathbb {E} [(X-\mathbb {E} [X])(Y-\mathbb {E} [Y])]\leq \mathbb {E} [(X-\mathbb {E} [X])^{2}]\mathbb {E} [(Y-\mathbb {E} [Y])^{2}]{\overset {\text{ def }}{\Leftrightarrow }}{\big (}\operatorname {Cov} (X,Y){\big )}^{2}\leq \operatorname {Var} (X)\operatorname {Var} (Y).$

$\Box$

收斂

在討論收斂之前，我們將定義一些稍後會用到的術語。

定義. （統計學）統計量 是隨機樣本的函式。

備註。

隨機樣本包含 $n$ （ $n$ 是樣本量）個隨機變數 $X_{1},\dotsc ,X_{n}$ 。
兩個重要統計量 是樣本均值 ${\overline {X}}={\frac {\sum _{i=1}^{n}X_{i}}{n}}$ 和 樣本方差 $S^{2}={\frac {\sum _{i=1}^{n}(X_{i}-{\overline {X}})^{2}}{n}}$ 。

在許多其他地方， $S^{2}$ 用於表示 ${\frac {\sum _{i=1}^{n}(X_{i}-{\overline {X}})^{2}}{n-1}}$ ，即無偏樣本方差。事實上，這裡的 $S^{2}$ 是有偏的（我們將在下一章討論“（無）偏”的含義）。警告：我們應該注意定義上的這種差異。
${\overline {X}}$ 和 $S^{2}$ 都是隨機變數，因為它們都包含隨機變數。

在特定樣本中，例如 $x_{1},\dotsc ,x_{n}$ ，我們觀察到它們樣本均值 ${\overline {x}}={\frac {\sum _{i=1}^{n}x_{i}}{n}}$ 和樣本方差 $s^{2}={\frac {\sum _{i=1}^{n}(x_{i}-{\overline {x}})^{2}}{n}}$ 的確定值。然而，每個值只是各自隨機變數 ${\overline {X}}$ 和 $S^{2}$ 的一次實現。我們應該注意這些確定值（不是隨機變數）和統計量（隨機變數）之間的區別。

為了更直觀地解釋樣本均值 ${\overline {X}}$ 和樣本方差 $S^{2}$ 的定義，請考慮以下情況。

回顧一下，經驗累積分佈函式 $F_{n}(x)$ 將機率 ${\frac {1}{n}}$ 分配給每個隨機樣本 $X_{1},\dotsc ,X_{n}$ 。因此，根據均值和方差的定義，隨機變數（比如 $Y$ ）的均值，其累積分佈函式為 $F_{n}(x)$ （因此對應的機率質量函式為 $f_{n}(x)$ ）是 $\sum _{i=1}^{n}\left(X_{i}\cdot {\frac {1}{n}}\right)={\overline {X}}$ 。類似地， $Y$ 的方差是 $\sum _{i=1}^{n}\left((X_{i}-{\overline {X}})^{2}\cdot {\frac {1}{n}}\right)=S^{2}$ 。換句話說，經驗分佈（對應於 隨機樣本）的均值和方差分別是 樣本均值 ${\overline {X}}$ 和 樣本方差 $S^{2}$ ，這很自然，對吧？

備註。

這裡，我們使用 “ $X_{i}$ ” 而不是表示式中常見的 “ $x_{i}$ ”，而且均值和方差也是隨機變數。這是因為經驗累積分佈函式的樣本空間由隨機變數 $X_{1},\dotsc ,X_{n}$ 組成，而不是確定的值 $x_{1},\dotsc ,x_{n}$ 。

此外，請記住經驗累積分佈函式 $F_{n}(x)$ 當 $n$ 很大時，可以很好地近似 $X$ 的累積分佈函式 $F(x)$ 。由於 ${\overline {X}}$ 和 $S^{2}$ 是具有累積分佈函式 $F_{n}(x)$ 的隨機變數的均值和方差，因此很自然地期望 ${\overline {X}}$ 和 $S^{2}$ 可以很好地近似 $X$ 的均值和方差。

機率收斂

定義。（機率收斂）令 $Z_{1},Z_{2},\dotsc$ 是一個序列隨機變數。序列 機率收斂 到一個隨機變數 $Z$ ，如果對於每個 $\varepsilon >0$ ， $\mathbb {P} (|Z_{n}-Z|>\varepsilon )\to 0$ 當 $n\to \infty$ 時。如果是這樣，為了簡單起見，我們將此寫為 $Z_{n}\;{\overset {p}{\to }}\;Z$ 。

備註。

我們可以將此定義與 確定性 序列 $(a_{n}:n\in \mathbb {N}$ 的收斂定義進行比較

a_{n}\to a

當

n\to \infty

時，對於任意

\varepsilon >0

，存在一個正整數

N>0

（它是

\varepsilon

的函式），使得當

n\geq N

時，

|a_{n}-a|<\varepsilon

成立（一定成立）。

為了比較，我們可以將上述定義改寫為：

Z_{n}\;{\overset {p}{\to }}\;Z

當

n\to \infty

時，對於任意

\varepsilon >0

，存在一個正整數

N>0

（它是

\varepsilon

的函式），使得當

n\geq N

時，

|Z_{n}-Z|<\varepsilon

的機率非常接近於 1（但該事件不一定會發生）。

$\varepsilon$ 指定了收斂的**精度**。如果需要更高的精度，則 $\varepsilon$ 將被設定為更小的（正）值。當 $n$ 足夠大時，定義中的機率非常接近於零（我們說在這種情況下的收斂以一定的精度（取決於 $\varepsilon$ 的值）“實現”）。

以下定理，即**大數定律**，是一個與機率收斂相關的重要的定理。

定理. (弱大數定律 (弱LLN)) 令 $X_{1},\dotsc ,X_{n}$ 為一序列的獨立隨機變數，具有相同的有限均值 $\mu$ 和相同的有限方差 $\sigma ^{2}$ 。那麼，當 $n\to \infty$ 時， ${\overline {X}}\;{\overset {p}{\to }}\;\mu$ 。

證明. 我們使用 $S_{n}$ 來表示 $\sum _{i=1}^{n}X_{i}$ 。

根據定義，當 $n\to \infty$ 時， ${\overline {X}}\;{\overset {p}{\to }}\;\mu$ 等價於當 $n\to \infty$ 時， $\mathbb {P} \left(\left|{\frac {S_{n}}{n}}-\mu \right|>\varepsilon \right)\to 0$ 。

根據切比雪夫不等式，我們有 ${\begin{aligned}\mathbb {P} \left(\left|{\frac {S_{n}}{n}}-\mu \right|>\epsilon \right)&\leq {\frac {1}{\varepsilon ^{2}}}\mathbb {E} \left[\left({\frac {S_{n}}{n}}-\mu \right)^{2}\right]\\&={\frac {1}{\varepsilon ^{2}}}\mathbb {E} \left[\left({\frac {S_{n}-n\mu }{\color {darkgreen}n}}\right)^{2}\right]\\&={\frac {1}{{\color {darkgreen}n^{2}}\varepsilon ^{2}}}\mathbb {E} \left[\left(S_{n}-n\mu \right)^{2}\right]\\&={\frac {1}{n^{2}\varepsilon ^{2}}}\mathbb {E} \left[\left(\sum _{i=1}^{n}X_{i}-\mu \right)^{2}\right]\\&={\frac {1}{n^{2}\varepsilon ^{2}}}\mathbb {E} \left[\sum _{i=1}^{n}\sum _{j=1}^{n}(X_{i}-\mu )(X_{j}-\mu )\right]\\&={\frac {1}{n^{2}\varepsilon ^{2}}}\left(\mathbb {E} \left[\sum _{i=j=1}^{n}(X_{i}-\mu )^{2}\right]+\mathbb {E} \left[\sum _{i=1}^{n}\sum _{j\neq i,j=1}^{n}(X_{i}-\mu )(X_{j}-\mu )\right]\right)\\\end{aligned}}$

由於 $X_{1},X_{2},\dotsc$ 是獨立的（因此它們的函式也是獨立的），期望在獨立性下是可乘的， ${\begin{aligned}{\frac {1}{n^{2}\varepsilon ^{2}}}\left(\mathbb {E} \left[\sum _{i=j=1}^{n}(X_{i}-\mu )^{2}\right]+\mathbb {E} \left[\sum _{i=1}^{n}\sum _{j\neq i,j=1}^{n}(X_{i}-\mu )(X_{j}-\mu )\right]\right)&={\frac {1}{n^{2}\varepsilon ^{2}}}\left(\mathbb {E} \left[\sum _{i=j=1}^{n}(X_{i}-\mu )^{2}\right]+\sum _{i=1}^{n}\sum _{j\neq i,j=1}^{n}\underbrace {\mathbb {E} [X_{i}-\mu ]} _{=\mu -\mu =0}\underbrace {\mathbb {E} [X_{j}-\mu ]} _{=\mu -\mu =0}\right)\\&={\frac {1}{n^{2}\varepsilon ^{2}}}\cdot \sum _{i=1}^{n}\underbrace {\mathbb {E} \left[(X_{i}-\mu )^{2}\right]} _{=\sigma ^{2}}\\&={\frac {n\sigma ^{2}}{n^{2}\varepsilon ^{2}}}\\&={\frac {\sigma ^{2}}{n\varepsilon ^{2}}}\\&\to 0&{\text{as }}n\to \infty .\end{aligned}}$ 因此，機率 $\mathbb {P} \left(\left|{\frac {S_{n}}{n}}-\mu \right|>\varepsilon \right)$ 小於或等於 一個隨著 $n\to \infty$ 趨於 0 的表示式。由於機率是非負的（ $\geq 0$ ），因此該機率也隨著 $n\to \infty$ 趨於 0。

$\Box$

備註。

此外，還有 大數定律，它與 幾乎必然收斂 相關（比機率收斂更強，即蘊含機率收斂）。

機率收斂還有一些性質，可以幫助我們確定一個複雜表示式收斂於什麼。

命題。 （機率收斂的性質）如果 $X_{n}\;{\overset {p}{\to }}\;X$ 且 $Y_{n}\;{\overset {p}{\to }}\;Y$ ，則

（線性性） $aX_{n}+bY_{n}\;{\overset {p}{\to }}\;aX+bY$ 其中 $a,b$ 為常數；
（乘法性） $X_{n}Y_{n}\;{\overset {p}{\to }}\;XY$ ；
$X_{n}/Y_{n}\;{\overset {p}{\to }}\;X/Y$ 只要 $Y_{n}\neq 0$ 且 $Y\neq 0$ ；
（連續對映定理）如果 $g$ 是一個連續函式，則 $g(X_{n})\;{\overset {p}{\to }}\;g(X)$ （以及 $g(Y_{n})\;{\overset {p}{\to }}\;g(Y)$ )

證明。 簡要說明: 假設 $X_{n}\;{\overset {p}{\to }}\;X$ 且 $Y_{n}\;{\overset {p}{\to }}\;Y$ 。連續對映定理首先被證明，以便我們可以在證明其他性質時使用它（這裡省略了證明）。此外，可以證明 $(X_{n},Y_{n})\;{\overset {p}{\to }}\;(X,Y)$ （機率聯合收斂，定義類似，只是隨機變數變成了有序對，所以對 " $|Z_{n}-Z|$ " 的解釋變成了笛卡爾座標系中兩個點之間的距離，這兩個點由有序對錶示)

然後，我們定義 $g(z_{1},z_{2})=az_{1}+bz_{2}$ ， $g(z_{1},z_{2})=z_{1}z_{2}$ 和 $g(z_{1}/z_{2})=z_{1}/z_{2}$ ，分別地，其中這些函式都是連續的，而 $a,b$ 是常數。然後，利用這些函式中的每一個來應用連續對映定理，得到了前三個結果。

$\Box$

分佈收斂

定義。 (分佈收斂) 令 $Z_{1},Z_{2},\dotsc$ 是一個序列隨機變數。當 $n\to \infty$ ， $G_{n}(x)\to G(x)$ 對每一個 $x$ 在 $G(x)$ 連續時，該序列 在分佈上收斂 到一個隨機變數 $Z$ ，其中 $G_{n}(x)$ 和 $G(x)$ 分別是 $Z_{n}$ 和 $Z$ 的累積分佈函式。在這種情況下，我們簡單地寫成 $Z_{n}\;{\overset {d}{\to }}\;Z$ 。

備註。

要求 $G(x)$ 是連續的，是為了使分佈收斂即使在一些 $G(x)$ 不連續的點上累積分佈函式的收斂失敗時仍然成立。
我們也可以將定義表達為 $\lim _{n\to \infty }G_{n}(x)=G(x)$ ，這與 $G_{n}(x)\to G(x)$ 當 $n\to \infty$ 時的含義相同。
可以證明，機率收斂意味著分佈收斂。也就是說，如果 $X_{n}\;{\overset {p}{\to }}\;X$ ，那麼 $X_{n}\;{\overset {d}{\to }}\;X$ ，但反過來只有當極限 " $X$ " 為常數時才成立，即如果 $X_{n}\;{\overset {d}{\to }}\;c$ ，那麼 $X_{n}\;{\overset {p}{\to }}\;c$ ，其中 $c$ 為常數。

統計學中一個與分佈收斂密切相關的非常重要的定理是 中心極限定理。

定理。 (中心極限定理 (CLT)) 令 $X_{1},X_{2},\dotsc$ 是具有相同有限均值 $\mu$ 和方差 $\sigma ^{2}$ 的獨立隨機變數序列。那麼，當 $n\to \infty$ 時， ${\frac {{\overline {X}}-\mathbb {E} [{\overline {X}}]}{\sqrt {\operatorname {Var} ({\overline {X}})}}}={\frac {{\sqrt {n}}({\overline {X}}-\mu )}{\sigma }}\;{\overset {d}{\to }}\;Z$ ，其中 $Z$ 服從標準正態分佈， ${\mathcal {N}}(0,1)$ .

證明。 可以在 Probability/Transformation of Random Variables#Central limit theorem 中找到一個（冗長的）證明。

$\Box$

分佈收斂有一些性質，但它們與機率收斂的性質略有不同。這些性質由 Slutsky 定理 以及連續對映定理給出。

定理。 (連續對映定理) 如果 $X_{n}\;{\overset {d}{\to }}\;X$ ，則 $g(X_{n})\;{\overset {d}{\to }}\;g(X)$ ，只要 $g$ 是一個連續函式。

證明。 省略。

$\Box$

定理。 (Slutsky 定理) 如果 $X_{n}\;{\overset {d}{\to }}\;X$ 且 $Y_{n}\;{\overset {p}{\to }}\;c$ 其中 $c$ 是一個常數，那麼

$X_{n}+Y_{n}\;{\overset {d}{\to }}\;X+c$ ;
$X_{n}Y_{n}\;{\overset {d}{\to }}\;cX$ ;
$X_{n}/Y_{n}\;{\overset {d}{\to }}\;X/c$ 假設 $c\neq 0$ .

證明： 簡要思路：假設 $X_{n}\;{\overset {d}{\to }}\;X$ 並且 $Y_{n}\;{\overset {p}{\to }}\;c$ 。然後可以證明 $(X_{n},Y_{n})\;{\overset {d}{\to }}\;(X,c)$ （聯合分佈收斂，其定義類似，只是累積分佈函式變成了有序對的聯合累積分佈函式）。之後，我們定義 $g(z_{1},z_{2})=z_{1}+z_{2}$ ， $g(z_{1},z_{2})=z_{1}z_{2}$ 以及 $g(z_{1},z_{2})=z_{1}/z_{2}$ 分別，其中每個函式都是連續的，然後使用每個函式應用連續對映定理，就可以得到我們想要的三個結果。

$\Box$

備註。

注意，假設中提到的是 $Y_{n}\;{\overset {\color {darkgreen}p}{\to }}\;c$ ，而不是 $Y_{n}\;{\overset {\color {darkgreen}d}{\to }}\;c$ .

重取樣

透過 重取樣，我們指的是基於現有樣本建立新的樣本。現在，讓我們考慮以下內容，以概述重取樣的過程。

假設 $X_{1},\dotsc ,X_{n}$ 是一個來自隨機變數 $X$ 分佈的 隨機樣本，其累積分佈函式為 $F(x)$ 。令 $x_{1},\dotsc ,x_{n}$ 是隨機樣本 $X_{1},\dotsc ,X_{n}$ 的一個相應的實現。基於這個實現，我們也有經驗累積分佈函式的實現： ${\frac {1}{n}}\sum _{k=1}^{n}\mathbf {1} \{x_{k}\leq x\}$ ^[3]。由於這是一個經驗累積分佈函式的實現，根據 Glivenko-Cantelli 定理，當 $n$ 很大時 ^[4]，它可以很好地估計累積分佈函式 $F(x)$ 。換句話說，如果我們將具有與經驗累積分佈函式實現相同的機率密度函式的隨機變量表示為 $X^{*}$ ，則當 $n$ 很大時， $X^{*}$ 和 $X$ 具有相似的分佈。

請注意，經驗累積分佈函式（CDF）的實現是一個離散 CDF（因為其支撐集 $x_{1},\dotsc ,x_{n}$ 是可數的）。現在，我們從隨機變數 $X^{*}$ 的分佈中抽取一個 隨機樣本（稱為引導（或重抽樣）隨機樣本），樣本大小為 $B$ （稱為 引導樣本大小） $X_{1}^{*},\dotsc ,X_{B}^{*}$ ( $X^{*}$ 來自於從 $X$ 中抽樣，因此從 $X^{*}$ 中抽樣的行為被稱為 重抽樣）。

然後， $X_{1}^{*},\dotsc ,X_{B}^{*}$ 的相對頻率直方圖應該接近於 $X^{*}$ 的經驗機率質量函式（PMF）的對應實現（從 $X^{*}$ 的經驗 CDF 的實現中找到），它又接近於 $X$ 的 PDF $f(x)$ 。這意味著 $X_{1}^{*},\dotsc ,X_{B}^{*}$ 的相對頻率直方圖接近於 $X$ 的 PDF $f(x)$ 。

特別地，由於 $X^{*}$ 的累積分佈函式， $F_{n}(x)$ ，為 $X_{1}^{*},\dotsc ,X_{B}^{*}$ ^[5] 中的每一個值分配機率 $1/n$ ， $X^{*}$ 的機率質量函式為 $\mathbb {P} (X^{*}=x_{i})={\frac {1}{n}},\quad i=1,2,\dotsc ,n$ 。請注意，這個機率質量函式非常簡單，因此可以簡化與其相關的計算。例如，在以下內容中，我們想知道 $T^{*}=g(X_{1}^{*},\dotsc ,X_{n}^{*})$ 的分佈，而這個簡單的機率質量函式可以使得到的分佈也相當簡單。

注：在自舉方法中涉及的事物（“自舉”的事物）在其表示法中通常會新增一個額外的“*”。

在下文中，我們將討論上面提到的自舉方法（或 重取樣）的一個應用，即使用自舉方法來近似統計量 $T=g(X_{1},X_{2},\dotsc ,X_{n})$ （函式的輸入是隨機變數， $g$ 是一個函式）的分佈。近似而不是精確地找到分佈的原因是後者通常不可行（或者可能過於複雜）。

To do this, consider the "bootstrapped statistic" $T^{*}=g(X_{1}^{*},X_{2}^{*},\dotsc ,X_{n}^{*})$ and the statistic $T=g(X_{1},X_{2},\dotsc ,X_{n})$ . $X_{1}^{*},X_{2}^{*},\dotsc ,X_{n}^{*}$ is the bootstrap random sample (with bootstrap sample size $n$ ) from the distribution of $X^{*}$ and $X_{1},X_{2},\dotsc ,X_{n}$ is the random sample from the distribution of $X^{*}$ . When $n$ is large, since the distribution of $X^{*}$ is similar to that of $X$ , the bootstrap random sample $X_{1}^{*},X_{2}^{*},\dotsc ,X_{B}^{*}$ and the random sample $X_{1},X_{2},\dotsc ,X_{n}$ are also similar. It follows that $T^{*}$ and $T$ are similar as well, or to be more precise, the distributions of $T^{*}$ and $T$ are close. As a result, we can utilize the distribution of $T^{*}$ (which is easier to find and simpler, since the pmf of $X^{*}$ is simple as in above) to approximate the distribution of $T$ . A procedure to do this is as follows

從 自舉隨機樣本 $X_{1}^{*},X_{2}^{*},\dotsc ,X_{n}^{*}$ 中生成 自舉實現 $x_{1}^{*},x_{2}^{*},\dotsc ,x_{n}^{*}$ ，它來自 $X^{*}$ 的分佈。
計算自舉統計量 $T^{*}$ 的一個實現， $t^{*}=g(x_{1}^{*},x_{2}^{*},\dotsc ,x_{n}^{*})$ 。
重複步驟 1 到 2 $j$ 次，以獲得 $j$ 個 $T^{*}$ 的實現序列： $t_{1}^{*},t_{2}^{*},\dotsc ,t_{j}^{*}$ .
繪製 $j$ 個實現 $t_{1}^{*},t_{2}^{*},\dotsc ,t_{j}^{*}$ 的相對頻率直方圖。

這個 $j$ 個實現的直方圖（它是從 $T^{*}$ 中抽取的樣本大小為 $j$ 的隨機樣本的實現）接近 $T^{*}$ 的 pmf ^[6]，因此接近 $T$ 的 pmf。

統計/檢驗統計假設

統計
預備知識

點估計

↑ 直觀地說，給定最大值的候選值，我們總是可以為它新增“一點”，以得到更大的候選值。因此，該集合中不存在“最大”元素。
↑ 這是因為 $X_{\text{min}}=c_{0}$ 和 $X_{\text{max}}=c_{i}$ 。
↑ 這不同於經驗 cdf ${\frac {1}{n}}\sum _{k=1}^{n}\mathbf {1} \{X_{k}\leq x\}$ 。
↑ 對於 Glivenko-Cantelli 定理，經驗 cdf 是 cdf $F(x)$ 的一個很好的估計，無論隨機樣本的實際值（實現）是什麼，即對於經驗 cdf 的每個實現，當 $n$ 很大時，它是 cdf $F(x)$ 的一個很好的估計。
↑ 也就是說，對於隨機樣本 $X_{1},X_{2},\dotsc ,X_{n}$ 的一個實現，例如 $x_{1},x_{2},\dotsc ,x_{n}$ ， $X^{*}$ 等於 $x_{1},x_{2},\dotsc ,x_{n}$ （對應於 $X_{1},X_{2},\dotsc ,X_{n}$ 的實現），機率分別為 $1/n$ 。
↑ 原因類似於上面提到的：直方圖應該接近 $T^{*}$ 的機率質量函式，因為與直方圖對應的累積分佈函式（即隨機樣本 $T_{1}^{*},T_{2}^{*},\dotsc ,T_{j}^{*}$ 的經驗累積分佈函式的實現）接近 $T^{*}$ 的累積分佈函式。

[1] 直觀地說，給定最大值的候選值，我們總是可以為它新增“一點”，以得到更大的候選值。因此，該集合中不存在“最大”元素。

[2] 這是因為 $X_{\text{min}}=c_{0}$ 和 $X_{\text{max}}=c_{i}$ 。

[3] 這不同於經驗 cdf ${\frac {1}{n}}\sum _{k=1}^{n}\mathbf {1} \{X_{k}\leq x\}$ 。

[4] 對於 Glivenko-Cantelli 定理，經驗 cdf 是 cdf $F(x)$ 的一個很好的估計，無論隨機樣本的實際值（實現）是什麼，即對於經驗 cdf 的每個實現，當 $n$ 很大時，它是 cdf $F(x)$ 的一個很好的估計。

[5] 也就是說，對於隨機樣本 $X_{1},X_{2},\dotsc ,X_{n}$ 的一個實現，例如 $x_{1},x_{2},\dotsc ,x_{n}$ ， $X^{*}$ 等於 $x_{1},x_{2},\dotsc ,x_{n}$ （對應於 $X_{1},X_{2},\dotsc ,X_{n}$ 的實現），機率分別為 $1/n$ 。

[6] 原因類似於上面提到的：直方圖應該接近 $T^{*}$ 的機率質量函式，因為與直方圖對應的累積分佈函式（即隨機樣本 $T_{1}^{*},T_{2}^{*},\dotsc ,T_{j}^{*}$ 的經驗累積分佈函式的實現）接近 $T^{*}$ 的累積分佈函式。

[1]

[2]

[3]

[4]

[5]

[6]