本章討論了一些與統計學相關的預備知識,這些知識將用於高階部分的後續章節。
備註。
- 我們通常將底層分佈稱為 總體。
- 通常,計算機 對進行此類實驗並重復多次很有用。
- 特別是,一種稱為 R 的程式語言通常用於計算統計學。你可以檢視華夏公益教科書 R 程式設計,以瞭解有關它的更多資訊。
- 因此,本節中討論的內容(以及有關重抽樣的部分)與計算統計學非常相關。
由於所有這些
個隨機變數都遵循與
相同的 cdf,我們可以預期它們的分佈應該與
的分佈有些相似,實際上,這是正確的。在展示這是如何實現之前,我們需要更精確地定義“這些
個隨機變數的分佈”,如下所示
備註。
是指示函式,當
為真時值為 1,否則為 0。
- 我們可以看到
將機率(或“質量”)
分配給每個
,這確實是一個有效的累積分佈函式。
- 這是因為對於每個
,如果它小於或等於
,那麼和中相應的指示函式為 1,因此累積分佈函式貢獻了 "
"。
- 為了更清楚地理解這一點,請考慮以下示例。
- 我們可以將
解釋為事件
的 相對頻率。回想一下,事件機率的頻率論定義是事件的“長期”相對頻率(即在重複隨機實驗 無限 次後事件的相對頻率)。因此,我們直觀地預期
當
很大時。
示例。 從一個未知分佈中抽取大小為 5 的隨機樣本,得到以下數字
-1.4, 2.3, 0.8, 1.9, -1.6
(a) 求經驗累積分佈函式。
(b) 令
是一個(離散的)隨機變數,其累積分佈函式與 (a) 中的經驗累積分佈函式完全相同。證明
的機率質量函式(稱為 經驗機率質量函式)為
解
(a) 首先,我們將樣本資料按升序排列,以便我們更方便地找到經驗累積分佈函式
-1.6, -1.4, 0.8, 1.9, 2.3
經驗累積分佈函式由以下公式給出:
解釋
- 對樣本資料進行排序後,我們將每個數字視為隨機樣本的觀測值:
.
- 然後,當
時,沒有一個
小於或等於
。因此,所有相關的指示函式都為零,經驗累積分佈函式的值也為零。
- 當
時,只有
,因此只有指示函式
在這種情況下,所有其他指示函式都為零。因此,該值為
.
- 類似地,當
時,只有
,因此只有指示函式
和
在這種情況下,所有其他指示函式均為零。因此,該值為
。
- ...
- 當
時,所有
。因此,所有指示函式均為一,因此經驗 cdf 的值為
。
(b)
定理。(格利文科-坎泰利定理)當
時,
幾乎必然(a.s.)。
我們已經提到了如何近似 cdf,現在我們想估計 pdf/pmf。讓我們首先討論如何估計 pmf。
對於離散隨機變數
,從經驗 cdf 中,我們知道每個
都被“分配”了機率
。此外,考慮到前面的例子,經驗 pmf 是
.
為了討論連續隨機變數的 pdf 估計,我們首先需要定義 類間隔。
定義。 (類間隔)首先,選擇一個整數
和一個實數序列
,使得
。那麼,類間隔 為
。
對於連續隨機變數
,構建
的類別區間,這些區間是非重疊的,並對區間
進行劃分,其中
和
是樣本中的最小值和最大值。然後,pdf
當
和
很接近,即每個類別區間的長度很小。(儘管上述類別區間的並集是
,因此值
不包含在區間內,但這並不重要,因為 pdf 在
的值不會影響機率的計算。)這裡,
是
,而
是
。
由於
是事件
的相對頻率,我們可以將上面的表示式改寫為
,其中
被稱為 相對頻率直方圖。
由於構建類別區間的可能方法很多,所以
的值即使在相同的
和
時也會有所不同。當
很 大 並且每個類別區間的長度很 小 時,我們期望
是
(理論 pdf)的良好估計。
與相對頻率直方圖相關的某些屬性如下
命題.(相對頻率直方圖的屬性)
(i)
;
(ii) 由
和
軸所包圍的總面積為 1,即
[2];
(iii) 事件
是某些類間距的並集,其機率為
.
證明。
(i) 由於指示函式是非負的(其值要麼是 0 要麼是 1),
為正數,並且
,因此
為正數,根據定義,我們有
。
(ii)
Here,
is
and
is
.
(iii) 我們可以在類似於 (ii) 的方式中“拆分”積分,然後最終積分等於
,並且它可以近似
,因為它是在
次試驗中事件
發生的相對頻率。
在本節中,我們將討論一些關於期望的結果,這些結果涉及某種不等式。設
和
為常數。此外,設
為
的樣本空間。
備註。
- 我們可以互換 “
” 和 “
” 而不影響結果。這可以從證明中看到。
證明。
如所願。
示例. (協方差不等式)使用期望的柯西-施瓦茨不等式(上面的定理)來證明 協方差不等式(有時簡單地稱為柯西-施瓦茨不等式):
(假設協方差和方差存在)。
在討論收斂之前,我們將定義一些稍後會用到的術語。
在特定樣本中,例如
,我們觀察到它們樣本均值
和 樣本方差
的確定值。 然而,每個值只是各自隨機變數
和
的一次實現。我們應該注意這些確定值(不是隨機變數)和統計量(隨機變數)之間的區別。
為了更直觀地解釋樣本均值
和 樣本方差
的定義,請考慮以下情況。
回顧一下,經驗累積分佈函式
將機率
分配給每個隨機樣本
。因此,根據均值和方差的定義,隨機變數(比如
)的 均值,其累積分佈函式為
(因此對應的機率質量函式為
)是
。類似地,
的 方差 是
。換句話說,經驗分佈(對應於 隨機樣本)的 均值 和 方差 分別是 樣本均值
和 樣本方差
,這很自然,對吧?
此外,請記住經驗累積分佈函式
當
很大時,可以很好地近似
的累積分佈函式
。 由於
和
是具有累積分佈函式
的隨機變數的均值和方差,因此很自然地期望
和
可以很好地近似
的均值和方差。
以下定理,即**大數定律**,是一個與機率收斂相關的重要的定理。
證明. 我們使用
來表示
。
根據定義,當
時,
等價於當
時,
。
根據切比雪夫不等式,我們有 ![{\displaystyle {\begin{aligned}\mathbb {P} \left(\left|{\frac {S_{n}}{n}}-\mu \right|>\epsilon \right)&\leq {\frac {1}{\varepsilon ^{2}}}\mathbb {E} \left[\left({\frac {S_{n}}{n}}-\mu \right)^{2}\right]\\&={\frac {1}{\varepsilon ^{2}}}\mathbb {E} \left[\left({\frac {S_{n}-n\mu }{\color {darkgreen}n}}\right)^{2}\right]\\&={\frac {1}{{\color {darkgreen}n^{2}}\varepsilon ^{2}}}\mathbb {E} \left[\left(S_{n}-n\mu \right)^{2}\right]\\&={\frac {1}{n^{2}\varepsilon ^{2}}}\mathbb {E} \left[\left(\sum _{i=1}^{n}X_{i}-\mu \right)^{2}\right]\\&={\frac {1}{n^{2}\varepsilon ^{2}}}\mathbb {E} \left[\sum _{i=1}^{n}\sum _{j=1}^{n}(X_{i}-\mu )(X_{j}-\mu )\right]\\&={\frac {1}{n^{2}\varepsilon ^{2}}}\left(\mathbb {E} \left[\sum _{i=j=1}^{n}(X_{i}-\mu )^{2}\right]+\mathbb {E} \left[\sum _{i=1}^{n}\sum _{j\neq i,j=1}^{n}(X_{i}-\mu )(X_{j}-\mu )\right]\right)\\\end{aligned}}}](https://wikimedia.org/api/rest_v1/media/math/render/svg/6f27ca908375d9a98d61d8e2edc0ea7cb49c7c40)
由於
是 獨立 的(因此它們的函式也是獨立的),期望在獨立性下是可乘的,
因此,機率
小於或等於 一個隨著
趨於 0 的表示式。由於機率是非負的(
),因此該機率也隨著
趨於 0。
備註。
- 此外,還有 大數定律,它與 幾乎必然收斂 相關(比機率收斂更強,即蘊含機率收斂)。
機率收斂還有一些性質,可以幫助我們確定一個複雜表示式收斂於什麼。
證明。 簡要說明: 假設
且
。連續對映定理首先被證明,以便我們可以在證明其他性質時使用它(這裡省略了證明)。此外,可以證明
(機率聯合收斂,定義類似,只是隨機變數變成了有序對,所以對 "
" 的解釋變成了笛卡爾座標系中兩個點之間的 距離,這兩個點由有序對錶示)
然後,我們定義
,
和
,分別地,其中這些函式都是連續的,而
是常數。然後,利用這些函式中的每一個來應用連續對映定理,得到了前三個結果。
統計學中一個與分佈收斂密切相關的非常重要的定理是 中心極限定理。
分佈收斂有一些性質,但它們與機率收斂的性質略有不同。這些性質由 Slutsky 定理 以及連續對映定理給出。
證明。 省略。
證明: 簡要思路:假設
並且
。然後可以證明
(聯合分佈收斂,其定義類似,只是累積分佈函式變成了有序對的聯合累積分佈函式)。之後,我們定義
,
以及
分別,其中每個函式都是連續的,然後使用每個函式應用連續對映定理,就可以得到我們想要的三個結果。
備註。
- 注意,假設中提到的是
,而不是
.
透過 重取樣,我們指的是基於現有樣本建立新的樣本。現在,讓我們考慮以下內容,以概述重取樣的過程。
假設
是一個來自隨機變數
分佈的 隨機樣本,其累積分佈函式為
。令
是隨機樣本
的一個相應的 實現。基於這個實現,我們也有經驗累積分佈函式的 實現:
[3]。由於這是一個經驗累積分佈函式的實現,根據 Glivenko-Cantelli 定理,當
很大時 [4],它可以很好地估計累積分佈函式
。換句話說,如果我們將具有與經驗累積分佈函式 實現 相同的機率密度函式的隨機變量表示為
,則當
很大時,
和
具有相似的分佈。
請注意,經驗累積分佈函式(CDF)的實現是一個 離散 CDF(因為其支撐集
是可數的)。現在,我們從隨機變數
的分佈中抽取一個 隨機樣本(稱為引導(或重抽樣)隨機樣本),樣本大小為
(稱為 引導樣本大小)
(
來自於從
中 抽樣,因此從
中抽樣的行為被稱為 重抽樣)。
然後,
的相對頻率直方圖應該接近於
的經驗機率質量函式(PMF)的對應 實現(從
的經驗 CDF 的實現中找到),它又接近於
的 PDF
。這意味著
的相對頻率直方圖接近於
的 PDF
。
特別地,由於
的累積分佈函式,
,為
[5] 中的每一個值分配機率
,
的機率質量函式為
。請注意,這個機率質量函式非常簡單,因此可以簡化與其相關的計算。例如,在以下內容中,我們想知道
的分佈,而這個簡單的機率質量函式可以使得到的分佈也相當簡單。
注: 在自舉方法中涉及的事物(“自舉”的事物)在其表示法中通常會新增一個額外的“*”。
在下文中,我們將討論上面提到的自舉方法(或 重取樣)的一個應用,即使用自舉方法來 近似 統計量
(函式的輸入是隨機變數,
是一個函式)的分佈。近似而不是精確地找到分佈的原因是後者通常不可行(或者可能過於複雜)。
To do this, consider the "bootstrapped statistic"
and the statistic
.
is the bootstrap random sample (with bootstrap sample size
) from the distribution of
and
is the random sample from the distribution of
. When
is large, since the distribution of
is similar to that of
, the bootstrap random sample
and the random sample
are also similar. It follows that
and
are similar as well, or to be more precise, the distributions of
and
are close. As a result, we can utilize the distribution of
(which is easier to find and simpler, since the pmf of
is simple as in above) to approximate the distribution of
. A procedure to do this is as follows
- 從 自舉隨機樣本
中生成 自舉實現
,它來自
的分佈。
- 計算自舉統計量
的一個實現,
。
- 重複步驟 1 到 2
次,以獲得
個
的實現序列:
.
- 繪製
個實現
的相對頻率直方圖。
這個
個實現的直方圖(它是從
中抽取的樣本大小為
的隨機樣本的實現)接近
的 pmf [6],因此接近
的 pmf。
- ↑ 直觀地說,給定最大值的候選值,我們總是可以為它新增“一點”,以得到更大的候選值。因此,該集合中不存在“最大”元素。
- ↑ 這是因為
和
。
- ↑ 這不同於經驗 cdf
。
- ↑ 對於 Glivenko-Cantelli 定理,經驗 cdf 是 cdf
的一個很好的估計,無論隨機樣本的實際值(實現)是什麼,即對於經驗 cdf 的每個實現,當
很大時,它是 cdf
的一個很好的估計。
- ↑ 也就是說,對於隨機樣本
的一個實現,例如
,
等於
(對應於
的實現),機率分別為
。
- ↑ 原因類似於上面提到的:直方圖應該接近
的機率質量函式,因為與直方圖對應的累積分佈函式(即隨機樣本
的經驗累積分佈函式的實現)接近
的累積分佈函式。