在許多實驗中,樣本空間中可能存在太多可能的結果,因此我們可能希望改為使用這些結果的“彙總變數”。例如,假設對 100 個人進行民意調查,詢問他們是否同意某項提案。然後,為了完全跟蹤這 100 個人的答案,我們可以先用數字表示他們的回答。
- 數字“1”表示“同意”。
- 數字“0”表示“不同意”。
(為了簡單起見,我們假設只有這兩個答案可用。)然後,為了記錄每個人對哪個答案的回答,我們使用一個包含 100 個數字的向量進行記錄。例如,
,等等。由於向量中的每個座標都有兩個選擇:“0”或“1”,因此樣本空間中總共有
個不同的向量(用
表示)!因此,處理樣本空間中如此多的結果非常繁瑣和複雜
。相反,我們通常只關心有多少人“同意”和“不同意”,而不是每個人對哪個答案的回答,因為“同意”和“不同意”的數量決定了提案是否得到了他們中大多數人的同意,因此抓住了民意調查的本質。
因此,定義一個變數
更方便,它給出樣本空間中每個結果的 100 個座標中的“1”的數量
。然後,
只能取 101 個可能的值:0, 1, 2, ..., 100,這遠少於原始樣本空間中的結果數。
透過這樣做,我們可以將原始實驗更改為一個新實驗,其中變數
根據一定的機率取 101 個可能的值中的一個。對於這個新實驗,樣本空間變為
。
在定義變數
(稱為 隨機變數)的過程中,我們實際上(隱式地)定義了一個函式,其定義域是原始樣本空間,值域是
。通常,我們將隨機變數的陪域取為所有實數的集合
。也就是說,我們定義了隨機變數
,其中
對於每一個
都成立。
為了正式定義隨機變數,我們需要可測函式的概念。
透過定義一個從機率空間
到實數空間的隨機變數
,我們實際上 誘導 出一個新的機率空間
,其中
- 誘導的樣本空間
是隨機變數
的 值域:
。
- 誘導的事件空間
是
-代數
。(這裡我們遵循之前的慣例:當
可數時,
。)
- 誘導的機率測度
定義為
- 對於每個
。
結果證明,誘導的機率測度滿足所有機率公理
例: 證明誘導機率測度
滿足所有機率公理,因此是有效的。
證明了這個結果後,可以得出之前討論的所有機率測度的性質也適用於誘導的機率測度
。因此,我們可以利用機率測度的性質來計算機率
,從而計算出
,對於任意集合
。更一般地,為了計算機率
對於任意
(
不一定屬於
),我們注意到
,並且發現
。因此,我們可以透過考慮
來計算
。
示例。 假設我們拋擲一枚公平的硬幣兩次。那麼,樣本空間可以用
表示。現在,我們將隨機變數
定義為樣本點拋擲中獲得的正面數(這意味著
將樣本空間中的每個樣本點對映到該樣本點中獲得的正面數)。那麼,我們有
因此,
。因此,我們有
(樣本空間中的四個結果應該是等機率的。)(通常用
代替
,
代替
等等。)
練習。 假設我們拋擲一枚公平的硬幣三次,並定義隨機變數
為樣本點拋擲中獲得的正面次數。那麼,
。計算機率
對於每個
。因此,計算機率
對於每個
。(提示: 我們可以寫
。現在,考慮
。)
有時,即使不可能列出樣本空間中的所有樣本點,我們也可以確定與隨機變數相關的機率。
示例。 考慮關於動機部分中討論的民意調查的示例。我們將隨機變數定義為給出“1”的數量。這裡,我們假設樣本空間中的每個樣本點都是等可能的。證明
對於每個
。
一類非常有用的特殊隨機變數是指示隨機變數,它是 指示函式 的特例。
示例。 假設我們擲兩個不同的骰子,並定義
為擲骰結果的數字之和。 那麼,樣本空間為
。 這裡我們可以看到
的取值範圍是
。 計算每個
的
。
解。 注意,在樣本空間中,有 1、2、3、4、5、6、5、4、3、2、1 個樣本點,分別對應於
。 因此,我們有 
練習。 計算
的機率。 (答案:
)
解答
該機率為 
對於每個隨機變數
,都存在一個與之相關的函式,稱為 累積分佈函式 (cdf) 的 
示例。 考慮之前的一個練習,我們拋一枚公平的硬幣三次,隨機變數
被定義為樣本點中獲得的正面次數。我們已經計算出
。因此,隨機變數
的累積分佈函式由
圖表上,累積分佈函式是一個階梯函式,每個
都有一個跳躍,跳躍的大小為
。
累積分佈函式中“跳躍”的示意圖。
從上面的例子中的累積分佈函式可以看出,累積分佈函式不一定是連續的。在跳躍點處有幾個不連續點。但我們可以注意到,在每個跳躍點,累積分佈函式取跳躍的頂端的值,這是根據累積分佈函式的定義(所涉及的不等式也包含等式)。簡單來說,這表明累積分佈函式是右連續的。但是,累積分佈函式一般來說不是左連續的。
下面,我們將討論累積分佈函式的三個定義屬性。
定理。(累積分佈函式的定義屬性)函式
是隨機變數
的累積分佈函式當且僅當
(i)
對於每個實數
。
(ii)
是單調不減的。
(iii)
是右連續的。
有時,我們只對
這樣使得
的值感興趣,這些值更為“重要”。粗略地說,這些值實際上是
的支撐集 的元素,該集合將在下文中定義。
示例. 如果
那麼
,因為
,並且該集合是滿足此要求的所有集合中最小的集合。
備註.
等等也滿足要求,但它們不是最小的集合。
練習。
定義。 (離散隨機變數) 如果
是 可數的 (即“可列舉的”或“可列出的”),則隨機變數
是一個 離散 隨機變數。
練習。
通常,對於離散隨機變數,我們感興趣的是隨機變數取特定值的機率。因此,我們有一個函式可以給出每個特定值所對應的機率,即 機率質量函式。
例如。 假設我們擲一個公平的六面骰子一次。 令
為朝上的數字。 那麼,
的 pmf 是 
練習。
假設
是一個離散隨機變數。將
分割成小的不相交的區間
得出
特別地,每單位的機率可以被解釋為
在該區間上的機率密度。(密度越高,分配給該區間的機率就越多)。
取極限,
其中,直觀且非嚴格地,
可以理解為在“無窮小”區間
上的機率,即
,而
可以理解為在這個“無窮小”區間上的機率密度,即
.
這些促使我們給出如下定義。
名稱 連續 隨機變數來自這樣的結果,即這種隨機變數的累積分佈函式是連續的。
命題。(連續隨機變數的累積分佈函式的連續性)如果隨機變數
是連續的,它的累積分佈函式
也是連續的(不僅僅是右連續)。
證明。 由於
(黎曼積分是連續的),累積分佈函式是連續的。
練習。
命題。 (用累積分佈函式求機率密度函式) 如果連續隨機變數的累積分佈函式
可微,那麼機率密度函式
.
證明。 這是由微積分基本定理得到的:
在沒有進一步假設的情況下,機率密度函式 不 是唯一的,即一個隨機變數可能有多個機率密度函式,例如,我們可以在其支撐集之外的單個點上將機率密度函式的值設定為一個實數(不會影響機率,因為機率密度函式在單個點的值為零,無論其值如何),這將為一個隨機變數建立另一個有效的機率密度函式。 為了解決這個問題,我們通常將
設定為每個
,以使機率密度函式變得唯一,並使計算更方便。
練習。
在閱讀了前兩節之後,你可能會認為隨機變數要麼是離散的,要麼是連續的。實際上,這是錯誤的。隨機變數可以既不是離散的也不是連續的。這種隨機變數的一個例子是本節討論的 混合 隨機變數。
奇異隨機變數的一個例子是 康托爾分佈函式(有時稱為魔鬼的樓梯),如下圖所示。當您放大圖形時,圖形模式會不斷重複。
康托爾分佈函式