跳轉到內容

計算機系統工程/機率

來自Wikibooks,開放書籍,開放世界

機率回顧

[編輯 | 編輯原始碼]

1.0 基礎

[編輯 | 編輯原始碼]

一個實驗,真實的或想象的,可以用三個特性來描述。這些是

  • 1. 一組結果
  • 2. 將這些結果分組為類別
  • 3. 這些類別出現的相對頻率。


例如,拋硬幣是一個實驗,其結果要麼是正面要麼是反面。一組結果將是正面 (H) 或反面 (T)。那麼正面的相對頻率將是在大量拋擲中正面出現的次數。

										(1)

如果將成對的拋擲作為實驗的結果,則結果集將是 HH、HT、TH 和 TT。這些可以分為三類:2 個正面、2 個反面和 1 個正面和 1 個反面。假設硬幣是公平的,則 1 個正面和 1 個反面的類別的相對頻率將是其他兩類的兩倍。

在機率論中,“樣本空間”,用 S 表示,對應於結果集,每個可能的結果都是 S 的一個元素。“事件”對應於一類結果,“機率”是事件相對頻率的度量。這可以解釋為如果實驗重複多次,事件發生的次數佔總次數的比例。

										(2)

形式上,機率測度滿足以下性質

*1.    For any event A, 0≤P(A)≤1
*2.	P(S) = 1
*3.	If A and B are mutually exclusive events then P(A+B)=P(A)+P(B). (3)

A + B 是樣本空間中包含事件 A 或 B 或兩者都包含的元素的集合。事件 A 可以描述為

	A = {ω: ω satisfies membership property for A}				(4)

其中 ω 是樣本空間的成員,ωєS。這讀作:“A 是 ω 的集合,其中 ω 滿足 A 的成員屬性。”類似地,引入集合論符號表示事件的補集、並集和交集,令

		AC	= {ω: ω not in A}
		= complement of A

	A + B	= {ω: ω in A or B or both}
		= union of A and B*					(5)

	A,B	= {ω: ω in both A and B}
		= intersection of A and B*

	Ø = SC	= null event = no sample points since all sample points are in S
  • 在集合論符號中,“+”和“U”都用於表示兩個集合的並集。類似地,交集用“,”、“∩”、“∙”表示,或者有時透過將符號並排寫來表示。“+”和“∙”暗示了加法和乘法的算術運算,集合的並集和交集運算與此類似。但是,不應該將它們混淆。一個應用於集合,另一個應用於數字。

這些在下圖的韋恩圖中進行了說明。正方形中的點表示樣本空間 S,封閉迴圈中的點表示事件。

在 I 中注意

S = A + AC									(6)

並且 AC 和 A 中的點是互斥的。因此,使用 (3)

P(S)= P(AC + A) 								(7)
    = P(AC)+P(A)

但 P(S) = 1,因此

	P(AC) = 1 - P(A)							(8)

在 IV 中,A 和 B 中的點不是互斥的。在這種情況下

	 									(9)

(9) 中的最後一項是必要的,因為前兩項都包含 A、B 中的點,但我們只想在 A+B 中計算這些點一次。


條件機率

如果事件 B 發生,“條件機率”A 也發生的機率 P(A|B)(讀作:“給定 B 時 A 的機率”)定義為

										(10)

這給出了 B 中也屬於 A 的點的分數。實際上,有了 B 的知識,我們可以建立一個新的樣本空間,其中僅包含 B 中的點,然後查詢 A 中屬於 B 的點的相對頻率。

如果

	P(A,B)	= P(A) P(B)							(11)


則稱 A 和 B 是獨立的。

					 					(12)

注意,如果 A 和 B 是獨立的,則

	A + AC = S								(13)
	A, AC = Ø

這意味著 B 的知識不會告訴我們 A 發生的頻率。正如我們在 (5) 和 (6) 中提到的,A 和 AC 覆蓋 S 並且是互斥的。

	B = B,A + B, AC								(14)


因此

	P(B) 	= P(B,A + B, AC)						(15)
		= P(B,A) + P(B, AC)

由 (10)

	P(B,A) = P(B|A) P(A)							(16)

	P(B,AC) = P(B|AC) P(AC)							(17)

因此

	P(B) = P(B|A) P(A) + P(B|AC) P(AC)					(18)

如果事件 Ai,i = 1,2…n 是互斥且窮舉的,即

	A1 + A2 +… An = S							(19)
	Ai,Aj = Ø for all i ≠ j

則 (15) 和 (18) 可以更一般地寫成

		 								(20)

			 							(21)

這就是“全機率公式”。另一個有用的關係來自 (10),即“貝葉斯定理”

						 				(22)

然而,由 (18)

	P(B) = P(B|A)P(A) + P(B|AC)P(AC)					(23)

因此

						 				(24)

因此,如果我們知道事件 A 的機率 P(A) 和 A 對 B 的機率的影響 P(B|A),則可以計算 B 對 A 的機率的影響 P(A|B)。

一個例子

貝葉斯定理在元件測試中可能有一些非直觀的結論。

假設我們有一種測試記憶體晶片的方法。如果晶片損壞 (B),則測試 95% 的時間會顯示損壞 (T)。

	P(T|B) = .95								(25)

如果晶片完好 (BC),則測試 95% 的時間會顯示完好 (TC)。

	P(TC|BC) = .95								(26)

另外,假設 1% 的晶片損壞。

	P(B) = .01								(27)


測試結果為損壞的晶片中,有多少百分比是真正損壞的?即,P(B|T) 是多少?應用 (24) 我們有

					 					(28)

由 (8)

	P(BC) = 1 – P(B) = .99
	P(T| BC) = 1 – P(TC|BC) = .05	 					(29)

這意味著 B 的知識不會告訴我們 A 發生的頻率。正如我們在 (5) 和 (6) 中提到的,A 和 AC 覆蓋 S 並且是互斥的。

					 					(30)

此外,測試結果為完好的晶片中,完好晶片的機率為

						  				(31)

並且由 (8)

	P(TC|B) = 1 - P(T|B) = .05					(32)

這意味著 B 的知識不會告訴我們 A 發生的頻率。正如我們在 (5) 和 (6) 中提到的,A 和 AC 覆蓋 S 並且是互斥的。

					 					(33)

因此,幾乎所有測試結果為完好的晶片都是完好的,但只有 16% 測試結果為損壞的晶片確實有缺陷。該測試並沒有我們希望的那樣有辨識力。

組合和排列

N 個可區分的物件可以以 N! 種不同的方式排序(排列)。這很容易透過觀察得出,任何 N 個物件都可以放在第一個位置;其餘 n-1 個物件中的任何一個都可以放在第二個位置;依此類推,直到只有一個物件可以放在最後一個位置。

更一般地,可以從 N 個物件的集合中選擇 r 個物件的集合,有 N(N—1) (N—2) ... (N—r+1) = N! / (N—r)! 種不同的方式。這是不放回抽樣。如果 r =N,則有 N! 個集合,每個集合僅僅是 N 個物件的排序。

一旦選擇,集合中的 r 個物件可以在不改變集合組成的情況下以 r! 種不同的方式排序。每個排序對應於 N! / (N—r)! 抽樣中的另一個抽樣。因此,如果只考慮所選物件而不考慮它們的順序,則有


種不同的方式從 N 個物件的集合中選擇 r 個物件。這稱為從 N 個物件中取 r 個物件的組合,並使用特殊的符號表示


注意,對於 r = N,


以及對於 r = 1,


組合也可以被認為是將物件劃分為分別包含 r 個物件和 (N—r) 個物件的組的方式的數量。這自然地導致了 N 個物件可以被劃分為 k 個組,第 i 個組包含 ni 個物件,i = 1,2,…k 且 N = Σni 的擴充套件


種不同的方式。

2.0 隨機變數

[編輯 | 編輯原始碼]

隨機變數是一個變數,其值取決於實驗的結果。因此,隨機變數實際上是一個函式,它將數值分配給樣本空間 S 中的每個事件。在實踐中,隨機變數分配給事件的值被選擇為具有某種物理意義。例如,如果我們對拋硬幣實驗下注,正面贏 1.00 美元,反面輸 0.50 美元,則隨機變數 X 可以分配以下值

			 							(34)

其中 ω 是實驗的結果。

通常,我們感興趣的是隨機變數取特定值的機率。

	P(X = x)								(35)

這是樣本空間的成員 ω(其中 X(ω) = x)出現的相對頻率之和。也就是說

	P(X = x) = relative frequency for which X(ω) = x.			(36)

如果硬幣是公平的(即正面和反面出現的可能性相同)在 (34) 中,則

	P(X = 1) = 1/2
	P(X = -.5) = 1/2							(37)

機率的另一種有用表示是“機率分佈函式”,

			 							(38)

這也稱為“累積分佈函式”。它在 (34) 中顯示如下

注意,由於 S 中的每個點都由隨機變數對映到實數線上

	P ( X ≤ -∞ ) = 0
	P ( X ≤ ∞ ) = 1
	P ( X ≤ x ) ≥ 0, for all x on the real line				(39)

此外,對於實數線上的兩個點 a 和 b

	P ( X ≤ b) – P (X ≤ a ) = P ( a < X ≤ b ), for a < b			(40)

	P ( X ≤ b) ≥ P (X ≤ a ), for a ≤ b					(41)

用於描述拋硬幣實驗的隨機變數只能取有限數量的值(在這種情況下為 2:+1 和 -0.5)。這稱為離散隨機變數。用於描述其他實驗(例如,兩件事發生之間的時間)的隨機變數可能更適當地具有連續的值範圍。這種“連續隨機變數”具有連續分佈函式,我們用以下表示

	F ( x ) = P ( X ≤ x )							(42)


與離散情況一樣,F(x) 是一個非遞減函式,並且

	0 ≤ F(x) ≤ 1	, for all x.						(43)

這種隨機變數的一個常見例子是指數分佈的隨機變數

			 							(44)

其中 λ < 0。這在下圖中顯示

出於計算目的,另一個函式“機率密度函式”通常比分佈函式更方便。假設導數存在,則將其定義為分佈函式的導數。

										(45)

由於 F(x) 是非遞減的,因此 f(x) ≥ 0。此外,由 (45)

		 								(46)

	1 = F(∞) =								(47)

	P ( a ≤ x ≤ b ) = F ( b ) – F ( a ) = 
										(48)


因此,f ( x ) 是一個函式,當在其區間上積分時,給出隨機變數 X 落在該區間內的機率。

注意,由 (47) 定義的 f ( x ) 曲線下的面積為 1。因此,令 Δx 為一個小區間

		f ( x ) Δx

是一個高為 f ( x )、寬為 Δx 的矩形。然後 f ( x ) Δx 近似於 f ( x ) 曲線在 x 到 x + Δx 範圍內曲線下的面積。

當 Δx 變為零時(用 dx 表示:lim Δx  0 Δx = dx),該近似值變得精確。因此,通常將 f ( x ) dx 視為 X“等於”x 的機率是有用的。

		f(x)dx = P(X ‘=’ x)						(49)

嚴格來說,它是 X 落在點 x 周圍的一個非常小的區間內的機率。

在對計算機系統進行建模時,我們通常對系統中的作業數量、等待時間和服務需求等事物感興趣,這些事物只能取非負值。用於描述這些量的隨機變數只能取非負值

	F(x) = P(X ≤ x) = 0, for x < 0						(50)

這通常使處理它們的數學運算稍微簡單一些。在下文中,我們將假設隨機變數是非負的,但這可以很容易地擴充套件到更一般的情況。

指數分佈的隨機變數 (44) 是一個非負隨機變數。對於 x ≥ 0,它的導數在任何地方都定義為

	= λe-λx									(51)

期望值

儘管機率分佈函式描述了大量實驗的綜合行為,但它通常過於複雜,無法用於比較替代實驗的結果。我們需要一個單一的數字,“品質因數”,來表示實驗的結果。這由隨機變數的“期望值”、“平均值”或“均值”(這三個術語是同義詞)提供。如果 X 是一個隨機變數,則符號 E(X) 和

都用於表示其期望值。它被定義為隨機變數的值與其實驗給出此結果的頻率的乘積之和。對於離散情況,這是

		 								(52)

在連續情況下

			 							(53)	

在隨機變數取整數值的重要情況下,(52) 變為

					 					(54)

注意,這可以改寫為

								 		(55)

每列中各項的總和為 kP(N = k),其中 k = 1, 2, … 是列。但(55)的第一行只是 N > 0 的機率,第二行是 N > 1 的機率,依此類推。因此,我們也可以寫成

					 					(56)

根據分佈函式 (38),我們有

	P ( N > k ) = 1 – P ( N ≤ k )						(57)

給出

				 						(58)

由於分佈函式 P ( N ≤ k ) 通常比密度 P ( N = k ) 更容易測量或估計,因此 (58) 提供了一種計算隨機變數平均值的便捷方法。

類似的結果在連續情況下也成立

			 							(59)

這很容易透過分部積分 (59) 來證明

								 		(60)

回想一下 F ( ∞ ) = 1 並且

					 					(61)

這簡化為

					 					(62)

由於每個隨機變數都與一個數字相關聯,因此可以對其進行數值運算(加、乘等),並且可以像普通數字一樣在其上定義任意函式。令 g(X) 是定義在隨機變數 X 上的函式。期望值的定義 (52, 53) 可以擴充套件到給出 g(X) 的期望值:E(g(X))

	E(g(X)) =  								(63)

如果 X 是離散的,或者

	E(g(X)) =  								(64)

在連續情況下。

兩個隨機變數 X 和 Y 的和的期望值為

	E ( X + Y ) = 								(65)			 	

使用 (16),我們注意到

	P ( X=x, Y=y ) = P ( X=x / Y=y ) P ( Y=y )				(66)

以及

	P (X=x, Y=y ) = P ( Y=y, X=x ) = P (Y=y / X=x ) P ( X=x )		(67)

因此

	E ( X + Y ) = 								(68)

現在

				 						(69a)

				 						(69b)

因此

	E ( X+Y ) = E ( X ) + E ( Y )						(70)

此外,如果 X 和 Y 是獨立的

	E( X,Y ) =  								(71)

因為 X 和 Y 是獨立的。因此

	E ( X,Y ) = 	=  E ( X ) E ( Y )					(72)

結果 (70 和 72) 也適用於 X 和 Y 是連續隨機變數的情況。

回想一下 (21),

	P (X=xi) = 								(73)

根據定義 (52)

	E(X) = 									(74)

因此

	E (X) = 								(75)

根據 (52) 的類比,(75) 中的第二個和被定義為給定 Y=yj 時 X 的條件期望值。這通常寫成 E(X/Y)

	E(X/Y) = E(X/ Y=yj) =  							(76)

因此 (75) 為

	E(X) =									(77)

但這只是 E(X/Y) 的期望值。

因此

	E(X) = E( E(X/Y) )							(78)

同樣,如果 X 是連續隨機變數,這也適用。

方差

如前所述,密度函式下的面積為 1。如果將此“面積”剪下並放在一個支點上,則期望值是它將平衡的點。

由於與力學的關係,期望值通常稱為隨機變數的**一階矩**。

另一個用於描述隨機變數的有用品質因數是其“二階矩”,定義為

	E (X2) =  							(79)

對於離散情況,以及

	E (X2) =  							(80)

對於連續情況。請注意,它是隨機變數平方的期望值。

我們通常不直接使用二階矩,而是更感興趣的是找到“關於均值的二階矩”或“二階中心矩”。對於離散情況,這是

								 		(81)

回想一下,第一個和是二階矩 (79),第二個是均值 (52),第三個根據定義 (3) 必須為 1,這變成了

				 						(82)

類似地,對於連續情況

										(83)

二階中心矩提供了隨機變數的值圍繞均值聚集的緊密程度的度量。例如,如果隨機變數只能取一個值 α,則

	P(X=x) =	1 for x= α						(84)
			0 for x≠ α

				 						(85)

				 						(86)

由此可見,根據 (82),

				 						(87)

對於前面提到的指數分佈隨機變數 (44, 51)

								 		(88)

					 					(89)

因此

						 				(90)

二階中心矩實際上說明了隨機變數中存在多少變化。恰如其分地,它通常被稱為隨機變數的“方差”,Var(X),並用符號 σ2 表示

				 						(91)

請注意,由於 σ2 是隨機變數平方的期望值,因此它始終為正。

此外,隨機變數的標準差,用符號 σ 表示,定義為方差的平方根

						 				(92)

請注意,這與隨機變數和均值具有相同的度量單位。

儘管方差和標準差提供了對隨機變數值中預期變化量的度量,但如果隨機變數具有較大的均值,則給定數量的變化通常不如它較小時重要。“變異係數”C 提供了一種表達變化量與隨機變數均值的關係的方法。它被定義為

			 							(93)

請注意,對於確定性隨機變數 (84, 87),σ = σ2 = 0,因此

	C = 0									(94)

對於指數隨機變數 (44, 90)

		 								(95)

因此,在 (93) 中使用 (88) 和 (89)

		 								(96)

三階中心矩

三階中心矩 M3 定義為



分別用於離散和連續情況。這提供了分佈對稱性的度量。

對於 M3 = 0,分佈是對稱的。對於 M3 > 0,它是正偏的,對於 M3 < 0,它是負偏的。如下所示。

四階中心矩

四階中心矩 M4 定義為



分別用於離散和連續情況,測量分佈的平坦度或峰值。它是比方差更靈敏的分佈擴充套件度量。

下圖顯示了具有相同方差 σ2 = 1 和 M4 > 3、M4 = 3 和 M4 < 3 的分佈。對於 M4 > 3,分佈是“高而瘦的”;對於 M4 < 3,它是“平的”,對於 M4 = 3,它是“中等”。

參考文獻

  • 1. Kleinrock,Leonard,排隊系統卷 1:理論。John Wiley,紐約,1975 年。
華夏公益教科書