跳轉到內容

網路編碼入門/資訊度量與常用不等式

來自華夏公益教科書,自由的教科書

本章旨在介紹夏農資訊度量 - 熵、互資訊和相對熵的概念和一些基本性質。 還會介紹涉及這些概念的不等式,以幫助增強讀者的理解,併為他們未來的學習擴充工具箱。

要理解網路編碼,需要資訊理論的背景知識。 在資訊理論的基本概念中,一個基本的概念是夏農資訊度量 - **熵**、**互資訊**和**相對熵**。 熵不考慮資訊的語義方面,[1]它度量離散隨機變數結果的不確定性。 互資訊顧名思義,是指一個 d.r.v. 包含多少關於另一個 d.r.v. 的資訊,或者一個 d.r.v. 對另一個 d.r.v. 的不確定性'消除'了多少。 然後我們來到相對熵,它可以看作互資訊的推廣。 它度量兩個 d.r.v. 機率分佈的'距離'。 在介紹完這三個基本概念後,我們將介紹進一步描述資訊度量性質的不等式。

為了描述 **不確定性**,考慮拋硬幣。 如果硬幣不公平,比如,正面有 0.8 的機率出現,而反面只有 0.2 的機率出現。 那麼你的不確定性就低了,因為你相當確定正面會朝上。 但是,如果它是一個公平的硬幣,你就會更加不確定,因為正面和反面朝上的機率是相等的。 所以,如果你要使用數學表示式來描述結果的不確定性,這個表示式應該以期望的形式,並且當所有選擇都同樣可能時,它應該達到最大值。 此外,如果我們使用骰子而不是硬幣,或者使用輪盤而不是骰子,那麼不確定性應該隨著選擇數量的增加而增加。 也就是說,描述它的表示式應該隨著選擇數量,即字母表的大小而增加。 最後,如果你同時擲兩個骰子,'3' 和 '4' 出現的機率應該與先擲一個骰子然後再擲另一個骰子的機率相同。 因此,如果順序選擇產生與單個選擇相同的結果,那麼這些選擇的表示式應該能夠結合起來,並且結合的結果應該等於單個選擇的結果。 上述三個直觀的屬性是選擇這種表示式的標準。

離散隨機變數 為具有字母表 和 PMF 的離散隨機變數。 從現在開始, 通常簡寫為 以方便起見,離散隨機變數簡寫為 d.r.v。

d.r.v. 的熵定義為

,換句話說,是 的期望值。

底數中的字母 'b' 指定了熵的單位。 如果 b = 2,則單位是 bit(二進位制單位,注意它與另一個 'bit' -- 二進位制數字的區別);b = e,它是 nat(自然單位)。 除非另有說明,否則我們使用 bit。 夏農[1] 為我們上一節描述的三個標準專門定製了這種負對數期望的形式。

聯合熵 我們定義了單個 d.r.v. 的熵,兩個 d.r.v. 的定義是直接的

.

條件熵 在另一個 d.r.v. 條件下 d.r.v. 的熵定義為

.

現在我們可以用條件熵來表達第三個標準

。同時擲兩個骰子或一個接一個地擲應該具有相同的隨機性。這可以擴充套件到兩個以上的離散隨機變數。

。這被稱為 **熵的鏈式法則**。

凸函式

熵的性質

[edit | edit source]

非負性

不等式

[edit | edit source]

詹森不等式

參考文獻

[edit | edit source]
  1. a b C. E. Shannon, “A Mathematical Theory of Communication”, The Bell System Technical Journal, vol. 27, no. July, October, pp. 379–423, 623–656, 1948.
華夏公益教科書