跳至內容

編碼與資訊理論

25% developed
來自華夏公益教科書,開放的書籍,為開放的世界

編碼理論枯燥嗎?

[編輯 | 編輯原始碼]

這取決於你從哪個角度來看。宇宙中的一切都是對其他事物的編碼。你可以將顏色、光、聲音、音樂、玩具熊、你的朋友以及許多其他事物視為對能量的編碼。

什麼是編碼理論?

[編輯 | 編輯原始碼]

關鍵思想是“最高效”;這在生活中經常出現。例如,“去上班的最佳方式是什麼?”或“最便宜的午餐是什麼?”這些實際上是在問,根據某些測量方式,從一個點到另一個點的最有效路徑是什麼。

在本文中,應該記住術語“資訊”是用抽象的方式使用的。它可以表示普通意義上的資訊;但它也可以表示模式、能量、聲音或許多其他事物。

因此,編碼理論是對如何以最有效的方式對資訊(或行為、思想等)進行編碼的研究。它還涉及在環境中消除噪聲的方法,以便能夠清晰地接收原始訊息。但這也要以最有效的方式完成。

宇宙中的資訊流

[編輯 | 編輯原始碼]

能量不斷地從一種形式轉化為另一種形式。熱能轉化為光能,光能轉化為熱能,勢能轉化為動能等等。可以將整個宇宙視為一臺計算機,物質視為資料。那麼,你就擁有一個持續的資料轉換器。如果這看起來過於限制,並引發了關於自由意志等問題,那麼你只需以這種方式看待無生命的宇宙。

編碼理論在音樂、天文學、政治中的應用

[編輯 | 編輯原始碼]

海因裡希·申克爾是最著名的音樂理論家之一。他並不為大眾所熟知,因為你幾乎必須是音樂專業的研究生才能理解他的理論。希望那些研究過他的理論的人不會像貝多芬一樣對本節中的過度簡化感到憤怒。但希望更多的人能從這個角度理解他的理論。

他的主要思想在一生中逐漸形成了現在的樣子。在他去世時,他的思想仍在發展中,他最終會走到哪裡還有待商榷。合理的猜測是他會得出結論:所有音樂都存在於它被寫出來之前。就像石頭掉入水中會產生向外輻射的波浪一樣,音樂也具有不可改變的自然形式,無法改變;它源於聲音的初始擾動,就像池塘中的波浪一樣。因此,音樂只是在遞迴地演奏,作曲家的工作是找到“即興演奏的軌跡”,將初始擾動演奏出來。

他的核心概念是“自然的和絃”;他認為所有的音樂都起源於這個和絃,並最終迴歸到這個和絃,就像傅立葉級數干涉圖樣的反饋版本,從敲擊中國鑼產生的聲音中出現,然後又迴歸到中國鑼一樣。這個和絃本身是基於物理學的,科學家們都很熟悉它。但在這裡,我們看到了編碼理論的一個例子。也就是說,如果音樂已經存在,只是在回到平衡狀態,那麼它實際上是在尋找到達那個和絃的最有效路徑。它不應該浪費任何能量,可以這麼說,這就是賦予它美感和自然藝術性的原因,就像雨或雪具有自然藝術性一樣。因此,最深刻的音樂是對聲音資訊的編碼,它與夏農熵相匹配。(從某種意義上說,這裡存在機率,因為可以將聲音視為布朗運動,將波浪視為布朗運動的全域性效應)。

注意,音樂中沒有錯誤校正。如果你錯過了,你就錯過了。有趣的是,如果看到申克爾會對在許多其他無線電廣播、喇叭鳴叫和噪音的環境中進行通訊會說些什麼。也許他會想出一種“噪音中的音樂”理論,就像夏農為其他型別的資訊做的那樣。

天文學

[編輯 | 編輯原始碼]

一位作者提出了這樣一個問題:“為什麼哥白尼看起來比他之前的理論家更正確?”本輪模型和哥白尼的太陽系模型都可以用來預測行星的位置。他得出結論:人類認為哥白尼更正確,因為他的想法更簡單——關鍵是簡單。因此,可以說他找到了對太陽系資訊的更有效編碼,而人類在不知情的情況下就熱衷於編碼理論!

是什麼讓以下政治宣告如此有力量(或者至少很有名)?

      Ich...bin...ein...Berliner! (cheers)
      Ask not what your country can do for you, but what you can do for your country

可以說,賦予這些宣告力量的是表達的效率;它們是對許多感受、態度和認知的插值;它們是對情感和心理資訊的有效編碼。

一個現代案例:手機技術

[編輯 | 編輯原始碼]

在撰寫本文時,手機十分重要。但手機簡訊收費。那麼如何最小化成本呢?在一些第三世界國家,人們正在開發複雜的語言用於資料傳輸,幫助他們節省開支。例如,可以將“7點鐘和你通話”的資訊編碼為“tk 2 u @ 7”。這種方法在 克勞德·夏農 描述的“無噪聲通訊”情況下是有效的。也就是說,只要訊息正確接收,就不會造成損害。但夏農也指出,由於存在噪聲,一定程度的冗餘可能是重要的。他注意到,英語似乎包含大約50%無意義的語法、字母、措辭等等。他認為,這是思維自然功能的結果,即有意新增多餘資訊以進行錯誤校正,由聽眾或讀者來完成。

動物也以各種方式有效地編碼資訊。鳴叫、叫聲、咆哮、鳴叫、喵叫、汪叫,甚至大象用腳在地上跺來與遠處的大象交流;這些都是嘗試儘可能高效地編碼資訊的例子。

此時,一個關於手機技術的有趣問題變得明顯:是否存在一種最優的手機通訊編碼方法?為了有效地回答這個問題,需要對所有傳送的訊息進行平均(例如在一個區域內),然後將結果轉換為二進位制,然後構建一個 隨機過程(本質上是一臺以各種模式出現的機率來發送平均訊息的計算機),它與這些訊息基本等效。此時可以計算熵並開發匹配的程式碼。但揮之不去的問題是:給定一個通訊模式(一個隨機過程),如何生成一個高效的編碼方案?概括地說,人們正在尋找一個 黑盒子,它接收一個隨機過程併產生一個程式碼。

                         average message  --->  black box --->  best encoding scheme

強大的解決方案:神經網路

[edit | edit source]

可以設計一個 神經網路,它本質上可以自行編寫程式。可以對大量隨機選擇的隨機過程進行訓練,同時為生成更高效的程式碼提供更高的獎勵,而為生成效率較低的程式碼提供更低的獎勵。在許多情況下,幾乎可以肯定地近似估計熵。

神經網路是對資料的插值。隨著它們學習模式,它們可以被更精細地調整等等。然而,這不是可能在高中被教導為 拉格朗日插值的那種有趣的插值;儘管這是一個有趣的遊戲,這種方法通常涉及單個變數和幾個資料點。另一方面,神經網路可能非常密集,從某種意義上說,變數的數量可能非常大,資料點的數量可能達到數百萬。因此,沒有辦法使用普通方法對這種資料進行插值。

微分幾何 的支持者提出,應該仔細研究神經網路,以產生一個可靠的數學理論,用於在所有情況下準確地預測它們的行為。但這項任務非常複雜,目前幾乎沒有希望實現目標。因此,一般的研究仍然更像是一門實驗科學。然而,在實踐中,網路已在許多情況下得到非常有效的應用,並且非常引人注目。

聲音之河

[edit | edit source]

當作曲家創作一首歌曲時,他或她可能首先得到旋律,然後可能想為它新增“和絃”。也就是說,他或她正在給旋律配和聲。有時,這個人會在每個點都為旋律新增一個美妙的和絃,但和絃在長遠來看並不匹配。區域性,音樂聽起來很好,但整體聽起來相當可怕。然而,當他們改變其中一個和絃以使其在整體上聽起來不錯時,它會影響到其他地方意外和絃的質量。所以你最終得到一個幾乎不可能解開的結。

專業術語是合唱的和聲化。這是大學音樂訓練的標準部分。可以看出,要精通它可能需要大量的練習和訓練。(在上一段中,幾個旋律的概念被簡化為“和絃”的概念,以使其更容易閱讀)。計算機可以用來解決這類問題嗎?

可以,但不是普通的計算機。在過去十年中,神經網路被大量用於和聲化合唱。它們非常成功,人們正在投入大量時間和精力進行研究。

所以你可以看到,全域性和聲是聲音資訊的插值,以最大限度地提高音樂的整體美感。這是一個效率問題。逐步從一點移動到另一點,每一步都瞬間最佳化。這正是河流流動的方式,在每一步都瞬間最大限度地提高效率。(讀者可能還記得從微積分中使用“瞬間”一詞)。

計算機程式作為編碼

[edit | edit source]

如果你要告訴計程車司機去哪裡,你會花十分鐘來做嗎?為什麼不直接給他地址就走?如果你要告訴修理工你的車出了什麼問題,為什麼花幾天時間解釋呢?為什麼不解釋成一句話呢?

同樣,告訴計算機做什麼的程式可以非常冗長,也可以非常精確。這可能決定一個大型程式設計專案是否可以解決,它也可能決定一個價值數百萬美元的合同續約是否能夠達成。這個過程本質上概括為 數值分析

任務是找到最有效的程式(在時間和/或儲存方面);人們為此奉獻了他們一生的職業。有許多專業期刊專門討論這個問題。但這表明,除了程式設計師的努力之外,自然界中還存在著預先存在的最佳程式。也就是說,程式有一個熵,就像彗星或自然界中發生的其它實體的行為有一個可預測的模式一樣。

因此,我們很難將“要解決的問題”的概念與“問題的解決方案”的概念分開。同樣,它們似乎作為自然界中的對偶物件出現,就像 冥王星卡戎 的行為完全相互依賴一樣。因此,人們開發了一個不同的複雜性概念,這就是 柯爾莫哥洛夫 的複雜性。它指出,資訊(或光或聲音)與生成它的最有效程式(或句子)相同。但我們必須找到最有效的程式;因此,神經網路可以再次用作嘗試解決問題的工具。有趣的是,一種以人腦為模型的技術(自然界中存在的計算機)應該被用來找到解決自然界中發生的問題的方案。

對柯爾莫哥洛夫複雜性的一種有趣的概括是對無窮多個(或者可能是有限多個)並行處理器的柯爾莫哥洛夫複雜性。也就是說,生成一個模式的最有效句子是什麼,而這個模式是透過多個處理器同時工作產生的?可以看出,答案將取決於允許的處理器總數。

測地線和星系

[edit | edit source]

什麼是 測地線?它只是從點 A 到點 B 的最短距離。但那不就是一條直線嗎?如果你在平面上工作,那就是。但平面只是無窮多個曲面的 極限。那麼,那些曲面上的最短距離是什麼?這正是問題所在,而且可能非常有趣。

當然,現在可以看出這與生活有什麼關係。在日常生活中,有許多變數和資料波動一直髮生,從一種情況到另一種情況的最有效路徑可以被認為是測地線。所有可能情況的集合可以被認為是一個曲面。因此,最佳行動計劃將是資訊的最佳編碼。編碼越差,行動效果越差。編碼越好,行動效果越好。請記住,變數越現實,編碼就越有價值。

例如,如果一個年輕男子想要遇見某個女人,他不希望花 30 個生命來完成它。因此,他的行動計劃可以被認為是在所有生活情景的表面上的測地線,他編碼的資訊越好,他的行動就越有價值。

另一個例子是一隻老鼠學習解決迷宮。它必須反覆地重新編碼它頭腦中的資訊,以便改進它的行動。因此,它正在計算迷宮資訊 流形 的測地線。

無生命宇宙中的所有事物都遵循測地線。這就是星系旋轉的方式,也是賦予它們力量和美麗的原因。

華夏公益教科書