資料壓縮/模型
外觀
< 資料壓縮
資訊理論展示瞭如何為任何特定的符號系統構建一個完美的程式碼之後,人們發現,為新型資料設計新的編碼約定變得相對容易,數字革命隨之而來。一度人們想知道,什麼東西不能儲存在電腦裡。
正是在這段時間,科學家們開始尋找更非凡的方法來降低儲存成本。一位科學家找到了一個解決方案。他說,如果我們對資料進行建模,我們會發現資料中會產生某些模式。如果我們能夠用最短的程式碼來編碼最長和最常見的模式,並用更長的程式碼來編碼較短且不太常見的模式,我們就可以減少檔案的大小,而不會丟失任何資料。
不幸的是,他發現,最佳化一種型別資料檔案長度的模型與最佳化另一種型別資料檔案長度的模型並不相同。
另一位科學家注意到,當他檢視資料的二進位制程式碼時,有一些重複模式的字串。他說,為什麼不抽象出這些模式,只計算它們連續出現的次數,並對檔案進行編碼,以便程式碼能夠有效地處理統計上顯著的重複次數呢?例如,考慮一張紙上的一個字母。使用這種技術,所有由空白組成的空白將被簡化為一個空格,以及一個數字來表示填充該行的空格數。
在每種情況下,科學家都對他們的資料進行了建模,並利用他們在模型中識別的某些東西,顯著減少了儲存空間。模型是他們減少儲存空間而不丟失資訊的槓桿。
現在要注意的是,我曾經與一個對如何編碼資料有很棒想法的人共事。他想開發一種壓縮方案,這種方案可以重新輸入並進一步壓縮。但他選擇的技術沒有包括對編碼資料如何改變資料的模型。他今天還在尋找這種模型。
