Unicode
外觀
本書的目的是維護對 Unicode 編碼和任何與 Unicode 規範相關的內容的參考。
本書是必要的,因為儘管這裡關於 Unicode 參考的文章已從維基百科和維基文庫中刪除,但此標準被 IT 技術廣泛使用,參考非常必要。
簡介
Unicode 是一種行業標準,其目標是提供一種方法,透過該方法可以將所有形式和語言的文字編碼為單一字元集,以便計算機使用。最初,文字字元在計算機中使用位元組寬資料表示:每個可列印字元(以及許多不可列印或“控制”字元)都使用一個位元組表示,總共允許 256 個字元。然而,全球化已經造成了對計算機能夠以可互換的方式容納來自世界各地的許多不同字母表(和其他書寫系統)的需求。
使用的舊編碼包括 ASCII 或 EBCDIC,但很明顯它們無法處理來自世界各地的所有不同字元和字母。這個問題的解決方案是建立一組“寬”的 16 位字元,理論上能夠容納大多數國際語言字元。這個新的字元集最初被稱為通用字元集(UCS),後來標準化為 Unicode。然而,在 Unicode 標準的第一個版本之後,很明顯 65,535 (216) 個字元仍然不足以表示所有現有指令碼中的每個字元,因此標準進行了修訂,增加了 16 個補充平面,每個平面包含 65,536 個字元,從而將可表示碼點的總數增加到 1,114,112。到目前為止,只有不到 10% 的空間在使用。