選擇正確的檔案格式/是否有問題
如果你曾經使用過WordPerfect或WordStar,並且後來切換到其他編輯器,你可能已經熟悉了從某些型別的檔案中檢索自身資訊的問題。也許你從一個作業系統切換到另一個作業系統,從Amiga切換到Windows,或者從Windows切換到Macintosh。簡單地說,不同軟體的檔案格式經常會使你的資訊以你多年後無法破譯的方式被混淆。
如果你覺得這有點理論化,這裡有一些故事來說明選擇合適的資訊格式的重要性。
英國遊客
一名遊客走進法國鄉村一個美麗村莊裡的一家非常棒的餐廳,用英語喃喃地說:“你們還在供應午餐嗎?”沒有人反應,於是他更大聲地說:“你們有桌子可以讓我吃飯嗎?”有人認出了幾個單詞,意識到遊客可能只會說英語,或者對嘗試他的法語沒有興趣,其中一名員工去尋找可能能夠幫助這位無知的遊客的人。
經過長時間的等待,終於有人來了,翻譯了他的請求,併為他找到了一個座位。遊客拿到了選單。“我看不懂!這是法語!什麼叫Cervelles?”那位熱心的翻譯又被叫了回來,遊客聽他解釋了整個選單,終於可以點餐了。此時,我們可憐的遊客已經很餓,也很沮喪,就像每個人在飢餓和沮喪的時候一樣,他忘記了禮貌,脫口而出:“順便說一下,我要用英語點餐,這樣我才能確定我點的是什麼——為了點餐的這份榮幸,我要求你向英國女王支付一小筆費用,以使用這種語言,你應該真正地像其他人一樣學習使用它!”
在最後一句話被翻譯回之前友好的店主後,廚房關門了,遊客被趕走了。
就檔案格式而言,這位遊客出錯的地方在於,雖然他對自己的使用格式很滿意(不像下一個故事中的羅馬官員),但他忘記了不同的人做事情的方式不同。在不同的情況下,他偏愛的格式(英語)不受支援。如果你的最喜歡的軟體公司破產或停止支援你購買的軟體,就會出現這種情況。曾經如此方便的檔案隨著時間的推移可能會變得毫無用處。
羅馬官員
古羅馬的一名官員,名叫蓋魯斯,僱用了一名名叫塔魯納的抄寫員,塔魯納懂拉丁語,但只能用一種罕見的(未記錄的)梵文方言書寫。在塔魯納工作了幾年後,蓋魯斯發現他實際上太慢了,而且一直丟失重要的檔案。塔魯納被趕到街上,回到他的家人身邊,蒙受恥辱。
第二天,這位官員僱用了一位備受讚譽的新助手,並派他到檔案室。幾分鐘後,助手哭著出來了,解釋說他只懂幾個梵語單詞,找不到任何關於使用方言的參考資料,而且永遠無法理解這些檔案。
他們瘋狂地尋找塔魯納。當他們找到他時,他們要求他回來工作,但他明白了他們的問題。於是他笑著說:“我很樂意回來工作,你只需要把我的工資和假期加倍!”
用現代的術語來說,羅馬官員出錯的地方是使用了一種未公開的格式(一種未記錄的梵文方言)來儲存他的資訊。他因此被這種格式所束縛,被迫不斷購買軟體(抄寫員的服務),而且價格越來越高。他已經失去了對自身資訊的控制!
在2003年為英國國家檔案館撰寫的一份報告中,Adrian Brown總結了如何進行。
為建立電子記錄選擇的檔案格式應該……不僅要由當前的明顯需求決定,還要由長期的考慮因素決定。電子記錄只有在其整個生命週期內都是可持續的,才能充分滿足其目的。……因此,非常希望確定滿足活動業務需求和以下可持續性標準的最小格式集,並將資料建立限制在這些格式範圍內。 [1] (PDF)
對這一挑戰,古騰堡計劃採取的方法是嚴格的標準,即他們數字資料庫中儲存的15,000多本書籍都儲存在純ASCII文字中。
古騰堡計劃儘可能地分發電子書的純文字版本。其他格式,如HTML、XML、RTF等也受歡迎,但純文字是“最低公分母”。我們強調包含純文字,因為它的永續性:古騰堡計劃包括許多20-30年前的文字檔案。在那段時間裡,數十種廣泛使用的檔案格式來來往往。文字可以在所有計算機上訪問,也是防止未來過時的保險。 [2]
這意味著如果我們想要長期訪問文件中的資訊,就不能使用文字處理器嗎?好吧,既是也不是。如果你像古騰堡計劃那樣想要長期檔案可讀性(拉丁文字語言),那麼ASCII文字是最好的選擇。這可能是財務記錄和其他重要資訊需要考慮的事情。如果你像許多人一樣,擁有非文字資訊,比如影像和聲音,那麼這篇文章就是你需要閱讀的。無論哪種方式,你都可以避免很多常見的錯誤,這至少會讓將來的遷移到下一代檔案格式變得更容易。
現在讓我們來看一個現實世界的場景。許多人使用Microsoft Windows作業系統和Microsoft Office套件,其中包括文件應用程式Microsoft Word(或簡稱MSWord)。MSWord的預設檔案格式是DOC。那麼DOC對於長期儲存怎麼樣?
MS Word是一個專有程式,.doc副檔名是一種專有格式。這意味著軟體的工作方式和儲存資訊的機制是保密的——只有微軟知道它的所有工作原理。