ETD 指南/技術問題/SGML\XML 概述
SGML/XML 是一種多目標策略。“它允許圖書館員確保數字論文的永續性。現代硬體和冗餘可以使電子論文或論文 (ETD) 的所有位元保持完整。但電子檔案必須不斷現代化,因為新的文件格式變得流行。” 由於圖書館員總是傾向於以十年為單位思考,因此像 TIFF、Postscript 或 PDF 這樣的文件格式不符合他們的要求。如果 PDF 被另一個事實上的(行業,而非 ISO 類似)標準取代,儲存數字文件將意味著轉換數千個文件。XML 可以幫助克服這些困難。如果電子文件要達到“檔案質量”,它應該從頁面隱喻中解放出來。”
使用 SGML/XML 的第二個原因是它透過保留原始資料和基於內容的資訊片段結構來確保文件的可重用性。儲存數學和化學中的統計資料和公式可以使研究人員能夠重用和重複模擬、計算和實驗,直接從檔案中獲取所需資料。
第三,使用結構化資訊允許在不同的上下文中重用相同的資訊或文件,即,相同的數字論文可以用於製作線上或印刷版本,以及製作額外的資訊產品,例如包含過去一個月內大學制作的所有論文摘要的每月會議記錄,或引文索引。此外,論文可以顯示在不同的媒體上,因此盲文閱讀器或自動語音合成器可以用作後端機器。
使用標記來編碼文件的另一個原因是,可以為檔案使用者提供更廣泛、更有針對性的檢索。隨著大學圖書館越來越受到處理、轉換、歸檔和提供電子出版物的問題的挑戰,主要任務之一是在使用者介面內提供新的檢索質量。使用基於 SGML/XML 的出版概念可以在透過特定資訊和知識管理分發科學內容方面實現新的質量。
SGML/XML 意味著什麼?
可擴充套件標記語言 (XML) 是 Web 上結構化文件和資料的通用格式。當前的 W3C 建議是 XML 1.0,'98 年 2 月,名稱空間,'99 年 1 月,以及關聯樣式表,'99 年 6 月,以及 XSLT/XPath,'99 年 11 月。(http://www.w3.org/XML)XML 的開發始於 1996 年,自 1998 年 2 月起成為 W3C (http://www.w3.org/) 標準,這可能讓你懷疑這是一種相當不成熟的技術。但事實上,這項技術並不新鮮。
在 XML 之前,存在標準通用標記語言 (SGML),它是在 80 年代初期開發的,自 1986 年起成為 ISO 標準,並廣泛用於大型文件專案。當然還有 HTML,它的開發始於 1990 年。XML 的設計者只是借鑑了 SGML 的最佳部分,並以 HTML 的經驗為指導,創造出一種功能不亞於 SGML,但更規則、更容易使用的東西。而 SGML 主要用於技術文件,而 XML 則用於其他型別的資料,情況則相反。
“結構化資料”,如數學或化學公式、電子表格、地址簿、配置引數、金融交易、技術圖紙等,通常使用佈局程式的輸出(如 Postscript 或 PDF)或將它們放入圖形格式(如 gif、jpeg、png、vrml 等)放在 Web 上。產生這種資料的程式通常也會將它儲存在磁碟上,為此它們可以使用二進位制格式或文字格式。因此,如果有人想要檢視資料,他通常需要生成它的程式。有了 XML,這些資料可以儲存在文字格式中,這允許使用者在沒有原始程式的情況下閱讀檔案。XML 是一套規則、指南、約定,無論你叫它什麼,用於為這種資料設計文字格式,以一種產生易於生成和讀取(由計算機)的檔案的方式。
可擴充套件標記語言 (XML) 是一種用於文件的標記或結構化語言,一種所謂的元語言,它獨立於任何輸出媒體定義文件結構化標記的規則。XML 是結構化通用標記語言 (SGML) 的“簡化”版本,自 1986 年起成為 ISO 認證標準。在網際網路出版領域,由於標準的複雜性和工具的高成本,它從未取得廣泛成功。它只在某些領域流行,例如大型企業(波音、專利資訊)的技術文件。SGML 和 XML 的主要理念是嚴格分離文件的內容、結構和佈局。大多數 ETD 專案使用 SGML 標準(帶有 Korregendum K 的 ISO 8879,於 1997 年 12 月 4 日釋出)或全球資訊網聯盟 (W3C) XML 1.0 的定義(1998 年 2 月 10 日,修訂於 2000 年 10 月 6 日)。所有這些專案的關鍵始終是文件型別定義 (DTD)。
下一節:SGML/XML 和其他標記語言