ETD 指南/學生/準備轉換為 SGML\XML

章節 SGML/XML 概述定義了 SGML 和 XML。

文件型別定義 (DTD) 的概念

文件型別定義 (DTD)，在 XML 的意義上，定義了用於生成結構類似文件的規則或模板。DTD 描述了一類文件的內容模型。它由以下部分組成：

**元素宣告**，它是 DTD 的主要部分，也是結構定義。元素可以包含其他元素、字元或空。元素宣告定義元素的名稱和元素的邏輯內容（子元素）。（參見 [10]。）元素宣告的重要組成部分是內容模型。在這裡，文件架構師指示其他元素或字元資料的順序和出現次數。
**符號宣告**，定義了外部格式的符號，例如，用於圖形（gif、jpeg）、數學（TeX、LaTeX）、3D 物件 (VRML) 和其他無法直接在 XML 中編碼的格式。
**實體宣告**，定義了字元集和字元的替換物件。從單個字元到更高數量的字元都可以用單個實體來定義。實體主要有兩種型別：通用實體和引數實體。引數實體只允許在宣告中使用，通常用於提高 DTD 的可讀性或控制處理。通用實體在文件例項中使用；文件基於 DTD 建立。
**屬性列表宣告**，列出元素型別宣告中定義的不同元素型別的屬性及其值。

為了定義 DTD，需要一種特殊的語法，它不符合通常的 XML 語法，其中文件包含用“標籤”括起來的元素：開始標籤（例如 <author>）和結束標籤（例如 </author>），生成類似這樣的程式碼：<author> Joe Miller </author>

全球範圍內使用電子學位論文的 DTD

目前可用的 XML 作者系統還沒有得到廣泛認可，導致不同的大學對 XML 文件採取了不同的策略。大多數這些專案開始於 1995 年至 1997 年之間，當時 XML 正在興起，但還沒有可用的工具或標準化 DTD。從今天的角度來看，這些專案的現狀表明，為了實現標準化，需要重新思考和重新設計這些方法。

所有展示的 DTD 都基於類似的原則。一篇傳統的學位論文（可以看作是專著）包含 3 個主要組成部分：一個可擴充套件的**標題頁**，包含摘要、宣告等；**學位論文主體**，包含文字、圖片、音訊、影片、表格等；以及**附錄**，包含資料表、參考書目、致謝和其他內容。

以下 DTD 目前在不同的機構使用：

ETD-ML.DTD：弗吉尼亞理工大學和州立大學（弗吉尼亞理工大學）
DiML.DTD：德國線上學位論文專案
TDM.DTD：愛荷華大學
HutPubl.DTD：赫爾辛基理工大學
TEI-Light.DTD：安阿伯和里昂
ISOBook.DTD：奧斯陸大學
基於 TEI 的 DTD，擴充套件了自然科學內容：瑞典農業科學大學烏普薩拉

所有這些文件型別定義都是所謂的作者 DTD。這意味著它們主要用於支援創作和轉換過程，而不是主要解決文件歸檔和儲存問題。人們可能會問，為什麼所有這些不同的 DTD 都得以保留。這主要是因為提到的大學的科學方向差異很大。里昂、奧斯陸和密歇根使用 TEI-Light.dtd，主要服務於藝術和人文領域的學習者。在支援強大的自然科學社群的大學，例如柏林、赫爾辛基或烏普薩拉，人們認識到使用 TEI.DTD 或 DocBook.DTD 的問題。通常，學位論文是一項積累性工作，例如在里昂或赫爾辛基。

準備轉換

從文字處理形式轉換為 SGML 或 XML 需要提前進行更多規劃，使用不同的工具，並更廣泛地學習有關文件處理的概念，而使用 PDF 則不需要。此外，最終結果是更容易儲存、更可重用，並支援更強大、更有效的搜尋和瀏覽方案的表示形式。但是，所有這些優勢都必須權衡以下事實：瞭解這些問題的人更少，通常幫助使用的工具更昂貴、更不成熟，而且過程可能很複雜、困難且耗時。在 2000 年，有數萬份 ETD 是透過掃描建立的（主要是由 UMI 建立，但也包括 MIT 和希臘國家文件中心等機構），數千份從文字處理器轉換為 PDF，數百份是 SGML 或 XML，這表明學生準備 ETD 所需的相對工作量。每種形式。

簡單的文字處理強調佈局或所見即所得 (WYSIWYG) 編輯。強調文件的外觀與關注邏輯結構截然不同，而標記方案最適合用於邏輯結構。從文字處理表示形式轉向 XML 需要不同的思維方式，不同的方法。這個問題比從文字處理器匯出生成 HTML 更加困難，因為不僅需要文件看起來像原始文件，而且還需要標記版本本身被正確地標記。

一些文字處理器已經擴充套件，以方便這種方法。微軟為 Word 95 推出了 SGML Author for Word 作為附加軟體包，新版本的 WordPerfect 可以根據標記方案匯出內容。最終，大多數流行的文字處理器可能會匯出到 XML。顯然，生成的標記可以圍繞文件節、標題、段落、列表、圖形、表格、引用、腳註、超連結和其他明顯的結構。此外，具有相同樣式的區域也可以被標記。因此，要從文字處理輕鬆轉換為標記方案，需要選擇目標 DTD，然後一致地使用文件物件和樣式，以便它們與標籤之間存在清晰的對映關係。

從 LaTeX 轉換稍微簡單一些，因為 TeX 方法涉及使用可以對映到 XML 中標籤的格式化命令。但是，LaTeX 不需要嚴格巢狀命令，因此可能不清楚在何處放置結束標籤。此外，LaTeX 使用者可能不會始終使用相同的序列來指定結構更改，這使得轉換更加複雜。最後，LaTeX 對數學表示式的編碼很難轉換為數學標記方案，例如 MathML。

由於從文字處理方案轉換為標記表示形式固有的複雜性，因此有必要包含步驟來檢查和校正轉換後的形式。解析器可以確保句法正確性，因此檢測問題通常很簡單。但是，為了確保語義正確性，可能需要手動檢查。另一個測試將涉及呈現標記的文件，例如列印或 PDF 格式，並確保結果與原始文字處理版本產生的輸出相匹配。無論如何，人工很可能需要用來校正轉換錯誤，並假設學生足夠了解流程和預期輸出，才能熟練地完成這項工作。

參考書目

[1] http://lcweb.loc.gov/cds/lcsh.html#lcsh20

[2] http://www.bibliothek.uni-regensburg.de/rvko/rvko.php3

[3] http://purl.org/DC/

[4] http://www.w3.org/rdf

[5] Edward Fox：網路化數字學位論文圖書館，網路大事記，1999 年 8 月 12 日，http://helix.nature.com/webmatters/library/library.html

[6] NDLTD 標準委員會網站：http://www.ndltd.org/standards/

[7] http://dochost.rz.hu-berlin.de/epdiss/dtd-workshop/index.html

[8] Tad Lane，可縮放向量圖形 - 使用原始質量藝術品進行網路圖形，載於：BITS，1999 年 11 月，http://lanl.gov/orgs/cic/cic6/bits/november_99/novbits1.html

[9] Neill Kipp：超越紙質正規化：XML 和標記的案例；載於：第二部分“學位論文編寫和設計指南”，學位論文來源手冊，Weisser、Moxley 和 Fox 編輯，1999 年

[10] B. Travis，D. Waldt：SGML 實現指南，施普林格，柏林 - 海德堡 - 紐約，1995 年 [11] Ed Dumbill：XML 的現狀，2000 年 6 月 16 日，載於 XML.com，http://www.xml.com/pub/2000/06/xmleurope/keynote.html

下一節：在 MS Word 中