跳轉到內容

ETD 指南/學生/準備轉換為 SGML\XML

來自華夏公益教科書

章節 SGML/XML 概述 定義了 SGML 和 XML。

文件型別定義 (DTD) 的概念

[編輯 | 編輯原始碼]

文件型別定義 (DTD),在 XML 的意義上,定義了用於生成結構類似文件的規則或模板。DTD 描述了一類文件的內容模型。它由以下部分組成:

  • **元素宣告**,它是 DTD 的主要部分,也是結構定義。元素可以包含其他元素、字元或空。元素宣告定義元素的名稱和元素的邏輯內容(子元素)。(參見 [10]。)元素宣告的重要組成部分是內容模型。在這裡,文件架構師指示其他元素或字元資料的順序和出現次數。
  • **符號宣告**,定義了外部格式的符號,例如,用於圖形(gif、jpeg)、數學(TeX、LaTeX)、3D 物件 (VRML) 和其他無法直接在 XML 中編碼的格式。
  • **實體宣告**,定義了字元集和字元的替換物件。從單個字元到更高數量的字元都可以用單個實體來定義。實體主要有兩種型別:通用實體和引數實體。引數實體只允許在宣告中使用,通常用於提高 DTD 的可讀性或控制處理。通用實體在文件例項中使用;文件基於 DTD 建立。
  • **屬性列表宣告**,列出元素型別宣告中定義的不同元素型別的屬性及其值。

為了定義 DTD,需要一種特殊的語法,它不符合通常的 XML 語法,其中文件包含用“標籤”括起來的元素:開始標籤(例如 <author>)和結束標籤(例如 </author>),生成類似這樣的程式碼:<author> Joe Miller </author>

全球範圍內使用電子學位論文的 DTD

[編輯 | 編輯原始碼]

目前可用的 XML 作者系統還沒有得到廣泛認可,導致不同的大學對 XML 文件採取了不同的策略。大多數這些專案開始於 1995 年至 1997 年之間,當時 XML 正在興起,但還沒有可用的工具或標準化 DTD。從今天的角度來看,這些專案的現狀表明,為了實現標準化,需要重新思考和重新設計這些方法。

所有展示的 DTD 都基於類似的原則。一篇傳統的學位論文(可以看作是專著)包含 3 個主要組成部分:一個可擴充套件的**標題頁**,包含摘要、宣告等;**學位論文主體**,包含文字、圖片、音訊、影片、表格等;以及**附錄**,包含資料表、參考書目、致謝和其他內容。

以下 DTD 目前在不同的機構使用:

  • ETD-ML.DTD:弗吉尼亞理工大學和州立大學(弗吉尼亞理工大學)
  • DiML.DTD:德國線上學位論文專案
  • TDM.DTD:愛荷華大學
  • HutPubl.DTD:赫爾辛基理工大學
  • TEI-Light.DTD:安阿伯和里昂
  • ISOBook.DTD:奧斯陸大學
  • 基於 TEI 的 DTD,擴充套件了自然科學內容:瑞典農業科學大學烏普薩拉

所有這些文件型別定義都是所謂的作者 DTD。這意味著它們主要用於支援創作和轉換過程,而不是主要解決文件歸檔和儲存問題。人們可能會問,為什麼所有這些不同的 DTD 都得以保留。這主要是因為提到的大學的科學方向差異很大。里昂、奧斯陸和密歇根使用 TEI-Light.dtd,主要服務於藝術和人文領域的學習者。在支援強大的自然科學社群的大學,例如柏林、赫爾辛基或烏普薩拉,人們認識到使用 TEI.DTD 或 DocBook.DTD 的問題。通常,學位論文是一項積累性工作,例如在里昂或赫爾辛基。

準備轉換

[編輯 | 編輯原始碼]

從文字處理形式轉換為 SGML 或 XML 需要提前進行更多規劃,使用不同的工具,並更廣泛地學習有關文件處理的概念,而使用 PDF 則不需要。此外,最終結果是更容易儲存、更可重用,並支援更強大、更有效的搜尋和瀏覽方案的表示形式。但是,所有這些優勢都必須權衡以下事實:瞭解這些問題的人更少,通常幫助使用的工具更昂貴、更不成熟,而且過程可能很複雜、困難且耗時。在 2000 年,有數萬份 ETD 是透過掃描建立的(主要是由 UMI 建立,但也包括 MIT 和希臘國家文件中心等機構),數千份從文字處理器轉換為 PDF,數百份是 SGML 或 XML,這表明學生準備 ETD 所需的相對工作量。每種形式。

簡單的文字處理強調佈局或所見即所得 (WYSIWYG) 編輯。強調文件的外觀與關注邏輯結構截然不同,而標記方案最適合用於邏輯結構。從文字處理表示形式轉向 XML 需要不同的思維方式,不同的方法。這個問題比從文字處理器匯出生成 HTML 更加困難,因為不僅需要文件看起來像原始文件,而且還需要標記版本本身被正確地標記。

一些文字處理器已經擴充套件,以方便這種方法。微軟為 Word 95 推出了 SGML Author for Word 作為附加軟體包,新版本的 WordPerfect 可以根據標記方案匯出內容。最終,大多數流行的文字處理器可能會匯出到 XML。顯然,生成的標記可以圍繞文件節、標題、段落、列表、圖形、表格、引用、腳註、超連結和其他明顯的結構。此外,具有相同樣式的區域也可以被標記。因此,要從文字處理輕鬆轉換為標記方案,需要選擇目標 DTD,然後一致地使用文件物件和樣式,以便它們與標籤之間存在清晰的對映關係。

從 LaTeX 轉換稍微簡單一些,因為 TeX 方法涉及使用可以對映到 XML 中標籤的格式化命令。但是,LaTeX 不需要嚴格巢狀命令,因此可能不清楚在何處放置結束標籤。此外,LaTeX 使用者可能不會始終使用相同的序列來指定結構更改,這使得轉換更加複雜。最後,LaTeX 對數學表示式的編碼很難轉換為數學標記方案,例如 MathML。

由於從文字處理方案轉換為標記表示形式固有的複雜性,因此有必要包含步驟來檢查和校正轉換後的形式。解析器可以確保句法正確性,因此檢測問題通常很簡單。但是,為了確保語義正確性,可能需要手動檢查。另一個測試將涉及呈現標記的文件,例如列印或 PDF 格式,並確保結果與原始文字處理版本產生的輸出相匹配。無論如何,人工很可能需要用來校正轉換錯誤,並假設學生足夠了解流程和預期輸出,才能熟練地完成這項工作。


參考書目

[1] http://lcweb.loc.gov/cds/lcsh.html#lcsh20

[2] http://www.bibliothek.uni-regensburg.de/rvko/rvko.php3

[3] http://purl.org/DC/

[4] http://www.w3.org/rdf

[5] Edward Fox:網路化數字學位論文圖書館,網路大事記,1999 年 8 月 12 日,http://helix.nature.com/webmatters/library/library.html

[6] NDLTD 標準委員會網站:http://www.ndltd.org/standards/

[7] http://dochost.rz.hu-berlin.de/epdiss/dtd-workshop/index.html

[8] Tad Lane,可縮放向量圖形 - 使用原始質量藝術品進行網路圖形,載於:BITS,1999 年 11 月,http://lanl.gov/orgs/cic/cic6/bits/november_99/novbits1.html

[9] Neill Kipp:超越紙質正規化:XML 和標記的案例;載於:第二部分“學位論文編寫和設計指南”,學位論文來源手冊,Weisser、Moxley 和 Fox 編輯,1999 年

[10] B. Travis,D. Waldt:SGML 實現指南,施普林格,柏林 - 海德堡 - 紐約,1995 年 [11] Ed Dumbill:XML 的現狀,2000 年 6 月 16 日,載於 XML.com,http://www.xml.com/pub/2000/06/xmleurope/keynote.html


下一節:在 MS Word 中

華夏公益教科書