開放元資料手冊/建議
本節的目的是幫助 GLAM 機構決定為其作品描述使用哪種最佳標準。元資料格式的建議應反映實際問題,而不是自描述模式的抽象理想。
建議不要選擇一種元資料模式,而是建議選擇可互操作的模式。永遠不會存在一種適用於所有需要描述的資源型別的模式。基於圖形的設計優勢在於,各種元資料使用者可以共享核心資料,但每個專業社群可以輕鬆地新增其需要的術語,而不會中斷整體。
截至目前,爭論似乎集中在
- 基於 RDF 的元資料模型 + 與書目作品最佳整合的本體列表(例如 foaf、bibo 等)
- 為一個或多個特定目的而設計的不定元資料格式。由於它們更簡單,因此可能會降低參與開放書目資料提供的門檻。關鍵是捕獲足夠的書目元資料結構,以用於開放書目目的,從而實現簡單、低成本和低技術的基本書目元資料的交換。
兩者都具有各自的優點和缺點,必須予以考慮,以確定應在該特定應用領域中使用哪種標準。決定將取決於
- 可用於資料交換和顯示的工具
- 用於轉換和建立元資料的有限資源
儘管製作元資料可能很昂貴且耗時,但元資料會為書目記錄增加價值。記錄資料的詳細描述通常受限於對每件物品已知資訊的多少,這可能需要大量的研究才能完成。
RDF/Sparql 為開放書目資料的描述/識別/管理提供了高階工具。但是,如果沒有對時間和成本的重大投資,就無法完成適當的 RDF 資料庫。
儘管需要更精確地描述數字資源,以便可以搜尋和識別它們,但對於許多大規模數字化專案而言,這並不現實。為開放書目資料的快速普及而設計的輕量級不定元資料格式。(例如,BibTeX 提供了一個簡單的元資料方案,可能對於大多數當前目的而言幾乎足夠,並有一些用於處理識別符號的約定。此方案和適當的約定已納入 BibJSON,BibJSON 提供了一種輕量級與 RDF/LD 相容的格式。BibJSON 到 RDF/LD 的完整對映可以由其他感興趣的方完成,而不是最初的資料提供者。由於很多原因,不建議使用 BibTeX 作為元資料格式。)
元資料是否需要與其他系統互動或交換?需要檢視資料交換格式,然後根據所做決定確定元資料格式。
互操作性需要記錄元資料的標準化方式。元資料還必須儲存在或組裝成一種文件格式中(例如 XML),這種格式可以促進資料的輕鬆交換。[例如,符合 METS 標準的數字物件透過其標準化、“打包”格式促進互操作性。]
確保最大互操作性和高度一致性的最佳方法是讓每個人都同意使用相同的模式,例如 MARC(機器可讀編目)格式或都柏林核心 (DC)。但是,在異構環境中,不同資源由各種專用模式描述,因此統一標準方法並非總是可行或實用的。
確保根據給定模式處理的資料能夠與其他數字館藏互操作。在架構級別,互操作性操作通常在操作級別元資料記錄建立之前進行(EX-ANTE INTEROPERABILITY)。在此階段使用的方法主要包括:推導、應用配置檔案、交叉對照表、切換、框架和登錄檔。
從現有模式派生出新的模式:例如,可以將現有的複雜模式(如 MARC 格式)用作“源”或“模型”,從中派生出新的更簡單的單個模式。推導方法包括調整、修改、擴充套件、部分調整、翻譯等。示例
- TEI Lite 從完整的文字編碼倡議 (TEI) 推導而來。
- MODS(元資料物件描述模式)和 MARC Lite 從完整的 MARC 21 標準推導而來。
- 將 DC 元素集翻譯成不同的語言。
- 為都柏林核心元資料元素集 [DCMI 元資料術語] 提出的額外元素。
- 電子論文和學位論文元資料標準 (ETD-MS)。該標準使用 15 個都柏林核心元素中的 13 個,以及一個額外的元素:thesis.degree [ETD-MS]。
- 教育材料入口網站 (GEM) 對都柏林核心的擴充套件。附加元素包括:編目、基本資源、教學法、標準和持續時間 [GEM 元素集]。
- 北京大學圖書館開發的稀有材料描述性元資料。它使用 12 個 DC 元素,以及版本和物理描述作為兩個本地核心元素,以及用於第三級擴充套件的館藏曆史元素 [Yao 等,2004]。
應用配置檔案由一個或多個元資料模式中的元資料元素組成,並組合成一個複合模式。它們確保了類似的基本結構和通用元素,同時允許不同程度的深度和細節以及不同的使用者社群。 例子
- 澳大利亞虛擬工程圖書館的 AVEL 元資料集包含 19 個元素。除了支援 14 個 DC 元素(不包括 dc.source 元素)外,它還支援一個 AGLS(澳大利亞政府定位服務)元資料元素(AGLS.Availability)、一個 EDNA(澳大利亞教育網路)元素(EdNA.Review)和三個管理元素(AC.Creator、AC.DateCreated 和 AVEL.Comments)。
應用配置檔案也可以基於單個模式,但針對不同的使用者社群進行定製。 例子
- DC-Library 應用配置檔案 (DC-Lib) 闡明瞭 DC 元資料元素集在圖書館和圖書館相關應用和專案中的使用。
- DC 政府應用配置檔案闡明瞭 DC 在政府環境中的使用。
- 國家生物資訊基礎設施 (NBII) 的生物資料配置檔案基於聯邦地理資料委員會 (FGDC) 的數字地理空間元資料內容標準 (CSDGM)。
將一個元資料模式中的元素、語義和語法對映到另一個元資料模式。通常透過圖表或表格來完成,該圖表或表格表示一個數據標準(源)中的資料元素與另一個標準(目標)中的資料元素的語義對映,基於元素的功能或含義的相似性。它們使異構集合能夠使用單個查詢同時搜尋,就好像它們是單個數據庫一樣(語義互操作性)。從一個模式中的元素對映到另一個模式中的類似元素,需要確保資料的含義和結構在兩個模式之間是可共享的,以確保轉換後的元資料的可用性。幾乎所有現有格式都可以很容易地對映到 ad-hoc 格式(但通常是資訊丟失的轉換) - 例子
- 幾乎所有模式都建立了到流行模式(如 DC、MARC、LOM 等)的互操作。
- VRA Core 3.0,它列出了目標模式 VRA 2.0(早期版本)、CDWA 和 DC 中的對映元素。
互操作的一個問題是等效程度的不同:一對一、一對多、多對一和一對零。這意味著在對映單個元素時,通常沒有完全等效的元素。同時,發現許多元素在含義和範圍上重疊。因此,基於互操作的資料轉換可能會造成質量問題。
- MARC、Z39.50、SRLI/SRW、BibJSON?
- ad-hoc 格式之間的轉換需要定義可擴充套件性機制和詞彙對齊方法(例如,解釋您的“標題”與 dc:title 或其他模式的標題相同)。
使用切換模式(新的或現有的)在多個模式之間進行互操作。與其在組中的每一對之間進行對映,不如將每個單獨的元資料模式僅對映到切換模式。 例子
- Getty 的互操作,其中七個模式都與 CDWA 互操作。
框架可以被認為是一個骨架,各種物件在該骨架上被整合到給定的解決方案中。構建元資料框架有兩種方法:1)在開發單個模式和應用程式之前建立框架,以及 2)基於現有模式構建框架。 例子
- 開放檔案資訊系統 (OAIS) 參考模型,由國際空間資料系統諮詢委員會 (CCSDS) 釋出為一項建議。它建立了一個包含開放檔案資訊系統的術語和概念的通用框架,為檔案環境中的進一步標準化提供了基礎。
- DLESE(地球系統教育數字圖書館)發現系統目前使用的元資料框架。經過幾年探索基於 IMS(教學管理系統)學習資源元資料規範為 DLESE 元資料建立框架後,亞歷山大數字地球原型 (ADEPT) 專案、DLESE 和 NASA 的聯合數字圖書館 (JDL) 在 2001 年 6 月決定建立 ADN 元資料框架,所有三個組織都可以使用該框架。正如其網頁上所述,ADN 框架的目的是“描述通常在學習環境中使用的資源(例如,課堂活動、課程計劃、模組、視覺化、一些資料集),供地球系統教育界發現。”
元資料登錄檔的目的相當直接:收集有關元資料模式的資料。預計元資料登錄檔將“提供識別和引用已建立的模式和應用配置檔案的方法,可能包括在不同模式之間進行機器對映的方法。”
- 跨域和跨模式登錄檔。例如,UKOLN(英國圖書館網路辦公室)的 SCHEMAS 登錄檔(現已用於新的 CORES 專案)包含多個元資料元素集和相關文件。透過 Web 介面,可以根據機構、元素集、元素、編碼方案、應用配置檔案和此登錄檔中包含的元素用法進行搜尋或瀏覽。目前,登錄檔包含來自 10 個機構的 12 個元素集 [CORES]。
- 特定於域的跨模式登錄檔。例如,UKLON 的 MEG(教育元資料組)登錄檔促進教育領域內的模式註冊 [MEG 登錄檔]。
- 特定於專案的登錄檔。歐洲圖書館 (TEL) 元資料登錄檔 [TEL] 是為了記錄與 TEL 相關的所有元資料活動而建立的。登錄檔包含不同語言的元素名稱翻譯,並宣告元素是否可重複、可搜尋和強制性 [Van Veen and Oldroyd, 2004]。
- 特定於模式的登錄檔,例如都柏林核心元資料倡議 (DCMI) 的登錄檔或開放資料登錄檔 [都柏林核心元資料登錄檔],用於記錄 DC 模式中的有效元素。目前,登錄檔提供了有關元素、元素細化、受控詞彙術語 (DCMI-Type Voc.) 以及詞彙和編碼方案的詳細資訊。
通常,在仔細考慮互操作性問題之前,已經採用了一種特定的元資料模式,並且已經建立了元資料記錄。轉換元資料記錄成為整合已建立的元資料資料庫的幾種選項之一。有時希望將特定於域的元資料標準與彼此結合使用。資料提供者應該能夠組裝某些特定功能集所需的元件,即使這意味著利用不同元資料標準中指定的元件。資料提供者還應確保結果可以由獨立設計的應用程式解釋。
以記錄為中心的方法:傳統上自上而下的圖書館資料方法(即生成 MARC 記錄作為圖書館資料的獨立描述):成本較低,實施更容易。ad-hoc 格式為資料提供者提供了一個簡單的交換格式來轉儲他們的記錄,這些記錄可以很容易地提取和聚合在一起。[重點在於記錄,這是我們想要獲取並使其公開訪問的東西。] 根據最小公分母進行的事後轉換,但存在資訊丟失的風險:資料丟失,而不是豐富。主要挑戰是如何最大程度地減少資料丟失或失真。 例子
- 美國國會圖書館提供了在 MARC 記錄和 MODS 記錄之間進行轉換的工具(可在 <http://www.loc.gov/standards/mods/> 獲取),以及在 DC 記錄和 MODS 記錄之間進行轉換的工具。
- 澳大利亞圖片專案是資料轉換的一個很好的例子。這是一個數字圖書館專案,涵蓋了各種機構,包括圖書館、國家檔案館和澳大利亞戰爭紀念館,其中許多機構都帶有根據不同標準編制的舊元資料記錄。來自參與者的記錄被收集到一箇中央位置(澳大利亞國家圖書館),然後被翻譯成“通用記錄格式”,該格式中的欄位基於都柏林核心。
- 國家科學數字圖書館 (NSDL) 元資料儲存庫,從各種館藏中收集元資料記錄。例如,當 NSDL 元資料儲存庫收集 ADL(亞歷山大數字圖書館)元資料記錄時,必須將這些記錄轉換為 Dublin Core 記錄。在將 ADL 記錄轉換為基於 DC 的記錄以供顯示時,ADL 元素中的值字串將顯示在等效的 DC 元素中。例如,記錄在 ADL 邊界座標中的座標現在顯示在 DC 覆蓋範圍中,而製作人則變為來源。
問題在於,從豐富的結構轉換為簡單的結構時,可能會丟失資料值。其他複雜的情況包括轉換與某些元素關聯的值字串,這些元素需要使用受控詞彙表。
資料重用和整合
[edit | edit source]連結資料:不是轉換,而是一種機制,允許在不同的資料庫中識別共同的概念:藝術家、事件等 - 而不侷限於最小公分母。在模組化元資料環境中,來自不同模式、詞彙表、應用程式和其他構建塊的不同型別的元資料元素(描述性、管理性、技術性、使用和儲存)可以以互操作的方式組合在一起。樂高積木的隱喻可以恰當地描述這個過程:應用程式設計人員應該能夠從不同元資料標準提供的“套件”中“拼湊”選定的“構建塊”,以構建滿足其要求的結構,即使提供這些構建塊的套件是獨立建立的。元資料記錄的元件可以被視為拼圖的不同部分。它們可以透過組合來自不同過程(人工或機器)的元資料來源的部分來拼湊在一起。當需要由人或機器生成新的記錄時,它們也可以逐件使用和重用。示例
- 元資料編碼和傳輸標準 (METS) 提供了一個框架,用於將來自不同來源的各種元件整合到一個結構中,並且還使得將這些部分“粘合”在一個記錄中成為可能。METS 是一個將描述性、管理性和結構化元資料打包到一個 XML 文件中的標準,用於與數字儲存庫進行互動。METS 記錄中的描述性元資料部分可能指向 METS 文件外部的描述性元資料,例如線上公共訪問目錄 (OPAC) 中的 MARC 記錄或在全球資訊網伺服器上維護的編碼檔案描述 (EAD) 查詢幫助。或者,它可能包含內部嵌入的描述性元資料。因此,它可以為數字圖書館物件在館藏或儲存庫之間交換提供一個有用的標準。
- 全球資訊網聯盟 (W3C) 的資源描述框架 (RDF) 是另一個“提供了一種機制來整合多個元資料方案”的模型。它是一種資料模型,提供了一個框架,在這個框架內,獨立的社群可以開發適合其特定需求的詞彙表,並與其他社群共享詞彙表。可以定義多個名稱空間,以允許來自不同模式的元素組合到一個單一的資源描述中。RDF 記錄將可能在不同時間出於不同目的建立的多個描述連結到一起。RDF + 來自語義網社群的有用原則有助於元資料的互操作性和擴充套件 - 正確的詞彙表對齊需要透過 RDF 本體進行準確的對映。
RDF 可以與用於將資料鏈接在一起的特定協議組合在一起,以允許更好的
- 標準化:連結資料方法支援以一致的方式檢索和重新混合來自所有元資料提供者的資料。
- 互操作性:連結資料透過在多個特定領域知識庫之間進行連結來豐富知識,從而有利於跨學科研究:即使用 RDF 和 URI 的所有資料集的總和呈現為一個全域性資訊圖,使用者和應用程式可以無縫瀏覽。
- 分散化:使用連結資料,不同參與者可以以分散的方式生產關於同一資產的不同型別的資料,然後將其聚合到一個圖中。可以與其他 GLAM 機構合作描述資源,並將這些資源連結到其他社群甚至個人貢獻的資料。
- 效率:GLAM 機構可以建立一個開放的、全球的共享資料池,這些資料可以用於描述資源並重復使用。連結開放資料使機構能夠集中精力於其本地專業領域的專業知識,而不是重新建立他人已經詳細說明的現有描述。
- 彈性:連結資料比依賴於特定資料結構的元資料格式更持久、更健壯,因為它將資料的含義(“語義”)與特定資料結構(“語法”或“格式”)分開描述。
儲存庫級別的互操作性
[edit | edit source]當透過單個搜尋引擎搜尋多個來源時,主要問題之一是檢索到的結果很少以一致、系統或可靠的格式呈現。元資料儲存庫透過維護一種一致且可靠的資料訪問方式,為這類互操作性問題提供了一種可行的解決方案。儲存庫面臨的一個問題是,是否允許每個原始元資料來源保持其自己的格式。如果不是,它將如何將所有元資料記錄轉換為標準化格式?如果是,它將如何支援跨館藏搜尋?
開放檔案倡議 (OAI) 協議
[edit | edit source]開放檔案倡議元資料收集協議 (OAI-PMH) 是一種協議,其目標是提供和推廣一個與應用程式無關的互操作性框架,該框架可以被各種參與在 Web 上釋出內容的社群使用。
無需記錄轉換的多種格式
[edit | edit source]地球系統教育數字圖書館 (DLESE) 採取了一種不同的方法,繞過了在整合服務中轉換元資料記錄的必要性。從這項努力中產生的機制——DLESE 集合系統 (DCS)——是一種工具,允許參與者構建他們自己的地球系統專案級元資料記錄集合,並開發、管理、搜尋和共享這些集合,所有這些都無需將每個元資料記錄轉換為統一的格式。每個集合的元資料記錄都按照 XML 模式進行結構化,該模式指定了特定元資料欄位的必填和可選元資料(以及在某些情況下法律值)。DLESE 集合系統目前支援 ADN(ADEPT/DLESE/NASA)的 DLESE 元資料框架,用於典型地在學習環境中使用的資源。其他基於 XML 模式的元資料框架可以透過配置 DLESE 集合系統指向 XML 模式檔案來支援。
聚合
[edit | edit source]NSDL 元資料儲存庫採用基於 OAI-PMH 的自動化“攝入”系統,元資料以最少的人工干預流入元資料儲存庫。從這個角度來看,NSDL 本質上充當元資料聚合器。這種過程背後的理念是,每個元資料記錄都包含關於特定資源的一系列語句,因此可以聚合來自不同來源的元資料來構建更完整的資源概況。因此,多個提供者可能會為增強的元資料記錄做出貢獻。這些增強功能透過 OAI-PMH 公開,元資料儲存庫可以收集它們。
基於元素和基於值的交叉對映服務
[edit | edit source]雖然目前交叉對映為相對有效的模式和資料交換和共享鋪平了道路,但還需要有效的交叉對映來解決在由來自多個來源的記錄構建的大型資料庫中確保一致性的日常問題。OCLC 的研究人員開發了一個模型,將三部分資訊聯絡起來:交叉對映、源元資料標準和目標元資料標準。這項工作基於這樣一個假設,即“可用的交叉對映必須具有以下特點:(1)一組在利益相關者社群認可的元資料標準之間的對映。(2)機器可處理的編碼。(3)與源和目標元資料標準之間明確定義的關係,該關係必須引用特定版本和語法編碼”。
用於跨資料庫搜尋的基於值的對映
[edit | edit source]多語言主題訪問 (MACS) 專案說明了另一種基於值的對映方法,用於實現現有元資料資料庫之間的互操作性。MACS 是一個歐洲專案,旨在允許使用者跨不同語言的合作伙伴圖書館的圖書館編目資料庫進行搜尋,目前包括英語、法語和德語。具體來說,該專案旨在透過建立三個主題詞列表之間的等效連結來提供多語言主題訪問圖書館目錄:SWD/RSWK(Schlagwortnormdatei / Regeln für den Schlagwortkatalog)用於德語,Rameau(Répertoire d'autorité-matière encyclopédique et alphabétique unifié)用於法語,LCSH(國會圖書館主題詞表)用於英語。
基於值的共現對映
[edit | edit source]關於搜尋,共現對映類似於上面討論的 MACS 專案中所做的操作。但是,這種方法使用主題欄位中已有的值,並將同一記錄的主題欄位中註冊的不同語言的主題詞視為等效。當元資料記錄包含來自多個受控詞彙表的詞語時,主題詞的共現能夠在詞彙表之間進行自動、鬆散的對映。作為一個整體,這些鬆散對映的詞語可以回答特定的搜尋查詢或一組問題。現有的元資料標準和最佳實踐指南為使用共現對映方法提供了機會。
- 藝術和影像相關元資料標準 VRA 核心類別 3.0 版要求使用藝術與建築詞典 (AAT) 來表示型別、材料和風格/年代元素;對於文化和主題元素,推薦使用 AAT、LCSH、圖形材料詞典 (TGM)、ICONCLASS(國際影像學研究和影像記錄分類系統)和西爾斯主題詞表。
- 另一個共同出現對映來源是亞歷山大數字圖書館的 Gazetteer 標準報告。在要素類別下,記錄了來自兩個受控詞彙的術語。
RDF 提出了一種強大而靈活的架構來支援元資料。其目標是透過提供一個通用框架來描述任何具有統一資源識別符號 (URI) 的專案,從而支援互操作性。RDF 規範提供了大量的本體,以支援在網路上交換知識。--- 需要包括一系列針對不同型別書目作品的 OWL。
Dublin Core (DC) 是一種流行且被廣泛接受的元資料標準,用於描述物理資源(如書籍)、數字材料(如影片、音訊、影像或文字檔案)以及複合媒體(如網頁)。DC 是一種靈活的標準,其特點是簡單、可擴充套件和互操作性。Dublin Core 的主要優勢在於它可以潛在地整合到各種元資料模型中,包括但不限於 RDF/OWL。這意味著它可以被任何 GLAM 機構使用,無論它們是否願意投入資金和時間來建立基於 RDF 的資料庫。DC 標準透過充當大量社群特定格式之間的中介,支援跨資源發現。
谷歌、微軟和雅虎推出了“schema.org”計劃,旨在允許以非常簡單的方式對網頁進行註釋,這些註釋會被主要的搜尋提供商識別。Schema.org 的特別之處在於它並非設計用來很好地描述事物,而是提供更好的搜尋結果。Schema.org 的優勢在於它基於一組非常簡單且易於包含在任何來自 OPAC 的頁面中的微資料元資料。
[CG:很好,但這不是推薦的形式,所以不應該放在上一章嗎?]
媒體資源本體 1.0 (http://www.w3.org/TR/mediaont-10/) 目前是“W3C 候選推薦” (W3C = 全球資訊網聯盟)。一旦關於相應 API 的工作完成(參見媒體資源 API 1.0,http://www.w3.org/TR/mediaont-api-1.0/),該 API 提供對所有元素的統一訪問,它將發展成為完整的“W3C 推薦”。該媒體本體既是 i) 核心詞彙,即描述媒體資源的一組屬性,這些屬性是在考慮到當前使用的元資料格式的基礎上選擇的;又是 ii) 其屬性集與當前在 Web 上釋出的一些元資料格式的元素之間的對映,例如 Dublin core、EXIF 2.2、ITPC、Media RSS、MPGE-7、QuickTime、XMP、YouTube 等。對映的目的是提供一套可互操作的元資料,供不同的應用程式共享和重用。理想情況下,對映應該在不同的元資料格式之間保留元資料項的語義。在現實中,由於相關值的定義存在差異,因此無法普遍做到這一點,例如,來自 Dublin Core 的屬性“dc:creator”和在可交換影像檔案格式 (EXIF) 中定義的屬性“exif:Artist”——這兩者都對映到媒體本體中的屬性“creator”。然後在本體中定義了“型別”的對映:“精確”、“更具體”、“更通用”和“相關”。使用僅限於媒體本體的機制來糾正使用來自不同模式的屬性在對映前後可能出現的語義丟失超出了媒體本體工作的範圍。本體在語義網路語言 RDF 和 OWL 方面的語義網路相容實現也可用,並在 http://www.w3.org/TR/mediaont-10/ 文件的第 7 節中介紹。
如果我們想要認可 BibJSON 的使用,我們可能應該在指南中總結兩種替代方法: - 簡單的做法是採用 BibJSON 模型 - 效能更高但更復雜的做法是採用 RDF,這種方法可以輕鬆對映到 bibjson 並透過 bibserver 管理。(這是 Bibliographica 目前採用的方法,如果我沒記錯的話?)列表中的任何人都可以編輯 wiki 以提供有關該方法的更多詳細資訊嗎?馬克? ;)
