跳轉到內容

開放元資料手冊/資料整合

來自華夏公益教科書

本章將介紹如何獲取資料、將其整合到專案中,然後呈現資料。

獲取資料

[編輯 | 編輯原始碼]

資料儲存

[編輯 | 編輯原始碼]

資料和元資料可以在各種來源中找到。“資料儲存”是指儲存和提供資料訪問的線上資源的通用術語。從廣義上講,這可以是任何線上伺服器,例如提供以網頁形式表示資料的 Web 伺服器。在本手冊中,我們將重點關注旨在允許以可重複使用形式自由開放訪問書目元資料的資料儲存。

資料中心

[編輯 | 編輯原始碼]

Thedatahub充當各種資料的中心。可以過濾資料集,例如,僅獲取開放資料

主要書目目錄

[編輯 | 編輯原始碼]

群眾貢獻資料

[編輯 | 編輯原始碼]
  • 維基媒體
  • 內容共享網站
    • 一些網站不僅提供使用者生成的內容,例如圖片、影片或音樂,還提供元資料和API來訪問這些元資料和搜尋內容。

訪問資料

[編輯 | 編輯原始碼]

大量可用的開放資料集以可下載檔案形式提供。這是檢索資料的最簡單方法,因為它只需要先找到正確的資料集,然後單擊將其下載。但是,此類下載通常無法很好地整合到自動化流程中,並且通常沒有其他方法可以確保資料是最新的,除非手動檢查更新。

透過API訪問資料

[編輯 | 編輯原始碼]

“API”代表“應用程式程式設計介面”。顧名思義,API 允許比下載更復雜的互動。

在大多數開放知識 API 中,訪問資料的介面基於 HTTP 協議,這與瀏覽器用於訪問網頁的協議相同,這保證了幾乎任何網際網路連線都能輕鬆訪問。

就像開啟網頁一樣,要從基於 Web 的 API 請求資料,您需要呼叫 URL(統一資源定位符),即此網頁的地址(或者在第二種情況下,是此 API 端點的地址,因此使用中性術語“資源”來表示兩者)。

大多數 API 遵循 REST(表徵性狀態轉移)體系結構,其中引數(例如資料集的名稱、資料集內的特定範圍)在 URL 中傳遞。這使得 API 非常容易測試,因為您可以在瀏覽器中嘗試它們並檢視結果。

API 世界的範圍從比可引數化下載略多到完全複製線上服務的函式(從使用者身份驗證到內容建立),允許在這些服務之上構建自定義客戶端。

一個例子

[編輯 | 編輯原始碼]

維基百科 API 的端點http://en.wikipedia.org/w/api.php,這意味著任何以這種方式開始的 URL 都將重定向到 API。

如果您在沒有其他引數的情況下開啟維基百科的端點 URL,您將看到一個包含有關 API 語法的詳細資訊的網頁,即如何構建 URL 以訪問維基百科內部的資料。大多數 API 不會透過其端點提供文件,但會提供開發人員資源,例如Mediawiki API 頁面

新增引數將提供對特定操作的訪問許可權。例如,http://en.wikipedia.org/w/api.php?format=xml&action=query&titles=Mexico_City&prop=revisions&rvprop=content將返回墨西哥城維基百科文章的最新修訂版的內容,封裝在 XML 檔案中。

您可以輕鬆地隨意更改引數:將titles=Mexico_City部分替換為titles=London|Paris,您將獲得倫敦和巴黎兩篇文章。將format=xml替換為format=json,您將獲得不同的封裝。

API工具

[編輯 | 編輯原始碼]
  • 諸如 APIgee 之類的 API 控制檯提供工具來構建和測試 API 請求。
  • JSON 是 API 資料中最流行的格式之一,我們推薦使用 Firefox 擴充套件程式 JSON View,它有助於探索此類資料的巢狀結構。

自動獲取資料

[編輯 | 編輯原始碼]

元資料互操作性

[編輯 | 編輯原始碼]

不同的元資料模式用於不同的目的。因此,同一資源可以根據上下文由補充或輔助模式描述。由於存在如此多的元資料標準,有時很難理解如何在一種格式和另一種格式之間實現互操作性。元資料互操作性是指能夠在沒有或很少丟失資訊的情況下交換元資料。它允許元資料在不同系統之間轉移,而不管這些系統的獨特特徵如何。鑑於可互操作的元資料可以在多個系統上儲存和處理,互操作性使得關於特定資源的元資料能夠被不同系統訪問和理解,並且可以與來自不同系統或關於不同資源的元資料聚合或整合。

可互操作元資料的主要優點如下:

  • 透過標準化工具更容易從不同系統匯入元資料。
  • 在多個系統之間轉移不同的資料集。
  • 能夠透過多個目錄搜尋元資料。

確保最大互操作性和高一致性的最佳方法是讓每個人都同意同一個模式,例如 MARC (Machine-Readable Cataloging) 格式或 Dublin Core (DC)。然而,統一標準方法並不總是可行或實用,特別是在異構環境中,不同的資源由各種專門的模式描述。具有不同需求的不同機構可能會開發“臨時”元資料格式,這些格式通常彼此不互操作,因為它們不符合相同的標準。

因此,必須開發特定工具以允許不同格式之間互操作。可以使用各種機制來組裝不同的資料集,即使這意味著借用不同元資料標準中指定的部分。然而,資料提供者應確保結果可以被獨立設計的應用程式解釋。互操作性可以在建立元資料記錄之前(事前互操作性)或之後(事後互操作性)實現。

本節旨在說明如何合併、整合或聚合不同的元資料標準和本體。


轉換

[edit | edit source]

通常,在仔細考慮互操作性問題之前,已經採用了一種特定的元資料模式,並且已經建立了元資料記錄。有時希望將特定領域的元資料標準與彼此結合使用。轉換元資料記錄成為整合已建立元資料資料庫的少數選擇之一。轉換是圖書館資料傳統的自上而下的方法(即生成 MARC 記錄作為圖書館材料的獨立描述):。臨時格式為資料提供者提供了一個簡單的交換格式來轉儲他們的記錄,這些記錄可以很容易地提取並聚合在一起。

優點

  • 以記錄為中心的方法:重點在於記錄,這是我們想要獲取並公開訪問的內容。
  • 低成本和易於實施

缺點

  • 根據最小公分母進行事後轉換,但存在轉換損失的風險:從豐富結構轉換為簡單結構時會丟失資料(與豐富相比)。
  • 主要挑戰是如何最大限度地減少資料丟失或扭曲。其他複雜情況包括轉換與某些元素關聯的值字串,這些元素需要使用受控詞彙表。

示例

  • 美國國會圖書館提供工具(可在<http://www.loc.gov/standards/mods/>獲取)來在 MARC 記錄和 MODS 記錄之間,以及在 DC 記錄和 MODS 記錄之間進行轉換。
  • 澳大利亞圖片專案是一個很好的資料轉換示例。這是一個數字圖書館專案,涵蓋了各種機構,包括圖書館、國家檔案館和澳大利亞戰爭紀念館,其中許多機構帶有根據不同標準準備的遺留元資料記錄。來自參與者的記錄被收集在一箇中心位置(澳大利亞國家圖書館),然後翻譯成“通用記錄格式”,其欄位基於 Dublin Core。
  • 國家科學數字圖書館 (NSDL) 元資料儲存庫,從各種集合中收集了元資料記錄。例如,ADL (Alexandria Digital Library) 元資料記錄在 NSDL 元資料儲存庫收集這些記錄時必須轉換為 Dublin Core 記錄。在將 ADL 記錄轉換為基於 DC 的記錄以進行顯示時,ADL 元素中的值字串將以等效的 DC 元素顯示。
  • BibJSON

對映與交叉對映

[edit | edit source]

從一個元資料模式到另一個元資料模式的元素、語義和語法的對映通常透過一個表格完成,該表格表示基於元素的功能或含義的相似性,將一個數據標準(源)中的資料元素的語義對映到另一個標準(目標)中的資料元素。對映使異構集合能夠使用單個查詢同時進行搜尋,就好像它們是一個數據庫一樣(語義互操作性)。

從一個模式中的一個元素到另一個模式中的一個類似元素的對映將要求資料在兩個模式之間具有可共享的含義和結構,以確保轉換後的元資料的可用性。臨時格式可以非常容易地對映到大多數現有格式(但通常是損失轉換)。示例

  • 幾乎所有模式都建立了到流行模式(如 DC、MARC、LOM 等)的交叉對映。
  • VRA Core 3.0,列出了目標模式 VRA 2.0(早期版本)、CDWA 和 DC 中的對映元素。
  • BibJSON 提供了一種輕量級的 RDF/LD 相容格式。BibJSON 到 RDF/LD 的完整對映可以由其他感興趣的方完成,不一定是由最初的資料提供者完成。

也可以使用特定的元資料模式(新模式或現有模式)來引導多個模式之間的交叉對映。不是在組中的每一對之間進行對映,而是將每個單獨的元資料模式僅對映到切換模式。示例

  • Getty 的交叉對映,其中七個模式都交叉對映到 CDWA

問題

  • 雖然目前交叉對映為模式和資料的相對有效的交換和共享鋪平了道路,但還需要有效的交叉對映來解決日常問題,即確保由來自多個來源的記錄構建的大型資料庫的一致性。
  • 交叉對映的主要問題之一是等效性的不同程度:一對一、一對多、多對一和一對零。這意味著在對映單個元素時,通常沒有完全的等效項。同時,發現許多元素在含義和範圍上重疊。因此,基於交叉對映的資料轉換可能會造成質量問題。
  • 臨時格式之間的轉換需要定義擴充套件機制和詞彙對齊方法(例如,解釋你的“標題”與 dc:title 或其他模式的標題相同)。

示例

媒體資源本體

媒體資源本體 1.0 (http://www.w3.org/TR/mediaont-10/) 目前是“W3C 候選推薦”(W3C = 全球資訊網聯盟)。一旦關於相應 API(參見媒體資源 API 1.0,http://www.w3.org/TR/mediaont-api-1.0/)的工作完成,該 API 提供對所有元素的統一訪問,它將發展成為完整的“W3C 推薦”。此媒體本體既是 i) 核心詞彙表,即描述媒體資源的一組屬性,這些屬性是考慮到目前使用的元資料格式而選擇的,也是 ii) 它的屬性集與目前在 Web 上釋出的某些元資料格式(例如,Dublin core、EXIF 2.2、ITPC、Media RSS、MPGE-7、QuickTime、XMP、YouTube 等)中的元素之間的對映。對映的目的是提供一組可互操作的元資料,以便在不同的應用程式之間共享和重用。理想情況下,對映應該在不同的元資料格式之間保留元資料項的語義。實際上,由於關聯值的定義不同,這通常無法實現,例如,參見來自 Dublin Core 的屬性“dc:creator”和在可交換影像檔案格式 (EXIF) 中定義的屬性“exif:Artist”,兩者都對映到媒體本體中的屬性“creator”。然後在本體中定義對映的“型別”:“精確”、“更具體”、“更通用”和“相關”。使用僅限媒體本體的機制來糾正使用來自不同模式的屬性在屬性之間來回對映時可能發生的語義丟失,超出了媒體本體工作的範圍。本體在語義 Web 語言 RDF 和 OWL 中的語義 Web 相容實現也可用,並在<http://www.w3.org/TR/mediaont-10/>文件的第 7 節中介紹。

BibJSON

BibJSON 是一種用 JSON 表示書目元資料的約定;它使線上共享和使用書目元資料變得容易。它是一種 JSON 格式——一種簡單、實用且通用的在網路上表示資料的格式,可用於在應用程式之間傳遞資訊。BibJSON 的設計宗旨是簡單實用。它幾乎沒有要求,你可以使用自己的名稱空間來擴充套件它。透過使用 BibJSON(或轉換為 BibJSON)資料可以很容易地線上顯示、搜尋、嵌入、合併和共享。可以將 X 解析為 BibJSON 再解析為 Y,很快就能透過 BibJSON 進行翻譯。解析器可以透過以下 API 呼叫訪問:http://bibsoup.net/parse

連結資料

[edit | edit source]

連結資料提供了一種機制,可以在不同的資料庫中識別通用概念,而不會侷限於最小公分母。它不涉及任何型別的轉換;而是建立了一個模組化的元資料環境,其中來自不同模式、詞彙和應用程式的不同型別的元資料元素(描述性、管理性、技術性、使用和儲存)可以以互操作的方式組合在一起。元資料記錄的組成部分可以被視為拼圖的各個部分。它們可以透過組合來自不同過程的元資料來源的各個部分來組合在一起,並且在需要生成新記錄時,它們也可以逐部分使用和重複使用。樂高積木的比喻可以用來描述這個過程,即任何人都可以從不同的元資料標準提供的“工具包”中“拼湊”選定的“積木”,即使這些積木是獨立建立的。

隨著連結開放資料 (LOD) 目前在資訊世界中越來越受歡迎,歐洲數字圖書館 (Europeana) 剛剛推出了一個動畫<http://vimeo.com/36752317> 來解釋關於連結開放資料的相關資訊及其對使用者和資料提供者的益處。

示例

METS:元資料編碼和傳輸標準 (METS) 提供了一個框架,用於將來自不同來源的各個元件整合到一個結構中,並且還使將各個部分“粘合”到一個記錄中成為可能。METS 是一種將描述性、管理性和結構性元資料打包到一個 XML 文件中的標準,用於與數字儲存庫進行互動。METS 記錄中的描述性元資料部分可以指向 METS 文件外部的描述性元資料,例如線上公共訪問目錄 (OPAC) 中的 MARC 記錄或在 WWW 伺服器上維護的編碼檔案描述 (EAD) 查詢輔助工具。或者,它可能包含內部嵌入的描述性元資料。因此,它可以為數字圖書館物件在不同館藏或儲存庫之間交換提供一個有用的標準。

RDF:資源描述框架 (RDF) 是另一種提供將多個元資料方案整合到一起的機制的模型。可以定義多個名稱空間,以允許來自不同模式的元素組合到一個單獨的資源描述中。不同的名稱空間由一個 URL 定義,該 URL 定義用於描述特定資源的元資料方案。因此,單個 RDF 記錄可以包含多個資源描述,這些描述可能是在不同時間和出於不同目的建立的。因此,RDF 提供了一個框架,在這個框架內,獨立的社群可以開發適合他們特定需求的詞彙表,並與其他社群共享詞彙表。結合語義網社群提出的有用原則,它可以有助於提高互操作性和元資料的擴充套件——儘管適當的詞彙對齊需要透過 RDF 本體進行準確的對映。


優勢

連結可以與特定的協議結合使用,將資料鏈接在一起,以便更好地

  • 標準化:連結資料方法支援以對所有元資料提供者一致的方式檢索和重新混合資料。
  • 互操作性:連結資料透過連結多個領域特定的知識庫來豐富知識,從而有利於跨學科研究:例如,使用 RDF 和 URI 的所有資料集作為一個整體,呈現為使用者和應用程式可以無縫瀏覽的全域性資訊圖。
  • 分散化:使用連結資料,不同參與者可以以分散的方式生成關於同一資產的不同型別的資料,然後將其聚合到一個圖中。可以透過與其他 GLAM 機構合作來描述資源,並將其連結到其他社群甚至個人貢獻的資料。
  • 效率:GLAM 機構可以建立一個開放的全球共享資料池,可用於描述資源並重復使用。連結開放資料使機構能夠集中精力於其本地專業領域,而不是必須重新建立其他人已經詳細闡述的現有描述。
  • 彈性:連結資料比依賴於特定資料結構的元資料格式更持久、更健壯,因為它將資料的含義(“語義”)與特定的資料結構(“語法”或“格式”)分開描述。

元資料登錄檔和儲存庫

[edit | edit source]

當透過單個搜尋引擎搜尋多個來源時,其中一個主要問題是檢索到的結果很少以一致、系統或可靠的格式呈現。元資料儲存庫透過維護一種一致且可靠的資料訪問方式,為這類互操作性問題提供了一種可行的解決方案。

儲存庫面臨的一個問題是,是否允許每個原始元資料來源保留自己的格式。如果不是,它將如何將所有元資料記錄轉換為標準化格式或整合到標準化格式中?它將如何支援跨館藏搜尋?三種常見的方法是

通用格式

[edit | edit source]

其想法是建立一個儲存庫,將元資料記錄儲存到簡單且可互操作的格式中,從而鼓勵機構將他們的元資料釋出到該格式中,以減少轉換和去重工作。

Bibsoup / Bibserver

BibSoup 方法鼓勵在貢獻時間不進行去重的條件下貢獻開放書目。我們預計,隨著它的發展,將開發出幫助使用者和維護者管理資訊的服務。去重到中央儲存庫可能是一個解決方案(假設 STM 書目條目具有柏拉圖式的同一性),但我們也預計基於 RDF 的軟體將允許工具管理書目資料的替代表示,讓使用者選擇他們要採取的策略。簡而言之,當前的 STM 書目是一個分散式的混亂。BibSoup 將此作為起點,在有政治意願和資金支援的情況下,提供整理這些資訊的方法。BibSoup 由多個書目集合組成(最初在 STM 領域),這些集合由通用語法統一。人類和機器可以開發這些集合元件之間的註釋和等價關係。因此,例如,可以在 arXiv、DBLP 甚至 Medline 中找到關於“同一篇論文”的各種記錄。確定兩個記錄是否與“同一物件”相關的問題很困難且有爭議,BibSoup 有意避免這個問題。它只是一個以 BibJSON 表示的書目記錄集合,提供給其他人使用。它可能在 BibServer 的一個例項中,在一個檔案中,或者所有這些的組合;這只是一個範圍問題。有關更多詳細資訊,請參閱 http://bibserver.org/about/bibsoup/http://bibserver.org

[edit | edit source]

增加不同元資料格式之間互操作性的一個常見方法是提供跨系統搜尋(元搜尋)。雖然元資料保留在本地儲存庫中,但本地搜尋系統接受來自遠端搜尋系統的查詢。

Z39.50 國際標準 Z39.50 是最著名的跨系統搜尋協議。該協議不需要共享或複製元資料,而是提供特定的搜尋功能,這些功能對映到透過 Z39.50 協議理解的一組通用搜索屬性。

示例

  • 美國國會圖書館,SRU:透過 URL 網頁搜尋/檢索 http://www.loc.gov/standards/sru/。一種在 URL 中傳遞類似 Z39.50 的搜尋查詢的標準協議,使用通用查詢語言。

元資料收集協議

[edit | edit source]

增加不同元資料格式之間互操作性的另一種方法是透過實施特定的收集協議,例如開放檔案倡議元資料收集協議 (OAI/PMH)。與這些協議相容的系統可以將元資料公開,供外部搜尋服務使用和/或包含在聯合資料庫中。

開放檔案倡議 (OAI) 協議 開放檔案倡議元資料收集協議 (OAI-PMH) 是一種協議,其目標是提供和促進一種與應用程式無關的互操作性框架,可供各種參與在網路上釋出內容的社群使用。開放檔案倡議要求每個元資料提供者將其元資料轉換為一組共同的關鍵元素,以便進行收集。然後將這些元資料收集到一個具有統一元資料格式的中心索引中,以便允許跨儲存庫搜尋,而不管元資料提供者在其自身儲存庫中使用的原生元資料格式。有關更多資訊,請訪問 http://www.openarchives.org/。另請參閱有關 OAI 資料提供者實施最佳實踐和可共享元資料的更多資訊,請訪問 http://webservices.itcs.umich.edu/mediawiki/oaibp/index.php/Main_Page(數字圖書館聯盟和國家科學數字圖書館的聯合倡議)。

示例

  • NSDL 元資料儲存庫採用基於 OAI-PMH 的自動化“攝取”系統,元資料以最少的人工干預流入元資料儲存庫。從這個角度來看,NSDL 本質上充當元資料聚合器。此過程背後的理念是,每個元資料記錄包含關於特定資源的一系列語句,因此來自不同來源的元資料可以聚合在一起以構建該資源更完整的配置檔案。因此,多個提供者可能會為增強的元資料記錄做出貢獻。這些增強功能透過 OAI-PMH 公開,元資料儲存庫可以隨後收集它們。
  • 密歇根大學的 OAIster 搜尋服務包含數百萬條記錄,這些記錄來自數百個透過 OAI-PMH 收集的數字化文化遺產資料。請訪問 OAIster 網站 http://www.oaister.org/

多語言主題訪問 (MACS)

多語言主題訪問 (MACS) 專案說明了另一種基於價值的對映方法,用於實現現有元資料資料庫之間的互操作性。MACS 是一個歐洲專案,旨在允許使用者跨不同語言的合作伙伴圖書館的圖書館編目資料庫進行搜尋,目前包括英語、法語和德語。具體來說,該專案旨在透過建立三種主題詞表之間的等效連結,為圖書館目錄提供多語言主題訪問:用於德語的 SWD/RSWK(Schlagwortnormdatei/Regeln für den Schlagwortkatalog)、用於法語的 Rameau(Répertoire d'autorité-matière encyclopédique et alphabétique unifié)和用於英語的 LCSH(Library of Congress Subject Headings)。

華夏公益教科書