跳轉至內容

開放元資料手冊/技術概述

來自華夏公益教科書

元資料的解剖

[編輯 | 編輯原始碼]

要理解一段元資料,您需要了解它使用的特殊“語言”(結構)。這種“語言”就像軍隊用來對訊息進行混淆的秘密程式碼,但對於元資料,我們對其進行“混淆”,以便計算機可以理解它,而用來破譯它的“程式碼本”稱為“元資料標準”(它使用稱為模式、資料模型、元素等內容編寫)。

元資料標準的目的是使更容易找到用類似術語和結構描述的類似專案 - 當描述是自由形式或自由文字時,這更難。

為此,元資料標準旨在指定三個層級

  1. 詞彙表(資訊是什麼):一組特定的元資料元素(欄位),可用於描述物件
  2. 格式(上述資訊如何排列):資料模型(結構)
  3. 語法(上述格式如何表達,即寫下來):特定的序列化和資料格式。

因此,每個元資料記錄都包含描述物件的各種元資料元素,這些元素被組織成特定的資料格式,並根據特定的序列化(通常是 XML 或其他機器可讀格式)表達。

元資料元素定義用於表達元資料模式內容的詞彙表(欄位名稱)。

元資料資料模型描述元資料模式的語法,獨立於正在使用的詞彙表。它確定資料的結構,即建立的用於構建元資料欄位或元素的規則(而不是其內容)。

序列化將元素和資料模型放入實際的位和位元組資料中。每個元資料格式都必須表達成特定的標記語言或序列化(JSON、XML 或其他)。但是,並非每個元資料模型都必須依賴於一種特定的序列化。同一個元資料模型可以在多種不同的標記或程式語言中表達,每種語言都需要不同的語法。

保持格式儘可能簡單,降低了符合標準的門檻。臨時元資料格式更容易處理,文件易於解析,沒有層次依賴關係,它們對於資料庫插入和提取非常方便(例如 Google 的 bigtable、couchdb、非關係型資料庫、NoSQL 等)。但是,大多數這些標準本質上是相互不相容的,除非提供適當的文件,否則無法對其進行處理。標記語言的含義在解析器的邏輯中實現:每個解析器都定義了自己的規範,其中包含一系列可以被認為有效的特定標記(例如 Facebook、Twitter、Google 的 API)。

有關了解元資料的良好參考資料,請訪問以下地址:http://www.niso.org/publications/press/UnderstandingMetadata.pdf

為什麼它們不同

[編輯 | 編輯原始碼]

在元資料的背景下,一刀切並不適用。不同的社群對元資料的需求不同,並將元資料用於各種各樣的應用。即使在具有共同元資料需求的社群中,不同的元資料格式也用於表示不同的內容。

特定於圖書館的標準缺乏標準化。許多圖書館標準,例如 MARC 或 Z39.50,是在特定於圖書館的背景下開發的或正在開發中。圖書館的標準化通常由僅致力於該領域的機構進行,例如國際圖聯或 RDA 開發委員會。

常見的元資料元素

[編輯 | 編輯原始碼]

元資料元素可以細分為三個基本類別

  1. 描述性元資料元素(內部):提供有關物件的內容和背景的資訊
  2. 技術或結構化元資料元素(容器):提供有關物件的格式、過程和關係的資訊
  3. 管理元資料元素(外部):提供管理或使用物件所需的資訊

物件通常也有一個唯一的識別符號元資料元素。

示例

大多數標準都可以擴充套件,加入更適合專業社群需求的其他元資料元素。例如,都柏林核心元資料倡議提供了一個用於設計都柏林核心應用程式配置檔案 (DCAP) 的框架。不同的社群可以定義更適合其需求的專業元資料記錄,同時在全球定義的詞彙表和模型的基礎上保持語義互操作性。

在本節中,我們將概述用於發現、識別和描述不同型別作品(如書籍、文章、唱片、照片、電影、藝術品等)的關鍵元資料元素。

有關更詳細的概述,請參閱,例如http://www.w3.org/2005/Incubator/lld/XGR-lld-vocabdataset/#Metadata_Element_Sets

文學作品

[編輯 | 編輯原始碼]

描述性元資料

  • 創作者(考慮到某些書籍可能是匿名的)
  • 標題
  • 編輯
  • 出版者
  • 出版日期
  • 出版地點
  • 識別符號(例如 ISBN、ISSN、DOI 等)
  • 連結(例如,如果線上,則為 URL)
  • 型別(例如,參考書、百科全書、小說等)
  • 主題(標籤)
  • 描述(摘要)

技術/結構化元資料

  • 語言
  • 頁數
  • 卷(如果適用)
  • 起始頁/結束頁(例如,用於書籍章節或文章)
  • 格式(例如,精裝本、平裝本、數字格式、pdf、html 等)

管理元資料

  • 建立時間
  • 首次出版日期
  • 創作者的出生/死亡日期
  • 版權狀態
  • 上次訪問/上次更新日期(對於線上作品)


描述性元資料

  • 創作者
  • 標題
  • 主題(標籤)
  • 描述(摘要)。

技術/結構化元資料

  • 相機
  • 光圈
  • 曝光
  • 檔案格式
  • 集(如果在一個系列中)

管理元資料

  • 建立時間
  • 版權許可
  • 來源(歷史)

常見的元資料格式

[編輯 | 編輯原始碼]

本節旨在概述文獻領域中常用的元資料格式。我們只關注幾個例子,詳細描述最常用的格式,而不是提供所有可用格式的綜合列表。對於每種元資料格式,我們將重點介紹其引入的歷史背景、其旨在達成的目標、其相應的優缺點,以及在可能的情況下,來自參與該元資料格式開發或使用過程中的關鍵個人的個人備註或引言。

非結構化資料

[編輯 | 編輯原始碼]

非結構化資料是指沒有預定義的資料模型,或其資料模型不適合關係型資料庫。非結構化資訊通常以文字形式呈現,其中包含相關資料,例如日期、數字或其他事實。與儲存在資料庫中的記錄或語義標註到文件中的資料相反,非結構化資料會產生一系列歧義和不規則性,這使得機器難以處理或理解。如果選擇的資料結構沒有被適當地記錄,或者不適合所需的處理任務,那麼帶有某種結構的資料可能仍然被視為非結構化資料。

非結構化資料可以透過多種方法轉換為結構化資料。對文字進行結構化的常用技術通常包括使用元資料進行手動標記、資料探勘或文字分析技術。例如,儘管大多數維基百科內容是非結構化資料,但透過處理這些資訊,可以提取含義並建立關於資訊的結構化資料。DBpedia 是一項從維基百科中釋出結構化資料的努力:這些資料以 RDF 格式釋出,並在網路上根據 GNU 自由文件許可協議提供使用,從而允許語義網路代理對維基百科派生的資料集進行推理和高階查詢,並促進在其他資料來源中的互聯、重用和擴充套件。

結構化資料

[編輯 | 編輯原始碼]

MARC 是一種國際描述性元資料格式。MARC 標準定義了以下元件

  • 標記:元資料元素集
  • 語義:元素的含義(儘管其內容由其他標準定義)
  • 結構:通訊語法

存在許多不同的 MARC 版本:國家機構(法國、美國、英國等)最初開發了自己的國家 MARC,這些 MARC 後來統一成為一個國際化的 UNIMARC。然而,近年來,由於美國 MARC 被納入美國目錄,並且這些目錄的資料也被輸出到美國以外,因此美國 MARC 已經取代了 UNIMARC。在實踐中,今天,不同國家的圖書館目錄可能使用不同的 MARC 版本。

MARC 欄位與國際標準書目描述 (ISBD) 相連,ISBD 由國際圖書館界經過幾十年的發展而成,其中元素用標點符號標記。儘管 ISBD 可能看起來很複雜,但也允許非常簡單的使用,例如:標題 / 作者。- 城市:出版商,年份。

優點

  • XML 序列化
  • MARC 21 以 XML 結構表示。
  • 互操作性
  • 由於其長期以來的普及,已經開發出一套協調一致的工具來提高 MARC 21 與其他元資料格式的互操作性:例如,在其他標準格式(DC、ONIX 等)之間進行轉換。
  • 廣泛使用基於 MARC 的書目工具和 ILS 實現,以用於標準通訊格式,以獲得可預測的內容和記錄共享:例如,將 MARC 21 標準化以用於 OAI 收穫;

缺點

  • 過時
  • MARC 編目標準正在慢慢過時。MARC 非常適合描述書籍,但不適合其他型別的媒體。問題在於 MARC 是為了描述單一齣版物(即專著)而設計的。隨著網際網路的普及,MARC 的使用可能會變得更加困難,因為多媒體格式需要不同的元素和類別。

與 MARC 21 一樣,MAB 2 是 ISO-2709 格式家族的一部分。MAB 代表 “Maschinelles Austauschformat für Bibliotheken”(圖書館自動化交換格式),在某些方面與 MARC 非常相似,其結構並非那麼靜態,即存在指向語義相關概念的連結。總的來說,MAB 更加多樣化。

就像 MARC 一樣,存在許多不同的 MAB 版本。

優點

  • XML 序列化
  • MAB 2 可以用 XML 結構表達。

缺點

  • 互操作性不強
  • 只有少數圖書館聯盟使用 MAB
  • 可用的工具數量不如 MARC 多
  • 過時
  • 與 MARC 一樣,MAB 也早已過時,應該用更適合我們當今資訊科技的東西取代它。請記住 MARC/MAB 已經有 40 年曆史了——在 70 年代,磁帶是常見的儲存介質。

個人備註 MAB 是一種遺留格式,應該儘快透過 MARC 棄用(德語維基百科說 2012 年)。在我看來,這樣做沒有多大意義,因為 MARC 本身就已過時,並且將資料轉換為 MARC 最終只會導致一些資訊的丟失。

BibJSON (http://bibjson.org/) 是一種簡單的描述,說明如何在 JSON 中表示書目元資料。它也基於 BibTeX 模型。

JSON 物件是一個無序的鍵值對列表。BibJSON 物件是作為 JSON 物件的書目記錄。

BibJSON 只是 JSON,但對預期含義的特定鍵有一些約定。正在編寫各種解析器,以便將其他格式轉換為 BibJSON,從而使人們更容易共享書目記錄和集合。參見 http://bibserver.okfn.org/roadmap/open-bibliography-for-stm/http://www.bibkn.org/bibjson/index.html

語義資料和連結資料

[編輯 | 編輯原始碼]

W3C 標準資源描述框架 (RDF) 提供了一個定義和使用元資料的概念框架。它可以細分為不同的元件

RDF - 資源描述框架: 這是語義網路的基本標準,描述了所有其他語義網路標準都基於的資料模型。RDF 資料模型對應用程式資料模型的表達施加了結構約束,以確保元資料的編碼、交換和處理的一致性。它定義了三元組的概念和基本規則,使這些資料能夠在網路空間中發揮作用。RDF 被表述為概念和本體的層級結構,可以無限擴充套件。資源的描述基於物件和屬性,這些物件和屬性本身也在 RDF 中被描述。

RDFs - RDF 模式: 雖然 RDF 是一套規則,沒有實際編碼,但 RDFs 提供了編碼,使 RDF 能夠透過應用程式“變為現實”。

RDFa - 資源描述和訪問 使您能夠將語義網路資料包含在 XHTML 頁面中,與蒂姆·伯納斯-李最初的設想一致。(今天許多連結資料不是在網頁中找到的,而是從傳統的資料庫 (DBMS) 中匯出,並且存在於網路上,但與特定網頁文件無關。)

OWL - 網路本體語言: OWL 是 RDF 的一個子集(就像 RDF/xml 是 XML 的一個子集一樣)。它使任何人都能夠建立新的詞彙表來描述不同的資源。這些詞彙表提供了語義連結,需要從 RDF 三元組定義的原始資料中提取資訊。已經開發了各種本體,每個本體都有特定的目的。如果現有的本體都不適合特定應用程式,則可以建立一個新的本體。“本體”是對元資料將要處理的知識空間的描述。使用 OWL,您可以定義您的實體和所有元素和關係。您可以包含管理您的資料的規則,以及一些元素之間關係的規則,這些規則將有助於在像網路這樣的異構混合資料環境中理解您的資料。

概述

在 RDF 中,所有內容都基於“語義三元組”的概念:主體、屬性、客體

  • 主體是透過 URI / URL 識別的資源
  • 屬性是另一個透過 URI 識別的資源。它必須在其他地方定義(例如,它們可以從字典、名稱空間、模式或本體中提取)
  • 客體可以是 URI 或“值”:字串、數字等。

主體和客體最終也可以是空白節點 (http://en.wikipedia.org/wiki/Blank_node).

RDF 沒有特定的應用領域。它定義了一些基本概念,供其他本體構建在其之上。這些基本元素是

  • 類:資源、類、屬性、列表、文字、數字等。
  • 屬性:'to be' => 'type'、subClassOf、subPropertyOf、label 等。

所有其他內容都可以由此推匯出來。這些元件類似於口語的元件 - 例如,“朱迪擁有斯帕特(一種動物)”是“主體屬性客體(類)”,而客體可以在另一個三元組中充當主體,例如“斯帕特是一隻狗”(因此我們可以推斷出朱迪擁有一隻狗)- 這意味著 RDF 功能強大,因為它可以用來描述幾乎所有東西!

任何人都可以建立一個 RDF 文件來建立/描述一個尚未存在的類或屬性。一旦它被定義,它就可以像任何其他類或屬性一樣使用。就像面向物件程式設計一樣,人們可以透過擴充套件其他類來建立新類,RDF 允許透過擴充套件其他概念來建立新概念。唯一的區別是 RDF 是屬性導向的,而不是面向物件的。

例如,FOAF 本體提供了 Foaf:Person 的定義,作為以下描述的 RDF:Class

<rdf:type rdf:resource="http://www.w3.org/2002/07/owl#Class"/>    // the entity is of type OWL Class
rdfs:label="Person"                                               // the name of the entity is "Person"
rdfs:comment="A person."
<rdfs:subClassOf><owl:Class rdf:about="http://xmlns.com/foaf/0.1/Agent"/></rdfs:subClassOf>      // the entity is a subclass of the Class Agent
<owl:disjointWith rdf:resource="http://xmlns.com/foaf/0.1/Org"/>  // the entity has the property of being disjoint with the entity Organisation

例如,參見 http://www.w3.org/People/Berners-Lee/card.rdf,它使用各種詞彙表(OWL)來描述伯納斯-李

優點

  • 可擴充套件性和適應性
  • RDF 可以用三種不同的方式表達(turtle、n3、xml)。
  • RDF 允許不同的社群定義自己的語義:任何人都可以基於預先存在的本體建立新的本體來描述新的資源。
  • RDF 允許在同一個 RDF 檔案中整合無限數量的本體(作為術語/屬性/資源字典)。
  • 流行度
  • RDF 得到 W3C 的認可,並用於許多學術專案。在網上很容易找到維護良好且有良好文件的 RDF 本體。
  • 開放式書目資料
  • 許多本體(OWL)可以被開放式書目工作採用,因為它們已在開放許可下提供。
  • 使用 RDF,所有資料都可以使用開放標準和連結資料 (http://en.wikipedia.org/wiki/Linked_Data) 共享。
  • SPARQL
  • SPARQL 是一種功能強大的查詢系統,可用於查詢已插入 RDF 元資料的任何資料庫。
  • 這是為語義網設計的 SQL 等效物。它允許構建連結資料的查詢。

缺點

  • 外部依賴
  • 在可以用來描述任何東西之前,RDF 必須依賴一個或多個外部源。
  • 資源密集型
  • RDF 可能需要大型三元組儲存(具有數億個三元組)和 SPARQL 系統,這些系統可能會變得過於沉重。許多機構目前沒有足夠的設施來很好地處理這個問題。
  • 對於像管理幾百萬條書目記錄這樣簡單的書目任務來說,負擔過重且缺乏可擴充套件性。
  • 開放式書目資料
  • RDF 作為抽象模型可能很好,但它在開放式書目用途中的實際實施仍有待提供和支援。只有大型企業才能管理處理 RDF 所需的基礎設施。
  • SPARQL
  • 使用 SPARQL,如果查詢不可完全預測,則可能會導致 NP(即它可能無法在任何確定的時間內返回)

Schema.org

[edit | edit source]

Schema.org 是一個由必應、谷歌和雅虎於 2011 年 6 月 2 日發起的倡議,旨在將語義網的概念引入網站。2011 年 11 月 1 日,Yandex(俄羅斯最大的搜尋引擎)加入了該倡議。世界上最大的搜尋引擎的運營商建議使用微資料根據其模式將網站內容標記為關於自身的元資料。這些模式可以被搜尋引擎蜘蛛和其他解析器識別,從而獲得對網站含義的訪問許可權。該倡議從少數格式開始,但長期目標是支援更廣泛的模式。Schema.org 提供了一組模式(即 html 標籤),可用於簡單的書目資料,目前正被主要的搜尋引擎公司(例如谷歌、必應、雅虎)推廣。許多網站都是從結構化資料生成的,這些資料通常儲存在資料庫中。當這些資料被格式化為 HTML 時,恢復原始結構化資料變得非常困難。許多應用程式,尤其是搜尋引擎,可以從直接訪問這些結構化資料中獲益良多。頁面內標記使搜尋引擎能夠理解網頁上的資訊,並提供更豐富的搜尋結果,以便使用者更容易在網上找到相關資訊。標記還可以啟用使用結構的新工具和應用程式。

釋出非結構化資料的 OPAC 會生成看起來像這樣的 HTML

<div> 
<h1>Avatar (Mysteries of Septagram, #2)</h1>
 <span>Author: Paul Bryers (born 1945)</span> 
 <span>Science fiction</span>
 <img src="http://coverart.oclc.org/ImageWebSvc/oclc/+-+703315758_140.jpg">
</div>

以下是將元資料嵌入 Schema.org 格式後的資料外觀示例

<div itemscope itemtype="http://schema.org/Movie">
  <h1 itemprop="name">Avatar</h1>
  <div itemprop="director" itemscope itemtype="http://schema.org/Person">
  Director: <span itemprop="name">James Cameron</span> (born <span itemprop="birthDate">August 16, 1954</span>)
  </div>
  <span itemprop="genre">Science fiction</span>
  <img src="http://coverart.oclc.org/ImageWebSvc/oclc/+-+703315758_140.jpg" itemprop="image">
  <a href="../movies/avatar-theatrical-trailer.html" itemprop="trailer">Trailer</a>
</div>

通用詞彙表

[edit | edit source]

請參見:http://www.w3.org/2005/Incubator/lld/XGR-lld-vocabdataset/


都柏林核心 (DC)

[edit | edit source]

都柏林核心是一個詞彙表,可以潛在地合併到任何元資料標準中。都柏林核心元資料倡議是一個聯盟,釋出針對每種元資料型別的不同規範,以便 DC 可以用在任何地方。

都柏林核心可以用兩種方式使用

  1. 一組預定義的元資料元素 - 準備在其他元資料標準中重複使用(例如 FOAF)
  2. 具有其自身資料格式和序列化功能的獨立元資料模式。

都柏林核心的獨立實現通常使用 XML 並基於資源描述框架 (RDF),但都柏林核心也可以在純 XML (http://dublincore.org/documents/dc-xml-guidelines/)、HTML 或文字中實現。(對於任何 RDF 定義的元資料來說,這都是正確的,它們的屬性在 RDF 中定義,RDF 是序列化中立的。)

都柏林核心可用於描述書籍等物理資源、影片、聲音、影像或文字檔案等數字材料以及網頁等複合媒體。基於都柏林核心的元資料記錄旨在用於跨域資訊資源描述,並已成為圖書館學和計算機科學領域的標準。

簡單都柏林核心元資料元素集 (DCMES) 包含 15 個元資料元素:標題、建立者、主題、描述、出版商、貢獻者、日期、型別、格式、識別符號、來源、語言、關係、覆蓋範圍、權利。但還有許多其他術語可用。有關更多資訊,請參見:http://dublincore.org/documents/dcmi-terms/ http://dublincore.org/2010/10/11/dcterms.rdf

都柏林核心允許實現“應用配置檔案”以擴充套件標準詞彙表。應用程式中使用的域模型通常基於更廣泛使用的域模型;例如,通用的功能要求書目記錄 (FRBR) 模型是圖書館界資源描述的重要參考點。

優點

  • 都柏林核心是一個穩定且定義良好的標準。
  • 它提供了一組語義上可互操作的屬性的核心。
  • 它由一系列已明確且準確定義的欄位組成。
  • 它是一個可以作為資料庫工作規則實施的良好標準,對該資料庫有完全控制權。

缺點

  • 如果需要處理可能包含或可能不包含所有必需元素的第三方資料,就會出現問題。
  • 獨立實現無法從都柏林核心範圍之外的其他元資料中受益:例如,一張照片可能包含以下元資料:拍攝照片的相機型別、設定(光圈值、變焦級別、ISO..)、位置等。即使它是有效的元資料,這種資訊也超出了都柏林核心的範圍,無法考慮。[但是,請注意,任何自由格式或可擴充套件的元資料系統(例如鍵值對)都足以解決該缺陷]

朋友的朋友 (FOAF) RDF 詞彙表,使用 W3C RDF 模式和 Web 本體語言進行描述。它被構思為用於描述組和人員,它提供基本屬性和資源來表達以下概念:朋友、兒子、居住地、工作地、認識某人、是我的、等等

有關更多資訊,請參見:http://xmlns.com/foaf/0.1/index.rdf http://www.foaf-project.org/

BIBO 本體是都柏林核心用於描述書目資料的擴充套件。書目本體規範提供了描述引文和書目參考(即引用、書籍、文章等)的主要概念和屬性。

書目記錄功能需求 (FRBR) 標準化了對任何編目人員都必不可少的術語和關係集。FRBR 既是一個通用模型,也是一組屬性。有關更多資訊,請參見:http://metadataregistry.org/schema/show/id/5.html

資源描述與訪問 (RDA) RDA 是 FRBR 模型的實現。它大約有 1400 個屬性和 60 多個術語列表。它涵蓋文字、聲音、電影、製圖材料和物體,以及檔案材料。 http://metadataregistry.org/rdabrowse.htm/

簡單知識組織系統 (SKOS) 是一種專門用於編碼術語列表和詞典的語言。它提供了一個 RDF 模型來表達概念體系的基本結構和內容,例如詞典、分類方案、主題詞表、分類法、大眾分類法和其他類似型別的受控詞彙。


SKOS 可以單獨使用,也可以與更正式的語言(如 Web 本體語言 (OWL))結合使用。SKOS 的目標不是替換原始的概念詞彙在它們最初使用環境中的作用,而是允許將它們移植到一個共享空間,基於一個簡化的模型,從而實現更廣泛的重用和更好的互操作性。

SKOS 引入了 skos:Concept 類,它允許實現者斷言給定的資源是一個概念。它還具有內建的關係,例如“比...更廣泛”和“比...更窄”。在基本的 SKOS 中,概念資源(概念)用 URI 標識,用一種或多種自然語言進行標註,用各種型別的註釋進行記錄,在非正式的層次結構和關聯網路中彼此語義相關,並聚合到概念體系中。它還提供首選和備用顯示形式。

更多資訊請訪問 http://www.w3.org/TR/skos-primer/

通用序列化模式

[編輯 | 編輯原始碼]

Turtle RDF 序列化易於理解,人類以原始形式閱讀/編輯很容易,而且就 RDF 而言相對緊湊。Turtle 的主要優點如下:

名稱空間

一直寫完整的 URI 會佔用很多空間。Turtle 允許宣告名稱空間來為它們新增字首。所有字首都應該放在 Turtle 檔案的開頭。字首: @prefix bibo: <http://purl.org/ontology/bibo/> 使得 bibo:Book 將被解釋為 <http://purl.org/ontology/bibo/Book>

型別化資源

RDF 規範定義了屬性 rdf:type(注意字首的使用),它用於為特定資源型別化。Turtle 中 rdf:type 的快捷方式是 a。編寫 bibo:Document a bibo:Book 將被解釋為 bibo:Document rdf:type bibo:Book

空白節點

空白節點是編寫查詢時一個很好的快捷方式。它們用方括號 [] 表示。空白節點可用於引用主體:例如,存在一本名為“哈姆雷特”的書 [] a bibo:Book ; dc:title "Hamlet"^^xsd:string . 或 RDF 語句的賓語:例如,這本書是由一個名叫“威廉”的人寫的 bibo:Book dc:creator [ a foaf:Agent ; foaf:name "William"^^xsd:string ] .

XML 適用於可以用扁平記錄標記的資料。

JSON 是一種基於記錄的序列化。JSON 模式本身可以用 JSON 模式來描述。核心 JSON 模式的自描述 JSON 模式可在 http://json-schema.org/schema(最新版本)或 http://json-schema.org/draft-03/schema(草案-03 版本)找到。超模式自描述可以在 http://json-schema.org/hyper-schemahttp://json-schema.org/draft-03/hyper-schema 找到。

MARC 是另一種序列化模式,可以承載各種資料型別(作為 ISO 2709)

MAB 用於一些德語國家(德國、奧地利)。基於 ISO 2709,MAB 與 MARC 相似。ISO 2709 主要對應於 1971 年的美國標準 Z39.2。ISO 標準起源於 1973 年,最初打算用於在磁帶上交換書目資料。

示例(誰使用什麼)

[編輯 | 編輯原始碼]

英國/美國的主要圖書館使用 MARC21,許多歐洲圖書館也是如此。在德國,廣泛使用的是 MAB2 和 Pica。這些格式用於記錄建立、資料交換和內部儲存。

越來越多的知名機構正在投入資源到關聯資料專案中,從瑞典、匈牙利、德國、法國的國家圖書館、美國國會圖書館和英國圖書館,到聯合國糧食及農業組織,以及 OCLC。這些機構可以提供一個穩定的基礎,讓圖書館關聯資料隨著時間的推移而建立。請參閱 http://ckan.net/group/lld 以獲取圖書館資料集的全面列表。

美國國會圖書館

[編輯 | 編輯原始碼]

SKOS、MADS

  • 數字圖書館專案(美國國會圖書館)

AV-Prototype:音訊和影片的數字儲存使用 METS 和 MODS,重點關注元資料編目報告作為中間級描述


聯合國教科文組織的 CDS/ISIS 圖書館軟體

[編輯 | 編輯原始碼]

通用通訊格式 (CCF)

英國國家圖書館

[編輯 | 編輯原始碼]

帶有英國國家圖書館術語本體的 RDF 請參閱 http://www.bl.uk/bibliographic/pdfs/british_library_data_model_v1-00.pdf http://www.bl.uk/bibliographic/pdfs/britishlibrarytermsv1-00.pdf

知識共享

[編輯 | 編輯原始碼]

知識共享成立於 2001 年,當時關於數字版權管理 (DRM) 的辯論非常激烈,語義網 (RDF) 技術也正在發展。知識共享意識到,元資料可以用來使免費作品更有用(例如,透過促進發現和 來源),顛覆 使非免費作品失去有用性的 DRM 正規化。Aaron Swartz 領導了知識共享 RDF 模式的開發,該模式仍然是大多數後續知識共享元資料工作的基礎。多年來,知識共享也從與微格式社群的互動中受益,最近還領導了 學習資源元資料倡議,這是由開放教育社群長期存在的額外元資料需求以及由於 schema.org 而對網路資料的重新關注所促成的。

知識共享元資料的風險和弊端與元資料的一般風險和弊端沒有什麼不同:除非元資料生產和釋出與其他目標和流程緊密結合,否則它往往會很昂貴而且錯誤。知識共享試圖透過將其 許可證選擇器 作為副產品提供元資料,鼓勵其他服務和軟體也這樣做,並且不將元資料作為正確使用知識共享許可證的要求(而是一種最佳實踐)來減輕這種風險。

知識共享元資料有兩個主要部分:作品描述和許可證描述。作品描述使用來自都柏林核心、SIOC 以及知識共享開發的一些屬性來提供有關作品的資訊,包括識別作品釋出的許可證(或者在適當情況下,公共領域授權或標記)以及遵守許可證所需的資訊,例如,歸屬方的姓名以及與作品的版權資訊相關的連結,用於歸屬目的。知識共享許可證自描述其許可權、要求和禁止事項。

CC REL 是一套關於 Creative Commons 元資料實現和使用的建議,重點關注網路註釋 (RDFa),以及一種將元資料嵌入檔案 (XMP) 中的工具,該工具引用了網路註釋。使用 RDFa 允許以細粒度的方式對作品進行註釋(例如,網頁或連結到或包含的特定物件),與旨在供人類閱讀的描述並置,並與更廣泛地關注作品或相關作品的註釋和描述混合在一起。

有關更多資訊,請參閱

歐洲數字圖書館資料模型 (EDM)

[edit | edit source]

http://pro.europeana.eu/edm-documentation

歐洲數字圖書館最初從數百家文化機構收集元資料,使用基於簡單 Dublin Core 的扁平通用元資料格式。這種簡單的解決方案,類似於傳統的記錄方法,允許歐洲數字圖書館以最小的努力處理高度異構的元資料輸入。但它丟失了歐洲數字圖書館合作伙伴精心製作的細粒度元資料中的一些豐富性。它在提供框架以生成和交換豐富的文化物件與其自然相關的個人、地點和其他物件連線的資料方面也很差。這反過來導致為使用者提供的服務(搜尋、顯示)質量較差。

在 2008 年到 2011 年之間,歐洲數字圖書館研究了一種新的框架,用於收集、連線和豐富元資料,該框架受語義網和連結資料技術的啟發:歐洲數字圖書館資料模型 (EDM)。該模型重新使用現有的詞彙表,例如 Dublin Core、SKOS、OAI-ORE,並將其適應歐洲數字圖書館的上下文:從技術上講,它是這些詞彙表的“應用程式配置檔案”(http://dublincore.org/documents/profile-guidelines/)。它也受到 CIDOC-CRM 的啟發。

EDM 使得能夠表示複雜的物件,尤其是檔案或圖書館領域中的層次結構物件。例如,在書籍方面,可以將各個章節、插圖和索引視覺化為一個整體。此外,EDM 可以顯示物件的多個檢視(繪畫、書籍),包括關於物理物件和數字化表示的資訊,既有區別又有聯絡。它區分了物件及其關於該物件的資訊,這有助於表示對給定文化物件的不同視角,這是與豐富相關的重要的要求。

最後,它允許歐洲數字圖書館以實體(地點、代理人、時間段)的形式表示上下文資訊,這些實體在資料中明確表示並與文化物件相關聯。這是文化遺產領域的一項關鍵功能,在該領域,諸如 Thesaurus、Gazetteers 和姓名權威檔案之類的知識組織資源被廣泛使用,並且可以提供給歐洲數字圖書館和更廣泛的連結開放資料空間。

EDM 是與圖書館、博物館、檔案館和視聽收藏領域的專家共同開發的。雖然它在歐洲數字圖書館的實施仍在進行中,但它已經針對特定領域的元資料進行了測試,例如博物館的 LIDO、檔案的 EAD 或數字圖書館的 METS。作為一項高階功能,EDM 旨在允許幾種“粒度”的元資料無縫共存:它應該能夠以儘可能接近原始模型的方式表達元資料,同時仍然允許使用專業化級別和更通用的級別(如 Dublin Core)之間的對映來實現互操作性。幾個案例研究 (http://pro.europeana.eu/case-studies-edm) 說明了將 EDM 應用於文化遺產收藏的挑戰和益處。

開放影像平臺

[edit | edit source]

Open Images 是一個開放媒體平臺,提供對視聽檔案資料的線上訪問,以刺激創意重用。可以下載來自視聽收藏的素材,並將其重新混音到新的作品中。Open Images 的使用者還可以將自己的素材新增到平臺上,從而擴充套件收藏。Open Images 還提供 API,方便開發混合應用。

所有 Open Images 媒體專案及其元資料可以透過 開放檔案倡議元資料收集協議 (OAI-PMH) API 訪問。這允許第三方以結構化方式訪問 Open Images。OAI-PMH 是機構和平臺之間資料和元資料共享的強大工具。例如,OAI-PMH 可用於收集伺服器上所有可用資料,或請求特定記錄和定期更新。

Open Images OAI 實現使用兩種不同的元資料格式。它們都包含名為“oai_dc”(OAI Dublin Core)的 OAI-PMH 記錄的必需最小資料集。Dublin Core 是一組可以描述物理物件的元素。oai_dc 包含 Dublin Core 指定的 15 個元素。第二組更全面的元資料元素是對這些核心元素的細化。“oai_oi”(OAI Open Images)是 Open Images 特定的實現,它包含了 DC Terms 的混合以及 ccREL 的 XML 解釋。

XSD 用於驗證 OAI-PMH 響應。在這個儲存庫中,必需的 XSD 可用,以及專門為 Open Images 設計的 擴充套件版本


法國國家圖書館 (BnF)

[edit | edit source]

元資料結構

法國國家圖書館設計了一個新專案,以使它的資料在網路上更有用。“data.bnf.fr”收集來自不同資料庫的資料,以便建立關於作品和作者的網頁,以及對提取資料的 RDF 檢視。這涉及轉換現有資料,用內部和外部資源豐富和互聯資料集,以及釋出 HTML 頁面。原始資料以 RDF 格式訪問,遵循連結資料的原則,具有開放許可(署名)。data.bnf.fr 從這些資料構建關於主要作者和作品的 HTML 頁面,以便立即看到益處。示例:http://data.bnf.fr/11913795/machiavel/ http://data.bnf.fr/11913795/machiavel/rdf.xml

目標

目的是從孤島中獲取資料並將它們放到網路上。所有流程都必須自動進行:我們依賴於在我們所有應用程式中使用持久識別符號 (ARK)。該應用程式使用開源軟體 CubicWeb 構建。http://www.cubicweb.org/ 更多資訊:http://data.bnf.fr/about-en

歷史背景

我們需要從幾種格式中收集資料:MARC(書目資料庫和權威檔案:1400 萬本書)、EAD(檔案和手稿)和 OAI-DC(Gallica 數字圖書館:150 萬件)。這些結構化資料必須使用網路標準進行收集。我們想製作既能有效地用於內部,又能被重複使用的東西。我們使用的詞彙主要有:

  • SKOS:用於概念
  • FOAF:用於人員
  • DC/RDA:用於資源

更多資訊:http://data.bnf.fr/semanticweb-en 批次下載:http://echanges.bnf.fr/PIVOT/databnf_all_rdf_xml.tar.gz?user=databnf&password=databnf

優缺點

優點

- 使“圖書館資料”在網路上完全可用,並具有開放許可 - 資源之間的連結使它們更易於公眾使用 - 演算法幫助我們改進原始資料 - 網路技術使我們能夠了解人們在尋找什麼,並相應地調整我們的服務

缺點

- 原始資料中出現的錯誤 - 規模始終是數百萬資源的問題 更多資訊:http://data.bnf.fr/docs/databnf-presentation-en.pdf

個人說明

“Sed querelae, ne tum quidem gratae futurae cum forsitan necessariae erunt, ab initio certe tantae ordiendae rei absint”。提圖斯·李維,從城邦建立開始,序言 12。聯絡團隊:data@bnf.fr

蓬皮杜中心虛擬博物館

[edit | edit source]

RDF


法國國家檔案館

[edit | edit source]

聯絡:Claire Sibille,法國文化和傳播部國家檔案部檔案處理和資訊化辦公室負責人。法國國家檔案館釋出的用於對地方檔案館進行索引的 Thesaurus W

  • EAD(編碼檔案描述)
  • EAC-CPF(編碼檔案上下文 - 集體、個人、家庭)

歷史:1. XML,2. Excel 表格,3. XML/SKOS(使用 ThManager)今天

  • 每個術語的 URI 標識 + SKOS 定義的術語之間關係
  • 這些術語之間的關係由 RDF 三元組定義
  • 該詞庫已與 RAMEAU 和 DBpedia 對齊

可以以 HTML 或 RDF/XML 格式進行查詢,還可以下載整個資料庫的 rdf 檔案,並透過 SPARQL 請求進行查詢,還可以透過 web API 訪問詞庫

  • URI 可以根據上下文以不同的方式取消引用


加州大學出版社

[編輯 | 編輯原始碼]

使用 METS 和 MODS 來管理免費提供的電子書


MusicAustralia

[編輯 | 編輯原始碼]

MODS 作為澳大利亞國家圖書館和 ScreenSoundAustralia 之間的交換格式,允許與 MARC 資料保持一致



佛羅倫薩國家中央圖書館

[編輯 | 編輯原始碼]

維護義大利圖書的國家書目,並開發 Nuovo Soggettario,一個國家通用詞庫,也可作為 SKOS 在 Creative Commons 2.5 許可證下獲得。宣稱正在“定義作為生產的元資料的關聯資料的線上出版方式”,處於“第一個原型實驗階段”(聯絡人:Giovanni Bergamin):http://thes.bncf.firenze.sbn.it/thes-dati.htm

SNAC:EAC-CPF

[編輯 | 編輯原始碼]

LOCAH:EAC-CPF

[編輯 | 編輯原始碼]

Archive Hub、COPAC 與其他資料庫(例如 BBC、OCLC、LCSH)建立關聯資料鏈接。

華夏公益教科書