跳到內容

開放元資料手冊/元資料標準

來自華夏公益教科書,開放世界開放書籍

技術現狀

[編輯 | 編輯原始碼]

序列化方案

[編輯 | 編輯原始碼]
  • Turtle,用於三元組;也包括 RDF/XML
  • XML,用於可以以平面記錄形式進行標記的資料
  • MARC 是一種可以承載多種資料型別的序列化方案(如 ISO 2709)



元資料資料模型

[編輯 | 編輯原始碼]

kc:最好將這些模型分成元資料元素模型和值詞彙表模型。SKOS 將屬於後者。

資料模型明確地確定資料或結構化資料(與內容無關)的結構。元資料資料模型獨立於正在使用的詞彙表,專門描述元資料模式的語法。它僅僅描述元資料“領域”中的實體,獨立於任何序列化。


W3C 標準資源描述框架 (RDF) 是機器可處理語義的預設基礎。RDF 資料模型不是真正的元資料模式,而僅僅提供了一個抽象的概念框架,用於定義和使用元資料或其他元資料模型。它可以用來描述或建立新的模型(物件/屬性),用於對可以使用各種語法格式在 Web 資源中實現的資訊進行概念性描述或建模。

RDF 資料模型對應用資料模型的表達施加結構約束,以便一致地編碼、交換和處理元資料。儘管它並非唯一,但 RDF 絕對是當今使用最多的元資料模型。它是部署最廣泛的模型,也是擁有最多詞彙表的模型。RDF 受到 W3C 和許多大學的認可,它提供了大量已實現和維護的本體和詞彙表。只要 RDF 中已正確實現和維護的所有本體和詞彙表都可供開放式書目工作使用,這些本體和詞彙表就可以輕鬆地被採用,前提是這些本體和詞彙表可供使用,並具有開放許可證。

因此,RDF 沒有特定的領域,它是一個通用框架,必須擴充套件詞彙表和本體才能描述某些內容。資源描述基於物件和屬性,這些物件和屬性本身在 RDF 中進行描述。使用 RDF,因此可以描述/生成用於描述資源或事物的新詞彙表——這些詞彙表本身可能也是詞彙表(例如,各種 OWL 詞彙表)。RDF 被制定為概念和本體的分層結構——最終創造新的概念。就像面向物件程式設計中可以透過擴充套件其他類來建立新類一樣,RDF 允許透過擴充套件其他概念來建立新概念。區別在於 RDF 是屬性導向的,而不是面向物件的。

在 RDF 中,一切都是基於“語義三元組”的概念:主體、屬性、客體

  • 主體是由 URI/URL 標識的資源
  • 屬性是另一個由 URI 標識的資源。它必須在其他地方定義(例如,它們可以從字典、名稱空間、模式或本體中提取)
  • 客體可以是 URI 或“值”:字串、數字等。或者它最終可以是空白節點 (http://en.wikipedia.org/wiki/Blank_node)

RDF 還定義了其他本體可以建立在其上的基本概念。這些基本元素是

  1. 類:資源、類、屬性、列表、文字、數字等。
  2. 屬性:“是”=>“型別”、子類、子屬性、標籤等。

所有其他內容都可以從中推匯出來,即每個詞彙表 RDF/OWL 的每個類始終都是 rdf:class 如果需要一個尚不存在的屬性,可以編寫一個建立/描述它的 RDF 文件。一旦定義了該屬性,它便存在並可以在任何其他 RDF 文件中使用。

例如,FOAF 本體提供了 Foaf:Person 的定義,它是一個 RDF:Class,描述如下

<rdf:type rdf:resource="http://www.w3.org/2002/07/owl#Class"/>    // the entity is of type OWL Class
rdfs:label="Person"                                               // the name of the entity is "Person"
rdfs:comment="A person."
<rdfs:subClassOf><owl:Class rdf:about="http://xmlns.com/foaf/0.1/Agent"/></rdfs:subClassOf>      // the entity is a subclass of the Class Agent
<owl:disjointWith rdf:resource="http://xmlns.com/foaf/0.1/Org"/>  // the entity has the property of being disjoint with the entity Organisation

例如,參見 http://www.w3.org/People/Berners-Lee/card.rdf,它使用各種詞彙表(OWL)來描述伯納斯·李


  • 可擴充套件性和適應性
  • RDF 可以用 3 種不同的方式表達(turtle、n3、xml),並且理論上可以用來描述任何事物。
  • RDF 允許不同的社群定義自己的語義:任何人都可以基於預先存在的本體建立新的本體來描述新的資源
  • RDF 允許在同一個 RDF 檔案中整合無限數量的本體(作為術語/屬性/資源的字典)
  • 流行度
  • RDF 由 W3C 認可,並在許多學術專案中使用。在網上很容易找到維護良好且有良好文件的 RDF 本體。
  • 開放書目資料
  • SPARQL
  • SPARQL 是一個極其強大的查詢系統,可用於查詢已插入 RDF 元資料的資料庫

缺點

[edit | edit source]
  • 外部依賴
  • 為了描述任何東西,RDF 必然要依賴一個或多個外部來源。
  • 資源密集型
  • RDF 可能需要大型三元組儲存(包含數億個三元組)和 SPARQL 系統,這些系統可能變得過於沉重。目前許多機構沒有足夠的設施來很好地處理這些問題。
  • 對於應該簡單的書目任務(例如管理數百萬條書目記錄)來說,負擔過重且缺乏可擴充套件性。
  • 開放書目資料
  • RDF 作為抽象模型可能很好,但它在開放書目目的方面的實際應用仍有待提供和支援。只有非常大的參與者才能管理處理 RDF 所需的基礎設施(而且他們無法保證資料公開)?
  • SPARQL
  • 使用 SPARQL,如果查詢不可完全預測,則可能導致 NP(即無法在任何確定時間內返回)

BibTex  ???

[edit | edit source]

BibTex 是用於格式化參考文獻列表的參考文獻管理軟體。BibTeX 工具通常與 LaTeX 文件準備系統一起使用。它是一個可以擴充套件以支援“字典”(稱為樣式)以涵蓋其他應用領域的系統 - 但它本身不是元資料格式(即使它可以用作元資料格式)。到目前為止,它實際上既用作聚合包含文章元資料的數百萬條參考文獻的格式,也用作提供書目資料的方面顯示的格式。這兩個目的都不是其建立者想要的,但 BibTeX 建立者在 BibTeX 資料模型的靈活性和可擴充套件性方面表現出良好的判斷力,因此它已可用於(儘管被拉伸)這些其他目的。

  • PDF:是否值得提及?它與指南沒有直接關係,而且似乎只增加了我的複雜性。
  • JP:BibTex 當然不應推薦用於新的元資料建立。相反,它的 BibJSON 轉世應該優先考慮,並與 BibJSON 的一些更嚴格的公式一起使用,例如使用 JSON 模式 http://tools.ietf.org/html/draft-zyp-json-schema-03

元資料模式

[edit | edit source]

元資料語法是指建立的用於結構化元資料欄位或元素的規則。單個元資料方案可以用多種不同的標記或程式語言表達,每種語言都需要不同的語法。例如,Dublin Core(一種元資料方案)可以用純文字、HTML、XML 和 RDF 等多種方式表達。原因是 DC 不是一個單一的東西。(KC:不正確。這是因為屬性是在 RDF 中定義的,而 RDF 是序列化中立的。對於任何 RDF 定義的元資料都是如此。)DC 是一個聯盟,它為每種元資料型別釋出不同的規範,以便 DC 可以被用於任何地方和任何方式。


基於元資料資料模型

[edit | edit source]

例如,基於 RDF 的各種 OWL

基於元資料資料模型的元資料模式可以被認為是自描述的元資料:元資料包含足夠的資訊,使元件、其屬性及其與其他實體的關係能夠完全自描述。

OWL(詞彙表) - OWL 基於 RDF。它們提供智慧代理從 RDF 三元組定義的原始資料中提取有價值資訊所需的語義連結。任何與 OWL 相容的東西都必然是 RDF,但反之則不然,因為 OWL 是 RDF 的子集(就像 RDF/xml 是 XML 的子集一樣)已經開發了各種本體,每個本體都有特定的目的。如果現有的本體都不適合特定應用,則可以建立新的本體。

kc:OWL 和 FOAF 屬於完全不同的類別。OWL 是一種用於定義元資料模式的語言,FOAF 是一個實現。它們不應該在同一個部分。

Friend of a Friend (FOAF) RDF 詞彙表,使用 W3C RDF Schema 和 Web 本體語言進行描述。它旨在描述群體和個人,它提供基本屬性和資源來表達諸如以下概念:朋友、兒子、居住地、工作地點、認識某人、是我的、等等有關更多資訊,請參見:http://xmlns.com/foaf/0.1/index.rdf http://www.foaf-project.org/

Dublin Core

[edit | edit source]

描述物理資源(如書籍)、數字材料(如影片、聲音、影像或文字檔案)以及複合媒體(如網頁)。基於 Dublin Core 的元資料記錄旨在用於跨域資訊資源描述,並在圖書館學和計算機科學領域成為標準。簡單 Dublin Core 元資料元素集 (DCMES) 包含 15 個元資料元素:標題、建立者、主題、描述、出版者、貢獻者、日期、型別、格式、識別符號、來源、語言、關係、範圍、權利 Dublin Core 的實現通常使用 XML,並且基於資源描述框架。有關更多資訊,請參見:http://dublincore.org/documents/dcmi-terms/ http://dublincore.org/2010/10/11/dcterms.rdf Dublin Core 應用配置檔案的元件與“領域標準”(社群更廣泛使用的模型和規範)以及 RDF 相關。- 描述集配置檔案基於 DCMI 抽象模型 (DCAM),因為它們指定了 DCAM 的實體如何在特定元資料集中使用。從這個意義上說,DCAM 構成了一種廣受認可的元資料記錄結構元件模型。DCAM 反過來又以 RDF 為基礎。- 描述集配置檔案通常使用標準元資料詞彙表中定義的屬性和類,例如 DCMI 元資料術語。元資料詞彙表反過來又以 RDF 詞彙表描述語言(也稱為 RDF Schema 或 RDFS)為基礎。- 應用中使用的領域模型通常基於更廣泛使用的領域模型;例如,書目記錄功能需求 (FRBR) 通用模型是圖書館界資源描述的重要參考點。


Dublin Core 的擴充套件,用於描述書目資料。書目本體規範提供了描述引文和書目參考文獻(即引文、書籍、文章等)的主要概念和屬性。

POWDER

[edit | edit source]

網路描述資源協議 (POWDER) 是 W3C 推薦的描述網路資源的方法。它指定使用 RDF、OWL 和 HTTP 釋出有關網路資源的元資料的協議。有關更多資訊,請參見:http://www.w3.org/2007/05/powder-s


語義出版與引用本體http://sempublishing.svn.sourceforge.net/viewvc/sempublishing/SPAR/index.html 構成一套正交且互補的本體模組,用於為語義出版和引用的所有方面建立全面的機器可讀 RDF 元資料。SPAR 中的元件本體在下面的花狀圖 (圖 1) 中命名。這些本體可以根據需要單獨使用或結合使用。每個本體都用 Web 本體語言 OWL 2.0 DL 編碼。它們共同提供了描述遠不止簡單的書籍和期刊文章等書目實體的能力,透過使 RDF 元資料能夠被建立來將這些實體與參考文獻、書目記錄、文件的組成部分以及學術出版過程的各個方面聯絡起來。所有 8 個 SPAR 本體 - FaBiO、CiTO、BiRO、C4O、DoCO、PRO、PSO 和 PWO - 都可供檢查、評論和使用。它們可用於描述書目物件、書目記錄和參考文獻、引用、引用計數、引用上下文及其與引文相關部分的關係,以及書目記錄和參考文獻在書目、有序參考文獻列表和圖書館目錄中的組織,文件元件,出版角色,出版狀態和出版工作流程。在適當的情況下,SPAR 本體,特別是 FaBiO(與 FRBR 協調的書目本體)和 BiRO(書目參考文獻本體),採用了 FRBR(書目記錄功能需求)編目模型,這是一個由國際圖書館協會聯合會(IFLA)開發的概念實體關係模型,作為對書目宇宙的廣義檢視,旨在獨立於任何編目規則或實現 [Sau98, Til03]。FRBR 區分作品、表達、表現和專案。

Geo 是一個基本的 RDF 詞彙,它為語義網社群提供了一個名稱空間,用於使用 WGS84 作為參考基準來表示經度、緯度以及關於空間定位事物的其他資訊。有關更多資訊,請參閱:http://www.w3.org/2003/01/geo/

GeoNames 本體使為全球資訊網新增地理空間語義資訊成為可能。現在,超過 620 萬個 GeoNames 地名都有一個唯一的 URL,對應一個 RDF Web 服務。有關更多資訊,請參閱:http://www.geonames.org/ontology/documentation.html kc:本節應將元資料屬性與值詞彙表分開(用於作為屬性值的受控術語列表,如地理名稱、ISO 語言程式碼、各種主題詞和詞典)

書目記錄功能需求規範化了一組對任何編目人員都至關重要的術語和關係。有關更多資訊,請參閱:http://purl.org/vocab/frbr/frbr-core-20050729.rdf http://purl.org/vocab/frbr/core http://metadataregistry.org/schema/show/id/5.html 這是“官方”版本 - 其他版本已過時,未經 FRBR 開發組批准。此外,FRBR 既是通用模型,也是一組屬性。

CIDOC/CRM

[編輯 | 編輯原始碼]

CIDOC 概念參考模型 (CRM) 是一個正式本體,它提供了用於描述文化遺產文件中使用的隱式和顯式概念和關係的定義和正式結構。它為不同型別的資源提供了一個整合框架:檔案、影像、地點、物件有關更多資訊,請參閱:http://www.cidoc-crm.org/rdfs/cidoc-crm

      • CIDOC 通常由博物館用來描述文物而不是書目實體?是否有它用於書目資料的現實世界例子?

用於描述程式碼、許可證、儲存庫、作者、補丁等從未見過 DOAP 用於書目元資料?例子?


數字資源術語

[編輯 | 編輯原始碼]

用於描述和連結到數字資源。這些是 Dublin Core 元素集和 Dublin Core 限定詞的擴充套件,在數字資源描述 (DRD) 應用程式配置檔案 (http://www.natlib.govt.nz/dr/drd.html) 中使用。有關更多資訊,請參閱:http://www.natlib.govt.nz/dr/drterms.rdf http://www.natlib.govt.nz/dr/terms

數字資源角色

[編輯 | 編輯原始碼]

用於描述數字資產在數字資源中扮演的角色的受控術語詞彙表。它旨在用於數字資源描述 (DRD) 應用程式配置檔案 (http://www.natlib.govt.nz/dr/drd.html)。它最初是由紐西蘭國家圖書館開發的,以幫助跟蹤從源數字檔案建立的多個衍生檔案。有關更多資訊,請參閱:http://www.natlib.govt.nz/dr/drrole.rdf http://www.natlib.govt.nz/dr/role

BibTeX in OWL

[編輯 | 編輯原始碼]

BibTeX 書目標記語言在 OWL 中的重新表述,用於 RDF 和語義網應用程式。有關更多資訊,請參閱:http://zeitkunst.org/projects/bibtex-owl

行業標準元資料釋出需求 http://www.idealliance.org/specifications/prism/

公共廣播元資料字典專案 http://pbcore.org

http://loc.gov/premis/

資源描述與訪問 (RDA) 這是最新的圖書館編目規則集,並由在 RDF 中定義的元素集支援。RDA 是 FRBR 模型的實現。它大約有 1400 個屬性和 60 多個術語列表。它涵蓋文字、聲音、電影、製圖材料和物件,以及檔案材料。 http://metadataregistry.org/rdabrowse.htm/

CG:這看起來非常相關,尤其是因為它是在 RDF 中定義的(之前不知道這一點)

語義出版和引用 對於引用,包括引用型別詞彙表 (CITO) http://purl.org/spar/fabio/ http://purl.org/spar/cito

規範引用

[編輯 | 編輯原始碼]

規範引用的鍵/編碼值元資料格式 http://alcme.oclc.org/openurl/servlet/OAIHandler?verb=GetRecord&metadataPrefix=oai_dc&identifier=info:ofi/fmt:kev:mtx:canonical_cit



(W3C 標準) kc: 再次說明,這是一種語言,而不是實現 簡單知識組織系統 (SKOS) 為表達概念體系(如詞典、分類體系、主題詞表、分類法、大眾分類法和其他類似型別的受控詞彙)的基本結構和內容提供了一種 RDF 模型。 它可以單獨使用,也可以與更正式的語言(如 Web 本體語言 (OWL))結合使用。 SKOS 的目標不是取代最初使用環境中的原始概念詞彙表,而是允許它們被移植到一個基於簡化模型的共享空間中,從而實現更廣泛的重複使用和更好的互操作性。 SKOS 引入了 skos:Concept 類,允許實現者斷言給定資源是一個概念。 在基本的 SKOS 中,概念資源(概念)透過 URI 標識,使用一種或多種自然語言的字串標記,使用各種型別的註釋記錄,在非正式的層次結構和關聯網路中彼此語義關聯,並聚合到概念體系中。 更多資訊請訪問 http://www.w3.org/TR/skos-primer/

MADS 是另一個描述主題、名稱和其他“權威”的標準。 它有一個 RDF 詞彙表,美國國會圖書館現在使用它(以及 SKOS)來匯出權威資訊。 參見 http://www.loc.gov/standards/mads/ 中的描述 - 權威資料的 XML 格式(從 MARC 21 權威資料派生) - 名稱、主題、標題、地理位置、型別的描述 - 使用與 MODS 相同的結構

RDFa (w3c 建議) http://www.w3.org/TR/xhtml-rdfa-primer/ 嵌入 HTML 文件中的 RDF。

獨立於任何元資料資料模型

[編輯 | 編輯原始碼]

例如,基於自定義的格式,依賴於特定的標記語言(JSON、XML 或其他)。 不基於元資料資料模型的元資料模式不是自描述的:標記語言的含義是在解析器邏輯中實現的:元資料不是自描述的。 基於自定義的格式,依賴於特定的標記語言(JSON、XML 或其他)。 它們都定義了自己的規範,其中包含一系列可以被認為有效的標籤。 例如,Facebook、Twitter、Google 的 API

優點:- 處理起來要容易得多,並且通常可以實現類似的結果 - 文件易於解析 - 沒有任何型別的層次依賴性 - 對於資料庫插入和提取非常方便(例如,Google 的大表、CouchDB、非關係型資料庫、NoSQL 等) - 保持格式儘可能簡單,降低了合規門檻。

缺點:- 大多數這些標準本質上彼此不相容 - 除非提供適當的文件,否則無法處理元資料 - 標記語言的含義是在解析器邏輯中實現的:元資料不是自描述的。

圖書館特定標準的缺點

  • 缺乏標準化:許多圖書館標準,如 MARC 或 Z39.50,是在圖書館特定的環境中開發的或正在開發的。 圖書館的標準化通常由專門致力於該領域的機構進行,例如國際圖聯或 RDA 開發的 JSC。



Dublin Core

[編輯 | 編輯原始碼]

都柏林核心已實施為一個實際上獨立於 RDF 的標準。 可以潛在地合併到任何標準中,例如 XML:http://dublincore.org/documents/dc-xml-guidelines/

  • 都柏林核心是一個穩定且定義良好的標準。
  • 它提供了一組語義互操作的屬性
  • 它由一系列經過專門和準確定義的欄位組成。
  • 對於完全控制的資料庫,它是一個很好的標準,可以作為工作規則來實施
  • 如果需要處理來自他人的資料,而這些資料可能包含或可能不包含所有必需的元素,則會出現問題。
  • 無法從都柏林核心範圍之外的附加元資料中獲益

例如,一張照片可能包含元資料,例如:拍攝照片的相機型別、設定(F 值、變焦級別、ISO..)、位置等,即使是這些有用的元資料,這種資訊也超出了都柏林核心的範圍,無法被納入。 任何自由格式或可擴充套件的元資料系統(例如鍵值對)都可以解決該缺點。(RDF 的優點是它可以自然地處理這個問題,但它也可以處理隨時間推移的修改。)

Schema.org

[編輯 | 編輯原始碼]

Schema.org 是一個由 Bing、Google 和 Yahoo! 於 2011 年 6 月 2 日發起的專案,旨在將語義網的概念引入網站。 2011 年 11 月 1 日,Yandex(俄羅斯最大的搜尋引擎)加入了該專案。 世界上最大的搜尋引擎的運營商建議使用微資料根據他們的模式標記網站內容作為關於其本身的元資料。 這些模式可以被搜尋引擎蜘蛛和其他解析器識別,從而訪問網站的含義。 該專案從少量格式開始,但長期目標是支援更廣泛的模式 Schema.org 提供了一組模式(即 html 標籤),可用於簡單的書目資料,目前正在被主要搜尋引擎公司(例如 Google、Bing、Yahoo!)推廣。 許多網站都是從結構化資料生成的,這些資料通常儲存在資料庫中。 當這些資料被格式化為 HTML 時,恢復原始結構化資料變得非常困難。 許多應用程式,尤其是搜尋引擎,可以從直接訪問這些結構化資料中獲益良多。 頁面內標記使搜尋引擎能夠理解網頁上的資訊並提供更豐富的搜尋結果,從而使使用者更容易在網上找到相關資訊。 標記還可以啟用利用結構的新工具和應用程式。

以下是 Schema.org/Book 可以具有的屬性的簡要概述(括號中的值表示屬性值的型別):來自 http://schema.org/Thing 的屬性

  • description
  • image(URL)
  • name
  • url(URL)

來自 http://schema.org/CreativeWork 的屬性

  • about(Thing)
  • aggregateRating(AggregateRating)
  • audio(AudioObject)
  • author(Person or Organization)
  • awards
  • contentLocation(Place)
  • contentRating
  • datePublished(Date)
  • editor(Person)
  • encodings(MediaObject)
  • genre
  • headline
  • inLanguage
  • interactionCount
  • isFamilyFriendly(Boolean)
  • keywords
  • offers(Offer)
  • 出版商(Organization)
  • 評論(Review)
  • 影片(VideoObject)

來自http://schema.org/Book的屬性

  • 書籍版本
  • 書籍格式(BookFormatType)
  • 插圖(Person)
  • ISBN
  • 頁數(Integer)

示例:以下是如何將關於電影的資訊及其資訊結構嵌入到網站中的示例。為了標記資料,使用屬性 itemtype 以及架構的 URL。屬性 itemscope 定義了 itemtype 的範圍。可以使用屬性 itemprop 定義當前專案的型別。在電影的架構中,有一個人的架構。

<div itemscope itemtype="http://schema.org/Movie">
  <h1 itemprop="name">Avatar</h1>
  <div itemprop="director" itemscope itemtype="http://schema.org/Person">
  Director: <span itemprop="name">James Cameron</span> (born <span itemprop="birthDate">August 16, 1954</span>)
  </div>
  <span itemprop="genre">Science fiction</span>
  <a href="../movies/avatar-theatrical-trailer.html" itemprop="trailer">Trailer</a>
</div>

釋出非結構化資料的 OPAC 會生成類似這樣的 HTML

<div> 
<h1>Avatar (Mysteries of Septagram, #2)</h1>
 <span>Author: Paul Bryers (born 1945)</span> 
 <span>Science fiction</span>
 <img src="http://coverart.oclc.org/ImageWebSvc/oclc/+-+703315758_140.jpg">
</div>

第一步是將某項標記為根物件。您可以使用 itemscope 屬性來完成此操作

<div itemscope> 
<h1>Avatar</h1>
 <span>Author: Paul Bryers (born 1945)</span> 
 <span>Science fiction</span>
 <img src="http://coverart.oclc.org/ImageWebSvc/oclc/+-+703315758_140.jpg">
</div>

一個支援微資料的搜尋引擎會檢視它並開始構建模型。

第二步是使用微資料和 Schema.org 為物件指定型別。您可以使用 itemtype 屬性來完成此操作

<div itemscope itemtype="http://schema.org/Book"> 
<h1>Avatar (Mysteries of Septagram, #2)</h1>
 <span>Author: Paul Bryers (born 1945)</span> 
 <span>Science fiction</span>
 <img src="http://coverart.oclc.org/ImageWebSvc/oclc/+-+703315758_140.jpg">
</div>

現在,模型中的物件已獲取型別“Book”(更準確地說是型別“http://schema.org/Book”)。

接下來,我們為 Book 物件新增一些屬性

<div itemscope itemtype="http://schema.org/Book"> 
<h1 itemprop="name">Avatar (Mysteries of Septagram, #2)</h1>
 <span>Author: 
<span itemprop="author">Paul Bryers (born 1945)</span></span> 
 <span itemprop="genre">Science fiction</span>
 <img src="http://coverart.oclc.org/ImageWebSvc/oclc/+-+703315758_140.jpg">
</div>

到目前為止,所有屬性值都是簡單的文字字串。我們也可以新增指向連結的屬性

<div itemscope itemtype="http://schema.org/Book"> 
<h1 itemprop="name">Avatar (Mysteries of Septagram, #2)</h1>
 <span>Author: 
<span itemprop="author">Paul Bryers (born 1945)</span></span> 
 <span itemprop="genre">Science fiction</span>
 <img src="http://coverart.oclc.org/ImageWebSvc/oclc/+-+703315758_140.jpg" 
itemprop="image">
</div>

模型正在增長。

最後,我們想說作者 Paul Bryers 本身也是一個物件。事實上,我們必須這樣做,因為作者屬性的值在 Schema.org 中必須是 Person 或 Organization。因此,我們新增另一個 itemscope 屬性,併為他新增一些屬性

<div itemscope itemtype="http://schema.org/Book"> 
<h1 itemprop="name">Avatar (Mysteries of Septagram, #2)</h1>
 <div itemprop="author" itemscope itemtype="http://schema.org.Person">
Author:  <span itemprop="name">Paul Bryers</span> 
(born <span itemprop="birthDate">1945</span>)
 </div>
 <span itemprop="genre">Science fiction</span>
 <img src="http://coverart.oclc.org/ImageWebSvc/oclc/+-+703315758_140.jpg" 
itemprop="image">
</div>

MARCXML

[edit | edit source]

一種國際描述性元資料格式。一種遺留格式,其中仍然維護著大量書目資訊。元件

  • 標記:資料元素集
  • 語義:元素的含義(但內容由其他標準定義)
  • 結構:用於通訊的語法

MARC 欄位與國際標準書目著錄(ISBD)相連,ISBD 由國際圖書館界透過數十年時間制定,其中元素用標點符號標記。雖然 ISBD 看起來很複雜,但它也允許非常簡單的用法,例如:書名 / 作者。- 城市:出版商,年份。

存在許多不同的 MARC 版本:法國、美國、英國等的國家機構最初開發了自己的國家 MARC,隨後這些 MARC 在國際 UNIMARC 中統一。然而,近年來,由於美國 MARC 被用於美國目錄(其資料也被匯入美國以外),它們已取代 UNIMARC。因此,在實踐中,不同國家的圖書館目錄將使用不同的 MARC 版本。

優點
[edit | edit source]
  • 利用 XML:在 XML 結構中建立 MARC 21 標準
  • 透過協調的工具集實現與不同架構的互操作性

例如,廣泛使用基於 MARC 的書目實用程式和 ILS 實現,用於具有可預測內容的標準通訊格式,以及用於記錄共享(例如,Open MARC 21 到 XML 程式設計工具和簡報樣式表)

  • 將 MARC 21 標準化,用於 OAI 收穫
  • 標準化與其他標準格式(DC、ONIX 等)之間的轉換

(元資料物件描述架構) 是 MARC 元素的派生(子集),旨在建立一個更簡單但相容的替代方案,這是一個豐富(但不太豐富)的 XML 元資料格式,適用於新興計劃

  • 作為 METS(元資料編碼和傳輸標準)的擴充套件架構
  • 用於表示用於收穫的元資料 (OAI)
  • 作為 MARC 和非 MARC XML 架構之間融合的互操作核心
  • 用於將元資料與資源打包在一起(例如,METS)

= 專為圖書館應用程式設計,但它可以更廣泛地使用

優點
[edit | edit source]
  • 使用基於語言的標籤
  • 元素通常繼承 MARC 的語義
  • MODS 不假定使用任何特定編目程式碼
  • MODS 特別適用於
  • 與現有書目資料的相容性
  • 相關專案中的嵌入式描述
  • 與 METS 結構圖配合使用的豐富、分層描述
  • “開箱即用”架構;可以使用 用於本地元素,並將其他架構中的外部元素引入進來

http://www.refman.com/support/risformat_intro.asp 可能是最廣泛支援的書目參考文獻格式。得到商業軟體工具和服務的廣泛支援。開放工具和服務怎麼樣?那麼 BibTeX 可能會勝出。

優點
[edit | edit source]
  • 簡單
  • 廣泛使用
缺點
[edit | edit source]
  • 專有(我認為)。瞭解格式的確切 IP 狀態會很有趣。當然,大多數工具和服務都是專有的。RefWorks 及其同類產品。
  • 過於簡單
  • 規範並不總是與用法相符 - 例如,規範缺少用於 DOI 的標籤,儘管 DOI 被廣泛使用和理解


來自 EDItEUR 的 ONIX International(基於 XML 的圖書出版商元資料標準)http://www.editeur.org/12/About-Release-3.0/


BibJSON

[edit | edit source]

http://bibserver.okfn.org/bibjson/ BibJSON 是關於如何在 JSON 中表示書目元資料的簡單描述。它也是基於 BibTeX 模型。JSON 物件是鍵值對的無序列表。BibJSON 物件是作為 JSON 物件的書目記錄。BibJSON 只是 JSON,但我們對特定鍵的含義有一些約定。我們希望從各種其他格式編寫解析器到 BibJSON,以使人們更容易共享書目記錄和集合。請參閱 http://bibserver.okfn.org/roadmap/open-bibliography-for-stm/ http://www.bibkn.org/bibjson/index.html

元資料協議和容器

[edit | edit source]

協議

[edit | edit source]

OAI-PMH

[edit | edit source]

(開放檔案倡議元資料收穫協議) 由開放檔案倡議開發的一種協議。它用於收穫(或收集)檔案中記錄的元資料描述,以便可以使用來自多個檔案的元資料構建服務。特別是在每天收穫數千個檔案時,OAI-PMH 可以透過增量收穫來幫助減少網路流量和其他資源使用。mod_oai 專案使用 OAI-PMH 將內容公開給可從 Apache Web 伺服器訪問的網路爬蟲。

  • OAI-PMH 的實現必須支援以 Dublin Core 表示元資料,但也可以支援其他表示。

OAI 協議已被許多數字圖書館、機構知識庫和數字檔案廣泛採用。雖然註冊不是強制性的,但鼓勵註冊。有幾個大型的 OAI 相容庫註冊中心:- 開放檔案註冊的 OAI 儲存庫列表 - 伊利諾伊大學厄巴納-香檳分校的 OAI 註冊中心 - 天體 OAI 註冊中心 - Eprint 的機構檔案註冊中心 - Openarchives.eu - 全球 OAI-PMH 相容儲存庫的歐洲指南 - ScientificCommons.org - 全球服務和註冊中心

商業搜尋引擎已開始使用 OAI-PMH 獲取更多資源:- 谷歌已將 OAI-PMH 納入其 Sitemap 協議,但於 2008 年決定停止使用。谷歌目前正在使用 OAI-PMH 從澳大利亞國家圖書館數字物件庫中收集資訊。- 雅虎!從 OAIster(密歇根大學)獲取內容,這些內容是透過使用 OAI-PMH 進行元資料收集獲得的(2004 年)。- 維基百科使用 OAI-PMH 儲存庫為搜尋引擎和其他批次分析/重新發布工作提供維基百科(及其姊妹專案)更新的供稿。- NASA 的 Mercury:元資料搜尋系統使用 OAI-PMH 每天索引來自全球變化主目錄 (GCMD) 的數千條元資料記錄。


  • Atom 釋出協議 (AtomPub 或 APP) 是一種簡單的基於 HTTP 的協議,用於建立和更新 Web 資源。
  • Atom 聚合格式是一種用於 Web 供稿的 XML 語言(供稿包含條目,這些條目可能是網站上的標題、全文文章、摘錄、摘要和/或內容連結,以及各種元資料)。Atom 格式被開發為 RSS 的替代方案。

新格式的支持者組成了 IETF Atom 釋出格式和協議工作組。Atom 聚合格式在 RFC 4287 (2005 年 12 月)中釋出為 IETF 提案標準,Atom 釋出協議在 RFC 5023 (2007 年 10 月)中釋出。2003 年 12 月釋出的 Atom 0.3 在聚合工具中獲得了廣泛採用,特別是它被新增到幾個與 Google 相關的服務中,例如 Blogger、Google 新聞和 Gmail。谷歌的 Data API(測試版)GData 基於 Atom 1.0 和 RSS 2.0。

所有 Atom 供稿都必須是格式良好的 XML 文件,並使用 application/atom+xml 媒體型別標識。待辦事項:Atom 偏愛哪些格式?


SPARQL

[edit | edit source]

SPARQL 代表 SPARQL 協議和 RDF 查詢語言。它允許查詢包含三元組模式、合取、析取和可選模式。SPARQL 允許使用者編寫全域性無歧義的查詢。更多資訊請訪問:http://www.w3.org/TR/rdf-sparql-protocol/ http://en.wikipedia.org/wiki/SPARQL

可擴充套件訊息和狀態協議 (XMPP) 是一種基於 XML(可擴充套件標記語言)的訊息中介軟體開放標準通訊協議。[1] 該協議最初名為 Jabber,由 Jabber 開源社群於 1999 年開發,用於近即時、可擴充套件的即時訊息 (IM)、狀態資訊和聯絡人列表維護。該協議旨在可擴充套件,如今也應用於 VoIP 和檔案傳輸信令。使用 XMPP,可以在編目時即時捕獲事件流。更多資訊請訪問:http://en.wikipedia.org/wiki/Extensible_Messaging_and_Presence_Protocol


Z39.50

[edit | edit source]

最廣泛部署的、當前活躍的(在生產系統中)遠端圖書館目錄互操作搜尋方法。目前所有國家圖書館、大多數學術圖書館以及許多公共/私人收藏都支援該方法。

Z3950 是一種基於狀態的會話的 BER 編碼 ASN.1 定義的資訊檢索協議。雖然其主要功能是訪問單個遠端目標,但該協議構成了許多當代廣播和元搜尋系統(虛擬聯合目錄)的基礎,這些系統需要即時搜尋,儘管存在基於 HTTP 的替代方案,例如 MetaOPAC Azalai Italiano (MAI)。這可以與所有資料都被收集到單個儲存庫中的物理聯合目錄進行比較。虛擬聯合目錄的明顯優勢是即時更新館藏和可用性資訊,以及將安全評估委派給網路中的葉子節點(即安全無法委派給單個收集節點的地方)。

該協議本身不規定記錄語法(MARC、XML、GRS 等),只指定檢索操作的語義。不同的記錄語法可用於傳達關於書目項的不同語義。例如,國家 MARC 變體是書目資訊常用的有效載荷,其他語法,如 GRS-1 編碼的 opac-1 格式,可用於查詢即時可用性和館藏資訊。客戶端可以自由地請求同一記錄的多種編碼。利用這種功能,Z3950 也可用作圖書館預約和館際互借子系統的源資料,儘管這些功能更常被更新的流通協議支援(這些協議在互操作性級別上通常在供應商之間存在較少的共識)。Z3950 還具有擴充套件服務功能,提供專案訂單和記錄上傳等服務。

不應將 Z3950 與 Apache SOLR 等索引系統混淆。Z3905 指定了一個標準介面,該介面用作檢索索引的公開定義的訪問層。目前至少存在 2 個 Z3950 <-> SOLR 橋。

其他資訊

索引資料在 http://irspy.indexdata.com/ 上維護著公開可用的 Z3950 目標及其功能的實用元索引。

http://en.wikipedia.org/wiki/Z39.50

優點
[edit | edit source]

也許 Z3950 最有價值的部分在於它在供應商之間豐富的互操作性和合作傳統。Z3950 實現者組由圖書館和軟體供應商的代表組成,力求避免建立互操作書目系統中存在的許多問題。

然而,該協議的主要優勢在於它以一種方式隔離了檢索端點,使其不受索引技術和記錄有效載荷變化的影響。

Z3950 也用於提供主題詞典和其他受控詞彙表。

作為有效載荷不可知的協議,Z3950 這些年來已在許多不同的場景中部署,從提供對美國政府資訊 (GILS)、文化資料集 (PADS,表演藝術資料服務)、檔案 (ArchivesHub)、美國地質調查局及其空間資料清理服務 (USGeo) 的可搜尋訪問。Z3950 構建了一個框架,透過定義抽象搜尋訪問點(使用屬性)允許對所有這些不同的資訊型別進行互操作的交叉搜尋。

缺點
[edit | edit source]

Z3950 的一個主要批評是缺乏基於標準識別符號的伺服器中專案的訪問。專案級訪問是透過結果集中的序數位置進行的,沒有透過唯一 ID 直接訪問專案。這意味著大多數專案級訪問必須被描述為對特定唯一 ID 的搜尋,以及對該結果的檢索操作。雖然在實踐中這不是問題,但它可能會使第一次使用該協議時感覺笨拙。

基於 Z3950 的現代交叉搜尋系統通常因沒有提供良好的使用者體驗而受到批評。但是,突出顯示的許多問題是交叉搜尋固有的,並非 Z3950 的特定問題。然而,確實存在一些行為不端的 Z3950 目標,開發人員社群已經積累了大量針對 Z3950 目標環境的變通方法和知識。

SRU/SRW

[edit | edit source]

SRU 出自 Z3950 實現者組的討論,他們認識到需要為原始的 BER 編碼協議找到一個類似 REST 的替代方案/替代方案。許多相同應用程式結構可以在 SRU(類似 REST 的基於 URL 的檢索)/SRW(SOAP)中找到,就像在源 Z3950 協議中一樣。

其他資訊

http://www.loc.gov/standards/sru/



容器

[edit | edit source]

METS 模式是一種用於對數字圖書館中物件進行描述性、管理性和結構性元資料編碼的標準,使用全球資訊網聯盟的 XML 模式語言表達。該標準由美國國會圖書館的網路開發和 MARC 標準辦公室維護,並作為數字圖書館聯盟的倡議正在開發中。METS,一個數字圖書館聯盟的倡議,試圖在 MOA2 的工作基礎上進行構建,並提供一種 XML 文件格式,用於對數字圖書館物件在儲存庫中的管理和儲存庫之間(或儲存庫與其使用者之間)交換所需的元資料進行編碼。根據其用途,METS 文件可在開放檔案資訊系統 (OAIS) 參考模型中用作提交資訊包 (SIP)、檔案資訊包 (AIP) 或傳播資訊包 (DIP)。METS 這樣的容器是解決組合描述性和非描述性元資料問題的其中一種方法。METS 文件包含七個主要部分

  • METS 標題 - METS 標題包含描述 METS 文件本身的元資料,包括建立者、編輯等資訊。
  • 描述性元資料 - 描述性元資料部分可以指向 METS 文件外部的描述性元資料(例如,OPAC 中的 MARC 記錄或 WWW 伺服器上維護的 EAD 查詢幫助),或包含內部嵌入的描述性元資料,或兩者兼而有之。描述性元資料部分中可以包含多個外部和內部描述性元資料的例項。
  • 管理性元資料 - 管理性元資料部分提供有關檔案建立和儲存方式、智慧財產權、有關數字圖書館物件來源的原始源物件的元資料以及有關構成數字圖書館物件的檔案來源的資訊(即,主檔案/派生檔案關係以及遷移/轉換資訊)。與描述性元資料一樣,管理性元資料可以位於 METS 文件外部,也可以在內部進行編碼。
  • 檔案部分 - 檔案部分列出了所有包含內容的檔案,這些檔案構成數字物件的電子版本。<file> 元素可以分組在 <fileGrp> 元素中,以提供按物件版本對檔案進行細分的機制。
  • 結構化地圖 - 結構化地圖是 METS 文件的核心。它概述了數字圖書館物件的層次結構,並將該結構的元素連結到與每個元素相關的內容檔案和元資料。
  • 結構化連結 - METS 的結構化連結部分允許 METS 建立者記錄結構化地圖中概述的層次結構中的節點之間超連結的存在。這在使用 METS 歸檔網站方面特別有用。
  • 行為 - 行為部分可用於將可執行行為與 METS 物件中的內容相關聯。行為部分中的每個行為都有一個介面定義元素,它表示特定行為部分所代表的行為集的抽象定義。每個行為還具有一個機制元素,該元素標識實現和執行介面定義抽象定義的行為的可執行程式碼模組。

可以在 http://www.loc.gov/standards/mets/METSOverview.v2.html 中找到每個部分及其相互關係的更詳細說明。

開放式檔案倡議物件重用和交換 (OAI-ORE) 定義了用於描述和交換 Web 資源聚合的標準。這些聚合有時被稱為複合數字物件,可以結合來自多個媒體型別的分散式資源,包括文字、影像、資料和影片。在我們日常使用的 Web 上,URI 主要用於標識 Web 文件。它們是識別符號,當取消引用時,會返回一個可供人閱讀的表示。但是,在語義網上,URI 被引入以標識所謂的現實世界實體,例如人或汽車,甚至抽象實體,例如想法或類別。由於這些東西不是文件,因此它們沒有表示來指示這些資源的含義。連結資料努力 [連結資料教程:http://www.openarchives.org/ore/1.0/primer.html#ref-linked-data] 描述了一種儘管這些資源沒有表示但仍能獲取有關這些資源的資訊的方法。ORE 基於 4 個關鍵概念(類別):• 物件:正在描述的書籍/繪畫/程式 • 聚合:組織來自特定提供者(博物館、檔案館、圖書館)的物件資訊,它表達了它描述的哪個聚合資源(ore:describes 關係),並列出了聚合的一部分的資源(ore:aggregates 關係)。• 數字表示:物件的某種數字形式,具有 Web 地址 • 代理:物件的元資料記錄 ORE 支援 RDF/XML、RDFa 和 Atom XML 中的資源對映序列化。可在以下位置獲得更多資訊:http://www.openarchives.org/ore/1.0/primer.html http://www.openarchives.org/ore/1.0/toc.html

誰使用什麼

[編輯 | 編輯原始碼]

請參閱 http://ckan.net/group/lld(圖書館資料集列表)

當前可用的元資料模式的成熟度或穩定性差異很大。許多模式是正在進行的專案工作的結果,或者是個別倡議的結果,它們將自己描述為原型而不是成熟的標準。越來越多的成熟機構正在為連結資料專案投入資源,從瑞典、匈牙利、德國、法國的國家圖書館、美國國會圖書館和英國圖書館到聯合國糧食及農業組織,更不用說 OCLC。這些機構可以為圖書館連結資料隨時間推移而構建提供穩定的基礎。

英國/美國的每個主要圖書館都將使用 MARC21,許多歐洲圖書館也將使用。在德國,廣泛使用的是 MAB2 和 Pica。這將用於記錄建立、資料交換和內部儲存。

英國圖書館資料模型

[編輯 | 編輯原始碼]

http://www.bl.uk/bibliographic/pdfs/british_library_data_model_v1-00.pdf http://www.bl.uk/bibliographic/pdfs/britishlibrarytermsv1-00.pdf

@prefix xxx

定義可以從中提取類別和屬性的本體

a owl:Ontology;

a => rdf:type - 'a' 是在 rdf 詞彙表中定義的謂詞(屬性)
owl:Ontology - 物件在對映為 'owl' 的本體中定義

dct: created "2010-06-28"^^xsd:date;

dct:created 在 Dublin Core 術語中定義
xsd:date 是 XmlSchema

blt:PublicationEvent a rdfs:Class , owl:Class;

定義 rdf:type 類別的新物件(根據 rdfs 和 owl)

rdfs:label "Publication event"@en ;

根據 rdfs 對 'label' 的定義定義其標籤

rdfs:comment "An event which is the publication of a resource."@en ;

定義註釋

rdfs:subClassOf event:Event ;

是事件的子類(根據 'event' 定義)

rdfs:isDefinedBy blt: .

由 . 定義(blt - 英國圖書館術語本身)

創意共享

[編輯 | 編輯原始碼]

創意共享元資料檔案有兩個主要部分:作品描述和許可描述。作品描述使用 Dublin Core 屬性來提供有關作品的資訊。有關更多資訊,請參閱:http://creativecommons.org/technology/metadata/schema.rdf http://creativecommons.org/learn/technology/metadata/


歐洲資料模型 (EDM)

[編輯 | 編輯原始碼]

http://pro.europeana.eu/edm-documentation

目標是

  1. 保留原始元資料 - 儘可能以原始模型的形式表達
  2. 同時允許互操作性 - 使用對映到更具互操作性的級別

要求:(1)區分“物件”(繪畫、書籍、軟體)和

  1. 數字表示
  2. 描述該物件的元資料(+ 可以有多個記錄)

(2)支援由多個物件組成的物件 問題是,沒有標準的方法來描述聚合的組成部分或邊界,這就是 OAI-ORE 旨在提供的內容:==> 開放式檔案倡議物件重用和交換 (OAI-ORE)

(3)基於現有的標準元資料格式和標準詞彙格式 ==> 使用 RDF 模型指定的 Dublin Core 用於元資料表示 EDM 使用 DCMI 元資料術語 ==> 使用 RDF 模型指定的 SKOS 用於詞彙表示 EDM 使用 SKOS

美國國會圖書館

[編輯 | 編輯原始碼]

SKOS、MADS

  • 數字圖書館專案(美國國會圖書館)

AV-原型:音訊和影片的數字儲存使用 METS 和 MODS,重點關注元資料編目報告作為中間級描述


聯合國教科文組織的 CDS/ISIS 圖書館軟體

[編輯 | 編輯原始碼]

通用通訊格式 (CCF)


加州大學出版社

[編輯 | 編輯原始碼]

使用 METS 和 MODS 為免費電子書


MusicAustralia

[編輯 | 編輯原始碼]

MODS 作為澳大利亞國家圖書館和 ScreenSoundAustralia 之間的交換格式,允許與 MARC 資料保持一致


法國國家圖書館 (BnF)

[編輯 | 編輯原始碼]

聯絡方式:Romain Wenz,負責 BnF 圖書館資訊和數字部的資料.bnf.fr。目前僅處理文學/視覺資源,但很快將擴充套件目錄到音樂作品。不同的目錄使用不同的標準(MARC、DC 等):缺乏內部互操作性 - RDF 具有不同的本體

  • SKOS:用於概念
  • FOAF:用於人物
  • DC/RDA:用於資源

BnF 為每個線上資源提供公共 RDF 轉儲 -> /rdf.xml

蓬皮杜中心虛擬博物館

[編輯 | 編輯原始碼]

RDF


法國國家檔案館

[編輯 | 編輯原始碼]

聯絡方式:Claire Sibille,法國文化和傳播部法國國家檔案館部檔案處理和資訊化辦公室負責人,法國國家檔案館釋出的用於當地檔案索引的 Thesaurus W

  • EAD(編碼檔案描述)
  • EAC-CPF(編碼檔案上下文 - 集體、人物、家庭)

歷史:1. XML,2. Excel 表格,3. XML/SKOS(使用 ThManager) 今天

  • 每個術語的 URI 標識 + SKOS 定義的術語之間的關係
  • 這些術語之間的關係由 RDF 三元組定義
  • 該詞典與 RAMEAU 和 DBpedia 進行了對齊

可以透過 HTML 或 RDF/XML 進行諮詢 + 可以下載整個資料庫到 rdf + 透過 SPARql 請求進行諮詢 + 詞典的 Web API

  • URI 可以根據上下文以不同的方式取消引用


佛羅倫薩國家中心圖書館

[編輯 | 編輯原始碼]

維護義大利書籍的國家書目並開發 Nuovo Soggettario,一個國家通用詞典,也以 SKOS 的形式在知識共享 2.5 許可下提供。宣告“定義以連結資料形式線上釋出已生成元資料的途徑”,處於“第一個原型實驗階段”(聯絡方式:Giovanni Bergamin):http://thes.bncf.firenze.sbn.it/thes-dati.htm


SNAC:EAC-CPF

[編輯 | 編輯原始碼]

LOCAH:EAC-CPF

[編輯 | 編輯原始碼]

Archive Hub、COPAC 以及連結資料建立與其他資料庫的連結(例如 BBC、OCLC、LCSH)..




[編輯 | 編輯原始碼]

存在許多模型來描述元資料,某些模型使用特定工具(例如 bibtex),其他模型使用特定格式(例如 XML 和 C、JSON API 等)。

來自印第安納州的 Jenn Riley 的這個連結可能是關於不同元資料標準的很好的起點http://www.dlib.indiana.edu/~jenlrile/metadatamap/seeingstandards.pdf

W3C LLD 報告

郵件列表:public-lld@w3.org

聯絡方式:Emmanuelle Bermès,W3C“圖書館連結資料”孵化組主席。

華夏公益教科書