跳轉至內容

開放元資料手冊/介紹

來自華夏公益教科書

什麼是元資料?

[編輯 | 編輯原始碼]

元資料的定義有很多

  • 根據美國國家資訊標準組織(NISO),元資料是“描述、解釋、定位或以其他方式更易於檢索、使用或管理資訊資源的結構化資訊。”
  • 根據全球資訊網聯盟(W3C),元資料是“網路上的機器可理解資訊。”

元資料通常被理解為“關於資料的資料”——用於描述資料或資訊,提供更多上下文資訊的資料。在圖書館和資訊科學中,元資料通常用於收集有關作品(書籍、文章、照片等)及其獨特和上下文特徵的資訊,例如圖書館目錄包含有關出版物(資料)的資訊(元資料)。

資料與元資料

[編輯 | 編輯原始碼]

元資料除了描述特定資料或資訊以提高其價值和可用性外,沒有其他功能。有時很難確定某件事應該被視為資料還是元資料。實際上,同一資訊有時可能根據其使用上下文和使用者需求被視為資料或元資料。

元資料語句通常根據定義的元資料模式、元資料標準和元資料模型進行結構化。受控詞彙表、分類法、詞典、資料字典和元資料登錄檔等工具可用於對元資料應用進一步標準化。不同的模式和詞彙表已用於描述不同型別的資源。這些通常帶有關於必須以何種方式制定或編碼元資料的不同規則集。雖然某些元資料模式與語法無關(即,它們沒有關於如何記錄資料的規定規則),但其他模式則需要特定的語法(即,元資料必須以特定格式記錄)。元資料模式的語義取決於所使用的詞彙表,這些詞彙表決定了不同元資料元素所假定的含義。

為什麼元資料有用?

[編輯 | 編輯原始碼]

元資料的目的是將資訊附加到資料,以便隨後可以發現和使用它。

儲存在圖書館目錄、檔案或博物館中的資料可以參考各種型別的工作:書籍、期刊、文章或手稿等文學作品;繪畫、素描、照片或地圖等藝術作品;以各種媒體記錄的音樂作品;以及任何型別的視聽作品和多媒體作品。這些作品通常沒有關於其固有屬性和法律屬性的精確資訊。可以提供更多資訊,以便使資料對使用者更有用和更有價值。這可能包括有關作品型別、創作和首次出版日期的資料;有關作者和作品內容的資訊;但也與歸屬於整個作品或其每個組成部分的權利有關的資訊。這就是構成元資料的內容。

當以機器可讀格式釋出時,元資料可以實現自動資料發現,以及對其的正確使用和歸屬。

元資料對以下方面非常有用

  • 查詢符合特定條件的資訊。
  • 更好地理解所找到資訊的詳細資訊和特徵。
  • 幫助其他人以後查詢和使用該資訊。

它是如何產生的?

[編輯 | 編輯原始碼]

生成元資料可能是一項非常具有挑戰性的任務——通常由各種參與者協作完成。記錄材料的詳細描述通常受對每個專案的已知資訊量的限制,這可能需要大量的研究才能完成。結構和管理元資料要麼是自動生成的,要麼是由負責數字化或所描述資源收集的機構提供的。描述性元資料通常由負責資源生產或出版的機構提供。但是,它有時由負責檢索必要資訊以生成正確描述性元資料的研究人員和資訊專業人員生成。

雖然生成元資料可能很昂貴且耗時,但它會為書目記錄增加價值。元資料標準的選擇取決於實施成本和資料的預期使用。

  • 詳細、靈活和可擴充套件的實施
  • RDF/Sparql 為開放書目資料的描述/識別/管理提供了高階工具。然而,沒有大量的投入和成本,是無法構建一個適當的 RDF 資料庫的。雖然需要對數字資源進行更精確的描述,以便可以搜尋和識別它們,但對於許多大型數字化專案來說,這並不現實。
  • 簡單、快速和低成本實施
  • 為開放書目資料的快速傳播而設計的輕量級臨時元資料格式。


已經開發了各種工具來支援和促進建立和編輯元資料的任務,這些工具既有免費工具,也有商業軟體。例如,這些工具包括

  • 模板允許使用者在特定元素集的預定義欄位中輸入值。然後,模板系統將自動生成一組格式正確的元素屬性和值。
  • 標記工具允許使用者將元資料屬性和值結構化為特定的元資料模式,例如 XML 或 SGML 文件型別定義。
  • 提取工具允許使用者從數字資源(通常是文學性質的資源)自動生成元資料記錄。這些工具越複雜,生成的元資料質量就越高,儘管生成的元資料始終應手動審查以確保準確性。
  • 轉換工具允許使用者將元資料記錄從一種格式轉換為另一種格式。同樣,雖然這些工具通常會產生準確的結果,但生成的元資料始終應手動審查。

開放元資料登錄檔

[編輯 | 編輯原始碼]

開放元資料登錄檔是一個允許您在簡單的使用者介面中建立 RDF 資料集和詞彙表的網站。它是 RDA 元素在 RDF 中的家園,以及一些 IFLA 集,例如 FRBR 和 ISBD。

您可以在 開放元資料登錄檔沙盒 中嘗試建立詞彙表和元資料元素。您需要設定一個登入 ID 和密碼。之後,您將在右上角“詞彙表”和“元素”旁邊看到“(新增)”連結。隨意檢視其他人所做的事情,並建立您自己的元資料。填寫元素或術語的資訊並儲存後,您就可以透過單擊右下角的連結檢視 RDF 中的結果。

它如何使用?

[編輯 | 編輯原始碼]

許多圖書館使用元資料來編目資源,例如書籍、期刊、DVD、網頁或數字影像。元資料儲存在整合圖書館管理系統 (ILMS) 中,使用特定的元資料標準。其目的是引導人們找到他們尋找的物品或區域的物理位置或電子位置,並提供所述物品的描述。

在書目環境中,元資料可用於以下目的

識別資源(專案和集合)

[編輯 | 編輯原始碼]

元資料可用於識別書目資源(專案或專案集合)。在網際網路上,這通常透過使用唯一識別符號來實現 - 例如 ISBN/ISSN、DOI(數字物件識別符號)、PURL(持久 URL)或標準 URL(統一資源定位符)。元資料還可以用於檢索有關書目資源的資訊(給定其識別符號),反之亦然,用於根據一組特定的識別標準檢索資源的識別符號。

資源發現

[編輯 | 編輯原始碼]

鑑於如今大量的資訊可用,根據特定標準促進特定資源的發現變得越來越必要。元資料在這種情況下非常有用,因為它

  • 允許更好地識別資源。
  • 允許根據特定關鍵字或標準搜尋資源。
  • 促進識別不同資源之間的異同。這便於收集/聚合共享相似標準的資源。
  • 增強自動搜尋的質量,因為搜尋引擎可以更好地理解不同資源的上下文、細節和內容。

根據特定標準聚合不同的資源對於組織和分類特別有用。得益於元資料,可以根據受眾或檢索這些資源的目的,動態建立不同的資源集合。在這種情況下,元資料對以下方面很有用

  • 描述單個資源:文件、頁面、影像、音訊檔案等。
  • 描述集合的內容:網站、資料庫、目錄等。
  • 描述資源之間的關係:目錄、章節、影像 - 網站地圖

歸檔和儲存

[編輯 | 編輯原始碼]

隨著數字技術的出現,儲存問題正變得越來越令人擔憂。數字資源比物理資源更容易損壞,因為它們很容易丟失或損壞(無論是有意還是無意)。數字媒體也可能損壞,或者其技術(軟體或硬體)可能過時,因此無法再使用。元資料可以透過確保始終可以訪問一份副本,來確保資源在未來仍然可用。元資料還可以跟蹤數字資源的歷史記錄:其來源、經歷的變化等。已經開發了多種元資料模式來促進書目資源的數字儲存。例如,請參見澳大利亞國家圖書館、英國 Cedar 專案(CURL)、OCLC 工作組和研究圖書館組的舉措。特別注意 OCLC 和研究圖書館組認可的 PREMIS 倡議(儲存元資料:實施策略)。大多數這些舉措都與 OAIS 標準(開放檔案資訊系統 ISO 參考模型)相容。


互操作性

[編輯 | 編輯原始碼]
  • 使用適當的元資料格式描述資源,使人和機器都能理解描述。
  • 定義的元資料模式允許在不同系統之間交換資訊,而只損失最少的資訊 - 透過共享傳輸協議或不同模式之間的交叉轉換。
  • 使用標準元資料模式使使用者能夠透過使用類似或可互操作格式的多個數據庫搜尋特定資源。

圖書館元資料的更新和更專門的例項包括建立數字圖書館,包括電子出版物庫和數字影像庫。由於包含的材料的定製性質,元資料欄位通常是專門建立的,例如分類學分類欄位、位置欄位、關鍵字或版權宣告。標準檔案資訊(如檔案大小和格式)通常會自動包含。

幾十年來,圖書館運營的標準化一直是國際標準化 (ISO) 的一個關鍵議題。數字圖書館中元資料的標準包括 Dublin Core、METS、MODS、DDI、ISO 標準數字物件識別符號 (DOI)、ISO 標準統一資源名稱 (URN)、PREMIS 模式、生態元資料語言和 OAI-PMH。

華夏公益教科書