跳轉到內容

開放元資料手冊/元資料元素

來自華夏公益教科書,為開放世界提供開放書籍

元資料元素

[編輯 | 編輯原始碼]

一般來說,元資料建立的第一步是定義社群模型 - 元資料將代表什麼?這些可以是: (a) 資源 (書籍、文章) (b) 代理人 (作者、出版商) (c) 載體 (期刊、CD、線上) (d) 分類

目標不是識別出一組有限的元資料元素,而是選擇一組核心元素,這些元素可以擴充套件,以便每個社群都可以與相關的利益社群進行互動。明確指定擴充套件機制也很重要。否則,人們將傾向於濫用元素,因為他們被困在不完全符合其需求的元素集中。我們特別建議使用元資料元素之間的一些關鍵關係(例如,更廣義、更狹義)以及為元資料術語建立網路唯一標識,以及建立可以根據需要替換的獨立詞彙表列表。

在本節中,我們將確定發現、識別、定位和去除重複作品所需的關鍵元資料元素

  • 定義一組小的元資料選項(資料元素和序列化),這些選項可以被資料提供者使用/採用。
  • 允許資料的粒度差異,但提供許多資料提供者應該能夠實現的最佳實踐。

元素集應適應特定材料、業務流程和系統功能的要求。這應該針對每種型別的作品進行(讓我們從文學作品開始)

O - 可選 MA - 適用時強制性,但可能合法缺失 M - 強制性 R - 可重複 NR - 不可重複

Jim Pitman 的評論:我認為我們應該對 M 採取非常輕的方式,只鼓勵資料提供者提供他們擁有的所有資訊,並儘可能地進行解析。我們需要為此提供一些結構,但不要太過繁重。粗略的未解析的書目參考比沒有好。它們可以被代理人清理並匹配以增強元資料,而這些代理人並非最初發布資料的那些代理人。尤其是各種形式的實體提取(人員、地點、主題,...)都屬於此類。

文學作品

[編輯 | 編輯原始碼]
  1. 建立者(s) (至少一個) MA/R [考慮到有些書籍可能是匿名的]
  2. 標題 M/NR [有些書籍可能有多個標題(例如封面與內頁;或者多種語言的標題)。但是區分一個主要標題是合理的。通常的圖書館慣例是使用主標題頁上的標題。] - *這可以透過例如在 BibJSON 中將標題設為物件來實現,主要標題為其“文字”值,其他標題被指示為其他鍵的值。主要問題是標準化輔助標題鍵的約定。*
  3. 日期 MA/NR [可能有多個日期 - 版權日期、出版日期、重印日期。同樣,選擇一個“關鍵”日期是合理的;這通常是出版日期。但是,請注意,有些書籍*沒有*日期,因此為 MA。] - *嚴格來說,每個日期都應該與書籍相關聯。*
  4. 編輯(s) MA/R -- CG:在圖書館編目標準(ISBD 等)中,作者、編輯、合作者和譯者等(人或組織)都被視為“責任說明”:因此,我不會在第一步就將編輯與作者分開。
  5. 出版商 O/R
  6. 出版地 O/R
  7. 頁數 O/NR [識別大多數版本實際上並不需要,但有幫助。此外,許多“書籍”是多卷的或缺少頁碼,這使得頁數不清或不精確。最後,如果書籍是數字化的,可能根本沒有明確的頁碼概念。]
  8. 型別 [我們需要一個列表。例如,書目、百科全書,... ] O/R
  9. 識別符號 MA/NR - 例如,ISBN [假設我們正在索引特定版本。可能與不同版本、版本關聯了許多 ISBN。理想情況下,應該指明關係的性質。在實踐中,僅僅擁有 ISBN 對於查詢和去除重複資料非常有用。]、DOI 等
  10. 連結 - 例如,如果線上 MA/NR,則為 URL [許多目錄包含帶有 URL 的註釋來解釋它是什麼(免費的?全文或摘錄?等等)。不需要,但在模式中留出空間以供此類註釋很好。] - *強烈建議提供文字錨點暗示關係或提供來自受控詞彙的關聯值*

Mathias Schindler 的評論:最小資料集應該是建立者*和*標題*和*以下至少一個:年份*或*ISBN*或*URL。任何其他欄位都可以重新調整,但不是“最小值”。

書籍章節

[編輯 | 編輯原始碼]
  1. 建立者(s) (至少一個) MA/R [考慮到有些書籍可能是匿名的]
  2. 章節標題 M/NR
  3. 書籍標題 M/NR [有些書籍可能有多個標題(例如封面與內頁;或者多種語言的標題)。但是區分一個主要標題是合理的。通常的圖書館慣例是使用主標題頁上的標題。] - *這可以透過例如在 BibJSON 中將標題設為物件來實現,主要標題為其“文字”值,其他標題被指示為其他鍵的值。主要問題是標準化輔助標題鍵的約定。*
  4. 書籍日期 M/NR [可能有多個日期 - 版權日期、出版日期、重印日期。同樣,選擇一個“關鍵”日期是合理的;這通常是出版日期。但是,請注意,有些書籍*沒有*日期,因此為 MA。] - *嚴格來說,每個日期都應該與書籍相關聯。*
  5. 編輯(s) MA/R
  6. 出版商 O/NR
  7. 出版地 O/NR
  8. 書籍頁數 O/NR [這在處理章節時似乎不相關。識別大多數版本實際上並不需要,但有幫助。此外,許多“書籍”是多卷的或缺少頁碼,這使得頁數不清或不精確。最後,如果書籍是數字化的,可能根本沒有明確的頁碼概念。]
  9. 章節起始/結束頁碼 M/NR
  10. 型別 [ 需要?很難提供一個列表] O/R
  11. 識別符號 MA/NR - 例如,ISBN [假設我們正在索引特定版本。可能與不同版本、版本關聯了許多 ISBN。理想情況下,應該指明關係的性質。在實踐中,僅僅擁有 ISBN 對於查詢和去除重複資料非常有用。]、DOI 等
  12. 連結 - 例如,如果線上 MA/NR,則為 URL [許多目錄包含帶有 URL 的註釋來解釋它是什麼(免費的?全文或摘錄?等等)。不需要,但在模式中留出空間以供此類註釋很好。] - *強烈建議提供文字錨點暗示關係或提供來自受控詞彙的關聯值*

期刊文章

[編輯 | 編輯原始碼]
  1. 建立者(s) (至少一個) MA/R
  2. 標題 M/NR
  3. ISSN 或完整期刊名稱 M (一個或另一個)/NR
  4. 年份 M
  5. 列舉 M/NR [例如,卷號、期號、起始頁碼/結束頁碼(視情況而定) - 如果沒有其他期號可用,則用日期代替。最低要求不應該要求它們被解析,儘管應該強烈推薦。期刊文章的引用來自許多來源,例如參考書目,在那裡它們沒有被解析。即使這種引用也可能有用。]
  6. 型別 [可能需要一個列表。例如,研究、說明性、調查、評論、摘要、說明、...。此類分類有時由出版商和/或書目資料庫提供] O/R
  7. 識別符號 MA/R - 例如,如果可用,則為 DOI
  8. 連結 M/NR - 例如,如果線上?


線上文字

[編輯 | 編輯原始碼]

(例如維基百科文章、arXiv 電子預印本、技術報告、工作論文)

  1. 建立者(s) (至少一個) MA/R
  2. 標題 M/R?
  3. URL M/NR?
  4. 訪問日期 O
  5. 建立日期 O
  6. 最後更新日期 O
  7. 格式:html/pdf/etc. [我們需要一個簡短的列表供選擇] O
  8. 型別 [我們需要一個列表。例如,電子預印本、技術報告、百科全書條目、訃告、新聞報道、評論、摘要,... ] O
  9. 連結 [應該鼓勵資料提供者將他們的資料匹配到其他提供者提供的目錄中,例如,WorldCat、Open LIbrary,... 並且如果他們找到匹配項,則提供指向它的連結。這將極大地幫助去除文件/作品的重複資料。當然,這也可以由其他人完成,但如果資料提供者提供幫助,那就太好了。這通常由學術期刊的參考書目出版商完成。其他連結可能是指向評論、評論,... ]

增強訪問

[編輯 | 編輯原始碼]

(這將是諸如關鍵詞、摘要、目錄、指向相關資源的連結等內容) - 待定...

待討論的問題

[編輯 | 編輯原始碼]

1. 列舉:我們需要為卷號、期號等單獨設定元素嗎?這些是學術出版物參考文獻的標準語言的一部分。這些資料元素的用例是什麼?(注意,大約 10 年以前的任何文章或期刊都沒有 DOI 或 SICIs。)用例(特別是在其他型別識別符號缺失、損壞或不符合標準的情況下)將是 (a) 識別,(b) 重複資料刪除,(c) 分層索引和顯示,(d) 方便指示完整集合的整個範圍(例如,完整的卷號列表)。

2. 資源識別符號:一些識別符號,如 DOI,是自包含的(例如,以 URI 格式)。許多並非如此。我們可能不想有數十個識別符號欄位,因此我們需要一種格式,以便資料可以放入單個識別符號欄位中,例如 pubMed 專案的 PMID:PMID:12345。我們需要一個推薦識別符號列表以及如何輸入它們 - 這樣的列表可以而且應該很容易地得到 OKF 和 BKN 的支援,以及對規範形式(以幫助重複資料刪除)和利用這些識別符號的服務的推薦。ISBN 是書籍的最佳選擇。它在 1970 年之後得到廣泛使用,儘管一些地方出版物沒有它。如果不可用,目錄中通常使用國家書目識別符號,例如美國國會圖書館目錄識別符號。

3. 實體識別符號:我們希望容納人員、地點和其他實體的識別符號。應該提供此類 ID 的佔位符。它們不是必需的。識別的人員的姓名應參照 VIAF 或區域權威檔案記錄,其優先順序高於拼寫建議。應優先考慮在諸如 CC0 等免費條款下公開可用的權威檔案。

4. 建立者型別:同樣,一個簡短的列表(作者、編輯、審稿人……)。如果未知,預設可以是“建立者”。書籍章節“應該”要求列出書籍的編輯。

5. 書目資料的更新:我們需要了解更新將如何進行,然後才能討論元資料本身的標識和版本控制。

6. 連結:對於每個連結,至少需要 url,最好還有文字和連結關係的指示。這些連結可以引用全文或相關作品 - 這是“關係”欄位指定的工作。

7. 索引和顯示:元資料將影響可能進行的索引型別,以及對特定索引、排序、顯示的願望應該告知元資料。例如,Jim 希望有一個檢視顯示:期刊/卷號/期號(可能是一個排序),這要求卷號和期號可排序(例如,數字,沒有“v.”等)。因此,我們需要討論我們需要的和我們可以合理預期得到的東西。另一個問題是欄位索引 - 例如,能夠在特定欄位上進行搜尋,而不僅僅是通用關鍵詞索引。我們希望能夠在哪些欄位上進行搜尋?

華夏公益教科書