跳轉到內容

開放元資料手冊/開放元資料

來自華夏公益教科書

開放意味著什麼?

[編輯 | 編輯原始碼]

“一項內容或資料是開放的,如果任何人都可以自由使用、重用和重新發布它——最多隻受歸屬和相同方式共享要求的約束。”

元資料是開放的,如果它滿足以下條件

  1. 訪問:它應公開訪問,最好透過網際網路,並且免費(或以合理的複製成本)。
  2. 重新發布:任何人都應該能夠自由地重新發布它,無論是作為它本身,還是作為從許多不同來源派生的更廣泛資料集的一部分。
  3. 重用:它應該可以修改或合併到派生資料集中,這些資料集可以以與原始資料集相同的條款分發。
  4. 沒有技術限制:它應以這樣的形式提供,即沒有技術障礙來執行上述活動。
  5. 歸屬:作為重新發布和重用它的條件,可能需要提供相關貢獻者和建立者的歸屬。
  6. 完整性:作為以修改後的形式釋出元資料的條件,可能需要由此產生的資料集帶有不同的名稱或版本。
  7. 不歧視個人或群體:它不應歧視任何個人或個人群體。
  8. 不歧視工作領域:它不應阻止任何人利用元資料在特定工作領域。
  9. 許可證分發:附帶的權利應適用於所有重新分發它的人,而無需這些方執行額外的許可證。
  10. 許可證不應特定於一個包:附帶的權利不應取決於作品是否屬於某個特定包。
  11. 許可證不應限制其他作品的分發:對與許可資料集一起分發的其他作品沒有任何限制。

有關詳細資訊,請參見 http://opendefinition.org


為什麼開放元資料?

[編輯 | 編輯原始碼]

圖書館、出版商、大學、學者或社會參考管理社群等書目資料的生產者在支援人類知識的進步方面發揮著重要作用。為了讓社會從書目事業中獲得全部利益,書目資料必須開放——即任何人都可以自由使用和重用它用於任何目的。

許多司法管轄區的法律保護著大量的資料(或元資料)集合,因此不能自由使用或重用。因此,至關重要的是,它們在釋出時應附帶明確的宣告,說明發布者對整個資料集合、集合子集或單個書目描述的使用和重用的意願和預期。

對商業重用或衍生資料集生產的限制,使得有效地整合和重用特定資料集變得不可能。它們還阻止了可能為書目資料增加價值的商業服務的部署,或可用於支援資料儲存的商業活動的部署。

為了讓元資料能夠被他人有效地使用和新增,它應該按照開放定義 (http://opendefinition.org) 的定義開放——特別是,不應使用非商業條款和其他限制性條款。建議使用公共領域奉獻許可證或知識共享零免責宣告,以促進元資料的最大程度重用,符合公共資助的文化遺產部門內共享的一般精神。

有關詳細資訊,請參見開放書目原則,網址為 http://openbiblio.net/principles

法律問題

[編輯 | 編輯原始碼]

法律的預設立場

[編輯 | 編輯原始碼]

許多國家的法律禁止第三方未經明確許可使用、重用和重新發布資料。

在歐洲, sui generis 資料庫權利是透過 1996 年 EC 委員會關於資料庫法律保護的指令實施的,該指令定義為“以系統或有條理的方式排列的獨立作品、資料或其他材料的集合,並且可以透過電子或其他方式單獨訪問”。只要一組資料符合資料庫的定義,它將有資格獲得保護(無論它是否也從版權中獲益),只要對獲得、驗證或展示資料庫的內容進行了“重大投資”。如果有人未經所有者同意提取或重新利用受保護資料庫的所有內容或大部分內容,則構成侵犯資料庫權利。與版權一樣,資料庫權利是自動權利,只要資料庫以記錄形式存在,就存在。資料庫權利從資料庫完成製作之年的年底算起持續 15 年(或者,如果在該期間內出版,則從資料庫首次向公眾提供的年份的年底算起持續 15 年)。如果資料庫的內容發生了重大變化,則 15 年的保護期重新開始。

美國沒有資料庫權利。雖然資料庫可以在美國版權法中作為彙編獲得保護,但基礎資料不會自動獲得保護。雖然資料庫所有者一直在遊說引入這種權利,但研究圖書館、消費者團體和從免費使用事實資訊中獲益的公司成功地遊說阻止了它。

在沒有法定資料庫權利的情況下,可以透過合同方式或依靠其他法律來保護非版權資料集合。在美國,“不正當競爭”和“盜用”原則已被用於保護資料庫製造商免受競爭對手的損失,這些競爭對手透過重新發布需要很長時間來獲取或建立的作品而搭便車。

因此,即使在資料庫權利的存在尚不確定的地區,為了明確起見,應用許可證也很重要。

開放許可

[編輯 | 編輯原始碼]

我們建議使用符合開放定義並被標記為適合資料的許可證之一。這些包括

  • 開放資料公社公共領域奉獻和許可 (PDDL):奉獻給公共領域(放棄所有權利)
  • 開放資料公社署名許可:資料(庫)的署名
  • 開放資料公社開放資料庫許可 (ODbL):資料(庫)的署名-相同方式共享
  • 知識共享 CCZero:奉獻給公共領域(放棄所有權利)

更全面的列表(以及使用說明)可以在以下網址找到:<http://opendefinition.org/licenses/>

開放資料公社網站上有一份關於申請開放資料許可證的簡短 1 頁說明指南:<http://opendatacommons.org/guide/>

技術問題

[編輯 | 編輯原始碼]

可訪問性

[編輯 | 編輯原始碼]

開放元資料並不保證資料會被使用(或看到)。在開放許可下公開發布元資料只是第一步。下一步是使其在技術上可訪問。否則,資料存在被利用不足的風險。

開放書目元資料必須對所有人可用,不得歧視任何個人或群體。它應以不超過合理的複製成本提供,以防止財務歧視。它應該以整體形式透過網際網路下載,而不應僅僅根據請求提供。

有幾種機制限制對資料的訪問。這些機制包括

  • 編譯在資料庫或網站中,只有註冊會員或客戶可以訪問。
  • 提供單個數據點,而不是表格查詢或資料集的批次下載。
  • 對資源的有限時間訪問,而不是對它們的無限時間訪問
  • 限制機器人訪問網站,優先考慮某些搜尋引擎

互操作性

[編輯 | 編輯原始碼]

互操作性是指不同系統和組織能夠協同工作(互操作)。在允許不同標準協同工作的範圍內,互操作性指的是將不同的資料集組合在一起,以開發更多更好的產品和服務的能力。關於書目資料,重要的是記錄能夠自由地與包含補充資訊的另一個記錄混合在一起。從不同來源“拼湊”不同資料集的能力對於構建大型、綜合資料庫至關重要。擁有大量資料集,但沒有或很少將它們組合成更大系統的能力是沒有意義的,而這正是真正價值所在。

互操作性意味著使用“開放標準”:向公眾開放的標準,透過協作的共識驅動過程開發和維護。這些標準旨在廣泛採用,它們促進不同資料集之間的互操作性和資料交換。

幾種機制會降低資料的互操作性。它們包括

  • 使用專有或封閉的技術或加密,這會造成訪問障礙。
  • 許可限制資料在可能使其與其他資料集不相容的特定條件下重用(例如許多類似共享許可)

可重用性

[編輯 | 編輯原始碼]

每個人都應該能夠使用、重用和重新發布開放的書目元資料。不應該歧視任何領域或個人或群體——例如“非商業”限制,這些限制會阻止“商業”使用或限制某些用途(例如,僅限於教育)。

資料還必須以方便且可修改的形式提供。書目資訊通常以不允許多次修改的格式提供給公眾(例如,鎖定在 PDF 檔案中)。開放的書目元資料應該以非專有格式編碼,這種格式可以被機器理解,易於修改,並且結構化,以便於對資料的自動處理。

幾種機制限制了資料的重用。它們包括

  • 以無法被計算機自動理解的格式編碼資料
  • 禁止(或混淆)資料重用的許可(例如教育或非商業許可)

案例研究

[編輯 | 編輯原始碼]

http://obd.jisc.ac.uk/examples

歐洲數字圖書館

[編輯 | 編輯原始碼]

歐洲數字圖書館的目標是儘可能廣泛地訪問文化遺產,並授權其他人構建服務,以促進這一使命。因此,將資料公開提供給公共和私營部門是其商業戰略的核心。歐洲數字圖書館還試圖透過提供更豐富的資料來提供更好的服務,其中數百萬文字、影像、影片和聲音連結到其他相關資源。

因此,歐洲數字圖書館一直對連結開放資料感興趣,因為它是一種促進這些目標的技術,正如W3C 圖書館連結資料報告所強調的那樣,它對文化部門非常重要。去年,它在data.europeana.eu釋出了第一個連結資料試點專案。這是一個從技術角度玩轉連結資料的機會。第一個原型部署得相當容易(參見這篇技術論文)。元資料是使用歐洲數字圖書館資料模型 (EDM) 釋出的,這是歐洲數字圖書館對元資料方法的關鍵演變。data.europeana.eu 提供來自歐洲數字圖書館的豐富元資料,不同於原始元資料。它還與其他連結資料來源相連,例如地名。雖然可以透過其他渠道釋出此類資料,但語義網和連結資料技術提供了一種更精細、更本地化的方式——連結只是資料模型的一部分。

data.europeana.eu 仍然不是主要 europeana.eu 入口網站背後的生產系統的一部分。更重要的是,元資料不是明確開放的,這顯然是重用的障礙。

經過幾個月的努力,我們釋出了第二個版本。雖然它仍然是一個試點專案,但它現在包含完全開放的元資料(CC0)。然而,這僅適用於歐洲數字圖書館提供訪問許可權的少數物件:在 2012 年 2 月,data.europeana.eu 包含有關 240 萬個物件的元資料。這些物件來自資料提供者,他們對歐洲數字圖書館促進更多開放資料的努力做出了早期反應。希望第三方將使用這個子集來開發創新應用程式和服務。這當然將有助於說服更多合作伙伴在未來公開貢獻元資料。


背景

劍橋開放元資料專案 (COMET) 是劍橋大學圖書館和劍橋大學 CARET 之間的合作,得到了 OCLC 的協助。它從 2011 年 2 月持續到 7 月,由 JISC 資源發現基礎設施專案資助。它緊隨圖書館對開放書目專案的成功貢獻。最初的目標是在公共領域貢獻許可下將大量記錄集釋出到外部平臺,最初為 MARC 21。該專案還旨在部署、測試和使用多種技術和方法來發布開放的書目資料,包括 XML、RDF、SPARQL 和 JSON,並測試與權威控制服務的整合。

主要成果

  • 用於分析 Marc21 記錄所有權程式碼(以便幫助進行許可分配)並轉換為 RDF 的開源軟體。還構建了開源 RDF 釋出工具集。
  • 超過 200 萬條書目記錄作為 RDF 三元組,許多可以透過 SPARQL 端點搜尋

影響

劍橋大學圖書館釋出資料,部分原因是讀者日益增長的期望,即“一切都是開放的”。圖書館正在作為開放書目專案的合作伙伴,以及參與兩個其他 JISC 資助的專案,幫助其他圖書館釋出開放資料並在其之上開發服務。

COMET 成功地在可重用形式下快速釋出了大量資料。一些構建的工具和方法後來被應用於開放教育專案,尤其是 COMET 對智慧財產權消除歧義的方法。

JISC 在其總結和綜合工作中也注意到了 COMET 對 PDDL 許可資料的偏好。根據 OCLC 的要求,部分 OCLC 資料以 ODBc-By 許可釋出。該專案為檢查兩種選項的優缺點提供了寶貴的用例。

更多資訊

專案部落格 - http://cul-comet.blogspot.com/ 資料集 - http://data.lib.cam.ac.uk 專案程式碼 - https://github.com/edchamberlain/COMET

華夏公益教科書