跳轉至內容

SI521 "密歇根大學開放教育資源" 開放教科書/開放資料

來自華夏公益教科書,開放世界開放書籍

開放資料是一個術語,用於描述科學資料可以在沒有價格或許可障礙的情況下發布和重複使用的過程。科學家通常認為釋出的資料是公共產品,但許多實體聲稱對資料擁有版權或許可,這阻止了未經許可的重複使用,這正越來越多地被視為學術和科學研究進展的主要障礙。

資料定義

[編輯 | 編輯原始碼]

資料是指作為經驗、觀察、實驗或一組前提的結果而收集的資訊或事實。它們可能是數字、文字、影像、基因組、科學公式、地理資訊。資料通常被視為從資訊和知識中衍生的最低抽象級別。這些資料型別可能具有商業價值,這為組織(公共或私人)提供激勵,對其發現或聚合的資料應用智慧財產權限制。詹姆斯·博伊爾將這些限制稱為圍欄 [1],它可以採取專利、版權、許可、使用或訪問費以及其他保留對資料控制的機制的形式。

開放資料是一個術語和哲學,它斷言原始資料應被視為公共產品,並免費提供,沒有智慧財產權限制或所有權。本章將探討為提供共享訪問和將資料置於公共領域的簡單機制而開發的各種模型。

科學依賴於獲取和使用事實資料。在電子儲存和計算能力發展推動的下,幾乎每個學科的科學研究都變得越來越依賴資料。無論是氣象學、基因組學、醫學還是高能物理學領域,研究都依賴於來自多個公共和私人來源的多個數據庫的可用性,以及它們對輕鬆重新組合、搜尋和處理的開放性。 [2]

資料資源

[編輯 | 編輯原始碼]

資料集不同於其他型別的資源,因為它們是非競爭性資源,無法枯竭。一個實體對資料的使用不會減少其他實體使用資料的總可用性。它也是有條件的可再生,因為大多數資料隨著時間的推移變得越來越沒有用,並且可能變得過時。加勒特·哈丁的《公地的悲劇》一文說明了這樣一個論點,即對有限資源的無限制獲取和無限制需求最終會透過過度使用而毀滅資源。這是因為開發的利益歸個人或團體,他們每個人都有動機最大限度地利用資源,直到他們變得依賴它,而開發的成本由所有可以使用該資源的人承擔。資料集的性質通常排除了這種“悲劇”,因為它們不能被耗盡,因此避免了過度使用的情況。

社群行為
[編輯 | 編輯原始碼]

科學實踐有將科學發現作為事實上的公共產品的歷史。同行評審的傳統要求科學發現和主張必須經受同一領域其他科學家的審查。同行評審需要擁有訪問用於生成被審查的主張的資料的專家。此外,科學家的總體規範行為往往傾向於更開放的環境。默頓的科學規範是羅伯特·K·默頓提出的一套理想,用於解釋科學家應該如何表現以及如何進行科學實踐。

  • 集體主義 - 科學發現的共同所有權,根據該原則,科學家放棄智慧財產權以換取認可和尊重
  • 普遍主義 - 根據該原則,對真理的主張是根據普遍或非個人標準進行評估的,而不是根據種族、階級、性別、宗教或國籍進行評估的
  • 無私 - 根據該原則,科學家因以看似無私的方式行事而受到獎勵
  • 有組織的懷疑 - 所有想法都必須經過檢驗,並經受嚴格的、結構化的社群審查 [3]

這些規範表明,讓儘可能多的科學家能夠訪問原始資料符合科學進步的最佳利益。讓多種觀點對資料集進行分析有助於發現錯誤並防止重複已有工作,這可能產生重大成本。向科學和學術界提供新資訊會帶來聲望,同時也滿足了提供資料的實體的實際需求。

但是,不同科學學科之間重複使用資料的社群規範可能會有所不同。例如,生物科學長期以來一直擁有公開提供的資料庫,科學家在其中貢獻和彙總原始資料。使用望遠鏡和衛星等儀器來收集資訊的學科通常利用社群提供的裝置來跨一系列設施收集資料,因此具有尊重資料重複使用規範和政策。隨著儀器越來越複雜,資料集越來越大,在共享這些大量資料方面存在實際的技術挑戰。雖然由公共資金資助的發現傳統上被置於公共領域,但私營企業越來越多地進行原創研究,並對資料施加一系列反映其商業根源的限制。此外,在為資料的特定顯示建立的資訊(資料庫)與作為研究結果捕獲的原始資料的集合(資料集)之間進行區分的難度,在瀏覽訪問權和責任時造成了混亂和爭議。

從歷史上看,美國的智慧財產權法並不保護原始資料或事實,而是保護可能基於原始資料的發明和原創創作作品。例如,“可以為捕鼠器申請專利,但不能為老鼠行為的資料或鋼材的抗拉強度申請專利。一篇科學文章可以獲得版權;它所依據的資料則不能。”

美國法律還規定,聯邦政府作品應立即釋出到公共領域。即使作品因政府參與科學研究而獲得版權,這也適用。聯邦資助的科學研究旨在鼓勵以成本或低於成本的價格廣泛傳播資料,因為人們相信,與州際公路系統一樣,提供公共產品將產生經濟效益。

私人資助的資料收集挑戰在人類基因組計劃期間得到了體現,當時一家名為塞萊拉基因組的私人公司宣佈了他們對基因序列的專利意向。1996 年的百慕大協議是參與人類基因組測序的利益相關者的聚會,其制定了一套原則,以鼓勵立即釋出和公佈測序結果,並將整個測序結果納入公共領域。這項社群協議旨在促進科學的更大目標,以服務於更大的公共利益。塞萊拉採用了基因組測序的“鳥槍法”,其運營成本低於公共資助的人類基因組計劃。這種競爭促使 HGP 加快速度,更高效地開展工作,但塞萊拉對其發現數據的權利主張卻引起了爭議。塞萊拉利用公共資料構建了他們的基因組,但他們不將其研究結果存入公共資料庫,也不允許任何公共使用其資料。儘管塞萊拉公開表示同意百慕大原則,但他們還是提交了 6,500 項專利申請。此外,他們最初沒有以允許其資料分發或再利用的許可證釋出他們的研究成果。2000 年,比爾·克林頓總統宣佈人類基因不可專利,必須免費提供。

許可

[edit | edit source]

詹姆斯·博伊爾將智慧財產權圍欄描述為“將以前屬於共同財產或可能完全不在財產體系之內的東西轉化為私有財產”。[4] 基因組計劃體現了關於如何在科學和智慧財產權領域對待資料和研究的私人/公共鬥爭。隨著商業利益與傳統的科學行為發生碰撞,在“圍欄”中航行變得越來越困難。商業投資既有興趣控制對其發現的訪問,也有興趣主張對其擁有的資料集或資料庫的智慧財產權。此外,隨著研究日益全球化,資料集越來越龐大,存在著合法的技術障礙,這些障礙通常由對提供基礎設施有商業利益的實體來解決。收集和儲存大量原始資料並非易事,私人投資期望這些風險能帶來回報。保護這些利益通常採取的形式是許可協議,用於訪問或限制資料的使用方式。

點選包裝協議
[edit | edit source]

點選包裝協議要求終端使用者首先檢視獲取和使用他們嘗試訪問的資料的條件。然後,使用者點選連結或按鈕以接受協議條款,並被授予訪問許可權。該協議可能包含禁止在某些情況下使用資料或將資料與具有衝突許可證的資料組合在一起的條款。點選包裝協議已在美國法院得到確認。

點選包裝許可證在使用者的計算機螢幕上顯示一條訊息,要求使用者透過點選一個圖示來表明他們同意許可協議的條款。除非點選圖示,否則無法獲取或使用該產品。例如,當用戶嘗試獲取 Netscape 的 Communicator 或 Navigator 時,會彈出一個網頁,其中包含 Communicator/Navigator 許可協議的全文。螢幕上清晰可見的查詢是“您是否接受上述許可協議的所有條款?如果是,請點選“是”按鈕。如果您選擇“否”,安裝程式將關閉。” 在此文字下方有三個按鈕或圖示:一個標記為“返回”,用於返回到下載準備的早期步驟;一個標記為“否”,如果點選,將終止下載;一個標記為“是”,如果點選,將允許下載繼續進行。除非使用者點選“是”,表示他們同意許可協議,否則使用者無法獲取該軟體。

[5]

走向科學公地

[edit | edit source]

"一個龐大、漏洞百出的市場"

[edit | edit source]

“一個龐大、漏洞百出的市場實際上可能比一個規模小、控制力強的市場產生更多的收入。” - 詹姆斯·博伊爾 [6]

需要從多個數據庫中獲取資料的研究人員必須處理不同的、重疊的資料共享策略、協議和法律,這些策略、協議和法律可能會導致相互衝突的義務、限制和約束。這些協議不僅會阻礙研究,還會讓資料提供者能夠控制資料使用者,不僅規定可以進行哪些研究以及由誰進行研究,而且規定可以釋出或披露哪些資料、可以如何組合哪些資料,以及可以將哪些資料再利用以及用於哪些目的。科學家們越來越將這些障礙視為對嚴肅科學探究和實踐的威脅。

邁克爾·赫勒描述了“反公地悲劇”,在這種情況下,權利持有者的這些相互衝突的利益與科學和社會進步背道而馳。這導致了稀缺資源的利用不足,因為太多權利所有者可以阻止其他潛在使用者訪問。 [7] 卡羅爾·M·羅斯將這種框架擴充套件到“公地喜劇”,這是一種由於許多人充分利用這些資源而導致社會自由獲取的資源提供更多效用的情況。

實施開放獲取資料的協議

[edit | edit source]

為了應對對大型資料集、互操作性和開放訪問日益增長的擔憂,科學公地與科學界利益相關者合作起草了一項協議,以使資料集能夠互操作。結果就是實施開放獲取資料的協議,該協議為有興趣以開放訪問的方式分發資料的個人提供資訊,這些資料符合開放知識定義。該協議旨在為公共領域資料提供一個國際相容的框架,因為不同的國家對科學發現的智慧財產權狀況有不同的處理方式。 [8]

開放訪問工具

[edit | edit source]

開放資料公地

[edit | edit source]
公共領域奉獻和許可
[edit | edit source]

PDDL 是一種放棄所有資料權利並將資料納入公共領域的方法。提供者放棄所有權利,包括署名權。他們可以選擇附加一組社群規範,以建議使用者行為。

開放資料庫許可證
[edit | edit source]

該許可證類似於署名/相同方式共享,但適用於資料。

規範
[edit | edit source]

社群規範文件描述了一組非法律約束性的建議行為,資料使用者應該遵守這些行為。這些行為可以自由忽略,但可能會導致其他人不願與違反這些規範的人分享資料。提供者可以選擇他們自己的一組規範來附加到他們的資料,而不是預設的一組建議。 [9]

知識共享:CC0 通用放棄

[edit | edit source]
File:Cc-zero.png
知識共享 CC0 徽標(僅供說明使用)

CC 零通用棄權(CC0)是一種旨在使研究人員能夠以簡單方式將其資料置於公共領域的工具。它由知識共享提供,是科學共享“實施開放獲取資料協議”的結果。它旨在與國際智慧財產權法先例相相容,以幫助確保它是一種可靠、可移植且合法的方式來放棄和/或確認作品的公共領域狀態。對於將大型資料集投入 ProteomeCommons 等系統的提供者來說,這種棄權是有益的,因為它簡化了他們授予開放訪問的流程,併為這些資料的使用者提供了一個明確的訊號,說明了資料的預期用途。CC0 棄權基本上超出了版權的範圍,授予與公共領域類似的使用權,並讓位於社群規範行為以進行自我監管。像 ProteomeCommons 這樣的系統有他們自己的內部激勵機制來鼓勵資料提供者積極的行為,例如將用於識別學術參考的唯一雜湊值與原始許可證指定聯絡起來。

同樣,CC0 許可依賴於使用者按照基於社群的標準行事。由於將 CC0 應用於資料集是單行道,不需要歸屬,因此其他人可以隨意使用、混搭或改編這些材料,而無需歸屬原始資料提供者。但是,知識共享確實指出,提供者可以根據社群規範和標準請求歸屬。透過刪除其他 CC 許可證中存在的歸屬要求,上游資料的使用不會因確保所有可歸屬資料的用途都得到適當歸屬或引用而複雜化,以符合非公共領域許可證。

CC0 1.0 通用 / 無版權將作品與本檔案關聯的人員已透過放棄其在版權法下對該作品的所有權利以及其在該作品中擁有的所有相關或鄰接權利,將其作品獻給公共領域,在法律允許的範圍內。

CC Zero 適用於資料,但也可用於受版權保護的任何型別的內容。CC Zero 以三種方式表達

  • 人類可讀摘要
  • 法律程式碼
  • 機器可讀的數字標記程式碼

案例研究

[edit | edit source]

蛋白質組學是對蛋白質的大規模研究,特別是它們的結構和功能。蛋白質是生物體的基本組成部分,因為它們是細胞生理代謝途徑的主要組成部分。蛋白質組學通常被認為是基因組學之後生物系統研究的下一步,但它有自己的挑戰,因為蛋白質組因細胞而異,也因時間而異。DNA 在化學和物理方面都比蛋白質更簡單。在收集蛋白質組學資料時,使用的分析技術和儀器也更多,這導致更大的、更復雜的資料庫。這些分離的蛋白質或肽片段的識別通常是透過質譜測量來實現的。將從不同平臺和儀器收集的資料進行聚合和整合是蛋白質組學領域的一大挑戰,這導致了系統的開發和社群標準的制定以解決這些需求。

ProteomeCommons.org 由 Jayson Falkner 博士和 Pete Ulintz 博士在密歇根大學 Phillip Andrews 博士的實驗室建立,以幫助解決其中一些挑戰。該網站使用 Tranche 分散式平臺以適合出版的方式永久儲存科學資料。該服務提供了使用通用標準對資料進行註釋、管理專案以及輕鬆地將許可條款或棄權應用於資料上傳的功能。ProteomeCommons 已將 CC0 棄權作為預設選項,以促進科學界的資料共享。

ProteomeCommons.org Tranche 網路是早期採用者之一。我們的目標是儘可能消除科學資料共享的障礙,以促進新發現。知識共享 CC0 棄權被納入我們的上傳選項作為預設選項,以幫助實現這一目標。透過提供一個將資料釋出到公共領域的簡單選項,CC0 消除了許可和限制的複雜障礙。這使研究人員能夠專注於最重要的內容,即他們的研究和新發現。Philip Andrews 博士 [10]

透過將 CC0 作為預設使用條款,ProteomeCommons 消除了使用和引用其 Tranche 網路中儲存的資料的科學家的許多不確定性。CC0 宣告資料可以在上游使用,而無需擔心處理複雜的許可和使用協議。此外,儲存系統的設計並非作為資料庫,而是作為與檔案格式和結構無關的資料儲存系統;它可以接受任何型別的資料集作為原始資料。這減輕了資料庫演示中固有的創意表達的可能性。

Tranche 專案

[edit | edit source]
檔案:Tranche fractal small.png
Tranche 分形

ProteomeCommons.org 建立在 Tranche 軟體平臺之上,主要儲存串聯質譜蛋白質組學資料。Tranche 專案主要由密歇根大學開發和支援,但它以免費和開源軟體的形式提供。任何人都可以參與程式碼的開發並隨意使用它。Subversition 儲存庫位於 Source Forge

安全儲存
[edit | edit source]

Tranche 透過使用安全的分散式檔案系統來解決資料共享問題,資料被切分成小塊(1MB)並在世界各地的許多伺服器之間共享。每個檔案在伺服器上至少複製 3 次,這允許更快的分散式下載和更高的冗餘性,以防伺服器例項出現故障,因為伺服器例項可以出現故障,而對整個網路的影響很小。檔案損壞或丟失的風險大大降低,並且可以透過分散式系統的“自我修復”特性進行修復。

安全性由 256 位 高階加密標準 (AES-156) 加密的雜湊程式碼提供,以確保資料完整性。這種加密允許使用者知道誰將資料釋出到系統,並防止非法資料被髮布和共享。資料提供者能夠安全地與他人私下共享資料,如果他們還沒有準備好公開發布資料。

引用
[edit | edit source]

在使用像 Tranche 這樣的系統時,學術出版的標準化、可靠引用的重要性是一個關鍵問題。科學家必須確信,對儲存在 ProteomeCommons.org 上的任何資料的引用都是唯一且持久的,以便其他科學家可以引用和審查他們的資料。為了解決這個問題,Tranche 系統使用 校驗和 生成他們稱之為“Tranche 雜湊”的東西。雜湊為資料提供了一個靜態的、有意義的、持久的引用,可以用作永久引用並驗證資料本身的完整性。

  • 雜湊基於資料本身。它不是一個任意的 URL。
    • 任何擁有資料的人都可以使用雜湊來驗證資料是否與釋出的資料相同。
    • 軟體結果更具可重複性,因為您將知道自發布以來軟體或資料是否已更改。
    • 網路上的任何伺服器都可以根據其雜湊值查詢資料。
  • 雜湊不會改變。您永遠不會有“斷開的連結”,這在 URL 中經常發生。
  • 雜湊基於標準演算法 - 沒有新的引用方案。
  • 您有多種選擇來下載資料,因為網路不受限於 HTTP 和 Web 瀏覽器。
  • 您還可以使用許多其他工具(包括自定義程式)從網路下載資料。 [11]

雜湊還用於傳達提供資料集的許可證。貢獻者可以選擇其資料集的許可條款,這些條款在生成雜湊時包含在內。如果這些條款在任何時候發生更改,雜湊本身將被重新生成以合併這些更改。 [12] 這樣做是為了強化開放和一致的資料共享許可和行為的社群規範。此外,Tranche 系統與許可證無關,它鼓勵使用 CC0 許可證進行資料共享。如果提供者決定在任何時候更改此許可證,雜湊將更改,從而斷開他們儲存在系統中的資料的連結。由於資料提供者通常是第一個在出版物中引用他們提供的資料的人,因此這種行為對於提供者來說是一種創新,讓他們能夠誠實和一致地使用其資料許可條款。


參考文獻

[edit | edit source]
  1. The Second Enclosure Movement and the Construction of the Public Domain. Boyle, James.
  2. ScienceCommons.org: Towards a Science Commons
  3. Mertonian Norms
  4. The Second Enclosure Movement and the Construction of the Public Domain. Boyle, James.
  5. Specht v. Netscape Communications Corp.
  6. The Second Enclosure Movement and the Construction of the Public Domain. Boyle, James.
  7. Heller 等人。專利是否會阻礙創新?生物醫學研究中的反公共地。科學新系列 (1998) 第 280 卷 (5364) 第 698-701 頁
  8. 實施開放獲取資料的協議
  9. [1]
  10. 知識共享部落格:擴充套件公共領域:第零部分
  11. Tranche 專案:關於
  12. [2]Tranche 和開放獲取資料庫協議:Tranche 雜湊值
華夏公益教科書