跳轉到內容

ETD 指南/技術問題/ETD 的元資料模型

來自華夏公益教科書,開放書籍,開放世界

ETD 計劃的目標之一是方便獲取 TD。由於我們正在處理數字圖書館,因此我們隱含地處理圖書館。在圖書館目錄上執行的操作之一是搜尋和檢索。這是訪問圖書館專案的第一個步驟;第二步是使用(閱讀,收聽,檢視等)專案。

為了在搜尋和檢索操作中提高效率,使用者必須搜尋一個專案已正確標識的目錄,並使用良好的搜尋功能。

本節介紹 ETD 的標識,這是其傳播的重要一步。識別將透過使用元資料元素集來完成,該元素集被稱為 TD 數字圖書館的元資料模型。

在討論 ETD 的元資料模型之前,重要的是將一些想法引入討論中。這些想法與稍後要考慮的模型的選擇有關。這些模型必須豐富且通用,以包含不同性質的資訊,並由來自世界各地的使用者搜尋。

很明顯,元資料模型越豐富、越通用,捕獲(收集和記錄)資訊到數字圖書館所需的時間和精力就越多。關於使用哪個模型的決定必須考慮到這一點。在某些情況下,可能需要採用最簡單的模型,以使元資料捕獲變得可行。本章後面將介紹都柏林核心元資料元素集。似乎它是用於 ETD 的最小識別的共識。

我們要思考的想法是

  • 一個世界中的多種語言
  • ETD 在世界各地閱讀
  • 元資料
  • 內容和例項
  • 內容、例項和元資料
  • 內容、例項和語言
  • 元資料模型和語言
  • 元資料方案
  • TD 元資料模型的專業化
  • 結論 - ETD 的元資料模型

一個世界中的多種語言

我們的世界是一個非常多樣化的語言場所。那些處理資訊並參與國際專案的人都會說英語。這是他們用來交流、訪問網際網路、閱讀技術文獻等的語言。

同時,不僅存在許多其他語言,而且其中一些語言的母語使用者數量眾多。世界前 100 種最常用的語言,當計算母語使用者時,可以在 http://www.sil.org/ethnologue/top100.html 中找到。按降序排列,前 10 名分別是漢語(普通話)、西班牙語、英語、孟加拉語、印地語、葡萄牙語、俄語、日語、德語(標準語)和漢語(吳語)。

如果只考慮其他 9 種語言,那麼不難想象每年有多少文字被寫出和出版。TD 也一樣。以英語以外的語言出版的 TD 數量一定非常大。

ETD 在世界各地閱讀

ETD 計劃的目標和好處之一是方便獲取 TD 中介紹的結果,無論讀者身在何處,也不管論文是在哪裡撰寫的。

我們假設 ETD 數字圖書館將連線到網際網路,以便可以與世界各地共享其內容,以確保實現此好處。

元資料

元資料是關於資料的資料,或者說是關於資訊的資訊。

元資料元素是用來描述數字圖書館專案的屬性,就像用來編目傳統圖書館專案的屬性一樣。

其中許多屬性依賴於語言,例如標題、摘要、主題、關鍵詞等。其他屬性顯然不依賴於語言,例如作者姓名、數字格式、檔案位元組數等。

由於某些元資料元素依賴於語言,而 TD 以多種語言編寫,因此我們可以預期元資料很可能使用作品的語言。這會給搜尋和檢索活動帶來問題,因為我們大多數人並不像我們希望的那樣精通多種語言。

內容和例項

數字圖書館的專案可以在 2 個不同的級別上被識別;就像傳統圖書館的專案一樣。第一個級別是內容,它相當於傳統圖書館的標題,第二個級別是例項,它相當於卷。

內容是數字圖書館專案的邏輯定義,它由一組屬性識別。例項是內容或標題的物理實現。它是一個數字物件,也由一組屬性識別。

使用內容和例項允許內容具有多個例項,無論是以不同的格式還是由於物理分割槽。這將導致內容和例項之間的一對多關係。

使用內容和例項還可以允許在分割槽而不是內容上執行訪問控制。這使得數字圖書館在處理智慧財產權方面更加靈活。

因此,我們可以得出結論,有一些屬性是特定於內容的,而另一些屬性是特定於例項的。元資料模型必須包含兩者。

內容、例項和元資料

有些元資料元素對所有內容都通用,例如標題、摘要、型別等,而另一些元素對所有例項都通用,例如電子格式、訪問級別等。

另一方面,某些元資料元素特定於某些內容,例如翻譯控制 - 原內容、翻譯人員等,而另一些元素特定於某些例項,例如特殊裝置、過期日期、遠端位置等。

從這個評論中,我們可以看到元資料模型必須是通用的,以包含對所有內容和所有例項都通用的屬性,以及特定的屬性,以便適應數字圖書館專案的專業化。

內容、例項和語言

內容可能是依賴於語言的。內容的語言是它被寫入、說出來或唱出來的語言。

其他語言可能與內容相關聯 - 它是用其他語言編目的。可以用其他語言來描述以一種語言編寫/說/唱的內容。這樣,在每個要使用的語言中都有一個目錄條目。

如果在所有語言中執行搜尋,則使用多語言編目將在不同的語言中產生訪問點。本主題將在部分 資料庫和資訊檢索 中介紹。

元資料模型和語言

可以定義數字圖書館以容納多種語言。一個好的選擇至少應該是開發 TD 的國家的語言和英語。

如果是這種情況,元資料模型可以具有所有依賴於語言的屬性,這些屬性以數字圖書館要使用的每種語言編寫,語言程式碼必須是資料庫中主鍵的一部分。

不依賴於語言的屬性在資料庫中只有一種表示。

元資料方案 存在相當多的元資料方案。有些與圖書館專案嚴格相關,而另一些則範圍更廣,例如專門用於用於基於網路的教育的數字物件的那些。一些方案是眾所周知的,應該提到

TD 元資料模型的專業化

除了通用元資料方案中包含的常用資料之外,還有一些與 TD 相關的資訊型別可能對大學感興趣。因此,考慮在傳統元資料方案中新增額外的元資料元素可能會有用。附加元素可以分為 3 組

  • 行政資訊 - 部門、提交日期、接受日期、資金支援等。
  • 學術資訊 - 級別、導師、考試委員會等。
  • 傳統圖書館資訊 - 大學、圖書館系統、控制號、索書號等。

這些可能有助於提供有關大學研究生課程的資訊。

結論 - ETD 的元資料模型 為 ETD 數字圖書館定義元資料模型必須結合

  • 為了實現訪問目標(國家訪問?國際訪問?)而對 ETD 進行適當識別的需求
  • 大學的行政需求

同時,預算或運營時間範圍帶來的限制必須考慮在內。在所需內容和可能內容之間存在平衡。關於這種平衡的一些評論已經提出

  • 對於國際訪問,除了原始語言外,必須使用英語。這意味著標題和摘要必須翻譯,並且主題詞、關鍵詞等將是多語言目錄,需要維護。
  • 為了使 ETD 數字圖書館成為國際社會的一部分,必須滿足 ETD 識別的最低要求。這意味著至少必須使用 DCMES。
  • 為了讓大學能夠很好地控制智慧財產權,使用內容/例項概念允許在數字物件上建立訪問規範。因此,一些物件可以公開,而另一些物件可能由於格式或知識內容而具有不同型別的限制。
  • 在定義運營 ETD 程式的工作流時,必須注意元資料元素的捕獲。如果非圖書館員參與該過程,則必須有一個良好的培訓計劃和一個仔細的審查過程,以便正確地編目屬性。

元資料模型的選擇非常重要,負責實施 ETD 程式的團隊必須在做出決定之前研究各種可能性。必須滿足最低標準。


下一節:編目:MARC、DC、RDF

華夏公益教科書