跳轉到內容

ETD 指南/技術問題/全文

來自華夏公益教科書,開放的書籍,開放的世界

當 ETD 的所有文字都可供搜尋時,據說數字圖書館系統支援全文搜尋。使用者可以提交查詢,要求包含特定短語、單詞、類別或詞幹的文件出現在文字中的任何位置(例如,在段落中間,或作為圖表的標題的一部分)。

在全文搜尋中,通常可以指定查詢詞出現在同一段落、同一句話中,或彼此相鄰的n個詞內。這些細化可以與對精確或近似短語和/或單詞匹配的支援一起使用。

為了使全文搜尋有效,必須分析整個文件,並用於構建索引,以加快搜索速度。這可能需要相當大的索引空間,通常約為文字本身大小的 30%。此外,這種搜尋可能會導致精度降低,因為可能會找到僅偶然提及某個主題的文件,而文件的大部分內容是關於其他主題的。另一方面,全文搜尋可能會提高召回率,因為可以找到未被分類為關於某個特定主題的作品。此外,全文搜尋通常會生成文件中的段落,因此人們可以找到可能相關的段落,而不僅僅是找到一個必須掃描以確定相關性的文件的指標。


下一節:SGML/XML 概述

華夏公益教科書