化學資訊來源/通用搜索策略
尋找任何型別資訊最常見的首要步驟是使用網際網路搜尋引擎,例如谷歌。搜尋引擎是一種計算機程式,旨在檢索與輸入的搜尋詞相對應的基於網際網路的資源(網頁、檔案、影像等)。通常,搜尋結果中不會提供太多額外資訊。搜尋結果本身可能會因用於編譯和返回結果的程式而異。對於專業或學術資訊,包括化學資訊,通用搜索引擎在兩個關鍵方面存在不足
- 它們在基本層面上非常廣泛。當未經細化的資訊搜尋檢索到太多無關結果時,這會導致使用者沮喪,其中一些結果可能不適合學術或工業研究專案。
- 它們本質上僅限於允許搜尋引擎索引軟體(通常稱為網路爬蟲或蜘蛛)訪問的線上專案。因此,對於沒有線上表示的期刊或書籍(一些小型出版商和較舊的標題)或阻止網路爬蟲的網站/資料庫,搜尋引擎無法訪問其內容也無法將其包含在搜尋結果中。
對於任何給定的基於文字的電子搜尋引擎,都可以採用多種搜尋策略來幫助緩解問題 1。這些策略包括使用布林運算子來縮小或擴大特定術語的搜尋範圍,使用截斷或“萬用字元”符號來提供對基本搜尋詞的可變匹配,以及將短語括在引號中以確保完全匹配短語。第 2 節 - 搜尋策略更詳細地描述了其中一些技術。
使用特定主題的資料庫有助於解決問題 1 和問題 2。資料庫是可搜尋的實際資訊儲存庫,與搜尋引擎不同,搜尋引擎僅提供指向資訊的連結。資料庫可能以印刷、線上或電子方式存在,但處於離線狀態,例如 DVD。資料庫通常由控制資料庫結構、資料庫中使用的首選詞語以及可以執行的搜尋型別的個人或組織維護。透過選擇合適的資料庫 - 一個涵蓋感興趣主題的資料庫 - 搜尋更有可能最初返回更多相關結果。特定主題的資料庫還關注所有可用文獻,即使來自仍以印刷形式出版或更流行的期刊或資源,或尚未數字化且處於檔案狀態的材料。
成功瀏覽主題資料庫需要兩項關鍵技能
- 瞭解資料庫在子學科(甚至單個期刊)、會議論文或論文等文件型別以及時間段方面的覆蓋範圍;
- 瞭解主題和特定資料庫的語言,包括首選搜尋詞(稱為索引詞、補充詞、關鍵詞等),以及分類術語,這些術語可能因資料庫而異。
培養技能 1 涉及熟悉特定資料庫。通常,可以在公司或資料庫網站上找到覆蓋資訊。技能 2 是透過研究主題並利用文章級別和資料庫級別提供的的資訊來自然培養的。技能 2 的發展還涉及使用前面提到的搜尋策略,並將貫穿本章的相關資料庫或資源部分。特別是,化學文獻可以透過視覺術語(即化學結構)以及文字進行搜尋,這帶來了自身的挑戰和機遇。
第 3 節 - 電子資訊來源型別概述了可用於搜尋不同型別資訊的各種電子來源,並推薦了每種來源的適當方法。
第 4 節 - 化學資料庫和搜尋引擎概述了一些最流行的化學資訊資料庫和相關平臺。一些資料庫可以透過多個平臺訪問。
最後 第 5 節 - 摘要和補充資訊第 5 節提供了簡短的摘要,幷包含指向進一步閱讀和補充資訊的連結。
由於絕大多數當前搜尋是在電子介面上執行的,因此本節將重點介紹將特定搜尋技術應用於這些介面。這些技術中的大多數將在各種搜尋引擎和資料庫中起作用。將指明何時提供特定資料庫的特定資訊。
布林搜尋運算子顯示搜尋中不同概念或詞語之間的邏輯關係。
為了舉一個具體的例子,假設我們正在使用布林運算子來表達對 Doc's Gourmet Bakery 的外送訂單。假設運送甜點的盤子是文件,餡餅、蛋糕和冰淇淋是這些文件中的詞語。放盤子的托盤代表答案集。
最常見的布林運算子是
- OR - 用 OR 運算子連線的概念是同義詞或以某種方式相關。
OR 運算子透過包括首字母縮略詞、縮寫和資料庫中文件索引中可能使用的類似術語來擴大搜索範圍。答案集中的一個文件可能只包含一個術語,另一個文件可能包含另一個術語,第三個文件可能包含兩個、三個或所有 OR 語句中的術語。OR 布林運算子將所有這些文件都放入最終答案集中,即使給定文件中只存在一個術語。
英語單詞“or”的正常用法意味著選擇,在最終選擇中只可能出現一個東西。在布林意義上,OR 實際上抓取所有專案並將它們放到一個集合中。OR 運算子的一種特殊變體是 XOR。XOR 僅當 OR 語句中的一個術語存在時才檢索文件,但會跳過包含兩個術語的任何文件。
示例:pie OR cake
如果 Doc's Gourmet Bakery 中的每塊餡餅和每塊蛋糕都放在自己的盤子上,並排列在一個巨大的托盤上,我們將滿足搜尋(pie OR cake),並且托盤將代表我們的答案集。由於未使用 XOR 運算子,因此甚至可能有一些盤子同時放有餡餅和蛋糕。在維恩圖中,表示上面兩個圓圈的所有內容都將在訂單中被提取和運送。上面兩個圓圈的重疊部分意味著有些盤子肯定會在上面同時放有餡餅和蛋糕。
- AND - 使用 AND 運算子組合不同的概念以確保它們都出現在同一個文件中。
在日常英語中,“and”用於對可能相似也可能不相似的事物進行分組。在布林搜尋中,所有與 AND 運算子連線的術語都必須出現在答案集中的每個文件中。
示例:cake AND ice cream
在這個例子中,我們訂單中的每一塊蛋糕都會放在它自己的盤子上,上面放一些冰淇淋,以滿足搜尋條件,只有這些盤子才會放在運送的托盤上。底部圓圈的兩個陰影部分代表了這種搜尋。
- NOT - 使用 NOT 運算子將一個概念從最終答案集中排除。
示例:(cake AND ice cream) NOT chocolate
現在,讓我們對搜尋進行進一步的細化,這在維恩圖中並沒有真正說明。假設你對巧克力過敏,但 Doc's Gourmet Bakery 在你下訂單時只剩下巧克力蛋糕。你不會得到任何甜點,因為 NOT 完全消除了子集,當其中一個術語滿足子集時,它就會丟擲每個包含巧克力蛋糕的盤子,即使上面的冰淇淋是你最喜歡的香草。
讓我們在 Doc's 只有巧克力蛋糕在貨架上的同一天,再嘗試一次搜尋餡餅。
示例:(pie AND ice cream) NOT chocolate
在這種情況下,我們的訂單會給我們一些餡餅(只要不是巧克力餡餅,或者餡餅上沒有巧克力冰淇淋)。
從這些例子中,你應該意識到 NOT 命令在線上搜尋中必須謹慎使用,因為它可能會消除一些你感興趣的文件,如果這些文件也恰好討論了你並不感興趣的主題方面。例如,在最後一個 NOT 例子中,你將不會得到任何既有餡餅又有巧克力蛋糕的盤子。
AND 命令有更具體的變體,可用於定義搜尋詞的空間關係。這些被稱為 **位置** 或 **接近運算子**。在 STN 上,它們是
- (A) - 術語必須相鄰,不考慮順序
- (W) - 術語必須按照指定的順序出現
- (L) - 術語必須出現在同一個邏輯單元(欄位)中
- (S) - 術語必須出現在同一個欄位內的同一個句子中。
請注意,在 STN 上,(A) 和 (W) 運算子在所有檔案中都具有相同的含義;其他接近運算子可能會根據檔案產生不同的結果。在沒有明確的位置或其他布林運算子的情況下,STN 假定多詞短語將使用 (W) 運算子進行搜尋。
請參閱 "用於關聯搜尋詞的運算子",瞭解一些 STN 系統上的布林搜尋運算子示例。
一些示例說明了 **巢狀** 的使用,將術語放在括號中,以便搜尋系統知道先執行這些函式,然後再繼續執行其他運算子。
截斷(遮蔽)字元以擴充套件搜尋
[edit | edit source]在許多涉及主題搜尋的情況下,我們正在尋找涉及以共同詞根構建的詞語的主題,或者這些詞語有一些其他變體,可以透過特殊符號輕鬆地向計算機發出訊號。**截斷** 是一種技術,它告訴計算機形成一個答案集,該答案集包含所有包含用於搜尋的字元的詞語的記錄,但也可能包含在詞語的給定點處帶有後綴(或在某些情況下帶有字首)或可變字元的相關詞語。**在 SciFinder 研究主題搜尋中無法使用截斷技術。** 但是,它可以應用於命令驅動的搜尋,例如在 STN 上進行的搜尋。例如,請參閱
- "截斷符號('萬用字元')",以及
- "CAPlus 檔案中關鍵字搜尋的技巧"
截斷可以發生在詞幹的左側或右側,也可以發生在詞語內部。STN 現在允許在 CA 檔案基本索引中進行所有三種類型的截斷,該索引是來自標題詞、摘要中的詞語或索引詞(包括所討論化合物註冊號的主題詞的索引)。透過截斷收集到的一組詞語的限制為 30,000 個詞幹。對於左側截斷,搜尋詞必須至少包含四個字元。
在 STN 系統上,截斷符號是
| 符號 | 功能 | 示例 |
|---|---|---|
| 感嘆號 (!) | 正好一個字元 | cataly!e |
| 井號 (#) | 一個或零個字元 | alcohol# |
| 問號 (?) | 任意數量的字元 | ?therap? |
如表所示,# 符號可以在單詞末尾使用,以提取單詞的單數和複數形式。在 STN 上使用命令語言選項來完成相同操作的另一種方法是在系統提示符處輸入 SET PLURALS ON。允許使用“?”進行左右截斷。
使用截斷收集到一組詞語的數量有限制。因此,在使用截斷時必須謹慎,以防止過多的搜尋詞(或意外的詞語)進入答案集。
新手搜尋者甚至專業人士有時會在截斷方面犯下嚴重錯誤,尤其是在允許左右截斷的系統中。考慮一下如果使用這些字元字串在兩側進行截斷,搜尋會發生什麼
在第一次搜尋中,將提取“chemical”或“chemistry”或“biochemical”等單詞的每次出現,但也將提取包含“hemisphere”等單詞的文件。在第二種情況下,將提取每個包含以 -ION 結尾的英語單詞的文件。可能不是搜尋者想要的!
不幸的是,不同供應商或搜尋引擎之間用於指定截斷的符號並不統一,儘管通常我們發現星號 (*) 用於表示右側截斷點。例如,Web of Science 就是這種情況。
在 SciFinder 中,不使用截斷。搜尋者只需在研究主題搜尋視窗中輸入定義搜尋的自然語言表示式,甚至不需要嘗試插入布林搜尋詞。SciFinder 搜尋演算法具有一些內建的智慧,可以查詢與搜尋相關的詞語形式。例如,搜尋系統會自動搜尋單數和複數主題詞。
讓我們考慮幾年前在 SciFinder 上針對分析技術“化學分析電子能譜 (ESCA)”執行的研究主題搜尋的結果,包括來自 CAplus 和 Medline 資料庫的結果。
在執行搜尋時,輸入的搜尋找到了 4395 篇參考文獻,其中“電子能譜”和“化學分析”這兩個概念緊密關聯,而只有 582 篇參考文獻包含輸入的短語。在這種情況下,讓我們重複使用分析技術縮寫 (ESCA) 進行搜尋,並使用同義縮寫 XPS。(該技術也稱為 X 射線光電子能譜。)我們可以選擇在術語或短語後用括號輸入同義詞。因此,在 SciFinder 上輸入研究主題搜尋為
XPS (ESCA)
會暗示系統你在尋找同義詞(OR 搜尋)。此搜尋找到了更多文件:在 2004 年 10 月 3 日搜尋時,共找到 114,511 篇。但是,ESCA 部分搜尋提取的 35,609 條記錄中,許多是誤報,與“escape”一詞匹配!單獨輸入 ESCA 會提取 7516 條包含“as entered”的記錄,並且似乎除了最古老的(1918 年的記錄)之外,所有記錄都是相關的。因此,在 SciFinder 上,必須謹慎使用在括號中輸入同義詞的方法。
引號
[edit | edit source]將短語放在引號中會大大縮小搜尋範圍,因為結果將限制在包含精確短語的那些結果,並且按輸入順序排列。一個基本示例是搜尋 **polymer nanorods** 與 **"polymer nanorods"**
**polymer nanorods**:大多數搜尋引擎將對 **polymer** 和 **nanorods** 術語執行 **AND** 搜尋,並返回包含這兩個術語的結果,無論它們出現在結果中的任何位置,這將導致無關結果。
**"polymer nanorods"**:將術語放在引號中將確保返回的結果包含 **polymer nanorods** 作為相鄰術語。
電子資訊來源型別
[edit | edit source]
書目與非書目
[edit | edit source]在搜尋同行評審的科學資訊時,可以區分兩種型別的資料庫
非書目
這包括屬性資料庫、化學結構資料庫、詞典和百科全書等來源,這些來源提供實際問題的答案,而不必查閱其他來源。
示例:大英百科全書、CRC 化學和物理手冊、SciFinder、ChemSpider
書目
這些資料庫包括已發表作品的記錄,可能包括摘要,並且越來越多地包含到主要文件全文的連結。
示例:Web of Science、SciFinder、Compendex、PubMed
通常,商業產品無法透過公共網際網路連線找到或訪問 - 訪問許可權僅限於已付費訪問的組織,這通常透過計算機 IP 認證來執行。示例包括 CRC 手冊和知識網路。一些資源是公開可用的,例如 ChemSpider 和 PubMed。網路搜尋引擎無法訪問圖書館線上公共訪問目錄 (OPAC),這些目錄會告訴你具體的圖書館館藏,也無法訪問任何商業供應商提供的產品。但是,公開可訪問的資料庫通常會在搜尋引擎結果中顯示。因此,它們可以成為非常強大的工具,對於某些型別的問題,它們在資訊搜尋中非常有用。如今,包括化學家在內的許多人都會維護自己的個人網頁。為了定位某人,並可能找到化學家的完整或精選的參考書目或簡歷 (CV),網路可能是獲得可靠、最新資訊的最佳途徑。同樣,非常新的或熱門的話題可能會在網路新聞組、討論列表或部落格中討論,遠在它們出現在傳統期刊,以及隨後出現在摘要和索引服務之前。出於所有這些原因,我們開始看到商業供應商新增選項,將商業資料庫搜尋中使用的搜尋策略轉移到網際網路上以獲取更多資訊。
儘管訪問網路很容易,但如果您在組織中可以輕鬆訪問線上商業資料庫,那麼從網路搜尋引擎開始進行主題資訊搜尋應該是一種比較罕見的情況。像 Web of Science(包括可能追溯到 1900 年的科學引文索引)、愛思唯爾 Reaxys 資料庫(其中包括涵蓋現代無機、有機和有機金屬化學文獻的 Gmelin 和 Beilstein 資料庫,追溯到 18 和 19 世紀的開端)和化學文摘 (全面涵蓋化學的所有領域,追溯到 1907 年,在某些情況下甚至更早) 這樣的資料庫,如果對您可用,通常是更好的首選。
資料庫搜尋選項包括
- 對位於組織外部的商業資料庫進行線上搜尋。
線上搜尋服務提供商(例如,STN 國際)從資料庫生產商(如化學文摘服務或湯森路透)租賃或購買資料庫,並在遠端計算機上提供。對於某個特定的供應商,其計算機上可能擁有數十或數百個資料庫,這些資料庫都透過通用命令語言或圖形使用者介面進行搜尋。在絕大多數情況下,搜尋資料庫都需要付費。
- 網路搜尋引擎。
如上所述,當今強大的搜尋引擎可以為傳統的線上搜尋提供有用的補充。
- 網路上的免費化學資料庫.
一些可以在網際網路上免費搜尋的資料庫質量非常高,例如由美國國立醫學圖書館或其他政府機構或商業組織製作的資料庫。但是,大多數可以在網際網路上免費訪問的資料庫的質量可能不及商業資料庫。此外,在免費網際網路資料庫中,使用者遇到的搜尋介面有很多差異。儘管如此,對於某些型別的搜尋,它們不應該被忽視。
- 對組織內資料庫進行內部搜尋。
化學和製藥公司現在通常在其自己的計算機上載入資料庫。
摘要和補充資訊
[edit | edit source]商業資料庫相對於免費的網路搜尋引擎有很多優勢,包括對資料的更深入索引和更復雜的搜尋技術。儘管此處討論的許多搜尋技術(如使用布林運算子和截斷)可以應用於免費搜尋引擎,但商業資料庫的深入索引(包括文件型別等欄位)使這些技術更加強大。始終建議在可用時諮詢專門的資料庫,而不是僅僅依靠搜尋引擎結果。
CIIM 連結,供進一步學習(主要工具或資料庫)
化學文摘資料庫與印刷版《化學文摘》
[edit | edit source]德克薩斯大學化學館員大衛·弗拉克斯巴特指出了在圖書館館藏中保留印刷版《化學文摘》卷冊的一些原因 (CHMINF-L,2010 年 6 月 8 日)。他指出:SciFinder 與《化學文摘》並不完全相同。後者中的所有(或幾乎所有)內容都包含在 CAPLUS 檔案中,並透過註冊檔案進行穩健的物質索引。但說你可以在 SciFinder 中完成在印刷版中可以完成的所有操作是過於簡化了。
例如
- 集體主題/物質/化學式索引允許以 SciFinder 中無法實現的方式瀏覽化學名稱、化學式和主題詞。SciFinder 非常適合快照,但它沒有提供任何關於 CA 資料庫的層次結構、其索引和命名法的檢視;它也不允許瀏覽母體結構的衍生物、鹽和其他變體。換句話說,你無法像在印刷版中那樣線上瀏覽附近的條目,這消除了偶然性因素。對於某些目的,這是一個重要的區別。(在 STN 中可以瀏覽索引條目。)
- 當你無法弄清楚 CAS 如何定義某些型別化合物的結構或化學式時,特別是無機化合物(鹽、水合物、離子、小數等)、配位化合物和多組分物質,SciFinder 會讓人沮喪。使用索引指南和化學物質索引實際上可以節省一些時間,當你找到註冊號時,你可以回到 SciFinder,找到物質記錄並完成文獻檢索。(當然,此方法僅適用於在你上次集體索引之前註冊的化合物。)
- SciFinder 中無法搜尋或顯示 1967 年之前的 CA 文摘號,只能在印刷版或 STN 上查詢或驗證。這些編號偶爾會在較舊的文獻中被引用,尤其是作為模糊和外國文獻的替代品。
- 一些印刷版文摘可能包含線上未重複的結構圖形。
- 一些較舊的 CA 記錄未被正確轉換,在 SciFinder 中丟失或與相鄰記錄合併。CAS 會在收到通知時修復這些錯誤,這似乎是一種罕見的現象。
- 根據許可限制,SciFinder 無法供非關聯使用者使用。《CA》印刷版是一個潛在的備用方案。(除非它被存放在庫房中。遠端儲存的索引幾乎肯定永遠不會再被使用,也無法用於其預期目的,因此這與丟棄它們本質上沒有區別。)當然,《CA》印刷版僅用於歷史檢索。即使你丟失了對 SciFinder 的訪問許可權,印刷版《CA》也無法填補空白,也無法成為現代使用者的可接受替代方案。
- 即使你決定丟棄大部分《CA》,也應該考慮保留最有價值的部分,如索引指南(非常有用,可以查詢索引詞、同義詞、受控詞彙、註冊號等);專利索引;化學式和名稱索引;以及環系手冊。此外,一般的經驗表明,較舊的(和較小的)1967 年之前的 CA 部分在檔案方面比 1967 年後的卷冊更有價值,後者在一定程度上更易於處理。
另請參閱化學文摘服務:從《CA》印刷版過渡到 CAS 的電子產品,以獲取更多資訊。

