跳轉至內容

化學資訊源/結構檢索

來自華夏公益教科書,開放世界的開放書籍

結構檢索使用化學結構的圖形描述作為搜尋輸入。此類檢索通常針對線上化學物質檔案中(例如 STN 的登記檔案、Reaxys 或免費提供的ChemSpider)的結構資料進行。根據系統允許的結構檢索型別,完整的分子或包含分子嵌入結構的任何化合物都將作為答案集檢索。可以在分子上的自由位點允許輸入分子的無限替換(完整子結構檢索),或者可以將替換限制在某些位點(封閉子結構檢索)。在 STN 系統上,一旦在登記檔案中形成答案集,就可以將其交叉到 CAPlus 或其他文獻資料庫檔案中,以對結構檢索中分離出的化合物的主題進行進一步檢索。在這些情況下,實際上是在交叉檔案中檢索化合物的 CAS 登記號(每個化學品的唯一識別號)。訪問有關化合物的附加資訊(例如毒性、光譜和文獻參考文獻)的功能是幾乎所有提供結構檢索的資料庫的共同特徵。

請注意,現在可以進行考慮手性中心和雙鍵立體化學的檢索。立體檢索也可以在 STN 上的登記檔案和 REAXYS 檔案或Reaxys系統(包含較舊的 Beilstein 和 Gmelin 內容以及大量較新的材料)上執行。相似性檢索查詢在某些方面類似於查詢結構的目標分子。這可能是某些生物學特性,例如藥物吸收或毒理學,關於代謝。通常,測量的是官能團的相似性。最後,馬庫什結構檢索是專利檢索中一項重要的技術,允許檢索到的結構有相當大的可變性,是某些檔案中提供的另一種選擇。

為什麼要使用結構檢索?
[編輯 | 編輯原始碼]

進行子結構檢索有很多原因,其中包括

  • 可以關注特定的結構特徵。
  • 可以排除不需要的特徵。
  • 可以避免命名法的複雜性。
  • 可以評估化合物的創新性。
  • 可以將結構與化學或物理性質或生物活性相關聯。
  • 可以將結構連結到化學反應資料庫以檢視模型化合物或查詢特定的反應條件。
  • 可以找到競爭產品或市場線索。

結合其他型別的檢索,結構檢索是一種非常強大的補充。

STN 登記檔案和其他檔案中結構檢索
[編輯 | 編輯原始碼]

截至 2013 年 12 月 31 日,化學文摘社登記檔案中出現了超過 7800 萬種已註冊的化學物質和超過 6500 萬種生物序列。其中大部分是在 1965 年之後註冊的,但當然,並非登記檔案中的所有化合物都是從那時起發現的。2002 年,化學文摘社開始了一個專案,對 CA 資料庫中的所有文件進行追溯索引。因此,許多自 CA 或 CAplus 檔案建立以來(即 1967 年以來)沒有釋出任何新資訊的化合物現在已新增到登記檔案中。

登記檔案中數百萬種化合物中的大多數都有其登記號連結到 STN 系統上的資料庫。登記檔案記錄的 LC(檔案定位器)欄位指示在哪些 STN 資料庫中可以找到登記號。除了登記檔案外,還可以在 STN 上的 REAXYSFILE、CASREACT 等資料庫中進行結構檢索。類似的檔案定位器功能包含在其他化學詞典檔案中,例如 NLM 的ChemIDplus

登記檔案中可以進行幾種型別的結構檢索,以及不同的分子檢視選項和不同的結構輸入方法。SciFinder 在一定程度上掩蓋了登記檔案與 CAplus 檔案、CASREACT 及其軟體相互關聯的其他資料庫之間的關係。

在 SciFinder 搜尋階段本身,可以從要檢索的答案集中收集大量資訊。在“預覽”選項中,可以透過原子連線分析樣本答案集,或者如果繪製的結構包含它們,則可以透過系統定義或使用者定義的可變基團進行分析。一旦構建了結構並檢索了答案集,也可以為完整答案集找到此類資訊。此時,搜尋可以像透過名稱或分子式搜尋識別化合物一樣進行,允許您從 SciFinder 系統的 CAPlus 部分“獲取參考文獻”或連結到檢索到的登記檔案記錄中的任何圖示。

可以透過其他結構特徵進一步細化結構檢索,或將其限制在市售物質中。一旦細化,可以檢索其索引中包含化合物登記號的參考文獻。

以下型別的結構檢索在 STN 上是可能的

  • 精確檢索——檢索繪製的物質加上任何立體異構體、離子物質或均聚物,以及具有該結構的同位素標記化合物
  • 家族檢索——檢索與精確檢索相同的化合物集,但還將檢索登記檔案中表示的任何多組分化合物(鹽、混合物或共聚物)
  • 封閉子結構檢索——僅允許在某些定義位置的可變節點
  • 完整子結構檢索——檢索檔案中任何以輸入結構作為搜尋鍵的記錄。

有關 STN 資料庫結構檢索的更多詳細資訊,請參見STN 培訓網站

使用 SciFinder,可以進行精確、子結構、相似性和馬庫什檢索。同樣,有關更多詳細資訊,請訪問SciFinder 培訓網站

實際上,登記檔案結構檢索有幾個階段。第一階段涉及對龐大的檔案進行篩選,以查詢具有必要取代基和其他特徵的化合物,而不管它們在分子上的位置如何。更佔用計算機資源的迭代階段涉及逐原子、逐鍵地檢視篩選檢索中分離出的候選分子。由於此階段需要大量 STN 的計算機資源,因此對迭代階段可以檢視的化合物數量有限制。必須對大約 5% 的檔案執行樣本檢索,然後才能預測完整檔案檢索是否會順利完成。假設預測結果良好,則可以將完整檔案中篩選出的候選分子與結構進行比較。否則,必須修改結構才能順利完成。使用 SciFinder,有一些內建的智慧功能可以“自動修復”可能給系統帶來麻煩的分子。

Reaxys 上的結構檢索
[編輯 | 編輯原始碼]

還可以對愛思唯爾的Reaxys系統進行非常精確的結構檢索,該系統包含來自 Beilstein 有機化合物手冊和 Gmelin 無機和有機金屬化合物手冊的大部分遺留資訊、專利資料庫部分以及當前化學文獻中物質、反應和性質資料的持續索引。Reaxys 提供了從 18 世紀至今的化學研究的廣泛覆蓋。截至 2013 年 11 月,Reaxys 資料庫包含超過 2200 萬種化合物、3500 萬個反應和 4500 萬篇文獻參考文獻。


Reaxys 結構編輯螢幕,顯示靛紅分子(上)和兩個搜尋結果(下)

Reaxys 具有與 SciFinder 非常相似的結構繪製和搜尋選項。可以執行精確和子結構檢索。可變基團和原子可以包含在結構中。可以鎖定特定位點,防止任何其他原子連線到該原子。與大多數供應商一樣,愛思唯爾提供了一些優秀的培訓影片和指南,包括本 Reaxys 指南建立物質和反應的結構查詢

一般來說,應參考供應商提供的培訓資料以獲取本文件中所述所有資源的最新資訊。詳細介紹每個資源的檢索機制在實際操作中不可行,即使在該華夏公益教科書中進行介紹,也很快就會過時,因為這些檢索系統和資料庫的更新和新功能新增非常頻繁。

貝氏檢索系統和格氏檢索系統
[編輯 | 編輯原始碼]

貝氏檢索系統和格氏檢索系統是兩個經典的化學資訊印刷彙編。印刷版中的大部分資訊已轉換為電子形式,並在一段時間內作為獨立的資料庫存在。這兩個來源的所有數字資訊以及其他資料庫現已合併到一個統一的資料庫系統中,該系統由愛思唯爾公司建立和維護,稱為Reaxys,它也可以在STN國際上作為REAXYSFILE使用。大型學術研究圖書館通常擁有大量的印刷資料,這些資料對於耐心的、勤奮的檢索人員仍然具有價值。此類機構的化學圖書館員會維護對印刷版本的實用指南,例如,布法羅大學(貝氏檢索系統格氏檢索系統)和德克薩斯大學奧斯汀分校(貝氏檢索系統格氏檢索系統)。

貝氏檢索系統用於有機化合物,而格氏檢索系統用於無機和有機金屬化合物。貝氏檢索系統涵蓋包含碳以及以下元素的化合物

          H
          Li, Be              B, C,  N,  O,  F
          Na, Mg                 Si, P,  S,  Cl
          K,  Ca                     As, Se, Br
          Rb, Sr                     Te, I
          Cs, Ba

化合物可以是單一成分、鹽或混合物(如果它們至少包含一個有機成分)。如果肽含有12個或更少的氨基酸,則會被涵蓋。聚合物或縮聚產物不予處理。以下通常不被視為貝氏檢索系統中的化合物,但可以在格氏檢索系統中找到

  • CO、CS、CO2、CS2、COS、C3O2、C3S2
  • 碳酸及其硫代類似物以及它們與無機陽離子的鹽
  • HCN、HOCN、HSCN以及相應的異酸及其所有金屬鹽和配合物
  • 二氰
  • 光氣
  • 甲酸、乙酸和草酸的金屬鹽

格氏檢索系統涵蓋貝氏檢索系統中未涵蓋的化合物,即無機和有機金屬化學以及礦物學和冶金學等相關領域。化合物使用諸如配位化合物、合金、陶瓷和無機聚合物等術語進行索引。

貝氏檢索系統勞森編號
[編輯 | 編輯原始碼]

貝氏檢索系統資料庫中的化合物也按一個表示各種結構特徵的編號進行索引。這就是勞森編號。它代表某些結構片段,可用於結構相似性檢索。一般來說,勞森編號越小,片段越常見。貝氏檢索系統中的每種物質至少分配一個勞森編號。將勞森編號除以8,可以大致確定包含該化合物的印刷版貝氏檢索系統卷的貝氏檢索系統編號。這些化合物在印刷版的《貝氏檢索系統手冊》中分為三大類

1. 脂肪族化合物,卷1-4;系統編號1-449
2. 碳環化合物,卷5-16;系統編號450-2358
3. 雜環化合物,卷17-27;系統編號2359-4720。

不幸的是,貝氏檢索系統研究所從未公佈用於對有機化合物進行分類的4720個系統編號的含義。但是,現在可以在網上找到勞森編號描述。勞森編號與其他檢索鍵(如分子式、元素範圍等)結合使用時非常有效。它在子結構檢索中與NOT結合使用時也很有用。

《化學文摘》是化學領域最古老的摘要期刊。它涵蓋了1830年至1969年的化學文獻。在140年的時間裡,《化學文摘》出版了90萬頁,其中包括200萬篇摘要。《化學文摘》於1925年引入了使用裡希特體系(不同於希爾體系)的式索引。1956年,它改為希爾體系。之前的標題《化學中央月刊》(1856-1906)僅有作者、主題和專利號索引。InfoChem對該摘要期刊的全文進行了自動化學命名實體識別,從而產生了《化學文摘結構資料庫》,該資料庫支援結構檢索。該資料庫既可以作為Web應用程式提供,也可以用於內部載入。它連結到由FIZ-Chemie製作的原始紙質產品的數字化版本。

結構檢索大大擴充套件了化學家從資料庫中檢索資訊的能力,因為檢索鍵是化學家的“母語”,即化學結構。任何化學家,無論其母語是什麼,都能理解化學結構。因此,結構檢索系統使用化學的通用語言。開發允許在計算機螢幕上輕鬆繪製所需結構的圖形使用者介面是化學檢索的一項重大進步。現在,一些商業資料庫(如化學文摘和Reaxys(貝氏檢索系統/格氏檢索系統))以及公共系統(如PubChemChemSpider)都具有此功能。探索和學習結構檢索系統的所有功能可能需要一些時間,但由此帶來的檢索效率的提升是值得的。

CIIM連結,供進一步學習

SIRCh連結,用於結構檢索

關於此主題的習題集

華夏公益教科書