結構生物化學/生物資訊學
生物資訊學是一個快速發展的科學領域,它利用計算機技術的優勢來分析分子生物學。生物資訊學領域的方法可以源於統計學、語言學、數學、化學、生物化學和物理學。核酸或肽鏈的序列或結構資料以及實驗資料可以被生物資訊學領域的科學家用作資料[1]。具體來說,涉及生物資訊學的結構生物化學領域處理如何獲得序列比對,以及最終如何分析序列可以幫助生成系統發育樹。這些關係最終可以幫助人們瞭解大分子結構是如何顯示和相互比較的。
一些最著名的生物大分子結構被存檔為原子座標。這些原子座標是包含分子結構三維結構的資料檔案。原子座標的連結進一步解釋了這些資料檔案的細節。分子結構的陣列被存檔在蛋白質資料庫,也稱為 (PDB)。PDB 連結是用於查詢公開提供的許多座標的 URL。現在,許多發表生物大分子結構結果的科學期刊要求研究人員將原子座標上傳到資料庫。因此,在這個資料庫中,有近 20,000 多種生物大分子結構,包括 蛋白質、核酸、碳水化合物,這些結構是透過 X 射線晶體學、衍射技術、核磁共振 (NMR)、電子顯微鏡 和理論模型等技術確定的。這個資料庫正在不斷擴大,每年大約有 2500 種結構出現。
隨著結構的確定,一個四字元識別符號與生物大分子結構相關聯,稱為 蛋白質資料庫識別碼 (PDBid)。第一個字元必須是 1 到 9 的數字,而剩下的三個字元可以是大寫或小寫字母。例如,肌紅蛋白 結構在 PDB 中被編碼為 1MBO。然而,重要的是要注意,識別符號不一定需要與生物大分子的名稱有任何關係。
首先,原子座標檔案從一些資訊開始,例如所研究分子的標識和屬性,檔案提交日期,獲得生物大分子的生物體,以及發現結構的作者及其期刊參考文獻。此外,該檔案還包含關於結構確定方法、對稱性和未研究殘基的描述。許多鏈的序列彼此呈現,並附有描述和公式,稱為異源基團 (HET)。HET 是與標準氨基酸或核苷酸殘基不同的分子,例如有機分子,如 血紅素基團,殘基,如 Hyp,金屬離子,以及與其他分子結合的 水分子。該檔案繼續提供二級結構的元素以及任何存在的 二硫鍵。大多數 PDB 檔案包含兩個系列 - 標準殘基,也稱為 ATOM,以及異源體,也稱為 HETATM 記錄行。在這兩個系列中,ATOM 和 HETATM 針對結構中特定原子提供座標,對應於其序列號。在該系列之後,原子 笛卡爾座標 (X,Y,Z) 相對於原子空間佔據的位點的比例呈現。通常,這個任意的原點被量化為 1.00,但對於包含許多構象的基團,或者不是完全與蛋白質結合的分子,該數字是正數,並且小於 1。此外,還描述了各向同性溫度,因為它可以呈現原子的熱遷移率。各向同性溫度的量越大,表示涉及的運動越大。如果結構是透過 NMR 確定的,則 PDB 將包含 ATOM 和 HETATM 系列,用於在找到結構時計算的座標集中最具代表性的成員。最後,PDB 檔案以連線記錄 (CONECT) 結束,這些記錄呈現原子之間的非標準實體,例如 氫鍵 和二硫鍵。
與蛋白質資料庫類似,核酸資料庫 (NDB) 包含核酸的原子座標。NDB 的以下連結是資料庫的直接 URL。核酸檔案格式與 PDB 檔案類似。然而,NDB 具有對比鮮明的組織和演算法,用於搜尋特定於核酸。此功能特別重要,因為蛋白質按肌紅蛋白等名稱分類,而核酸的標識是透過它們的序列定義的。
研究三維結構非常重要,因為它為反應位點以及生物大分子的功能提供了很多資訊。研究生物大分子結構最直觀的辦法是利用 分子圖形程式。一個有用的程式被稱為 PyMOL。以下連結是 PyMOL 的直接網站,以及該程式檢視三維結構的功能。像 PyMOL 這樣的程式允許使用者透過旋轉分子並獲得對分子印象來積極地參與分子結構,這可以比二維檢視增強對分子的理解。PyMOL 以及 RasMol 等許多其他常用的程式使用 PDB 檔案作為輸入以進行進一步的視覺化。
許多發現的蛋白質在結構上與其他蛋白質相關。這種相似性是由於進化保留了蛋白質的結構而不是它們的蛋白質序列。以下描述集是一些為公眾提供的網站,這些網站具有用於分類和比較蛋白質結構的計算工具。透過使用這些工具,可以檢查功能、序列比較中通常不顯示的遠緣進化關係、為預測結構生成獨特的摺疊庫,以及解釋為什麼某些結構比其他結構更佔優勢。
1. 類別、結構、拓撲和同源超家族 (CATH) 使用這四個主題將蛋白質分類到各自的結構層次中。首先,“類別”是最高級別,包含四個二級結構類別。分別是:主要為α螺旋、主要為β摺疊、α/β混合、以及沒有太多二級結構的蛋白質。其次,“結構”是指二級結構的排列方式,與拓撲結構不同。第三,“拓撲”指的是蛋白質連線性和形狀的整體檢視。第四,“同源超家族”是指與所選蛋白質同源的蛋白質。此外,還可以顯示蛋白質的互動式或靜止檢視。例如,肌紅蛋白的 CATH 分類為:類別:主要為α螺旋;結構:正交束;拓撲:血紅蛋白樣;同源超家族:血紅蛋白。因此,CATH 允許使用者訪問資料庫並向上或向下瀏覽,以比較許多結構層次。
生物資訊學的優勢是什麼?
[edit | edit source]1. 建立生物資料庫的電子圖書館
[edit | edit source]- 生物資料庫是組織好的生物資訊,以電子形式儲存,並且可以恢復。例如,生物資料庫可以記錄一個核酸序列,包括名稱、輸入序列、以及其分離來源的生物體的學名[2]。
- 在這個計算時代,儲存資料庫為科學家之間的交流帶來了極大的便利。電子圖書館中的資料可以被科學家、學生以及知識豐富的普通人廣泛使用。
2. 與分子生物學互動的新方法
[edit | edit source]- 由於分析分子生物學是生物資訊學的主要領域之一,生物資訊學研究集中在建立新的工具,以及儲存、檢索和分析蛋白質序列等材料的方法。
- 分析目標樣本的方法通常是計算機程式,這些程式將幫助研究人員確定感興趣樣本的結構,或幫助科學家從儲存資料中確定樣本的家族類別。生物資訊學中常用的一個程式是 BLAST,即基本區域性比對搜尋工具。BLAST 搜尋的結果是一個序列比對列表,這將幫助研究人員從已知序列資料庫中識別樣本序列的同源序列[3]。
3. 探究進化
[edit | edit source]- 具有共同祖先的蛋白質將具有相似的氨基酸序列[3]。因此,利用序列和結構資料的資訊,科學家可以將未知蛋白質歸類到不同的組中,並重建蛋白質的進化過程。序列比對方法是一種檢測同源基因或蛋白質的技術。兩個基因或蛋白質的進化關係可以透過使用同一性矩陣或替換矩陣來計算得分來確定。結構比對方法透過比較蛋白質的三級結構,也可以探究兩個蛋白質序列的進化關係。然後,科學家可以建立蛋白質的進化樹,以及地球上生命的進化樹[3]。
相關領域
[edit | edit source]與生物資訊學相關的領域包括[4]
生物物理學 - 利用物理科學中的技術和概念來研究生物學的領域。
藥物基因組學 - 在與生物資訊學相關的領域中,利用生物資訊學技術來儲存和處理整個基因組的藥理學和遺傳資訊。
藥物遺傳學 - 與藥物基因組學類似,它使用生物資訊學和基因組學技術來關注一個或幾個基因,並識別基因組的相關性。
醫學資訊學 - 是一門學科,使用演算法和結構等計算機應用程式來幫助有效地傳遞和處理醫療資訊。
數學生物學 - 側重於使用數學工具和方法來表示、評估和模擬生物過程的領域。
計算生物學 - 與生物資訊學非常相似,涉及使用計算機應用程式和統計方法來解決生物學問題。因此,生物建模、模擬和成像使 RNA 結構和基因預測、序列比對演算法和多序列比對等技術成為可能。
蛋白質組學 - 是對蛋白質組的研究。蛋白質組是細胞、組織或生物體表達的完整蛋白質集合。蛋白質是特定基因組的補充。
基因組學 - 這一科學分支的目的是透過使用 DNA 測序和作圖方法來研究基因組,即生物體的完整 DNA 序列。
化學資訊學 - 是使用計算機和資訊科技來解決化學領域的問題。
參考資料
[edit | edit source][1] Nelson, David L. 和 Cox, Michael M. Lehninger 生物化學原理. 紐約:W. H. Freeman & Company. 2008
[2] 國家生物技術資訊中心 <http://www.ncbi.nlm.nih.gov/>
[3] Berg, Jeremy M., Tymoczko, John L. 和 Stryer, Lubert. 生物化學. 紐約:W. H. Freeman & Company. 2007
[4] 生物資訊學組織. 2010. <http://wiki.bioinformatics.org/Bioinformatics_FAQ>