結構生物化學/蛋白質/開發蛋白質結構的新分類
來自加州大學聖地亞哥分校的三位結構生物化學領域的科學家(Ruben E. Valas、Song Yang、Philip E. Bourne)提出了一種新的蛋白質分類方法。這個想法是由於已解決的大量大分子結構,以及許多尚未被闡明的結構。這帶來了一個嚴重的問題,即如何同化大量可用的結構資訊。其次,目前的分類方法似乎不足以揭示進化鋪設的巨大結構譜系網路,因此,他們的策略是採用還原論的方法來更好地解釋蛋白質結構的進化基礎以及這些結構不同種群之間的譜系。
目前普遍使用兩種蛋白質分類方法
自下而上的方法使用演算法試圖根據幾何形狀、使用均方根偏差 (RMSD) 重疊的能力、比對長度、空隙數量和統計顯著性得分來比較蛋白質。最終結果是蛋白質結構域比較,這幾乎沒有生物學意義。
由於可用方法的多樣性,每個氨基酸序列的分析通常會得到不止一個結果。自下而上方法的一個缺點是,由於氨基酸序列在初級狀態下沒有揭示太多關於蛋白質生物學功能的資訊,因此無法確定哪個結果在生物學上是最重要的。自下而上方法的優點是,它是一種有用的還原論,確實提供了一種不同蛋白質結構域的代表性比較,這可以證明是有用的。
自上而下的方法被認為是當今的黃金標準,例如 CATH 和 SCOP。這些方法主要利用同源序列比較來反映不同蛋白質結構域之間的關係,並因此形成生物學背景。作者同意,這種技術可以基於結構分類是作為物種之間進化聯絡的結果而發展的這一前提,更進一步。此外,作者建議在功能背景下將基因複製、趨同進化與發散進化、共同進化等問題納入考慮,作為未來蛋白質分類中應該使用的想法。
自下而上和自上而下的方法都依賴於蛋白質結構域作為比較單位。結構域是複雜的單位。有些結構域具有相似的序列,並且在進化上是相關的,有些結構域是模糊相關的,具有相似的結構,但序列不同,還有一些結構域具有相似的拓撲結構,但不足以建立進化聯絡。基本問題是結構域可以是進化單位或非進化單位。許多蛋白質是多結構域蛋白質,這進一步增加了複雜性。
摺疊的存在,它被認為是大多數自上而下分類中的離散組成部分,進一步使問題複雜化。摺疊不是進化的直接結果,但它們確實提供了對進化實踐的洞察。摺疊有時在進化過程中會發生改變;一個α摺疊可以透過二級結構改變變成β摺疊。也可以建立兩個具有相似序列但不同摺疊的多肽,從而導致完全不同的功能。還有變色龍序列,它們可以採用多種不同的摺疊。由於摺疊在結構變異方面的多樣性,摺疊不是合適的分類單位。本質上,兩種蛋白質是否屬於同一個摺疊實際上是語義問題,而確定哪一種蛋白質在進化上導致了另一種蛋白質,實際上可以洞悉蛋白質之間的關係。它沒有被廣泛使用的原因僅僅是因為它比聚類相似結構更難。
Valas 等人透過給出兩個突出了這種現象的例子來展示進化選擇的普遍性。首先,Basu 等人在 28 種不同真核細胞的基因組分析中發現,有 215 個強性混雜結構域。Basu 等人將強性混雜定義為那些出現在不同結構域體系結構中的結構域,其中這些體系結構被表示為這些結構域的線性組合。“結構域體系結構透過結構域重排、結構域複製以及結構域插入和刪除而產生,從而產生新的功能。” 結構域混雜的程度取決於與不同結構域夥伴一起出現的頻率。第二個例子是由 Vogel 等人提出的,他們發現了 2 結構域或 3 結構域組合的過度表達,這些組合被稱為“超結構域”或宏結構域。這些是蛋白質進化過程中已證明具有穩定的內部結構域的結構。已發現了超過 1400 個這種宏結構域,它們顯示出一種似乎在進化上有利的自然關聯性。
蛋白質結構域一直是評估蛋白質結構進化的唯一方法。雖然蛋白質結構域本身的進化分析在評估蛋白質結構方面已經取得了成功,但似乎需要其他因素來補充進化網路中未知的部分。因此,作者建議使用一種蛋白質結構分類的多元化方法,其中不僅包括結構域,還包括子結構域、宏結構域以及趨同進化和發散進化。關於子結構域,作者提到了子結構域的區域,這些區域可能是連線蛋白質進化網路的重要組成部分。
有許多工具可以用於在子結構域級別比較蛋白質。一個名為 Fragnostic 的資料庫根據來自不同蛋白質的片段進行分析,這些片段共享結構和/或序列相似性。片段的邊緣是不確定的;也就是說,它們沒有被定義為發散進化或趨同進化,但與其他資訊相結合,可以測試片段的結構進化。
閉環是另一個子結構域單位。大多數蛋白質結構由跨越 25-30 個殘基的環組成。結構域層次結構和閉環 (DHcL) 使用範德華力來從蛋白質結構中闡明結構域和閉環。研究人員發現,與閉環相關的片段更有可能形成大型簇,這些簇彼此相連。這種描述可能代表了對蛋白質功能的更詳細的檢視。在不同結構中相似的閉環可以證明這些結構曾經共享一個共同的祖先。
另一個子域單元是功能位點。許多不同的蛋白質可以與相同的配體結合,這意味著它們可能共享一個共同的祖先,該祖先與所討論的配體結合。蛋白質在進化過程中結構發生了分化,但功能位點保持不變。SMAP 可以找到既具有序列又具有結構保守性的功能位點,這是趨異進化的一個完美例子。另一方面,不同的蛋白質可以收斂到同一個配體。PROCOGNATE 資料庫使用來自 PDB 的資訊將哪些蛋白質與哪些配體結合在一起。這些方法的結合可以將趨異進化和趨同進化都納入考慮。
除了子域之外,宏域也可以用於幫助分類。趨異進化在一些蛋白質-蛋白質相互作用位點(一種宏域特徵)中很明顯。在這些情況下,雖然蛋白質隨著時間的推移而分化,但域介面保持不變。PDB 中許多蛋白質-蛋白質介面在截然不同的蛋白質中包含非常相似的介面。
實質上,基於域的方案效率不高,因為它只能確定蛋白質是來自一個共同祖先的進化,而包括對子域和宏域的分析在內的檢查將提供一個進化假設。多元化蛋白質分類方法面臨的一個問題是趨同進化。兩個具有完全不同進化譜系的蛋白質可以結合在一起具有非常相似的結構,這對連線蛋白質進化網路提出了巨大的問題。
作者認為,為了獲得蛋白質的最後通用共同祖先 (LUCA),有必要觀察除氨基酸序列之外的更多內容,如已經完成的工作,並結合其他結構方面,以便能夠拼湊進化拼圖。