跳轉到內容

結構生物化學/生物資訊學/同源性

來自華夏公益教科書
A wings.
達爾文發現鳥類翅膀的進化變化是同源性的一個例子,這是基於翅膀骨骼結構的相似性。 http://www.talkorigins.org/faqs/precursors/precurscommdesc.html

同源性是一個概念,它考慮了兩種不同生物體之間核酸或蛋白質序列的相似性。由 理查德·歐文 在 1948 年提出,同源性透過比較兩種不同蛋白質氨基酸序列樣本或 DNA 序列中出現的匹配來量化,併為對齊中出現的相同/相似匹配分配一個點值系統。這種分析方法有助於確定物種之間的關係,並有助於追蹤祖先的起源以及特定物種組在一段時間內發生的進化變化。如今,已經開發出評估兩種生物體同源性的可能性,並且在很大程度上已成為全球生物資訊學家的主要關注領域。核酸之間的同源性主要分為兩種型別:直系同源和旁系同源。如果同源物是透過稱為物種形成的事件分開的,則稱其為直系同源。直系同源基因存在於不同的物種中,但彼此相似,因為它們起源於同一個共同祖先。直系同源通常具有相同的功能。旁系同源是透過基因複製事件分開的基因。旁系同源大多具有相同的功能。編碼血紅蛋白和肌紅蛋白的基因被認為是旁系同源基因。同樣,血紅蛋白 A、A2、B、F 也是彼此的旁系同源。

術語的誤用

[編輯 | 編輯原始碼]

在描述蛋白質或核酸序列時,術語“同源性”經常被錯誤地使用,因為“同源性是一個質量概念,不能被‘量化’[1]”。在最近的一項分析中,在 PubMed 的 2007 年資料庫中搜索了術語“同源性”,並發現了 1966 篇摘要包含“同源性”一詞,無論是標題還是摘要,都排除了將該術語用作蛋白質或程式名稱一部分的摘要。在這些摘要中,57%(1128 篇)正確使用該術語,而 43%(828 篇)錯誤地使用了該術語。一些錯誤的用法包括與百分比值相關聯,以及“高”、“低”和“顯著”等術語。分析 1986 年資料庫中摘要的該術語表明,錯誤使用“同源性”一詞的頻率略有下降。[2]

該術語的分析也在跨語言進行。在 1986 年對包含同源性的文章的搜尋中,總體而言,錯誤使用該術語的文章比例較低。然而,隨著其他國家在科學研究方面取得長足進步,來自新興國家的研究文章數量不斷增加,其中錯誤使用同源性一詞的文章比例更高。文章“當涉及同源性時,不良習慣難以改變”主張透過要求科學期刊推廣關於常用術語的正確用法指南以及對新興國家的新研究人員進行術語教育來解決這個問題。[2]

錯誤使用同源性一詞被認為是一個問題,因為它會導致讀者在試圖理解作者意圖時感到困惑。例如,作者可能會說兩種蛋白質是同源的,同時還會說明這兩種蛋白質沒有相同的進化起源(這是同源性的定義)。作者還可能會說兩個肽鏈是同源的,而完全忽略了它們是否具有相同進化起源的討論。還發現作者將該術語用作蛋白質來自同一進化起源的證據(例如,“這些蛋白質同源這一事實證明它們來自同一進化鏈”)。[3]

同源性和相似性之間的區別的一個例子是人類和黑猩猩 DNA 的比較與人類和老鼠 DNA 的比較。雖然老鼠和人類與人類共享約 97.5% 的 DNA,但這並不意味著它們具有相同的進化起源。雖然非常相似,但它們並不同源。[4] 然而,人類和黑猩猩共享超過 98.0% 的 DNA,並且被認為具有相同的進化起源。因此,人類和黑猩猩的 DNA 鏈可以正確地稱為同源的。[5]

直系同源物

[編輯 | 編輯原始碼]

直系同源物是指兩種完全不同的物種之間密切相關的特定基因序列,但通常具有相同的功能。術語“直系同源”源於“ortho”的詞根,意思是“其他”,由沃爾特·菲奇在 1970 年創造。在物種形成事件中,一個物種分化為兩個獨立的物種,單個基因的差異複製會導致直系同源的同源序列。

直系同源基因的一個例子是牛和人類中編碼血紅蛋白的基因。直系同源物的對映可以幫助生物學家構建更加詳細和具體的進化樹。分類學和系統發育研究得益於直系同源序列。一個簡單的例子可以是蝙蝠和鳥類;鳥類和蝙蝠屬於兩個不同的物種,但它們的翅膀具有相同的功能。

旁系同源物

[編輯 | 編輯原始碼]

旁系同源物是指同一物種中生物體共有的但功能不同的基因序列。旁系同源物通常是基因複製的產物,基因複製可以透過多種機制引起,例如 轉座子 或非等位交叉。這些重複的基因通常具有相似的功能,並且可以進一步突變以承擔其他功能,從而導致旁系同源物。

差異或替換的數量與基因複製後經過的時間成正比。從而闡明瞭基因組進化的方式。肌紅蛋白和血紅蛋白被認為是所有進化的古老旁系同源物。

疑似旁系同源物是指編碼血紅蛋白和肌紅蛋白的基因,因為它們都具有相似的蛋白質結構,但在氧氣攜帶功能上有所不同。已知有四類血紅蛋白(血紅蛋白 A、血紅蛋白 A2、血紅蛋白 B 和血紅蛋白 F),它們都是彼此的旁系同源物。旁系同源物的其他例子是肌動蛋白和 Hsp-70。它們的叔結構相似,但功能不同;肌動蛋白是細胞骨架的一部分,而 Hsp-70 是一種熱休克蛋白。

序列比對檢測同源物

[編輯 | 編輯原始碼]

為了檢驗兩個分子是否同源,重要的是檢查核酸或蛋白質序列中兩個序列之間出現的匹配。雖然測序的形式有效,但蛋白質測序通常是可取的,因為它由 20 種不同的組成單元(氨基酸)組成,而 DNA 和 RNA 分別只包含四種核酸;因此,蛋白質測序中出現大量匹配是共同祖先的更有力證據,而不是核酸測序。此外,遺傳密碼的冗餘性,即不同的基因可以編碼相同的氨基酸(例如,GCU、GCC、GCA、GCG 都編碼丙氨酸),使得蛋白質的比較在確定蛋白質功能的相似性方面比 DNA 或 RNA 更敏感和有用。

可以透過分析兩個蛋白質序列在直接對齊或一個序列相對於另一個序列滑動時氨基酸匹配的次數來比較它們。例如,在評估匹配次數時,頂層鏈的第一個氨基酸可以與第二層鏈的第 1 個氨基酸直接對齊,也可以滑動到它的左側/右側,從而導致不同的氨基酸對齊。然後將匹配次數繪製在對齊圖上,以評估最大匹配次數的對齊方式。重要的是要理解,大量的匹配並不意味著兩個蛋白質是同源的。

為了考慮插入和缺失等突變,可以插入間隙以建立更好的匹配。如果兩個序列比較看起來很匹配,則可以插入間隙以適應這兩個比較。科學家對對齊進行評分:每次匹配 +10 分,每次間隙 -25 分,無論間隙大小如何。然後必須將此分數繪製在透過隨機洗牌一個蛋白質鏈並將它與另一個蛋白質鏈比較多次獲得的其他分數分佈中,以確保氨基酸匹配不是由於偶然造成的。如果分數與大多數分數有很大偏差,則兩個蛋白質可能是同源的。但是,低分並不能排除同源性。

同源測序技術:矩陣

[編輯 | 編輯原始碼]
核苷酸簡單同一性矩陣
同一性對齊的隨機洗牌往往會重疊。

可以使用同一性或替換矩陣計算分數。透過選擇一個矩陣來新增間隙以進一步匹配序列,此過程可以更加精確。矩陣的例子包括 PAM、BLOSSUM(一種替換矩陣)、GONNET(專門針對距離的矩陣)、DNA 同一性矩陣和 DNA PUPY 矩陣。總體而言,替換矩陣對蛋白質序列最敏感。透過使用這些矩陣,可以檢測到遙遠的進化關係。如果兩個序列至少有 25% 的同源性相同,則可以確定這兩個蛋白質是同源的。但是,百分比低於 25 的序列不一定不是同源的。例如,如果蛋白質 A 與蛋白質 B 同源(基於它們的同一性百分比),而蛋白質 B 與蛋白質 C 同源,則 A 和 C 可能在功能上具有相似性,即使它們只有 15% 的同一性。同一性矩陣對序列之間的匹配分配一個值 1,對不匹配分配一個值 0。這種方法不區分可能突變和罕見突變,因此不能對同源性給出明確的答案。替換矩陣透過給予它們一個大的正分數來解釋保守突變,這些突變不太可能是有害的或嚴重改變功能,例如交換甘氨酸和丙氨酸。因此,換句話說,替換矩陣不僅考慮序列是否相同(給予它們最高可能的分數),而且與同一性矩陣不同的是,它們也為氨基酸序列分配值,當它們被另一個具有相似性的氨基酸“替換”時。氨基酸序列越相似,它接收的“值”就越大。序列差異越大或給定氨基酸的替換“罕見”程度越高,例如,A 被替換為 P,它們接收的“負”值就越大。透過區分不同型別的突變,可以進行更好的匹配,並避免基於隨機機會的對齊。

同一性矩陣:同一性矩陣使用 1 和 0 的分數,其中相同氨基酸或核苷酸的匹配得到 1 分,任何不匹配得到 0 分。這並不像意義重大,因為隨機洗牌分數可能與原始分數在同一區域。[6]

GONNET:Gonnet 矩陣使用蛋白質的“詳盡成對比對”並測量距離來估計對齊。這將建立一個新的距離矩陣,從而細化對齊分數。這種型別的矩陣表明蛋白質是否源於密切相關的或遙遠相關的同源蛋白質。這種型別的矩陣是由 Gonnet 在 1993 年在 Cohen 和 Benner 的幫助下形成的。[7]

alt text
來自 www.clcbio.com 的替換矩陣

DNA PUPY

DNA Pupy 矩陣為嘌呤-嘌呤轉換和嘧啶-嘧啶轉換提供分數。據信它有助於尋找 PCR 引物。[8]

PAM:點接受突變 (PAM) 是一組用於序列比對評分的矩陣。PAM 由美國物理化學家和生物資訊學家瑪格麗特·戴霍夫 (Margaret Dayhoff) 於 1978 年引入。PAM 用於開發一個評分矩陣,該矩陣用於確定兩個基因或蛋白質的同源性。該矩陣被標準化,以便 PAM1 給出對每 100 個氨基酸有 1 個點突變的序列的替換機率。最常用的的是 PAM250,其中機率是針對每 100 個氨基酸有 250 個點突變確定的。

BLOSUM 62:BLOSUM 62 是最常用的替換矩陣。美國國立生物技術資訊中心 (NCBI) 開發了一個程式來進行這種序列比對,該程式可以線上使用。此替換矩陣統計不同氨基酸對的分數,不僅考慮同一性,還考慮氨基酸對的保守性(一個氨基酸與另一個氨基酸的相似程度,以不誘導特定蛋白質功能的劇烈變化)和頻率(氨基酸在蛋白質序列中出現的次數)。如果氨基酸相同,該矩陣將給予更高的分數,但它也將根據相似性給予分數。例如,異亮氨酸和纈氨酸將獲得更高的分數,因為雖然氨基酸不相同,但它們在都是疏水性方面是相似的。

同源建模

[編輯 | 編輯原始碼]

同源建模的主要目標是研究大分子結構。X射線晶體學NMR 是提供詳細結構資訊的唯一方法;但是,這些技術涉及複雜的程式,許多蛋白質無法結晶或無法以足夠的量獲得或溶解用於 NMR 分析。因此,根據已知同源蛋白質的三維結構進行模型構建是獲得未知蛋白質結構資訊的最可靠方法。以下是同源建模的主要步驟

1. 查詢同源蛋白質資料庫檔案(模板)模板選擇是同源建模中的一個關鍵步驟。資料庫搜尋技術可以幫助識別模板。

2. 使用單序列或多序列比對建立比對。

當涉及多個已知時,已知將相互比對,然後將未知序列與該組比對;這有助於確保更好的域保守性)此外,可以透過插入或刪除間隙來校正比對。儘管引入間隙會使比對變得複雜,但已經開發出使用評分系統來比較不同系統並對間隙進行處罰以防止不合理的插入的方法。比對評分涉及構建同一性矩陣和替換矩陣。替換矩陣被認為是最好的,這些方法基於對觀察到給定氨基酸在可以比對序列的蛋白質中被其他氨基酸替換的頻率的分析。

3. 模型生成:模板和比對中包含的資訊可用於生成蛋白質的三維結構模型,該模型表示為一組笛卡爾座標。

4. 模型細化:同源建模中的主要誤差來源是模板選擇不當和模板-目標序列比對不準確。這可以透過使用多個序列和結構比對來改進。

參考文獻

[編輯 | 編輯原始碼]
  1. Lewin, R. (1987) 同源性什麼時候意味著其他東西? 科學 237, 1570
  2. a b “談到同源性,壞習慣很難改掉。” 生物化學趨勢。第 34 卷,第 3 期,2009 年 3 月,第 98-99 頁。
  3. Reeck GR. “蛋白質和核酸中的同源性:術語混亂及其解決方法。” 細胞雜誌,第 50 卷,第 5 期,1987 年 8 月。
  4. Coghlan A. “只有 2.5% 的 DNA 將老鼠變成人” 新科學家,http://www.newscientist.com/article/dn2352-just-25-of-dna-turns-mice-into-men.html 2002 年 5 月
  5. Choi C. “猴子 DNA 指向共同的人類祖先。” 直播科學,http://www.livescience.com/health/070412_rhesus_monkeys.html 2007 年 4 月
  6. [Berg,Jeremy M.,John L. Tymoczko,Lubert Stryer 和 Jeremy M. Berg。生物化學學生指南,第 7 版,國際版。紐約:W.H. Freeman,2011。]
  7. [Rastogi,S. C.,Namita Mendiratta 和 Parag Rastogi。生物資訊學方法及其應用:基因組學、蛋白質組學和藥物發現。新德里:印度培生出版公司 (P),2006。]
  8. 矩陣教程
華夏公益教科書