跳轉到內容

結構生物化學/生物資訊學/序列比對

來自華夏公益教科書

有超過一百萬種不同的基因摺疊成數萬種不同的蛋白質結構。因此,必須存在同源結構。由於結構數量有限,兩種蛋白質可能具有非常相似的結構,這就是序列比對發揮作用的地方。同源性的理論來自於進化中基因和蛋白質相似性的實驗證據。大多數基因知之甚少,因此同源性可用於預測基因的功能。同源物有兩種型別:旁系同源物和直系同源物。旁系同源物存在於同一生物體中,具有相似的基因組結構,例如血紅蛋白和肌紅蛋白,但具有不同的功能。直系同源物是旁系同源物的反面;它們存在於不同的生物體中,但本質上在其宿主生物體中發揮相似的功能,暗示著進化祖先的證據。

人類基因組包含超過 30 億個鹼基對和超過 25,000 個基因。選擇性剪接是基因編碼大量蛋白質的原因。

序列比對可用於檢測兩條多肽鏈之間的同源性。弄清楚序列比對可以幫助發展進化起源,追溯基因組的功能、結構和機制。透過將序列與其本身比對,可以檢測到重複的基序。超過 10% 的所有蛋白質具有兩個或多個彼此相似的區域。這方面的例子是與 TATA 盒結合的蛋白質,該蛋白質由透過將蛋白質與其本身進行序列比對確定的兩個相似區域組成。該蛋白質的三維結構已得到闡明,並且已確認了兩個相似區域。

兩個基因序列之間的相似度百分比被稱為可以在所有可以對序列進行的比對中獲得的最佳比對。

比較蛋白質序列最簡單的方法是對齊每條鏈並計算匹配的殘基。將序列向下滑動一個殘基,並將每個序列重新對齊並再次匹配。對所有可能的比對組合繼續此過程,為每個組合生成一個比對分數。

氨基酸可能彼此非常相似,因此在進化過程中可以相互替換。序列比對透過在考慮同一性機率和百分比的情況下包含錯配來承認這一點。

新闡明蛋白質序列可以透過將序列輸入到先前測序蛋白質的大型資料庫中來比對。此過程稱為 BLAST(基本區域性比對搜尋工具)搜尋。使用 blast,可以確定新測序蛋白質的同源性,以及預測蛋白質的功能和三級結構。使用細菌嗜血桿菌完成的第一個基因組識別出大約 1743 個蛋白質序列。使用 BLAST 搜尋,研究人員能夠識別出這些蛋白質序列中 1007 個的可能功能和結構。

ClustalO 生成的哺乳動物組蛋白的序列比對。
序列是蛋白質殘基 120-180 的氨基酸。所有序列中保守的殘基以灰色突出顯示。在蛋白質序列下方是一個鍵,表示保守序列 (*)、保守突變 (:)、半保守突變 (.) 和非保守突變 ( )。[1]

同源性

[編輯 | 編輯原始碼]

隨著目前存在的數千個基因,推斷關於基因的完整資訊不太可行,而透過進化特徵比較基因和蛋白質則更加可行。因此,同源基因和蛋白質是具有明顯相似特徵的蛋白質和基因。

兩個序列可能極其相似,具有相同的進化背景,但是,多年來,序列可能丟失了一組幾乎不影響基因或蛋白質功能的氨基酸或蛋白質。相似的氨基酸也可以相互替換,並且對基因或蛋白質的功能幾乎沒有影響。這些蛋白質或基因之間的替換仍然是同源的。

當一個序列可以更好地對齊以包含更多匹配的殘基時,就會引入間隔。例如,如果兩個比對看起來是良好匹配,則可以插入間隔以適應這兩個比對。間隔也反映了隨著時間的推移核苷酸的插入、缺失和突變。

間隔增加複雜性

原則上,可以在序列的任何位置新增任意大小和數量的間隔。為了避免過多的間隔並進一步偏離原始序列,使用帶有懲罰的分數系統。一個例子是給任何大小的間隔一個 -25 的懲罰。但是,根據間隔對齊的每個新序列都獲得 +8 的分數。如果有 50 個新的同一性匹配和 1 個間隔,那麼分數將為 [(50*8)-(1*25)],分數將為 375。在具有 86 個殘基的序列中,將有 50/86 % 的同一性匹配。總分計算為同一性百分比 [見下文],表示序列相似性的統計機率。

間隔

為了檢查原始序列是否準確,將原始序列隨機洗牌。隨機序列的匹配殘基與原始序列的匹配殘基,以生成一個比對分數。然後比較原始序列和隨機序列的比對分數之間的匹配比對數量。

當比較未洗牌的比對分數與洗牌的比對分數時,如果未洗牌的比對分數與洗牌分數的均值和標準差相差很大(是異常值),這表明序列可能具有同源性,並且相似性並非僅僅是偶然的。未洗牌的比對分數與洗牌的比對分數相差很大的機率大約為 1020 中的 1,[2] 表明真實比對在鹼基比對方面很可能是唯一的。此方法不能排除同源性。

同一性矩陣

[編輯 | 編輯原始碼]

同一性矩陣是評估兩個不同氨基酸序列相似性的方法。在同一性矩陣中,每當兩個序列的氨基酸完全匹配時,就為這兩個序列分配一個點。它是全有或全無的,兩個氨基酸要麼匹配,要麼不匹配。同一性矩陣在評估兩個序列表達同源性的可能性方面並不那麼準確,因為在氨基酸序列中經常發生突變,要麼不改變蛋白質的功能,要麼幾乎不改變蛋白質的功能。這些通常發生在相似的氨基酸中,例如亮氨酸和異亮氨酸。由於這個因素,其他技術(如替換矩陣)更受歡迎。

替換矩陣

[編輯 | 編輯原始碼]

同源性是進化生物學中一個重要的工具。替換矩陣是研究同源性的一種方法,它描述了蛋白質序列或 DNA 序列的相似性。它是透過分配一個點數系統來實現的,該系統比較兩個序列與其隨機序列。氨基酸具有一定的突變為另一種氨基酸的能力。疏水性氨基酸(例如纈氨酸)更容易突變為另一種疏水性氨基酸(例如亮氨酸)。經常發生的替換會得到一個較高的正分數,而罕見的替換則會得到負分數。替換矩陣中也會對相同的氨基酸匹配進行評分。已經開發出許多型別的替換矩陣,它們對替換分配了不同的分數,例如 PAM、Blosum、BLAST 矩陣。這些矩陣是蛋白質的 20X20 矩陣。Blosum(塊替換)矩陣透過比較許多序列比對中保守序列的塊與同一性序列來計算同源性。這些塊被認為在進化生物學中具有功能意義。

使用替換矩陣的序列分析比同一性矩陣更敏感,因為它考慮了隨著時間的推移可能發生的保守替換,這些替換不會顯著改變蛋白質的結構。替換矩陣可以檢測序列之間的同源性,而這些同源性使用簡單的同一性矩陣原本無法找到。

替換矩陣

同一性機率

[edit | edit source]

如果兩個序列在至少 100 個氨基酸的鏈中相似度大於 25%,那麼它們是同源體的可能性很高。如果兩個序列的相似度小於 15%,那麼它們是同源體的可能性很低。在 15% 到 25% 之間,必須使用其他方法(例如比較三級結構)來確認同源性。

序列模板

[edit | edit source]

在序列比對中,某些氨基酸殘基對蛋白質的功能比其他氨基酸殘基更重要,並且在整個進化過程中更高度保守。透過檢查蛋白質的三維結構,可以確定對功能至關重要的區域以及構成該區域的氨基酸殘基。例如,與氧氣結合的珠蛋白家族(血紅蛋白、肌紅蛋白、豆血紅蛋白)透過一個血紅素基團結合氧氣,該基團由一個組氨酸殘基組成,該殘基與血紅素基團中的鐵相互作用。這個組氨酸殘基在所有珠蛋白家族的蛋白質中都是保守的。這個對珠蛋白蛋白質具有重要意義的區域可以用作該蛋白質家族的特徵序列模板。然後可以將新闡明的蛋白質序列與該序列模板匹配,以將該蛋白質與某些家族匹配,或確定新蛋白質是否具有與這些家族相似的功能。

測序方法

[edit | edit source]

桑格雙脫氧法用於測序 DNA。這個過程快速簡單,它涉及使用 DNA 聚合酶合成一個互補序列,該序列包含四個脫氧核苷酸鹼基上的熒游標記。然後透過電泳或色譜分離含有熒光鹼基的 DNA 鏈片段,然後透過檢測器傳送。另一種測序基因組 DNA 的方法是鳥槍法。

埃德曼降解用於測序蛋白質。苯異硫氰酸鹽與 N 端氨基酸中的氨基反應,然後酸化去除。高效液相色譜 (HPLC) 用於鑑定氨基酸。該過程對以下每種蛋白質重複進行。

資料庫

[edit | edit source]

分離和比較單個鏈與任何給定鏈可能很繁瑣且耗時。因此,存在具有同源序列的資料庫,可以輕鬆獲取和利用。如上所述的序列比對方法在與網際網路上提供的廣泛資料庫和資源一起使用時非常有用。

PAM 和 BLOSUM 矩陣是兩種最常用的評分技術。

BLOSUM, or Block Substitution Matrix, is a technique that measures local multiple alignments of related sequences. BLOSUM 62 is the 
default matrix for BLAST. BLOSUM 62 requires 62% sequence identity, while BLOSUM 80 would require 80% identity, etc. 

- 基本區域性比對搜尋工具 (BLAST) 位於美國國家生物技術資訊中心。可以透過網路瀏覽器搜尋單個氨基酸序列。資料庫中包含超過 300 萬個序列。此外,輸入的氨基酸序列可以與所選基因組(例如人類)進行比較,以及資料庫中當前的所有基因組。該資料庫給出了一系列序列比對和同一性百分比。它將尋找 DNA 或蛋白質序列之間的相似性。網站是 [1].

PAM 代表每 10^8 年的可接受點突變百分比。此過程衡量相似蛋白質的全域性比對。這種做法要求序列的差異小於或等於 1%。突變機率透過列 X(代表氨基酸突變)與行 Y(突變產物)之間的分數來提供一段時間內的分數。透過將該矩陣自身重複相乘,可以製作新的矩陣來衡量更大的進化距離。

DNA 主要有三個資料庫:Genebank、EMBL、DDBJ。這些資料庫包含許多條目,是科學家迄今為止發現和克隆的基因和其他 DNA(如遺傳作圖示記)的 DNA 序列。每個序列條目都被分配了一個唯一的登入號。

NCBI(美國國家生物技術資訊中心)- 資料庫和分析工具的集合。該網站由美國國立衛生研究院支援,對研究人員或任何對此感興趣的人免費開放。您只需訪問網站:http://www.ncbi.nlm.nih.gov/ 並搜尋蛋白質、DNA、RNA 等序列。NCBI 的許多資料庫都透過一個名為 Entrez 的搜尋和檢索系統連結,該系統允許使用關鍵字進行特定文字搜尋。

ExPASy(專家蛋白質分析系統)- 一個非常有用的蛋白質和氨基酸序列分析工具集合,它是瑞士生物資訊學研究所伺服器的一部分。網站:http://www.ca.expasy.org

蛋白質資料庫- 蛋白質結構資訊的資料庫。網站:http://www.rcsb.org/pdb/

Clustal W- 歐洲生物資訊學研究所網站上的一個線上氨基酸序列比對程式。這是一個用於比較蛋白質序列的強大網站,比對後,可以單擊“顯示顏色”以檢視基於顏色的氨基酸相似性表示。網站:http://www.ebu.ac.uk/clustalw/

如何在 Genbank 中查詢序列

[edit | edit source]

以下是使用線上程式和網站的分步指南

1. 轉到 NCBI 主頁。(http://www.ncbi.nlm.nih.gov/

2. “所有資料庫”旁邊的選單欄應該包含所有可用的不同型別的資料庫。選擇合適的那個。例如,如果您想找到 DNA 序列,您將選擇核苷酸。

3. 使用“關鍵字”查詢序列。它將有許多不同的選項。哪個是我們正在尋找的?如果我們試圖找到包含基因完整編碼區的 DNA 序列,那麼我們必須找到一些已經去除內含子或編碼序列的完整 CDS 的東西。透過輸入動物的學名(如果您正在尋找動物的基因),可以更容易地找到所需的序列。

4. 登入號是特定序列的 ID 標籤,一旦找到所需的序列,它就會顯示為藍色。

5. DNA 序列在頁面底部給出,序列中核苷酸的編號在右側給出。

6. CDS 代表編碼序列。

如果要找到同源性,則使用 BLAST

1. 轉到 NCBI 主頁並單擊 BLAST。有很多不同的比對選項,在這種情況下,我們將選擇核苷酸 BLAST。

2. 在大欄位中輸入未知序列。對於選擇搜尋集,您將選擇其他。然後 BLAST 它。

3. 然後將給出一個與查詢核苷酸序列匹配的摘要頁面,從最高相似度(頂部)到最低相似度(底部)。

4. 查詢覆蓋率和最大同一性列也可用。查詢覆蓋率將顯示我們相同或匹配程度的核苷酸百分比。然後將確定未知序列的同源性。

BLAST 也可以用來比較或比對兩個 DNA 序列以檢視它們的相似程度

1. 獲取要比較的兩個序列的完整基因序列(如之前所述)。

2. 開啟 BLAST 主頁,然後單擊“專業 BLAST”下的“比對”。

3. 在查詢序列框中,您可以輸入登入號或整個序列。

4. 程式選擇包含您可以使用的許多不同程式。選擇合適的程式後,單擊 BLAST。然後您將比對兩個選定的 DNA 序列。

總結

基因組測序的三階段方法

初始階段

基於此類資訊提供的細胞遺傳圖提供了更詳細作圖的起點。有了這些手中的染色體細胞遺傳圖,人類基因組測序的初始階段是構建一個連線圖,其中包含分佈在整個染色體上的幾千個遺傳標記。在這個階段,標記的順序以及標記之間在該圖上的相對距離是基於重組頻率的。標記可以是基因,也可以是 DNA 中的任何其他可識別序列。它也是組織特定區域更詳細地圖的有價值框架。

第二階段

這個階段是人類基因組的物理圖譜繪製。在物理圖譜中,標記物之間的距離用某種物理測量值來表示,通常是沿 DNA 的鹼基對數量。關鍵是要製作重疊的片段,然後使用探針或片段末端的自動核苷酸測序來找到重疊的部分。這樣,片段就可以被分配到一個測序順序,對應於它們在染色體中的順序。在處理大型基因組時,研究人員會進行多輪 DNA 剪下、克隆和物理圖譜繪製。在將這些長片段排序後,每個片段被切成更小的片段,這些片段被克隆到質粒或噬菌體中,依次排序,最後進行測序。

最後一個階段

繪製基因組圖譜的最終目標是確定每個染色體的完整核苷酸序列。對於人類基因組,這是透過使用鏈終止法的測序機器完成的。

序列比對程式:Geneious

[編輯 | 編輯原始碼]

有很多程式用於比對已經由測序公司處理過的序列。最受認可的測序程式是 Geneious。Geneious 是一款跨平臺生物資訊學套件,包含序列比對和與 NCBI 對應的序列 BLAST 搜尋應用程式。Geneious 擁有許多功能,涵蓋從分割檢視器基因組瀏覽以進行簡單的限制性分析和克隆工作流程,到 PCR 引物設計,允許您設計和測試能夠與多個引物錯配以搜尋可實施的 DNA 測序的簡併引物。

參考文獻

[編輯 | 編輯原始碼]
  1. "Clustal FAQ #Symbols". Clustal. 檢索於 2014 年 12 月 8 日.
  2. Berg, Jeremy M. John L. Tymoczko. Lubert Stryer. 生物化學 第六版. W.H. Freeman and Company. 紐約,2007 年。

1. Berg, Jeremy M. John L.,Tymoczko, 和 Lubert Stryer. 生物化學 第六版. W.H. Freeman and Company. 紐約,2007 年。

2. Coleman, Aaron Gould Meredith Stephano Luis Jose. 生化技術. 加州大學聖地亞哥分校。2009 年

3. “基因組及其進化”。生物學。坎貝爾和里斯。第 8 版。2007 年。500-600。

華夏公益教科書