蛋白質組學/蛋白質晶片/演算法
演算法
蛋白質晶片產生的大量資料需要進行分析。檢視每個資料點會非常耗時,因此將統計方法應用於資料集。分析包括使用統計算法來找到蛋白質表達之間的相似性。將相似蛋白質歸類在一起稱為資料聚類。資料聚類是一種強大的方法,用於識別群體中的個體。
聚類是透過兩個資料元素之間距離的相似性來完成的。最靠近的元素將被分組到同一個聚類中。根據資料集,可能會使用不同的距離函式。在已發表的研究中,最常見的距離函式是歐氏距離函式。歐氏距離是最直接的方法。它可以與用尺子測量兩點之間的直線距離相比較。歐氏距離方程可用於 n 維資料集。這使其在研究中非常通用。
n 維歐氏方程是
:
pn = 點 p 的 n 維。
qn = 點 q 的 n 維。
層次聚類是指使用先前定義的聚類來確定新聚類。層次演算法可以是凝聚演算法或分裂演算法。凝聚演算法從每個資料元素作為單獨的聚類開始,然後使用演算法將它們排序成具有相同相似性的較大聚類。分裂演算法的作用完全相反。它從資料集作為單個聚類開始,然後將較大聚類劃分為較小的聚類。
術語連線是指兩個不同聚類中兩個點之間的距離。計算距離的方式決定了使用哪種連線。以下所有型別的連線都適用於層次聚類。
單連線是在層次聚類中兩個不同資料聚類中最接近的成員之間的距離。
全連線與單連線相反,因為它計算兩個不同聚類中兩個成員之間的最大距離。這在需要緊湊的聚類時很有用。
平均連線取兩個聚類之間的平均距離。它也被稱為使用算術平均值(UPGMA)的非加權對組方法。這種方法是最計算密集的。
劃分聚類一次找到所有聚類。
自組織對映 (SOM) 最適合用於分析高維資料。SOM 可用於降低資料的維數,以便對其進行視覺化。它由一個訓練部分和一個對映部分組成。訓練部分使用樣本輸入構建地圖。對映部分識別新的資料向量,並根據訓練演算法將其放置在地圖中。SOM 由具有關聯權重向量的節點組成。權重分配以小的隨機值,或者可以從主成分特徵向量中取樣。使用特徵向量會產生更好的地圖,因為權重將已經具有良好的近似值。權重向量與輸入向量的維數相同。透過找到與之最接近的權重向量的節點並將其節點的座標分配給向量,來放置新的資料向量。歐氏距離用於確定最近的鄰居。如果已知特定蛋白質,並且想要檢視是否有任何類似的蛋白質,SOM 最適合用於蛋白質晶片分析。
K-means 聚類 透過將 n 個物件聚類到 k 個組中來工作。組的數量 (k) 必須小於物件的數量 (n),否則演算法將無法工作。初始 n 個值使用 Lloyd 演算法劃分為 k 個集合,該演算法透過對通用資料點進行排序來迭代資料集。然後計算每個新形成的聚類的中心,並將演算法再次應用。此過程重複,直到質心不再切換聚類。除了 Lloyd 演算法之外,還可以使用其他型別的演算法來迭代這些點。另一種類似於 K-means 的聚類是模糊 c-means。使用模糊 c-means 聚類,這些點基於該點位於聚類中的可能性程度。如果想要分析蛋白質晶片上的特定數量的蛋白質組,K-means 聚類是合適的。
神經網路 可用於確定資料之間的關係或在資料集中查詢模式。它被稱為神經網路,因為它與人體中樞神經系統的運作方式有關。節點或神經元在網路中連線。不同的演算法可用於改變網路中連線的強度。根據正在研究的資料,會使用成本函式。神經網路需要以與自組織對映需要訓練相同的方式進行訓練。這被稱為學習。對於不同的學習正規化,有設定的演算法。神經網路可用於分析統計、認知心理學和人工智慧。神經網路的步驟是首先選擇模型。模型的選擇取決於輸入資料以及正在分析的內容。接下來,需要選擇一個學習演算法。可以更改演算法以反映資料集。可以根據成本函式和學習演算法調整模型的穩健性。當分析新資料集而沒有任何先驗資訊時,神經網路最適合用於蛋白質晶片,可以從觀察到的資料中推斷出函式。蛋白質晶片產生的資料的複雜性非常適合神經網路演算法。
收集到蛋白質晶片的資料後,需要對其進行分析。最常用的方法是使用聚類方法來找到相關的表達模式。這些聚類方法將丟棄不符合演算法範圍內的任何資料點。問題是,透過重複分析資料,每次分析可能會丟棄不同的資料點。如果正在研究特定基因表達,則會保留最接近預期結果的資料。
一項針對 37 個微陣列資料集和 8 個模擬資料集的研究表明,對於所有四個聚類演算法,真實資料集的穩定性都很低。對於模擬資料集,使用了更大的資料集。結果相同,直到樣本大於 n = 50。對於大樣本量 (300-500),K-means 和 CLARA 表現出更好的穩定性。
微陣列質量控制 (MAQC) 是一項旨在為微陣列分析建立標準的努力。
1. Bhadeshia, H. K. 材料科學中的神經網路。ISIJ 國際,第 39 卷(1999 年),第 10 號,第 966-979 頁。於 2008 年 4 月 20 日檢索。
2. Chen, J. Hsueh, H. 等。微陣列資料的可重複性:對微陣列質量控制 (MAQC) 資料的進一步分析。BMC 生物資訊學。2007;8:412。線上釋出 2007 年 10 月 25 日。doi:10.1186/1471-2105-8-412。
3. Garge, N. Page, G. 等。來自微陣列研究的可重複性聚類:更白?BMC 生物資訊學。2005;6(補充 2):S10。線上釋出 2005 年 7 月 15 日。doi:10.1186/1471-2105-6-S2-S10。
4. Teuvo Kohonen 的 SOM 簡介。SOM 工具箱。於 2008 年 4 月 20 日檢索。
5. 維基百科。組織。 聚類分析
6. 維基百科。組織。 K 均值聚類
7. 維基百科。組織。 神經網路
8. 維基百科。組織。 自組織對映。