蛋白質組學/蛋白質鑑定 - 質譜/資料分析/解讀
本節
一個質譜是分離化學物質集合的強度與質荷比的圖。給定樣品的質譜是該集合中組分的分佈模式,無論原子還是分子,基於它們的質荷比。
圖的X軸是質荷比,也稱為(m/z),它是透過將離子的質量數除以其電荷數獲得的量。對於飛行時間等質量分析儀,直接的X軸測量值是檢測器測量的離子的時間序列。對於這些情況,必須使用已知標準校準光譜,才能將X軸從時間序列轉換為m/z比。標準的值用於生成與飛行時間相關聯的m/z比的方程式的引數。確定這些引數後,可以根據未知樣品的飛行時間計算其m/z比。使用傅立葉變換離子迴旋共振質譜儀,檢測板收集的頻率測量值在進行質量校準之前會進行快速傅立葉變換。

質譜的Y軸代表離子的訊號強度,具有任意單位。在大多數質譜形式中,離子電流的訊號強度並不準確地代表相對丰度,而是與之鬆散地相關。訊號強度取決於某些因素,例如被分析分子的性質、它們的電離方式、緩衝液的相互作用以及樣品的相互作用。
由於輸出中起作用的限制和變數數量,樣品有時可能難以分析。許多因素會影響質譜的解釋方式,這些因素可能包括:偶電子與奇電子物種、正離子與負離子模式、完整蛋白質與片段肽離子等。
解析度和峰高的基礎取決於所用樣品的量和質譜前完成的分離量。基於某些峰高和峰面積,可以確定結構。
並非所有質譜都能以相同的方式解釋,因為可用的質量分析儀和電離方法的性質各不相同。例如,一些質譜儀將分析物分子分解成碎片;另一些則觀察到幾乎沒有碎片的完整分子質量。基於質譜儀型別和所應用的特定實驗條件,質譜可以代表許多不同型別的資訊;然而,所有強度與質荷比圖都被稱為質譜。

從重複測量產生的資料中去除統計誤差的過程稱為歸一化。在MS中,歸一化技術用於去除肽樣品中的系統偏差。這些偏差可能來自各種來源,包括蛋白質降解、測量誤差和樣本載入變化。MS資料中常用的歸一化技術需要將資料從線性尺度轉換為對數尺度。這樣做可以使值符合正態分佈,並降低用不太相關的蛋白質掩蓋更相關蛋白質的可能性。
如上一節所述,有許多因素對從質譜實驗中獲得的資料進行有意義的解讀至關重要。如果沒有關於實驗變數的這些元資料,很難使用質譜來生成評估。將此與質譜儀型別的差異相結合,報告標準的效用就出現了。
在關於微陣列實驗的最低資訊(MIAME)的脈絡中,人類蛋白質組學組織蛋白質組學標準倡議開發了MIAPE MS,一種關於質譜中蛋白質組學實驗的最低資訊。該標準要求記錄關於一般資訊(如機器製造商和型號、ESI和MALDI的離子源變數、涉及的質量分析儀和檢測器以及峰列表生成和標註中涉及的後處理)的元資料。除了質譜儀操作外,其他訊號處理領域中常用的後處理方法通常應用於質譜,以生成更有用的光譜。
透過建立受控詞彙表(CV)[1],已經做了進一步的工作來規範質譜資料的表達。由人類蛋白質組學組織在蛋白質組學標準倡議下開發,CV提供了一個本體,包含適用的術語和轉換,它將透過規範用於描述的詞彙來更好地控制質譜資料的表示。

精確時間標籤法,簡稱 AMT,利用了 FTICR-MS 和 nanoLC 的高精度讀數。來自這些技術的資料可以用於根據特定肽的分子量和保留時間形成獨特的標籤。這種技術假設在二維中存在足夠的分離能力,以至於兩個肽不太可能具有相同的質量和分離時間。因此,不太可能在對同一樣本進行進一步分析時檢測到具有與任何其他物種相同的質量和保留時間的新的物種。

決策樹是廣泛用於分析蛋白質組學資料的機器學習方法之一。從給定資料集生成,單個決策樹透過其每個終端葉節點(分類器)報告分類結果。即使存在許多演算法(例如 C4.5)可用於生成建模良好的單個決策樹,但其預測仍然可能存在偏差,從而不利地影響其準確性。
為了克服這個問題,使用多個決策樹來分析資料。它基於形成專家小組的概念,然後投票決定最終結果。專家小組類似於決策樹整合,它提供了一組分類器。與投票類似,多數分類器成為資料的真實分類結果。正如 Ge 等人報道的那樣,[1] 決策樹整合比單個決策樹更準確。
所示圖表總結了使用 Bagging(bootstrap aggregating)演算法生成決策樹整合和對資料進行分類的過程。簡要說明,Bagging 演算法從原始資料集中隨機抽樣(有放回)以形成訓練集。通常會生成多個訓練集。請注意,由於允許替換,訓練集中的資料可以重複。然後每個訓練集生成一個決策樹。對於給定的測試資料,每個決策樹都預測一個結果,由一個分類器表示。決策樹整合形成了一個專家小組,其投票決定來自這組分類器的最終分類結果。
雖然微陣列顯著性分析 (SAM) 方法旨在用於識別差異基因表達,但最近它已被用於使用從液相色譜質譜法獲得的資料識別差異蛋白表達。從 nanoLC/LTQ/FTMS 中獲取的蛋白質組學資料透過 SAM 演算法分析,揭示了可靠的資料,不僅與差異蛋白表達相關,而且在確定錯誤發現率方面也達到了以前標準蛋白質組學分析工具無法比擬的準確度水平。討論了這種方法優於其他分析方法,例如,如果觀察到 R 倍變化,則將基因識別為顯著變化,以及基於如果在配對樣本之間一致地觀察到 R 倍變化,則表達的顯著變化。此外,有關獲取和使用 SAM 程式的資訊可用(第 1.11.4 節)。
HUPO PSI 開發了這種 XML 格式,旨在將現有格式統一為報告峰列表資訊的標準格式,稱為 mzData。本質上,mzData 提供了一種標準方法來表示質譜實驗的峰值資料,並建立正確解釋光譜所需的根本引數,例如負離子或正離子光譜,以及其他基礎資訊。
這種資料格式由系統生物學研究所的西雅圖蛋白質組學中心開發,在展示 MS 資料的最低要求方面與 mzData 類似,但存在幾個關鍵差異,使其成為 MS 資料的首選檔案格式 [2]。存在許多轉換器和翻譯器,允許從各種主要質譜儀(包括 Waters、Thermo、Bruker、MDS、Agilent 和 ABI)進行無處不在的資料傳輸。基於與 mzXML 相同的資料結構,prepXML(也由西雅圖蛋白質組學中心生成)是一種資料格式,它已經出現以模擬從 MS-MS 實驗生成的蛋白質測序資料。其他僅用於蛋白質和肽資料的格式,例如 protXML(西雅圖蛋白質組學中心),存在於蛋白質 MS 實驗的特定目的表示中。
HUPO-蛋白質組學標準計劃在蛋白質組學資料(特別是質譜資料)標準化方面取得的持續進展導致開發了一種新的統一質譜資料格式,稱為 mzML。簡而言之,這種資料格式試圖將質譜實驗設計以及產生的峰值資訊的現有標準結合起來。
- ASMS - 質譜的特徵是什麼?, http://www.asms.org/whatisms/p5.html
- 安捷倫科技 質譜解釋 - 光譜
- McLafferty, F. W. 和 Turecek, F.,質譜解釋,大學科學書籍;第 4 版(1993 年 5 月) ISBN 0935702253
- Zimmer JSD, Monroe ME, Qian WJ, Smith RD,使用精確質量時間標籤法進行蛋白質組學資料分析和顯示的進展。質譜評論。25(3):450-482 (2006)
Stephen J. Callister 等人。J Proteome Res. 卷:5(2) 227-286 (2006)[2]
主要重點
重點是嘗試找到一種技術,對質譜資料進行統計歸一化,以便可以對其進行有意義的分析。
總結
在檢視質譜 (MS) 資料時,即使執行重複樣本,結果也永遠無法複製。因此,需要一種方法使結果具有可比性。由於結果的差異可能與偏差和噪聲有關,除了生物學變化之外,還會導致無關的變異,因此歸一化技術是必要的。在三個不同的樣本集中(標準蛋白,早期對數生長期D. radiodurans樣本和靜止生長期樣本,以及對照小鼠的紋狀體腦樣本和甲基苯丙胺應激小鼠的紋狀體腦樣本)測試了微陣列分析中常用的四種不同的歸一化技術(中心趨勢、線性迴歸、區域性加權迴歸和分位數技術),這些樣本集顯示出不同的蛋白質複雜度水平。
儘管所有技術都至少在一定程度上減少了系統性偏差,但由於不同技術獲得的結果之間沒有明確的趨勢,因此這些技術還不能用於歸一化 MS 資料;但是,這項研究為開發適當的歸一化技術提供了指導。
新術語
- 偏差
- 實驗、樣本製備或儀器中系統誤差引起的變異(http://www.onesmartclick.com/exams/statistics-bias.html)
- 噪聲
- 實驗、樣本製備或儀器中隨機誤差引起的變異
- 中心趨勢
- 這種技術將肽的丰度圍繞平均值或其他常數進行居中,以調整獨立的系統性偏差(http://cnx.org/content/m10942/latest/)
- 區域性迴歸
- 假設系統性偏差不與肽的丰度線性相關的技術(http://www.biostat.jhsph.edu/~ririzarr/Teaching/754/section-03.pdf)
- 分位數
- 最初設計用於與多個高密度陣列一起使用的非引數統計方法(https://mathworld.tw/Quantile.html)
課程相關性
質譜 (MS) 是蛋白質組學的主要工具之一,因為它提供了一種方法來獲取樣本中單個蛋白質丰度的測量值。由於蛋白質組學的目標是在不同條件下獲取不同表達蛋白丰度的測量值,因此 MS 是一種強大的工具。
Zimmer JSD, Monroe ME, Qian WJ, Smith RD Mass Spectrom Rev. 25(3):450-482 (2006)
主要重點
蛋白質組學技術的最新進展提供了能夠實現高效率和高通量蛋白質組學分析的工具。這些工具,特別是奈米LC-FTICR-MS以及必要的資料處理和管理工具,是本文的重點。
總結
雖然蛋白質組學領域相對較新,但已有30年的技術可以應用於這些新的蛋白質組學問題。這些技術,例如傅立葉變換離子迴旋共振質譜 (FTICR-MS),提供了識別物種以及廣泛的動態範圍所需的高靈敏度和高質量測量精度 (MMA)。FTICR-MS 非常適合“自上而下”和“自下而上”的蛋白質組學,因為它可以根據母離子質量以及片段模式確定蛋白質/肽的特性,從而可以處理非常複雜的肽混合物。除了高通量技術生產方面的困難之外,收集資料的管理也存在問題。使用高效能 FTICR-MS 進行的單一實驗通常會產生一個 10 GB 的原始資料檔案,對於儲存任何大量資料來說都太大了。使用利用樣本中檢測到的新物種在對同一系統進行額外分析時被檢測到的低統計機率的技術。使用歐幾里得距離在 n 維空間中進行聚類可以生成獨特的質量類別,從而減少冗餘。由於 LC-MS 資料的可靠性不可靠,因此需要聚類。通常,洗脫時間會發生變化,並且在同一肽的多次執行之間會有所不同,而人們會期望得到相同的結果。這些變化是由於流速、溫度、色譜柱填充的差異以及汙染造成的。這些相同的問題也會加劇資料集標準化的過程。樣品製備是蛋白質組學分析中的一個關鍵步驟,可能非常困難。蛋白質濃度會隨著環境的細微變化而發生很大變化。已經開發了許多此類技術,例如用於定量分析的固相同位素編碼親和標籤 (SPICAT),以及消化後胰蛋白酶催化的 16O/18O 標記,該標記的優勢在於所有型別的樣品都可以以這種方式進行標記,用於高通量實驗的定量半胱氨酸肽富集技術 (QCET)涉及哺乳動物細胞。每種技術都有其自身的侷限性,正在採取措施克服這些侷限性。此外,已經開發了方法來擴充套件動態範圍並最大限度地減少樣本中丰度高的物種產生的噪聲。應用於質譜法的動態範圍增強 (DREAMS) 有助於即時檢測生物學意義重大且相對丰度低的物種。目標或資料驅動的 LC-MS/MS 可以關注兩個樣本之間丰度發生顯著變化的蛋白質子集,而多路複用 MS/MS 提供了一種提高蛋白質組學測量速度和靈敏度的方法。這些技術已在廣泛的應用中得到深入研究,並且正在調整現有技術,以更好地理解需要這些蛋白質存在或相對丰度發生變化的生物過程。
新術語
- 歐幾里得距離
- 兩點之間的直線距離。在具有 p1 (x1, y1) 和 p2 (x2, y2) 的平面上,它是 √((x1 - x2)² + (y1 - y2)²)。( http://www.itl.nist.gov/div897/sqg/dads/HTML/euclidndstnc.html )
- 歸一化
- 識別和消除系統效應的過程。( http://www.absoluteastronomy.com/topics/Normalization_(statistics) )
- 傅立葉變換離子迴旋共振質譜 (FTICR-MS)
- 一種用於確定離子質荷比 (m/z) 的質量分析儀(或質譜儀),基於離子在固定磁場中迴旋的頻率。(http://www.ncbi.nlm.nih.gov/pubmed/9768511?dopt=Abstract)
- 洗脫
- 用溶劑洗滌從另一種物質中提取一種物質的過程,以去除吸附在吸附劑上的物質。(http://wordnetweb.princeton.edu/perl/webwn?s=elution)
- 聚類
- 資料聚類或無監督學習的目標是在一組模式、點或物件中發現“自然”分組,而無需事先了解任何類標籤。(http://dataclustering.cse.msu.edu/)
課程相關性
- 對於分析大型資料集(如蛋白質組)來說,效率高且通量高的技術是必不可少的。沒有這些工具,蛋白質組的分析將過於緩慢。
Ge G, Wong GW. BMC Bioinformatics 9:275 (2008)
主要重點
為了比較幾種基於決策樹的機器學習演算法的效能,Ge 等人對從癌前胰腺癌研究中獲得的質譜資料進行了一系列統計分析。發現分類器整合技術在識別癌症生物標誌物的一致性和資料分類的準確性方面優於單一演算法對應方法。
總結

在本文中,Ge 等人報告稱,使用決策樹整合技術而不是單一演算法對應方法,可以提高識別癌前胰腺癌生物標誌物的效能。這些技術已被證明更有可能準確地區分疾病類別和正常類別,如接收者操作特徵曲線下的較大面積所示。此外,它們實現了相對較低的均方根誤差。
根據他們的方法,首先對肽質譜資料進行處理以提高資料完整性並減少由於樣品載入條件差異導致的資料差異。預處理步驟包括使用組中位數進行基線調整、使用高斯核進行平滑以去除噪聲,以及進行歸一化以使所有資料具有可比性。之後,對資料進行隨機抽樣,使 90% 形成訓練集,剩餘的 10% 形成測試集。
訓練集用於特徵選擇。在研究中,作者考慮了三種不同的特徵選擇方法。第一種方法是雙樣本同方差 t 檢驗,該檢驗是在所有來自正常或疾病類別的特徵都服從正態分佈的假設下使用的。與第一種方法不同,第二種方法基於 Wilcoxon 等級檢驗,該檢驗認為特徵沒有分佈。最後的特徵選擇方法是遺傳演算法。
測試集用於生成單個決策樹,包括決策樹整合。正在研究的整合方法包括隨機森林、隨機樹、Bagging、Logitboost、Stacking、Adaboost 和 Multiboost。它們的效能是根據每種選擇方法選擇的特徵的分類準確性和誤差來衡量的。然後,將它們與使用 C4.5 演算法生成的單個決策樹的效能進行比較。該過程重複十次以驗證結果的效能一致性。
根據報告的結果,決策樹整合無論使用哪種特徵選擇方法,都實現了高達 70% 的更高準確率。在生物標誌物識別方面,t 檢驗和 Wilcoxon 等級檢驗都具有類似的出色效能,始終選擇相同的生物標誌物嫌疑特徵。與前兩種方法不同,遺傳演算法的效能明顯較差。Ge 等人還注意到,70% 的準確率仍然低於預期。這可能是由於癌症癌前階段生物標誌物的天然濃度較低。此外,也可能一個數據集可能不適合所有演算法,因此低估了準確性。
新術語
- 生物標誌物
- 可用於區分異常過程與正常過程,或疾病與狀況的生物分子。它們也可以用作特定過程(如藥物相互作用)的指標。這些生物分子通常存在於血液、其他體液或組織中。( http://www.cancer.gov/dictionary/?searchTxt=biomarker )
- 接收者操作特徵曲線
- 二元分類器系統對不同閾值的靈敏度與 1-特異性的圖形化圖。( http://en.wikipedia.org/wiki/Receiver_operating_characteristic )
- 高斯核平滑
- 透過應用高斯函式對資料點進行平均的過程。基本上,高斯函式用於生成一組用於資料點的歸一化加權係數,這些係數的加權和生成一個新值。該新值將替換高斯曲線中心處的舊值。( http://imaging.mrc-cbu.cam.ac.uk/imaging/PrinciplesSmoothing )
- 同方差
- 一個隨機變數序列或向量,所有隨機變數具有相同的有限方差(http://en.wikipedia.org/wiki/Homoscedasticity)
- C4.5 演算法
- 一種用於從一組訓練資料(一組分類樣本)生成決策樹的演算法(http://en.wikipedia.org/wiki/C4.5_algorithm)
課程相關性
- 本文介紹的特徵選擇方法和決策樹整合方法為蛋白質組學領域的質譜資料分析提供了一種有趣的方法。
蛋白質組學中 LC/MS 資料相對定量顯著性分析
[edit | edit source]Li Q, Roxas BAP. "蛋白質組學中 LC/MS 資料相對定量顯著性分析" BMC 生物資訊學 9:187 (2008)6
主要重點
微陣列顯著性分析 (SAM) 方法通常用於 DNA 微陣列分析以識別差異基因表達,也可以用於識別差異蛋白表達。這種分析方法比通常用於此目的的傳統測試更準確地識別假陽性結果。
總結
微陣列顯著性分析 (SAM) 方法由斯坦福大學的研究人員開發,用於分析微陣列中的基因,以識別差異表達(統計學上)的基因並獲得準確的錯誤發現率統計資料。在“蛋白質組學中 LC/MS 資料相對定量顯著性分析” (Li 等人) 中,SAM 方法被應用於從 nanoLC/LTQ/FTMS 中獲取的蛋白質組學資料,以確定生物樣本中蛋白質的差異表達。SAM 也用於確定和估計錯誤發現率以及漏報率。然後,將 SAM 結果與從更傳統的蛋白質組學分析工具(如傳統 t 檢驗和倍數變化)獲得的結果進行比較。用於測試分析技術的生物系統涉及在 pH5 和 pH7 條件下培養恥垢分枝桿菌,並尋找這兩種條件下蛋白質表達的差異。他們比較了蛋白質丰度,並關注蛋白質表達的變化以及假陽性率。分析似乎表明,與 t 檢驗相比,SAM 方法可以更準確地“鎖定”假陽性,使其成為更準確的測試,並允許以 5% 的假陽性率識別蛋白質變化。下圖包含資料,顯示使用 SAM 發現了更多差異表達的蛋白質,同時保持較低的假陽性率。
新術語
- nanoLC/LTQ-FTMS
- 這代表奈米液相色譜/線性離子阱-傅立葉變換質譜。這種型別的質譜分析結合了從 nanoLC 獲得的高質量和可重複資料,以及線性離子阱四極杆的強大功能,以及傅立葉變換分析的準確性。這是一個非常強大的蛋白質組學工具。(https://products.appliedbiosystems.com/ab/en/US/adirect/ab?cmd=catNavigate2&catID=601452&tab=DetailInfo)
- t 檢驗
- 一項統計檢驗,涉及具有未知標準差的正態總體均值;使用小樣本,基於變數 t 等於樣本均值與總體均值之差除以透過將樣本標準差除以樣本中個體數量的平方根而獲得的結果。(http://www.answers.com/topic/t-test)
- DNA 微陣列
- 分子生物學中使用的一種多重檢測程式。數千個短片段的 DNA 稱為寡核苷酸被放置在顯微鏡斑點上,然後可以暴露於探針,探針可能或可能不與它們結合,具體取決於序列。它們可用於測量 DNA 表達的變化。(http://en.wikipedia.org/wiki/DNA_microarray)
- 蛋白質表達
- 衡量生物系統中哪些蛋白質已被翻譯並因此存在於細胞中。這包括翻譯後修飾的蛋白質。(http://www1.qiagen.com/about/Press/Glossary.aspx)
- 生物標誌物
- 發現對相關生物條件(如疾病)具有生物學意義的蛋白質。生物標誌物在藥物發現中非常重要。(http://www1.qiagen.com/about/Press/Glossary.aspx)
課程相關性
- 在蛋白質組學資料解釋中使用微陣列顯著性分析 (SAM) 方法是一種解決 LC 資料分析準確性問題的新方法。如果可以準確識別假陽性結果,那麼研究人員可以專注於那些被正確表徵為在兩組條件之間表達發生變化的蛋白質。這將使生物標誌物的發現更容易。
應用於電離輻射反應的微陣列顯著性分析
[edit | edit source]Tusher VG., Tibshirani, R., Chu G., 應用於電離輻射反應的微陣列顯著性分析,美國國家科學院院刊 98:5116-5121 (2001)3
主要重點
討論了 SAM 分析方法及其對給定資料集的有效性。還討論了該分析方法優於其他方法的優勢。
總結
DNA 微陣列能夠在一個實驗中測量數千個基因的表達。它們經常用於識別基因在多種不同條件下的任何表達變化。鑑於這些實驗產生了大量資料,必須開發系統來分析為任何實驗顯著性而生成的資料。“應用於電離輻射反應的微陣列顯著性分析”的作者描述了一種稱為 SAM 的方法。該方法根據每個基因的表達變化與重複測量的標準偏差相比,為每個基因提供一個評分。該系統還提供了錯誤發現率的估計。在本文中,作者解釋了 SAM 方法如何得出這些評分背後的演算法以及確定錯誤發現率背後的數學原理。SAM 在作者收集的資料集上進行了測試,其有效性透過 Northern 印跡進行了檢查。作者討論了 SAM 及其優於其他識別實驗顯著性方法的優勢。這些方法包括識別基因,如果觀察到 R 倍變化,則基因被認為發生了顯著變化,並且根據在配對樣本之間是否始終觀察到 R 倍變化來宣告表達發生了顯著變化。SAM 被證明優於所討論的其他方法3。
SAM 背後的演算法根據表達資料的排列分析計算基因表達的相對差異,併為這些變化提供一個分數。它還計算錯誤發現率。用於根據每個基因的表達變化(如果有)計算每個基因的評分的演算法如下所示
新術語
- SAM
- 微陣列顯著性分析;一種用於確定基因表達變化是否具有實驗顯著性的統計分析。(http://en.wikipedia.org/wiki/Significance_analysis_of_microarrays)
- 錯誤發現率 (FDR)
- 偶然錯誤識別的基因百分比。(http://www-stat.stanford.edu/~tibs/SAM/pnassam.pdf)
- DNA 微陣列
- DNA 微陣列在分子生物學和醫學中都有應用。它們由一系列以高度有序的方式排列的數千個 DNA 寡核苷酸斑點組成,可用於測量表達水平的變化,檢測單核苷酸多型性,或重新測序突變基因。(http://en.wikipedia.org/wiki/DNA_microarray)
- Northern 印跡
- Northern 印跡是一種通常用於微生物學的技術,可以透過觀察感興趣樣品中的 RNA 或分離的 mRNA 來研究基因表達。該技術允許透過確定分化、形態發生以及異常或疾病條件下的特定基因表達水平來觀察細胞對結構和功能的控制。(http://en.wikipedia.org/wiki/Northern_blot)
- 電離
- 透過新增或去除帶電粒子將原子或分子轉化為離子的過程。(http://en.wikipedia.org/wiki/Ionization)
- 離子
- 由於新增或去除電子而帶正電或負電的原子或分子。(http://en.wikipedia.org/wiki/Ion)
- R 倍變化
- 這是一個評估組均值差異的數值。(http://strimmerlab.org/software/st/html/diffmean.stat.html)
課程相關性
- 這種以前用於分析 DNA 微陣列的方法現在正被應用於蛋白質組學資料。
Kalousis A. http://cui.unige.ch/AI-group/research/massspectrometry/massspectrometry.htm (2009年3月28日)
主要重點
作者描述了在蛋白質組學資料用於生物標誌物分類之前,質譜譜分析中必要的訊號調節步驟。
總結

從該網站中,作者描述了用於提高質譜資料完整性和降低其高維性的訊號調節步驟。這些步驟包括使用統計技術來排除處理矩陣的影響,去除噪聲,最大程度地減少實驗條件引起的資料變化,以及減少資料集中的冗餘。
首先應用基線去除以去除由通常用於蛋白質樣品結晶的處理矩陣引起的資料偏移。根據該網站,該步驟中使用了加權二次擬合。然而,並非所有矩陣的影響都能消除。有些仍然存在,並以噪聲的形式與機器本身的電噪聲相加。為了減輕噪聲的影響,使用了降噪和平滑技術。作者報告說,為了這個目的,應用了小波分解和中值濾波。然後對光譜資料進行歸一化,以將資料與實驗條件分離。此過程有助於減少資料之間的差異。
在接下來的步驟中,使用峰值檢測技術來消除資料的空間冗餘。從概念上講,它在兩個相鄰最小值之間指定範圍內選擇峰值強度的質荷比值來表示該範圍內的資料。然後,對選定的光譜資料進行校準,使得具有相同光譜特徵的資料被聚類在一起。這些聚類被稱為選定特徵,它們被機器學習演算法用於生物標誌物的分類。
新術語
- 基線去除(或基線擬合)
- 一種去除光譜資料偏移段的方法,以便可以在相同基礎上對資料進行進一步分析。通常,該技術是將曲線擬合到該偏移段,然後從原始資料中減去曲線上的值。結果,新的光譜資料將具有平坦的底座。(http://www.gb.nrao.edu/~rmaddale/140ft/unipops/unipops_7.html)
- 加權二次擬合
- 一種曲線擬合技術,它使用二次函式來擬合原始資料的加權版本。通常,權重因子來自常規二次擬合產生的誤差。透過考慮此誤差,可以獲得更好的擬合。(http://class.phys.psu.edu/p559/experiments/html/error.html)
- (正交)小波分解
- 一種訊號分析技術,它使用特定的有限基函式來擬合訊號,並生成一系列時變係數。分解產生一組正交訊號。每個訊號反映了原始訊號在給定時間的區域性變化。(http://www.tideman.co.nz/Salalah/OrthWaveDecomp.html)
- 中值濾波器
- 一種去除噪聲或資料的標準差明顯大於給定資料集的方法。考慮一個包含 2n + 1 個數據點的視窗。中值濾波器將第 (n + 1) 個數據點替換為此視窗中的中值。如果第 (n + 1) 個數據看起來像是超出範圍的噪聲,則此過程會將其去除。(http://fourier.eng.hmc.edu/e161/lectures/smooth_sharpen/node3.html)
- 機器學習演算法
- 計算機使用的一系列指令,使計算機能夠自適應地提高其預測結果的計算效能和效率,基於它正在收集的資料庫。(http://en.wikipedia.org/wiki/Machine_learning)
課程相關性
- 該網站討論了與從質譜獲得的資料相關的問題,以及如何克服這些問題。它指出了為什麼質譜資料需要進行處理,以及如何在資料能夠用於分析之前進行處理。這為蛋白質組學課程中的質譜研究引入了另一個重要方面。
主要重點
Gilbert Chu 博士和 Robert Tibshirani 博士正在嘗試建立蛋白質分析工具/程式,這些工具/程式將整合蛋白質水平和翻譯後修飾以及蛋白質相互作用等變數,以從蛋白質組學資料中獲得更多可用的資訊。
總結
該網站提供了有關 Gilbert Chu 博士和 Robert Tibshirani 博士進行的蛋白質組學分析研究的資訊。該網站包括 Chu 和 Tibshirani 的出版物(書籍和期刊文章),以及兩位教授的實驗室簡介。概述簡要介紹了分離和分析蛋白質組學資料的挑戰和益處,以及如何將其與基因表達資料合併以獲得有關生物系統的全新資訊。網站上的軟體部分提供了對四種不同型別的蛋白質組學分析軟體的訪問許可權,包括微陣列顯著性分析 (SAM)、微陣列預測分析 (PAM)、微陣列實驗室統計分析和峰值機率對比 (PPC)。該網站還提供了兩位教授的傳記背景以及他們目前正在追求的研究興趣。這些興趣包括闡明一種方法,透過分析血清血樣中表達的蛋白質來診斷自身免疫性疾病(例如系統性紅斑狼瘡)。

新術語
- PPC
- 峰值機率對比 - 這是一款用於蛋白質 MS 資料的類別預測軟體。它透過獲取每個類別都分配有強度水平的顯著峰值列表來實現這一點。它可以比較和對比資料的強度水平以預測類別並生成假陽性率。原始光譜或提取的峰值都可以輸入到此程式中。(http://proteomics.stanford.edu/chu/software.html)
- PAM
- 微陣列預測分析 - 這是一款從抗體反應資料進行樣本分類的程式,以提供顯著基因的列表,這些基因的表達特徵化每個樣本組。該軟體可以與 cDNA 或寡核苷酸微陣列一起使用。(http://proteomics.stanford.edu/chu/software.html)
- cDNA
- 互補 DNA - 這是一種單鏈 DNA,透過使用信使 RNA 模板的反轉錄酶逆轉錄而成。它與 mRNA 互補。(http://en.wikipedia.org/wiki/Complementary_DNA)
- 自身免疫性疾病
- 當身體的免疫系統將自身的正常組織誤認為外來組織時,就會發生這種情況,因此會啟動免疫反應攻擊該組織。已知的自身免疫性疾病超過 80 種。(http://www.medterms.com/script/main/art.asp?articlekey=2402)
- SLE
- 系統性紅斑狼瘡 - 這是一種自身免疫性疾病,通常被稱為狼瘡。自身免疫反應在包括心臟、關節、皮膚、肺、血管、肝臟、腎臟和神經系統在內的各種組織中引起炎症(急性炎症和慢性炎症)。大多數死亡原因是腎衰竭,10 年生存率為 80%。(http://www.medicinenet.com/systemic_lupus/article.htm)
課程相關性
- 該網站提供了資訊和多個分析軟體程式的訪問許可權,這些程式可用於分析蛋白質組學資料
主要重點
簡要介紹 FTICR/MS 機器各部分及其與其他形式 MS 的區別。
總結
傅立葉變換質譜是一種近年來備受關注的技術,它能夠提供生物分子質量和解析度資訊,其水平高於許多其他質譜形式。作為一種離子阱質譜技術,它在收集離子的技術上獨樹一幟,正是由於這個原因,它能夠比其他質譜形式更準確地進行測量。雖然 FTICR 的主要理念最早是在 20 世紀 30 年代提出的,但直到 20 世紀 70 年代後期,傅立葉變換技術才被應用於 ICR 技術。從那時起,這種技術迅速普及,也越來越容易獲得。雖然 FTMS 機器有很多種,但它們都包含四個基本部分,這些部分是其正常執行所必需的。首先是磁體,它對機器的效能有顯著影響,更強的磁體可以產生更好的結果。正是由於這個原因,人們一直在努力研製更強更強的磁體。其次是用來儲存離子的細胞,也是離子被檢測和分析的地方。可以使用兩種型別的細胞:立方細胞,由六個磁性板以立方體形狀排列而成,因此得名;以及開放式圓柱形細胞,其工作原理與立方細胞類似,但使用六個電極。第三個特點是真空系統,這是所有質譜儀的必要組成部分,對於 FTMS 儀器的正常和準確執行尤為重要,但這種真空只有在離子被檢測到阱中時才需要。系統的最後部分是資料系統。該系統的幾個組成部分,包括一個計算機來監控和分析所有其他元件和資料,在過去的十年中都得到了質量上的提升,同時其計算機效能也得到了提高。
新術語
- 離子阱
- 能夠將單個到數百萬個原子離子長時間地隔離在外部世界之外的能力 (http://jila.colorado.edu/pubs/thesis/king/ch2.pdf)
課程相關性
- FTICR/MS 由於其能夠準確識別肽和蛋白質產物,因此在蛋白質組學領域是一種流行的工具。
SAM:微陣列顯著性分析
[edit | edit source]主要重點
該網站提供了有關斯坦福大學開發的 SAM 程式的具體資訊。它包括有關下載和使用該程式的連結,以及有關其背景和演算法的資訊。
總結

該網站專門用於 SAM 程式。它包括有關程式工作原理(其背後的演算法)以及它與其他分析程式的不同之處的資訊。它提供了指向說明手冊的連結。他們列出了該程式的功能,以及指向可能與該程式一起使用的其他附加功能(例如 Excel 載入項)的連結。還提供了一個常見問題解答部分,以回答最常見的問題。除了有關如何獲得許可的資訊(如果需要)之外,還提供指向下載 SAM 程式的連結。大多數使用者只需在相應的網站 (http://www-stat-class.stanford.edu/~tibs/clickwrap/sam.html) 註冊即可下載該程式,但如果 SAM 用於商業用途,則需要更正式的許可。此外,該網站會隨時更新有關 SAM 的任何更改以及新版本釋出的資訊。
新術語
- PAM
- 微陣列預測分析;SAM 網站提供的另一個系統,用於基因表達的類別預測和生存分析,以及資料探勘。該系統根據基因表達資料進行樣本分類。( http://www-stat-stanford.edu/~tibs/PAM/index.html )
- 演算法
- 通常以明確的、逐步的程式形式呈現的一組有限的指令,用於解決問題。它通常用於計算和資料處理。( http://en.wikipedia.org/wiki/Algorithm )
- 兩類(非配對)組
- 兩組測量值,其中兩個組中的實驗單位都不同。( http://www-stat-stanford.edu/~tibs/SAM/sam.pdf )
- 多類
- 有兩個以上的組,每個組包含不同的實驗單位。( http://www-stat-stanford.edu/~tibs/SAM/sam.pdf )
- 歸一化
- 這是一種系統化的方法,用於確保資料庫能夠執行通用查詢,並且這些查詢不會因插入、更新或刪除任何異常而導致不希望的結果,這些異常會導致資料質量下降。( http://en.wikipedia.org/wiki/Database_normalization )
課程相關性
該網站提供了有關 SAM 程式的更多資訊,該程式現已用於蛋白質組學研究。它還提供了下載 SAM 的許可權。
微陣列資料分析指南(意見)
[edit | edit source]http://www.bea.ki.se/staff/reimers/Web.Pages/Microarray.Home.htm (3/29/09)
主要重點
總體而言,該網站提供了有關微陣列資料分析中常見問題的相關資訊,並提出瞭解決這些問題的建議。其中一些解決方案採用歸一化技術的形式。

總結
該網站共分為 11 個部分,分別為:實驗設計、分佈和轉換、歸一化方法、斑點陣列的質量控制、斑點陣列的歸一化、質量控制、歸一化、丰度估計(將來自多個探針的資料組合在一起以獲得單個估計的方法)、圖形、聚類和統計顯著性——這些部分解釋了一些人用來解決分析微陣列資料時出現的一些問題的不同技術。前三個部分介紹了在所有型別的微陣列分析中出現的問題。該網站簡要解釋了所涵蓋的概念,然後繼續討論它們的優缺點。接下來五個部分分別討論了這些概念在雙色 cDNA 斑點微陣列和 Affymetrix 陣列中的具體應用。在質量控制部分,該網站介紹了一些基本的控制措施,這些措施應在進行實驗之前牢記,以便減少系統偏差。雖然資料的歸一化將解釋一些偏差,但它不一定能捕捉到所有偏差,因此最好避免引入偏差。最後一段討論了適合微陣列資料的不同統計方法,另外兩個部分討論了人們用來視覺化資料以供人工分析的不同方法。
新術語
- p 值
- 在零假設為真的情況下,從實驗中獲得的結果有意義的機率 (http://www.childrensmercy.org/stats/definitions/pvalue.htm)
- Bonferroni 校正
- 一種用於防止來自多個比較檢驗的結果被錯誤地認定為統計顯著性的方法 (http://www.utdallas.edu/~herve/Abdi-Bonferroni2007-pretty.pdf)
- Sidak 校正
- 另一種校正方法,它比 Bonferroni 校正不那麼嚴格,允許更大的機會將某件事認定為統計顯著性 (http://www.utdallas.edu/~herve/Abdi-Bonferroni2007-pretty.pdf)
- Lowess 曲線(區域性加權線性迴歸曲線)
- 一條透過各點繪製的平滑曲線,透過對值進行區域性加權線性迴歸計算得出 (http://www.itl.nist.gov/div898/software/dataplot/refman1/ch3/lowess_s.pdf)
- t 檢驗
- 一種統計假設檢驗,如果零假設為真,則遵循學生 t 分佈 (http://www.socialresearchmethods.net/kb/stat_t.php)
課程相關性
用於蛋白質組學的大多數歸一化技術最初被發現對微陣列資料有用,因此,在進行實驗設計時,瞭解微陣列資料分析中出現的問題可能會有用。
備註
[edit | edit source]- ↑ Ge G, Wong GW. "使用決策樹整合對癌前胰腺癌質譜資料進行分類" BMC 生物資訊學 9:275 (2008).
- ↑ Stephen J. Callister 等人 (2006). "Normalization Approaches for Removing Systematic Biases Associated with Mass Spectrometry and Label-Free Proteomics". J Proteome Res. 5 (2): 227–286. doi:10.1021/pr050300l. PMID 16457593.
{{cite journal}}:|access-date=requires|url=(help); Explicit use of et al. in:|author=(help)
參考文獻
[edit | edit source]1 - Ge G, Wong GW. "Classification of premalignant pancreatic cancer mass-spectrometry data using decision tree ensembles" BMC Bioinformatics 9:275 (2008).
2 - Stephen J. Callister 等人 (2006). "Normalization Approaches for Removing Systematic Biases Associated with Mass Spectrometry and Label-Free Proteomics" J Proteome Res. 5(2): 227–286. (http://www.pubmedcentral.nih.gov/articlerender.fcgi?artid=1992440)
3 - Tusher, V. G., R. Tibshirani, 等人. "Significance Analysis of Microarrays Applied to the Ionizing Radiation Response." PNAS 98:5116–5121 (2001).
4 - Kalousis A. "Mass spectrometry data mining for early diagnosis and prognosis of stroke" http://cui.unige.ch/AI-group/research/massspectrometry/massspectrometry.htm (28 March 2009)
5 - Zimmer JSD, Monroe ME, Qian WJ, Smith RD Mass Spectrom Rev. 25(3):450-482 (2006) Advances in Proteomics Data Analysis and Display Using an Accurate Mass Time Tag Approach (http://www.pubmedcentral.nih.gov/articlerender.fcgi?artid=1829209)
6 - Li Q, Roxas BAP. "Significance Analysis of Microarray for Relative Quantitation of LC/MS Data in Proteomics" BMC Bioinformatics 9:187 (2008)

