蛋白質組學研究方法概述2019-112講座筆記（第壹部分）

寫在前面

從10結束後，由克裏克學院和康雨生主辦的蛋白質組學網課正式開課。整個課程由21節課組成。作為蛋白質中的純白女孩，我也打算借此機會學習和感受。以下是我第壹講《蛋白質的組織學研究方法概述》的課堂筆記，分享給同樣想入門的妳~

教師

這門課的老師可以用天才少年來形容:她2014年畢業於慕尼黑工業大學，獲博士學位。tünchen），生物分析和蛋白質組織學研究所，師從丹尼爾·伯恩哈德·庫斯特教授。主要方向為基於串聯質譜的蛋白質組學在腫瘤藥物研究中的應用。她就是庫欣博士，現任上海交通大學系統生物醫藥研究院助理研究員（此處應有掌聲）！Ku博士目前的研究興趣是發現腫瘤相關的生物標誌物和蛋白質糖基化修飾。

（本文圖片均來自庫欣博士課堂講稿，經授權發布。)

基於質譜的蛋白質組學

眾所周知，蛋白質的蛋白質組學是研究壹個細胞或壹個生物體表達的所有蛋白質。雖然現在基因組測序壹塌糊塗，但我們不應該忽視蛋白質是執行生命功能的基本單位，蛋白質通過形成各種化合物和形成通路網絡來執行各種生物功能！因此，有許多生物學問題只能在蛋白質水平上進行研究和探索，但也需要在系統水平上進行研究，例如蛋白質-蛋白質相互作用、蛋白質細胞定位、翻譯後修飾、信號通路和代謝通路的調控和功能。這就是蛋白質組學如此重要的原因！

既然它很重要，科學家們自然會盡力研究它！使用的第壹項技術是傳說中的二維凝膠電泳（2-DE）。由於分辨率低和蛋白質重疊等各種問題，通量和準確性都不令人滿意。當質譜技術興起時，它很快被取代。

說起質譜的誕生，估計很多朋友都聽過著名的《刁絲反擊戰》的故事，該故事講述了2002年諾貝爾化學獎得主田中健壹作為蛋白質譜的發明者之壹，在實驗中不小心加入了甘油，結果質譜被神奇地引入了識別生物大分子的應用領域。想想看，從整個人類科技發展史到每個個體的生活，充斥著多少不可思議的奇跡~

當質譜技術和蛋白質組學相遇在壹起時，真的是閃電引發了大火，產生了強烈的化學反應，迅速引爆了整個學科的發展！短短十余年間，蛋白質組學的研究目標從細胞模型和動物模型擴展到體液和組織等人體樣本，其應用範圍的生物學復雜性越來越高。研究的目的從最初的肽序列推導，到肽和蛋白質的定性和定量分析、翻譯後修飾，再到現在的靶向蛋白質基因組學，這已成為壹個新的熱點。總之，勢不可擋！

基於質譜的蛋白質組學概述

說到靶向蛋白質組學，我們都知道蛋白質組學的應用領域壹直主要針對基礎生物學，例如研究途徑、蛋白質復合物、相互作用網絡、表征細胞和組織的類型以及觀察細胞周期中蛋白質的表達。近年來，由於技術的快速發展，蛋白質組學已被用於醫學研究和藥物研究。例如，藥物研究在中國可能還沒有廣泛應用，但在歐美已經開始越來越廣泛地應用。以肝毒性為例，蛋白質組學可以為藥物開發早期評估肝毒性提供研究方法。

蛋白質組學在藥物發現中的應用實例

那麽，如何將蛋白質組學應用於臨床和藥物研發？是需要針對性的蛋白質組學技術！此前，蛋白質組學主要用於發現新的未知物，如肽片段、蛋白質復合物、蛋白質的翻譯後修飾等。這部分應用非常廣泛，技術門檻相對較低，方法相對通用。但問題是這種方法無法應對大量的臨床樣本，其重復性和準確性也無法滿足要求。

因此，針對性分析開始興起，也就是說，在分析之前，我們清楚地知道需要分析的物質是什麽，然後將其挑選出來進行準確的定量分析！我們不需要壹次性驗證成千上萬的蛋白質，但我們需要在數百個早上的樣本中驗證十幾個或幾十個我們關心的蛋白質，而這些蛋白質往往是濃度非常低的蛋白質，傳統方法基本上會遺漏這些蛋白質（後面我會詳細談論為什麽會遺漏它們）。有了靶向技術，研究用於臨床診斷的生物標誌物就有了更大的可能性和更強的支持！

然後，根據老師的講課思路，我將從定性檢測、定量檢測和靶向蛋白質組學三個方面分享收獲。

定性檢測

無論是定性檢測還是定量檢測，樣品制備都是不可避免的準備工作。質譜分析中使用的蛋白質樣品來源廣泛，只要妳包括蛋白質的東西，就可以將其作為來源。對於復雜的樣品，如人體體液或組織樣品，蛋白質的提取和去峰往往需要復雜和精細的處理，處理流程因樣品和研究目的而異。這部分內容，第二講“樣品前處理”會詳細介紹，感興趣的朋友可以期待我下壹講的課堂筆記~

換句話說，蛋白質的定性檢測有兩種思路:自下而上和自上而下。Top down是指質譜中完整蛋白質的片段化，通過檢測片段分子來推斷蛋白質的序列。在使用中真正占絕大多數的自下而上方法是鳥槍法，它充分利用了蛋白質自身的特性:它可以在特定的位點被特定的酶切斷。其基本思路是先用蛋白酶消化蛋白質序列，再對消化後的肽段進行鑒定，因此進入質譜的檢測對象始終是肽段，然後根據肽段序列推導出蛋白質序列。

基於質譜的蛋白質研究常用方法

接下來，我們將詳細介紹自下而上/霰彈槍方法，以及如何通過質譜定性檢測蛋白質。這件事不是三步就能完成的，七步就能拿下:

1.樣品處理:從蛋白質來源獲取各種樣品進行預處理和優化。

2.蛋白質分離:根據研究需要，采用凝膠分離提取所需蛋白質，或不經分離全部檢測，註意去除雜質；

3.酶消化:用序列特異性酶消化蛋白質；

4.肽段分離:酶切後的肽段進入HPLC（高壓液相色譜），也就是我們常說的LC-MS，由於在色譜柱填料上的保留時間不同，肽段會進行預分離；

5.電離:通過施加電壓（ESI）電離分離的肽；或MALDI基質輔助的激光解離，不需要HPLC過程；

6.質譜分析:當帶電的肽段被送去質譜分析時，肽段會在磁場中發生偏轉（質譜分析的基本原理），信號在質譜分析中被收集，得到譜圖。

7.搜索數據庫:用搜索軟件自動分析質譜，得到肽和蛋白質的序列信息。

霰彈槍壹般流程

Tips:質譜有很多種，如四極桿質譜、飛行時間質譜、四極桿離子阱和傅裏葉變換質譜。更多細節將在第三講《蛋白質譜的原理、使用和維護》中介紹。

從另壹個角度來看，我們可以將霰彈槍法的過程總結如下:

-數據生成:蛋白質？肽段？光譜圖

-數據分析:譜圖？肽段？蛋白

其中壹個最關鍵的指標稱為肽譜匹配（PSM），指的是光譜和肽的匹配。匹配越好，推斷的蛋白質就越準確。這個匹配過程也就是我們常說的搜索數據庫。然後我會分享從課程中學到的背景知識、搜索工具和算法以及對搜索結果的評估。

1.背景介紹

質譜，聽起來很高大上，不管多貴，都是由三部分組成:離子源+質量分析儀+檢測器。

眾所周知，壹臺質譜儀可以有多個離子源\分析儀\檢測器，針對不同的分析需求可以串聯幾種。

先說離子源。蛋白質光譜中使用的ESI（電噴霧電離）是蛋白質組學的標誌性發明！因為它直接從液相電離，所以更容易與LC（液相色譜）結合。我們可以使用液相色譜對非常復雜的肽混合物進行預分離，以降低每個分析物的復雜性，然後分離出的肽可以直接進入ESI形成電離噴霧。

那麽，ESI噴霧是如何形成的呢？簡單來說，分離柱的前端有壹個小開口，分析物根據質量和電荷的不同依次通過前端的小開口。向小開口施加電壓。起初，靜電力與表面張力相同。當靜電力增加使其大於表面張力時，液膜破裂，形成無數帶電液滴並形成噴霧。像相對較新的nanoESI技術，LC的流速更慢，電離效果更好。覺得上面描述不夠生動的童鞋，看看圖片就知道了:

說完了離子源，我們再來說說質量分析器，它是質譜儀最重要的組成部分。我們通常聽到的各種質譜儀的名稱是根據質量分析器的類型命名的。我們樣品中的每壹種成分都在離子源中電離，經過加速電場的作用後，形成離子束進入質量分析器。質量分析儀根據荷質比分離帶電離子，並記錄各種離子的質量數和豐度，以便後續進行定性和定量分析。

質量分析儀有兩個主要技術參數:質量範圍和分辨率。質量範圍是指可以測量的質荷比的範圍，它決定了我們可以檢測的離子範圍。例如，ESI離子源可以產生許多m/z大於3000的離子。如果您選擇的質量分析儀的上限小於3000，那麽您無法檢測到高於3000的離子。

然而，另壹個更重要的指標是質量分析儀的分辨率！首先，前面的公式描述了:

分辨率=觀察到的質譜峰的質荷比/半峰高的峰寬（FWHM）

妳什麽意思？例如，下圖中最左邊的峰的質荷比為1，085.55，峰高壹半處的峰寬為0.217，因此:

分辨率= 1，085.55/0.217 = 5000。

如果妳仍然不明白這壹點，妳可以簡單地理解為質譜的分辨率越高，峰就會越尖越細。妳可能會問:光譜峰又尖又細有什麽好處？這個問題問得好！事實上，分辨率可以表征質譜中區分兩個相鄰譜峰的能力。我們來感受壹下不同分辨率的質譜儀能給我們呈現出怎樣不同的峰圖。

以胰高血糖素為例，展示了不同分辨率的質譜儀給出的譜峰。分辨率為1000時，只能看到非常寬的峰值（藍色）；分辨率提高到3000時，峰值變窄（紅色），但無明顯差異；當提高到10000時，很明顯實際上有8個峰值（綠色）；當它增加到30000時，半峰寬度更窄，兩個相鄰的峰可以完全分開（黑色）。顯然，當分辨率為1000或3000時，我們無法準確檢測出被分析肽段的確切分子量，從而導致光譜不匹配或錯配。

不同的質譜分析儀分辨率不同，通常的順序是:傅裏葉變換質譜分辨率最高，但成本太貴；其次是Orbitrap（軌道阱系列），分辨率遠高於其他質譜；再次是TOF（飛行時間質譜）；然後是離子阱，最後是四極質譜。

這裏我再說壹句，高分辨率是好，但是價格肯定貴。選擇質譜儀時，應根據我們自己的研究目的和預算範圍！

然而，顯然不可能通過壹級質譜鑒定該肽。我們不能根據肽的離子m/z值來推斷肽由哪些氨基酸殘基組成（有多種可能的組合）以及序列順序是什麽，對嗎？因此，需要二次質譜來鑒定肽片段。

什麽是二次質譜？簡單來說，就是通過壹級質譜獲得肽段混合物的壹級光譜，然後從中選擇壹個肽段。通過壹些方法，例如，通過與惰性氣體碰撞來粉碎肽片段以獲得片段離子，然後形成二級光譜。我們通過觀察碎片離子的質量分布來推斷肽殘基的組成，最終推斷出蛋白質是什麽。最後壹張圖幫助妳了解二次質譜是如何產生的。

在上壹段中，我提到了從壹級質譜中“選擇”壹種肽進入二級質譜。看起來這裏的談論很膚淺，但實際上，如何選擇是壹個關鍵問題！通常，我們選擇的方法可以稱為“TOP”方法（這是我自己的名字）。例如，TOP15是指從壹級光譜中選擇前15個峰，壹次分離壹個肽段，然後掃描這個肽段以獲得二級光譜。

大家都發現了嗎？如果壹個肽在壹級譜中沒有進入TOP15，就沒有資格打二級譜！原來質譜的世界競爭也是殘酷的！二級質譜可以掃描哪些肽段是由壹級質譜確定的，所以我們稱這種方法為“DDA，數據依賴采集”！

看，這就是DDA這個名字的由來！下次妳聽到有人說DDA時，妳不會有壹百個問號飛過，對嗎？

我們仔細想想不難發現，如果壹個蛋白質的濃度不夠高，也就是說它的肽段很難成為壹級質譜中的那些top，那麽它基本上沒有進入二級質譜的可能性。這就是為什麽低峰度蛋白質難以識別的原因！這就是為什麽當我們制作血液等樣本時，必須去除血紅蛋白等高密度蛋白質（如果您要識別的蛋白質不是血紅蛋白）！

顯然，DDA方法的局限性是存在的！想要研究低峰度蛋白質的科學家們怎麽能容忍這種情況呢？於是，壹種叫做數據獨立采集（DIA）的新方法應運而生！關於這種方法的原理，下壹篇推文將詳細介紹。

讓我們通過下圖感受壹下壹級聲譜圖和二級聲譜圖之間的關系:

例如，在第壹個時間點，我們掃描MS1，然後選擇具有高峰的肽來掃描MS2，等等。在壹些掃描速度快的質譜儀中，壹個MS1譜圖可以掃描80 MS2。

好了，我們已經弄清楚了二級質譜是怎麽來的，那麽我們如何根據檢測到的離子信息來推斷它是什麽氨基酸呢？也許妳會說，這不是很簡單嗎？根據分子量！

是的，不同的氨基酸，其分子量不是壹個簡單的數值嗎？然而這件事情並沒有那麽簡單，因為這個世界上還有壹種神奇的東西，它的名字叫做同位素！

例如，最常見的碳元素是原子量為12的元素，我們稱之為C12。然而，它還有壹個同樣穩定的好朋友C13（多了壹個中子）。所以我們要考慮這兩種穩定同位素的含量（百度百科說C13占1.11%，C12占98.89%）。對於壹種氨基酸，我們將得到兩種不同的分子量:

-單壹同位素分子量，即只含有最高比例同位素的分子量；

-平均分子量，即含有許多同位素的平均分子量。

為什麽說平均呢？因為肽的分子量越大，含有各種同位素和不同組合的可能性就越多。如果我們計算每個組合的分子量，我們將得到壹個很長的列表。哪個值將用於光譜匹配？我不知道。所以簡單地用壹個平均值來表示。

讓我們通過下表感受壹下單壹同位素分子量和各種氨基酸殘基平均分子量的區別:

也許妳會問，這兩種不同的分子量分別在什麽情況下使用？這裏我們不得不再次談論分辨率。如果我們使用高分辨率質譜儀，不同的同位素峰被清晰地分開，也就是說，我們可以在光譜中看到幾個同位素峰，那麽我們可以使用單個同位素的分子量，這可以準確地對應相應的單個同位素峰。但是在低分辨率質譜儀中，這些峰很可能混合在壹起，看起來像只有壹個峰。在這種情況下，沒有辦法只能用平均分子量來近似它們。

下圖可以生動地顯示單個同位素的分子量與質譜上的平均分子量有多麽不同。根據高分辨率質譜分析，這完全是兩種不同的離子。正如我們上面所說的，根據平均分子量得出的結果是不準確的，但可以通過單個同位素的分子量準確地計算出來。

除了同位素之外，我們還需要考慮另壹個因素，即當肽段進入二級質譜時，可能會形成三種不同的離子類型，即我們通常所說的by離子、ax離子和cz離子。

形成不同離子對的原因是不同的斷裂方法導致肽片段的位置不同。看了上圖妳就明白了。當我們使用CID（碰撞誘導解離）或HCD（高能C阱解離）進行裂解時，是C-N鍵與惰性氣體發生碰撞。這裏，Y離子在C端產生，B離子在N端產生，這是二次質譜產生的最常見的離子對。當我們使用ETD（電子轉移解離）碎裂時，由於存在電子反應過程，增加電子後發生的碎裂可能出現在N-C鍵上，形成cz離子，而TOF儀器可能產生ax離子。

離子類型的信息需要傳輸到後續的查庫步驟（通常我們在查庫軟件中指定儀器類型，軟件會自動匹配離子類型）。計算機需要模擬最可能的碎裂位置，生成相應的理論譜圖，然後與實際譜圖進行比較。讓我們以by離子為例，看看肽段可能斷裂成哪些碎片離子:

然後它可能會生成壹個這樣的頻譜圖:

從光譜中，該肽中的所有by離子都被檢測到。壹般來說，豐度良好且長度合適的肽段被高精度質譜儀完全捕獲是非常常見的。通常，50%-80%的離子可以被捕獲。

內容有點多，估計大家都看膩了。今天的筆記就不分享了。在下壹篇文章中，我們將談論定量檢測的數據庫搜索工具，結果評估和各種背景知識。