- 蛋白質結合位點預測及輔助分子對接
- 邱智軍
- 3996字
- 2022-01-14 22:03:06
1.4.3 蛋白質-蛋白質結合位點預測
蛋白質-蛋白質復合體的實驗鑒定是一個昂貴的和耗費時間的過程,且很難應用于短暫型復合體,而同源模建進行復合體的預測只有在相對少數情況是適用的。除同源模建外,另一個預測途徑是蛋白質-蛋白質對接[68]。 對接程序基于形狀互補和靜電作用的互相影響進行預測,通過交互面將兩個或更多已知的結構或可靠的3D立體結構模型契合在一起。雖然在該領域中已經取得了一些成功和進展[69,70],但這些方法因為蛋白質-蛋白質結合中相互作用力及其構象變化的復雜性等問題所困擾。
隨著結構已知蛋白質數目的增長,更多研究小組已經開始提取相互作用蛋白質復合體的基本特征,如形狀互補[51,71~76],化學互補[77,78]以及兩者的結合[79~81]。
對蛋白質-蛋白質相互作用中扮演重要角色的特定氨基酸的預測是實現破譯蛋白質的功能機制的重要步驟。蛋白質相互作用表面的殘基信息有各種重要的應用,如相互作用實驗確認中的突變設計、理解分子識別機制和蛋白質-蛋白質相互作用的藥物開發、了解分子識別的機制預測復合體結構和構建詳細的代謝變化路徑圖等。涉及相互作用的殘基預測已經成為一個熱門研究課題。
許多研究者嘗試描述蛋白質-蛋白質相互作用面上的殘基特征[20,82~85]。早期工作受蛋白質數據庫PDB中寡聚蛋白質的有限子集規模所限制[86],近期已經能夠依據相互作用強弱和復合體是否同源來對寡聚體做進一步的區分[84-85]。這些研究揭示結合面上相互作用的殘基在每個子集中是不同的,如同源二聚體界面比異源二聚體有更多疏水殘基,而且,結合力強的短暫型復合體傾向于包含具有較大個頭的單體,其結合界面相對不平并且常常比結合力弱的短暫型復合體疏水性更強[84]。基于這些結論,相互作用殘基預測可能只能依賴序列數據[85]。
最近的研究表明,蛋白質表面熱點(這些殘基如果突變成丙氨酸將引起結合能大幅下降)有可能用于預測其物理化學性質[87,88]。熱點也被應用于在蛋白質結合位點中發現保守殘基,熱點殘基能被用來預測蛋白質-蛋白質結合位點[89~91]。
盡管結合表面和非結合表面存在這些不同之處,但諸多研究工作得出的一致結論是:這些不同之處并非是使蛋白質相互作用位點能夠被簡單預測的關鍵特征。 基于結構[92~106]或序列[107~110]信息,許多研究小組已經為結合殘基預測開發了相應的計算方法。大多數的預測方法使用的特征比較集中,比如考察疏水性特征且設計預測模式、利用蛋白質表面殘基的形狀和電荷,以及使用機器學習方法來預測結合殘基。這些方法也都得到了相似的預測正確率。
1.4.3.1 結合殘基的特性
結合位點預測依賴于蛋白質復合體結合面上殘基的特性,比較結合面和非結合面部分的特性大體上拓寬而且加強了我們對蛋白質的理解。其中最顯著的特性包括:
(1)序列保守性 結合殘基比非結合殘基相對要保守得多[97]。一般認為,保守性可能是生物進化過程中保持蛋白質特定功能或結構的需要[34]。
(2)氨基酸組成 在蛋白質-蛋白質結合位點中,疏水的(和芳香的)殘基和精氨酸富集,然而其他的帶電殘基很少[20,97]。這些氨基酸的聚集已經被歸因于一種存在于陽離子和芳香性體系之間的相互作用,即陽離子-π相互作用[111]。相對于非結合殘基,結合位點中的疏水殘基有更強的聚集趨勢[112]。
(3)二級結構 結合位點似乎傾向于β-折疊而非α-螺旋,結合位點中的肽鏈環狀結構也傾向于更大[112]。
(4)溶劑可及性 結合殘基比非結合殘基有更大的溶劑可及性[83,104]。后者在蛋白質復合體形成時不發生分子間相互作用,這樣就傾向于最大化分子內相互作用以減少它們的溶劑可及性。溶劑可及性能從蛋白質序列預測,這些方法一般使用結合殘基表示不是十分精確的數據集來訓練,一般會低估結合殘基的溶劑可及性。有研究發現,溶劑可及性的預測值和實際值之差比單純的溶劑可及性有更強的區分殘基的能力[95]。對于每種氨基酸,參照二級結構分類,對溶劑可及性進行進一步的分類可能會提高溶劑可及性的區分能力。
(5)側鏈構象熵 結合殘基中很少能夠采集到種類多樣的旋轉異構體,這可能是為了在形成蛋白質復合體時付出最小化的熵代價。
(6)溫度因子(B因子) 結合位點上的殘基柔性比蛋白質表面的其他部分小[113],這也表明結合殘基在結合過程中具有較少的側鏈構象熵損失。Chung等[102]把歸一化的B因子作為保守分值,即減少柔性區域殘基的保守分值和增加剛性區域殘基的保守分值。當使用源自復合體的結構預測結合殘基時,包含B因子會提高其準確性,但是當單獨使用解析的非結合蛋白時準確性就小得多。
(7)靜電勢 靜電作用能夠驅動很多復合體的形成,而最后取向的特異性可能是由更特異的相互作用來驅動的,比如氫鍵、鹽鍵和疏水區域的相互作用[20,114]。諸多研究工作有一個重要的共同發現:在蛋白質-蛋白質結合位點上存在著帶電和極性殘基聚集[20,115~118],這些聚集具有一定的功能意義,它們也幫助提高了預測器的性能。
1.4.3.2 結合位點預測方法
一般說來,目前相關方法所使用的特征結合殘基識別能力還是相當弱的。識別過程中,來自多個殘基的多種類型的數據都需要用來把蛋白質單個表面殘基區分成結合或非結合殘基。典型的,多個殘基即指殘基及其空間鄰居[97],這是因為一個結合位點就是由空間相鄰的殘基所構成的,但也有方法僅僅使用蛋白質序列[98]。從計算方法角度講,結合位點預測方法能被分為基于數值優化和概率統計的方法,兩類方法都依賴于數據集的訓練。總之,識別過程中僅僅表面殘基被考慮用于結合位點預測。
在第一類方法中,一個殘基i的預測值用下面公式來表示:
Si=f(xi,xj∈n,c)
式中,xi為殘基i的輸入數據;xj∈n為殘基i的相鄰殘基的對應輸入數據;c為通過訓練所決定的一組系數。
殘基i的狀態可能是I,即結合殘基;也可能是N,即非結合殘基。這個殘基的最后狀態是由預測值Si來決定的。而訓練的目的就是最小化訓練數據集中預測值與實際值間的差距。已經發展出一些基于數值優化的方法,簡述如下。
(1)線性回歸[106,119] 這種方法中,上面計算公式中的Si是輸入數據的線性函數,比如溶劑可及性,c作為系數。這種方法的優勢在于簡單實用。但一般來講,線性回歸在性能上落后于其他方法。
(2)打分函數[91,94,103,120~122] 打分函數是在有了經驗能量函數后建立起來的,它由包括不同貢獻的數據項組成。這些單個數據項的函數形式通常比線性回歸要復雜得多,也有更好的區分能力。但所引入的數據項需要有明確的物理學意義。
(3)支持向量機[64,93,100,102,110,123~125] 這類方法中,輸入數據被非線性地映射到一個特征空間,然后得到一個超平面,它可以最優地方式把I狀態和N狀態對應的數據點分離開。這類方法在性能上優于線性回歸,屬于黑箱類方法。
(4)神經網絡[92,95,97,98,104] 典型的神經網絡有一個由中間節點組成的隱層,它的輸入數據被線性組合到節點上,輸出數據反饋到最終的輸出節點,通過訓練數據的預測值與實際值差的最小化得到節點輸入數據線性組合的系數或者權重。也就是說,這是一種性能和算法透明性之間的平衡。
(5)隨機森林[126,127] 隨機森林(random forest,RF)是一種基于決策樹的分類器,首先,通過自助法從總樣本集中提取樣本子集從而構建分類樹,然后,利用投票(voting)機制綜合各分類樹的結果得到最終分類結果。在構建分類樹時,未被選中的樣本組成袋外(out-of-bag,OOB)數據集,用袋外數據進行測試得到袋外誤差(out-of-bag error,OOB Err)。隨機森林操作方便、結果可靠,還具有特征數據不需要預處理、能方便地處理多類問題、適用于變量數目遠大于樣本數目的問題、不易過擬合(overfitting)、分類結果穩定等特點。
概率方法的目標是發現條件概率p(s|x1,…,xk),這里s=I或者N,x1到xk是待預測殘基的輸入數據,當p(s|x1,…,xk)大于一個閾值時結合殘基被預測。這類方法簡述如下。
(1)樸素貝葉斯方法[112]假定不同的輸入數據x1到xk是獨立的,導出:
p(s|x1,…,xk)=p(s)
式中,p(s)為訓練數據集中狀態s的比例;p(xl)為整個數據集中輸入數據xl的概率密度;p(xl|s)為狀態為s的數據子集中輸入數據xl的概率密度。
(2)貝葉斯網絡[99] 當兩個輸入數據x1和x2已知不是相互獨立時,它們對p(s|x1,…,xk)的貢獻就不再是p(x1|s)p(x2|s),而是聯合概率p(x1,x2|s)。
(3)隱馬爾科夫模型 這類方法包含一個狀態鏈,如“多序列比對中與I位置匹配”“多序列比對中與N位置匹配”、插入和刪除。每個狀態都能從20種氨基酸中釋放出一種或者保持沉默(就像處于刪除狀態)。狀態鏈是隱藏的,但氨基酸鏈即蛋白質序列是可觀察的。隱馬爾科夫模型能給出概率值p(si=I|a),即蛋白質序列a中殘基i是結合殘基的概率。
(4)條件概率場[105] 這類方法中,沿著蛋白質序列上每個位置都被賦予一個狀態標識,即I或者N。給定蛋白質序列a,狀態標識序列是s的概率,采取下面形式:
p(s|a)∝exp[λl
fl(si-1,si,a)+
μl
gl(si,a)]
式中,fl為序列a中被標識為si的殘基i的貢獻分;gl為序列a中被標識為si-1的殘基i-1的貢獻分;λl和μl為系數或權重。
訓練以后,權重λl和gl值固定,可以把狀態標識序列預測為使p(s|a)最大的標識序列。一個聚類過程經常被用來篩選表現出強烈結合位點標識的殘基。這也可用來去除離散的殘基,從而選擇最優可能的殘基聚類作為最后的預測。
1.4.3.3 面臨的挑戰
在過去幾年里,結合位點預測方法有了很大的進步。目前,對于來自蛋白質結構數據庫PDB的復合體形式的蛋白質,已經可以達到令人滿意的預測效果。但是,從應用角度講,預測精度仍然不能滿足目前的需要。另外還有如下幾個挑戰性問題存在。
(1)大規模構象變化 對于結合位點預測,大規模構象變化如結構域-結構域重排,可能是非常不利的。這種情況下,原來在復合體中的結合殘基可能因為其在非結合結構中是分散的而被聚類過程去除。
(2)一個蛋白,很多配體 如果一個蛋白質和很多配體蛋白結合,并在其表面的不同部位形成結合面。這可能使不同的位點同時被預測到,然而究竟配體結合于蛋白質上哪個位置,仍需要生物化學數據進一步分析。
(3)多體復合體 對于由兩個或兩個以上蛋白組成的超大復合體,其可被看做逐次增加一個蛋白而形成。這種情況下,結合位點可以被依次順序預測。但是,這種模式是否是廣適的,是否還存在著其他的結合模式,仍需要進一步探討。
所有這些存在的問題,都亟需新的模型、理論和方法來解析,以進一步提高結合位點的預測能力。