- 蛋白質結合位點預測及輔助分子對接
- 邱智軍
- 557字
- 2022-01-14 22:03:07
1.5.2 使用隨機森林方法進行蛋白質結合位點的預測
與蛋白質-小分子配體結合位點相比,蛋白質-蛋白質分子的結合表面較為平坦;雖然有疏水性區域,但其聚集程度較低,在幾何特征及物理化學性質方面,它也不像蛋白質-小分子配體結合位點那樣具有突出、易于區分的特征。所以蛋白質-蛋白質結合位點預測的難度更大一些。
隨機森林是一個包含多個決策樹的分類器,并且其輸出的類別是由森林中每棵樹輸出的類別的眾數而定。作為一種機器學習算法,它具有諸多優點。比如,對于多種數據資料,可以產生高準確度的分類器;能處理大量的輸入變量,并且能評估變量的重要性;對于不平衡數據,能平衡誤差等等。
我們提出了一個基于單塊的殘基屬性定義模型用來描述殘基特征,即把目標殘基周圍的9個殘基組成的塊的屬性作為它的屬性。把這些屬性作為輸入特征向量,用隨機森林構建預測器。對于配體結合位點數據集,這個預測器表現良好。但是這個基于單塊的模型用于蛋白質-蛋白質結合位點數據集時,未能取得理想的準確率。
考慮到蛋白質-蛋白質結合位點特征不明顯,對殘基的定義,增加了屬性的數量,同時考慮目標殘基周圍遠近范圍殘基分布的特點。這樣,我們設計了一個基于多塊的殘基屬性定義模型用來描述殘基特征。對于蛋白質-蛋白質結合位點數據集,與最近發表的方法比較,由基于多塊的模型訓練得到的隨機森林預測器取得了較好的結果。