官术网_书友最值得收藏!

1.5.2 使用隨機森林方法進行蛋白質結合位點的預測

與蛋白質-小分子配體結合位點相比,蛋白質-蛋白質分子的結合表面較為平坦;雖然有疏水性區域,但其聚集程度較低,在幾何特征及物理化學性質方面,它也不像蛋白質-小分子配體結合位點那樣具有突出、易于區分的特征。所以蛋白質-蛋白質結合位點預測的難度更大一些。

隨機森林是一個包含多個決策樹的分類器,并且其輸出的類別是由森林中每棵樹輸出的類別的眾數而定。作為一種機器學習算法,它具有諸多優點。比如,對于多種數據資料,可以產生高準確度的分類器;能處理大量的輸入變量,并且能評估變量的重要性;對于不平衡數據,能平衡誤差等等。

我們提出了一個基于單塊的殘基屬性定義模型用來描述殘基特征,即把目標殘基周圍的9個殘基組成的塊的屬性作為它的屬性。把這些屬性作為輸入特征向量,用隨機森林構建預測器。對于配體結合位點數據集,這個預測器表現良好。但是這個基于單塊的模型用于蛋白質-蛋白質結合位點數據集時,未能取得理想的準確率。

考慮到蛋白質-蛋白質結合位點特征不明顯,對殘基的定義,增加了屬性的數量,同時考慮目標殘基周圍遠近范圍殘基分布的特點。這樣,我們設計了一個基于多塊的殘基屬性定義模型用來描述殘基特征。對于蛋白質-蛋白質結合位點數據集,與最近發表的方法比較,由基于多塊的模型訓練得到的隨機森林預測器取得了較好的結果。

主站蜘蛛池模板: 江门市| 临沂市| 漠河县| 正定县| 阿合奇县| 新竹县| 湖南省| 岐山县| 龙江县| 佛山市| 乌鲁木齐市| 莱芜市| 延长县| 沈丘县| 保定市| 丹凤县| 睢宁县| 威远县| 会宁县| 海南省| 灵丘县| 九龙城区| 马边| 扎兰屯市| 荥阳市| 保靖县| 沈丘县| 高州市| 咸宁市| 梅州市| 公安县| 宜章县| 定远县| 忻州市| 镇安县| 旺苍县| 乌拉特前旗| 如皋市| 调兵山市| 油尖旺区| 长阳|