- 合成生物學智能化設計與應用
- 滕越主編
- 1123字
- 2024-12-16 16:48:36
2.2.1 集成學習
集成學習旨在通過多個模型的組合來獲得更高的預測精度,同時減少過擬合。這種算法最早出現在20世紀70年代,后被廣泛應用于各個領域,如圖像識別、自然語言處理和金融預測。
常見的集成學習包括bagging、boosting、stacking和blending,這4種集成學習算法的原理如下。
(1)bagging。其全名為bootstrap aggregating,是一種通過組合多個模型的方法來降低預測誤差的技術。在這種算法中,我們從原始數據集中隨機選擇樣本(有放回地選擇,即一個樣本可以被選擇多次,這就是“進行替換”的意思),然后對每個新生成的數據集訓練一個獨立的模型。最后,所有模型的預測結果被平均(對于回歸問題)或者投票(對于分類問題)得到最終的預測。這種方法能夠有效地減小模型的方差,提高模型的穩定性和準確性。
(2)boosting。這是一種依次訓練多個模型的算法,每個后續模型都會試圖修正其前一個模型的錯誤。采用這種策略可以將一類弱學習器(指其預測能力不強,比如簡單的決策樹)提升為強學習器。每個模型在訓練時,都會更加關注前一個模型錯誤分類的樣本,通過調整樣本權重來實現其算法。所有模型的預測結果將根據其在訓練過程中的表現進行加權融合,形成最終的預測。
(3)stacking。這是一種通過訓練一個元模型(meta-model)來融合多個基模型預測結果的方法。在這種算法中,首先獨立地訓練多個不同的基模型,然后將這些模型的預測結果作為新的特征去訓練一個元模型。元模型的目標是最好地組合各個基模型的預測結果。這種方法的優點在于,當基模型多樣化時,它可以更好地捕捉數據的多種特性,并提高預測的準確性。
(4)blending。與stacking類似,兩者的主要區別在于訓練元模型時使用的數據。在blending中,元模型是在一個單獨的數據集上訓練的,而不是使用基模型的預測結果作為特征。這種方法更簡單,但可能會因為信息泄露而導致過擬合。
生物學中使用集成學習的一個例子是預測蛋白質-蛋白質相互作用(protein-protein interaction,PPI)。PPI對發生在細胞內的一系列化學反應或物理事件都很重要,了解這一作用有助于開發新的疾病治療方法。然而,對PPI的實驗測定既費時又費錢,鑒于這種情況,研究人員開始采用機器學習方法從蛋白質序列和結構中預測PPI,并采用集成學習來提高PPI預測的準確性。具體來說,就是采用多個機器學習模型(如支持向量機、隨機森林和梯度提升機),在不同的數據子集或不同的特征集上訓練,然后用不同的方法(如多數投票或加權平均)將這些模型的輸出結合起來,以做出最終預測。
圖2-1描繪了人工智能、機器學習、深度學習、集成學習和生物信息學之間的關系。深色框表示本節的焦點,即生物信息學中的集成深度學習。圖2-2展示了經典的集成學習框架,包括bagging、boosting及其變體,以及基于數據擾動的集成聚類。其中,X代表輸入數據。

圖2-1 人工智能、機器學習、深度學習、集成學習和生物信息學的關系

圖2-2 經典的集成學習框架