官术网_书友最值得收藏!

2.2.1 集成學(xué)習(xí)

集成學(xué)習(xí)旨在通過多個(gè)模型的組合來獲得更高的預(yù)測(cè)精度,同時(shí)減少過擬合。這種算法最早出現(xiàn)在20世紀(jì)70年代,后被廣泛應(yīng)用于各個(gè)領(lǐng)域,如圖像識(shí)別、自然語言處理和金融預(yù)測(cè)。

常見的集成學(xué)習(xí)包括bagging、boosting、stacking和blending,這4種集成學(xué)習(xí)算法的原理如下。

(1)bagging。其全名為bootstrap aggregating,是一種通過組合多個(gè)模型的方法來降低預(yù)測(cè)誤差的技術(shù)。在這種算法中,我們從原始數(shù)據(jù)集中隨機(jī)選擇樣本(有放回地選擇,即一個(gè)樣本可以被選擇多次,這就是“進(jìn)行替換”的意思),然后對(duì)每個(gè)新生成的數(shù)據(jù)集訓(xùn)練一個(gè)獨(dú)立的模型。最后,所有模型的預(yù)測(cè)結(jié)果被平均(對(duì)于回歸問題)或者投票(對(duì)于分類問題)得到最終的預(yù)測(cè)。這種方法能夠有效地減小模型的方差,提高模型的穩(wěn)定性和準(zhǔn)確性。

(2)boosting。這是一種依次訓(xùn)練多個(gè)模型的算法,每個(gè)后續(xù)模型都會(huì)試圖修正其前一個(gè)模型的錯(cuò)誤。采用這種策略可以將一類弱學(xué)習(xí)器(指其預(yù)測(cè)能力不強(qiáng),比如簡(jiǎn)單的決策樹)提升為強(qiáng)學(xué)習(xí)器。每個(gè)模型在訓(xùn)練時(shí),都會(huì)更加關(guān)注前一個(gè)模型錯(cuò)誤分類的樣本,通過調(diào)整樣本權(quán)重來實(shí)現(xiàn)其算法。所有模型的預(yù)測(cè)結(jié)果將根據(jù)其在訓(xùn)練過程中的表現(xiàn)進(jìn)行加權(quán)融合,形成最終的預(yù)測(cè)。

(3)stacking。這是一種通過訓(xùn)練一個(gè)元模型(meta-model)來融合多個(gè)基模型預(yù)測(cè)結(jié)果的方法。在這種算法中,首先獨(dú)立地訓(xùn)練多個(gè)不同的基模型,然后將這些模型的預(yù)測(cè)結(jié)果作為新的特征去訓(xùn)練一個(gè)元模型。元模型的目標(biāo)是最好地組合各個(gè)基模型的預(yù)測(cè)結(jié)果。這種方法的優(yōu)點(diǎn)在于,當(dāng)基模型多樣化時(shí),它可以更好地捕捉數(shù)據(jù)的多種特性,并提高預(yù)測(cè)的準(zhǔn)確性。

(4)blending。與stacking類似,兩者的主要區(qū)別在于訓(xùn)練元模型時(shí)使用的數(shù)據(jù)。在blending中,元模型是在一個(gè)單獨(dú)的數(shù)據(jù)集上訓(xùn)練的,而不是使用基模型的預(yù)測(cè)結(jié)果作為特征。這種方法更簡(jiǎn)單,但可能會(huì)因?yàn)樾畔⑿孤抖鴮?dǎo)致過擬合。

生物學(xué)中使用集成學(xué)習(xí)的一個(gè)例子是預(yù)測(cè)蛋白質(zhì)-蛋白質(zhì)相互作用(protein-protein interaction,PPI)。PPI對(duì)發(fā)生在細(xì)胞內(nèi)的一系列化學(xué)反應(yīng)或物理事件都很重要,了解這一作用有助于開發(fā)新的疾病治療方法。然而,對(duì)PPI的實(shí)驗(yàn)測(cè)定既費(fèi)時(shí)又費(fèi)錢,鑒于這種情況,研究人員開始采用機(jī)器學(xué)習(xí)方法從蛋白質(zhì)序列和結(jié)構(gòu)中預(yù)測(cè)PPI,并采用集成學(xué)習(xí)來提高PPI預(yù)測(cè)的準(zhǔn)確性。具體來說,就是采用多個(gè)機(jī)器學(xué)習(xí)模型(如支持向量機(jī)、隨機(jī)森林和梯度提升機(jī)),在不同的數(shù)據(jù)子集或不同的特征集上訓(xùn)練,然后用不同的方法(如多數(shù)投票或加權(quán)平均)將這些模型的輸出結(jié)合起來,以做出最終預(yù)測(cè)。

圖2-1描繪了人工智能、機(jī)器學(xué)習(xí)、深度學(xué)習(xí)、集成學(xué)習(xí)和生物信息學(xué)之間的關(guān)系。深色框表示本節(jié)的焦點(diǎn),即生物信息學(xué)中的集成深度學(xué)習(xí)。圖2-2展示了經(jīng)典的集成學(xué)習(xí)框架,包括bagging、boosting及其變體,以及基于數(shù)據(jù)擾動(dòng)的集成聚類。其中,X代表輸入數(shù)據(jù)。

圖2-1 人工智能、機(jī)器學(xué)習(xí)、深度學(xué)習(xí)、集成學(xué)習(xí)和生物信息學(xué)的關(guān)系

圖2-2 經(jīng)典的集成學(xué)習(xí)框架

主站蜘蛛池模板: 望江县| 福贡县| 玉山县| 龙游县| 茶陵县| 通江县| 麟游县| 石河子市| 休宁县| 万年县| 新建县| 长汀县| 宿松县| 东乡县| 文登市| 长兴县| 吉水县| 广丰县| 新沂市| 灵寿县| 柞水县| 五原县| 游戏| 陆良县| 囊谦县| 黎城县| 西吉县| 舒城县| 安宁市| 青阳县| 南木林县| 麟游县| 朝阳市| 古交市| 合山市| 太谷县| 庆阳市| 巢湖市| 蒲江县| 鄂尔多斯市| 吉木萨尔县|