- 人工智能與計算生物的未來
- (美)布賴恩·希爾布什
- 8087字
- 2025-05-07 12:11:33
生物研究的范式轉(zhuǎn)換:讓計算生物學(xué)成為可能
“那些認為‘科學(xué)等價于測量’的人,應(yīng)該去達爾文的著作里找找數(shù)字和等式。”[23]
——戴維·休伯爾,《自傳中的神經(jīng)科學(xué)歷史》
“實驗是科學(xué)對自然的提問,而測量是記錄自然的回答。”
——馬克斯·普朗克,《科學(xué)自傳與其他論文》
毫不夸張地說,生物學(xué)和物理學(xué)都曾長期與理論和數(shù)學(xué)格格不入。盡管前述兩個領(lǐng)域都高度依賴于實驗數(shù)據(jù)和觀察,但生物現(xiàn)象的復(fù)雜性使得那些描述基本原理的方程式毫無用武之地。自伽利略和科學(xué)革命以來,物理學(xué)成功建立起了一套預(yù)測框架,幫助人們精確而定量地理解自然法則:麥克斯韋方程組、愛因斯坦的E=mc2、牛頓運動定律……生物學(xué)是否有可能也在某個時刻轉(zhuǎn)變?yōu)橐婚T定量科學(xué),利用一系列方程從任何生物過程中做出預(yù)測?
毫無疑問,直到30年前,生物學(xué)家和大多數(shù)科學(xué)家都會堅定地給出否定的回答。進化論統(tǒng)一了生物學(xué),而它完全建立在查爾斯·達爾文和阿爾弗雷德·拉塞爾·華萊士的觀察之上。格雷戈爾·孟德爾的遺傳定律更進一步,使用定量的實驗方法得出結(jié)論。在遺傳學(xué)領(lǐng)域,最接近于嚴格公式的是群體遺傳學(xué)的基本原理,即哈代-溫伯格平衡定律。這一定律表明,在非進化的大型群體中,等位基因和基因型的頻率將世代保持不變。當?shù)任换蝾l率已知且滿足某些特定條件時,哈代-溫伯格方程可以用于推算基因型頻率;而與平衡狀態(tài)的偏移可以用來度量遺傳變異。
在過去的70年里,人們一直在分子生物學(xué)的強大框架內(nèi)研究遺傳學(xué)原理。我們已經(jīng)詳盡闡釋了DNA復(fù)制、RNA轉(zhuǎn)錄和蛋白質(zhì)翻譯(生物學(xué)的信息處理系統(tǒng))的機制細節(jié)。目前尚不清楚的是,算法或方程式能否精確計算或描述,基因調(diào)控網(wǎng)絡(luò)如何控制極其復(fù)雜的細胞過程、構(gòu)建神經(jīng)系統(tǒng)、協(xié)調(diào)生物體的發(fā)育以及驅(qū)動物種進化。自近一個世紀以前克萊伯首次提出克萊伯定律[24]以來,人們已經(jīng)圍繞生物系統(tǒng)的通用生長法則提出了許多假設(shè)與爭論。[25][26][27][28]我們觀察到,自然界的生物體遵守許多能量比例定律。因此,人們相信,我們有希望以嚴謹?shù)姆绞教岢鲂碌纳镎{(diào)控與生物過程理論,從而為科學(xué)家們提供用于研究生物現(xiàn)象的預(yù)測框架。
隨著工具進步帶來實驗數(shù)據(jù)規(guī)模的指數(shù)級增長,新的計算方法為復(fù)雜科學(xué)的研究提供了可能,人們逐漸開始質(zhì)疑數(shù)學(xué)無法描述生物系統(tǒng)的觀點。2000年,史蒂芬·霍金被問及,21世紀是否會成為生物學(xué)的黃金時代,就像20世紀的物理學(xué)一樣。霍金回答:“下一個世紀將是有關(guān)復(fù)雜性的世紀。”[29]處理復(fù)雜性問題的工具正是推動生物學(xué)成為真正的定量科學(xué)所需要的工具。
在信息革命發(fā)生的時候,能夠支持生物發(fā)現(xiàn)的大規(guī)模數(shù)據(jù)生產(chǎn)技術(shù)也同步問世,它們一同推動了生物學(xué)研究的范式轉(zhuǎn)變。其中的一個例子是現(xiàn)代DNA測序儀(例如圣迭戈基因組學(xué)公司因美納制造的HiSeq 4000)的誕生對生物學(xué)的改變。現(xiàn)代DNA測序儀的運作涉及復(fù)雜的化學(xué)與分子克隆過程,以及后期對數(shù)百萬個“合成測序法”反應(yīng)結(jié)果的高分辨率圖像捕捉。它能夠在1.5天內(nèi)產(chǎn)生1.5TB(太字節(jié))的驚人數(shù)據(jù),足以對6個人類基因組進行完整測序(其中每個基因組包含3×109個DNA堿基)。[30]當我們通過后續(xù)計算分析流程完成測序結(jié)果的組裝時,我們便得到了基于基因組序列的精確計算模板。我們可以將這些模板作為研究癌癥基因組、制造藥物以及設(shè)計疫苗的起點。
癌癥研究方法的轉(zhuǎn)變與癌癥研究中的計算
對比計算機時代前后癌癥研究的進展速度,我們就能發(fā)現(xiàn)范式轉(zhuǎn)變帶來的影響有多么廣泛。20世紀70年代,獨立科學(xué)家們通過病毒和細胞培養(yǎng)實驗在生物實驗室里發(fā)現(xiàn)了第一個致癌基因:通過一系列經(jīng)典分子遺傳學(xué)實驗,彼得·迪斯貝格和彼得·沃格特在勞斯肉瘤病毒中發(fā)現(xiàn)了致癌基因src(肉瘤)的轉(zhuǎn)化DNA[31]。[32]10年之后,隨著重組DNA技術(shù)(分子克隆)和DNA測序技術(shù)的發(fā)展,人們才最終測定了src的基因序列與蛋白產(chǎn)物。在今天看來,這一過程緩慢到讓人難以想象。借助分子克隆技術(shù),研究人員可以將含有外源基因的DNA從相應(yīng)來源轉(zhuǎn)移到細菌或哺乳動物細胞內(nèi)。20世紀70年代中期,我們才開發(fā)出分子克隆技術(shù),并將之投入使用(見第四章)。
要了解src等致癌基因產(chǎn)物的生化性質(zhì)以及癌癥背后的奧秘,我們需要利用許多煩瑣的方法來分離相應(yīng)基因編碼的蛋白質(zhì),再對它們進行研究。1977年,若昂·布呂熱和雷·埃里克森首次成功使用RSV免疫兔的抗RSV血清捕獲蛋白質(zhì),也就是src的基因產(chǎn)物。[33]隨后,丹佛埃里克森研究組[34]成員、加州大學(xué)舊金山分校的邁克爾·畢曉普、哈羅德·瓦慕斯和其他同事[35]以及索爾克研究所的托尼·亨特[36]等人進行的生化實驗表明,src基因編碼了一種蛋白質(zhì)酪氨酸激酶。
畢曉普和瓦慕斯的一個開創(chuàng)性發(fā)現(xiàn)解釋了病毒致癌基因的起源。當時,他們提出了一個假說:病毒中的致癌基因來源于正常細胞中負責(zé)生長調(diào)控的基因。我們是否有可能在人類或其他物種中找到與src具有親緣關(guān)系的蛋白(細胞同系物)?當病毒攜帶這些基因時,什么原因讓它們具有致癌性?通過放射性標記的DNA探針與分子雜交試驗,畢曉普和瓦慕斯發(fā)現(xiàn)幾種禽類的基因組中也包含src樣基因,它們能夠與病毒DNA復(fù)合或形成雜交體(注:勞斯肉瘤病毒具有RNA基因組,因此實驗前要先使用逆轉(zhuǎn)錄酶,即RNA依賴性的DNA聚合酶,將src RNA轉(zhuǎn)化為DNA)。[37]
20世紀80年代初,在DNA測序方法出現(xiàn)之后,畢曉普和瓦慕斯測定了病毒(包括勞斯肉瘤病毒及其近親禽類肉瘤病毒)、幾種禽類以及人類基因組中的src基因序列。[38][39]DNA序列分析證明,病毒致癌基因的確起源于細胞內(nèi)的“原癌基因”。到1989年畢曉普和瓦慕斯因其在逆轉(zhuǎn)錄病毒和致癌基因方面的工作獲得諾貝爾獎時,分子技術(shù)和DNA測序已經(jīng)幫助我們鑒定出了超過60種原癌基因。這些基因編碼的蛋白,大多數(shù)(包括src)的正常功能是通過信號通路或調(diào)控回路控制細胞生長與分化。對DNA序列的研究表明,癌癥確實是一種由基因上的改變(突變)引起的遺傳病。這種突變有可能是DNA堿基的增加或減少(插入或刪除),也有可能是一種被稱作點突變的單核苷酸改變(也稱作單核苷酸多態(tài)性或單核苷酸變異),最終導(dǎo)致蛋白氨基酸序列發(fā)生了變化。借助DNA測序技術(shù),我們可以方便地找到這些導(dǎo)致遺傳“損傷”的突變。而像src這種基因,我們并未在人類癌癥樣本中發(fā)現(xiàn)它的突變形式;事實上,多份src基因?qū)е碌幕虍惓U增或信號蛋白的過度表達是它導(dǎo)致癌癥的原因。
接著,2000年,歷經(jīng)了一代人的研究之后,羅伯特·溫伯格和道格拉斯·哈納漢從過去數(shù)十年的觀察和實驗(包括對src基因的研究)中總結(jié)出了“癌癥標志物”的概念,并獲得了研究領(lǐng)域和醫(yī)學(xué)界的廣泛認可。[40]其中,最著名的兩類標志物是“存在激活的致癌基因”與“抑癌基因的失活或缺失”。有證據(jù)表明,治療各種癌癥的一種有效手段是使用“靶向治療”研制專門遏制致癌基因的藥物。20世紀80年代發(fā)現(xiàn)的致癌基因BCR-ABL為這一領(lǐng)域帶來了一項重大突破。[41]BCR-ABL是染色體易位導(dǎo)致的基因融合產(chǎn)物,也是慢性髓細胞性白血病的元兇。慢性髓細胞性白血病是一種罕見血癌,它的兩大誘因是細胞生長失控和細胞死亡信號通路(細胞凋亡)失控——它們也是兩種癌癥標志物。通過篩選靶向ABL癌基因的蛋白質(zhì)酪氨酸激酶抑制劑,瑞士制藥巨頭諾華公司發(fā)現(xiàn)了化合物甲磺酸伊馬替尼。[42]后續(xù)研究發(fā)現(xiàn),這一小分子也對其他蛋白質(zhì)酪氨酸激酶(c-KIT和PDGFRα)具有活性。對于由這些基因中的突變引起的癌癥,甲磺酸伊馬替尼可能會延緩疾病的發(fā)展。2001年,諾華公司的甲磺酸伊馬替尼成為首個獲得美國食品藥品監(jiān)督管理局批準的慢性髓細胞性白血病精準治療藥物。這一藥物在美國的商品名是格列衛(wèi)。[43]
格列衛(wèi)的出現(xiàn)將慢性髓細胞性白血病從一種致死疾病轉(zhuǎn)變?yōu)榱寺约膊 _@一成功極大地推進了其他具有分子特異性的藥物的研究與開發(fā)。在格列衛(wèi)被推向市場之際,第一個人類基因組序列測序結(jié)果于2001年問世(初稿于2001年發(fā)表;完整版于2003年發(fā)表),為藥物捕手們提供了大量潛在的新藥靶點。然而,人類基因組信息本身對癌癥研究幫助有限。如果沒有基因組學(xué)方法為我們揭示基因功能,增進我們對腫瘤生長調(diào)控過程的理解,癌癥研究就會停滯不前。在這一階段,科研人員仍然專注于單個基因,臨床醫(yī)生繼續(xù)通過解剖學(xué)手段觀察腫瘤(例如乳腺癌、肺癌或肝癌),沒有人關(guān)注癌癥間共有的潛在分子特征。
基因組學(xué)后來居上,引領(lǐng)癌癥研究進入了更加定量化與計算化的研究階段。2008年,大規(guī)模并行的二代測序技術(shù)已然成熟,華盛頓大學(xué)圣路易斯分校基因組中心的伊萊恩·馬迪斯和理查德·威爾遜在一項提交給美國國立衛(wèi)生研究院的項目基金申請中提出對整個癌癥基因組進行測序。相比于在給定癌癥類型中針對單個基因進行假說檢驗,全面腫瘤測序?qū)槲覀兲峁┮环N客觀的、沒有預(yù)設(shè)立場的無偏方法,用于揭示癌癥中的分子變化。也可以說,這一過程是在尋找體細胞突變——在個體出生后發(fā)生于易患癌組織中的遺傳變化。馬迪斯和威爾遜認為,雖然正常人體基因組序列數(shù)據(jù)對癌癥研究幫助不大,但既然自動化DNA測序技術(shù)和信息學(xué)工具已經(jīng)就位,那么他們可以嘗試開發(fā)一種新的研究方法,即腫瘤/正常細胞測序。基金審批人員卻有著不同的看法。他們強烈建議,與其耗資100萬美元進行大規(guī)模腫瘤DNA測序,不如繼續(xù)采取過去20年的傳統(tǒng)方法,對單個基因進行深入研究。
盡管基金申請并未獲得批準,但馬迪斯、威爾遜和基因組中心的同事們?nèi)詧猿掷靡蛎兰{公司最新的基因分析儀器對一位急性髓系白血病患者進行了DNA測序。這篇具有歷史意義的論文發(fā)表在2008年的英國《自然》雜志上。首先,二代測序技術(shù)以驚人的準確性識別出了患者腫瘤組織與正常皮膚細胞基因組間的3 813 205個單核苷酸多態(tài)性位點。接著,借助計算分析工具,研究人員排除了自然發(fā)生的和非腫瘤特異的單核苷酸多態(tài)性位點,最終確定了8個獲得性體細胞突變,并對每一個突變位點進行了獨立驗證。他們在論文摘要的結(jié)尾重重駁斥了短視的基金審批人員:“通過研究,我們將全基因組測序技術(shù)發(fā)展成了一種無偏的癌癥起始基因發(fā)現(xiàn)方法。這些在過往研究中被忽略的基因也可能成為靶向療法的靶點。”[44]
在接下來的10年間,癌癥基因組圖譜[45]、國際癌癥基因組聯(lián)盟[46]等組織對數(shù)以千計的癌癥基因組進行了測序。與此同時,癌癥基因組研究催生出了一類新的產(chǎn)業(yè):利用已知DNA突變、癌癥特異性基因表達譜的分子特征以及細胞表面抗原進行癌癥診斷。基因組測序(包括全基因組測序、全外顯子組測序和靶向測序)帶來了令人難以想象的數(shù)據(jù)資源,包括ClinVar、dbGAP和COSMIC(癌癥體細胞突變目錄)[47][48]在內(nèi)的許多數(shù)據(jù)庫因此興起。COSMIC始建于2004年,它是一個基于文獻的科學(xué)數(shù)據(jù)庫,旨在搜集所有已發(fā)表的腫瘤樣本和突變數(shù)據(jù)。第一年,通過桑格研究所的相關(guān)項目,COSMIC整理收錄了66 634個腫瘤樣本和10 647個相關(guān)突變。到2018年,COSMIC的數(shù)據(jù)量大幅增長,達到了140萬個樣本和600萬個突變。通過分析龐大的數(shù)據(jù)樣本,研究人員發(fā)現(xiàn)223個關(guān)鍵癌癥基因驅(qū)動了幾乎全部200種人類癌癥。[49]
與這些研究進展矛盾的是,對于大部分癌癥,我們?nèi)匀粵]有辦法對相關(guān)基因或信號通路進行針對性治療。制藥業(yè)在癌癥新療法研發(fā)方面取得的成果非常有限,全球大多數(shù)癌癥藥物發(fā)現(xiàn)計劃的成功率僅徘徊在10%左右(如果我們計算流失率,那么臨床試驗階段的失敗率高達90%)。制藥業(yè)高管一致認為,要想提升候選藥物在臨床管線中的通過率,為面臨嚴酷化療和手術(shù)的無數(shù)癌癥患者增加生存機會,腫瘤藥物研發(fā)還需要解決幾個關(guān)鍵問題。在人們看到了免疫療法在數(shù)種癌癥中展現(xiàn)出的奇跡般的效果后,大量投資就會立刻涌入免疫療法與嵌合抗原受體T細胞免疫治療領(lǐng)域。與此同時,經(jīng)典的基于靶點的小分子藥物設(shè)計則亟待由功能基因組學(xué)提供新的思路。為什么候選藥物沒有實現(xiàn)預(yù)想的治療效果?為了回答這個問題,我們需要首先確認藥物針對的靶點蛋白(即從腫瘤中發(fā)現(xiàn)的致癌驅(qū)動因子)是否為理想的目標,并思考如何才能提升抗癌藥物的臨床療效。例如,大多數(shù)藥物篩選試驗是在癌細胞系中進行的,我們是否理解這些細胞模型在分子層面的特征?我們應(yīng)該像分析原發(fā)性腫瘤一樣對這些細胞系進行全面的分子特征分析。另外,人們還發(fā)現(xiàn),雖然有些藥物無法觀測到積極的臨床統(tǒng)計效果,但這些藥物確實能夠結(jié)合靶點蛋白,并且特定的基因突變譜更容易響應(yīng)這些藥物。這就是個性化精準醫(yī)療的雛形——“在正確的時間為正確的患者提供正確的藥物”,以獲得更好的結(jié)果。人們期待,通過進一步洞察基因組、表觀基因組和臨床數(shù)據(jù),能夠更好地判斷患者對特定藥物的響應(yīng),從而促使抗癌化合物研發(fā)走向更加量身定制的方向。
一支來自英國的頂尖科學(xué)團隊率先做出了嘗試。他們利用數(shù)據(jù)驅(qū)動的方法整合了功能基因組分析與藥物篩選過程,并借助機器學(xué)習(xí)挖掘出了能夠預(yù)測藥物反應(yīng)的癌細胞特征。[50]這個由馬修·加尼特研究組開發(fā)的框架高度依賴于定量方法。他們借助計算機算法從11 289個人類患者腫瘤樣本的基因組數(shù)據(jù)中找到了數(shù)千個具有臨床意義的癌癥功能事件。這些事件大致可以分為突變、擴增和缺失,以及基因啟動子高甲基化——這是癌癥表觀遺傳修飾改變的重要特征。利用這些多組學(xué)數(shù)據(jù)與基因表達譜分析(轉(zhuǎn)錄物組學(xué)),加尼特研究組評估了超過1 000種源自腫瘤的癌細胞系,建立了這些細胞系的狀態(tài)矩陣,確定了基于多組學(xué)的“脫水”版癌癥功能事件。通過對比原發(fā)性腫瘤與細胞系,加尼特研究組發(fā)現(xiàn)了大量跨細胞系存在的重要癌癥相關(guān)突變,這為我們利用這些分子特征明晰的體外模型進行藥物敏感性篩選奠定了基礎(chǔ)。
接下來,研究人員通過一項大規(guī)模藥物基因組學(xué)分析實驗測定了265種化合物對不同細胞系的細胞活力的影響,從超過20萬條劑量—反應(yīng)曲線中產(chǎn)生了超過100萬個數(shù)據(jù)點(每個化合物對應(yīng)5個數(shù)據(jù)點)。研究人員將所有實驗得到的數(shù)據(jù)(IC50值)輸入了基于統(tǒng)計學(xué)和機器學(xué)習(xí)的混合定量框架,最終輸出結(jié)果便可以提示我們哪種藥物更適用于哪種癌癥,以及什么樣的數(shù)據(jù)類型對于藥物敏感性具有最佳預(yù)測效果。藥理學(xué)模型揭示了大量具有癌癥特異性的藥物—基因組相互作用,而機器學(xué)習(xí)模型表明,基因組特征(癌癥驅(qū)動突變和基因擴增)最適合用于敏感性預(yù)測。對某些特定類型的癌癥而言,DNA甲基化數(shù)據(jù)相較于基因表達數(shù)據(jù)能夠進一步提升模型表現(xiàn)。藥理學(xué)模型為我們提供了可以用于臨床測試的潛在新療法,具有直接的臨床意義;而機器學(xué)習(xí)模型告訴我們,癌癥臨床診斷應(yīng)側(cè)重于檢測潛在的DNA改變,而非其他腫瘤分子特征(如DNA甲基化與基因表達)。如果要研究單個基因如何影響癌癥表型或藥物反應(yīng),基于CRISPR-Cas9的基因組尺度篩選是更加有效的方式。[51]這種分子遺傳學(xué)方法是另一種全面客觀、沒有預(yù)設(shè)立場的無偏研究手段。借助CRISPR-Cas9技術(shù),我們可以用極其精確的方式激活、突變或沉默(敲除)單個基因。當早期研究聚焦于特定基因和通路時,這種基因組水平的篩選能夠檢驗基因組中的每一個基因,以及基因組中可能存在的其他功能性元件。通過在細胞系模型中利用CRISPR系統(tǒng)進行功能失去型篩選,我們可以快速發(fā)現(xiàn)那些能夠促進癌癥轉(zhuǎn)化、維持腫瘤性質(zhì)的關(guān)鍵藥物靶點蛋白和細胞通路,這讓CRISPR技術(shù)變得頗具影響力。而算法則用于處理實驗中產(chǎn)生的信息并確定癌癥藥物靶點的優(yōu)先級。
類似的研究思路使得計算癌癥研究逐漸成為熱點。在一項研究中,貝漢及其同事設(shè)計了基因組水平的CRISPR-Cas9篩選實驗,通過細胞活力測試找出了對癌細胞存活至關(guān)重要的基因。[52]他們對324個癌細胞系中的18 006個基因進行了定向敲除,并通過超過900組實驗測定了每個基因的“適應(yīng)值”(這里的適應(yīng)值與癌細胞存活能力相關(guān))。最終,每個細胞系有1 459個處于中位的基因進行了適應(yīng)值測量。這種體量的結(jié)果已經(jīng)大大超過了傳統(tǒng)研究方法的能力極限。因此,貝漢等人設(shè)計了一種叫作ADaM的計算機方法,對所有測定了適應(yīng)值的基因進行了分類。如果一個基因在全部13種癌癥類型(比如乳腺癌、胰腺癌、中樞神經(jīng)系統(tǒng)腫瘤)中的12種里都被指定為低適應(yīng)值基因,那么它就被稱作“泛癌核心低適應(yīng)值基因”,而其他基因則是“癌癥特異型低適應(yīng)值基因”。研究人員一共找到了533個泛癌核心低適應(yīng)值基因。其中的399個是早前報道過的關(guān)鍵基因,還有123個是新發(fā)現(xiàn)的關(guān)鍵基因,它們參與了癌細胞的必需功能。而在癌癥特異型低適應(yīng)值基因組中,研究人員又發(fā)現(xiàn)了866個關(guān)鍵基因。后續(xù)分析從這兩組基因中一共找出了628個可能的新藥物靶點,其中74%的靶點僅針對某一種或兩種特定癌癥,這是非常了不起的分析結(jié)果。這項由計算驅(qū)動的研究,無論是規(guī)模還是成果都令人贊嘆不已。它給癌癥藥物設(shè)計這一靶點貧乏的領(lǐng)域提供了進一步探索的工具及與治療方法相關(guān)的假說,以利用體外或體內(nèi)癌癥模型進行測試與檢驗。
結(jié)構(gòu)生物學(xué)與基因組學(xué)
數(shù)據(jù)科學(xué)和計算方法是結(jié)構(gòu)生物學(xué)的驅(qū)動力。要想更加高效合理地搜尋關(guān)鍵靶點蛋白或改變復(fù)雜細胞通路,藥物研發(fā)人員就需要依賴基因組學(xué)與結(jié)構(gòu)生物學(xué)共同提供的關(guān)鍵數(shù)據(jù)。在身在北京的中國科學(xué)家上傳新型冠狀病毒基因組數(shù)據(jù)之后,數(shù)小時內(nèi),世界各地的研究人員就可以通過云計算工具分析序列、設(shè)計實驗,并在實驗室合成相關(guān)基因和蛋白質(zhì)來進行進一步研究了。
當科學(xué)家談?wù)摰鞍踪|(zhì)結(jié)構(gòu)時,他們通常指的是二級或三級結(jié)構(gòu)——它們都是蛋白質(zhì)在自然界中折疊的結(jié)果。所有蛋白質(zhì)均由一串氨基酸類化合物組成,每種氨基酸都屬于20種通用氨基酸中的一種。每種蛋白質(zhì)獨特的三維結(jié)構(gòu)決定了它的生物學(xué)功能。蛋白質(zhì)一級結(jié)構(gòu)只是氨基酸的有序排列,二級結(jié)構(gòu)則由一級序列的模式?jīng)Q定。一級結(jié)構(gòu)中的重復(fù)序列就是一種常見模式,它可以形成螺旋,或各樣片層形式的二級結(jié)構(gòu)。
要獲得三維結(jié)構(gòu)數(shù)據(jù),我們必須找到對應(yīng)基因并生產(chǎn)相關(guān)蛋白質(zhì)。首先,我們利用標準分子生物學(xué)方法擴增并克隆基因片段。然后,我們將克隆材料插入細菌基因組(有時也用酵母或其他細胞)并進行菌落培養(yǎng),這些菌落就會生產(chǎn)重組蛋白。純化并冷凍保存的蛋白或送入冷凍電子顯微鏡,或在結(jié)晶后通過X射線晶體學(xué)方法進行結(jié)構(gòu)觀察。
2020年還沒過去幾個月,研究人員就已經(jīng)從基因組序列中解析出了新型冠狀病毒3個重要蛋白的原子尺度三維結(jié)構(gòu)。這3個蛋白是制藥和疫苗設(shè)計的關(guān)鍵靶點:刺突糖蛋白、主蛋白酶和依賴于RNA的RNA聚合酶。盡管新型冠狀病毒基因組是迄今為止人們發(fā)現(xiàn)的最大的RNA病毒基因組之一,但它一共僅編碼不到30種蛋白質(zhì)。相比之下,大腸桿菌(存在于人體微生物組中)這樣的原核生物基因組擁有大約5 000個基因,而蒼蠅、馬和人類等生物體包含1.5萬~3萬個蛋白質(zhì)編碼基因。
在利用冷凍電子顯微鏡技術(shù)獲取并處理了7 994幅顯微影片后,我們獲得了分辨率高達2.9埃(水分子的直徑是2.75埃)的新型冠狀病毒依賴于RNA的RNA聚合酶復(fù)合物(包括nsp7蛋白和nsp8蛋白)圖像。[53]這一結(jié)構(gòu)基礎(chǔ)不僅幫助我們理解了瑞德西韋這種抑制劑分子與復(fù)合物結(jié)合的原理,還啟發(fā)我們進行了更多候選抗病毒藥物的設(shè)計。刺突糖蛋白是病毒結(jié)合宿主細胞表面受體ACE2所必需的病毒表面蛋白。[54]類似地,刺突糖蛋白的三聚體構(gòu)象結(jié)構(gòu)(見圖1—2)也為我們帶來了藥物設(shè)計的靈感。還有主蛋白酶結(jié)構(gòu)——一種蛋白水解加工酶,它的作用是從較長的病毒多蛋白序列中切割和釋放成熟蛋白片段,對于病毒不可或缺。[55]在未來幾個月里,為了推動新冠藥物研發(fā),我們將會解析出更多高分辨率的藥物結(jié)合蛋白結(jié)構(gòu)域以及抗原抗體復(fù)合物結(jié)構(gòu)。

圖1—2 新型冠狀病毒刺突糖蛋白結(jié)構(gòu)[56]
如何利用純計算的方法,從線性一維序列中預(yù)測出蛋白質(zhì)三維結(jié)構(gòu),是結(jié)構(gòu)生物學(xué)的圣杯級問題。在我們能夠利用一個服務(wù)器集群中的數(shù)千個計算節(jié)點來運行蛋白質(zhì)折疊算法之前,人們便已經(jīng)進行了一系列嘗試。例如,華盛頓大學(xué)的Folding@home項目。這一項目起始于2000年,由斯坦福大學(xué)維賈伊·潘德實驗室啟動。他們以招募志愿者的方式,利用志愿者個人電腦里的CPU(中央處理器)來進行分布式計算。[57]在過去的20多年里,潘德實驗室發(fā)表了上百篇論文,也利用新型冠狀病毒基因組預(yù)測了大量高質(zhì)量結(jié)構(gòu)。DeepMind公司(2015年被谷歌收購)的團隊則搭建了AlphaFold模型,首次發(fā)布了使用深度學(xué)習(xí)模型預(yù)測蛋白質(zhì)結(jié)構(gòu)的工作成果。[58]這一成果最令人贊嘆的一點是,他們的算法可以不借助同源模板對一級結(jié)構(gòu)建模。AlphaFold的核心是卷積神經(jīng)網(wǎng)絡(luò),它以蛋白質(zhì)數(shù)據(jù)庫中的結(jié)構(gòu)作為訓(xùn)練數(shù)據(jù),學(xué)習(xí)預(yù)測蛋白質(zhì)殘基對的碳原子之間的距離。
DeepMind在網(wǎng)站上宣稱,“無模板”或從頭計算的自由建模方法可以預(yù)測新型冠狀病毒的部分蛋白結(jié)構(gòu)。[59]大量計算研究組正在通過一系列創(chuàng)新方法嘗試更加準確的三維結(jié)構(gòu)預(yù)測,DeepMind和Folding@home只是其中的縮影。每年,CASP(國際最知名的蛋白質(zhì)結(jié)構(gòu)建模預(yù)測比賽)都會吸引50~100支團隊參與。在自由建模這個類別中,AlphaFold在CASP13上的表現(xiàn)遠超大眾預(yù)期,在每年的進展曲線上留下了一個陡峭的轉(zhuǎn)折。隨著疫苗和治療開發(fā)走上制藥領(lǐng)域的中心舞臺,計算機生成的分子結(jié)構(gòu)或?qū)θ蚬残l(wèi)生產(chǎn)生重大影響。