pg电子船长是什么游戏

書名：人工智能與計算生物的未來
作者名： (美)布賴恩·希爾布什
本章字數： 4324字
更新時間： 2025-05-07 12:11:33

人類基因組測序

其實，生物學真正需要的是一個龐大的信息庫——對幾種關鍵生物的遺傳結構的詳細了解。其中包括人類，原因很明顯。

——羅伯特·辛斯海默

圣克魯斯工作室，1985年5月

1939年，在著名科學家阿爾伯特·愛因斯坦向富蘭克林·羅斯福送達一封信件后，曼哈頓計劃啟動了。這封信件的內容現在已經盡人皆知：根據愛因斯坦對歐洲各地科學進展的了解，他認為我們已經具備了制造一種強力炸彈的技術可行性。通過這一絕密計劃，人們實現了兩種核鏈式反應的途徑。在第二次世界大戰末期，它們被部署在原子彈里，投放到了長崎和廣島。后續美國能源部領導發起的所有“大科學”項目都以曼哈頓計劃的組織形式與工程模式為典范。

隨著生物技術的誕生和人類遺傳學研究的進步，從1985年左右開始，知名生物學家們和能源部健康與環境研究辦公室的管理人員就在各種會議上提出并討論了對整個人類基因組進行測序的提議。[60]，[61]這一項目被美國能源部稱為人類基因組計劃，它旨在為生物學和醫學研究提供寶貴的信息資源，展示美國在科學領域的競爭力。同時，作為美國能源部評估核武器與核能源健康風險的任務的一部分，人類基因組參考序列可以成為一個理想的選擇，幫助能源部評估輻射和能量透射造成的遺傳損傷。但對生物學界來說，這是一個極其大膽的目標。與曼哈頓計劃不同的是，這個項目的每一階段都沒有明確的技術路線。

在1985年的圣克魯斯會議上，研討會與會者明確了幾項必須滿足的要求。其中，至少3項對人類基因組測序至關重要的技術仍然不夠成熟。首先，我們需要分子技術來構建基因組的物理和遺傳圖譜。戴維·博特斯坦首創的遺傳定位技術為我們帶來了曙光。當時，這一技術正在逐漸成熟，并可能用于定位人類基因組中的致病基因。[62]另外兩個實驗室正在同時進行基因的物理定位工作：華盛頓大學的梅納德·奧爾森團隊在研究酵母基因組，而劍橋大學的約翰·薩爾斯頓關注線蟲研究。這兩項工作提供了人類基因組物理定位的技術可行性，但它們的方法對大型基因組來說可能過于煩瑣。[63][64]奧爾森開發出了最早一代計算算法，從限制酶處理后的DNA產物中恢復基因定位信息。

自動DNA測序技術也是必不可少的。但在當時，只有一個實驗室實現了這項技術。1985年，第一臺原型DNA測序儀剛剛在帕薩迪納的加州理工學院的勒羅伊·胡德團隊中建成。[65]與測序相關的問題是，大家并不清楚我們需要什么樣的計算方法來輔助測序與重構基因組，也不知道如何處理、儲存和分析這些信息。第一個核苷酸序列匹配與比對算法慢得出奇，根本沒有辦法擴展到高通量數據分析的場景。此時，距離我們發明那些關鍵算法——測序質量評估、將測序片段組裝為基因組，還有很長的一段時間。更要命的是，人們甚至不知道到底應該選擇什么樣的測序方式，也不清楚實現基因組測序計劃需要解決什么樣的計算問題。在1985年，測序完成的最大基因組是EB病毒[66]，一共有1.72×105個堿基。人類基因組大約有3×109個堿基。打個比方，這就好像我們的目標是抵達距地球9 000萬英里[67]的太陽。當時，我們已經通過商業飛行器完成了舊金山到巴黎的5 500英里航程。為了完成剩下的旅程，我們必須打造一艘航天器。對懷疑論者而言，實現這一生物學領域的“大科學”項目似乎是白日做夢。

在1985年舉行的圣克魯斯會議上，12位專家打成了平手：一半贊成，一半反對。麻省理工學院的遺傳學家博特斯坦是人類基因組測序項目的堅定反對者。博特斯坦以及其他科學家擔心這樣的大型科學項目會影響那些小型研究組繼續從美國國立衛生研究院獲取RO1經費。另一些來自科學界和國會的反對者則對項目預算持有異議。據初步估計，這一項目將在未來的15年間花費10億~30億美元。除此之外，人們對科學的政治化、項目如何組織以及誰來決定項目的科學重要性等問題均有爭議。一些研究人員認為，獲取染色體全部DNA序列并沒有什么意義，他們更加關心外顯子中包含的蛋白質編碼序列。但我們無法輕易從真核基因的基因組DNA中分辨出內含子或外顯子。由于當時的基因組項目并未包含基因發現算法的開發，我們只能通過信使RNA轉錄物分析獲取編碼序列信息。

與之相反的是，分子生物學家和人類遺傳學家對人類基因組項目熱情高漲。在他們的宏偉愿景里，全面解讀我們自己這種物種的基因組序列，將會極大地幫助我們理解人類本質、實現醫學突破。當時盛行的還原論的擁躉認為，基因組序列信息將為我們揭示每一個基因的奧秘，這將是通向所有生物學秘密的鑰匙。從遺傳學家的角度來看，基因組研究將極大地推動醫學發展。他們期冀測序與遺傳變異名錄的建立能夠揭露約3 000種已知遺傳疾病的病因。后來，人們意識到這種觀點過于理想化與簡單化。例如，對精神分裂癥而言，盡管我們掌握了豐富的家族史和病史信息，以及精神分裂癥患者的已知基因變化，但我們仍對這種疾病的神經病理學細胞基礎知之甚少，針對各種神經遞質系統的治療方法也均以失敗告終。

沃爾特·吉爾伯特是基因組計劃的狂熱支持者之一。那時，他剛剛離開渤健（屬于最早一批開發基于重組DNA技術療法的生物科技公司），回到哈佛大學。但是，吉爾伯特不相信政府的努力會取得成功，在詹姆斯·沃森領導的探索人類基因組計劃的美國國家科學院委員會里，吉爾伯特一直是刺頭一樣的存在。[68]后來，吉爾伯特退出了這一委員會，開始做出將基因組測序私有化的努力——為他新孵化的靈感，一家名為基因組公司的初創公司尋找風險投資。[69]這是一個頗為大膽的舉動。吉爾伯特第一次管理生物技術公司的經歷并不成功，他在1984年被迫辭去了渤健首席執行官的職務。此前兩年，渤健一直處于虧損狀態，考慮到與同類型優質公司，尤其是舊金山的基因泰克公司的競爭，情緒緊張的投資者想要一位商業領導經驗更加豐富的管理者。但拋開商業經歷不談，吉爾伯特是一位才華橫溢、富有創新精神的科學家，自20世紀60年代初以來，他就為分子生物學領域貢獻了諸多基礎性發現。1980年，吉爾伯特因開發DNA測序技術與弗雷德里克·桑格共同獲得諾貝爾化學獎。

吉爾伯特熱衷于推進他自己的人類基因組測序計劃，并將基因序列信息轉化為商業利潤。這種想法引起了許多人的擔憂，甚至引發了倫理問題。一家私營企業怎么可以擁有基因組信息？如果你擁有一個新測序的DNA片段，那么其是否會被視作一種新穎的“物質組成”，并能夠申請專利？對風投資本家來說，他們無法想象其中可以盈利的商業模式，也不知如何評估基因數據市場的規模。最終，由于1987年10月的股市崩盤，基因組公司從未實現騰飛。然而，10年之后，基因組測序領域的同人們震驚地發現，在人類基因組測序計劃逐步推進的時候，生物學家與生物技術企業家克雷格·文特爾成立了一家私人公司——塞雷拉基因組公司，其與政府資助的項目展開了競爭。文特爾的目標是通過一個堿基接一個堿基的測序，實現基因組信息的商業化。

盡管美國國立衛生研究院支持的學術界整體上對人類基因組測序項目興致不高，國會卻非常看好這一瘋狂的想法。1988年，國會向人類基因組計劃撥款，這筆款項流向了美國能源部與美國國立衛生研究院，雙方同意合作推動項目進行。這一計劃草案于1990年4月公布，第一個5年目標是完成相應技術的開發，第二階段則預計在2005年完成完整基因組測序，項目整個生命周期的預算估計為30億美元。美國能源部的工作將由3個具有出色技術開發經驗的國家實驗室牽頭：勞倫斯·利弗莫爾、勞倫斯·伯克利和洛斯·阿拉莫斯國家實驗室。美國國立衛生研究院則成立了一個專門的機構——人類基因組研究辦公室來監管測序項目，由沃森兼職管理。項目的另一項戰略舉措是招徠全球頂級研究中心里從事基因組測序工作的實驗室，并以國際人類基因組測序聯盟的名義推動各組織間的合作。幾年之后，美國國立衛生研究院成立了國家人類基因組研究中心，其在1992年沃森離職后由弗朗西斯·柯林斯領導。人類基因組計劃于2003年正式完成，估計耗資27億美元——提前了2年，節約了3億美元預算。

自2001年人類基因組工作草圖發表以來，人類基因組計劃已經成了載入史冊的巨大成就，每一步突破都得到了詳盡記錄。[70][71]不管作為政府項目還是私人項目，我們能夠完成這一不可能的挑戰，離不開最初對它的工程化設計。美國能源部就是為了管理這樣高預算的大型技術開發項目而存在的，其涉及的項目從望遠鏡到高能物理設備，不一而足。人類基因組計劃的推進也伴隨著DNA測序儀器、DNA序列組裝策略和基因組中心之間項目數據協調等領域源源不斷的技術創新。對包含30億個堿基對的人類基因組進行測序，這一愿景驅使測序通量指數級提升，測序成本大幅降低，并同時推動了許多其他重要的基因組學項目。

在人類基因組項目的初期，人們沒有意識到，如果一直采取最初的方式，對嵌入大量克隆載體的重疊、連續DNA片段進行測序，我們就無法在10年之內完成測序。直到全基因組鳥槍法出現，完成基因組測序才成了可能。全基因組鳥槍法測序的概念于1981年提出，后續由基因組研究所的克雷格·文特爾實現了大規模開發。[72][73]1995年，基因組研究所宣布了一項開創性的研究成果，他們利用鳥槍法完成了流感嗜血桿菌的測序，這也標志著DNA測序能力的騰飛（見表1—2）。從1965年測定第一個DNA分子，到完成第一個人類基因組測序，隨著時間的推移，推動研究取得進展的力量由化學突破轉變為設備發展，最終，大規模并行測序和與之相匹配的高性能計算幫我們實現了目標。

表1—2 DNA測序的里程碑事件——從單基因到宏基因組

在人類基因組計劃的整個生命周期中，生物信息學和計算生物學技術得以誕生并發展。在基因組測序接近完成的時候，信息技術的重要性越發凸顯——DNA序列組裝需要大量的CPU與內存。人類基因組計劃建立了一個全新的生物學研究框架，為生物學研究帶來了影響深遠的益處。從此，科學家不再需要在實驗之前就選定基因、變異或細胞機制作為假設驗證的對象，而是可以客觀全面地從基因組的角度看待問題。從人類學到動物學，人類參考基因組序列的完成為我們打開了跨越不同領域的發現之門。

現在看來，信息革命帶來的強大能力是高科技領域賦予生物學的重要禮物。推動人類基因組計劃的幾位首席科學家在2003年回憶了計算在項目中的重要性。戴維·博特斯坦說，項目完成過程中最令人驚訝的一點是，如果沒有計算機，就不會有人類基因組計劃。梅納德·奧爾森說：“在這之前，整個計算基礎體系都不存在。”[74]對加州大學圣克魯斯分校的戴維·豪斯勒來說，他的同事吉姆·肯特的工作直接反映了計算的重要性。吉姆·肯特負責最終的基因組組裝，是基因組組裝軟件和基因組瀏覽器軟件的主要開發人員。[75]，[76]人類基因組計劃的宏偉壯麗激發了豪斯勒心中的詩意：

我們意識到——我們有一種走進歷史的感覺，就是這樣！這是世界——整個世界第一次看到它世代繼承的基因遺產。人類是38億年進化的產物。這就是我們的祖先歷經無數次偉大勝利和沉重失敗，為我們精心雕琢出的令人贊嘆的信息序列。這是我們第一次閱讀它。我們真的在閱讀祖先傳承下來的有關生命的密碼。[77]

官术网_书友最值得收藏!

人工智能與計算生物的未來

人類基因組測序