官术网_书友最值得收藏!

  • 這就是ChatGPT
  • (美)斯蒂芬·沃爾弗拉姆
  • 11字
  • 2024-01-15 14:12:21

導讀序 奇事·奇人·奇書

本書的主題——ChatGPT可謂奇事。

從2022年11月發布到現在半年多的時間,ChatGPT所引起的關注、產生的影響,可能已經超越了信息技術歷史上的幾乎所有熱點。

它的用戶數2天達到100萬,2個月達到1億,打破了TikTok之前的紀錄。而在2023年5月它上架蘋果應用商店后,也毫無懸念地沖上了免費App榜榜首。

許多人平生第一次接觸如此高智能、知錯能改的對話系統。雖然它很多時候會非常自信、“一本正經地胡說八道”,甚至連簡單的加減法也算不對,但如果你提示它錯了,或者讓它一步步地來,它就會很“靈”地變得非常靠譜,有條不紊地列出做事情的步驟,然后得出正確答案。對于一些復雜的任務,你正等著看它的笑話呢,它卻會不緊不慢地給你言之成理的回答,讓你大吃一驚。

眾多業界專家也被它征服:原本不看好它甚至在2019年微軟投資OpenAI的決策中投了反對票的蓋茨,現在將ChatGPT與PC、互聯網等相提并論;英偉達CEO黃仁勛稱它帶來了AI的“iPhone時刻”;OpenAI的山姆·阿爾特曼(Sam Altman)將它比作印刷機;谷歌CEO孫達爾·皮柴(Sundar Pichai)說它是“火和電”……這些說法都與騰訊創始人馬化騰認為ChatGPT“幾百年不遇”的觀點不謀而合,總之都是說它開啟了新時代。阿里巴巴CEO張勇的看法是:“所有行業、應用、軟件、服務,都值得基于大模型能力重做一遍。”以馬斯克為代表的很多專家更是因為ChatGPT的突破性能力可能對人類產生威脅,呼吁應該暫停強大AI模型的開發。

在剛剛結束的2023智源大會上,山姆·阿爾特曼很自信地說AGI(artificial general intelligence,通用人工智能)很可能在十年之內到來,需要全球合作解決由此帶來的各種問題。而因為共同推動深度學習從邊緣到舞臺中央而獲得圖靈獎的三位科學家,意見卻明顯不同:

·楊立昆(Yann LeCun)明確表示GPT代表的自回歸大模型存在本質缺陷,需要圍繞世界模型另尋新路,所以他對AI的威脅并不擔心;

·約書亞·本吉奧(Yoshua Bengio)雖然也不認同單靠GPT路線就能通向AGI(他看好將貝葉斯推理與神經網絡結合),但承認大模型存在巨大潛力,從第一性原理來看也沒有明顯的天花板,因此他在呼吁暫停AI開發的公開信上簽了字;

·壓軸演講的杰弗里·辛頓(Geoffrey Hinton)顯然同意自己的弟子伊爾亞·蘇茨克維(Ilya Sutskever)提出的“大模型能學到真實世界的壓縮表示”的觀點,他意識到具備反向傳播機制(通俗地說就是內置“知錯能改”機制)而且能輕易擴大規模的人工神經網絡的智能可能會很快超過人類,因此他也加入到呼吁抵御AI風險的隊伍中來。

以ChatGPT為代表的人工神經網絡的逆襲之旅,在整個科技史上也算得上跌宕起伏。它曾經在流派眾多的人工智能界內部屢受歧視和打擊。不止一位天才先驅以悲劇結束一生:1943年,沃爾特·皮茨(Walter Pitts)在與沃倫·麥卡洛克(Warren McCulloch)共同提出神經網絡的數學表示時才20歲,后來因為與導師維納失和而脫離學術界,最終因飲酒過度于46歲辭世;1958年,30歲的弗蘭克·羅森布拉特(Frank Rosenblatt)通過感知機實際實現了神經網絡,而1971年,他在43歲生日那天溺水身亡;反向傳播的主要提出者大衛·魯梅爾哈特(David Rumelhart)則正值盛年(50多歲)就罹患了罕見的不治之癥,1998年開始逐漸失智,最終在與病魔斗爭十多年后離世……

一些頂級會議以及明斯基這樣的學術巨人都曾毫不客氣地反對甚至排斥神經網絡,逼得辛頓等人不得不先后采用“關聯記憶”“并行分布式處理”“卷積網絡”“深度學習”等中性或者晦澀的術語為自己贏得一隅生存空間。

辛頓自己從20世紀70年代開始,堅守冷門方向幾十年。從英國到美國,最后立足曾經的學術邊陲加拿大,他在資金支持匱乏的情況下努力建立起一個人數不多但精英輩出的學派。

直到2012年,他的博士生伊爾亞·蘇茨克維等在ImageNet比賽中用新方法一飛沖天,深度學習才開始成為AI的顯學,并廣泛應用于各個產業。2020年,他又在OpenAI帶隊,通過千億參數的GPT-3開啟了大模型時代。

ChatGPT自己的身世也極富有戲劇性。

2015年,30歲的山姆·阿爾特曼和28歲的格雷格·布羅克曼(Greg Brockman)與馬斯克聯手,召集了30歲的蘇茨克維等多位AI頂級人才,共同創立OpenAI,希望在谷歌、Facebook等諸多巨頭之外,建立中立的AI前沿科研陣地,并且雄心勃勃地把構建與人類水平相當的人工智能作為自己的目標。那時候,媒體報道基本上都以馬斯克支持成立了一家非營利AI機構為標題,并沒有多少人看好OpenAI。甚至連蘇茨克維這樣的靈魂人物,在加入前也經歷了一番思想斗爭。

前三年,他們在強化學習、機器人、多智能體、AI安全等方面多線出擊,的確沒有取得特別有說服力的成果。以至于主要贊助人馬斯克對進展不滿意,動了要來直接管理的念頭。在被理事會拒絕后,他選擇了離開。

2019年3月,山姆·阿爾特曼開始擔任OpenAI的CEO,并在幾個月內完成了組建商業公司、獲得微軟10億美元投資等動作,為后續發展做好了準備。

在科研方面,2014年,富蘭克林·歐林工程學院本科畢業兩年的亞歷克·拉德福德(Alec Radford)加入OpenAI,開始發力。作為主要作者,他在蘇茨克維等的指導下,連續完成了PPO(2017)、GPT-1(2018)、GPT-2(2019)、Jukebox(2020)、ImageGPT(2020)、CLIP(2021)和Whisper(2022)等多項開創性工作。尤其是2017年關于情感神經元的工作,開創了“預測下一個字符”的極簡架構結合大模型、大算力、大數據的技術路線,對后續的GPT產生了關鍵影響。

GPT的發展也不是一帆風順的。

從下頁圖中可以清晰地看到,GPT-1的論文發表之后,OpenAI這種有意為之的更加簡單的Eecoder-Only架構(準確地講是帶自回歸的Encoder-Decoder架構)并沒有得到太多關注,風頭都被谷歌幾個月之后發布的BERT(Encoder-Only架構,準確地講是Encoder-非自回歸的Decoder架構)搶去了。隨后,出現了一系列 xxBERT類的很有影響的工作。

(大模型進化樹,出自Amazon楊靖鋒等2023年4月的論文“Harnessing the Power of LLMs in Practice”)

今天,BERT論文的引用數已經超過6.8萬,比GPT-1論文的不到6000仍然高了一個數量級。兩篇論文的技術路線不同,無論是學術界還是工業界,幾乎所有人當時都選擇了BERT陣營。

2019年2月發布的GPT-2將最大參數規模提升到15億級別,同時使用了更大規模、更高質量和更多樣的數據,模型開始展現很強的通用能力。當時令GPT-2登上技術社區頭條的,還不是研究本身(直到今天,它的論文引用數也只有6000出頭,遠不如BERT),而是OpenAI出于安全考慮,一開始只開源了最小的3.45億參數模型,引起軒然大波。社區對OpenAI不“Open”的印象,就始自這里。

這前后,OpenAI還做了規模對語言模型能力影響的研究,提出了“規模法則”(scaling law),確定了整個組織的主要方向:大模型。為此,OpenAI將強化學習、機器人等其他方向都砍掉了。難能可貴的是,大部分核心研發人員選擇了留下。他們改變自己的研究方向,放棄小我,集中力量做大事——很多人轉而做工程和數據等方面的工作,或者圍繞大模型重新定位自己的研究方向(比如強化學習就在GPT 3.5以及之后的演進中發揮了重大作用)。這種組織上的靈活性,也是OpenAI能成功的重要因素。

2020年,GPT-3橫空出世,NLP(natural language processing,自然語言處理)小圈子里的一些有識之士開始意識到OpenAI技術路線的巨大潛力。在中國,北京智源人工智能研究院聯合清華大學等高校推出了GLM、CPM等模型,并積極在國內學術界推廣大模型理念。從上頁關于大模型進化樹的圖中可以看到,2021年之后,GPT路線已經完全占據上風,而BERT這一“物種”的進化樹幾乎停止了。

2020年底,OpenAI的兩位副總達里奧·阿莫迪(Dario Amodei)和丹妮拉·阿莫迪(Daniela Amodei)(同時也是兄妹)帶領GPT-3和安全團隊的多位同事離開,創辦了Anthropic。達里奧·阿莫迪在OpenAI的地位非同一般:他是伊爾亞·蘇茨克維之外,技術路線圖的另一個制定者,也是GPT-2和GPT-3項目以及安全方向的總負責人。而隨他離開的,有GPT-3和規模法則論文的多位核心人員。

一年后,Anthropic發表論文“A General Language Assistant as a Laboratory for Alignment”,開始用聊天助手研究對齊問題,此后逐漸演變為Claude這個智能聊天產品。

2022年6月,論文“Emergent Abilities of Large Language Models”發布,第一作者是僅從達特茅斯學院本科畢業兩年的谷歌研究員Jason Wei(今年2月,他在谷歌的“精英跳槽潮”中去了OpenAI)。他在論文中研究了大模型的涌現能力,這類能力在小模型中不存在,只有模型規模擴大到一定量級才會出現——也就是我們熟悉的“量變會導致質變”。

當年11月中旬,本來一直在研發GPT-4的OpenAI員工收到管理層的指令:所有工作暫停,全力推出一款聊天工具,原因是有競爭。兩周后,ChatGPT誕生。這之后的事情已經載入史冊。

業界推測,OpenAI管理層應該是得知了Anthropic Claude的進展,意識到這一產品的巨大潛力,決定先下手為強。這展現出核心人員超強的戰略判斷力。要知道,即使是ChatGPT的核心研發人員也不知道為什么該產品推出后會這么火(“我爸媽終于知道我在干什么了”),他們在自己試用時完全沒有驚艷的感覺。

2023年3月,在長達半年的“評估、對抗性測試和對模型及系統級緩解措施的迭代改進”之后,GPT-4發布。微軟研究院對其內部版本(能力超出公開發布的線上版本)研究的結論是:“在所有這些任務中,GPT-4的表現與人類水平接近得驚人……鑒于GPT-4的廣度和深度,我們認為它可以合理地被視為AGI系統早期(但仍然不完整)的版本。”

此后,國內外的企業和科研機構紛紛跟進,幾乎每周就有一個甚至多個新模型推出。但在綜合能力上,OpenAI仍然一騎絕塵,唯一可以與之抗衡的,是Anthropic。

很多人會問:為什么中國沒有產生ChatGPT?其實正確的問題(prompt)應該是:為什么全世界只有OpenAI能做出ChatGPT?他們成功的原因是什么?

對此的思考,到今天仍有意義。

ChatGPT,真奇事也。

主站蜘蛛池模板: 同心县| 肃宁县| 芦溪县| 武山县| 灌南县| 东丽区| 洞口县| 利辛县| 高淳县| 宜良县| 灵山县| 旬邑县| 鄂托克旗| 深州市| 津市市| 海淀区| 衢州市| 崇左市| 白玉县| 曲沃县| 沙河市| 焉耆| 美姑县| 彰化县| 交城县| 承德县| 乡宁县| 罗平县| 新昌县| 阆中市| 博乐市| 犍为县| 南开区| 仁怀市| 星子县| 隆德县| 宕昌县| 丰镇市| 沂水县| 甘洛县| 城口县|