官术网_书友最值得收藏!

  • 這就是ChatGPT
  • (美)斯蒂芬·沃爾弗拉姆
  • 3280字
  • 2024-01-15 14:12:22

奇事 + 奇人,本書當(dāng)然可謂奇書了。

像斯蒂芬·沃爾弗拉姆這樣的大神能動手為廣大讀者極為關(guān)注的主題寫一本通俗讀物,這本身就是一個奇跡。

他40年前從純物理轉(zhuǎn)向復(fù)雜系統(tǒng)的研究,就是想解決人類智能等現(xiàn)象的第一性原理,因此有很深的積累。因?yàn)樗挥螐V泛,與杰弗里·辛頓、伊爾亞·蘇茨克維、達(dá)里奧·阿莫迪等關(guān)鍵人物都有交流,所以有第一手資料,保證了技術(shù)的準(zhǔn)確性。難怪本書出版后,OpenAI的CEO稱之為“對ChatGPT原理最佳的解釋”。

全書包括兩篇文章,篇幅很短,但是把關(guān)于ChatGPT的最重要的點(diǎn)都講到了,而且講得通俗透徹。

我在圖靈社區(qū)發(fā)起了“ChatGPT共學(xué)營”,與各種技術(shù)水平、專業(yè)背景的同學(xué)有很多交流,發(fā)現(xiàn)要理解大模型,正確建立一些核心概念是非常關(guān)鍵的。沒有這些支柱,即使你是資深的算法工程師,認(rèn)知也可能會有很大的偏差。

比如,GPT技術(shù)路線的一大核心理念,是用最簡單的自回歸生成架構(gòu)來解決無監(jiān)督學(xué)習(xí)問題,也就是利用無須人特意標(biāo)注的原始數(shù)據(jù),學(xué)習(xí)其中對世界的映射。自回歸生成架構(gòu),就是書中講得非常通俗的“只是一次添加一個詞”。這里特別要注意的是,選擇這種架構(gòu)并不是為了做生成任務(wù),而是為了理解或者學(xué)習(xí),是為了實(shí)現(xiàn)模型的通用能力。在2020年之前甚至之后的幾年里,業(yè)界很多專業(yè)人士想當(dāng)然地以為GPT是搞生成任務(wù)的,所以選擇了無視。殊不知GPT-1論文的標(biāo)題就是“通過生成式預(yù)訓(xùn)練改進(jìn)語言理解”(“Improving Language Understanding by Generative Pre-Training”)。

再比如,對于沒有太多技術(shù)背景或者機(jī)器學(xué)習(xí)背景的讀者來說,了解人工智能最新動態(tài)時可能遇到的直接困難,是聽不懂總是出現(xiàn)的基本概念“模型”“參數(shù)(在神經(jīng)網(wǎng)絡(luò)中就是權(quán)重)”是什么意思,而且這些概念很難講清楚。本書中,大神作者非常貼心地用直觀的例子(函數(shù)和旋鈕)做了解釋(參見“什么是模型”一節(jié))。

關(guān)于神經(jīng)網(wǎng)絡(luò)的幾節(jié)圖文并茂,相信對各類讀者更深刻地理解神經(jīng)網(wǎng)絡(luò)及其訓(xùn)練過程的本質(zhì),以及損失函數(shù)、梯度下降等概念都很有幫助。

作者在講解中也沒有忽視思想性,比如下面的段落很好地介紹了深度學(xué)習(xí)的意義:

“深度學(xué)習(xí)”在2012年左右的重大突破與如下發(fā)現(xiàn)有關(guān):與權(quán)重相對較少時相比,在涉及許多權(quán)重時,進(jìn)行最小化(至少近似)可能會更容易。

換句話說,有時候用神經(jīng)網(wǎng)絡(luò)解決復(fù)雜問題比解決簡單問題更容易——這似乎有些違反直覺。大致原因在于,當(dāng)有很多“權(quán)重變量”時,高維空間中有“很多不同的方向”可以引導(dǎo)我們到達(dá)最小值;而當(dāng)變量較少時,很容易陷入局部最小值的“山湖”,無法找到“出去的方向”。

而下面這一段講清楚了端到端學(xué)習(xí)的價值:

在神經(jīng)網(wǎng)絡(luò)的早期發(fā)展階段,人們傾向于認(rèn)為應(yīng)該“讓神經(jīng)網(wǎng)絡(luò)做盡可能少的事”。例如,在將語音轉(zhuǎn)換為文本時,人們認(rèn)為應(yīng)該先分析語音的音頻,再將其分解為音素,等等。但是后來發(fā)現(xiàn),(至少對于“類人任務(wù)”)最好的方法通常是嘗試訓(xùn)練神經(jīng)網(wǎng)絡(luò)來“解決端到端的問題”,讓它自己“發(fā)現(xiàn)”必要的中間特征、編碼等。

掌握這些概念的“why”,有益于理解GPT的大背景。

嵌入這個概念無論對從事大模型研發(fā)的算法研究者、基于大模型開發(fā)應(yīng)用的程序員,還是想深入了解GPT的普通讀者,都是至關(guān)重要的,也是“ChatGPT的中心思想”,但是它比較抽象,不是特別容易理解。本書“‘嵌入’的概念”一節(jié)是我見過的對這一概念最好的解釋,通過圖、代碼和文字這三種解讀方式,讓大家都能掌握。當(dāng)然,后文中“意義空間和語義運(yùn)動定律”一節(jié)還有多張彩圖,可以進(jìn)一步深化這一概念。“‘嵌入’的概念”一節(jié)最后還介紹了什么是標(biāo)記(token),并舉了幾個直觀的英文例子。

接下來對ChatGPT工作原理和訓(xùn)練過程的介紹也通俗而不失嚴(yán)謹(jǐn)。不僅把Transformer這個比較復(fù)雜的技術(shù)講得非常細(xì)致,而且如實(shí)告知了目前理論上并沒有搞清楚為什么這樣就有效果。

第一篇最后結(jié)合作者的計(jì)算不可約理論,將對ChatGPT的理解上升到一個高度,與伊爾亞·蘇茨克維在多個訪談里強(qiáng)調(diào)的“GPT的大思路是通過生成來獲取世界模型的壓縮表示”異曲同工。

在我看來,下面這一段落是非常引人深思的:

產(chǎn)生“有意義的人類語言”需要什么?過去,我們可能認(rèn)為人類大腦必不可少。但現(xiàn)在我們知道,ChatGPT的神經(jīng)網(wǎng)絡(luò)也可以做得非常出色……我強(qiáng)烈懷疑ChatGPT的成功暗示了一個重要的“科學(xué)”事實(shí):有意義的人類語言實(shí)際上比我們所知道的更加結(jié)構(gòu)化、更加簡單,最終可能以相當(dāng)簡單的規(guī)則來描述如何組織這樣的語言。

語言是嚴(yán)肅思考、決策和溝通的工具。從孩子的成長過程來看,相比感知、行動,語言應(yīng)該是智能中更難的任務(wù)。但ChatGPT很可能已經(jīng)攻破了其中的密碼,正如Wolfram說的“它也在某種意義上‘鉆研’到了,不必考慮可能的不同措辭,就能‘以語義上有意義的方式組織語言’的地步”。這確實(shí)預(yù)示著未來我們通過計(jì)算語言或者其他表示方式,有可能進(jìn)一步大幅提升整體的智能水平。

由此推廣開來,人工智能的進(jìn)展有可能在各學(xué)科產(chǎn)生類似的效應(yīng):以前認(rèn)為很難的課題,其實(shí)換個角度來看并不是那么難的。加上GPT這種通用智能助手的“加持”,“一些任務(wù)從基本不可能變成了基本可行”,最終使全人類的科技水平達(dá)到新高度。

本書的第二篇介紹了ChatGPT和Wolfram|Alpha系統(tǒng)的對比與結(jié)合,有較多實(shí)例。如果說GPT這種通用智能更像人類,而大部分人類其實(shí)是天生不擅長精確計(jì)算和思考的,那么未來通用模型與專用模型的結(jié)合,應(yīng)該也是前景廣闊的發(fā)展方向。

稍有遺憾的是,本書只重點(diǎn)講了ChatGPT的預(yù)訓(xùn)練部分,而沒有過多涉及后面也很重要的幾個微調(diào)步驟:監(jiān)督微調(diào)(supervised fine-tuning,SFT)、獎勵建模和強(qiáng)化學(xué)習(xí)。這方面比較好的學(xué)習(xí)資料是OpenAI創(chuàng)始成員、前Tesla AI負(fù)責(zé)人安德烈·卡帕斯(Andrej Karpathy)2023年5月在微軟Build大會上的演講“State of GPT”。

在本書包含的兩篇之外,沃爾弗拉姆還有一篇關(guān)于ChatGPT的文章“Will AIs Take All Our Jobs and End Human History—or Not? Well, It's Complicated...”,在更高層次上和更大范圍內(nèi)思考了ChatGPT的意義和影響。它也是《一種新科學(xué)》一書的延伸,充分體現(xiàn)了沃爾弗拉姆的思考深度。

關(guān)于AI能力的上限,他認(rèn)為,根據(jù)“計(jì)算等價原理”,ChatGPT這種通用人工智能的出現(xiàn)證明了“(人類)本質(zhì)上沒有任何特別的東西——事實(shí)上,在計(jì)算方面,我們與自然中許多系統(tǒng)甚至是簡單程序基本上是等價的”。因此,曾經(jīng)需要人類努力完成的事情,會逐漸自動化,最終能通過技術(shù)免費(fèi)完成。很多人認(rèn)為是人類特有的創(chuàng)造力或原創(chuàng)力、情感、判斷力等,AI應(yīng)該也能夠擁有。最終,AI也會逐步發(fā)展出自己的世界。這是一種新的生態(tài),可能有自己的憲章,人類需要適應(yīng),與之共存共榮。

那么,人類還剩下些什么優(yōu)勢呢?

根據(jù)“計(jì)算不可約性原理”(即“總有一些計(jì)算是沒有捷徑來加速或者自動化的”,作者認(rèn)為這是思考AI未來的核心),復(fù)雜系統(tǒng)中總是存在無限的“計(jì)算可約區(qū)”,這正是人類歷史上能不斷出現(xiàn)科學(xué)創(chuàng)新、發(fā)明和發(fā)現(xiàn)的空間。所以,人類會不斷向前沿進(jìn)發(fā),而且永遠(yuǎn)有前沿可以探索。同時,“計(jì)算不可約性原理”也決定了,人類、AI、自然界和社會等各種計(jì)算系統(tǒng)具有根本的不可預(yù)測性,始終存在“收獲驚喜的可能”。人類可貴的,是有內(nèi)在驅(qū)動力和內(nèi)在體驗(yàn),能夠內(nèi)在地定義目標(biāo)或者意義,從而最終定義未來。

我們又應(yīng)該怎么做呢?

沃爾弗拉姆給出了如下建議。

·最高效的方式是發(fā)掘新的可能性,定義對自己有價值的東西。

·從現(xiàn)在的回答問題轉(zhuǎn)向?qū)W會如何提出問題,以及如何確定哪些問題值得提出。也就是從知識執(zhí)行轉(zhuǎn)向知識戰(zhàn)略。

·知識廣度和思維清晰度將很重要。

·直接學(xué)習(xí)所有詳細(xì)的知識已經(jīng)變得不必要了:我們可以在更高的層次上學(xué)習(xí)和工作,抽象掉許多具體的細(xì)節(jié)。“整合”,而不是專業(yè)化。盡可能廣泛、深入地思考,盡可能多地調(diào)用知識和范式。

·學(xué)會使用工具來做事。過去我們更倚重邏輯和數(shù)學(xué),以后要特別注意利用計(jì)算范式,并運(yùn)用與計(jì)算直接相關(guān)的思維方式。

的確,GPT可能對我們的工作、學(xué)習(xí)和生活方式產(chǎn)生巨大的影響,需要我們轉(zhuǎn)換思維方式,需要新型的學(xué)習(xí)和交流方式。這正是我在圖靈社區(qū)發(fā)起“ChatGPT共學(xué)營”的初衷。共學(xué)營是一個“課 + 群 + 書”的付費(fèi)學(xué)習(xí)社區(qū),這里不僅有我和眾多專家的分享(開放和閉門直播課),有來自不同背景、不同行業(yè)、不同專業(yè)的同學(xué)每天在一起交流(微信群包含幾千名優(yōu)秀同學(xué)),還有系統(tǒng)的知識沉淀(電子書和知識庫)。共學(xué)營中還提供了本書的導(dǎo)讀課,以及“State of GPT”演講的視頻和中文精校文圖,歡迎大家加入。

劉江
圖靈公司聯(lián)合創(chuàng)始人、前總編,曾任北京智源人工智能
研究院副院長、美團(tuán)技術(shù)學(xué)院院長

主站蜘蛛池模板: 南通市| 昌黎县| 南乐县| 徐汇区| 襄城县| 乌拉特中旗| 扶余县| 屏边| 南通市| 岱山县| 砀山县| 孝义市| 康乐县| 什邡市| 连州市| 布拖县| 崇仁县| 普兰店市| 福州市| 靖远县| 调兵山市| 工布江达县| 都匀市| 文成县| 武乡县| 丰顺县| 柳州市| 阜康市| 宣恩县| 萨迦县| 定结县| 商河县| 区。| 阿荣旗| 南召县| 怀远县| 吕梁市| 永仁县| 双峰县| 油尖旺区| 德化县|