官术网_书友最值得收藏!

奇事 + 奇人,本書當然可謂奇書了。

像斯蒂芬·沃爾弗拉姆這樣的大神能動手為廣大讀者極為關注的主題寫一本通俗讀物,這本身就是一個奇跡。

他40年前從純物理轉向復雜系統的研究,就是想解決人類智能等現象的第一性原理,因此有很深的積累。因為他交游廣泛,與杰弗里·辛頓、伊爾亞·蘇茨克維、達里奧·阿莫迪等關鍵人物都有交流,所以有第一手資料,保證了技術的準確性。難怪本書出版后,OpenAI的CEO稱之為“對ChatGPT原理最佳的解釋”。

全書包括兩篇文章,篇幅很短,但是把關于ChatGPT的最重要的點都講到了,而且講得通俗透徹。

我在圖靈社區發起了“ChatGPT共學營”,與各種技術水平、專業背景的同學有很多交流,發現要理解大模型,正確建立一些核心概念是非常關鍵的。沒有這些支柱,即使你是資深的算法工程師,認知也可能會有很大的偏差。

比如,GPT技術路線的一大核心理念,是用最簡單的自回歸生成架構來解決無監督學習問題,也就是利用無須人特意標注的原始數據,學習其中對世界的映射。自回歸生成架構,就是書中講得非常通俗的“只是一次添加一個詞”。這里特別要注意的是,選擇這種架構并不是為了做生成任務,而是為了理解或者學習,是為了實現模型的通用能力。在2020年之前甚至之后的幾年里,業界很多專業人士想當然地以為GPT是搞生成任務的,所以選擇了無視。殊不知GPT-1論文的標題就是“通過生成式預訓練改進語言理解”(“Improving Language Understanding by Generative Pre-Training”)。

再比如,對于沒有太多技術背景或者機器學習背景的讀者來說,了解人工智能最新動態時可能遇到的直接困難,是聽不懂總是出現的基本概念“模型”“參數(在神經網絡中就是權重)”是什么意思,而且這些概念很難講清楚。本書中,大神作者非常貼心地用直觀的例子(函數和旋鈕)做了解釋(參見“什么是模型”一節)。

關于神經網絡的幾節圖文并茂,相信對各類讀者更深刻地理解神經網絡及其訓練過程的本質,以及損失函數、梯度下降等概念都很有幫助。

作者在講解中也沒有忽視思想性,比如下面的段落很好地介紹了深度學習的意義:

“深度學習”在2012年左右的重大突破與如下發現有關:與權重相對較少時相比,在涉及許多權重時,進行最小化(至少近似)可能會更容易。

換句話說,有時候用神經網絡解決復雜問題比解決簡單問題更容易——這似乎有些違反直覺。大致原因在于,當有很多“權重變量”時,高維空間中有“很多不同的方向”可以引導我們到達最小值;而當變量較少時,很容易陷入局部最小值的“山湖”,無法找到“出去的方向”。

而下面這一段講清楚了端到端學習的價值:

在神經網絡的早期發展階段,人們傾向于認為應該“讓神經網絡做盡可能少的事”。例如,在將語音轉換為文本時,人們認為應該先分析語音的音頻,再將其分解為音素,等等。但是后來發現,(至少對于“類人任務”)最好的方法通常是嘗試訓練神經網絡來“解決端到端的問題”,讓它自己“發現”必要的中間特征、編碼等。

掌握這些概念的“why”,有益于理解GPT的大背景。

嵌入這個概念無論對從事大模型研發的算法研究者、基于大模型開發應用的程序員,還是想深入了解GPT的普通讀者,都是至關重要的,也是“ChatGPT的中心思想”,但是它比較抽象,不是特別容易理解。本書“‘嵌入’的概念”一節是我見過的對這一概念最好的解釋,通過圖、代碼和文字這三種解讀方式,讓大家都能掌握。當然,后文中“意義空間和語義運動定律”一節還有多張彩圖,可以進一步深化這一概念。“‘嵌入’的概念”一節最后還介紹了什么是標記(token),并舉了幾個直觀的英文例子。

接下來對ChatGPT工作原理和訓練過程的介紹也通俗而不失嚴謹。不僅把Transformer這個比較復雜的技術講得非常細致,而且如實告知了目前理論上并沒有搞清楚為什么這樣就有效果。

第一篇最后結合作者的計算不可約理論,將對ChatGPT的理解上升到一個高度,與伊爾亞·蘇茨克維在多個訪談里強調的“GPT的大思路是通過生成來獲取世界模型的壓縮表示”異曲同工。

在我看來,下面這一段落是非常引人深思的:

產生“有意義的人類語言”需要什么?過去,我們可能認為人類大腦必不可少。但現在我們知道,ChatGPT的神經網絡也可以做得非常出色……我強烈懷疑ChatGPT的成功暗示了一個重要的“科學”事實:有意義的人類語言實際上比我們所知道的更加結構化、更加簡單,最終可能以相當簡單的規則來描述如何組織這樣的語言。

語言是嚴肅思考、決策和溝通的工具。從孩子的成長過程來看,相比感知、行動,語言應該是智能中更難的任務。但ChatGPT很可能已經攻破了其中的密碼,正如Wolfram說的“它也在某種意義上‘鉆研’到了,不必考慮可能的不同措辭,就能‘以語義上有意義的方式組織語言’的地步”。這確實預示著未來我們通過計算語言或者其他表示方式,有可能進一步大幅提升整體的智能水平。

由此推廣開來,人工智能的進展有可能在各學科產生類似的效應:以前認為很難的課題,其實換個角度來看并不是那么難的。加上GPT這種通用智能助手的“加持”,“一些任務從基本不可能變成了基本可行”,最終使全人類的科技水平達到新高度。

本書的第二篇介紹了ChatGPT和Wolfram|Alpha系統的對比與結合,有較多實例。如果說GPT這種通用智能更像人類,而大部分人類其實是天生不擅長精確計算和思考的,那么未來通用模型與專用模型的結合,應該也是前景廣闊的發展方向。

稍有遺憾的是,本書只重點講了ChatGPT的預訓練部分,而沒有過多涉及后面也很重要的幾個微調步驟:監督微調(supervised fine-tuning,SFT)、獎勵建模和強化學習。這方面比較好的學習資料是OpenAI創始成員、前Tesla AI負責人安德烈·卡帕斯(Andrej Karpathy)2023年5月在微軟Build大會上的演講“State of GPT”。

在本書包含的兩篇之外,沃爾弗拉姆還有一篇關于ChatGPT的文章“Will AIs Take All Our Jobs and End Human History—or Not? Well, It's Complicated...”,在更高層次上和更大范圍內思考了ChatGPT的意義和影響。它也是《一種新科學》一書的延伸,充分體現了沃爾弗拉姆的思考深度。

關于AI能力的上限,他認為,根據“計算等價原理”,ChatGPT這種通用人工智能的出現證明了“(人類)本質上沒有任何特別的東西——事實上,在計算方面,我們與自然中許多系統甚至是簡單程序基本上是等價的”。因此,曾經需要人類努力完成的事情,會逐漸自動化,最終能通過技術免費完成。很多人認為是人類特有的創造力或原創力、情感、判斷力等,AI應該也能夠擁有。最終,AI也會逐步發展出自己的世界。這是一種新的生態,可能有自己的憲章,人類需要適應,與之共存共榮。

那么,人類還剩下些什么優勢呢?

根據“計算不可約性原理”(即“總有一些計算是沒有捷徑來加速或者自動化的”,作者認為這是思考AI未來的核心),復雜系統中總是存在無限的“計算可約區”,這正是人類歷史上能不斷出現科學創新、發明和發現的空間。所以,人類會不斷向前沿進發,而且永遠有前沿可以探索。同時,“計算不可約性原理”也決定了,人類、AI、自然界和社會等各種計算系統具有根本的不可預測性,始終存在“收獲驚喜的可能”。人類可貴的,是有內在驅動力和內在體驗,能夠內在地定義目標或者意義,從而最終定義未來。

我們又應該怎么做呢?

沃爾弗拉姆給出了如下建議。

·最高效的方式是發掘新的可能性,定義對自己有價值的東西。

·從現在的回答問題轉向學會如何提出問題,以及如何確定哪些問題值得提出。也就是從知識執行轉向知識戰略。

·知識廣度和思維清晰度將很重要。

·直接學習所有詳細的知識已經變得不必要了:我們可以在更高的層次上學習和工作,抽象掉許多具體的細節。“整合”,而不是專業化。盡可能廣泛、深入地思考,盡可能多地調用知識和范式。

·學會使用工具來做事。過去我們更倚重邏輯和數學,以后要特別注意利用計算范式,并運用與計算直接相關的思維方式。

的確,GPT可能對我們的工作、學習和生活方式產生巨大的影響,需要我們轉換思維方式,需要新型的學習和交流方式。這正是我在圖靈社區發起“ChatGPT共學營”的初衷。共學營是一個“課 + 群 + 書”的付費學習社區,這里不僅有我和眾多專家的分享(開放和閉門直播課),有來自不同背景、不同行業、不同專業的同學每天在一起交流(微信群包含幾千名優秀同學),還有系統的知識沉淀(電子書和知識庫)。共學營中還提供了本書的導讀課,以及“State of GPT”演講的視頻和中文精校文圖,歡迎大家加入。

劉江
圖靈公司聯合創始人、前總編,曾任北京智源人工智能
研究院副院長、美團技術學院院長

主站蜘蛛池模板: 巴楚县| 西和县| 神农架林区| 乌兰察布市| 晋江市| 化德县| 即墨市| 海宁市| 武邑县| 佛学| 宜春市| 会东县| 临夏县| 延川县| 木里| 白朗县| 同德县| 聊城市| 桐梓县| 藁城市| 石楼县| 白沙| 桑植县| 闽侯县| 五原县| 册亨县| 凌海市| 通渭县| 雷山县| 广宗县| 天气| 南皮县| 行唐县| 湘乡市| 靖州| 嵊州市| 巨鹿县| 孟州市| 乌审旗| 万州区| 龙游县|