書名: 揭秘大模型:從原理到實戰作者名: 文亮 江維本章字數: 509字更新時間: 2025-04-17 18:46:13
1.4 壓縮即智能——為什么ChatGPT擁有智能
隨著ChatGPT、PaLM 2、文心一言等各種大型語言模型的火爆,人們在驚嘆它們的強大能力的同時,也在不斷地思考一個問題:為什么只有解碼器的ChatGPT也能表現出智能?
生成式預訓練變壓器(generative pre-trained Transformer,GPT)實際上就是基于Transformer的只有解碼器的模型。圖1-13展示了GPT的模型結構[2],它的本質是預測下一個詞。為什么這樣一個簡單的結構就能夠訓練出具有智能的大模型呢?

圖1-13 GPT的模型結構
目前規模較大的語言模型在訓練基礎模型時,都采用了預測下一個詞的任務。這個任務非常簡單,就是根據語句中前面的詞來生成下一個詞。但這樣學習到的似乎只是詞之間的表面統計關系,怎么就能體現出智能呢?這確實很難理解。
OpenAI的核心研發人員杰克·瑞(Jack Rae)曾在斯坦福機器學習相關研討會上分享了一個主題:通用人工智能中的壓縮。杰克·瑞之前是OpenAI團隊的負責人,主要研究大模型和遠程記憶。他曾在DeepMind工作了8年,領導了大模型研究組。
在此分享中,杰克·瑞提出了如下兩個核心觀點:
● 壓縮就是智能。
● 大模型就是壓縮(GPT的預測下一個詞的任務本質上是對訓練數據的無損壓縮)。
他通過論證壓縮就是智能,以及GPT的訓練過程是對數據的無損壓縮,證明了GPT具有智能。下面具體介紹杰克·瑞是如何證明GPT具有智能的。