捕鱼机木马安装

1.4　壓縮即智能——為什么ChatGPT擁有智能

隨著ChatGPT、PaLM 2、文心一言等各種大型語言模型的火爆，人們在驚嘆它們的強大能力的同時，也在不斷地思考一個問題：為什么只有解碼器的ChatGPT也能表現出智能？

生成式預訓練變壓器（generative pre-trained Transformer，GPT）實際上就是基于Transformer的只有解碼器的模型。圖1-13展示了GPT的模型結構[2]，它的本質是預測下一個詞。為什么這樣一個簡單的結構就能夠訓練出具有智能的大模型呢？

圖1-13　GPT的模型結構

目前規模較大的語言模型在訓練基礎模型時，都采用了預測下一個詞的任務。這個任務非常簡單，就是根據語句中前面的詞來生成下一個詞。但這樣學習到的似乎只是詞之間的表面統計關系，怎么就能體現出智能呢？這確實很難理解。

OpenAI的核心研發人員杰克·瑞（Jack Rae）曾在斯坦福機器學習相關研討會上分享了一個主題：通用人工智能中的壓縮。杰克·瑞之前是OpenAI團隊的負責人，主要研究大模型和遠程記憶。他曾在DeepMind工作了8年，領導了大模型研究組。

在此分享中，杰克·瑞提出了如下兩個核心觀點：

● 壓縮就是智能。

● 大模型就是壓縮（GPT的預測下一個詞的任務本質上是對訓練數據的無損壓縮）。

他通過論證壓縮就是智能，以及GPT的訓練過程是對數據的無損壓縮，證明了GPT具有智能。下面具體介紹杰克·瑞是如何證明GPT具有智能的。