官术网_书友最值得收藏!

1.4 壓縮即智能——為什么ChatGPT擁有智能

隨著ChatGPT、PaLM 2、文心一言等各種大型語言模型的火爆,人們在驚嘆它們的強大能力的同時,也在不斷地思考一個問題:為什么只有解碼器的ChatGPT也能表現出智能?

生成式預訓練變壓器(generative pre-trained Transformer,GPT)實際上就是基于Transformer的只有解碼器的模型。圖1-13展示了GPT的模型結構[2],它的本質是預測下一個詞。為什么這樣一個簡單的結構就能夠訓練出具有智能的大模型呢?

圖1-13 GPT的模型結構

目前規模較大的語言模型在訓練基礎模型時,都采用了預測下一個詞的任務。這個任務非常簡單,就是根據語句中前面的詞來生成下一個詞。但這樣學習到的似乎只是詞之間的表面統計關系,怎么就能體現出智能呢?這確實很難理解。

OpenAI的核心研發人員杰克·瑞(Jack Rae)曾在斯坦福機器學習相關研討會上分享了一個主題:通用人工智能中的壓縮。杰克·瑞之前是OpenAI團隊的負責人,主要研究大模型和遠程記憶。他曾在DeepMind工作了8年,領導了大模型研究組。

在此分享中,杰克·瑞提出了如下兩個核心觀點:

壓縮就是智能。

大模型就是壓縮(GPT的預測下一個詞的任務本質上是對訓練數據的無損壓縮)。

他通過論證壓縮就是智能,以及GPT的訓練過程是對數據的無損壓縮,證明了GPT具有智能。下面具體介紹杰克·瑞是如何證明GPT具有智能的。

主站蜘蛛池模板: 利津县| 简阳市| 哈密市| 隆德县| 建始县| 静宁县| 柘城县| 铜山县| 赫章县| 潼关县| 娱乐| 隆尧县| 长汀县| 惠水县| 卓尼县| 乌拉特后旗| 固安县| 普陀区| 达拉特旗| 甘孜县| 邵武市| 平远县| 正阳县| 那坡县| 民权县| 晋江市| 桂阳县| 扶余县| 如东县| 桐乡市| 永济市| 府谷县| 聂拉木县| 孟津县| 乌鲁木齐县| 南昌市| 临夏县| 松阳县| 苗栗县| 社旗县| 麦盖提县|