- 圖解大模型:生成式AI原理與實戰
- (沙特)杰伊·阿拉馬爾 (荷)馬爾滕·格魯滕多斯特
- 467字
- 2025-06-06 15:42:17
1.3 “LLM”定義的演變
在我們回顧語言人工智能的近期歷史時,我們觀察到主要是生成式的僅解碼器(Transformer)模型被稱為 LLM。很多人認為 LLM的關鍵特點就是“大”,但在實踐中,這樣的描述顯然有局限性。
如果我們創建一個與 GPT-3 能力相當但參數量減少到原來的1/10的模型,這樣的模型是否就不屬于“LLM”的范疇了?
同樣,如果我們發布一個與 GPT-4 同等規模的模型,它能夠進行準確的文本分類,但沒有生成能力,那么它還能被稱為“LLM”嗎?即使它的主要功能不是語言生成,但它仍然可以表示文本。
這類定義的問題在于我們排除了一些能力很強的模型。無論我們給某個模型起什么名字,都不會改變它的行為方式。
由于“LLM”這個術語的定義隨著新模型的發布而不斷演變,我們需要明確說明它在本書中的含義。“大”的定義是相對的,今天被認為“大”的模型,明天可能就顯得很小了。目前同一事物有很多不同的稱呼,對我們來說,“LLM”也包括那些不生成文本且可以在消費級硬件上運行的模型。
因此,除了涵蓋生成模型,本書還將介紹參數少于 10 億且不生成文本的模型。我們將探索如何使用其他模型,如嵌入模型、表示模型,甚至詞袋,來增強 LLM的能力。