- 圖解大模型:生成式AI原理與實戰
- (沙特)杰伊·阿拉馬爾 (荷)馬爾滕·格魯滕多斯特
- 495字
- 2025-06-06 15:42:18
1.7 有限的資源就夠了
我們之前多次提到的計算資源通常是指系統中可用的GPU(graphics processing unit,圖形處理單元,通常稱顯卡)資源。強大的GPU 可以加速 LLM的訓練和使用。
在選擇 GPU 時,一個重要的因素是可用的VRAM(video random access memory,視頻隨機存儲器,通常稱顯存)容量,即 GPU 上可用的內存量。實踐中,顯存越大越好。原因是如果沒有足夠的顯存,某些模型根本無法使用。
由于訓練和微調 LLM 需要高昂的GPU 成本,那些沒有強大的GPU的人常被稱為“GPU 窮人”(GPU-poor)。這反映了訓練這些龐大的模型時對計算資源的激烈爭奪。例如,為了訓練 Llama 2 系列模型,Meta 使用了 A100 80 GB GPU。假設租用一塊這樣的GPU 成本是每小時 1.50 美元,訓練 Llama 2 模型的總成本將超過 500 萬美元 16 !
16這些模型的訓練總共花費了 3 311 616 GPU 時,即單塊 GPU 訓練模型花費的時間乘以可用的GPU 數量。
遺憾的是,不存在一種統一的規則,可以確定一個特定的模型需要多少顯存。這取決于模型的架構和規模、壓縮技術、上下文長度、運行模型的后端等因素。
本書正是為“GPU 窮人”寫的。我們將使用那些不需要最昂貴的GPU 或高昂的預算就能運行的模型。為此,我們會在 Google Colab 實例中提供所有代碼。在撰寫本書時,免費的Google Colab 實例提供了帶有 16 GB 顯存的T4 GPU,這是我們建議的最低顯存容量。