- 大語言模型:原理、應用與優化
- 蘇之陽 王錦鵬 姜迪 宋元峰
- 743字
- 2024-12-18 17:06:23
1.2.2 訓練大模型的挑戰
挑戰1:收集海量且多樣化的數據。
訓練數據的來源、涵蓋的主題甚至使用的語言都要非常廣泛。雖然從互聯網上獲取的文本極大地增加了訓練數據的規模,但由于這些訓練數據良莠不齊,如何對其進行清洗從而避免訓練的大模型有偏差,成為非常重要的課題。除了上述大量的非標注語料,大模型的某些訓練階段還會用到標注語料,因此會涉及一些和數據標注平臺的合作。比如,Meta在訓練大模型的時候曾與亞馬遜Mechanical Turk合作;OpenAI在訓練GPT系列模型的時候曾經與Upwork和Scale AI合作。
以目前大模型對訓練數據的消耗速度,高質量語言數據預計在2026年就會耗盡,而低質量語言數據預計在2050年耗盡,視覺圖像數據預計在2060年耗盡[6]。在可預見的未來,新的高質量的訓練數據只會隨著時間線性增長,但模型效果線性增長往往需要指數增長量級的訓練數據,如何緩解高質量數據緊缺的問題是一個重要的課題。
挑戰2:工程難度大。
千億參數量的大模型的訓練往往需要一個月甚至數個月。在訓練這種參數規模的大模型的時候,由于模型本身和訓練數據都不可能存儲在某個單一的計算節點上,必須采用分布式并行訓練。多種并行策略共同使用帶來的復雜性,對訓練的硬件基礎設施和算法設計都提出了極高的要求。訓練的過程還涉及優化方法的選擇以及對應的超參數配置等一系列挑戰。另外,大模型的訓練過程并不穩定,這種不穩定性會隨著模型參數規模的增加急劇上升,訓練失敗的概率也會相應增加。這些都對大模型訓練人員的知識儲備和工程實踐經驗提出了很高的要求。
挑戰3:訓練成本高。
目前訓練單個大模型的成本在300萬美元到3000萬美元之間。預計到2030年,在大型數據集上訓練大模型的成本將增加至數億美元。由于訓練所用的數據集的規模越來越大,以及需要更強的算力來訓練更為強大的模型,只有極少數的大型科技企業才能負擔得起大模型的開發費用。