- 大語言模型:原理、應用與優化
- 蘇之陽 王錦鵬 姜迪 宋元峰
- 1359字
- 2024-12-18 17:06:22
1.2.1 大模型的發展歷程
大模型的發展并非一蹴而就,而是經歷了多個具有里程碑意義的歷史節點,如圖1-2所示。總體而言,根據是否具備對齊屬性,大模型的發展可以概括為兩個主要時期:無對齊時期和對齊時期。

圖1-2 大模型的發展歷程
1.無對齊時期
在無對齊時期,大模型和人類之間的交互門檻相對較高,使用大模型需要一定的計算機或人工智能知識的儲備,大模型一般被視為一種面向計算機或人工智能相關從業人員的工具,這個時期大模型的發展經歷了如下重要事件:
2013年,Mikolov等人提出了Word2Vec[3],雖然Word2Vec的訓練目標和之前的語言模型并不完全相同,但是訓練過程中的損失函數有一定的相似之處,Word2Vec的重要價值是開創了可遷移的高質量的詞嵌入的先河,在一定程度上奠定了大模型產生的基礎。
2017年,Transformer[4]給許多自然語言處理任務帶來了飛躍式的效果提升。Transformer是一種編碼器-解碼器(Encoder-Decoder)模型,其中的自注意力(Self-Attention)機制取消了循環神經網絡中的順序依賴,使其具有優良的并行性,而且能夠擁有全局信息視野。Transformer為大模型的出現鋪平了道路,如今,Transformer幾乎是所有主流大模型的基本組成模塊。
2018—2022年,預訓練-微調(Pretrain-Finetune)技術蓬勃發展,基于各種神經網絡結構的大模型也層出不窮。這些大模型的特點是整個模型都采用預訓練的參數權重,而不僅僅是用預訓練的詞嵌入來初始化模型的輸入層,這些語言模型只需微調即可在各種自然語言處理任務中表現出很好的效果。這個階段的一些典型語言模型包括BERT、GPT-1、GPT-2、T5、GPT-3等。其中,GPT-3展示了訓練超大參數規模的大模型的強大優勢,研究人員發現增加模型的參數量和訓練數據可以有效提升模型在下游任務中的效果。
如圖1-3所示,從2018年到2022年,追求超大的參數量是大模型領域的主要發展趨勢,大模型的參數規模以每年十倍的速度增長,這個增長速度被稱為新的摩爾定律。

圖1-3 2018—2022年大模型參數量增長曲線
2.對齊時期
在無對齊時期,大模型在很多自然語言處理任務上展示出了很大的潛力,但是其關注度并沒有得到爆炸式的增長。真正給大模型帶來革命性影響的是對齊在大模型上的應用。在對齊時期,大模型學會了用自然語言與人類進行溝通,任何人都可以很方便地使用大模型,從而使大模型具備了極低的使用門檻。在這個時期,大模型的發展經歷了如下重要事件:
2022—2023年,ChatGPT等和人類意圖對齊的大模型引起了人們的關注。ChatGPT可以根據用戶的要求生成清晰、詳盡的回復,僅僅上線兩個月,其月活用戶數即突破了1億,刷新了互聯網產品吸引用戶的速度的歷史記錄,OpenAI的估值也隨之增至290億美元,ChatGPT相關的技術革新給學術界和工業界都帶來了深刻的影響。
2023年至今,以GPT-4[5]為代表的多模態大模型進入人們的視線。GPT-4可以接受圖像和文本輸入并產生文本輸出。由于視覺信息沉淀為文本信息通常需要一定的時間,利用視覺信息可以加快大模型能力的演化進度。在許多現實場景中,GPT-4表現出接近人類水平的效果。在這個時期,如何讓大模型從數據中更快地學習、確保大模型生成結果的質量成為重要的研究方向。
在對齊時期,單純追求大的參數量不再是大模型領域的主要發展方向,人們意識到大模型的質量比大的參數量更為重要,也有觀點認為未來大模型應該向參數量更小的方向發展,或者以多個小模型協作的方式工作。對齊時期的大模型對技術領域和社會層面都有著深遠的影響,它改變了人們對語言模型甚至整個通用人工智能(Artificial General Intelligence,AGI)領域的看法,引爆了人工智能生成內容(AI Generated Content,AIGC)行業的發展。