- 大語言模型:原理、應用與優化
- 蘇之陽 王錦鵬 姜迪 宋元峰
- 1055字
- 2024-12-18 17:06:24
1.3.2 對齊模型實例
對齊模型是在基座模型的基礎上,針對特定任務進行訓練和優化的模型。模型對齊的過程通常包含監督微調(Supervised Fine-Tuning,SFT)和強化學習(Reinforcement Learning,RL)兩個步驟。在監督微調階段,通過標注過的數據集進行有監督學習,使模型遵從人類的指令完成特定任務,例如文本分類、命名實體識別、情感分析等;而強化學習階段則進一步優化模型的性能,通過獎勵機制使模型在特定任務上的表現更加精準和高效。具體的方法和技術細節將在后續章節中詳細介紹。對齊過程使得模型在特定任務上的表現更加優秀,同時保持了基于大量無監督學習得到的通用性知識。表1-2匯總了一些典型的經過對齊后的大模型。
隨著LLaMA系列基座模型及大模型社區的發展,基于LLaMA系列的對齊模型紛紛涌現出來,極大地豐富了該領域的研究和應用。在這一系列創新中,Alpaca[10]和Vicuna[11]模型尤為突出,它們代表了早期對齊模型的重要進展。
表1-2 對齊大模型

Alpaca是斯坦福大學發布的一個基于LLaMA-7B的對齊模型,其在某些評估指標上的性能接近于GPT-3.5。在模型的訓練過程中,Alpaca采用了自生成指令(Self-Instruct)的方法,首先人工定義了175個種子任務,然后使用OpenAI的ChatGPT API生成了5.2萬個示例,接著在8個A100上進行了3h的微調訓練。由于采用了這種策略,Alpaca的訓練成本極低,數據獲取和訓練過程的總成本不超過600美元。Alpaca通過自生成指令構建訓練數據的方法也啟發了許多其他研究人員和團隊收集ChatGPT API的數據。
在Alpaca模型發布后,加利福尼亞大學伯克利分校、卡內基-梅隆大學和斯坦福大學等機構的研究者聯合發布了Vicuna模型。Vicuna也是基于LLaMA進行對齊的模型,包含7B和13B參數兩個版本。與Alpaca不同,Vicuna采用了ShareGPT收集的對話數據進行模型微調。具體來說,這些數據包括11萬個用戶分享的與ChatGPT的對話記錄。由于這些數據由真實用戶提供,因此其多樣性更好,且數據量更大,使得Vicuna在評估中的性能優于Alpaca等模型。例如,在使用GPT-4進行評估時,Vicuna-13B的性能達到了ChatGPT和Bard的90%以上,并且在90%的情況下都優于LLaMA和Alpaca等其他模型。
某些垂直領域的對齊模型正成為一股不可忽視的力量,它們通過專注于特定行業的知識和數據,為行業專業人士提供了更為精準和實用的工具。在這一趨勢中,本草[12]和Lawyer LLaMA[13]模型尤其值得關注,它們分別在醫學和法律領域展現了對齊模型的強大潛力和實際應用價值。本草模型是基于中文醫學知識的LLaMA對齊模型,項目團隊利用醫學知識圖譜和ChatGPT API構建了中文醫學相關的數據集,通過對大模型進行訓練,提高了其在醫療領域問答的效果。Lawyer LLaMA是一個法律領域的大模型,該模型同樣基于LLaMA,通過在大規模法律語料上進行訓練,系統地學習了中國的法律知識體系,掌握了中國法律知識,可以以通俗易懂的語言進行基礎的法律咨詢。