1.3.2 微調與優化
語言模型更大并不意味著能夠更好地遵循用戶的意圖,大體量的文本資料庫中不可避免地包含不良信息,會影響大型語言模型生成不真實、有害的或對用戶毫無幫助的輸出。在這種情況下,人類的反饋可以提供寶貴的指導。這就是所謂的“從人類反饋中進行強化學習”。換句話說,強化學習是一種通過人類反饋來指導機器學習的方法。這種方法需要人類不斷地告訴機器學習算法它的表現好還是不好,從而幫助機器學習算法逐步優化它的表現。例如,如果機器人試圖抓取一個物體,它需要知道哪種方法更有效,哪種方法更煩瑣。這些信息可以由人類反饋提供,并且機器人可以據此改進它的抓取策略。
人類反饋強化學習是OpenAI在GPT-3基礎上,通過人類訓練師介入,并根據人類反饋訓練出獎勵模型(reward model),再用獎勵模型去訓練學習模型,以此來提高輸出內容與人類意圖之間一致性的方法。該方法首先使用于InstructGPT的訓練中并被ChatGPT繼承,如圖1-5所示。

圖1-5 加入了人類反饋步驟后的大模型迭代速度遠超以往(來源:OpenAI官網)