阿米巴经营电子版

書名：解構ChatGPT
作者名：何靜向安玲編著
本章字數： 411字
更新時間： 2024-12-31 18:43:21

1.3.2　微調與優化

語言模型更大并不意味著能夠更好地遵循用戶的意圖，大體量的文本資料庫中不可避免地包含不良信息，會影響大型語言模型生成不真實、有害的或對用戶毫無幫助的輸出。在這種情況下，人類的反饋可以提供寶貴的指導。這就是所謂的“從人類反饋中進行強化學習”。換句話說，強化學習是一種通過人類反饋來指導機器學習的方法。這種方法需要人類不斷地告訴機器學習算法它的表現好還是不好，從而幫助機器學習算法逐步優化它的表現。例如，如果機器人試圖抓取一個物體，它需要知道哪種方法更有效，哪種方法更煩瑣。這些信息可以由人類反饋提供，并且機器人可以據此改進它的抓取策略。

人類反饋強化學習是OpenAI在GPT-3基礎上，通過人類訓練師介入，并根據人類反饋訓練出獎勵模型（reward model），再用獎勵模型去訓練學習模型，以此來提高輸出內容與人類意圖之間一致性的方法。該方法首先使用于InstructGPT的訓練中并被ChatGPT繼承，如圖1-5所示。

圖1-5　加入了人類反饋步驟后的大模型迭代速度遠超以往（來源：OpenAI官網）

官术网_书友最值得收藏!

解構ChatGPT

1.3.2 微調與優化

1.3.2　微調與優化