- 解構ChatGPT
- 何靜 向安玲編著
- 702字
- 2024-12-31 18:43:22
1.3.3 ChatGPT模型的訓練過程
第一階段,訓練有監督的策略模型。模型本身在學習過程中難以判斷生成內容是不是高質量的結果,為了讓GPT-3.5能夠具備理解指令的意圖,工作人員使用有監督的微調訓練了一個初始模型。OpenAI請來了約40人的人工智能訓練師團隊,由訓練師分別扮演用戶和聊天機器人,產生人工精心編排的多輪對話數據。像是人類老師給出帶有個人偏好的參考答案,并將這些答案交回給GPT-3.5模型進一步學習。
第二階段,訓練回報模型(Reward Mode,RM)。這個階段主要是通過人工標注訓練數據來訓練回報模型。在數據集中隨機抽取問題,使用第一階段生成的模型,對于每個問題,生成多個不同的回答。人類訓練者對這些結果綜合考慮給出排名順序。這一過程類似人類老師對AI經過調整的學習成果進行考核,形成獎懲機制。
接下來,使用這個排序結果數據來訓練回報模型,即訓練AI適應獎懲機制,主動去產生得分高的答案。調節參數使得高質量回答的打分比低質量的打分要高,這一步使得GPT模型從命令驅動轉向了意圖驅動。
第三階段,采用近端策略優化(Proximal Policy Optimization,PPO)強化學習來優化策略。PPO的核心思路在于將Policy Gradient中On-policy的訓練過程轉化為Off-policy,即將在線學習轉化為離線學習。這一階段利用第二階段訓練好的獎勵模型,靠獎勵打分來更新預訓練模型參數。在數據集中隨機抽取問題,使用PPO模型生成回答,并用上一階段訓練好的回報模型給出質量分數。將回報分數依次傳遞,由此產生策略梯度,通過強化學習的方式更新PPO模型參數。相當于通過題海戰術,在不斷重復中鞏固AI取得好成績的能力。
在此機制下,持續重復第二和第三階段多輪人類反饋的強化學習,可以逐步提升輸出質量。使AI在人類“教育”下自己進步,學會更高超的對話技巧和產出能力,如圖1-6所示。

圖1-6 ChatGPT的訓練流程