書名: 解構(gòu)ChatGPT作者名: 何靜 向安玲編著本章字?jǐn)?shù): 702字更新時間: 2024-12-31 18:43:22
1.3.3 ChatGPT模型的訓(xùn)練過程
第一階段,訓(xùn)練有監(jiān)督的策略模型。模型本身在學(xué)習(xí)過程中難以判斷生成內(nèi)容是不是高質(zhì)量的結(jié)果,為了讓GPT-3.5能夠具備理解指令的意圖,工作人員使用有監(jiān)督的微調(diào)訓(xùn)練了一個初始模型。OpenAI請來了約40人的人工智能訓(xùn)練師團(tuán)隊,由訓(xùn)練師分別扮演用戶和聊天機(jī)器人,產(chǎn)生人工精心編排的多輪對話數(shù)據(jù)。像是人類老師給出帶有個人偏好的參考答案,并將這些答案交回給GPT-3.5模型進(jìn)一步學(xué)習(xí)。
第二階段,訓(xùn)練回報模型(Reward Mode,RM)。這個階段主要是通過人工標(biāo)注訓(xùn)練數(shù)據(jù)來訓(xùn)練回報模型。在數(shù)據(jù)集中隨機(jī)抽取問題,使用第一階段生成的模型,對于每個問題,生成多個不同的回答。人類訓(xùn)練者對這些結(jié)果綜合考慮給出排名順序。這一過程類似人類老師對AI經(jīng)過調(diào)整的學(xué)習(xí)成果進(jìn)行考核,形成獎懲機(jī)制。
接下來,使用這個排序結(jié)果數(shù)據(jù)來訓(xùn)練回報模型,即訓(xùn)練AI適應(yīng)獎懲機(jī)制,主動去產(chǎn)生得分高的答案。調(diào)節(jié)參數(shù)使得高質(zhì)量回答的打分比低質(zhì)量的打分要高,這一步使得GPT模型從命令驅(qū)動轉(zhuǎn)向了意圖驅(qū)動。
第三階段,采用近端策略優(yōu)化(Proximal Policy Optimization,PPO)強(qiáng)化學(xué)習(xí)來優(yōu)化策略。PPO的核心思路在于將Policy Gradient中On-policy的訓(xùn)練過程轉(zhuǎn)化為Off-policy,即將在線學(xué)習(xí)轉(zhuǎn)化為離線學(xué)習(xí)。這一階段利用第二階段訓(xùn)練好的獎勵模型,靠獎勵打分來更新預(yù)訓(xùn)練模型參數(shù)。在數(shù)據(jù)集中隨機(jī)抽取問題,使用PPO模型生成回答,并用上一階段訓(xùn)練好的回報模型給出質(zhì)量分?jǐn)?shù)。將回報分?jǐn)?shù)依次傳遞,由此產(chǎn)生策略梯度,通過強(qiáng)化學(xué)習(xí)的方式更新PPO模型參數(shù)。相當(dāng)于通過題海戰(zhàn)術(shù),在不斷重復(fù)中鞏固AI取得好成績的能力。
在此機(jī)制下,持續(xù)重復(fù)第二和第三階段多輪人類反饋的強(qiáng)化學(xué)習(xí),可以逐步提升輸出質(zhì)量。使AI在人類“教育”下自己進(jìn)步,學(xué)會更高超的對話技巧和產(chǎn)出能力,如圖1-6所示。

圖1-6 ChatGPT的訓(xùn)練流程
- 智能機(jī)器的未來
- 玩轉(zhuǎn)ChatGPT:秒變AI文案創(chuàng)作高手
- 玩轉(zhuǎn)ChatGPT:秒變AI提問和追問高手
- 人工的你:人工智能與心智的未來
- 創(chuàng)造性思維:人工智能之父馬文·明斯基論教育
- 生活難題一鍵解:豆包實用全攻略
- 人工智能:從科幻中復(fù)活的機(jī)器人革命
- 人工智能及其應(yīng)用
- 樹莓派4與人工智能實戰(zhàn)項目
- 機(jī)器學(xué)習(xí)中的概率思維
- 機(jī)器學(xué)習(xí)與數(shù)據(jù)科學(xué)(基于R的統(tǒng)計學(xué)習(xí)方法)
- TensorFlow神經(jīng)網(wǎng)絡(luò)到深度學(xué)習(xí)
- 深度學(xué)習(xí)之TensorFlow:入門、原理與進(jìn)階實戰(zhàn)
- 機(jī)器人愛好者 (第6輯)
- 人工智能導(dǎo)論