官术网_书友最值得收藏!

1.3.3 ChatGPT模型的訓(xùn)練過程

第一階段,訓(xùn)練有監(jiān)督的策略模型。模型本身在學(xué)習(xí)過程中難以判斷生成內(nèi)容是不是高質(zhì)量的結(jié)果,為了讓GPT-3.5能夠具備理解指令的意圖,工作人員使用有監(jiān)督的微調(diào)訓(xùn)練了一個初始模型。OpenAI請來了約40人的人工智能訓(xùn)練師團(tuán)隊,由訓(xùn)練師分別扮演用戶和聊天機(jī)器人,產(chǎn)生人工精心編排的多輪對話數(shù)據(jù)。像是人類老師給出帶有個人偏好的參考答案,并將這些答案交回給GPT-3.5模型進(jìn)一步學(xué)習(xí)。

第二階段,訓(xùn)練回報模型(Reward Mode,RM)。這個階段主要是通過人工標(biāo)注訓(xùn)練數(shù)據(jù)來訓(xùn)練回報模型。在數(shù)據(jù)集中隨機(jī)抽取問題,使用第一階段生成的模型,對于每個問題,生成多個不同的回答。人類訓(xùn)練者對這些結(jié)果綜合考慮給出排名順序。這一過程類似人類老師對AI經(jīng)過調(diào)整的學(xué)習(xí)成果進(jìn)行考核,形成獎懲機(jī)制。

接下來,使用這個排序結(jié)果數(shù)據(jù)來訓(xùn)練回報模型,即訓(xùn)練AI適應(yīng)獎懲機(jī)制,主動去產(chǎn)生得分高的答案。調(diào)節(jié)參數(shù)使得高質(zhì)量回答的打分比低質(zhì)量的打分要高,這一步使得GPT模型從命令驅(qū)動轉(zhuǎn)向了意圖驅(qū)動。

第三階段,采用近端策略優(yōu)化(Proximal Policy Optimization,PPO)強(qiáng)化學(xué)習(xí)來優(yōu)化策略。PPO的核心思路在于將Policy Gradient中On-policy的訓(xùn)練過程轉(zhuǎn)化為Off-policy,即將在線學(xué)習(xí)轉(zhuǎn)化為離線學(xué)習(xí)。這一階段利用第二階段訓(xùn)練好的獎勵模型,靠獎勵打分來更新預(yù)訓(xùn)練模型參數(shù)。在數(shù)據(jù)集中隨機(jī)抽取問題,使用PPO模型生成回答,并用上一階段訓(xùn)練好的回報模型給出質(zhì)量分?jǐn)?shù)。將回報分?jǐn)?shù)依次傳遞,由此產(chǎn)生策略梯度,通過強(qiáng)化學(xué)習(xí)的方式更新PPO模型參數(shù)。相當(dāng)于通過題海戰(zhàn)術(shù),在不斷重復(fù)中鞏固AI取得好成績的能力。

在此機(jī)制下,持續(xù)重復(fù)第二和第三階段多輪人類反饋的強(qiáng)化學(xué)習(xí),可以逐步提升輸出質(zhì)量。使AI在人類“教育”下自己進(jìn)步,學(xué)會更高超的對話技巧和產(chǎn)出能力,如圖1-6所示。

圖1-6 ChatGPT的訓(xùn)練流程

主站蜘蛛池模板: 灯塔市| 潞西市| 开原市| 车险| 华容县| 汶川县| 武汉市| 保德县| 兴城市| 准格尔旗| 特克斯县| 调兵山市| 华阴市| 西城区| 东安县| 襄城县| 富顺县| 霍城县| 定边县| 青龙| 贵溪市| 阳西县| 尼玛县| 珠海市| 法库县| 孟村| 乡宁县| 东丽区| 巴彦县| 罗田县| 黄平县| 寿阳县| 封开县| 大安市| 安泽县| 樟树市| 南溪县| 德昌县| 明溪县| 论坛| 师宗县|