双人捕鱼机多少泡打

書名：解構(gòu)ChatGPT
作者名：何靜向安玲編著
本章字?jǐn)?shù)： 702字
更新時間： 2024-12-31 18:43:22

1.3.3　ChatGPT模型的訓(xùn)練過程

第一階段，訓(xùn)練有監(jiān)督的策略模型。模型本身在學(xué)習(xí)過程中難以判斷生成內(nèi)容是不是高質(zhì)量的結(jié)果，為了讓GPT-3.5能夠具備理解指令的意圖，工作人員使用有監(jiān)督的微調(diào)訓(xùn)練了一個初始模型。OpenAI請來了約40人的人工智能訓(xùn)練師團(tuán)隊，由訓(xùn)練師分別扮演用戶和聊天機(jī)器人，產(chǎn)生人工精心編排的多輪對話數(shù)據(jù)。像是人類老師給出帶有個人偏好的參考答案，并將這些答案交回給GPT-3.5模型進(jìn)一步學(xué)習(xí)。

第二階段，訓(xùn)練回報模型（Reward Mode，RM）。這個階段主要是通過人工標(biāo)注訓(xùn)練數(shù)據(jù)來訓(xùn)練回報模型。在數(shù)據(jù)集中隨機(jī)抽取問題，使用第一階段生成的模型，對于每個問題，生成多個不同的回答。人類訓(xùn)練者對這些結(jié)果綜合考慮給出排名順序。這一過程類似人類老師對AI經(jīng)過調(diào)整的學(xué)習(xí)成果進(jìn)行考核，形成獎懲機(jī)制。

接下來，使用這個排序結(jié)果數(shù)據(jù)來訓(xùn)練回報模型，即訓(xùn)練AI適應(yīng)獎懲機(jī)制，主動去產(chǎn)生得分高的答案。調(diào)節(jié)參數(shù)使得高質(zhì)量回答的打分比低質(zhì)量的打分要高，這一步使得GPT模型從命令驅(qū)動轉(zhuǎn)向了意圖驅(qū)動。

第三階段，采用近端策略優(yōu)化（Proximal Policy Optimization，PPO）強(qiáng)化學(xué)習(xí)來優(yōu)化策略。PPO的核心思路在于將Policy Gradient中On-policy的訓(xùn)練過程轉(zhuǎn)化為Off-policy，即將在線學(xué)習(xí)轉(zhuǎn)化為離線學(xué)習(xí)。這一階段利用第二階段訓(xùn)練好的獎勵模型，靠獎勵打分來更新預(yù)訓(xùn)練模型參數(shù)。在數(shù)據(jù)集中隨機(jī)抽取問題，使用PPO模型生成回答，并用上一階段訓(xùn)練好的回報模型給出質(zhì)量分?jǐn)?shù)。將回報分?jǐn)?shù)依次傳遞，由此產(chǎn)生策略梯度，通過強(qiáng)化學(xué)習(xí)的方式更新PPO模型參數(shù)。相當(dāng)于通過題海戰(zhàn)術(shù)，在不斷重復(fù)中鞏固AI取得好成績的能力。

在此機(jī)制下，持續(xù)重復(fù)第二和第三階段多輪人類反饋的強(qiáng)化學(xué)習(xí)，可以逐步提升輸出質(zhì)量。使AI在人類“教育”下自己進(jìn)步，學(xué)會更高超的對話技巧和產(chǎn)出能力，如圖1-6所示。

圖1-6　ChatGPT的訓(xùn)練流程

官术网_书友最值得收藏!

解構(gòu)ChatGPT

1.3.3 ChatGPT模型的訓(xùn)練過程

1.3.3　ChatGPT模型的訓(xùn)練過程