官术网_书友最值得收藏!

  • 解構ChatGPT
  • 何靜 向安玲編著
  • 702字
  • 2024-12-31 18:43:22

1.3.3 ChatGPT模型的訓練過程

第一階段,訓練有監督的策略模型。模型本身在學習過程中難以判斷生成內容是不是高質量的結果,為了讓GPT-3.5能夠具備理解指令的意圖,工作人員使用有監督的微調訓練了一個初始模型。OpenAI請來了約40人的人工智能訓練師團隊,由訓練師分別扮演用戶和聊天機器人,產生人工精心編排的多輪對話數據。像是人類老師給出帶有個人偏好的參考答案,并將這些答案交回給GPT-3.5模型進一步學習。

第二階段,訓練回報模型(Reward Mode,RM)。這個階段主要是通過人工標注訓練數據來訓練回報模型。在數據集中隨機抽取問題,使用第一階段生成的模型,對于每個問題,生成多個不同的回答。人類訓練者對這些結果綜合考慮給出排名順序。這一過程類似人類老師對AI經過調整的學習成果進行考核,形成獎懲機制。

接下來,使用這個排序結果數據來訓練回報模型,即訓練AI適應獎懲機制,主動去產生得分高的答案。調節參數使得高質量回答的打分比低質量的打分要高,這一步使得GPT模型從命令驅動轉向了意圖驅動。

第三階段,采用近端策略優化(Proximal Policy Optimization,PPO)強化學習來優化策略。PPO的核心思路在于將Policy Gradient中On-policy的訓練過程轉化為Off-policy,即將在線學習轉化為離線學習。這一階段利用第二階段訓練好的獎勵模型,靠獎勵打分來更新預訓練模型參數。在數據集中隨機抽取問題,使用PPO模型生成回答,并用上一階段訓練好的回報模型給出質量分數。將回報分數依次傳遞,由此產生策略梯度,通過強化學習的方式更新PPO模型參數。相當于通過題海戰術,在不斷重復中鞏固AI取得好成績的能力。

在此機制下,持續重復第二和第三階段多輪人類反饋的強化學習,可以逐步提升輸出質量。使AI在人類“教育”下自己進步,學會更高超的對話技巧和產出能力,如圖1-6所示。

圖1-6 ChatGPT的訓練流程

主站蜘蛛池模板: 隆化县| 常熟市| 庐江县| 绿春县| 清新县| 哈巴河县| 宝清县| 阿克陶县| 永福县| 吉木萨尔县| 定陶县| 嘉峪关市| 阳高县| 慈利县| 阳高县| 苍山县| 收藏| 治县。| 伊通| 隆化县| 永州市| 新余市| 永清县| 辽源市| 八宿县| 舞钢市| 松原市| 鹤峰县| 石泉县| 共和县| 乌拉特中旗| 南宁市| 凌云县| 万源市| 商洛市| 昌吉市| 达日县| 阿城市| 泽州县| 盱眙县| 凌源市|