官术网_书友最值得收藏!

  • 解構ChatGPT
  • 何靜 向安玲編著
  • 411字
  • 2024-12-31 18:43:21

1.3.2 微調與優化

語言模型更大并不意味著能夠更好地遵循用戶的意圖,大體量的文本資料庫中不可避免地包含不良信息,會影響大型語言模型生成不真實、有害的或對用戶毫無幫助的輸出。在這種情況下,人類的反饋可以提供寶貴的指導。這就是所謂的“從人類反饋中進行強化學習”。換句話說,強化學習是一種通過人類反饋來指導機器學習的方法。這種方法需要人類不斷地告訴機器學習算法它的表現好還是不好,從而幫助機器學習算法逐步優化它的表現。例如,如果機器人試圖抓取一個物體,它需要知道哪種方法更有效,哪種方法更煩瑣。這些信息可以由人類反饋提供,并且機器人可以據此改進它的抓取策略。

人類反饋強化學習是OpenAI在GPT-3基礎上,通過人類訓練師介入,并根據人類反饋訓練出獎勵模型(reward model),再用獎勵模型去訓練學習模型,以此來提高輸出內容與人類意圖之間一致性的方法。該方法首先使用于InstructGPT的訓練中并被ChatGPT繼承,如圖1-5所示。

圖1-5 加入了人類反饋步驟后的大模型迭代速度遠超以往(來源:OpenAI官網)

主站蜘蛛池模板: 饶阳县| 定西市| 兴业县| 宜阳县| 达州市| 南靖县| 梁山县| 镇安县| 双桥区| 张家界市| 吉隆县| 凤山县| 通辽市| 兖州市| 绥中县| 西安市| 望江县| 万源市| 惠水县| 巴楚县| 平舆县| 西充县| 达孜县| 时尚| 襄樊市| 惠来县| 汉川市| 中江县| 新安县| 武川县| 社会| 大姚县| 新田县| 乌审旗| 南岸区| 邳州市| 凌源市| 呈贡县| 郧西县| 乌苏市| 泰兴市|