官术网_书友最值得收藏!

1.3.2 微調與優化

語言模型更大并不意味著能夠更好地遵循用戶的意圖,大體量的文本資料庫中不可避免地包含不良信息,會影響大型語言模型生成不真實、有害的或對用戶毫無幫助的輸出。在這種情況下,人類的反饋可以提供寶貴的指導。這就是所謂的“從人類反饋中進行強化學習”。換句話說,強化學習是一種通過人類反饋來指導機器學習的方法。這種方法需要人類不斷地告訴機器學習算法它的表現好還是不好,從而幫助機器學習算法逐步優化它的表現。例如,如果機器人試圖抓取一個物體,它需要知道哪種方法更有效,哪種方法更煩瑣。這些信息可以由人類反饋提供,并且機器人可以據此改進它的抓取策略。

人類反饋強化學習是OpenAI在GPT-3基礎上,通過人類訓練師介入,并根據人類反饋訓練出獎勵模型(reward model),再用獎勵模型去訓練學習模型,以此來提高輸出內容與人類意圖之間一致性的方法。該方法首先使用于InstructGPT的訓練中并被ChatGPT繼承,如圖1-5所示。

圖1-5 加入了人類反饋步驟后的大模型迭代速度遠超以往(來源:OpenAI官網)

主站蜘蛛池模板: 开化县| 黑河市| 武汉市| 高安市| 呼图壁县| 上林县| 宜宾县| 孝义市| 吴江市| 道孚县| 崇文区| 伊宁市| 婺源县| 乌拉特后旗| 穆棱市| 玉树县| 南投市| 海宁市| 余干县| 定襄县| 辽阳县| 博爱县| 电白县| 壶关县| 准格尔旗| 嘉义市| 犍为县| 湖北省| 铜山县| 花莲县| 大洼县| 江西省| 安仁县| 德令哈市| 灌阳县| 新沂市| 金寨县| 兴化市| 玛多县| 克什克腾旗| 阜城县|