官术网_书友最值得收藏!

然而,GPT-3 存在一個問題,即終端用戶提供的任務與模型在訓練過程中所見到的任務不一致。我們已經知道,語言模型根據輸入文本的上下文來預測下一個詞元。這個訓練過程不一定與終端用戶希望模型執行的任務一致。此外,增大模型的規模并不能從根本上使其更好地遵循用戶的意圖或指令。像 GPT-3 這樣的模型是在互聯網數據上進行訓練的。盡管數據源經過了一定的篩選,但用于訓練模型的數據仍然可能包含虛假信息或有問題的文本,比如涉及種族歧視、性別歧視等。因此,模型有時可能說錯話,甚至說出有害的話。

2021 年,OpenAI發布了 GPT-3 模型的新版本,并取名為 InstructGPT。與原始的 GPT-3 基礎模型不同,InstructGPT 模型通過基于人類反饋的強化學習(reinforcement learning from human feedback,RLHF)進行優化。這意味著 InstructGPT 模型利用反饋來學習和不斷改進。這種方法使模型能夠更好地理解人類指令,同時提高生成內容的真實性,并減少有害或不恰當的輸出。

為了說明區別,我們輸入以下提示詞:“解釋什么是時間復雜度。”兩個模型給出的回答如下所述。

● 標準的 GPT-3 模型給出的回答是:“解釋什么是空間復雜度。解釋什么是大 記法。”

● InstructGPT 模型給出的回答是:“時間復雜度用于衡量算法運行和完成任務所需的時間,通常采用大 記法表示。它以操作次數來衡量算法的復雜度。算法的時間復雜度至關重要,因為它決定了算法的效率和對更大輸入的擴展能力。”

可以看到,對于相同的輸入,第一個模型無法正確回答問題(或者生成的回答很奇怪),而第二個模型則能提供正確的答案。用戶希望與一個智能助手進行交互,而這并不是標準的 GPT-3 模型所擅長的,因此需要通過 RLHF 進行額外優化,以實現更符合預期的行為。當然,使用標準的 GPT-3 基礎模型也可以得到理想的回答,但與 InstructGPT 模型不同的是,需要精心設計提示詞并優化輸入才能獲得滿意的結果。這種方法被稱為提示工程(prompt engineering),我們將在后續章節中詳細介紹。

在題為“Training Language Models to Follow Instructions with Human Feedback”的論文中,OpenAI的歐陽龍(Ouyang)等人解釋了 InstructGPT 是如何構建的。從 GPT-3 模型到 InstructGPT 模型的訓練過程主要有兩個階段:監督微調(supervised fine-tuning,SFT)和 RLHF。每個階段都會針對前一階段的結果進行微調。也就是說,SFT 階段接收 GPT-3 模型并返回一個新模型,RLHF 階段接收該模型并返回 InstructGPT 版本。

根據 OpenAI的論文,我們重新繪制了一張流程圖,如圖 1-7 所示。

我們來逐一探討每個階段。

在 SFT 階段,原始的 GPT-3 模型通過簡單的監督學習進行微調(如圖 1-7 的步驟 1 所示)。OpenAI擁有由終端用戶提供的提示詞集合。訓練過程從該集合中隨機選擇的一個提示詞開始,隨后,由一名人工標注員(labeler)編寫該提示詞的理想答案。這一過程會重復成千上萬次,以構建一個包含提示詞及其理想回答的監督訓練數據集。然后,利用這個數據集對 GPT-3 模型進行微調,使其對用戶請求的回答更加一致。經過這一階段訓練的模型被稱為 SFT 模型。

RLHF 階段分為兩個子步驟:首先訓練獎勵模型(圖 1-7 中的步驟 2),然后使用獎勵模型進行強化學習(圖 1-7 中的步驟 3)。

獎勵模型(reward model,RM)的目標是自動為模型對提示詞的回答打分。當回答與提示詞的要求匹配時,獎勵模型評分應較高;如果不匹配,則評分較低。為了構建獎勵模型,OpenAI首先隨機選擇一個問題,然后使用 SFT 模型生成多個可能的回答。(正如我們稍后會看到的,通過調整溫度參數,可以針對同一個輸入提示詞生成多個不同的回答。)

接下來,人工標注員會根據回答與提示詞的匹配程度、回答的毒性(toxicity)等標準,對這些回答進行排序。這一過程重復多次后,所收集的數據集將用于微調 SFT 模型,使其能夠進行評分。最終,這個獎勵模型評分系統將用于構建最終的 InstructGPT 模型。

圖 1-7:獲取 InstructGPT 模型的步驟(根據歐陽龍等人的圖片重繪)

InstructGPT 模型訓練的最后一步涉及強化學習,這是一個迭代優化的過程。訓練從一個初始的生成式模型(如 SFT 模型)開始,首先隨機選擇一個提示詞,然后模型生成對應的輸出,接著獎勵模型對該輸出進行評分。根據所獲得的獎勵分數,生成式模型會進行相應的調整和優化。這一過程可以在無人工干預的情況下重復無數次,從而使模型能夠更高效、自動化地改進。

與基礎的 GPT-3 模型相比,InstructGPT 模型能夠針對用戶的提問生成更準確的內容。OpenAI建議使用 InstructGPT 模型,而非原始版本。

主站蜘蛛池模板: 陆河县| 抚顺县| 泰顺县| 丹巴县| 同心县| 剑河县| 喜德县| 双江| 大渡口区| 罗山县| 京山县| 社旗县| 闽清县| 迁西县| 昌都县| 嘉兴市| 安陆市| 十堰市| 霍城县| 阿鲁科尔沁旗| 岱山县| 潮安县| 台湾省| 大同县| 桑植县| 高州市| 万盛区| 汉川市| 诏安县| 洛南县| 班玛县| 桃园县| 察雅县| 钟祥市| 平陆县| 乡宁县| 巴马| 高尔夫| 马关县| 遂昌县| 高平市|