春宵棋牌正式版

1.2.4　從 GPT-3到InstructGPT

然而，GPT-3 存在一個問題，即終端用戶提供的任務與模型在訓練過程中所見到的任務不一致。我們已經知道，語言模型根據輸入文本的上下文來預測下一個詞元。這個訓練過程不一定與終端用戶希望模型執行的任務一致。此外，增大模型的規模并不能從根本上使其更好地遵循用戶的意圖或指令。像 GPT-3 這樣的模型是在互聯網數據上進行訓練的。盡管數據源經過了一定的篩選，但用于訓練模型的數據仍然可能包含虛假信息或有問題的文本，比如涉及種族歧視、性別歧視等。因此，模型有時可能說錯話，甚至說出有害的話。

2021 年，OpenAI發布了 GPT-3 模型的新版本，并取名為 InstructGPT。與原始的 GPT-3 基礎模型不同，InstructGPT 模型通過基于人類反饋的強化學習（reinforcement learning from human feedback，RLHF）進行優化。這意味著 InstructGPT 模型利用反饋來學習和不斷改進。這種方法使模型能夠更好地理解人類指令，同時提高生成內容的真實性，并減少有害或不恰當的輸出。

為了說明區別，我們輸入以下提示詞：“解釋什么是時間復雜度。”兩個模型給出的回答如下所述。

● 標準的 GPT-3 模型給出的回答是：“解釋什么是空間復雜度。解釋什么是大記法。”

● InstructGPT 模型給出的回答是：“時間復雜度用于衡量算法運行和完成任務所需的時間，通常采用大記法表示。它以操作次數來衡量算法的復雜度。算法的時間復雜度至關重要，因為它決定了算法的效率和對更大輸入的擴展能力。”

可以看到，對于相同的輸入，第一個模型無法正確回答問題（或者生成的回答很奇怪），而第二個模型則能提供正確的答案。用戶希望與一個智能助手進行交互，而這并不是標準的 GPT-3 模型所擅長的，因此需要通過 RLHF 進行額外優化，以實現更符合預期的行為。當然，使用標準的 GPT-3 基礎模型也可以得到理想的回答，但與 InstructGPT 模型不同的是，需要精心設計提示詞并優化輸入才能獲得滿意的結果。這種方法被稱為提示工程（prompt engineering），我們將在后續章節中詳細介紹。

在題為“Training Language Models to Follow Instructions with Human Feedback”的論文中，OpenAI的歐陽龍（Ouyang）等人解釋了 InstructGPT 是如何構建的。從 GPT-3 模型到 InstructGPT 模型的訓練過程主要有兩個階段：監督微調（supervised fine-tuning，SFT）和 RLHF。每個階段都會針對前一階段的結果進行微調。也就是說，SFT 階段接收 GPT-3 模型并返回一個新模型，RLHF 階段接收該模型并返回 InstructGPT 版本。

根據 OpenAI的論文，我們重新繪制了一張流程圖，如圖 1-7 所示。

我們來逐一探討每個階段。

在 SFT 階段，原始的 GPT-3 模型通過簡單的監督學習進行微調（如圖 1-7 的步驟 1 所示）。OpenAI擁有由終端用戶提供的提示詞集合。訓練過程從該集合中隨機選擇的一個提示詞開始，隨后，由一名人工標注員（labeler）編寫該提示詞的理想答案。這一過程會重復成千上萬次，以構建一個包含提示詞及其理想回答的監督訓練數據集。然后，利用這個數據集對 GPT-3 模型進行微調，使其對用戶請求的回答更加一致。經過這一階段訓練的模型被稱為 SFT 模型。

RLHF 階段分為兩個子步驟：首先訓練獎勵模型（圖 1-7 中的步驟 2），然后使用獎勵模型進行強化學習（圖 1-7 中的步驟 3）。

獎勵模型（reward model，RM）的目標是自動為模型對提示詞的回答打分。當回答與提示詞的要求匹配時，獎勵模型評分應較高；如果不匹配，則評分較低。為了構建獎勵模型，OpenAI首先隨機選擇一個問題，然后使用 SFT 模型生成多個可能的回答。（正如我們稍后會看到的，通過調整溫度參數，可以針對同一個輸入提示詞生成多個不同的回答。）

接下來，人工標注員會根據回答與提示詞的匹配程度、回答的毒性（toxicity）等標準，對這些回答進行排序。這一過程重復多次后，所收集的數據集將用于微調 SFT 模型，使其能夠進行評分。最終，這個獎勵模型評分系統將用于構建最終的 InstructGPT 模型。

圖 1-7：獲取 InstructGPT 模型的步驟（根據歐陽龍等人的圖片重繪）

InstructGPT 模型訓練的最后一步涉及強化學習，這是一個迭代優化的過程。訓練從一個初始的生成式模型（如 SFT 模型）開始，首先隨機選擇一個提示詞，然后模型生成對應的輸出，接著獎勵模型對該輸出進行評分。根據所獲得的獎勵分數，生成式模型會進行相應的調整和優化。這一過程可以在無人工干預的情況下重復無數次，從而使模型能夠更高效、自動化地改進。

與基礎的 GPT-3 模型相比，InstructGPT 模型能夠針對用戶的提問生成更準確的內容。OpenAI建議使用 InstructGPT 模型，而非原始版本。

官术网_书友最值得收藏!

大模型應用開發極簡入門：基于GPT-4和ChatGPT（第2版）

1.2.4 從 GPT-3到InstructGPT

1.2.4　從 GPT-3到InstructGPT