不朽情缘是那个平台的

1.2.1　GPT-1

2018 年年中，就在 Transformer 架構誕生一年后，OpenAI發表了一篇題為“Improving Language Understanding by Generative Pre-Training”的論文，作者是 Radford 等人。這篇論文介紹了 GPT，也被稱為 GPT-1。

在 GPT-1 出現之前，構建高性能 NLP 神經網絡的常用方法是監督學習。這種學習技術使用大量的手動標記數據。以情感分析任務為例，目標是對給定的文本進行分類，判斷其情感是正面的還是負面的。一種常見的策略是，收集數千個手動標記的文本示例來構建有效的分類模型。然而，這需要有大量標記良好的監督數據。這一需求限制了監督學習的性能，因為要生成這樣的數據集，難度很大且成本高昂。

在論文中，GPT-1 的作者提出了一種新的學習過程，其中引入了無監督的預訓練步驟。這個預訓練步驟不需要標注數據，而是通過訓練模型來預測下一個詞元。由于采用了可以并行化的 Transformer 架構，預訓練步驟是在大量數據上進行的。對于預訓練，GPT-1 模型使用了 BookCorpus 數據集。該數據集包含約 11 000 本未出版圖書的文本。BookCorpus 最初由 Yukun Zhu 等人在 2015 年的論文“Aligning Books and Movies: Towards Story-Like Visual Explanations by Watching Movies and Reading Books”中給出，并通過多倫多大學的網頁提供。然而，原始數據集的正式版本如今已不能公開訪問。人們發現，GPT-1 在各種基本的文本補全任務中是有效的。在無監督學習階段，該模型學習 BookCorpus 數據集并預測文本中的下一個詞。然而，GPT-1 是小模型，它無法在不經過微調的情況下執行復雜任務。因此，人們將微調作為第二個監督學習步驟，讓模型在一小部分手動標記的數據上進行微調，從而適應特定的目標任務。比如，在情感分析等分類任務中，可能需要在一小部分手動標記的文本示例上重新訓練模型，以使其達到不錯的準確度。這個過程使模型在初始的預訓練階段習得的參數得以修正，從而更好地適應具體的任務。

盡管規模相對較小，但 GPT-1 在僅用少量手動標記的數據進行微調后，能夠出色地完成多個 NLP 任務。GPT-1 的架構包括一個解碼器（與 2017 年提出的原始 Transformer 架構中的解碼器類似），具有 1.17 億個參數。作為首個 GPT 模型，它為更強大的模型鋪平了道路。后續的 GPT 模型使用更大的數據集和更多的參數，更好地發揮了 Transformer 架構的潛力。

官术网_书友最值得收藏!

大模型應用開發極簡入門：基于GPT-4和ChatGPT（第2版）

1.2.1 GPT-1

1.2.1　GPT-1