- 大模型應用開發極簡入門:基于GPT-4和ChatGPT(第2版)
- (比)奧利維耶·卡埃朗 (法)瑪麗-艾麗斯·布萊特
- 807字
- 2025-05-07 12:20:58
1.2.1 GPT-1
2018 年年中,就在 Transformer 架構誕生一年后,OpenAI發表了一篇題為“Improving Language Understanding by Generative Pre-Training”的論文,作者是 Radford 等人。這篇論文介紹了 GPT,也被稱為 GPT-1。
在 GPT-1 出現之前,構建高性能 NLP 神經網絡的常用方法是監督學習。這種學習技術使用大量的手動標記數據。以情感分析任務為例,目標是對給定的文本進行分類,判斷其情感是正面的還是負面的。一種常見的策略是,收集數千個手動標記的文本示例來構建有效的分類模型。然而,這需要有大量標記良好的監督數據。這一需求限制了監督學習的性能,因為要生成這樣的數據集,難度很大且成本高昂。
在論文中,GPT-1 的作者提出了一種新的學習過程,其中引入了無監督的預訓練步驟。這個預訓練步驟不需要標注數據,而是通過訓練模型來預測下一個詞元。由于采用了可以并行化的 Transformer 架構,預訓練步驟是在大量數據上進行的。對于預訓練,GPT-1 模型使用了 BookCorpus 數據集。該數據集包含約 11 000 本未出版圖書的文本。BookCorpus 最初由 Yukun Zhu 等人在 2015 年的論文“Aligning Books and Movies: Towards Story-Like Visual Explanations by Watching Movies and Reading Books”中給出,并通過多倫多大學的網頁提供。然而,原始數據集的正式版本如今已不能公開訪問。人們發現,GPT-1 在各種基本的文本補全任務中是有效的。在無監督學習階段,該模型學習 BookCorpus 數據集并預測文本中的下一個詞。然而,GPT-1 是小模型,它無法在不經過微調的情況下執行復雜任務。因此,人們將微調作為第二個監督學習步驟,讓模型在一小部分手動標記的數據上進行微調,從而適應特定的目標任務。比如,在情感分析等分類任務中,可能需要在一小部分手動標記的文本示例上重新訓練模型,以使其達到不錯的準確度。這個過程使模型在初始的預訓練階段習得的參數得以修正,從而更好地適應具體的任務。
盡管規模相對較小,但 GPT-1 在僅用少量手動標記的數據進行微調后,能夠出色地完成多個 NLP 任務。GPT-1 的架構包括一個解碼器(與 2017 年提出的原始 Transformer 架構中的解碼器類似),具有 1.17 億個參數。作為首個 GPT 模型,它為更強大的模型鋪平了道路。后續的 GPT 模型使用更大的數據集和更多的參數,更好地發揮了 Transformer 架構的潛力。
- Expert C++
- 計算思維與算法入門
- Apache Spark 2.x Machine Learning Cookbook
- Java技術手冊(原書第7版)
- R語言游戲數據分析與挖掘
- 軟件測試項目實戰之性能測試篇
- Java開發入行真功夫
- Python高效開發實戰:Django、Tornado、Flask、Twisted(第2版)
- Cassandra Data Modeling and Analysis
- 數據結構(C語言)
- 程序設計基礎教程:C語言
- PHP+Ajax+jQuery網站開發項目式教程
- Canvas Cookbook
- Domain-Driven Design in PHP
- Image Processing with ImageJ