官术网_书友最值得收藏!

2018 年年中,就在 Transformer 架構誕生一年后,OpenAI發表了一篇題為“Improving Language Understanding by Generative Pre-Training”的論文,作者是 Radford 等人。這篇論文介紹了 GPT,也被稱為 GPT-1。

在 GPT-1 出現之前,構建高性能 NLP 神經網絡的常用方法是監督學習。這種學習技術使用大量的手動標記數據。以情感分析任務為例,目標是對給定的文本進行分類,判斷其情感是正面的還是負面的。一種常見的策略是,收集數千個手動標記的文本示例來構建有效的分類模型。然而,這需要有大量標記良好的監督數據。這一需求限制了監督學習的性能,因為要生成這樣的數據集,難度很大且成本高昂。

在論文中,GPT-1 的作者提出了一種新的學習過程,其中引入了無監督的預訓練步驟。這個預訓練步驟不需要標注數據,而是通過訓練模型來預測下一個詞元。由于采用了可以并行化的 Transformer 架構,預訓練步驟是在大量數據上進行的。對于預訓練,GPT-1 模型使用了 BookCorpus 數據集。該數據集包含約 11 000 本未出版圖書的文本。BookCorpus 最初由 Yukun Zhu 等人在 2015 年的論文“Aligning Books and Movies: Towards Story-Like Visual Explanations by Watching Movies and Reading Books”中給出,并通過多倫多大學的網頁提供。然而,原始數據集的正式版本如今已不能公開訪問。人們發現,GPT-1 在各種基本的文本補全任務中是有效的。在無監督學習階段,該模型學習 BookCorpus 數據集并預測文本中的下一個詞。然而,GPT-1 是小模型,它無法在不經過微調的情況下執行復雜任務。因此,人們將微調作為第二個監督學習步驟,讓模型在一小部分手動標記的數據上進行微調,從而適應特定的目標任務。比如,在情感分析等分類任務中,可能需要在一小部分手動標記的文本示例上重新訓練模型,以使其達到不錯的準確度。這個過程使模型在初始的預訓練階段習得的參數得以修正,從而更好地適應具體的任務。

盡管規模相對較小,但 GPT-1 在僅用少量手動標記的數據進行微調后,能夠出色地完成多個 NLP 任務。GPT-1 的架構包括一個解碼器(與 2017 年提出的原始 Transformer 架構中的解碼器類似),具有 1.17 億個參數。作為首個 GPT 模型,它為更強大的模型鋪平了道路。后續的 GPT 模型使用更大的數據集和更多的參數,更好地發揮了 Transformer 架構的潛力。

主站蜘蛛池模板: 固始县| 宝清县| 株洲县| 鸡西市| 鄂伦春自治旗| 临泽县| 永兴县| 文成县| 博客| 贡嘎县| 昆明市| 泰和县| 洱源县| 临邑县| 沙湾县| 弋阳县| 沧州市| 淄博市| 延边| 建始县| 比如县| 兰西县| 浮梁县| 双柏县| 任丘市| 厦门市| 普宁市| 安西县| 贺兰县| 鄂尔多斯市| 紫金县| 嘉祥县| 南部县| 霍林郭勒市| 伊川县| 施甸县| 丰顺县| 探索| 延庆县| 涞源县| 南木林县|