官术网_书友最值得收藏!

一、ChatGPT產生的基礎與原因

OpenAI從2018年開始推出生成式預訓練語言模型GPT(Generative Pre-trained Transformer)系列而在業界聲名鵲起。GPT系列可用于生成文章、代碼、翻譯、問答等眾多內容,到目前為止,這個系列主要包括GPT-1、GPT-2和GPT-3。其中,ChatGPT與GPT-3更為相近,是基于GPT-3.5架構開發出來的對話AI模型。GPT系列是ChatGPT產生(或被提出)的基礎,主要有如下原因。

一是GPT系列不斷迭代優化、補齊短板和提升性能的要求。OpenAI推出的GPT系列與谷歌2018年提出的BERT模型都是基于Transformer技術的知名自然語言處理模型,其模型結構如圖2-1所示。

圖2-1 GPT系列的模型結構(圖中的Trm代表一個Transformer單元)

早期的GPT-1通過構建預訓練任務得到一個通用的預訓練模型,這個模型和BERT一樣,都可用來做下游任務的微調,并在9個NLP任務上取得了很好的效果。但GPT-1使用的模型規模和數據量都比較小,這就促成了GPT-2的誕生。

GPT-2的目標是訓練一個泛化能力更強的模型,它并沒有對GPT-1的網絡進行過多的結構創新或改造,而只是使用了更多的網絡參數和更大的數據集。其最大貢獻就是驗證了通過海量數據和大量參數訓練出來的模型能夠遷移到其他下游任務中而不需要額外的訓練,但是它在一些性能方面的表現依然不夠理想,這就催生了GPT-3。

GPT-3的各項性能遠超GPT-2,非常強大,除了提升模型對常見的NLP任務處理的效果之外,還在很多非常困難的任務(諸如撰寫文稿、編寫代碼、數學運算等泛化能力)中有了大幅度提升。

二是,從GPT系列迭代過程中的各項指標(表2-1)看出:GPT-1只有12個Transformer層,詞向量通俗地說,由于計算機無法識別文本,故需要將其數值化;詞向量是將文本數值化,轉化成計算機識別的語言。專業的解釋:詞向量就是將一個詞所表達的稀疏向量轉化為稠密向量,而且對于相似的詞,其對應的詞向量也很相近。長度為768,參數過億,預訓練數據約50GB;而到了GPT-3,Transformer層猛增到96層,詞向量長度暴增至12,888,參數越過三個數量級達到1750億,預訓練數據翻了約1000倍達到45TB。第一,由于預訓練模型就像一個巨大的黑箱,如此巨大增幅的訓練,沒有人能夠保證預訓練模型不會生成一些無用的、有害的或危險的內容;第二,如此海量的訓練數據(雖然經過了清洗),里面肯定包含有害的或危險的訓練樣本;第三,預訓練模型自誕生之始,一個備受詬病的問題就是其中暗含諸如種族歧視、性別歧視等偏見。針對上述問題,OpenAI提出了以有用的(Helpful)、可信的(Honest)和無害的(Harmless)為主線條的優化目標,這正是ChatGPT與其兄弟模型InstructGPT被一同提出的重要動機之一,因為它們能夠部分地解決這些問題。

表2-1 OpenAI推出的生成式預訓練語言模型GPT系列簡況

三是,GPT系列發展到第三代,GPT-3與ChatGPT在職能分工上便有了分化。GPT-3被定位為一個功能強大的基礎模型,可以用于自然語言相關的更廣泛的任務處理,可以在此基礎上針對下游的多種任務進行微調訓練,從而訓練出不同的產品。而ChatGPT則接受了多種不同語言模式和風格的訓練,能夠生成更加多樣化和細微的人類響應,也就是更“親民”了(比如,不僅能持續多輪對話,而且更像一個能夠揣摩對話者心理的“油膩中年人”,更具“人性”了)。

這也是ChatGPT被OpenAI描述為以GPT-3.5為基礎架構開發出來的新的自然語言處理模型,而不是直接被定位為迭代的GPT-4的原因。也就是說,ChatGPT只是一個介于GPT-3與GPT-4之間被特別開發出來的更適合大眾使用的產品。這個判斷也可以從OpenAI官網對ChatGPT的最初功能定義和描述上看出來。這就是GPT-3與ChatGPT分別被提出的時候都引起了轟動,只不過前者主要在圈內,后者火出了圈進而引爆全球的原因,即二者的功能定位不同,是OpenAI的有意設計。這樣也快速提升了OpenAI與其產品的知名度,引發了眾多好的連鎖反應。

主站蜘蛛池模板: 安国市| 长治市| 浦城县| 顺义区| 甘德县| 镇宁| 卓尼县| 沿河| 峨眉山市| 青海省| 当阳市| 阜新市| 罗城| 民乐县| 马山县| 怀柔区| 绵竹市| 吉水县| 洛川县| 深圳市| 黄骅市| 万安县| 上思县| 永清县| 陆丰市| 玉田县| 新野县| 永登县| 那曲县| 南京市| 河北省| 开鲁县| 穆棱市| 宜丰县| 泗洪县| 涞源县| 湖口县| 天全县| 清镇市| 宜昌市| 宝清县|