- 深度對話GPT-4提示工程實(shí)戰(zhàn)
- 仇華
- 11681字
- 2024-07-05 18:01:28
1.3 ChatGPT和GPT-4的成長故事
學(xué)習(xí)一個世界模型,從表面上看,神經(jīng)網(wǎng)絡(luò)只是在學(xué)習(xí)文本中的統(tǒng)計相關(guān)性,但實(shí)際上,這些就足以把知識壓縮得非常好。神經(jīng)網(wǎng)絡(luò)所學(xué)習(xí)的是它在生成文本的過程中的一些表述。文本實(shí)際上是這個世界的一個映射,因此神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)的是有關(guān)這個世界多方面的知識。
—— Ilya Sutskever
1.3.1 GPT系列的逆襲之路
自然語言處理領(lǐng)域近年來取得了顯著進(jìn)展,其中最具代表性的就是各種大語言模型技術(shù)的突破。雖然早期GPT并未受到廣泛關(guān)注,但隨著模型的不斷優(yōu)化和擴(kuò)展,GPT已在自然語言處理領(lǐng)域嶄露頭角。接下來,我們來看一看GPT系列的逆襲之路,包括它與其他大語言模型的差異、早期的不足及后期優(yōu)化的過程。
GPT與其他大語言模型的差異
在深度探討GPT與其他大語言模型的區(qū)別之前,首先要對各類模型的基本特性和優(yōu)劣進(jìn)行全面理解。這將有助于更深入地理解GPT與BERT、LSTM等模型的差異。
相較于GPT,BERT模型采用了一種雙向Transformer架構(gòu),并且在訓(xùn)練過程中運(yùn)用了掩碼語言建模和下一句預(yù)測的方法,因此能夠更全面地捕捉雙向上下文信息,然而這也導(dǎo)致它在生成任務(wù)上的表現(xiàn)力相對較弱。反觀GPT,它采用了單向Transformer架構(gòu),專注于生成任務(wù),但在捕捉雙向上下文信息方面的能力相對較弱。BERT的雙向Transformer架構(gòu),使模型在處理文本時能夠同時考慮上下文信息,因此在理解文本語義和句法結(jié)構(gòu)方面具有極大的優(yōu)勢,但由于BERT模型在訓(xùn)練過程中采用掩碼語言建模方式,它生成任務(wù)的能力受到了限制。
與之相反,GPT 的單向 Transformer 架構(gòu),使模型在處理文本時只需考慮上文信息。這種設(shè)計簡化了模型的訓(xùn)練過程,從而讓GPT在生成任務(wù)上極具優(yōu)勢,但也限制了它在捕捉雙向上下文信息方面的能力。
在GPT和BERT出現(xiàn)之前,長短期記憶網(wǎng)絡(luò)是處理序列任務(wù)的主流方法。然而,隨著GPT和BERT等Transformer模型的出現(xiàn),長短期記憶網(wǎng)絡(luò)在許多任務(wù)上的優(yōu)勢逐漸被削弱。相比之下,GPT和BERT等Transformer模型在并行計算、長距離依賴等方面具有更大的優(yōu)勢。長短期記憶網(wǎng)絡(luò)作為一種經(jīng)典的循環(huán)神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),能夠有效地處理序列數(shù)據(jù),通過引入門控機(jī)制解決了傳統(tǒng)循環(huán)神經(jīng)網(wǎng)絡(luò)中的長程依賴問題。然而,長短期記憶網(wǎng)絡(luò)在處理長序列時仍受到計算復(fù)雜度和并行性的限制。
GPT早期的不足
GPT-1
2018年6月11日,OpenAI發(fā)布了一篇題為“Improving Language Understanding by Generative Pre-Training”的研究論文,詳細(xì)闡述了“基于 Transformer 的生成式預(yù)訓(xùn)練模型”(Generative Pre-trained Transformer,GPT)的概念。由于后續(xù)又陸續(xù)推出了更多模型,所以為了區(qū)分,這里稱之為GPT-1。當(dāng)時,最先進(jìn)的自然語言生成模型主要依賴于大量手動標(biāo)注數(shù)據(jù)進(jìn)行監(jiān)督學(xué)習(xí)。這種依賴于人類監(jiān)督學(xué)習(xí)的方法限制了模型在未經(jīng)精細(xì)標(biāo)注的數(shù)據(jù)集上的應(yīng)用。同時,許多語言(如斯瓦希里語或海地克里奧爾語)由于缺乏足夠的語料庫,導(dǎo)致實(shí)際應(yīng)用(如翻譯和解釋)的難度較大。此外,訓(xùn)練超大型模型所需的時間和成本也相當(dāng)高。相比之下,GPT-1 提出了一種被稱為“半監(jiān)督”(semi-supervised)的方法,后來該方法被普遍稱為“自監(jiān)督”:首先在無標(biāo)簽數(shù)據(jù)上訓(xùn)練一個預(yù)訓(xùn)練模型,然后在少量標(biāo)注數(shù)據(jù)上訓(xùn)練一個用于識別的微調(diào)模型。GPT-1 的訓(xùn)練數(shù)據(jù)源于BookCorpus,這是一個包含7000本未出版圖書的語料庫,總大小為4.5 GB。這些書由于尚未發(fā)布,因此很難在下游數(shù)據(jù)集中找到,這有助于驗(yàn)證模型的泛化能力。這些書覆蓋了各種不同的文學(xué)流派和主題,模型參數(shù)數(shù)量達(dá)到 1.2 億個。自此,研究人員開始相信大模型的力量,大模型時代就此開啟。作為GPT系列的起點(diǎn),GPT-1采用了單向Transformer架構(gòu)并進(jìn)行無監(jiān)督預(yù)訓(xùn)練。盡管在當(dāng)時,GPT-1在某些自然語言處理任務(wù)上取得了不錯的成績,但它的規(guī)模和性能相對有限,且在捕捉雙向上下文信息方面較為薄弱。
GPT-1的不足之處主要體現(xiàn)在以下四個方面。
● 規(guī)模限制:GPT-1 的規(guī)模較小,參數(shù)數(shù)量約為 1.17 億個。這種規(guī)模限制使得GPT-1在面對復(fù)雜任務(wù)時性能受限,也影響了模型的泛化能力。
● 雙向上下文信息捕捉能力不足:由于GPT-1采用單向Transformer架構(gòu),因此它在處理文本時只能考慮給定詞之前的上下文信息,這在某種程度上限制了它在理解文本語義和句法結(jié)構(gòu)方面的能力。
● 訓(xùn)練數(shù)據(jù)規(guī)模問題:GPT-1的訓(xùn)練數(shù)據(jù)規(guī)模相對較小,導(dǎo)致它在面對復(fù)雜任務(wù)時性能欠佳。此外,訓(xùn)練數(shù)據(jù)規(guī)模的不足也影響了模型在泛化能力方面的表現(xiàn)。
● 訓(xùn)練數(shù)據(jù)多樣性問題:GPT-1的訓(xùn)練數(shù)據(jù)多樣性不足,導(dǎo)致模型在處理特定領(lǐng)域和多語言任務(wù)時表現(xiàn)不佳。例如,GPT-1在處理特定領(lǐng)域文本和多語言任務(wù)時可能無法準(zhǔn)確捕捉到相關(guān)知識。
GPT-1和BERT模型的對比如表1-1所示。
表1-1 GPT-1和BERT模型的對比

GPT的優(yōu)化之路
1.GPT-2
2019年2月,OpenAI在GPT-1的基礎(chǔ)上又發(fā)布了GPT-2,并發(fā)表了論文“Language Models are Unsupervised Multitask Learners”。GPT-2在許多方面都得到了優(yōu)化和擴(kuò)展,OpenAI去掉了GPT-1階段的有監(jiān)督微調(diào)(Fine-tuning),聚焦無監(jiān)督、零樣本學(xué)習(xí)(Zero-shot Learning)。模型參數(shù)的數(shù)量從1.17億個增加到了15億個,訓(xùn)練數(shù)據(jù)規(guī)模也得到了大幅擴(kuò)充。這使得GPT-2在自然語言生成任務(wù)上表現(xiàn)出色,甚至引發(fā)了一些關(guān)于AI生成內(nèi)容的倫理討論。
與GPT-1相比,GPT-2的優(yōu)勢體現(xiàn)在于以下兩方面。
● 參數(shù)擴(kuò)展:GPT-2的參數(shù)數(shù)量達(dá)到了15億個,這使模型在處理復(fù)雜任務(wù)時性能更強(qiáng)。同時,參數(shù)數(shù)量的增加也提高了模型的泛化能力。
● 訓(xùn)練數(shù)據(jù)擴(kuò)展:GPT-2的數(shù)據(jù)集為WebText,WebText是一個包含800萬個文檔的語料庫,總大小為40GB。這些文本是從Reddit上投票最高的4500萬個網(wǎng)頁中收集的,包括各類主題和來源,例如新聞、論壇、博客、維基百科和社交媒體等,其中也包括更多特定領(lǐng)域的文本和多語言內(nèi)容。這使GPT-2在處理特定領(lǐng)域和多語言任務(wù)上表現(xiàn)更加出色。
2.GPT-3
2020年5月,OpenAI發(fā)表了關(guān)于GPT-3的論文“Language Models are Few-Shot Learners”。GPT-3的模型規(guī)模進(jìn)一步擴(kuò)大,擁有1750億個參數(shù),訓(xùn)練數(shù)據(jù)覆蓋了整個互聯(lián)網(wǎng)的大部分文本信息。改進(jìn)的算法、強(qiáng)大的算力和更多的數(shù)據(jù),推動了 AI 革命,讓GPT-3成為當(dāng)時最先進(jìn)的語言模型。GPT-3在許多NLP數(shù)據(jù)集上都有很強(qiáng)的性能,包括翻譯、問題解答和完形填空等任務(wù),以及一些需要動態(tài)推理或領(lǐng)域適應(yīng)的任務(wù)(如解譯單詞,以及在句子中使用一個新單詞或執(zhí)行算術(shù)運(yùn)算)。它在多個NLP任務(wù)上表現(xiàn)出的驚人性能甚至可以和人類專家相媲美。
GPT-3的優(yōu)勢體現(xiàn)在以下兩方面。
● 規(guī)模優(yōu)勢:GPT-3的規(guī)模達(dá)到了前所未有的水平,擁有1750億個參數(shù)。這種規(guī)模優(yōu)勢使GPT-3在處理各種復(fù)雜任務(wù)時具有更強(qiáng)的性能,同時提高了模型的泛化能力。
● 訓(xùn)練數(shù)據(jù)優(yōu)勢:GPT-3的數(shù)據(jù)集為570 GB的大規(guī)模文本語料庫,其中包含約4000億個標(biāo)記。這些數(shù)據(jù)主要來自CommonCrawl、WebText、英文維基百科和兩個書籍語料庫(Books1和Books2)。訓(xùn)練數(shù)據(jù)包括了整個互聯(lián)網(wǎng)的大部分文本信息,這使得模型在學(xué)習(xí)豐富的語言知識方面具有更大的優(yōu)勢。此外,訓(xùn)練數(shù)據(jù)的擴(kuò)充也使得GPT-3在處理特定領(lǐng)域和多語言任務(wù)上的表現(xiàn)更加優(yōu)異。
從GPT-1到GPT-3的模型對比如表1-2所示。
表1-2 GPT-1、GPT-2和GPT-3模型對比

GPT的優(yōu)越性在于其深度和廣度。Open AI的開發(fā)團(tuán)隊對數(shù)據(jù)質(zhì)量進(jìn)行了精細(xì)打磨,例如剔除了重復(fù)和低質(zhì)量文本,使GPT能夠扎根于高質(zhì)量語言知識的沃土。同時,他們也通過加入更多領(lǐng)域的特定文本以及多語言和多文化內(nèi)容,擴(kuò)大了GPT的視野和理解能力,使它在特定場景和多語言任務(wù)中表現(xiàn)出色。
GPT在生成任務(wù)上的優(yōu)越性源于其獨(dú)特的單向Transformer架構(gòu),使它在自然語言生成任務(wù)上領(lǐng)先于BERT等雙向Transformer模型。此外,GPT采用基于自回歸語言模型的無監(jiān)督預(yù)訓(xùn)練策略,能夠通過大量無標(biāo)注數(shù)據(jù)進(jìn)行自我學(xué)習(xí)和提升,從而在多個自然語言處理任務(wù)上取得顯著成功。
然而,GPT強(qiáng)大的生成能力也帶來了潛在的問題,比如可能會生成不真實(shí)或有害的內(nèi)容,如虛假新聞、詐騙信息等。因此,需要采取相應(yīng)的技術(shù)措施和制訂政策法規(guī)來確保GPT的安全使用。另外,GPT在訓(xùn)練過程中可能會受到訓(xùn)練數(shù)據(jù)中存在的偏見的影響,因此我們需要在訓(xùn)練過程中關(guān)注偏見問題,并采用相應(yīng)的策略來減輕偏見對模型的影響。
對于未來而言,GPT的發(fā)展趨勢和挑戰(zhàn)在于提高模型性能、降低計算資源消耗和提高模型可解釋性。為了使GPT在更多任務(wù)上有優(yōu)異的表現(xiàn),需要不斷優(yōu)化模型架構(gòu)和訓(xùn)練策略,提高模型的性能。為了降低計算資源消耗,可以研究如何提高模型的計算效率,或者采用知識蒸餾等技術(shù)來壓縮模型的規(guī)模。另外,為了增強(qiáng)GPT在實(shí)際應(yīng)用中的可靠性,需要研究如何提高模型的可解釋性。
總而言之,GPT 在不斷地自我挑戰(zhàn)和優(yōu)化,它在自然語言處理領(lǐng)域的潛力和成果無疑是顯著的。然而,我們也需要關(guān)注GPT面臨的倫理與安全問題,確保它能夠安全可靠地為人類服務(wù)。作為一個開源項目,GPT的發(fā)展也為開源社區(qū)帶來了新的機(jī)遇和挑戰(zhàn),推動著整個人工智能行業(yè)的進(jìn)步。
1.3.2 ChatGPT產(chǎn)品化之旅
終于,OpenAI的明星產(chǎn)品ChatGPT誕生了。2022年11 月,OpenAI推出了人工智能聊天機(jī)器人程序ChatGPT,在此前的GPT基礎(chǔ)上增加了Chat屬性。開放公眾測試后,僅上線兩個月,ChatGPT的活躍用戶數(shù)就超過一億,而達(dá)到這個用戶數(shù)量,電話用了75年,手機(jī)用了16年,互聯(lián)網(wǎng)用了7年。在繼續(xù)介紹之前,先用圖1-4中的ChatGPT的產(chǎn)品化歷程來概括一下ChatGPT的誕生過程。

圖1-4 ChatGPT的產(chǎn)品化歷程
2022年2月,OpenAI進(jìn)一步強(qiáng)化了GPT-3,推出了InstructGPT模型,采用來自人類反饋的強(qiáng)化學(xué)習(xí)(Reinforcement Learning from Human Feedback,RLHF),并采用高效的近端策略優(yōu)化(Proximal Policy Optimization,PPO)算法作為強(qiáng)化學(xué)習(xí)的優(yōu)化技術(shù),訓(xùn)練出獎勵模型(reward model)去訓(xùn)練學(xué)習(xí)模型,賦予GPT理解人類指令的能力。
2022年3月15日,OpenAI發(fā)布了名為text-davinci-003的全新版本GPT-3,據(jù)稱比之前的版本更加強(qiáng)大。該模型基于截至2021年6月的數(shù)據(jù)進(jìn)行訓(xùn)練,因此比之前版本的模型(訓(xùn)練時使用的是截至2019年10月的數(shù)據(jù))更具有時效性。8個月后,OpenAI開始將該模型納入GPT-3.5系列。有五款不同的模型屬于GPT-3.5系列,其中4款分別是text-davinci-002、text-davinci-003、gpt-3.5-turbo和gpt-3.5-turbo-0301,它們是針對文本任務(wù)而優(yōu)化的;另外一款是code-davinci-002,即Codex的base model,它是針對代碼任務(wù)而優(yōu)化的。
與GPT-3相比,GPT-3.5增加了以下功能。
● 代碼訓(xùn)練:讓GPT-3.5模型具備更好的代碼生成與代碼理解能力,同時讓它間接擁有了進(jìn)行復(fù)雜推理的能力。
● 指示微調(diào):讓GPT-3.5模型具備更好的泛化能力,同時使模型的生成結(jié)果更加符合人類的預(yù)期。
最新版本的GPT-3.5模型gpt-3.5-turbo于2023年3月1日正式發(fā)布,隨即引起了人們對GPT-3.5 的極大興趣。gpt-3.5-turbo 和 gpt-3.5-turbo-0301 的主要區(qū)別是,gpt-3.5-turbo需要在content中指明具體的角色和問題內(nèi)容,而gpt-3.5-turbo-0301更加關(guān)注問題內(nèi)容,而不會特別關(guān)注具體的角色部分。OpenAI基于gpt-3.5-turbo-0301(官方日志顯示,此版模型將于2024年6月13日棄用,改用較新版本的gpt-3.5模型)進(jìn)一步優(yōu)化對話功能,ChatGPT就此誕生。
關(guān)于ChatGPT的技術(shù)原理,由于OpenAI還未公開論文(截至本書編寫時),可以通過官方博客的簡短描述來了解:
“我們使用RLHF來訓(xùn)練這個模型,使用與InstructGPT 相同的方法,但數(shù)據(jù)收集設(shè)置略有不同。我們使用有監(jiān)督微調(diào)訓(xùn)練了一個初始模型:AI訓(xùn)練師提供對話,他們同時扮演用戶和AI助手的角色。我們讓 AI 訓(xùn)練師獲得模型書面建議,以幫助他們撰寫回復(fù)。將這個新的對話數(shù)據(jù)集與InstructGPT數(shù)據(jù)集混合,并將其轉(zhuǎn)換為對話格式。為了創(chuàng)建強(qiáng)化學(xué)習(xí)的獎勵模型,需要收集比較數(shù)據(jù),其中包括兩個或多個按質(zhì)量排序的模型響應(yīng)。為了收集這些數(shù)據(jù),還進(jìn)行了 AI 訓(xùn)練師與聊天機(jī)器人的對話。隨機(jī)選擇了一個模型撰寫的消息,抽樣了幾個備選的答案,并讓 AI 訓(xùn)練師對其進(jìn)行排名。使用這些獎勵模型,可以使用近端策略優(yōu)化對模型進(jìn)行微調(diào)。我們對這個過程進(jìn)行了多次迭代。ChatGPT是在GPT-3.5系列中一個模型的基礎(chǔ)上進(jìn)行微調(diào)而產(chǎn)生的,該系列于2022年初完成了訓(xùn)練。ChatGPT和GPT 3.5也在Azure AI超級計算基礎(chǔ)設(shè)施上進(jìn)行了訓(xùn)練。”
接下來將進(jìn)一步對上面這段官方描述進(jìn)行解讀,探討一下有監(jiān)督微調(diào)如何讓ChatGPT適配符合人類對話特點(diǎn)的新型交互接口。
雖然 ChatGPT 的訓(xùn)練過程加入了數(shù)以萬計的人工標(biāo)注數(shù)據(jù),但與訓(xùn)練GPT-3.5模型所使用的數(shù)千億Token級別的數(shù)據(jù)量相比,這些數(shù)據(jù)包含的世界知識(事實(shí)與常識)微乎其微,幾乎可以忽略。因此,ChatGPT的強(qiáng)大功能應(yīng)主要得益于底層的GPT-3.5,GPT-3.5是理想的LLM中的關(guān)鍵組件。那么,ChatGPT是否為GPT-3.5模型注入了新知識呢?這是肯定的。這些新知識包含在數(shù)萬條人工標(biāo)注數(shù)據(jù)中,主要涉及人類偏好知識而非世界知識。首先,人類在表達(dá)任務(wù)時,傾向于使用一些習(xí)慣用語。例如,人們習(xí)慣說“把下面的句子從中文翻譯成英文”以表示機(jī)器翻譯的需求,然而LLM并非人類,如何理解這句話的含義并正確執(zhí)行呢?ChatGPT通過人工標(biāo)注數(shù)據(jù),向GPT-3.5注入了這類知識,使LLM能夠更好地理解人類命令,這是它能夠高度理解人類任務(wù)的關(guān)鍵。其次,對于回答質(zhì)量的評判,人類通常有自己的標(biāo)準(zhǔn)。例如,詳細(xì)的回答常被認(rèn)為是好的,而帶有歧視內(nèi)容的回答常被認(rèn)為是不好的。人類通過獎勵模型(Reward Model)向LLM反饋的數(shù)據(jù)中就包含了這類信息。總之,ChatGPT將人類偏好知識注入GPT-3.5,從而實(shí)現(xiàn)了一個既能理解人類語言,又有禮貌的LLM。顯然,ChatGPT的最大貢獻(xiàn)在于,基本實(shí)現(xiàn)了理想LLM的接口層,使LLM適應(yīng)人類習(xí)慣的命令表達(dá)方式,而不是反過來要求人類適應(yīng)LLM,費(fèi)勁地想出一個有效的命令。(這是在指示技術(shù)出現(xiàn)之前,提示技術(shù)所做的事情。)這大大提高了LLM的易用性和用戶體驗(yàn)。InstructGPT/ChatGPT首先意識到這個問題,并給出了很好的解決方案,這也是其最大的技術(shù)貢獻(xiàn)。相對于之前的少樣本提示,目前的解決方案更符合人類的表達(dá)習(xí)慣,為人類與LLM進(jìn)行交互提供了更自然、更高效的人機(jī)接口技術(shù)。而這必將啟發(fā)后續(xù)的LLM,在易用人機(jī)接口方面繼續(xù)進(jìn)行創(chuàng)新和優(yōu)化,使LLM更具服從性和人性化,進(jìn)一步提升人機(jī)交互的效果和質(zhì)量。
ChatGPT的各項能力來源和技術(shù)路線如圖1-5所示。

圖1-5 ChatGPT的各項能力來源和技術(shù)路線(根據(jù)OpenAI官方模型索引文檔進(jìn)行分析推測)
ChatGPT目前主要通過提示詞的方式進(jìn)行交互。然而,這種先進(jìn)的自然語言處理技術(shù)并不僅限于人類的自然對話場景,它的實(shí)際應(yīng)用遠(yuǎn)比想象中要更為廣泛且復(fù)雜。ChatGPT可在多種語言任務(wù)中展現(xiàn)卓越性能,例如自動文本生成、自動問答、自動摘要等。在自動文本生成方面,ChatGPT能夠根據(jù)輸入的文本自動生成類似的內(nèi)容。無論是劇本、歌曲、企劃書等創(chuàng)意性作品,還是商業(yè)報告、新聞稿等正式文檔,ChatGPT均可提供高質(zhì)量的輸出。在自動問答領(lǐng)域,ChatGPT 通過對輸入問題的深度理解,為用戶提供準(zhǔn)確且有價值的答案。此外,ChatGPT還具備編寫和調(diào)試計算機(jī)程序的能力,協(xié)助開發(fā)者解決編程難題。ChatGPT的高度智能化表現(xiàn)吸引了廣泛關(guān)注。它能夠撰寫接近真人水平的文章,對眾多知識領(lǐng)域內(nèi)的問題給出詳細(xì)且清晰的回答。這一突破性技術(shù)表明,即便是過去被認(rèn)為是AI無法取代的知識型工作,ChatGPT也有足夠的實(shí)力勝任,因此它對人力市場產(chǎn)生的沖擊將是相當(dāng)巨大的。這也意味著ChatGPT有潛力為各行各業(yè)帶來更高效的工作方式,推動整個社會進(jìn)一步發(fā)展。
作為OpenAI的一項杰出技術(shù),ChatGPT擁有廣闊的應(yīng)用前景和豐富的落地生態(tài),具體列舉如下。
● 在教育領(lǐng)域,它能自動批改作業(yè),推薦個性化學(xué)習(xí)資源,提供在線輔導(dǎo),甚至編寫教材。
● 在媒體和出版行業(yè),它能編寫新聞稿,撰寫廣告文案,進(jìn)行內(nèi)容審核,以及推薦閱讀內(nèi)容。
● 在金融領(lǐng)域,它能生成分析報告,進(jìn)行風(fēng)險評估,處理客戶服務(wù),乃至編寫財務(wù)報表。
● 在醫(yī)療健康行業(yè),它能整理醫(yī)學(xué)研究,提供初步診斷,回答患者疑問并制訂健康計劃。
● 在客戶服務(wù)行業(yè),它能提供智能客服,解答問題,分析客戶需求,推薦產(chǎn)品。
● 在人力資源行業(yè),它能篩選簡歷,編寫招聘廣告,生成面試問題,編寫培訓(xùn)材料。
● 在法律行業(yè),它能提供法律建議,編寫合同草案,解釋法律條款,分析法律案例。
● 在旅游和酒店行業(yè),它能定制旅行行程,編寫旅游攻略,處理酒店預(yù)訂,描述旅游景點(diǎn)。
● 在科研與技術(shù)行業(yè),它能生成論文摘要,檢索專利信息,提供合作伙伴建議,協(xié)助編寫和調(diào)試程序。
● 在娛樂行業(yè),它能生成創(chuàng)意作品,編寫游戲?qū)υ挘邉潬I銷活動,生成社交媒體內(nèi)容。
● 在互聯(lián)網(wǎng)行業(yè),它能進(jìn)行搜索引擎優(yōu)化,生成個性化搜索結(jié)果,提供智能推薦,管理社交網(wǎng)絡(luò),構(gòu)建用戶畫像,管理電商平臺,管理在線社區(qū)。
然而,ChatGPT并非完美無缺,OpenAI官方也指出了它存在的一些局限性和不足。比如,它可能生成看似合理但實(shí)際上錯誤的答案,對輸入短語的微小調(diào)整可能表現(xiàn)出較高的敏感性,有時可能過于冗長,對含糊的查詢不夠敏感,以及可能對有害的指令做出回應(yīng)或表現(xiàn)出偏見。但OpenAI正在積極尋求解決方案,并期待用戶積極給予反饋,以持續(xù)優(yōu)化ChatGPT。
總體來說,ChatGPT作為一款領(lǐng)先的人工智能聊天機(jī)器人,展現(xiàn)了卓越的自然語言處理能力,為各行各業(yè)帶來了廣闊的應(yīng)用前景。盡管存在局限性,但隨著技術(shù)的進(jìn)步,ChatGPT必將實(shí)現(xiàn)更高效的工作方式,推動各行業(yè)進(jìn)一步發(fā)展。
1.3.3 GPT-4和下一代GPT
從ChatGPT的介紹中我們可以看到,目前ChatGPT還有很多不足之處。那么,當(dāng)很多人興奮地關(guān)注和談?wù)揅hatGPT時,他們討論的到底是什么?筆者認(rèn)為,人們真正關(guān)注的是對未來的期望,是像GPT-4甚至GPT-5一樣強(qiáng)大的開放對話,多模態(tài)、跨學(xué)科技能,數(shù)不清的插件,強(qiáng)悍的n-shot學(xué)習(xí)能力……甚至未來真正的通用人工智能體AGI的可能性。隨著ChatGPT的面世,GPT-4很快也對公眾開放,AI發(fā)展歷史的里程碑不斷被刷新,落地應(yīng)用、框架和插件層出不窮,如AutoGPT、Semantic Kernel、微軟全產(chǎn)品系列Copilot、LangChain、斯坦福大學(xué)的研究者所進(jìn)行的Generative Agents實(shí)驗(yàn)等。
2023年3月14日,OpenAI發(fā)布了備受矚目的GPT-4,這一領(lǐng)先的大語言模型在科技領(lǐng)域掀起了軒然大波。OpenAI表示,GPT-4標(biāo)志著公司的一個重要里程碑出現(xiàn)了。這是一個大型多模態(tài)模型(接受圖像或文本形式的輸入,輸出文本),我們可以認(rèn)為它的出現(xiàn)標(biāo)志著AI第一次睜開雙眼理解這個世界。在官方發(fā)布的演示視頻中,OpenAI詳細(xì)介紹了 GPT-4 在解決更復(fù)雜問題、編寫更大規(guī)模代碼以及將圖片轉(zhuǎn)化為文字方面的卓越能力。此外,相比于GPT-3.5(即ChatGPT所采用的模型),OpenAI承諾GPT-4將具有更高的安全性和協(xié)同性能。GPT-4在回答問題的準(zhǔn)確性方面取得了顯著提升,同時在圖像識別能力、歌詞生成、創(chuàng)意文本創(chuàng)作和風(fēng)格變換等領(lǐng)域展現(xiàn)了更高水平的能力。此外,GPT-4的文字輸入限制得以擴(kuò)展至25000字,并在對非英語語種的支持上進(jìn)行了優(yōu)化。經(jīng)過6個月的努力,OpenAI利用對抗性測試程序和從ChatGPT中積累的經(jīng)驗(yàn),對GPT-4進(jìn)行了迭代調(diào)整。盡管該模型還有待進(jìn)一步完善,但OpenAI表示,GPT-4“在創(chuàng)造力和協(xié)作性方面達(dá)到了前所未有的高度”,并且“能夠更準(zhǔn)確地解決難題”。雖然GPT-4在許多現(xiàn)實(shí)世界場景中的能力仍無法與人類相媲美,但它在多種專業(yè)和學(xué)術(shù)基準(zhǔn)測試中達(dá)到了人類水平。總體來說,GPT-4 的表現(xiàn)令人嘆為觀止。關(guān)于AI在某些工作領(lǐng)域是否會取代人類,這種討論一直在進(jìn)行,GPT-4 的問世讓許多行業(yè)的從業(yè)者都產(chǎn)生了緊迫感。畢竟,在很多方面,人類似乎已經(jīng)難以與先進(jìn)的AI技術(shù)抗衡。
可以先通過一張圖(見圖1-6)快速了解GPT-4的典型能力,其中主要包括智力、綜合能力(多模態(tài)、跨學(xué)科)、大型程序編寫能力,以及與真實(shí)世界交互的能力(自主使用工具)。

圖1-6 GPT-4典型能力示例
通過OpenAI對GPT-4能力進(jìn)行論述的官方論文“GPT-4 Technical Report”可以看到,GPT-4新增了很多能力和技術(shù),同時也有不足和局限,接下來將逐一進(jìn)行分析說明。
GPT-4的新能力
1.大規(guī)模多模態(tài)
GPT-4是一個基于Transformer的大規(guī)模多模態(tài)模型,擁有億級參數(shù)規(guī)模。它能夠處理圖像和文本輸入,生成文本輸出,這使得GPT-4具有廣泛的應(yīng)用潛力,如對話系統(tǒng)、文本摘要和機(jī)器翻譯等。總之,GPT-4可以在文本和圖片處理領(lǐng)域發(fā)揮更大的作用。
2.超出人類級別的性能
GPT-4在各種專業(yè)和學(xué)術(shù)基準(zhǔn)測試中展示了超越人類水平的表現(xiàn)。例如,在模擬律師資格考試中,GPT-4的成績位于前10%的考生之列(參見論文“GPT-4 Passes the Bar Exam”),如圖1-7所示;GPT-4在美國多州律師考試MBE(Multistate Bar Exam)中的準(zhǔn)確率為75.7%,超過人類學(xué)生的平均成績,并大大超過ChatGPT及之前的GPT模型(GPT-2因全部回答錯誤而無成績);在GRE Verbal考試中,GPT-4達(dá)到了接近滿分的169分(滿分170分);在美國大學(xué)預(yù)修課程(AP)心理學(xué)考試中,GPT-4獲得了5分,這在AP考試中相當(dāng)于最高分。這些表現(xiàn)在很多方面超越了過去的大語言模型。

圖1-7 不同時期GPT模型在MBE上的表現(xiàn)
3.多語言能力
GPT-4在多種語言上的表現(xiàn)優(yōu)于現(xiàn)有的大語言模型。在MMLU基準(zhǔn)測試中,GPT-4 在除英語以外的多種語言上的表現(xiàn)都超過了現(xiàn)有模型,例如在拉脫維亞語、威爾士語和斯瓦希里語等低資源語言上的表現(xiàn)。這表明,GPT-4 的訓(xùn)練方法和模型結(jié)構(gòu)在不同語言之間具有較好的通用性。
4.支持的上下文長度增加
原始的GPT-3模型在2020年將最大請求值設(shè)置為2049個。在GPT-3.5中,這個值增加到4096個(大約3頁單行英文文本)。GPT-4有兩種變體,其中GPT-4-8K的上下文長度為8192個,而GPT-4-32K則可以處理多達(dá)32768個標(biāo)記,這相當(dāng)于大約50頁文本。雖然只是上下文長度的擴(kuò)增,但由此可以帶來大量新場景和用例。例如,可以憑借其處理50頁文本的能力,來創(chuàng)建更長的文本,分析和總結(jié)更大的文檔或報告,或者在不丟失上下文的情況下處理更多更深入的對話。正如Open AI總裁格雷格·布羅克曼(Greg Brockman)在接受TechCrunch采訪時所說的:“以前,該模型無法了解你是誰、你對什么感興趣等信息。有了這種背景,肯定更有能力……借助它,人們能夠做更多事情。”
5.可聯(lián)網(wǎng)并使用插件
官方給出的插件主要是網(wǎng)頁瀏覽插件和代碼執(zhí)行插件,這兩個重量級插件直接解決了之前GPT模型的訓(xùn)練數(shù)據(jù)為2021年9月前的數(shù)據(jù)這一瓶頸(無法給出超出數(shù)據(jù)集時間限制的回答),讓GPT-4可以任意瀏覽互聯(lián)網(wǎng)實(shí)時信息,進(jìn)行分析和回答,同時讓生成大型代碼的能力更加精準(zhǔn)可控。可接入第三方插件的功能則是徹底解除了GPT模型的限制,可以快速建立龐大豐富的應(yīng)用生態(tài)圈。并且,GPT-4可以自主選擇使用的工具項,無須人工指定,也可以自主創(chuàng)建插件供GPT-4自己使用,這也增加了大量應(yīng)用場景的可能性。
6.多模態(tài)思維鏈
作為大語言模型涌現(xiàn)的核心能力之一,思維鏈(Chain of Thought)的形成機(jī)制可以解釋為:模型通過學(xué)習(xí)大量的語言數(shù)據(jù)來構(gòu)建一個關(guān)于語言結(jié)構(gòu)和意義的內(nèi)在表示,通過一系列中間自然語言推理步驟來完成最終輸出。可以說,思維鏈?zhǔn)荂hatGPT和GPT-4能讓大眾感覺語言模型像“人”的關(guān)鍵特性。雖然GPT-4這些模型并非具備真正的意識或思考能力,但用類似于人的推理方式的思維鏈來提示語言模型,極大地提高了GPT-4在推理任務(wù)上的表現(xiàn),打破了微調(diào)(Fine- tune)的平坦曲線。具備了多模態(tài)思維鏈能力的GPT-4模型具有一定的邏輯分析能力,已經(jīng)不是傳統(tǒng)意義上的詞匯概率逼近模型。通過多模態(tài)思維鏈技術(shù),GPT-4將一個多步驟的問題(例如圖表推理)分解為可以單獨(dú)解決的中間步驟,進(jìn)一步增強(qiáng)GPT-4的表達(dá)和推理能力。
GPT-4采用的新技術(shù)
1.可預(yù)測的擴(kuò)展
GPT-4項目的重點(diǎn)之一是開發(fā)可預(yù)測擴(kuò)展的深度學(xué)習(xí)棧。通過使用與GPT-4相似的方法訓(xùn)練較小規(guī)模的模型,可以預(yù)測GPT-4在各種規(guī)模上的優(yōu)化方法表現(xiàn),從而能夠借助需要更少計算資源的較小模型去準(zhǔn)確預(yù)測GPT-4的性能。
2.損失預(yù)測
GPT-4的最終損失可以通過對模型訓(xùn)練中使用的計算量進(jìn)行冪律擬合來預(yù)測。根據(jù)赫尼根(Henighan)等人的研究,擬合出了一個包含不可約損失項的縮放定律:
(1)
這樣就可以通過擬合較小規(guī)模模型的損失來準(zhǔn)確預(yù)測GPT-4的最終損失。
3.預(yù)測人類評估性能
OpenAI開發(fā)了預(yù)測更具解釋性的能力指標(biāo)的方法,如在HumanEval數(shù)據(jù)集上的通過率。通過從使用1/1000倍乃至更少計算資源的較小模型中進(jìn)行外推,團(tuán)隊成功地預(yù)測了GPT-4在HumanEval數(shù)據(jù)集子集上的通過率。這表明,我們可以在早期階段預(yù)測GPT-4在具體任務(wù)上的性能,為未來大型模型的訓(xùn)練提供有價值的參考。
4.使用基于人類反饋的強(qiáng)化學(xué)習(xí)進(jìn)行微調(diào)
GPT-4通過使用基于人類反饋強(qiáng)化學(xué)習(xí)(RLHF)進(jìn)行微調(diào),生成更符合用戶意圖的響應(yīng);同時,RLHF 微調(diào)也有助于降低模型在不安全輸入上的脆弱性,減少不符合用戶意圖的響應(yīng)。
5.基于規(guī)則的獎勵模型
該模型使用GPT-4自身作為工具,利用基于規(guī)則的獎勵模型(RBRM)為GPT-4在RLHF微調(diào)過程中提供更精確的獎勵信號。RBRM通過檢查模型生成的輸出與人類編寫的評估標(biāo)準(zhǔn)是否一致,對輸出進(jìn)行分類,從而為GPT-4提供正確行為的獎勵信號。
6.模型輔助安全流程
通過領(lǐng)域?qū)<业膶箿y試、紅隊評估,以及使用模型輔助安全流程等方法,可以評估和改進(jìn)GPT-4的安全性。這些方法有助于降低GPT-4產(chǎn)生虛假及有害內(nèi)容的風(fēng)險,并提高它在安全輸入上的表現(xiàn)。
GPT-4的不足和局限
1.可靠性不足
盡管GPT-4在許多任務(wù)上表現(xiàn)出色,但它并不完全可靠。GPT-4在生成輸出時可能產(chǎn)生“幻覺”現(xiàn)象,例如會錯誤地生成某些事實(shí)或進(jìn)行錯誤的推理,因此在使用GPT-4生成的輸出時,尤其是在高風(fēng)險場景中,應(yīng)謹(jǐn)慎。
2.有限的上下文窗口
GPT-4具有有限的上下文窗口,這意味著它在處理長篇文本時可能會遇到困難。盡管GPT-4在短文本任務(wù)上表現(xiàn)出色,但對于涉及長篇閱讀理解的任務(wù),GPT-4可能無法做出準(zhǔn)確判斷。
3.不從經(jīng)驗(yàn)中學(xué)習(xí)
GPT-4不具備從經(jīng)驗(yàn)中學(xué)習(xí)的能力,這意味著盡管GPT-4可以處理大量的輸入數(shù)據(jù),但它無法從過去的錯誤中學(xué)習(xí)以改進(jìn)未來的輸出。
4.容易受到對抗攻擊
GPT-4在面對對抗性輸入時可能會產(chǎn)生不良行為,如生成有害內(nèi)容或錯誤信息。盡管已經(jīng)采取了一系列措施來提高GPT-4的安全性,但在面對惡意用戶時,GPT-4仍然可能會受到攻擊。
5.偏見
GPT-4在輸出中可能存在各種偏見。這些偏見可能來自訓(xùn)練數(shù)據(jù),導(dǎo)致模型生成不公平或有害的輸出。雖然已經(jīng)采取了措施來糾正這些偏見,但完全消除它們?nèi)匀恍枰獣r間和努力。
6.過度自信
GPT-4在預(yù)測時可能表現(xiàn)出過度自信,即使在可能犯錯誤的情況下也不會仔細(xì)檢查工作。這可能導(dǎo)致模型在某些任務(wù)上的表現(xiàn)不如預(yù)期。
盡管 GPT-4 具有這些不足和局限,但它在許多方面的性能仍然有顯著的提高。為了充分利用GPT-4 的潛力并降低潛在風(fēng)險,應(yīng)該在使用模型時采取適當(dāng)?shù)拇胧鐚敵鲞M(jìn)行人工審查,在關(guān)鍵場景中避免使用模型或通過監(jiān)控模型的使用來監(jiān)測濫用行為。
正如本節(jié)開頭所述,人們期待和關(guān)注的是GPT-5甚至未來的GPT-X到底會達(dá)到什么樣的高度?所有人夢想中的AGI是否會真正實(shí)現(xiàn)?關(guān)于這些問題,等到 GPT-4發(fā)布后,全球?qū)τ贠penAI的關(guān)注度進(jìn)一步提升。格雷格·布羅克曼在2023年的一次采訪中說道:“OpenAI正在測試GPT-4高級版本,它將是普通GPT-4存儲內(nèi)容能力的5倍。”雖然OpenAI的官網(wǎng)中并沒有任何關(guān)于下一代GPT產(chǎn)品的預(yù)告和介紹,但通過使用最新一代GPT-4-32K,可以對OpenAI未來的產(chǎn)品進(jìn)行預(yù)測,也可以感受到人們對未來的期許。在主要技術(shù)方向和性能改進(jìn)方面,GPT-5很有可能具備以下特點(diǎn)。
1.更加準(zhǔn)確和流暢
GPT-5可能會在語言理解和生成方面更加準(zhǔn)確和流暢,包括更好的上下文理解能力、更豐富的知識圖譜和推理能力、更高級的對話和問答能力等。例如,它可能具備95%以上的自然語言處理任務(wù)準(zhǔn)確率,以及更高的語義相似度評分。
2.更多模態(tài)
GPT-5可能會加強(qiáng)對多模態(tài)數(shù)據(jù)的理解和生成能力,包括圖像、視頻、音頻等。這將有助于GPT更好地分析和處理多媒體數(shù)據(jù),使其在虛擬助手、智能家居、虛擬現(xiàn)實(shí)等多個應(yīng)用領(lǐng)域內(nèi)的表現(xiàn)更為優(yōu)秀。
3.提高可靠性
為了減少生成輸出時的“幻覺”現(xiàn)象,可以研究一種在生成過程中引入事實(shí)驗(yàn)證和邏輯推理的機(jī)制。此外,可以通過引入人類專家的知識和反饋,訓(xùn)練模型更好地理解并生成可靠的輸出。
4.?dāng)U展上下文長度
為了解決長篇文本處理的問題,可以通過某種新的架構(gòu)使GPT-5能夠處理更長的上下文長度。例如,可以通過在模型中引入記憶機(jī)制或者將注意力分層,使GPT-5更好地處理需要長篇閱讀理解的任務(wù)。
5.從經(jīng)驗(yàn)中學(xué)習(xí)
為了讓 GPT-5 具備從經(jīng)驗(yàn)中學(xué)習(xí)的能力,可以利用某種在線學(xué)習(xí)技術(shù),使模型能夠在運(yùn)行過程中不斷更新權(quán)重并優(yōu)化自身表現(xiàn),從而使GPT-5能夠從過去的錯誤中學(xué)習(xí),進(jìn)一步地提高未來的輸出質(zhì)量。
6.提高抗對抗攻擊能力
為了應(yīng)對對抗性輸入,可以通過新的健壯性訓(xùn)練方法使GPT-5在面對惡意輸入時能夠維持正常行為。此外,還可以開發(fā)某種輸入過濾器來識別和過濾潛在的對抗性輸入。
7.減少偏見
為了消除模型輸出中的偏見,可以采用某種公平性訓(xùn)練方法,以確保模型在訓(xùn)練過程中不會吸收數(shù)據(jù)中的有害偏見。此外,還可以通過引入外部知識和人類反饋來糾正模型生成的不公平或有害輸出。
8.控制過度自信
為了防止 GPT-5 在預(yù)測時過度自信,可以利用某種新的不確定性估計技術(shù),使模型能夠在預(yù)測時正確評估自身的不確定性。通過這種方法,GPT-5 將能夠在面對可能出錯的情況時,更加謹(jǐn)慎地生成輸出。
9.可解釋性和透明度
GPT-5也可能會更注重可解釋性和透明度,使其生成的結(jié)果更加可靠,更易于被人類理解和接受。為了實(shí)現(xiàn)這一目標(biāo),GPT-5 可能會采用新型可解釋神經(jīng)網(wǎng)絡(luò)架構(gòu)和注意力機(jī)制來提高模型的可解釋性。
通過這些改進(jìn),GPT-5應(yīng)該能夠更好地滿足人們不斷增長的語言和認(rèn)知需求,提供更加智能化和個性化的服務(wù)和支持,為人類帶來更多有益的幫助。
關(guān)于未來,OpenAI在GPT-4技術(shù)報告中是這樣闡述的:“GPT-4和后續(xù)模型有可能以有益和有害的方式極大地影響社會。我們正在與外部研究人員合作,以改進(jìn)我們理解和評估潛在影響的方式,并對未來系統(tǒng)中可能出現(xiàn)的危險能力進(jìn)行評估。我們將很快分享更多關(guān)于GPT-4和其他AI系統(tǒng)對社會和經(jīng)濟(jì)的潛在影響的想法。”此外,各互聯(lián)網(wǎng)巨頭也紛紛表達(dá)對 GPT-5 的擔(dān)憂,并且號召聯(lián)名阻止進(jìn)行GPT-5相關(guān)實(shí)驗(yàn)。2023年5月2日,“深度學(xué)習(xí)三巨頭”之一暨2018年圖靈獎得主杰弗里·欣頓(Geoffrey Hinton)發(fā)表推文證實(shí)他已經(jīng)從谷歌離職,同時也表達(dá)了對AI失控的危機(jī)感(“推文強(qiáng)調(diào)了他離開是為了讓公眾了解AI的危險”)。
未來的多模態(tài)大模型技術(shù)將對每個人的生活和工作產(chǎn)生一系列深遠(yuǎn)的影響。
GPT將極大地影響資訊和社交媒體領(lǐng)域。在未來,GPT-X等技術(shù)生成的內(nèi)容可能會在互聯(lián)網(wǎng)上廣泛傳播,使人難以分辨在線觀點(diǎn)究竟源于真實(shí)的公眾聲音,還是算法生成的“中心服務(wù)器的聲音”。民眾可能會盲從于GPT-X等技術(shù)生成的觀點(diǎn),導(dǎo)致人類淪為機(jī)器的復(fù)讀機(jī)。同時,GPT-X等工具可能會大量滲透普通人的社交互動,使人際溝通方式逐漸模式化。
AI將大量替代低端重復(fù)性溝通和多模態(tài)工作。GPT-X等技術(shù)可能會與機(jī)器人技術(shù)相結(jié)合,從云端滲透終端設(shè)備,進(jìn)入每個人的日常生活當(dāng)中。操作系統(tǒng)和辦公軟件的交互界面可能會受到大模型的主宰。雖然一開始有很多人可能會因?yàn)?AI 技術(shù)的替代而失業(yè),但更多人逐漸會借助GPT-X等技術(shù)提高工作效率,并成為自然語言程序員。人類開始將機(jī)器作為工具,而創(chuàng)造力和自然情感將成為人類能夠堅守的寶貴特質(zhì)。
各種考核將從知識型考核轉(zhuǎn)向綜合能力考核。知識儲備和外語技能逐漸變得不再重要,工作經(jīng)驗(yàn)和技術(shù)經(jīng)驗(yàn)的價值將取決于是否擁有更先進(jìn)的GPT模型或算力資源。一些曾經(jīng)的熱門專業(yè)可能會逐漸衰落,未來人類將從人類內(nèi)部的競爭過渡到人機(jī)間的競爭,高層次能力的競爭也將更加激烈。
盡管誰也不知道GPT未來的發(fā)展路線,但正如OpenAI在GPT-4技術(shù)報告中所說的那樣,不管是有益還是有害,GPT的后續(xù)模型有可能會“對社會產(chǎn)生重大影響”。
- 深度思考:人工智能的終點(diǎn)與人類創(chuàng)造力的起點(diǎn)
- 空間計算:人工智能驅(qū)動的新商業(yè)革命
- 移動機(jī)器人技術(shù)及其應(yīng)用
- PyTorch神經(jīng)網(wǎng)絡(luò)實(shí)戰(zhàn):移動端圖像處理
- AIGC輔助軟件開發(fā):ChatGPT 10倍效率編程實(shí)戰(zhàn)
- 中國人工智能創(chuàng)新鏈產(chǎn)業(yè)鏈技術(shù)專利發(fā)展研究
- 深度學(xué)習(xí)之TensorFlow:入門、原理與進(jìn)階實(shí)戰(zhàn)
- 無人機(jī):知道這些就夠了
- 人工智能極簡編程入門:基于Python
- Web3超入門
- 基于NI Multisim 11的PLD/PIC/PLC的仿真設(shè)計
- 人工智能的神話或悲歌
- 洞察AIGC:智能創(chuàng)作的應(yīng)用、機(jī)遇與挑戰(zhàn)
- 人工智能:理論基礎(chǔ)+商業(yè)落地+實(shí)戰(zhàn)場景+案例分析
- 智能運(yùn)維技術(shù)及應(yīng)用