- 深度對話GPT-4提示工程實戰
- 仇華
- 11681字
- 2024-07-05 18:01:28
1.3 ChatGPT和GPT-4的成長故事
學習一個世界模型,從表面上看,神經網絡只是在學習文本中的統計相關性,但實際上,這些就足以把知識壓縮得非常好。神經網絡所學習的是它在生成文本的過程中的一些表述。文本實際上是這個世界的一個映射,因此神經網絡學習的是有關這個世界多方面的知識。
—— Ilya Sutskever
1.3.1 GPT系列的逆襲之路
自然語言處理領域近年來取得了顯著進展,其中最具代表性的就是各種大語言模型技術的突破。雖然早期GPT并未受到廣泛關注,但隨著模型的不斷優化和擴展,GPT已在自然語言處理領域嶄露頭角。接下來,我們來看一看GPT系列的逆襲之路,包括它與其他大語言模型的差異、早期的不足及后期優化的過程。
GPT與其他大語言模型的差異
在深度探討GPT與其他大語言模型的區別之前,首先要對各類模型的基本特性和優劣進行全面理解。這將有助于更深入地理解GPT與BERT、LSTM等模型的差異。
相較于GPT,BERT模型采用了一種雙向Transformer架構,并且在訓練過程中運用了掩碼語言建模和下一句預測的方法,因此能夠更全面地捕捉雙向上下文信息,然而這也導致它在生成任務上的表現力相對較弱。反觀GPT,它采用了單向Transformer架構,專注于生成任務,但在捕捉雙向上下文信息方面的能力相對較弱。BERT的雙向Transformer架構,使模型在處理文本時能夠同時考慮上下文信息,因此在理解文本語義和句法結構方面具有極大的優勢,但由于BERT模型在訓練過程中采用掩碼語言建模方式,它生成任務的能力受到了限制。
與之相反,GPT 的單向 Transformer 架構,使模型在處理文本時只需考慮上文信息。這種設計簡化了模型的訓練過程,從而讓GPT在生成任務上極具優勢,但也限制了它在捕捉雙向上下文信息方面的能力。
在GPT和BERT出現之前,長短期記憶網絡是處理序列任務的主流方法。然而,隨著GPT和BERT等Transformer模型的出現,長短期記憶網絡在許多任務上的優勢逐漸被削弱。相比之下,GPT和BERT等Transformer模型在并行計算、長距離依賴等方面具有更大的優勢。長短期記憶網絡作為一種經典的循環神經網絡結構,能夠有效地處理序列數據,通過引入門控機制解決了傳統循環神經網絡中的長程依賴問題。然而,長短期記憶網絡在處理長序列時仍受到計算復雜度和并行性的限制。
GPT早期的不足
GPT-1
2018年6月11日,OpenAI發布了一篇題為“Improving Language Understanding by Generative Pre-Training”的研究論文,詳細闡述了“基于 Transformer 的生成式預訓練模型”(Generative Pre-trained Transformer,GPT)的概念。由于后續又陸續推出了更多模型,所以為了區分,這里稱之為GPT-1。當時,最先進的自然語言生成模型主要依賴于大量手動標注數據進行監督學習。這種依賴于人類監督學習的方法限制了模型在未經精細標注的數據集上的應用。同時,許多語言(如斯瓦希里語或海地克里奧爾語)由于缺乏足夠的語料庫,導致實際應用(如翻譯和解釋)的難度較大。此外,訓練超大型模型所需的時間和成本也相當高。相比之下,GPT-1 提出了一種被稱為“半監督”(semi-supervised)的方法,后來該方法被普遍稱為“自監督”:首先在無標簽數據上訓練一個預訓練模型,然后在少量標注數據上訓練一個用于識別的微調模型。GPT-1 的訓練數據源于BookCorpus,這是一個包含7000本未出版圖書的語料庫,總大小為4.5 GB。這些書由于尚未發布,因此很難在下游數據集中找到,這有助于驗證模型的泛化能力。這些書覆蓋了各種不同的文學流派和主題,模型參數數量達到 1.2 億個。自此,研究人員開始相信大模型的力量,大模型時代就此開啟。作為GPT系列的起點,GPT-1采用了單向Transformer架構并進行無監督預訓練。盡管在當時,GPT-1在某些自然語言處理任務上取得了不錯的成績,但它的規模和性能相對有限,且在捕捉雙向上下文信息方面較為薄弱。
GPT-1的不足之處主要體現在以下四個方面。
● 規模限制:GPT-1 的規模較小,參數數量約為 1.17 億個。這種規模限制使得GPT-1在面對復雜任務時性能受限,也影響了模型的泛化能力。
● 雙向上下文信息捕捉能力不足:由于GPT-1采用單向Transformer架構,因此它在處理文本時只能考慮給定詞之前的上下文信息,這在某種程度上限制了它在理解文本語義和句法結構方面的能力。
● 訓練數據規模問題:GPT-1的訓練數據規模相對較小,導致它在面對復雜任務時性能欠佳。此外,訓練數據規模的不足也影響了模型在泛化能力方面的表現。
● 訓練數據多樣性問題:GPT-1的訓練數據多樣性不足,導致模型在處理特定領域和多語言任務時表現不佳。例如,GPT-1在處理特定領域文本和多語言任務時可能無法準確捕捉到相關知識。
GPT-1和BERT模型的對比如表1-1所示。
表1-1 GPT-1和BERT模型的對比

GPT的優化之路
1.GPT-2
2019年2月,OpenAI在GPT-1的基礎上又發布了GPT-2,并發表了論文“Language Models are Unsupervised Multitask Learners”。GPT-2在許多方面都得到了優化和擴展,OpenAI去掉了GPT-1階段的有監督微調(Fine-tuning),聚焦無監督、零樣本學習(Zero-shot Learning)。模型參數的數量從1.17億個增加到了15億個,訓練數據規模也得到了大幅擴充。這使得GPT-2在自然語言生成任務上表現出色,甚至引發了一些關于AI生成內容的倫理討論。
與GPT-1相比,GPT-2的優勢體現在于以下兩方面。
● 參數擴展:GPT-2的參數數量達到了15億個,這使模型在處理復雜任務時性能更強。同時,參數數量的增加也提高了模型的泛化能力。
● 訓練數據擴展:GPT-2的數據集為WebText,WebText是一個包含800萬個文檔的語料庫,總大小為40GB。這些文本是從Reddit上投票最高的4500萬個網頁中收集的,包括各類主題和來源,例如新聞、論壇、博客、維基百科和社交媒體等,其中也包括更多特定領域的文本和多語言內容。這使GPT-2在處理特定領域和多語言任務上表現更加出色。
2.GPT-3
2020年5月,OpenAI發表了關于GPT-3的論文“Language Models are Few-Shot Learners”。GPT-3的模型規模進一步擴大,擁有1750億個參數,訓練數據覆蓋了整個互聯網的大部分文本信息。改進的算法、強大的算力和更多的數據,推動了 AI 革命,讓GPT-3成為當時最先進的語言模型。GPT-3在許多NLP數據集上都有很強的性能,包括翻譯、問題解答和完形填空等任務,以及一些需要動態推理或領域適應的任務(如解譯單詞,以及在句子中使用一個新單詞或執行算術運算)。它在多個NLP任務上表現出的驚人性能甚至可以和人類專家相媲美。
GPT-3的優勢體現在以下兩方面。
● 規模優勢:GPT-3的規模達到了前所未有的水平,擁有1750億個參數。這種規模優勢使GPT-3在處理各種復雜任務時具有更強的性能,同時提高了模型的泛化能力。
● 訓練數據優勢:GPT-3的數據集為570 GB的大規模文本語料庫,其中包含約4000億個標記。這些數據主要來自CommonCrawl、WebText、英文維基百科和兩個書籍語料庫(Books1和Books2)。訓練數據包括了整個互聯網的大部分文本信息,這使得模型在學習豐富的語言知識方面具有更大的優勢。此外,訓練數據的擴充也使得GPT-3在處理特定領域和多語言任務上的表現更加優異。
從GPT-1到GPT-3的模型對比如表1-2所示。
表1-2 GPT-1、GPT-2和GPT-3模型對比

GPT的優越性在于其深度和廣度。Open AI的開發團隊對數據質量進行了精細打磨,例如剔除了重復和低質量文本,使GPT能夠扎根于高質量語言知識的沃土。同時,他們也通過加入更多領域的特定文本以及多語言和多文化內容,擴大了GPT的視野和理解能力,使它在特定場景和多語言任務中表現出色。
GPT在生成任務上的優越性源于其獨特的單向Transformer架構,使它在自然語言生成任務上領先于BERT等雙向Transformer模型。此外,GPT采用基于自回歸語言模型的無監督預訓練策略,能夠通過大量無標注數據進行自我學習和提升,從而在多個自然語言處理任務上取得顯著成功。
然而,GPT強大的生成能力也帶來了潛在的問題,比如可能會生成不真實或有害的內容,如虛假新聞、詐騙信息等。因此,需要采取相應的技術措施和制訂政策法規來確保GPT的安全使用。另外,GPT在訓練過程中可能會受到訓練數據中存在的偏見的影響,因此我們需要在訓練過程中關注偏見問題,并采用相應的策略來減輕偏見對模型的影響。
對于未來而言,GPT的發展趨勢和挑戰在于提高模型性能、降低計算資源消耗和提高模型可解釋性。為了使GPT在更多任務上有優異的表現,需要不斷優化模型架構和訓練策略,提高模型的性能。為了降低計算資源消耗,可以研究如何提高模型的計算效率,或者采用知識蒸餾等技術來壓縮模型的規模。另外,為了增強GPT在實際應用中的可靠性,需要研究如何提高模型的可解釋性。
總而言之,GPT 在不斷地自我挑戰和優化,它在自然語言處理領域的潛力和成果無疑是顯著的。然而,我們也需要關注GPT面臨的倫理與安全問題,確保它能夠安全可靠地為人類服務。作為一個開源項目,GPT的發展也為開源社區帶來了新的機遇和挑戰,推動著整個人工智能行業的進步。
1.3.2 ChatGPT產品化之旅
終于,OpenAI的明星產品ChatGPT誕生了。2022年11 月,OpenAI推出了人工智能聊天機器人程序ChatGPT,在此前的GPT基礎上增加了Chat屬性。開放公眾測試后,僅上線兩個月,ChatGPT的活躍用戶數就超過一億,而達到這個用戶數量,電話用了75年,手機用了16年,互聯網用了7年。在繼續介紹之前,先用圖1-4中的ChatGPT的產品化歷程來概括一下ChatGPT的誕生過程。

圖1-4 ChatGPT的產品化歷程
2022年2月,OpenAI進一步強化了GPT-3,推出了InstructGPT模型,采用來自人類反饋的強化學習(Reinforcement Learning from Human Feedback,RLHF),并采用高效的近端策略優化(Proximal Policy Optimization,PPO)算法作為強化學習的優化技術,訓練出獎勵模型(reward model)去訓練學習模型,賦予GPT理解人類指令的能力。
2022年3月15日,OpenAI發布了名為text-davinci-003的全新版本GPT-3,據稱比之前的版本更加強大。該模型基于截至2021年6月的數據進行訓練,因此比之前版本的模型(訓練時使用的是截至2019年10月的數據)更具有時效性。8個月后,OpenAI開始將該模型納入GPT-3.5系列。有五款不同的模型屬于GPT-3.5系列,其中4款分別是text-davinci-002、text-davinci-003、gpt-3.5-turbo和gpt-3.5-turbo-0301,它們是針對文本任務而優化的;另外一款是code-davinci-002,即Codex的base model,它是針對代碼任務而優化的。
與GPT-3相比,GPT-3.5增加了以下功能。
● 代碼訓練:讓GPT-3.5模型具備更好的代碼生成與代碼理解能力,同時讓它間接擁有了進行復雜推理的能力。
● 指示微調:讓GPT-3.5模型具備更好的泛化能力,同時使模型的生成結果更加符合人類的預期。
最新版本的GPT-3.5模型gpt-3.5-turbo于2023年3月1日正式發布,隨即引起了人們對GPT-3.5 的極大興趣。gpt-3.5-turbo 和 gpt-3.5-turbo-0301 的主要區別是,gpt-3.5-turbo需要在content中指明具體的角色和問題內容,而gpt-3.5-turbo-0301更加關注問題內容,而不會特別關注具體的角色部分。OpenAI基于gpt-3.5-turbo-0301(官方日志顯示,此版模型將于2024年6月13日棄用,改用較新版本的gpt-3.5模型)進一步優化對話功能,ChatGPT就此誕生。
關于ChatGPT的技術原理,由于OpenAI還未公開論文(截至本書編寫時),可以通過官方博客的簡短描述來了解:
“我們使用RLHF來訓練這個模型,使用與InstructGPT 相同的方法,但數據收集設置略有不同。我們使用有監督微調訓練了一個初始模型:AI訓練師提供對話,他們同時扮演用戶和AI助手的角色。我們讓 AI 訓練師獲得模型書面建議,以幫助他們撰寫回復。將這個新的對話數據集與InstructGPT數據集混合,并將其轉換為對話格式。為了創建強化學習的獎勵模型,需要收集比較數據,其中包括兩個或多個按質量排序的模型響應。為了收集這些數據,還進行了 AI 訓練師與聊天機器人的對話。隨機選擇了一個模型撰寫的消息,抽樣了幾個備選的答案,并讓 AI 訓練師對其進行排名。使用這些獎勵模型,可以使用近端策略優化對模型進行微調。我們對這個過程進行了多次迭代。ChatGPT是在GPT-3.5系列中一個模型的基礎上進行微調而產生的,該系列于2022年初完成了訓練。ChatGPT和GPT 3.5也在Azure AI超級計算基礎設施上進行了訓練。”
接下來將進一步對上面這段官方描述進行解讀,探討一下有監督微調如何讓ChatGPT適配符合人類對話特點的新型交互接口。
雖然 ChatGPT 的訓練過程加入了數以萬計的人工標注數據,但與訓練GPT-3.5模型所使用的數千億Token級別的數據量相比,這些數據包含的世界知識(事實與常識)微乎其微,幾乎可以忽略。因此,ChatGPT的強大功能應主要得益于底層的GPT-3.5,GPT-3.5是理想的LLM中的關鍵組件。那么,ChatGPT是否為GPT-3.5模型注入了新知識呢?這是肯定的。這些新知識包含在數萬條人工標注數據中,主要涉及人類偏好知識而非世界知識。首先,人類在表達任務時,傾向于使用一些習慣用語。例如,人們習慣說“把下面的句子從中文翻譯成英文”以表示機器翻譯的需求,然而LLM并非人類,如何理解這句話的含義并正確執行呢?ChatGPT通過人工標注數據,向GPT-3.5注入了這類知識,使LLM能夠更好地理解人類命令,這是它能夠高度理解人類任務的關鍵。其次,對于回答質量的評判,人類通常有自己的標準。例如,詳細的回答常被認為是好的,而帶有歧視內容的回答常被認為是不好的。人類通過獎勵模型(Reward Model)向LLM反饋的數據中就包含了這類信息。總之,ChatGPT將人類偏好知識注入GPT-3.5,從而實現了一個既能理解人類語言,又有禮貌的LLM。顯然,ChatGPT的最大貢獻在于,基本實現了理想LLM的接口層,使LLM適應人類習慣的命令表達方式,而不是反過來要求人類適應LLM,費勁地想出一個有效的命令。(這是在指示技術出現之前,提示技術所做的事情。)這大大提高了LLM的易用性和用戶體驗。InstructGPT/ChatGPT首先意識到這個問題,并給出了很好的解決方案,這也是其最大的技術貢獻。相對于之前的少樣本提示,目前的解決方案更符合人類的表達習慣,為人類與LLM進行交互提供了更自然、更高效的人機接口技術。而這必將啟發后續的LLM,在易用人機接口方面繼續進行創新和優化,使LLM更具服從性和人性化,進一步提升人機交互的效果和質量。
ChatGPT的各項能力來源和技術路線如圖1-5所示。

圖1-5 ChatGPT的各項能力來源和技術路線(根據OpenAI官方模型索引文檔進行分析推測)
ChatGPT目前主要通過提示詞的方式進行交互。然而,這種先進的自然語言處理技術并不僅限于人類的自然對話場景,它的實際應用遠比想象中要更為廣泛且復雜。ChatGPT可在多種語言任務中展現卓越性能,例如自動文本生成、自動問答、自動摘要等。在自動文本生成方面,ChatGPT能夠根據輸入的文本自動生成類似的內容。無論是劇本、歌曲、企劃書等創意性作品,還是商業報告、新聞稿等正式文檔,ChatGPT均可提供高質量的輸出。在自動問答領域,ChatGPT 通過對輸入問題的深度理解,為用戶提供準確且有價值的答案。此外,ChatGPT還具備編寫和調試計算機程序的能力,協助開發者解決編程難題。ChatGPT的高度智能化表現吸引了廣泛關注。它能夠撰寫接近真人水平的文章,對眾多知識領域內的問題給出詳細且清晰的回答。這一突破性技術表明,即便是過去被認為是AI無法取代的知識型工作,ChatGPT也有足夠的實力勝任,因此它對人力市場產生的沖擊將是相當巨大的。這也意味著ChatGPT有潛力為各行各業帶來更高效的工作方式,推動整個社會進一步發展。
作為OpenAI的一項杰出技術,ChatGPT擁有廣闊的應用前景和豐富的落地生態,具體列舉如下。
● 在教育領域,它能自動批改作業,推薦個性化學習資源,提供在線輔導,甚至編寫教材。
● 在媒體和出版行業,它能編寫新聞稿,撰寫廣告文案,進行內容審核,以及推薦閱讀內容。
● 在金融領域,它能生成分析報告,進行風險評估,處理客戶服務,乃至編寫財務報表。
● 在醫療健康行業,它能整理醫學研究,提供初步診斷,回答患者疑問并制訂健康計劃。
● 在客戶服務行業,它能提供智能客服,解答問題,分析客戶需求,推薦產品。
● 在人力資源行業,它能篩選簡歷,編寫招聘廣告,生成面試問題,編寫培訓材料。
● 在法律行業,它能提供法律建議,編寫合同草案,解釋法律條款,分析法律案例。
● 在旅游和酒店行業,它能定制旅行行程,編寫旅游攻略,處理酒店預訂,描述旅游景點。
● 在科研與技術行業,它能生成論文摘要,檢索專利信息,提供合作伙伴建議,協助編寫和調試程序。
● 在娛樂行業,它能生成創意作品,編寫游戲對話,策劃營銷活動,生成社交媒體內容。
● 在互聯網行業,它能進行搜索引擎優化,生成個性化搜索結果,提供智能推薦,管理社交網絡,構建用戶畫像,管理電商平臺,管理在線社區。
然而,ChatGPT并非完美無缺,OpenAI官方也指出了它存在的一些局限性和不足。比如,它可能生成看似合理但實際上錯誤的答案,對輸入短語的微小調整可能表現出較高的敏感性,有時可能過于冗長,對含糊的查詢不夠敏感,以及可能對有害的指令做出回應或表現出偏見。但OpenAI正在積極尋求解決方案,并期待用戶積極給予反饋,以持續優化ChatGPT。
總體來說,ChatGPT作為一款領先的人工智能聊天機器人,展現了卓越的自然語言處理能力,為各行各業帶來了廣闊的應用前景。盡管存在局限性,但隨著技術的進步,ChatGPT必將實現更高效的工作方式,推動各行業進一步發展。
1.3.3 GPT-4和下一代GPT
從ChatGPT的介紹中我們可以看到,目前ChatGPT還有很多不足之處。那么,當很多人興奮地關注和談論ChatGPT時,他們討論的到底是什么?筆者認為,人們真正關注的是對未來的期望,是像GPT-4甚至GPT-5一樣強大的開放對話,多模態、跨學科技能,數不清的插件,強悍的n-shot學習能力……甚至未來真正的通用人工智能體AGI的可能性。隨著ChatGPT的面世,GPT-4很快也對公眾開放,AI發展歷史的里程碑不斷被刷新,落地應用、框架和插件層出不窮,如AutoGPT、Semantic Kernel、微軟全產品系列Copilot、LangChain、斯坦福大學的研究者所進行的Generative Agents實驗等。
2023年3月14日,OpenAI發布了備受矚目的GPT-4,這一領先的大語言模型在科技領域掀起了軒然大波。OpenAI表示,GPT-4標志著公司的一個重要里程碑出現了。這是一個大型多模態模型(接受圖像或文本形式的輸入,輸出文本),我們可以認為它的出現標志著AI第一次睜開雙眼理解這個世界。在官方發布的演示視頻中,OpenAI詳細介紹了 GPT-4 在解決更復雜問題、編寫更大規模代碼以及將圖片轉化為文字方面的卓越能力。此外,相比于GPT-3.5(即ChatGPT所采用的模型),OpenAI承諾GPT-4將具有更高的安全性和協同性能。GPT-4在回答問題的準確性方面取得了顯著提升,同時在圖像識別能力、歌詞生成、創意文本創作和風格變換等領域展現了更高水平的能力。此外,GPT-4的文字輸入限制得以擴展至25000字,并在對非英語語種的支持上進行了優化。經過6個月的努力,OpenAI利用對抗性測試程序和從ChatGPT中積累的經驗,對GPT-4進行了迭代調整。盡管該模型還有待進一步完善,但OpenAI表示,GPT-4“在創造力和協作性方面達到了前所未有的高度”,并且“能夠更準確地解決難題”。雖然GPT-4在許多現實世界場景中的能力仍無法與人類相媲美,但它在多種專業和學術基準測試中達到了人類水平。總體來說,GPT-4 的表現令人嘆為觀止。關于AI在某些工作領域是否會取代人類,這種討論一直在進行,GPT-4 的問世讓許多行業的從業者都產生了緊迫感。畢竟,在很多方面,人類似乎已經難以與先進的AI技術抗衡。
可以先通過一張圖(見圖1-6)快速了解GPT-4的典型能力,其中主要包括智力、綜合能力(多模態、跨學科)、大型程序編寫能力,以及與真實世界交互的能力(自主使用工具)。

圖1-6 GPT-4典型能力示例
通過OpenAI對GPT-4能力進行論述的官方論文“GPT-4 Technical Report”可以看到,GPT-4新增了很多能力和技術,同時也有不足和局限,接下來將逐一進行分析說明。
GPT-4的新能力
1.大規模多模態
GPT-4是一個基于Transformer的大規模多模態模型,擁有億級參數規模。它能夠處理圖像和文本輸入,生成文本輸出,這使得GPT-4具有廣泛的應用潛力,如對話系統、文本摘要和機器翻譯等。總之,GPT-4可以在文本和圖片處理領域發揮更大的作用。
2.超出人類級別的性能
GPT-4在各種專業和學術基準測試中展示了超越人類水平的表現。例如,在模擬律師資格考試中,GPT-4的成績位于前10%的考生之列(參見論文“GPT-4 Passes the Bar Exam”),如圖1-7所示;GPT-4在美國多州律師考試MBE(Multistate Bar Exam)中的準確率為75.7%,超過人類學生的平均成績,并大大超過ChatGPT及之前的GPT模型(GPT-2因全部回答錯誤而無成績);在GRE Verbal考試中,GPT-4達到了接近滿分的169分(滿分170分);在美國大學預修課程(AP)心理學考試中,GPT-4獲得了5分,這在AP考試中相當于最高分。這些表現在很多方面超越了過去的大語言模型。

圖1-7 不同時期GPT模型在MBE上的表現
3.多語言能力
GPT-4在多種語言上的表現優于現有的大語言模型。在MMLU基準測試中,GPT-4 在除英語以外的多種語言上的表現都超過了現有模型,例如在拉脫維亞語、威爾士語和斯瓦希里語等低資源語言上的表現。這表明,GPT-4 的訓練方法和模型結構在不同語言之間具有較好的通用性。
4.支持的上下文長度增加
原始的GPT-3模型在2020年將最大請求值設置為2049個。在GPT-3.5中,這個值增加到4096個(大約3頁單行英文文本)。GPT-4有兩種變體,其中GPT-4-8K的上下文長度為8192個,而GPT-4-32K則可以處理多達32768個標記,這相當于大約50頁文本。雖然只是上下文長度的擴增,但由此可以帶來大量新場景和用例。例如,可以憑借其處理50頁文本的能力,來創建更長的文本,分析和總結更大的文檔或報告,或者在不丟失上下文的情況下處理更多更深入的對話。正如Open AI總裁格雷格·布羅克曼(Greg Brockman)在接受TechCrunch采訪時所說的:“以前,該模型無法了解你是誰、你對什么感興趣等信息。有了這種背景,肯定更有能力……借助它,人們能夠做更多事情。”
5.可聯網并使用插件
官方給出的插件主要是網頁瀏覽插件和代碼執行插件,這兩個重量級插件直接解決了之前GPT模型的訓練數據為2021年9月前的數據這一瓶頸(無法給出超出數據集時間限制的回答),讓GPT-4可以任意瀏覽互聯網實時信息,進行分析和回答,同時讓生成大型代碼的能力更加精準可控。可接入第三方插件的功能則是徹底解除了GPT模型的限制,可以快速建立龐大豐富的應用生態圈。并且,GPT-4可以自主選擇使用的工具項,無須人工指定,也可以自主創建插件供GPT-4自己使用,這也增加了大量應用場景的可能性。
6.多模態思維鏈
作為大語言模型涌現的核心能力之一,思維鏈(Chain of Thought)的形成機制可以解釋為:模型通過學習大量的語言數據來構建一個關于語言結構和意義的內在表示,通過一系列中間自然語言推理步驟來完成最終輸出。可以說,思維鏈是ChatGPT和GPT-4能讓大眾感覺語言模型像“人”的關鍵特性。雖然GPT-4這些模型并非具備真正的意識或思考能力,但用類似于人的推理方式的思維鏈來提示語言模型,極大地提高了GPT-4在推理任務上的表現,打破了微調(Fine- tune)的平坦曲線。具備了多模態思維鏈能力的GPT-4模型具有一定的邏輯分析能力,已經不是傳統意義上的詞匯概率逼近模型。通過多模態思維鏈技術,GPT-4將一個多步驟的問題(例如圖表推理)分解為可以單獨解決的中間步驟,進一步增強GPT-4的表達和推理能力。
GPT-4采用的新技術
1.可預測的擴展
GPT-4項目的重點之一是開發可預測擴展的深度學習棧。通過使用與GPT-4相似的方法訓練較小規模的模型,可以預測GPT-4在各種規模上的優化方法表現,從而能夠借助需要更少計算資源的較小模型去準確預測GPT-4的性能。
2.損失預測
GPT-4的最終損失可以通過對模型訓練中使用的計算量進行冪律擬合來預測。根據赫尼根(Henighan)等人的研究,擬合出了一個包含不可約損失項的縮放定律:
(1)
這樣就可以通過擬合較小規模模型的損失來準確預測GPT-4的最終損失。
3.預測人類評估性能
OpenAI開發了預測更具解釋性的能力指標的方法,如在HumanEval數據集上的通過率。通過從使用1/1000倍乃至更少計算資源的較小模型中進行外推,團隊成功地預測了GPT-4在HumanEval數據集子集上的通過率。這表明,我們可以在早期階段預測GPT-4在具體任務上的性能,為未來大型模型的訓練提供有價值的參考。
4.使用基于人類反饋的強化學習進行微調
GPT-4通過使用基于人類反饋強化學習(RLHF)進行微調,生成更符合用戶意圖的響應;同時,RLHF 微調也有助于降低模型在不安全輸入上的脆弱性,減少不符合用戶意圖的響應。
5.基于規則的獎勵模型
該模型使用GPT-4自身作為工具,利用基于規則的獎勵模型(RBRM)為GPT-4在RLHF微調過程中提供更精確的獎勵信號。RBRM通過檢查模型生成的輸出與人類編寫的評估標準是否一致,對輸出進行分類,從而為GPT-4提供正確行為的獎勵信號。
6.模型輔助安全流程
通過領域專家的對抗測試、紅隊評估,以及使用模型輔助安全流程等方法,可以評估和改進GPT-4的安全性。這些方法有助于降低GPT-4產生虛假及有害內容的風險,并提高它在安全輸入上的表現。
GPT-4的不足和局限
1.可靠性不足
盡管GPT-4在許多任務上表現出色,但它并不完全可靠。GPT-4在生成輸出時可能產生“幻覺”現象,例如會錯誤地生成某些事實或進行錯誤的推理,因此在使用GPT-4生成的輸出時,尤其是在高風險場景中,應謹慎。
2.有限的上下文窗口
GPT-4具有有限的上下文窗口,這意味著它在處理長篇文本時可能會遇到困難。盡管GPT-4在短文本任務上表現出色,但對于涉及長篇閱讀理解的任務,GPT-4可能無法做出準確判斷。
3.不從經驗中學習
GPT-4不具備從經驗中學習的能力,這意味著盡管GPT-4可以處理大量的輸入數據,但它無法從過去的錯誤中學習以改進未來的輸出。
4.容易受到對抗攻擊
GPT-4在面對對抗性輸入時可能會產生不良行為,如生成有害內容或錯誤信息。盡管已經采取了一系列措施來提高GPT-4的安全性,但在面對惡意用戶時,GPT-4仍然可能會受到攻擊。
5.偏見
GPT-4在輸出中可能存在各種偏見。這些偏見可能來自訓練數據,導致模型生成不公平或有害的輸出。雖然已經采取了措施來糾正這些偏見,但完全消除它們仍然需要時間和努力。
6.過度自信
GPT-4在預測時可能表現出過度自信,即使在可能犯錯誤的情況下也不會仔細檢查工作。這可能導致模型在某些任務上的表現不如預期。
盡管 GPT-4 具有這些不足和局限,但它在許多方面的性能仍然有顯著的提高。為了充分利用GPT-4 的潛力并降低潛在風險,應該在使用模型時采取適當的措施,如對輸出進行人工審查,在關鍵場景中避免使用模型或通過監控模型的使用來監測濫用行為。
正如本節開頭所述,人們期待和關注的是GPT-5甚至未來的GPT-X到底會達到什么樣的高度?所有人夢想中的AGI是否會真正實現?關于這些問題,等到 GPT-4發布后,全球對于OpenAI的關注度進一步提升。格雷格·布羅克曼在2023年的一次采訪中說道:“OpenAI正在測試GPT-4高級版本,它將是普通GPT-4存儲內容能力的5倍。”雖然OpenAI的官網中并沒有任何關于下一代GPT產品的預告和介紹,但通過使用最新一代GPT-4-32K,可以對OpenAI未來的產品進行預測,也可以感受到人們對未來的期許。在主要技術方向和性能改進方面,GPT-5很有可能具備以下特點。
1.更加準確和流暢
GPT-5可能會在語言理解和生成方面更加準確和流暢,包括更好的上下文理解能力、更豐富的知識圖譜和推理能力、更高級的對話和問答能力等。例如,它可能具備95%以上的自然語言處理任務準確率,以及更高的語義相似度評分。
2.更多模態
GPT-5可能會加強對多模態數據的理解和生成能力,包括圖像、視頻、音頻等。這將有助于GPT更好地分析和處理多媒體數據,使其在虛擬助手、智能家居、虛擬現實等多個應用領域內的表現更為優秀。
3.提高可靠性
為了減少生成輸出時的“幻覺”現象,可以研究一種在生成過程中引入事實驗證和邏輯推理的機制。此外,可以通過引入人類專家的知識和反饋,訓練模型更好地理解并生成可靠的輸出。
4.擴展上下文長度
為了解決長篇文本處理的問題,可以通過某種新的架構使GPT-5能夠處理更長的上下文長度。例如,可以通過在模型中引入記憶機制或者將注意力分層,使GPT-5更好地處理需要長篇閱讀理解的任務。
5.從經驗中學習
為了讓 GPT-5 具備從經驗中學習的能力,可以利用某種在線學習技術,使模型能夠在運行過程中不斷更新權重并優化自身表現,從而使GPT-5能夠從過去的錯誤中學習,進一步地提高未來的輸出質量。
6.提高抗對抗攻擊能力
為了應對對抗性輸入,可以通過新的健壯性訓練方法使GPT-5在面對惡意輸入時能夠維持正常行為。此外,還可以開發某種輸入過濾器來識別和過濾潛在的對抗性輸入。
7.減少偏見
為了消除模型輸出中的偏見,可以采用某種公平性訓練方法,以確保模型在訓練過程中不會吸收數據中的有害偏見。此外,還可以通過引入外部知識和人類反饋來糾正模型生成的不公平或有害輸出。
8.控制過度自信
為了防止 GPT-5 在預測時過度自信,可以利用某種新的不確定性估計技術,使模型能夠在預測時正確評估自身的不確定性。通過這種方法,GPT-5 將能夠在面對可能出錯的情況時,更加謹慎地生成輸出。
9.可解釋性和透明度
GPT-5也可能會更注重可解釋性和透明度,使其生成的結果更加可靠,更易于被人類理解和接受。為了實現這一目標,GPT-5 可能會采用新型可解釋神經網絡架構和注意力機制來提高模型的可解釋性。
通過這些改進,GPT-5應該能夠更好地滿足人們不斷增長的語言和認知需求,提供更加智能化和個性化的服務和支持,為人類帶來更多有益的幫助。
關于未來,OpenAI在GPT-4技術報告中是這樣闡述的:“GPT-4和后續模型有可能以有益和有害的方式極大地影響社會。我們正在與外部研究人員合作,以改進我們理解和評估潛在影響的方式,并對未來系統中可能出現的危險能力進行評估。我們將很快分享更多關于GPT-4和其他AI系統對社會和經濟的潛在影響的想法。”此外,各互聯網巨頭也紛紛表達對 GPT-5 的擔憂,并且號召聯名阻止進行GPT-5相關實驗。2023年5月2日,“深度學習三巨頭”之一暨2018年圖靈獎得主杰弗里·欣頓(Geoffrey Hinton)發表推文證實他已經從谷歌離職,同時也表達了對AI失控的危機感(“推文強調了他離開是為了讓公眾了解AI的危險”)。
未來的多模態大模型技術將對每個人的生活和工作產生一系列深遠的影響。
GPT將極大地影響資訊和社交媒體領域。在未來,GPT-X等技術生成的內容可能會在互聯網上廣泛傳播,使人難以分辨在線觀點究竟源于真實的公眾聲音,還是算法生成的“中心服務器的聲音”。民眾可能會盲從于GPT-X等技術生成的觀點,導致人類淪為機器的復讀機。同時,GPT-X等工具可能會大量滲透普通人的社交互動,使人際溝通方式逐漸模式化。
AI將大量替代低端重復性溝通和多模態工作。GPT-X等技術可能會與機器人技術相結合,從云端滲透終端設備,進入每個人的日常生活當中。操作系統和辦公軟件的交互界面可能會受到大模型的主宰。雖然一開始有很多人可能會因為 AI 技術的替代而失業,但更多人逐漸會借助GPT-X等技術提高工作效率,并成為自然語言程序員。人類開始將機器作為工具,而創造力和自然情感將成為人類能夠堅守的寶貴特質。
各種考核將從知識型考核轉向綜合能力考核。知識儲備和外語技能逐漸變得不再重要,工作經驗和技術經驗的價值將取決于是否擁有更先進的GPT模型或算力資源。一些曾經的熱門專業可能會逐漸衰落,未來人類將從人類內部的競爭過渡到人機間的競爭,高層次能力的競爭也將更加激烈。
盡管誰也不知道GPT未來的發展路線,但正如OpenAI在GPT-4技術報告中所說的那樣,不管是有益還是有害,GPT的后續模型有可能會“對社會產生重大影響”。