- 大模型應(yīng)用開發(fā)極簡入門:基于GPT-4和ChatGPT(第2版)
- (比)奧利維耶·卡埃朗 (法)瑪麗-艾麗斯·布萊特
- 1837字
- 2025-05-07 12:20:59
1.2.6 GPT-4
2023 年 3 月,OpenAI發(fā)布了 GPT-4。關(guān)于這個新模型的架構(gòu),我們知之甚少,因為 OpenAI提供的信息很少。這是 OpenAI迄今為止最先進的系統(tǒng) 5,能夠針對用戶的提問生成更安全、更有用的回答。OpenAI聲稱,GPT-4 在高級推理能力方面超越了 GPT-3.5 Turbo。
5 截至本書英文版 2024 年 7 月出版時。——譯者注
當(dāng)該模型發(fā)布時,OpenAI發(fā)布了一份技術(shù)報告“GPT-4 Technical Report”,評估了模型的能力,并與之前的模型(如 InstructGPT 和 GPT-3)進行了大量比較。
與 OpenAIGPT 家族中的其他模型不同,GPT-4 是第一個能夠同時接收文本和圖像的多模態(tài)模型。這意味著 GPT-4 在生成輸出句子時會考慮上下文中的圖像和文本。這樣一來,用戶就可以將圖像添加到提示詞中并對其提問。
起初,OpenAI并未在 GPT-4 中公開推出視覺功能。直到 2023 年 11 月,OpenAI宣布推出具備視覺能力的 GPT-4 Turbo 模型。GPT-4 Turbo 還配備了 128 000 詞元的上下文窗口,這意味著輸入提示詞可以相當(dāng)于 300 頁的英文文本!此外,GPT-4 Turbo 的成本也低于原始的 GPT-4。
在圖 1-8 的示例中,我們在紙上寫下一個公式,拍照后讓 GPT-4 Turbo 描述圖片中的公式。正如你所見,模型輕松識別出這是黃金比例。
目前市場上有眾多語言模型,客觀比較它們的表現(xiàn),確定哪個模型在特定任務(wù)中更為出色,變得尤為重要。一種常見的方法是評估它們在大學(xué)考試中的表現(xiàn)。在這種背景下,人們對模型在不同測試中的表現(xiàn)進行了評估,結(jié)果顯示,GPT-4 在各項測試中的得分普遍高于 GPT-3.5 Turbo。例如,在美國的統(tǒng)一律師資格考試中,GPT-3.5 Turbo 的得分位于第10 百分位,而 GPT-4 則位于第90 百分位。在國際生物學(xué)奧林匹克競賽中,GPT-3.5 Turbo 的得分位于第31 百分位,而 GPT-4 則位于第99 百分位。這一進展令人印象深刻,尤其是在不到一年的時間內(nèi)取得了如此顯著的提升。最近,OpenAI發(fā)布了其最新 6 的旗艦?zāi)P?GPT-4o(“o”代表 omni,即“全能”),該模型在多個基準(zhǔn)測試中表現(xiàn)優(yōu)于此前的 GPT-4。
6 截至 2025 年 3 月,OpenAI發(fā)布的最新模型為 GPT-4.5。——譯者注

圖 1-8:GPT-4 視覺能力的應(yīng)用(2024 年 2 月)
另一種常見的語言模型比較方式是讓人類以盲測的方式評分,即評估者在不知曉模型名稱的情況下,對不同模型的回答進行評分。LMSYS Chatbot Arena Leaderboard(托管于 Hugging Face)提供了這種比較方式。LMSYS Chatbot Arena 是一個基于眾包的LLM隨機對戰(zhàn)平臺,用戶可以同時與兩個隨機選擇的模型進行對話,而不知曉具體使用的是哪種模型,然后投票選出回答更相關(guān)的模型。這種方式類似于一場競賽,模型之間可以進行比拼,并通過 ELO 評分系統(tǒng)進行排名(關(guān)于 ELO 評分系統(tǒng)的更多信息,請參閱“為什么使用 ELO 評分系統(tǒng)來比較模型”)。
為什么使用 ELO 評分系統(tǒng)來比較模型
ELO 評分系統(tǒng)由匈牙利裔美國物理學(xué)教授、國際象棋大師 Arpad Elo 創(chuàng)建,最初是為了改進美國國際象棋聯(lián)合會(United States Chess Federation,USCF)使用的早期評級方法。1960 年,USCF 采納了這一系統(tǒng)。1970 年,世界國際象棋聯(lián)合會也開始使用它。如今,ELO 評分系統(tǒng)被廣泛應(yīng)用于競爭領(lǐng)域,例如電子游戲中的玩家排名,其中《英雄聯(lián)盟》的玩家評級便是基于此系統(tǒng)。
ELO 評分系統(tǒng)同樣適用于比較 LLM。在該系統(tǒng)中,兩個LLM通過盲評方式進行競爭。具體操作是,用戶向兩個模型提出相同的問題,模型給出回答后,用戶需要選擇哪個回答更為優(yōu)質(zhì)。
ELO 評分系統(tǒng)可用于對零和游戲中的玩家排名。零和游戲指的是在游戲中,其中一個玩家的得益正好等于另一個玩家的損失。排名的挑戰(zhàn)在于玩家對抗的動態(tài)變化和新玩家的不斷涌現(xiàn)。該系統(tǒng)設(shè)計得足夠靈活,能夠通過不斷更新比賽結(jié)果來調(diào)整玩家的排名,從而有效評估玩家的相對技能水平。
ELO 評分系統(tǒng)為每個玩家分配一個數(shù)值,數(shù)值越高表示技能水平越強。該系統(tǒng)的核心優(yōu)勢之一是,它能直接通過兩位玩家的 ELO 分?jǐn)?shù)差異來估算其中一方獲勝的概率。
假設(shè)玩家 和玩家
的 ELO 分?jǐn)?shù)分別為
和
,則玩家
獲勝的概率可以通過以下公式計算:

在撰寫本書時,排名前三的模型均為 GPT-4 系列,其中 ELO 分?jǐn)?shù)最高的是 GPT-4o 模型(gpt-4o-2024-05-13)。第四名是谷歌的 Gemini 1.5 Pro 模型,而 GPT-3.5 Turbo 排名第30 位。
如果你向一個人展示兩個模型——例如,gpt-4o-2024-05-13(得分 1287)和 GPT-3.5-Turbo-0613(得分 1120)——而不告訴他它們是什么模型,你可以通過將 ELO 分?jǐn)?shù)代入公式來估算此人更偏好 gpt-4o-2024-05-13 模型的概率。在這種情況下,概率估計為 72%。
表 1-1 總結(jié)了 GPT 模型的演變歷程。
表 1-1:GPT 模型的演變歷程

你可能聽說基礎(chǔ)模型(foundation model)這個術(shù)語。與傳統(tǒng)的針對特定任務(wù)訓(xùn)練的模型不同,基礎(chǔ)模型是在多種類型的數(shù)據(jù)上進行訓(xùn)練的。這種廣泛的訓(xùn)練使它們對不同領(lǐng)域有深入的理解,而這些知識隨后可以通過微調(diào)來適應(yīng)特定任務(wù)。GPT 系列模型就是典型的基礎(chǔ)模型。正如我們所見,GPT 展現(xiàn)出了在各種主題上生成類似人類文本的強大能力。通過微調(diào),它的廣泛知識可以被專門優(yōu)化,使它擅長不同的任務(wù),例如寫作、編程等。這種特性使得基礎(chǔ)模型能夠適應(yīng)醫(yī)療、金融等多個領(lǐng)域的任務(wù),充分利用其龐大的、不受特定領(lǐng)域限制的知識庫。
- Boost.Asio C++ Network Programming(Second Edition)
- Learn Type:Driven Development
- Instant Apache Stanbol
- Power Up Your PowToon Studio Project
- 控糖控脂健康餐
- 趣學(xué)Python算法100例
- Learn WebAssembly
- 微信小程序項目開發(fā)實戰(zhàn)
- Learning Vaadin 7(Second Edition)
- 區(qū)塊鏈技術(shù)與應(yīng)用
- Windows Embedded CE 6.0程序設(shè)計實戰(zhàn)
- Extreme C
- Instant PHP Web Scraping
- ASP.NET 4.0 Web程序設(shè)計
- INSTANT Apache ServiceMix How-to