- 大模型應用開發極簡入門:基于GPT-4和ChatGPT(第2版)
- (比)奧利維耶·卡埃朗 (法)瑪麗-艾麗斯·布萊特
- 857字
- 2025-05-07 12:21:00
1.2.7 人工智能向多模態演進
正如前面提到的,Transformer 和語言模型最初主要用于文本處理任務。最早的 Transformer 架構由 Vaswani 等人在 2017 年的論文“Attention Is All You Need”中提出,旨在解決文本翻譯問題。然而,基于 Transformer 的技術很快就被應用到其他類型的數據上。例如,GPT-4 已經具備視覺處理能力,可以在生成回答時將圖像作為輸入的一部分進行理解。
但這并不是唯一可以在應用程序中使用的模態。OpenAI提供了可以在 Python 中使用的工具,這些工具可以通過 OpenAI API 訪問,雖然它們并不直接嵌入LLM本身,但可以作為補充技術,讓開發者在構建應用程序時利用更廣泛的AI功能。
使用 DALL · E 生成圖像
通過 OpenAI API,應用程序可以直接調用 DALL · E 2 或 DALL · E 3 模型。這些模型屬于文本生成圖像(text-to-image)模型。DALL · E 3 是更先進的版本,能夠在生成的圖像中融入文本,還支持橫向(landscape)和縱向(portrait)布局。相比 DALL · E 2,DALL · E 3 生成的圖像通常更精美,細節更豐富,并且能夠理解更復雜的提示詞。這些模型使開發者能夠直接通過文本描述創建視覺吸引力強的內容,為創意和實用性應用開辟了新的可能性。
語音識別與合成
OpenAI還訓練了名為 Whisper 的神經網絡 Transformer,它在超過 50 種語言的語音識別中表現出色,尤其是在英語方面,已接近人類水平。OpenAI已將 Whisper 的代碼開源,開發者也可以通過 OpenAI API 訪問該工具。Whisper 允許開發者創建能以極高準確度理解口語的應用程序。
此外,OpenAI音頻 API 提供了對兩個文本轉語音(text to speech,TTS)模型的訪問,一個優化了實時文本轉語音的應用場景,另一個則更側重于語音質量。用戶可以選擇 6 種聲音,這些模型支持超過 50 種語言,在英語中表現最佳。
使用 Sora 進行視頻生成
在本書撰寫時,OpenAI已發布了其新的文本轉視頻工具——Sora。目前,Sora 尚未向開發者開放 7,但這表明未來不久將會有類似的工具可供使用。用戶只需要提供簡單的提示詞,Sora 就能夠生成最長 60 秒的視頻內容。
這些多模態工具顯著拓展了AI的能力,為開發者及其應用程序開辟了新前景。借助這些技術,你可以創建更具互動性的應用程序,讓用戶通過多種方式(圖像、語音、文本,以及即將推出的視頻)進行交流。
7 OpenAI已于北京時間 2024 年 12 月 10 日正式向公眾開放了其文本生成視頻模型 Sora。——譯者注
- Embedded Linux Projects Using Yocto Project Cookbook
- Bootstrap Site Blueprints Volume II
- AngularJS Testing Cookbook
- Mastering Adobe Captivate 2017(Fourth Edition)
- 程序員數學:用Python學透線性代數和微積分
- JavaScript 網頁編程從入門到精通 (清華社"視頻大講堂"大系·網絡開發視頻大講堂)
- 零基礎學MQL:基于EA的自動化交易編程
- Java Web基礎與實例教程
- Troubleshooting PostgreSQL
- Python機器學習算法與實戰
- Jupyter數據科學實戰
- SQL基礎教程(第2版)
- Mastering Business Intelligence with MicroStrategy
- 智能手機APP UI設計與應用任務教程
- Android應用開發實戰