官术网_书友最值得收藏!

正如前面提到的,Transformer 和語言模型最初主要用于文本處理任務。最早的 Transformer 架構由 Vaswani 等人在 2017 年的論文“Attention Is All You Need”中提出,旨在解決文本翻譯問題。然而,基于 Transformer 的技術很快就被應用到其他類型的數據上。例如,GPT-4 已經具備視覺處理能力,可以在生成回答時將圖像作為輸入的一部分進行理解。

但這并不是唯一可以在應用程序中使用的模態。OpenAI提供了可以在 Python 中使用的工具,這些工具可以通過 OpenAI API 訪問,雖然它們并不直接嵌入LLM本身,但可以作為補充技術,讓開發者在構建應用程序時利用更廣泛的AI功能。

  1. 使用 DALL · E 生成圖像

    通過 OpenAI API,應用程序可以直接調用 DALL · E 2 或 DALL · E 3 模型。這些模型屬于文本生成圖像(text-to-image)模型。DALL · E 3 是更先進的版本,能夠在生成的圖像中融入文本,還支持橫向(landscape)和縱向(portrait)布局。相比 DALL · E 2,DALL · E 3 生成的圖像通常更精美,細節更豐富,并且能夠理解更復雜的提示詞。這些模型使開發者能夠直接通過文本描述創建視覺吸引力強的內容,為創意和實用性應用開辟了新的可能性。

     

  2. 語音識別與合成

    OpenAI還訓練了名為 Whisper 的神經網絡 Transformer,它在超過 50 種語言的語音識別中表現出色,尤其是在英語方面,已接近人類水平。OpenAI已將 Whisper 的代碼開源,開發者也可以通過 OpenAI API 訪問該工具。Whisper 允許開發者創建能以極高準確度理解口語的應用程序。

    此外,OpenAI音頻 API 提供了對兩個文本轉語音(text to speech,TTS)模型的訪問,一個優化了實時文本轉語音的應用場景,另一個則更側重于語音質量。用戶可以選擇 6 種聲音,這些模型支持超過 50 種語言,在英語中表現最佳。

     

  3. 使用 Sora 進行視頻生成

    在本書撰寫時,OpenAI已發布了其新的文本轉視頻工具——Sora。目前,Sora 尚未向開發者開放 7,但這表明未來不久將會有類似的工具可供使用。用戶只需要提供簡單的提示詞,Sora 就能夠生成最長 60 秒的視頻內容。

    這些多模態工具顯著拓展了AI的能力,為開發者及其應用程序開辟了新前景。借助這些技術,你可以創建更具互動性的應用程序,讓用戶通過多種方式(圖像、語音、文本,以及即將推出的視頻)進行交流。

7 OpenAI已于北京時間 2024 年 12 月 10 日正式向公眾開放了其文本生成視頻模型 Sora。——譯者注

主站蜘蛛池模板: 博湖县| 剑河县| 会泽县| 随州市| 韶山市| 玉林市| 广丰县| 朝阳县| 敦煌市| 通许县| 漳浦县| 柳河县| 深水埗区| 津南区| 邵阳县| 阿尔山市| 长武县| 五莲县| 马边| 大庆市| 工布江达县| 门源| 象州县| 正蓝旗| 张家界市| 客服| 龙海市| 射洪县| 天津市| 闵行区| 华容县| 桃江县| 云安县| 康平县| 东阿县| 秭归县| 平顶山市| 聊城市| 泰安市| 安达市| 梨树县|