官术网_书友最值得收藏!

GPT-4 Vision 為 GPT-4 系列增添了多模態能力,極大地拓寬了其在文本處理之外的應用場景。盡管實現這一功能的具體技術細節仍未公開 3,但我們可以通過研究那些集成了視覺數據的開源大模型,來一窺 GPT-4 實現多模態功能可能采用的策略。本節將深入剖析這些開源模型中的處理流程,以揭示 GPT-4 是如何將圖像與文本進行融合的。

3 OpenAI公開過一篇關于 GPT-4 的論文“GPT-4 Technical Report”。——譯者注

長期以來,卷積神經網絡(convolutional neural network,CNN)一直是圖像處理領域中的先進技術。在圖像分類、物體檢測等任務中,CNN 憑借在輸入圖像上滑動的濾波器層,展現了卓越的性能。這些濾波器能夠保持圖像像素間的空間關系,正因如此,CNN 能夠識別從早期層的簡單邊緣,到深層的復雜形狀和物體等各種模式。

然而,正如 2017 年 Transformer 架構的引入顛覆了 NLP 領域,取代了 RNN,2020 年,基于 Transformer 架構的圖像處理新模型應運而生,對 CNN 在圖像處理任務中的長期統治地位發起了挑戰。2021 年,Dosovitskiy 等人發表的論文“An Image Is Worth 16 × 16 Words: Transformers for Image Recognition at Scale”展示了純 Transformer 模型的強大能力,其中,ViT 模型在多項圖像分類任務中的表現超越了 CNN。

你可能會好奇 Transformer 是如何處理圖像數據的。整體而言,這與處理文本的方式非常相似。如前所述,當帶有提示詞的文本被發送到大模型時,大模型首先將文本分解為小字符塊——詞元,然后處理這些詞元以預測下一個詞元。在處理圖像時,ViT 會首先將圖像分割成固定大小的圖像塊(patch)。圖 1-6 展示了這一過程。

圖 1-6:圖像在輸入到 Transformer 之前,被分割成固定大小的圖像塊

這些圖像塊隨后與文本詞元整合到一個統一的輸入序列中。簡單來說,當LLM處理文本數據時,所有的詞元都會首先被映射到一個高維空間。換句話說,每個詞元都會被轉換成一個高維向量,而這種詞元與高維向量之間的映射關系是在LLM訓練過程中學習得出的。對于固定大小的圖像塊,處理方式幾乎相同——模型在學習過程中計算出圖像塊與相同高維空間之間的映射函數。通過這種映射,文本詞元和圖像塊可以被放入相同的高維空間,形成一個融合的序列。

然后,這個包含文本和圖像的輸入序列會通過 Transformer 架構進行處理,以預測下一個詞元。由于可以在相同的高維表示空間中整合文本詞元和圖像塊,模型能夠在這兩種模態之間應用自注意力機制,使其能夠生成同時考慮文本和圖像信息的響應。對于 Python 開發者來說,這種處理圖像的能力可能會極大地影響用戶與AI應用程序的交互方式,例如開發更直觀的聊天機器人,或是能理解并解釋圖像內容的教育工具。

主站蜘蛛池模板: 陆川县| 衡南县| 宜兰市| 威信县| 浦江县| 南阳市| 茶陵县| 河源市| 防城港市| 从江县| 双柏县| 宣威市| 北流市| 儋州市| 长岭县| 张家港市| 南康市| 措美县| 三门县| 宁夏| 滦平县| 留坝县| 虞城县| 龙江县| 长宁县| 五原县| 县级市| 东辽县| 漳州市| 鄯善县| 汉川市| 玉田县| 乌苏市| 通许县| 巴青县| 萨嘎县| 宽甸| 武乡县| 来安县| 美姑县| 丰宁|