打金传奇手游一天500无压力

1.1.4　將視覺整合到LLM中

GPT-4 Vision 為 GPT-4 系列增添了多模態能力，極大地拓寬了其在文本處理之外的應用場景。盡管實現這一功能的具體技術細節仍未公開 3，但我們可以通過研究那些集成了視覺數據的開源大模型，來一窺 GPT-4 實現多模態功能可能采用的策略。本節將深入剖析這些開源模型中的處理流程，以揭示 GPT-4 是如何將圖像與文本進行融合的。

3 OpenAI公開過一篇關于 GPT-4 的論文“GPT-4 Technical Report”。——譯者注

長期以來，卷積神經網絡（convolutional neural network，CNN）一直是圖像處理領域中的先進技術。在圖像分類、物體檢測等任務中，CNN 憑借在輸入圖像上滑動的濾波器層，展現了卓越的性能。這些濾波器能夠保持圖像像素間的空間關系，正因如此，CNN 能夠識別從早期層的簡單邊緣，到深層的復雜形狀和物體等各種模式。

然而，正如 2017 年 Transformer 架構的引入顛覆了 NLP 領域，取代了 RNN，2020 年，基于 Transformer 架構的圖像處理新模型應運而生，對 CNN 在圖像處理任務中的長期統治地位發起了挑戰。2021 年，Dosovitskiy 等人發表的論文“An Image Is Worth 16 × 16 Words: Transformers for Image Recognition at Scale”展示了純 Transformer 模型的強大能力，其中，ViT 模型在多項圖像分類任務中的表現超越了 CNN。

你可能會好奇 Transformer 是如何處理圖像數據的。整體而言，這與處理文本的方式非常相似。如前所述，當帶有提示詞的文本被發送到大模型時，大模型首先將文本分解為小字符塊——詞元，然后處理這些詞元以預測下一個詞元。在處理圖像時，ViT 會首先將圖像分割成固定大小的圖像塊（patch）。圖 1-6 展示了這一過程。

圖 1-6：圖像在輸入到 Transformer 之前，被分割成固定大小的圖像塊

這些圖像塊隨后與文本詞元整合到一個統一的輸入序列中。簡單來說，當LLM處理文本數據時，所有的詞元都會首先被映射到一個高維空間。換句話說，每個詞元都會被轉換成一個高維向量，而這種詞元與高維向量之間的映射關系是在LLM訓練過程中學習得出的。對于固定大小的圖像塊，處理方式幾乎相同——模型在學習過程中計算出圖像塊與相同高維空間之間的映射函數。通過這種映射，文本詞元和圖像塊可以被放入相同的高維空間，形成一個融合的序列。

然后，這個包含文本和圖像的輸入序列會通過 Transformer 架構進行處理，以預測下一個詞元。由于可以在相同的高維表示空間中整合文本詞元和圖像塊，模型能夠在這兩種模態之間應用自注意力機制，使其能夠生成同時考慮文本和圖像信息的響應。對于 Python 開發者來說，這種處理圖像的能力可能會極大地影響用戶與AI應用程序的交互方式，例如開發更直觀的聊天機器人，或是能理解并解釋圖像內容的教育工具。

官术网_书友最值得收藏!

大模型應用開發極簡入門：基于GPT-4和ChatGPT（第2版）

1.1.4 將視覺整合到LLM中

1.1.4　將視覺整合到LLM中