書名: AIGC提示詞美學定義作者名: 傅炯本章字數: 964字更新時間: 2024-07-24 11:00:44
生成式繪畫的底層技術邏輯
生成式繪畫工具能形成的圖片風格和藝術效果廣受贊嘆。它是如何繪制作品的呢?為何生成式繪畫工具生成的圖片有時令人驚艷,有時卻又不盡如人意?為了更好地把控生成的畫面,在使用生成式繪畫工具之前,我們需要對生成式繪畫的底層技術有一些基本了解。
因為部分生成式繪畫工具,如Midjourney尚未開源,外界很難獲取其具體架構。但行業中生成式繪畫工具的底層技術基本一致,接下來,本章就以已經開源的生成式繪畫工具Stable Diffusion為例,簡單講解一下生成式繪畫工具的實現邏輯。 Stable Diffusion是一個由多個組件和模型組成的系統,它是在CLIP模型的基礎之上,將擴散模型等其他模型組件融合而來的。下圖是以Stable Diffusion為例,描述了其整個工作流程的底層技術邏輯。

我們可以用一個具象的比喻幫助大家理解。Stable Diffusion就像一個預先受過專業訓練、經驗豐富的“大廚”,它以用戶輸入的自然語言形式的提示詞為“食材”,用其內置的文本編碼器(Text Understander)進行“備菜”,通過圖形信息創建器(Image Information Creator)進行“烹飪”,再借助圖形解碼器(Image Decoder)進行“擺盤”,最終,大廚得以呈現一桌“美味佳肴”。這個比喻很好地概括了生成式繪圖模型利用文本生成圖片的總體過程。
這里需要著重解釋的是Stable Diffusion這類模型的“秘訣”,也就是擴散模型(Diffusion Models),它是“大廚烹飪”得以實現的底層技術,它揭示了機器模型的作圖原理。擴散模型是一種基于Transformer技術的概率模型,它的訓練邏輯就是通過連續向原數據添加高斯噪聲(加噪)來破壞訓練數據,然后通過回溯這個加噪過程(去噪)來恢復原數據,并在這個過程中學習。

擴散模型總體包括兩個過程,其一是加噪過程:采樣一段數據(例如圖像),并隨著時間的推移逐漸增加噪聲,直到數據無法被識別,并求出最大似然估計;其二是逆向的去噪過程:嘗試將原始圖像進行形式復現,在此過程中模型會通過神經網絡學習如何生成圖片或其他數據。通過基于擴散模型的深度學習鏈路,計算機能夠實現對圖片內容的識別與“理解”。
Stable Diffusion這類模型,在向公眾發布之前利用海量數據進行了預訓練,這意味著模型已經儲備了大量圖片的特征知識。在用戶輸入一段提示詞之后,提示詞會被文本編譯器轉譯為計算機語言。這時,Stable Diffusion模型會直接調用數據庫中的預訓練數據,以轉譯后的提示詞內容為藍本,從一個渾然的噪聲區域開始,逐步減噪、調整,最終形成畫作。生成式繪畫模型這位“大廚”的“享飪”過程,即是一個擴散的過程。