官术网_书友最值得收藏!

生成式繪畫的底層技術邏輯

生成式繪畫工具能形成的圖片風格和藝術效果廣受贊嘆。它是如何繪制作品的呢?為何生成式繪畫工具生成的圖片有時令人驚艷,有時卻又不盡如人意?為了更好地把控生成的畫面,在使用生成式繪畫工具之前,我們需要對生成式繪畫的底層技術有一些基本了解。

因為部分生成式繪畫工具,如Midjourney尚未開源,外界很難獲取其具體架構。但行業中生成式繪畫工具的底層技術基本一致,接下來,本章就以已經開源的生成式繪畫工具Stable Diffusion為例,簡單講解一下生成式繪畫工具的實現邏輯。 Stable Diffusion是一個由多個組件和模型組成的系統,它是在CLIP模型的基礎之上,將擴散模型等其他模型組件融合而來的。下圖是以Stable Diffusion為例,描述了其整個工作流程的底層技術邏輯。

我們可以用一個具象的比喻幫助大家理解。Stable Diffusion就像一個預先受過專業訓練、經驗豐富的“大廚”,它以用戶輸入的自然語言形式的提示詞為“食材”,用其內置的文本編碼器(Text Understander)進行“備菜”,通過圖形信息創建器(Image Information Creator)進行“烹飪”,再借助圖形解碼器(Image Decoder)進行“擺盤”,最終,大廚得以呈現一桌“美味佳肴”。這個比喻很好地概括了生成式繪圖模型利用文本生成圖片的總體過程。

這里需要著重解釋的是Stable Diffusion這類模型的“秘訣”,也就是擴散模型(Diffusion Models),它是“大廚烹飪”得以實現的底層技術,它揭示了機器模型的作圖原理。擴散模型是一種基于Transformer技術的概率模型,它的訓練邏輯就是通過連續向原數據添加高斯噪聲(加噪)來破壞訓練數據,然后通過回溯這個加噪過程(去噪)來恢復原數據,并在這個過程中學習。

擴散模型總體包括兩個過程,其一是加噪過程:采樣一段數據(例如圖像),并隨著時間的推移逐漸增加噪聲,直到數據無法被識別,并求出最大似然估計;其二是逆向的去噪過程:嘗試將原始圖像進行形式復現,在此過程中模型會通過神經網絡學習如何生成圖片或其他數據。通過基于擴散模型的深度學習鏈路,計算機能夠實現對圖片內容的識別與“理解”。

Stable Diffusion這類模型,在向公眾發布之前利用海量數據進行了預訓練,這意味著模型已經儲備了大量圖片的特征知識。在用戶輸入一段提示詞之后,提示詞會被文本編譯器轉譯為計算機語言。這時,Stable Diffusion模型會直接調用數據庫中的預訓練數據,以轉譯后的提示詞內容為藍本,從一個渾然的噪聲區域開始,逐步減噪、調整,最終形成畫作。生成式繪畫模型這位“大廚”的“享飪”過程,即是一個擴散的過程。

主站蜘蛛池模板: 隆安县| 石景山区| 嘉祥县| 罗山县| 大理市| 三明市| 泰顺县| 东丰县| 巴里| 昂仁县| 饶河县| 健康| 远安县| 体育| 苍溪县| 永吉县| 柳林县| 交口县| 邢台县| 政和县| 博乐市| 沐川县| 武安市| 疏勒县| 诸城市| 从化市| 五原县| 叶城县| 余庆县| 高安市| 麻阳| 阿勒泰市| 周宁县| 雅安市| 木兰县| 利津县| 公主岭市| 湟源县| 城固县| 轮台县| 恩施市|