956棋牌老版无病毒版

書名： AIGC智能營銷：4A模型驅(qū)動(dòng)的AI營銷方法與實(shí)踐
作者名：栗建
本章字?jǐn)?shù)： 5541字
更新時(shí)間： 2025-03-13 17:59:34

1.2.4 圖像生成工具選型

AIGC技術(shù)能夠生成多種風(fēng)格的高質(zhì)量圖像，這是生成式AI的重要應(yīng)用領(lǐng)域之一。Midjourney、DALL·E和Stable Diffusion等工具均能創(chuàng)造出逼真的真人實(shí)景照片和充滿創(chuàng)意的圖像。

目前，由AIGC生成的真人照片已經(jīng)達(dá)到很高的真實(shí)度。如果我們?cè)贏IGC的生成指令中加入相機(jī)參數(shù)、濾鏡、風(fēng)格等參數(shù)，其圖像生成效果甚至可以與專業(yè)攝影師的作品相媲美。

這些工具的核心技術(shù)是基于深度學(xué)習(xí)的圖像生成模型，特別是變分自編碼器、擴(kuò)散模型（如Stable Diffusion）或Transformer架構(gòu)（如DALL·E）。這些新模型通過海量文本圖像數(shù)據(jù)的訓(xùn)練，使AIGC圖像生成工具能夠理解自然語言，并根據(jù)指令提示創(chuàng)造出相匹配的圖像。

此外，AIGC可以根據(jù)我們的具體需求和情景描述生成圖像，從而更精準(zhǔn)地匹配圖文信息，增強(qiáng)文章、推文以及其他文本的吸引力。

AIGC工具生成的圖像可以用于微信、小紅書等社交媒體配圖，不僅高效解決了插畫和配圖的難題，還從根本上降低了因誤用網(wǎng)絡(luò)圖片而引發(fā)的版權(quán)風(fēng)險(xiǎn)。

AIGC圖像生成工具主要分為4類：圖像生成、3D圖像生成、智能圖像編輯和智能設(shè)計(jì)，見表1-5。

表1-5 AIGC圖像生成工具分類與工具舉例

AIGC圖像生成工具的應(yīng)用場景幾乎覆蓋了所有行業(yè)，包括Logo設(shè)計(jì)、商品設(shè)計(jì)、模特展示、建筑設(shè)計(jì)等。此外，某些AIGC工具還提供模型訓(xùn)練功能，如Stable Diffusion的強(qiáng)大模型庫和個(gè)性化訓(xùn)練庫，這些功能使生成的圖像能夠貼合特定產(chǎn)品的特征和品牌調(diào)性。

在使用AIGC圖像生成工具時(shí)，同樣需要注意潛在的風(fēng)險(xiǎn)，特別是版權(quán)歸屬和商用限制。商用通常指的是以營利為目的的商業(yè)活動(dòng)，包括使用AIGC生成的圖像進(jìn)行生產(chǎn)和銷售商品、提供服務(wù)、開設(shè)店鋪或網(wǎng)站進(jìn)行線上或線下銷售、參與進(jìn)出口貿(mào)易、開發(fā)和運(yùn)營互聯(lián)網(wǎng)平臺(tái)等。

大多數(shù)AIGC圖像生成工具的服務(wù)條款中會(huì)明確版權(quán)歸屬。一些平臺(tái)允許用戶擁有生成圖像的版權(quán)，而其他平臺(tái)則保留某些權(quán)利。一些AIGC圖像生成工具允許個(gè)人將生成的作品用于商業(yè)目的，但通常有一些限制條件，例如禁止使用生成的圖像制作仇恨言論、色情內(nèi)容或侵犯版權(quán)的作品。尤其是涉及肖像時(shí)，需要特別注意版權(quán)問題。

使用AIGC工具生成圖像時(shí)，用戶需要仔細(xì)閱讀并理解平臺(tái)的許可條款和版權(quán)政策，以明確自己是否擁有這些AI生成圖像的版權(quán)，以及是否可以將這些圖像用于商業(yè)用途。某些工具允許用戶對(duì)生成的圖像擁有完全的版權(quán)，而有些工具則保留某些權(quán)利或限制商業(yè)使用。例如，使用Stable Diffusion的某些Checkpoint模型時(shí)，模型的出品方可能會(huì)要求使用這些模型生成的圖像不能用于商業(yè)用途。對(duì)于企業(yè)用戶，有的平臺(tái)可能會(huì)要求購買商業(yè)許可或訂閱更高級(jí)別的服務(wù)才能將生成的圖像用于商業(yè)目的，如Midjourney。

我們把一些工具的版權(quán)和商業(yè)使用政策摘錄如下。

1）Midjourney。無論是付費(fèi)用戶還是非付費(fèi)用戶，都不能聲明Midjourney生成圖像的版權(quán)。

對(duì)于非付費(fèi)用戶，Midjourney提供的是知識(shí)共享非商業(yè)性使用4.0協(xié)議國際版（Creative Commons Attribution-NonCommercial 4.0 International License，CC BY-NC 4.0）。這意味著用戶生成的圖像不可以用于商業(yè)目的。

對(duì)于付費(fèi)用戶，Midjourney允許圖像用于任何目的，包括商業(yè)用途，但用戶必須遵守特定條件。例如，用戶不能聲稱對(duì)圖像擁有所有權(quán)或作者權(quán)，不能以違法、誹謗、傳播淫穢內(nèi)容、有害或侵犯他人權(quán)利的方式使用Midjourney生成的資產(chǎn)。

對(duì)于企業(yè)和品牌，年收入超過100萬美元的公司必須訂閱Pro計(jì)劃（訂閱費(fèi)每月60美元）或者M(jìn)ega計(jì)劃（訂閱費(fèi)每月120美元），才能把生成的圖像用于商業(yè)目的。

2）DALL·E 3。用戶擁有他們使用DALL·E創(chuàng)建的圖像的版權(quán)，包括重印、銷售和商品化的權(quán)利，無論這些圖像是免費(fèi)還是付費(fèi)生成的。用戶可以自由地將這些圖像用于商業(yè)項(xiàng)目，包括但不限于NFT（非同質(zhì)化代幣）創(chuàng)作和自媒體等商業(yè)用途。

3）Stable Diffusion。Stable Diffusion作為一個(gè)開源模型，其代碼和架構(gòu)均對(duì)公眾開放。然而，用于訓(xùn)練該模型的數(shù)據(jù)集可能包含受版權(quán)保護(hù)的作品，這一點(diǎn)在法律上存在爭議。

目前尚無明確的法律界定Stable Diffusion生成圖像的版權(quán)歸屬。一種觀點(diǎn)認(rèn)為，版權(quán)應(yīng)歸用戶所有，因?yàn)橛脩羰禽斎胩崾静⑸蓤D像的人。另一種觀點(diǎn)則認(rèn)為，版權(quán)應(yīng)歸Stable Diffusion的開發(fā)者所有，因?yàn)殚_發(fā)者是創(chuàng)建模型的主體。還有一種觀點(diǎn)認(rèn)為，版權(quán)應(yīng)歸數(shù)據(jù)集中被使用作品的版權(quán)所有者所有，因?yàn)槟Ｐ偷挠?xùn)練過程中使用了這些作品。

由Stable Diffusion官方模型生成的圖像，并未明確限制其商業(yè)使用。

對(duì)于社區(qū)和第三方模型，如果模型作者使用了Creative Commons（CC）許可證，則CC BY許可證要求在商業(yè)使用時(shí)需署名模型作者，而CC BY-NC許可證則禁止用于商業(yè)用途。用戶在使用這些模型時(shí)，應(yīng)仔細(xì)查詢相關(guān)許可證的許可范圍和商用限制，以免侵犯版權(quán)。

對(duì)于用戶自行訓(xùn)練的LoRA或Checkpoint模型，建議僅使用未受版權(quán)保護(hù)的作品進(jìn)行訓(xùn)練，或在使用前取得版權(quán)所有者的明確許可。

4）百度文心一格。使用百度文心一格AI創(chuàng)作服務(wù)生成的圖像，下載后允許個(gè)人使用和在合法合規(guī)范圍內(nèi)的商用。

AIGC工具在圖像生成方面存在一些局限性，主要包括生成系列圖像時(shí)的一致性、輸出結(jié)果的可控性以及圖文混排問題。

● 一致性問題：AIGC工具在處理新的生成請(qǐng)求或修改要求時(shí)，可能難以保持特征（如同一人物的面部）或細(xì)節(jié)（如衣服）的一致性。為解決這個(gè)問題，可以使用種子（Seed）、參數(shù)控制（Midjourney）或圖生圖功能（如Stable Diffusion的圖生圖模塊）。

● 可控性問題：在某些情況下，AIGC可能會(huì)錯(cuò)誤地將小狗生成為羊的形象，例如在嘗試生成一群小狗在草地上奔跑的圖像時(shí)。這可能是指令描述不夠準(zhǔn)確，或AIGC工具及其背后的生成對(duì)抗模型的限制所導(dǎo)致的。為提高輸出結(jié)果的控制力，可以嘗試使用特定于文化或風(fēng)格的模型，如majicMIX realistic麥橘寫實(shí)或國風(fēng)3模型，來生成符合亞洲審美的面孔。此外，一些AIGC工具（如Midjourney和DALL·E）提供局部修改功能，允許用戶標(biāo)出需要修改的地方，并通過指令進(jìn)行修改。

● 圖文混排問題：在制作含文字的海報(bào)時(shí)，將文字嵌入圖像可能較為困難。這是因?yàn)榇蠖鄶?shù)AIGC模型專注于整體圖像生成，而不太注重細(xì)部元素（如文字）的添加和編輯。為解決這個(gè)問題，可以先將文字制成圖像，然后在AIGC工具（如Stable Diffusion）中進(jìn)行圖生圖操作，或在生成圖像后使用Canva、創(chuàng)客貼等工具進(jìn)行二次創(chuàng)作。

我們選取了幾個(gè)常用的AIGC圖像生成工具做簡單介紹。

1.DALL·E

DALL·E是由OpenAI于2021年1月推出的圖像生成系統(tǒng)。該系統(tǒng)的命名靈感來源于著名畫家達(dá)利（Dalí）和皮克斯動(dòng)畫電影中的角色WALL·E。

DALL·E的核心功能是根據(jù)用戶提供的文本描述生成相應(yīng)的圖像。它的能力不局限于基本的圖像生成，還涵蓋了廣泛的藝術(shù)風(fēng)格和類型。無論是插畫、風(fēng)景、肖像還是抽象藝術(shù)，DALL·E都能夠根據(jù)用戶的描述靈活地創(chuàng)造出符合要求的圖像。DALL·E還能生成文字來制作建筑物上的標(biāo)志，以及制作同一場景的草圖和全彩圖像。這意味著DALL·E不僅能夠生成獨(dú)立的圖像，還能夠生成具有特定功能和用途的圖像。無論是為了商業(yè)宣傳、藝術(shù)創(chuàng)作還是個(gè)人娛樂，DALL·E都能夠提供相應(yīng)的圖像生成服務(wù)。

DALL·E是一款基于擴(kuò)散模型、GAN、VAE和Transformer模型的圖像生成系統(tǒng)。它利用GAN的生成器和判別器來制作并區(qū)分圖像，利用VAE來學(xué)習(xí)數(shù)據(jù)的概率分布以生成新數(shù)據(jù)，以及利用Transformer來理解文本描述并將其轉(zhuǎn)換為圖像特征。這些模型的結(jié)合使DALL·E能夠根據(jù)文本描述生成與之高度匹配的圖像，開啟創(chuàng)意營銷的新時(shí)代。

DALL·E目前已經(jīng)更新到了DALL·E 3版本。這個(gè)版本可以通過ChatGPT、Bing、Microsoft Paint以及其他使用其API的服務(wù)來使用。通過ChatGPT或者Poe來使用的體驗(yàn)較好，但是需要注意在ChatGPT上使用會(huì)消耗對(duì)話次數(shù)。

對(duì)AI工具的新用戶而言，DALL·E 3具有直觀、易上手的界面，只需輸入提示語即可一鍵生成圖像。此外，用戶還可以上傳自己的圖像并使用內(nèi)置的inpainting（修復(fù)）或outpainting（拓展畫布）工具進(jìn)行修改，基于提示語調(diào)整已有圖像部分或擴(kuò)展圖像內(nèi)容。

DALL·E可以和ChatGPT完美搭配，我們可以輸入中文關(guān)鍵詞和指令，讓ChatGPT生成更準(zhǔn)確、更有效的DALL·E指令，從而生成更符合我們預(yù)期的圖像。

例如，我們可以讓ChatGPT生成一條給DALL·E的指令，指示DALL·E使用專業(yè)的相機(jī)和設(shè)置來拍攝一張肖像照。指令如下：

選擇一臺(tái)專業(yè)的全畫幅DSLR相機(jī)，如佳能EOS 5D MarkⅣ。使用85mm f/1.4鏡頭，以獲得柔和的背景散景和精確的焦點(diǎn)。設(shè)置光圈為f/2.8以提供適度景深并保持主體銳利，快門速度為1/200秒以凍結(jié)任何輕微動(dòng)作并確保清晰的圖像。使用自然光作為主要光源，并添加一個(gè)反光板在相機(jī)左側(cè)輕微補(bǔ)光，以平衡陰影，并在主體臉部創(chuàng)造柔和的輪廓光。

相比Midjourney，DALL·E可以更準(zhǔn)確地理解這條指令，并且根據(jù)指令來生成圖像。

（1）優(yōu)點(diǎn)

● 自然語言理解能力強(qiáng)：得益于與ChatGPT相同的Transformer架構(gòu)和語料庫，DALL·E 3能夠深入理解和捕捉自然語言的模式，并根據(jù)廣泛、模糊或簡短的文字提示精確生成所需內(nèi)容。

● 快速響應(yīng)和高效生成：DALL·E 3在生成圖像時(shí)的表現(xiàn)出色，速度通常比其他同類工具快三四倍，在相同條件下能夠迅速提供多幅圖像結(jié)果。

● 明確的圖像所有權(quán)：無論是免費(fèi)版用戶還是付費(fèi)版用戶，使用DALL·E 3創(chuàng)建的圖像所有權(quán)歸用戶所有，包括重印權(quán)、銷售權(quán)以及商品化權(quán)利。這為用戶提供了較高的創(chuàng)作自由度和商業(yè)利用空間。

● 商業(yè)用途友好：與某些免費(fèi)服務(wù)（如Midjourney）不同，DALL·E 3允許用戶對(duì)其生成的圖像擁有完整的商業(yè)使用權(quán)，不需要額外升級(jí)付費(fèi)。這對(duì)于需要將AI生成的圖像用于商業(yè)目的的用戶來說是一個(gè)顯著優(yōu)勢。

（2）缺點(diǎn)

● 指令要求較高：若要生成細(xì)節(jié)豐富的圖像，DALL·E 3需要用戶輸入詳細(xì)、精確的描述性提示。

● 人像生成表現(xiàn)一般：相較于Midjourney等工具，DALL·E 3在生成逼真的人物圖像上表現(xiàn)一般。

2.Midjourney

Midjourney是一款備受矚目的圖像生成工具，以其逼真的人物照片、多元的藝術(shù)風(fēng)格和豐富的功能而聞名。公開信息顯示，Midjourney是由位于美國舊金山的獨(dú)立研究實(shí)驗(yàn)室Midjourney Inc創(chuàng)建的。該公司的創(chuàng)始人David Holz在2021年8月離開Leap Motion后創(chuàng)立了Midjourney。

Midjourney的獨(dú)特之處在于它將大語言模型和擴(kuò)散模型兩種機(jī)器學(xué)習(xí)技術(shù)相結(jié)合。用戶通過文字描述、圖像上傳或參數(shù)設(shè)定等方式發(fā)出指令，語言模型便能理解用戶的意圖，并將指令轉(zhuǎn)換為向量指引后續(xù)的圖像生成過程。

盡管Midjourney的具體工作原理尚未完全公開，但可以看出，它通過對(duì)CLIP數(shù)據(jù)集的訓(xùn)練，學(xué)會(huì)了圖像與文本描述之間的內(nèi)在關(guān)聯(lián)，從而實(shí)現(xiàn)文本到圖像的轉(zhuǎn)換。用戶可以通過調(diào)整文字指引權(quán)重（Image Weight）、創(chuàng)意發(fā)散（Chaos）、原創(chuàng)程度（Style）、圖像源（Seed）、放大（Upscale、Zoom Out）等參數(shù)，更好地控制生成的圖像。

Midjourney目前只能通過Discord或第三方API平臺(tái)（如文山等）使用。用戶可以直接向機(jī)器人發(fā)送消息，或創(chuàng)建自己的Discord服務(wù)器并配置機(jī)器人后使用。

（1）優(yōu)點(diǎn)

● 用戶社區(qū)活躍：Midjourney通過在Discord上的公共服務(wù)器提供了一個(gè)獨(dú)特的社區(qū)環(huán)境，用戶不僅可以查看他人的指令和生成的作品，還能參與到一個(gè)充滿活力的交流平臺(tái)中。這種設(shè)置鼓勵(lì)了用戶間的學(xué)習(xí)、分享和協(xié)作，極大地豐富了用戶體驗(yàn)。對(duì)于新手用戶而言，這樣的環(huán)境尤其友好，他們可以輕松獲得靈感和實(shí)用建議，加速自己的學(xué)習(xí)過程。

● 易于使用：Midjourney通過結(jié)合簡單的文本提示和直觀的Discord操作界面，使得圖像生成不需要復(fù)雜的技術(shù)知識(shí)。

● 生成速度和多樣性：Midjourney優(yōu)化了圖像生成的速度，允許用戶在短時(shí)間內(nèi)生成多個(gè)圖像變體。這一特點(diǎn)不僅加快了創(chuàng)意過程，也使用戶能夠快速迭代和改進(jìn)他們的想法。通過比較不同的圖像變體，用戶可以更精確地細(xì)化他們的視覺目標(biāo)，從而更有效地實(shí)現(xiàn)創(chuàng)意潛力的最大化。

● 詳細(xì)的控制參數(shù)：Midjourney允許用戶通過多個(gè)參數(shù)來精細(xì)調(diào)整生成的圖像。例如，用戶可以調(diào)整圖像的局部、長寬比、創(chuàng)意程度等。

（2）缺點(diǎn)

● 付費(fèi)：與一些免費(fèi)的AI模型相比，Midjourney的訂閱模式會(huì)產(chǎn)生額外的成本。

● 功能限制：Midjourney可能沒有Stable Diffusion的個(gè)性化模型訓(xùn)練功能。

3.Stable Diffusion

Stable Diffusion是一款開源且功能強(qiáng)大的AI圖像和視頻生成模型，能夠基于文本和圖像提示生成具有照片級(jí)真實(shí)感的圖像。該模型于2022年推出，不僅可以生成靜態(tài)圖像，還能創(chuàng)建視頻和動(dòng)畫。

Stable Diffusion采用了多種先進(jìn)技術(shù)，包括VAE、擴(kuò)散模型、CLIP技術(shù)，以及LoRA（Low-Rank Adaptation）等模型調(diào)整技術(shù)。這些技術(shù)的綜合應(yīng)用使得文本到圖像、圖像到圖像、文字到視頻的轉(zhuǎn)換成為可能。

Stable Diffusion可以在配備GPU或蘋果M3芯片的設(shè)備上本地運(yùn)行。我們可以搜索網(wǎng)絡(luò)上的整合包來下載和安裝。

Stable Diffusion提供了大量的預(yù)訓(xùn)練模型，其中最重要的是Checkpoint模型。Checkpoint存儲(chǔ)了所有的權(quán)重和偏置參數(shù)，這些參數(shù)通過在大規(guī)模數(shù)據(jù)集上的訓(xùn)練獲得，可以捕捉數(shù)據(jù)的分布特性。例如，國風(fēng)系列的Checkpoint模型可以生成具有中國風(fēng)格的繪畫或圖像，而Product Design模型則用于生成產(chǎn)品設(shè)計(jì)圖。

LoRA模型與Checkpoint模型結(jié)合使用，可以對(duì)圖像的風(fēng)格（例如人物面部特征）進(jìn)行微調(diào)。LoRA通過在特定層添加低秩矩陣來調(diào)整權(quán)重，允許在不重新訓(xùn)練整個(gè)模型的情況下進(jìn)行微調(diào)。用戶還可以下載“賽博丹爐”等集成包或者通過網(wǎng)站的LoRA訓(xùn)練器來訓(xùn)練自己的LoRA模型。

此外，Stable Diffusion提供了眾多插件和控件，允許用戶微調(diào)生成算法、擴(kuò)散參數(shù)和人物動(dòng)作等。Stable Diffusion還具備強(qiáng)大的圖生圖功能，支持人物換臉、模特?fù)Q裝、風(fēng)格轉(zhuǎn)換等多種操作。

（1）優(yōu)點(diǎn)

● 開源性：Stable Diffusion是開源項(xiàng)目，允許開發(fā)者和研究人員自由訪問和修改其代碼，從而促進(jìn)技術(shù)的透明和創(chuàng)新。

● 高自定義能力：用戶可以在本地環(huán)境中運(yùn)行Stable Diffusion，并對(duì)生成過程進(jìn)行精細(xì)的調(diào)整和控制，以滿足個(gè)性化需求。

● 活躍的社區(qū)：開源項(xiàng)目往往能夠迅速積累一個(gè)活躍的社區(qū)，為用戶提供技術(shù)支持、新功能和改進(jìn)反饋，形成一個(gè)不斷進(jìn)化的生態(tài)系統(tǒng)。

● 免費(fèi)使用：Stable Diffusion允許用戶在本地計(jì)算機(jī)上免費(fèi)運(yùn)行，并且可以免費(fèi)生成圖像，無須支付額外的費(fèi)用。

（2）缺點(diǎn)

● 硬件要求高：為了保證圖像生成的效率，Stable Diffusion對(duì)硬件配置，尤其是對(duì)GPU的性能要求較高，因此它可能不適合那些沒有高性能計(jì)算資源的用戶。

● 安裝復(fù)雜：作為開源項(xiàng)目，Stable Diffusion的安裝對(duì)新手用戶來說可能較為復(fù)雜。用戶可以通過搜索并下載相關(guān)的整合包（如秋葉整合包）來簡化安裝過程。

● 學(xué)習(xí)曲線陡峭：用戶需要進(jìn)行專門的學(xué)習(xí)和訓(xùn)練，才能真正掌握Stable Diffusion的功能和操作，這可能需要一定的時(shí)間和努力。

利用AIGC圖像生成工具，我們能夠迅速生成廣告創(chuàng)意、社交媒體配圖、產(chǎn)品視覺效果圖等內(nèi)容，極大地縮短設(shè)計(jì)制作的時(shí)間。這些工具為品牌提供了前所未有的創(chuàng)意自由度和創(chuàng)作空間，減少了對(duì)專業(yè)設(shè)計(jì)人才的依賴，從而降低設(shè)計(jì)成本。

在遵守版權(quán)法律和道德規(guī)范的前提下，無論是甲方還是乙方，都應(yīng)重新考慮和定義設(shè)計(jì)與創(chuàng)意工作的分工，鼓勵(lì)更多的嘗試、創(chuàng)新和實(shí)踐。這不僅能推動(dòng)創(chuàng)意產(chǎn)業(yè)的發(fā)展，還能激發(fā)市場上出現(xiàn)更多創(chuàng)新的可能性。

官术网_书友最值得收藏!

AIGC智能營銷：4A模型驅(qū)動(dòng)的AI營銷方法與實(shí)踐

1.2.4 圖像生成工具選型