官术网_书友最值得收藏!

1.2.4 圖像生成工具選型

AIGC技術(shù)能夠生成多種風(fēng)格的高質(zhì)量圖像,這是生成式AI的重要應(yīng)用領(lǐng)域之一。Midjourney、DALL·E和Stable Diffusion等工具均能創(chuàng)造出逼真的真人實(shí)景照片和充滿創(chuàng)意的圖像。

目前,由AIGC生成的真人照片已經(jīng)達(dá)到很高的真實(shí)度。如果我們?cè)贏IGC的生成指令中加入相機(jī)參數(shù)、濾鏡、風(fēng)格等參數(shù),其圖像生成效果甚至可以與專業(yè)攝影師的作品相媲美。

這些工具的核心技術(shù)是基于深度學(xué)習(xí)的圖像生成模型,特別是變分自編碼器、擴(kuò)散模型(如Stable Diffusion)或Transformer架構(gòu)(如DALL·E)。這些新模型通過海量文本圖像數(shù)據(jù)的訓(xùn)練,使AIGC圖像生成工具能夠理解自然語言,并根據(jù)指令提示創(chuàng)造出相匹配的圖像。

此外,AIGC可以根據(jù)我們的具體需求和情景描述生成圖像,從而更精準(zhǔn)地匹配圖文信息,增強(qiáng)文章、推文以及其他文本的吸引力。

AIGC工具生成的圖像可以用于微信、小紅書等社交媒體配圖,不僅高效解決了插畫和配圖的難題,還從根本上降低了因誤用網(wǎng)絡(luò)圖片而引發(fā)的版權(quán)風(fēng)險(xiǎn)。

AIGC圖像生成工具主要分為4類:圖像生成、3D圖像生成、智能圖像編輯和智能設(shè)計(jì),見表1-5。

表1-5 AIGC圖像生成工具分類與工具舉例

AIGC圖像生成工具的應(yīng)用場景幾乎覆蓋了所有行業(yè),包括Logo設(shè)計(jì)、商品設(shè)計(jì)、模特展示、建筑設(shè)計(jì)等。此外,某些AIGC工具還提供模型訓(xùn)練功能,如Stable Diffusion的強(qiáng)大模型庫和個(gè)性化訓(xùn)練庫,這些功能使生成的圖像能夠貼合特定產(chǎn)品的特征和品牌調(diào)性。

在使用AIGC圖像生成工具時(shí),同樣需要注意潛在的風(fēng)險(xiǎn),特別是版權(quán)歸屬和商用限制。商用通常指的是以營利為目的的商業(yè)活動(dòng),包括使用AIGC生成的圖像進(jìn)行生產(chǎn)和銷售商品、提供服務(wù)、開設(shè)店鋪或網(wǎng)站進(jìn)行線上或線下銷售、參與進(jìn)出口貿(mào)易、開發(fā)和運(yùn)營互聯(lián)網(wǎng)平臺(tái)等。

大多數(shù)AIGC圖像生成工具的服務(wù)條款中會(huì)明確版權(quán)歸屬。一些平臺(tái)允許用戶擁有生成圖像的版權(quán),而其他平臺(tái)則保留某些權(quán)利。一些AIGC圖像生成工具允許個(gè)人將生成的作品用于商業(yè)目的,但通常有一些限制條件,例如禁止使用生成的圖像制作仇恨言論、色情內(nèi)容或侵犯版權(quán)的作品。尤其是涉及肖像時(shí),需要特別注意版權(quán)問題。

使用AIGC工具生成圖像時(shí),用戶需要仔細(xì)閱讀并理解平臺(tái)的許可條款和版權(quán)政策,以明確自己是否擁有這些AI生成圖像的版權(quán),以及是否可以將這些圖像用于商業(yè)用途。某些工具允許用戶對(duì)生成的圖像擁有完全的版權(quán),而有些工具則保留某些權(quán)利或限制商業(yè)使用。例如,使用Stable Diffusion的某些Checkpoint模型時(shí),模型的出品方可能會(huì)要求使用這些模型生成的圖像不能用于商業(yè)用途。對(duì)于企業(yè)用戶,有的平臺(tái)可能會(huì)要求購買商業(yè)許可或訂閱更高級(jí)別的服務(wù)才能將生成的圖像用于商業(yè)目的,如Midjourney。

我們把一些工具的版權(quán)和商業(yè)使用政策摘錄如下。

1)Midjourney。無論是付費(fèi)用戶還是非付費(fèi)用戶,都不能聲明Midjourney生成圖像的版權(quán)。

對(duì)于非付費(fèi)用戶,Midjourney提供的是知識(shí)共享非商業(yè)性使用4.0協(xié)議國際版(Creative Commons Attribution-NonCommercial 4.0 International License,CC BY-NC 4.0)。這意味著用戶生成的圖像不可以用于商業(yè)目的。

對(duì)于付費(fèi)用戶,Midjourney允許圖像用于任何目的,包括商業(yè)用途,但用戶必須遵守特定條件。例如,用戶不能聲稱對(duì)圖像擁有所有權(quán)或作者權(quán),不能以違法、誹謗、傳播淫穢內(nèi)容、有害或侵犯他人權(quán)利的方式使用Midjourney生成的資產(chǎn)。

對(duì)于企業(yè)和品牌,年收入超過100萬美元的公司必須訂閱Pro計(jì)劃(訂閱費(fèi)每月60美元)或者M(jìn)ega計(jì)劃(訂閱費(fèi)每月120美元),才能把生成的圖像用于商業(yè)目的。

2)DALL·E 3。用戶擁有他們使用DALL·E創(chuàng)建的圖像的版權(quán),包括重印、銷售和商品化的權(quán)利,無論這些圖像是免費(fèi)還是付費(fèi)生成的。用戶可以自由地將這些圖像用于商業(yè)項(xiàng)目,包括但不限于NFT(非同質(zhì)化代幣)創(chuàng)作和自媒體等商業(yè)用途。

3)Stable Diffusion。Stable Diffusion作為一個(gè)開源模型,其代碼和架構(gòu)均對(duì)公眾開放。然而,用于訓(xùn)練該模型的數(shù)據(jù)集可能包含受版權(quán)保護(hù)的作品,這一點(diǎn)在法律上存在爭議。

目前尚無明確的法律界定Stable Diffusion生成圖像的版權(quán)歸屬。一種觀點(diǎn)認(rèn)為,版權(quán)應(yīng)歸用戶所有,因?yàn)橛脩羰禽斎胩崾静⑸蓤D像的人。另一種觀點(diǎn)則認(rèn)為,版權(quán)應(yīng)歸Stable Diffusion的開發(fā)者所有,因?yàn)殚_發(fā)者是創(chuàng)建模型的主體。還有一種觀點(diǎn)認(rèn)為,版權(quán)應(yīng)歸數(shù)據(jù)集中被使用作品的版權(quán)所有者所有,因?yàn)槟P偷挠?xùn)練過程中使用了這些作品。

由Stable Diffusion官方模型生成的圖像,并未明確限制其商業(yè)使用。

對(duì)于社區(qū)和第三方模型,如果模型作者使用了Creative Commons(CC)許可證,則CC BY許可證要求在商業(yè)使用時(shí)需署名模型作者,而CC BY-NC許可證則禁止用于商業(yè)用途。用戶在使用這些模型時(shí),應(yīng)仔細(xì)查詢相關(guān)許可證的許可范圍和商用限制,以免侵犯版權(quán)。

對(duì)于用戶自行訓(xùn)練的LoRA或Checkpoint模型,建議僅使用未受版權(quán)保護(hù)的作品進(jìn)行訓(xùn)練,或在使用前取得版權(quán)所有者的明確許可。

4)百度文心一格。使用百度文心一格AI創(chuàng)作服務(wù)生成的圖像,下載后允許個(gè)人使用和在合法合規(guī)范圍內(nèi)的商用。

AIGC工具在圖像生成方面存在一些局限性,主要包括生成系列圖像時(shí)的一致性、輸出結(jié)果的可控性以及圖文混排問題。

● 一致性問題:AIGC工具在處理新的生成請(qǐng)求或修改要求時(shí),可能難以保持特征(如同一人物的面部)或細(xì)節(jié)(如衣服)的一致性。為解決這個(gè)問題,可以使用種子(Seed)、參數(shù)控制(Midjourney)或圖生圖功能(如Stable Diffusion的圖生圖模塊)。

● 可控性問題:在某些情況下,AIGC可能會(huì)錯(cuò)誤地將小狗生成為羊的形象,例如在嘗試生成一群小狗在草地上奔跑的圖像時(shí)。這可能是指令描述不夠準(zhǔn)確,或AIGC工具及其背后的生成對(duì)抗模型的限制所導(dǎo)致的。為提高輸出結(jié)果的控制力,可以嘗試使用特定于文化或風(fēng)格的模型,如majicMIX realistic麥橘寫實(shí)或國風(fēng)3模型,來生成符合亞洲審美的面孔。此外,一些AIGC工具(如Midjourney和DALL·E)提供局部修改功能,允許用戶標(biāo)出需要修改的地方,并通過指令進(jìn)行修改。

● 圖文混排問題:在制作含文字的海報(bào)時(shí),將文字嵌入圖像可能較為困難。這是因?yàn)榇蠖鄶?shù)AIGC模型專注于整體圖像生成,而不太注重細(xì)部元素(如文字)的添加和編輯。為解決這個(gè)問題,可以先將文字制成圖像,然后在AIGC工具(如Stable Diffusion)中進(jìn)行圖生圖操作,或在生成圖像后使用Canva、創(chuàng)客貼等工具進(jìn)行二次創(chuàng)作。

我們選取了幾個(gè)常用的AIGC圖像生成工具做簡單介紹。

1.DALL·E

DALL·E是由OpenAI于2021年1月推出的圖像生成系統(tǒng)。該系統(tǒng)的命名靈感來源于著名畫家達(dá)利(Dalí)和皮克斯動(dòng)畫電影中的角色WALL·E。

DALL·E的核心功能是根據(jù)用戶提供的文本描述生成相應(yīng)的圖像。它的能力不局限于基本的圖像生成,還涵蓋了廣泛的藝術(shù)風(fēng)格和類型。無論是插畫、風(fēng)景、肖像還是抽象藝術(shù),DALL·E都能夠根據(jù)用戶的描述靈活地創(chuàng)造出符合要求的圖像。DALL·E還能生成文字來制作建筑物上的標(biāo)志,以及制作同一場景的草圖和全彩圖像。這意味著DALL·E不僅能夠生成獨(dú)立的圖像,還能夠生成具有特定功能和用途的圖像。無論是為了商業(yè)宣傳、藝術(shù)創(chuàng)作還是個(gè)人娛樂,DALL·E都能夠提供相應(yīng)的圖像生成服務(wù)。

DALL·E是一款基于擴(kuò)散模型、GAN、VAE和Transformer模型的圖像生成系統(tǒng)。它利用GAN的生成器和判別器來制作并區(qū)分圖像,利用VAE來學(xué)習(xí)數(shù)據(jù)的概率分布以生成新數(shù)據(jù),以及利用Transformer來理解文本描述并將其轉(zhuǎn)換為圖像特征。這些模型的結(jié)合使DALL·E能夠根據(jù)文本描述生成與之高度匹配的圖像,開啟創(chuàng)意營銷的新時(shí)代。

DALL·E目前已經(jīng)更新到了DALL·E 3版本。這個(gè)版本可以通過ChatGPT、Bing、Microsoft Paint以及其他使用其API的服務(wù)來使用。通過ChatGPT或者Poe來使用的體驗(yàn)較好,但是需要注意在ChatGPT上使用會(huì)消耗對(duì)話次數(shù)。

對(duì)AI工具的新用戶而言,DALL·E 3具有直觀、易上手的界面,只需輸入提示語即可一鍵生成圖像。此外,用戶還可以上傳自己的圖像并使用內(nèi)置的inpainting(修復(fù))或outpainting(拓展畫布)工具進(jìn)行修改,基于提示語調(diào)整已有圖像部分或擴(kuò)展圖像內(nèi)容。

DALL·E可以和ChatGPT完美搭配,我們可以輸入中文關(guān)鍵詞和指令,讓ChatGPT生成更準(zhǔn)確、更有效的DALL·E指令,從而生成更符合我們預(yù)期的圖像。

例如,我們可以讓ChatGPT生成一條給DALL·E的指令,指示DALL·E使用專業(yè)的相機(jī)和設(shè)置來拍攝一張肖像照。指令如下:

選擇一臺(tái)專業(yè)的全畫幅DSLR相機(jī),如佳能EOS 5D MarkⅣ。使用85mm f/1.4鏡頭,以獲得柔和的背景散景和精確的焦點(diǎn)。設(shè)置光圈為f/2.8以提供適度景深并保持主體銳利,快門速度為1/200秒以凍結(jié)任何輕微動(dòng)作并確保清晰的圖像。使用自然光作為主要光源,并添加一個(gè)反光板在相機(jī)左側(cè)輕微補(bǔ)光,以平衡陰影,并在主體臉部創(chuàng)造柔和的輪廓光。

相比Midjourney,DALL·E可以更準(zhǔn)確地理解這條指令,并且根據(jù)指令來生成圖像。

(1)優(yōu)點(diǎn)

● 自然語言理解能力強(qiáng):得益于與ChatGPT相同的Transformer架構(gòu)和語料庫,DALL·E 3能夠深入理解和捕捉自然語言的模式,并根據(jù)廣泛、模糊或簡短的文字提示精確生成所需內(nèi)容。

● 快速響應(yīng)和高效生成:DALL·E 3在生成圖像時(shí)的表現(xiàn)出色,速度通常比其他同類工具快三四倍,在相同條件下能夠迅速提供多幅圖像結(jié)果。

● 明確的圖像所有權(quán):無論是免費(fèi)版用戶還是付費(fèi)版用戶,使用DALL·E 3創(chuàng)建的圖像所有權(quán)歸用戶所有,包括重印權(quán)、銷售權(quán)以及商品化權(quán)利。這為用戶提供了較高的創(chuàng)作自由度和商業(yè)利用空間。

● 商業(yè)用途友好:與某些免費(fèi)服務(wù)(如Midjourney)不同,DALL·E 3允許用戶對(duì)其生成的圖像擁有完整的商業(yè)使用權(quán),不需要額外升級(jí)付費(fèi)。這對(duì)于需要將AI生成的圖像用于商業(yè)目的的用戶來說是一個(gè)顯著優(yōu)勢。

(2)缺點(diǎn)

● 指令要求較高:若要生成細(xì)節(jié)豐富的圖像,DALL·E 3需要用戶輸入詳細(xì)、精確的描述性提示。

● 人像生成表現(xiàn)一般:相較于Midjourney等工具,DALL·E 3在生成逼真的人物圖像上表現(xiàn)一般。

2.Midjourney

Midjourney是一款備受矚目的圖像生成工具,以其逼真的人物照片、多元的藝術(shù)風(fēng)格和豐富的功能而聞名。公開信息顯示,Midjourney是由位于美國舊金山的獨(dú)立研究實(shí)驗(yàn)室Midjourney Inc創(chuàng)建的。該公司的創(chuàng)始人David Holz在2021年8月離開Leap Motion后創(chuàng)立了Midjourney。

Midjourney的獨(dú)特之處在于它將大語言模型和擴(kuò)散模型兩種機(jī)器學(xué)習(xí)技術(shù)相結(jié)合。用戶通過文字描述、圖像上傳或參數(shù)設(shè)定等方式發(fā)出指令,語言模型便能理解用戶的意圖,并將指令轉(zhuǎn)換為向量指引后續(xù)的圖像生成過程。

盡管Midjourney的具體工作原理尚未完全公開,但可以看出,它通過對(duì)CLIP數(shù)據(jù)集的訓(xùn)練,學(xué)會(huì)了圖像與文本描述之間的內(nèi)在關(guān)聯(lián),從而實(shí)現(xiàn)文本到圖像的轉(zhuǎn)換。用戶可以通過調(diào)整文字指引權(quán)重(Image Weight)、創(chuàng)意發(fā)散(Chaos)、原創(chuàng)程度(Style)、圖像源(Seed)、放大(Upscale、Zoom Out)等參數(shù),更好地控制生成的圖像。

Midjourney目前只能通過Discord或第三方API平臺(tái)(如文山等)使用。用戶可以直接向機(jī)器人發(fā)送消息,或創(chuàng)建自己的Discord服務(wù)器并配置機(jī)器人后使用。

(1)優(yōu)點(diǎn)

● 用戶社區(qū)活躍:Midjourney通過在Discord上的公共服務(wù)器提供了一個(gè)獨(dú)特的社區(qū)環(huán)境,用戶不僅可以查看他人的指令和生成的作品,還能參與到一個(gè)充滿活力的交流平臺(tái)中。這種設(shè)置鼓勵(lì)了用戶間的學(xué)習(xí)、分享和協(xié)作,極大地豐富了用戶體驗(yàn)。對(duì)于新手用戶而言,這樣的環(huán)境尤其友好,他們可以輕松獲得靈感和實(shí)用建議,加速自己的學(xué)習(xí)過程。

● 易于使用:Midjourney通過結(jié)合簡單的文本提示和直觀的Discord操作界面,使得圖像生成不需要復(fù)雜的技術(shù)知識(shí)。

● 生成速度和多樣性:Midjourney優(yōu)化了圖像生成的速度,允許用戶在短時(shí)間內(nèi)生成多個(gè)圖像變體。這一特點(diǎn)不僅加快了創(chuàng)意過程,也使用戶能夠快速迭代和改進(jìn)他們的想法。通過比較不同的圖像變體,用戶可以更精確地細(xì)化他們的視覺目標(biāo),從而更有效地實(shí)現(xiàn)創(chuàng)意潛力的最大化。

● 詳細(xì)的控制參數(shù):Midjourney允許用戶通過多個(gè)參數(shù)來精細(xì)調(diào)整生成的圖像。例如,用戶可以調(diào)整圖像的局部、長寬比、創(chuàng)意程度等。

(2)缺點(diǎn)

● 付費(fèi):與一些免費(fèi)的AI模型相比,Midjourney的訂閱模式會(huì)產(chǎn)生額外的成本。

● 功能限制:Midjourney可能沒有Stable Diffusion的個(gè)性化模型訓(xùn)練功能。

3.Stable Diffusion

Stable Diffusion是一款開源且功能強(qiáng)大的AI圖像和視頻生成模型,能夠基于文本和圖像提示生成具有照片級(jí)真實(shí)感的圖像。該模型于2022年推出,不僅可以生成靜態(tài)圖像,還能創(chuàng)建視頻和動(dòng)畫。

Stable Diffusion采用了多種先進(jìn)技術(shù),包括VAE、擴(kuò)散模型、CLIP技術(shù),以及LoRA(Low-Rank Adaptation)等模型調(diào)整技術(shù)。這些技術(shù)的綜合應(yīng)用使得文本到圖像、圖像到圖像、文字到視頻的轉(zhuǎn)換成為可能。

Stable Diffusion可以在配備GPU或蘋果M3芯片的設(shè)備上本地運(yùn)行。我們可以搜索網(wǎng)絡(luò)上的整合包來下載和安裝。

Stable Diffusion提供了大量的預(yù)訓(xùn)練模型,其中最重要的是Checkpoint模型。Checkpoint存儲(chǔ)了所有的權(quán)重和偏置參數(shù),這些參數(shù)通過在大規(guī)模數(shù)據(jù)集上的訓(xùn)練獲得,可以捕捉數(shù)據(jù)的分布特性。例如,國風(fēng)系列的Checkpoint模型可以生成具有中國風(fēng)格的繪畫或圖像,而Product Design模型則用于生成產(chǎn)品設(shè)計(jì)圖。

LoRA模型與Checkpoint模型結(jié)合使用,可以對(duì)圖像的風(fēng)格(例如人物面部特征)進(jìn)行微調(diào)。LoRA通過在特定層添加低秩矩陣來調(diào)整權(quán)重,允許在不重新訓(xùn)練整個(gè)模型的情況下進(jìn)行微調(diào)。用戶還可以下載“賽博丹爐”等集成包或者通過網(wǎng)站的LoRA訓(xùn)練器來訓(xùn)練自己的LoRA模型。

此外,Stable Diffusion提供了眾多插件和控件,允許用戶微調(diào)生成算法、擴(kuò)散參數(shù)和人物動(dòng)作等。Stable Diffusion還具備強(qiáng)大的圖生圖功能,支持人物換臉、模特?fù)Q裝、風(fēng)格轉(zhuǎn)換等多種操作。

(1)優(yōu)點(diǎn)

● 開源性:Stable Diffusion是開源項(xiàng)目,允許開發(fā)者和研究人員自由訪問和修改其代碼,從而促進(jìn)技術(shù)的透明和創(chuàng)新。

● 高自定義能力:用戶可以在本地環(huán)境中運(yùn)行Stable Diffusion,并對(duì)生成過程進(jìn)行精細(xì)的調(diào)整和控制,以滿足個(gè)性化需求。

● 活躍的社區(qū):開源項(xiàng)目往往能夠迅速積累一個(gè)活躍的社區(qū),為用戶提供技術(shù)支持、新功能和改進(jìn)反饋,形成一個(gè)不斷進(jìn)化的生態(tài)系統(tǒng)。

● 免費(fèi)使用:Stable Diffusion允許用戶在本地計(jì)算機(jī)上免費(fèi)運(yùn)行,并且可以免費(fèi)生成圖像,無須支付額外的費(fèi)用。

(2)缺點(diǎn)

● 硬件要求高:為了保證圖像生成的效率,Stable Diffusion對(duì)硬件配置,尤其是對(duì)GPU的性能要求較高,因此它可能不適合那些沒有高性能計(jì)算資源的用戶。

● 安裝復(fù)雜:作為開源項(xiàng)目,Stable Diffusion的安裝對(duì)新手用戶來說可能較為復(fù)雜。用戶可以通過搜索并下載相關(guān)的整合包(如秋葉整合包)來簡化安裝過程。

● 學(xué)習(xí)曲線陡峭:用戶需要進(jìn)行專門的學(xué)習(xí)和訓(xùn)練,才能真正掌握Stable Diffusion的功能和操作,這可能需要一定的時(shí)間和努力。

利用AIGC圖像生成工具,我們能夠迅速生成廣告創(chuàng)意、社交媒體配圖、產(chǎn)品視覺效果圖等內(nèi)容,極大地縮短設(shè)計(jì)制作的時(shí)間。這些工具為品牌提供了前所未有的創(chuàng)意自由度和創(chuàng)作空間,減少了對(duì)專業(yè)設(shè)計(jì)人才的依賴,從而降低設(shè)計(jì)成本。

在遵守版權(quán)法律和道德規(guī)范的前提下,無論是甲方還是乙方,都應(yīng)重新考慮和定義設(shè)計(jì)與創(chuàng)意工作的分工,鼓勵(lì)更多的嘗試、創(chuàng)新和實(shí)踐。這不僅能推動(dòng)創(chuàng)意產(chǎn)業(yè)的發(fā)展,還能激發(fā)市場上出現(xiàn)更多創(chuàng)新的可能性。

主站蜘蛛池模板: 合川市| 柳林县| 阜阳市| 沁水县| 锡林浩特市| 汝城县| 贡嘎县| 庆城县| 时尚| 南华县| 德州市| 兰溪市| 灵石县| 楚雄市| 宝山区| 太保市| 九龙县| 济源市| 集贤县| 周至县| 夏邑县| 峨山| 保康县| 长海县| 贵阳市| 晋宁县| 海安县| 赤水市| 临夏县| 集安市| 新蔡县| 伊吾县| 金寨县| 新宁县| 紫云| 东阳市| 泰来县| 永丰县| 嘉祥县| 安化县| 惠水县|