- AIGC智能營銷:4A模型驅動的AI營銷方法與實踐
- 栗建
- 5376字
- 2025-03-13 17:59:32
1.1.4 生成式人工智能與AIGC 2.0
進入2023年,我們迎來了生成式人工智能技術的爆發。
生成式人工智能,英文名稱為Generative AI,所以又被稱為GenAI。它是指使用機器學習技術,尤其是深度學習模型,來生成新的數據或內容的一類人工智能系統。這類AI不僅能理解和分析數據,還能創造出全新的輸出,這些輸出可以是文本、圖像、音樂、視頻等多種形式。生成式人工智能的關鍵特點在于其創造能力,即不僅僅復制現有數據,而是基于學習到的數據模式和結構生成新的、獨特的內容。
在這一年,基于Transformer的ChatGPT橫空出世,引領了大語言模型的“百模大戰”。同時擴散模型也引來引爆點,讓Stable Diffusion和Midjourney取得突破性進展。
1.Transformer架構和大語言模型
2017年,谷歌研究團隊的阿西什·瓦斯瓦尼(Ashish Vaswani)、諾姆·沙澤爾(Noam Shazeer)、尼基·帕爾馬(Niki Parmar)等人發表了論文“Attention is All You Need”,并提出了Transformer架構。
這種架構是針對傳統的RNN模型在處理長序列數據時遇到的問題而設計的。為了解決這些問題,谷歌的研究者們著眼于設計一個既能捕捉長距離依賴又能高效并行處理的新模型。他們提出了基于注意力機制的架構,即Transformer。
自注意力(Self-Attention)機制是其中的核心,它通過計算序列中各元素之間的關系,使模型能夠直接學習到任何兩個位置之間的依賴關系,無論它們在序列中的距離有多遠。
當我們與他人交流時,我們的大腦自然而然地捕捉到關鍵詞來更好地理解對方的意思。自注意力機制在計算機處理語言時就是在模仿這一人腦的功能。例如,當計算機處理句子“貓坐在墊子上”時,為了深入理解“坐”這個詞,自注意力機制會識別出“貓”和“墊子”與“坐”有緊密的聯系。接著,它通過增強“貓”和“墊子”的信息(比如它們是什么以及它們的位置),來構建對“坐”這個詞更全面的理解。這個過程使計算機在處理語言時能夠像人類一樣考慮上下文中的重要元素。
此外,Transformer放棄了傳統的遞歸方式,采用了完全的前饋網絡。前饋網絡就像一個只能向前走的機器人,它從一端接收信息并一步步處理信息,在另一端告訴我們結果。這樣做的好處是可以實現同時處理多個任務,解決了長距離依賴問題,也使得模型訓練的并行化成為可能,極大地加速了模型的訓練過程。
Transformer架構自被提出后,迅速成為自然語言處理乃至其他領域的重要基石,催生了BERT、GPT、Claude、千問、智譜等大型預訓練語言模型(Large Pre-trained Language Model)。大型預訓練語言模型也被稱為大型語言模型或者大語言模型(Large Language Model,LLM)。
這些大語言模型通過在數據集上進行預訓練,能夠生成連貫、高質量的文本,極大地推動文本生成領域的進步,讓計算機可以像人類一樣對話。
讓我們通過一個例子來了解Transformer的內容生成原理。我們在ChatGPT的對話框中輸入“葫蘆娃大戰鋼鐵俠”,得到了下面的輸出:
在遙遠的東方,七色山谷中,葫蘆娃七兄弟肩負著守護家園的使命。他們各自擁有不同的力量,從力大無窮到善于水戰,從隱身到噴火,無所不能。
一天,天空中出現了一道奇異的光芒,隨之而來的是身披一身赤紅戰甲的鋼鐵俠。他從遙遠的西方世界飛來,尋找一種稀有的能量源,以阻止即將到來的宇宙威脅。
鋼鐵俠的到來引起了葫蘆娃的注意,他們誤以為這位鋼甲勇士是前來侵犯的敵人。大娃挺身而出,用他強大的雙臂封鎖了鋼鐵俠的去路,而鋼鐵俠則展開了戰甲的推進器,準備應戰。
緊接著,四娃和五娃迅速加入戰團,一道道烈焰和水箭交織在空中,與鋼鐵俠的脈沖射線相爭輝。天空變得猶如白晝,四周的花草樹木也在這異彩紛呈的能量波中搖擺。
而三娃、六娃和二娃也不甘示弱,他們分別以堅不可摧的金剛身、神出鬼沒的隱身術和千里眼/順風耳加入戰斗,意圖團結力量,一舉制勝。鋼鐵俠面對這突如其來的挑戰,調動了戰甲的全部功能,從激光刀到能量盾,全力以赴。
鋼鐵俠意識到這些兄弟并非惡意,他們只是在保護自己的家園。
在誤會解開后,葫蘆娃和鋼鐵俠決定聯手,他們將面對的是一場更大的戰斗:用他們的勇氣和力量共同守護宇宙的和平。
那么ChatGPT是怎么利用Transformer來寫這個故事的?簡單來說,分為下面幾步:
1)命令輸入。我們提供一條指令“葫蘆娃大戰鋼鐵俠”作為輸入。這條指令將指引模型產生相關的輸出。
2)輸入編碼。Transformer模型首先將輸入文本轉換為內部的向量表示。向量是一種數學表達形式,可以幫助模型理解和處理文本數據。
3)自注意力機制。自注意力機制允許模型在生成文本時考慮輸入中所有單詞之間的相互關系。這有助于模型理解上下文和主題。在這個例子中,模型將識別出故事可能涉及戰斗、英雄以及動作場面。
4)內容生成。模型的解碼器通過自注意力機制預測下一個最可能的詞。例如,它可能選擇“在”作為句子的開頭,因為“在”是漢語中的常用介詞,適用于引出地點、時間等背景信息。
5)連續生成。模型將持續這一過程,逐字生成文本,直到完成整個故事或達到設定的終止條件。例如,一旦選擇了“在”,模型將預測下一個詞。因為“在”后常跟地點,模型可能根據訓練中學到的模式選擇一個與“遙遠”“神秘”相匹配的詞語。然后,模型可能添加形容詞“遙遠的”,以增加描述性和構建故事的期待感。接著可能選擇“東方”作為地點,因為“東方”常與傳奇故事和神秘場景聯系,并與“葫蘆娃”的中國文化背景相符。
6)迭代改進。在實際應用中,生成的文本可能會經過多次迭代和編輯,以提升其連貫性、創意和整體質量。這個過程可以是自動進行的,也可以通過人工進行調整和優化。
你可能會好奇為什么GPT知道葫蘆娃有七兄弟,并且熟悉他們各自的法術和法寶。這是因為,GPT以及其他類似的大語言模型通過學習大量的文本數據來獲取這些信息。這些模型在訓練階段已經處理了海量的信息(語庫),覆蓋了廣泛的知識領域,包括葫蘆娃的兄弟數量、鋼鐵俠的裝備以及他們的戰斗特點等。
然而,我們需要注意的是,這些大語言模型并不真正“知道”或理解這些信息。它們無法像人類一樣具有真實的理解或意識。當輸入一個提示時,它們通過分析學習到的語言模式和上下文,推斷出最有可能的回答。這種方法依賴于算法對大量文本數據的分析和模式識別,而非真實的知識理解。
2.變分自編碼器、擴散模型與圖像和視頻生成
變分自編碼器(Variational AutoEncoder,VAE)是深度學習領域中的一種生成模型。它主要用于學習輸入數據的潛在表示,并基于這些表示生成新的、與訓練數據相似的數據點。
VAE結合了深度學習技術和貝葉斯推斷方法,在統計生成模型的框架內引入了深度神經網絡。它的應用非常廣泛,包括生成新的圖像(如人臉、風景等)、推薦系統(通過學習用戶及其潛在特征來進行推薦),以及文本生成(用于自然語言處理的特定任務,例如生成創意文本)。
為了形象地理解VAE的工作原理,可以想象有一個“魔法機器”,其任務是學習如何繪制各種小狗的圖像。
這個機器由兩部分組成:一部分是“魔法攝像機”,另一部分是“魔法畫筆”。首先,“魔法攝像機”接收并分析各種小狗的圖片。在這個過程中,它不僅學習了小狗的外觀,更重要的是,通過變分推斷和深度學習,它理解了小狗的“本質”。這種理解體現在它試圖找到一種簡潔的方式來描述所有小狗,這就是所謂的“潛在表示”,相當于一種描述小狗的“秘密代碼”。這個“秘密代碼”并不直接存儲圖片的像素,而存儲決定小狗外觀的各種因素,比如大小、形狀和顏色。
當需要繪制一只小狗時,“魔法畫筆”便會使用“魔法攝像機”生成的潛在表示。利用這些代碼,它可以不僅復現已知的小狗圖像,還能創造出全新的、從未見過的小狗樣式。
通過這種方式,VAE能夠幫助我們生成全新的圖像、音樂或任何其他內容,只要我們有足夠的數據來訓練模型。例如,在使用Stable Diffusion這類工具時,選擇合適的VAE是至關重要的,因為它直接影響到生成圖像的色彩和細節質量。
3.擴散模型
擴散模型是一種生成模型,用于生成高質量的復雜數據,如圖像和音頻。不同于其他生成模型(如VAE和GAN),擴散模型是一種先進的生成模型,用于生成高質量的復雜數據,如圖像和音頻。
與VAE和GAN等生成模型不同,擴散模型通過模擬數據的退化過程然后逆轉這一過程來生成數據。這種方法最初由雅沙·索爾-迪克斯坦(Jascha Sohl-Dickstein)及其團隊在2015年左右提出。雖然在初期擴散模型因性能未能超越當時的主流模型而未受到廣泛關注,但隨著對其理論和方法的深入研究以及深度學習技術的發展,擴散模型近年來已顯現出顯著的進步。
為了形象地理解擴散模型的工作原理,可以將其比喻為一種“時間機器”。想象一下,有一張完美的圖像,這張圖像隨著時間的推移逐漸失真,直到變成幾乎無法辨識的噪聲。擴散模型首先模擬這一退化過程,即如何從清晰的圖像逐步過渡到噪聲。然后,這個模型的魔力在于,它能夠將時間倒流,從噪聲狀態恢復到原始的、清晰的圖像。這個逆過程涉及一系列復雜的學習和調整,使模型不僅能夠重建訓練數據中的圖像,還能創造出全新的、從未見過的圖像。
擴散模型已成為生成式建模的前沿技術,廣泛應用于多個領域。在圖像生成領域,它能創造出逼真的人像、風景畫等;在數據增強領域,它幫助提升模型的魯棒性和性能;在分子設計領域,它能預測和設計新的化合物結構;甚至在天氣預測等復雜的系統模擬中,它也顯示出其潛力。擴散模型的這些應用實例以及我們熟知的AIGC工具,如DALL·E 2、Stable Diffusion和Leonardo.ai等,已經在藝術創作和其他領域產生了深遠的影響。
為了更好地了解VAE和擴散模型的工作原理,我們使用Stable Diffusion來生成一張懷抱小貓的少女照片,生成的圖像如圖1-2所示。

圖1-2 Stable Diffusion生成的懷抱小貓的少女
這張逼真圖的生成涉及一系列復雜的過程,包括文本到圖像的轉換、擴散模型的逆向過程以及最后的圖片生成。以下是對這些過程的詳細介紹。
步驟1:用戶輸入
我們選擇Copax TimeLessXL模型,并在變分自編碼器選項中選擇sdxlVAE模型。輸入包含“小貓”“少女”關鍵詞的指令。
步驟2:文本編碼
Stable Diffusion將使用一個文本編碼器來解析并編碼輸入的指令。這一步把文本轉換成一個理解模型可以處理的數值形式,通常是一個高維的特征向量。
步驟3:初始化和擴散過程
1)初始化:模型通常從一張隨機噪聲圖像開始。這是生成過程的起點,相當于一個空白畫布。
2)擴散過程:在傳統的擴散模型中,這一步是先將清晰的圖像逐漸加入噪聲,直到完全變為噪聲。但在實際應用中,這一步通常是預先設定的,并不需要顯式執行。
步驟4:逆向擴散過程
1)條件化逆向過程:這是Stable Diffusion的核心,模型根據文本描述的條件,從隨機噪聲中逐步重構圖像。在每一步中,模型都會嘗試預測并去除噪聲的一部分,逐漸揭露出與文本描述相匹配的圖像內容。這個過程通常包含多個迭代步驟,每一步都逐漸減少噪聲并增加圖像細節。
2)迭代細化:通過多次迭代,圖像逐漸從抽象噪聲轉變為具體圖像。每一步都基于前一步的輸出,并繼續改進圖像質量和細節。
步驟5:圖像生成
最終,在逆向過程完成后,生成的圖像將顯示在用戶界面上。這張圖像應該體現出輸入文本的所有元素,如小貓、少女以及任何其他指定的環境細節。
4.AIGC 2.0
隨著技術的持續發展,AIGC技術在生成結果的質量、多樣性和智能化方面取得顯著進步,使得生成內容更加符合人類的期待和需求。截至2024年2月,ChatGPT的第四代、Midjourney的第六代版本和Stable Diffusion的XL 1.5版本,都極大地提升了文字、圖像、音頻等內容的逼真度。此外,隨著ChatGPT的個性化定制服務GPTs和Stable Diffusion的個性化模型訓練的發展,內容生成的個性化(符合個人品位,適應行業知識)和可控性(如長度、風格等細節控制)成為可能。
進入AIGC 2.0時代,這項技術已接近人類的創造力和智能水平,展示出更廣泛的應用前景。AIGC 2.0特別強調創造性、跨模態生成和智能交互。例如,新一代的AIGC系統能夠通過與用戶的動態互動自動調整內容生成策略,以更貼近用戶的具體需求和情境。這包括基于用戶的反饋進行迭代以提升內容的質量,或根據不同的應用場景調整生成內容的風格和格式。
為了加深理解,下面將詳盡對比AIGC 1.0與AIGC 2.0在技術架構、數據依賴、應用場景等方面的演進,如表1-1所示。
表1-1 AIGC 1.0與AIGC 2.0的對比

AIGC 1.0依托于深度學習的基礎技術,主要包括深度卷積神經網絡、GAN和RNN。這一代技術在數據分析、模式識別、內容初步生成及增強/虛擬現實體驗等方面展現出了潛力。AIGC 1.0的應用傾向于聚焦單一領域或內容形式,如文本生成、圖像合成等,其產出雖具創新性,但內容質量與連貫性有時參差不齊,且功能較為定向,未全面覆蓋用戶的多樣化需求。
相比之下,AIGC 2.0源自生成式人工智能,核心技術框架轉向了Trans-former架構、大語言模型以及先進的擴散模型,這些模型在海量數據集上進行了深度訓練。AIGC 2.0的核心優勢在于其對個性化體驗的強化、智能交互的提升及前所未有的創造性表達,這些進步使人工智能生成的內容更加貼近人類創作水平,應用領域也顯著拓寬,涵蓋了藝術創作、復雜文本理解與生成、多模態內容融合等多個維度。
5.AIGC技術的未來展望
展望未來,AIGC技術的邊界將不斷拓展。在通用人工智能的曙光到來之前,AIGC技術可能在以下領域獲得新的突破。
● 情感智能:系統將能更好地理解和生成表達復雜情感的內容。Emotient和Affectiva等公司已經開發了面部識別軟件,來分析用戶的表情并識別情緒,這些技術未來可以整合到AIGC系統中,使其能夠生成可以表達情感的內容。
● 自適應學習:AIGC系統將通過持續學習用戶行為和偏好,無須顯式編程即可自動優化其生成策略。
● 增強現實(AR)與虛擬現實(VR):在AR/VR環境中,AIGC技術將用于實時創建沉浸式交互體驗和動態內容生成,提供更加豐富和個性化的用戶體驗。在虛擬現實游戲和元宇宙平臺,如VRChat、Roblox和Decentraland,AIGC技術可以用來實時生成和調整虛擬世界中的環境和角色,提供更豐富的用戶交互體驗。
● 多模態生成:跨模態能力將進一步增強,例如從文本生成視頻等,這將打開新的創意和商業應用的大門。OpenAI的Sora已經將視頻生成的長度延長到了1分鐘。