官术网_书友最值得收藏!

AIGC的崛起:從AI藝術品到產業革命

2022年8月,在美國科羅拉多州舉辦的數字藝術家競賽中,一幅名為《太空歌劇院》的畫作獲得了數字藝術類別的冠軍。但這一絕美的畫作并沒有讓藝術家們心服口服,反而引起了巨大的爭議,眾說紛紜的源頭在于這幅冠軍作品并非作者親自繪畫,而是使用AI算法繪圖工具Midjourney替代完成的(見圖1-7)。

圖1-7 獲獎藝術作品《太空歌劇院》

生成來源:Midjourney。

人類藝術家憤怒了。藝術家們表示,使用AI生成圖像是在使用高科技手段作弊,這些畫作也不能被稱為藝術作品。“AI畫作作弊”這一話題的爭議在世界范圍內迅速發酵,登上了國內外的網絡熱搜。

如果說AI繪畫第一次讓用戶感受到了AIGC的獨特魅力,那么ChatGPT的橫空出世則更加令世人為之震驚。AI創作的強勢崛起,正式地讓全世界看到了AIGC的真正實力。

● 被ChatGPT帶“火”的AIGC

AIGC作為新的生產力引擎,通過智能算法,批量、自動化地生產內容,生成的內容形式豐富多樣,文本、圖像、音頻、視頻,甚至3D模型和代碼都能“信手拈來”。基于AIGC模型的創作速度、創作質量、創作成本,以及創作的傳播效應,都遠遠超過傳統的內容生產方式。

ChatGPT雖然只是AIGC商業化落地的一個分支,但卻是讓人們最“震撼”的一個壯舉,因為它具備了“人性思維”。GhatGPT似乎能夠理解文本的更深層次含義,連續流暢的對話反饋和對錯誤的及時糾正,都暗示著AI擁有更高的“情商”和“心智”。AI生產出的內容不再是機械化的固定腳本,而是真正可以產生共鳴的交流內容。AIGC也從遙遠抽象的概念逐步轉變為生動形象的產品形式,給人們帶來“流連忘返”的豐富體驗。

“AIGC將顛覆現有內容生產模式,可以實現以十分之一的成本,以百倍千倍的生產速度,創造出有獨特價值和獨立視角的內容”,百度董事長兼首席執行官李彥宏在2022世界人工智能大會上如是說。

過去,AI只能協助人類完成內容生成中最簡單、最基礎的部分工作,無法獨立生成內容,更不要提優質的輸出內容。如今,這一情況正在因AIGC生成模型的開源應用而被打破,AI技術也因此實現了“進化”。

2022年是AIGC生成模型奇幻發展的一年,科技領域人士和專業學者發表了一系列引人注目的相關論文。其中,人機對話方面誕生了如雷貫耳的ChatGPT,DreamFusion模型生成了不可思議3D模型,Stable Diffusion 創造了超現實主義藝術AI繪畫,Make-A-Video則迎來了從文本生成視頻的突破。

AIGC豐富的想象力和驚為天人的創作能力,都是基于大量的數據標注和模型訓練生成的。卷積神經網絡和Transformer大模型的流行成功地使深度學習模型參數量躍升至億級,OpenAI更是收集了4億個文本圖像配對,在45TB的數據量上完成了浩大的“預訓練”參數計算任務。海量數據的不斷迭代推動了AIGC發展的進程。

正是有了海量數據的加成,借助寶貴的語料庫資源,AIGC得以在內容創作方面擁有了無限的思維靈感。同時,AI工具仿佛是超級畫手或作曲家,能夠模仿特定的藝術家,生成指定風格的圖像、音樂或視頻。未來,AIGC技術在時間短、規模大、風格多等技術特點上的融合趨勢將進一步得到加強。

擁有一定程度的認知和交互能力,是AIGC技術發展的重要趨勢。開發者使用代碼的輸入輸出解釋人與計算機進行交互的底層邏輯,而用戶則使用智能終端和網絡平臺實現人機交互與互聯通信。AIGC的出現為人與機器之間的溝通帶來了更多可能,其利用自動問答、視覺識別等技術實現了更加多元化的人機交互效果。

海量數據、內容創造力、認知交互,三者共同驅動著機器的智能創作活動,讓AIGC成為“新一代”不可替代的內容生產方式。AIGC以其在人工智能領域的重要成果,被Science評為2022年度科學十大突破,其底層技術和產業生態已經形成了新的格局。

2022年被稱為AIGC元年,迅猛的全新的AI發展已成不可逆之勢。

● AIGC的前世今生

穿越歷史周期,結合人工智能的歷史演進,AIGC的發展大致可以分為四個階段:

早期萌芽階段(20世紀50年代至90年代中期)

20世紀中后期,受限于當時的計算機水平,AIGC技術僅限于小范圍實驗。當時,AIGC主要應用在創作音樂、簡單的對話機器人和語音打字機等領域。

萊杰倫·希勒與倫納德·艾薩克森在1957完成了歷史上首支由計算機創作的音樂作品《伊利亞克組曲》。1966年,約瑟夫·維森鮑姆和肯尼斯·科爾比共同推出了世界上首款人機可對話機器人Eliza,通過關鍵字掃描和重組來進行互動。在20世紀80年代中期,IBM基于隱形馬爾科夫模型創造了語音控制打字機“坦戈拉”。然而在20世紀末期,高昂的研發與系統成本讓AIGC的商業變現模式難以落地,AIGC的發展暫時受阻停滯。

沉淀積累階段(20世紀90年代中期至21世紀10年代中期)

隨著深度學習等人工智能技術的出現以及計算設備綜合性能的提升,AIGC的實用性不斷地增強,逐漸開啟了商業化的探索。在數據源層面,互聯網技術的發展引發了數據規模的快速膨脹,AIGC發展取得了顯著進步。

該階段的典型技術代表作,是微軟在2012年公開展示的基于深度神經網絡(DNN)的全自動同聲傳譯系統,該系統可以自動將英文演講者的內容通過語音識別、語言翻譯、語音合成等技術動態合成為中文語音內容。但由于當時算法性能面臨瓶頸,導致創作任務的完成質量限制了AIGC的廣泛應用。

快速發展階段(21世紀10年代中期至2021年)

隨著深度學習算法的不斷迭代更新,AIGC的新時代正式開啟,機器生成內容在圖像、視頻、音頻等領域均產生諸多重要的應用實踐與技術創新。

2014年,生成式對抗網絡(GAN)出現,AIGC進入了生產內容多樣化的時代,且產出的內容效果更加逼真。2017年,微軟的人工智能少女“小冰”創造了世界首部全AI創作的詩集《陽光失了玻璃窗》。2019年,DeepMind發布了可生成連續視頻的DVD-GAN模型。2021年,OpenAI推出了DALL-E模型,并于2022年將其升級為DALL-E2。該產品可根據用戶輸入的簡短描述性文字,自動生成與文本對應的圖像內容,得到極高質量的圖像繪畫作品。

爆發與破圈階段(2022年至今)

2022年AI畫作的問世,ChatGPT的火爆出圈,都讓AIGC的發展得到了空前的進步。

2022年5月,Google推出了文本圖像生成模型Imagen;2022年8月,AI繪畫工具Stable Diffusion發布;2022年11月,OpenAI推出了AI聊天機器人ChatGPT;2023年2月,微軟宣布加入ChatGPT,推出ChatGPT可支持的新版本的Bing搜索引擎。

2023年3月14日,OpenAI官方宣告多模態大模型GPT-4重磅登場。相較于GPT-3.5,加入了新模態的GPT-4,在語音、統計表格,以及網絡圖片等多項特殊內容的合成能力上取得了“可圈可點”的突破。緊接著,微軟把GPT-4全面接入Office產品序列,整合出了辦公軟件的“王炸”產品——Microsoft 365 Copilot,開啟了AI桌面新革命。至此,AIGC正式進入了爆發階段。

從AI到AIGC,是從感知世界到創造世界的系統能力躍遷。AI技術的突破創新,如智能算法、預訓練大模型、多模態信息處理等技術,都為AIGC的“大爆發”提供了強有力的底層數據應用能力支撐。

傳統AI像經過專業學習的職業應用者,AIGC更像是接受過通識教育的大學生,有著很強的可拓展性。比如,很多平臺現在用智能客服AI替代人工客服,但智能客服只能按照事先設計好的話術進行交流,一旦超出規定的場景和語境,智能客服的處境就變得很尷尬。這樣的例子還有很多,很多人家里都買了可以播放音樂或音頻的機器人,還可與它們進行簡單交流,但這些交互功能都是程序事先設定好的。機器人不能想說什么就說什么,不能做到真正的聊天。

AIGC相比傳統AI,“主動”和“被動”是二者之間的根本差別。AIGC開始和人一樣,有自己的思想了,雖然這種思想也是由人來引導的。傳統的AI重在解決某一類問題,AIGC更多在于解決廣泛的任務類型。傳統AI重點在于分析內容,而AIGC已具備生成新事物的能力,不僅局限于分析已經存在的東西,更重視創造內容。

ChatGPT是典型的文本生成式AIGC,自然語言的理解能力是AIGC發展的一個首要的關鍵環節,對文字和語音模態的應用具有重要意義。ChatGPT實際就是基于自然語言的交互式聊天服務,用戶對相關技術產品的“上手”成本很低。ChatGPT引入了一個新的訓練方法RLHF,即在基于大數據的模型預訓練中加入了人類的評價反饋意見,使其生成的內容在有效性和準確度上都有了大幅的提升。

AI繪畫是AIGC的重要應用領域,Diffusion擴散模型是AI作畫應用的重要算法模型基礎。OpenAI發布的用于匹配文本和圖像的神經網絡模型CLIP,則被認為是近年來在多模態研究領域的杰出成果,它不僅能對文字進行語言分析,還能對圖形進行視覺分析。Diffusion+CLIP的完美組合讓AI自動生成文字和圖片的質量得到了質的提升,通過不斷調整兩個模型的內部參數,達到文字和圖像更高度匹配的效果(見圖1-8)。在這一過程中,“開源”的技術產業模式也進一步促進了AIGC的傳播和普及。

圖1-8 繪畫作品《冬季小木屋》

生成來源:Stable Diffusion。

AIGC的發展迎合了數字內容強需求、視頻化、創意新的螺旋式升級發展特征,正在越來越多地參與到數字內容的創意性內容生成活動中。通過人機協同的方式持續釋放數據資源的價值,AIGC有望成為Web 3.0的內容生成基礎設施,也將成為打造虛實集成世界的重要技術基石。

● AIGC的內容形態

隨著深度學習模型不斷完善,開源模式的全面推動,以及大模型的廣泛商業化探索,AIGC將伴隨充沛的市場需求加速產業應用落地。隨著數字經濟與實體經濟融合程度的不斷加深,以及微軟、字節跳動等平臺型巨頭的數字化場景向元宇宙轉型,人類對數字內容總量和豐富程度的整體需求正在不斷提高。

AIGC作為當前新型的內容生產方式,已經重構了內容消費領域的應用生態,率先在數字化程度高、內容需求豐富的領域取得了創新發展。AIGC已在不知不覺中滲透到人們日常生活中的每個角落,從手機軟件中的“人聲”問答,到直播中的“虛擬人”主播,它的身影無處不在。

人們在享受豐富數字生成內容帶來樂趣的同時,人機交互和人類反饋強化也同時促進了AIGC的成功。AIGC的出現可以協助企業從不同領域共同提升生產質效,這也為AIGC提供了普適性的模型優化思路。以ChatGPT為延伸的AIGC底層技術已被逐漸應用,并遷移到以下內容形態:

文本生成領域

文本生成是AIGC實現商業落地最早的技術之一,其發展顯著提高了數據模型面向對話對上下文的理解能力、對知識的嵌入能力、對內容的創造能力,以及生成內容的內在邏輯性等。

AIGC文本生成技術的現有落地場景主要集中在應用型文本生成、創作型文本生成,可以快速生成詩歌、小說、劇本、新聞等內容,并且允許指定寫作風格;基于相關文本生成模型,甚至可以根據對用戶需求的自動分析,完成郵件撰寫、通用寫作、記錄筆記等各項文字創作任務。

音頻生成領域

AIGC的音頻生成技術主要應用在樂曲、有聲書的內容創作,以及游戲、影視等領域的配樂創作,在眾多場景已取得發展,得到廣泛應用并逐漸趨于成熟。AIGC以及語言處理技術在音頻互動產品中的應用,融合實時語音及音頻娛樂等產品形態,進一步加快了產品創新步伐,持續賦能受眾用戶和內容生產者。

2021年9月,索尼計算機科學實驗室發布了一款AI輔助音樂制作應用程序Flow Machines Mobile,該程序能夠根據創作者選擇的風格、旋律、和弦和貝斯線,利用AI技術輔助完成音樂制作(見圖1-9)。同月,喜馬拉雅用語音合成(Text to Speech,TTS)技術完美還原了單田芳先生的聲音,并首次將單田芳先生的AI合成音——單氏評書腔調應用于書籍,演繹聽眾耳熟能詳的經典之作。

圖1-9 輔助音樂制作應用程序Flow Machines Mobile

圖像生成領域

AIGC繪畫技術的應用領域廣泛,例如美術教育、廣告設計、游戲開發、動畫制作等。在美術教育方面,AIGC繪畫可以為學生提供多樣化、高質量的繪畫作品,幫助他們快速提高繪畫技能和水平;在廣告設計和游戲開發方面,AIGC繪畫可以幫助設計師快速生成創意和美觀的廣告和游戲畫面,提高設計效率和質量;在動畫制作方面,AIGC繪畫可以快速生成動畫幀,節省制作成本和制作時間,幫助畫師高效率地設計新的故事角色和場景等。

2022年10月,Stability AI 獲得1億美元融資,估值達10億美元,成功躋身獨角獸行列。Stability AI的開源產品Stability Diffusion可以根據文字提示自動生成圖像(Text to Image,T2I)(見圖1-10)。此外,以Stability Diffusion為首,DALL-E2、Midjourney等模型生成的AI圖片瞬間引爆了繪畫領域,AI作畫的成功標志著人工智能迅速地向藝術領域滲透。

圖1-10 Stability AI宣傳內容展示

視頻生成領域

AIGC視頻生成技術的原理與圖像類似,但視頻編輯任務比在圖像上操作更具挑戰性,需要在圖像的基礎上合成新動作,并保持時間維度的內容一致性。視頻生成的應用場景主要集中在視頻屬性編輯、視頻自動剪輯、視頻部分編輯,前者已有大量應用落地,后兩者還處于技術嘗試階段。

2022年9月,Meta公司公布了旗下“Generative AI”研究項目的最新人工智能系統Make-A-Video,該系統不僅可以通過文本描述直接生成視頻,還可以從圖像或類似的視頻中再生成視頻(見圖1-11)。隨后,Google也發布了兩款文本轉視頻的智能化工具,分別為強調視頻品質的Imagen Video和主打視頻長度的Phenaki。這較此前提到的文本生成圖像來說又是新一輪的技術升級。

圖1-11 Meta AI宣傳內容展示

游戲生成領域

當前,AIGC在游戲生成領域的應用主要在圖像渲染等畫面美工方面。游戲中包含文本、圖像、音效、音樂、3D模型、動畫、電影、代碼等多種類型的文件數據資源,是娛樂以及媒體行業最復雜的形態。隨著AIGC的廣泛應用,未來能夠根據文本生成語音,根據主題生成場景,根據二維圖像生成三維模型,有效提升游戲在策劃、音頻、美術、程序等環節的綜合生產力,壓縮游戲的整體項目研發周期與人員投入規模,大幅降低游戲制作的總體成本。

多家公司已經將AI技術廣泛融入了熱門游戲的開發中。比如,騰訊AI Lab已在《王者榮耀》游戲中運用了決策AI引擎“絕悟”(見圖1-12);網易互娛旗下的AI Lab產品也已經靈活運用于《夢幻西游》和《一夢江湖》等熱門游戲的開發中;此外,在游戲作品《Cognition Method》中,也多處使用了AI繪畫軟件,來制作概念原畫和生成素材。

圖1-12 《王者》“絕悟”人工智能體驗空間

3D虛擬場景領域

在3D短視頻領域引入AIGC技術,相當于重新定義了3D內容生產活動,降低了3D創作工具的使用門檻。普通用戶可以在文本框中直接輸入想要展示的視頻內容,系統能夠自動識別相應文本的語義需求,并根據提示生成3D模型。

2022年初,Facebook創始人馬克·扎克伯格首次推出了Meta新系統“BuilderBot”,根據語音描述的環境,自動創建相應場景的元宇宙虛擬世界(見圖1-13)。與BuilderBot類似,蘋果也將推出與AI聯合的全新語音助理Siri,用作三維場景的創建。用戶只要通過語音交互告訴Siri想象中的虛擬動物,以及它們在場景中的移動方式,系統便可準確構建出相應的場景。除此之外,系統還可以計算出物理空間中的障礙物,并為虛擬動物附加自然的物理交互效果。

虛擬人

AIGC是支撐虛擬數字人應用的關鍵技術,多模態信息的生成理論與技術的突破,驅動了數字人從動態交互階段邁向智能化階段,拓展了數字人的產業應用領域,虛擬偶像、虛擬主播、虛擬人等多重創新產品形態迅速崛起。背靠AIGC技術,虛擬人可以充分模擬人與人之間真實可感的對話,達到“可看”“可聽”“可互動”的效果,給用戶提供了一種更真實、更舒適的交流體驗(見圖1-14)。

圖1-13 BuilderBot創建的虛擬世界

圖1-14 “數字人”技術產品概念圖

AIGC 技術順應了內容行業發展的內在需求,能夠以更少的成本、更快的速度,生成面向不同內容形態領域的更加個性化的數字場景,支持數字內容與產業的多維互動與融合滲透,孕育新的業態模式。此外,AIGC能夠提升元宇宙內容的制作效能,復刻元宇宙的持續性、實時性和可創造性,極大地擴展元宇宙想象空間與商業前景。

AIGC相關領域的算法和應用的落地,意味著AI技術已經進軍到了先前人類獨占的科學和藝術等高端認知活動領域,AIGC的“高產能”成為許多國內外互聯網科技巨頭的競爭高地,并且逐漸形成了一場“搶地戰”。

亞馬遜與AI制圖平臺Stability AI合作,成為其首選的云合作伙伴,同時為其提供亞馬遜Tradium芯片;谷歌向人工智能初創公司Anthropic投資4億美元,布局ChatGPT的競爭產品。在國內,華為諾亞方舟實驗室聯合多部門推出了首個2000億參數中文預訓練大模型盤古α;騰訊發布了寫稿機器人Dreamwriter,根據算法在第一時間自動生成稿件,瞬時輸出分析和研判;阿里巴巴旗下AI在線設計平臺“鹿班”著力開展海報設計的生產應用;百度發布了AI藝術和創意輔助平臺“文心一格”,用來快速生成AI畫作。

AIGC 洶涌向前的發展趨勢以及不斷進化的深度學習技術,有效地協助創作者從輔助索引到內容呈現,極大地提高了內容創作者閱讀和搜集信息材料的效率,也刺激著他們的思考與創作體系不斷完善和升級。

主站蜘蛛池模板: 蕲春县| 漳浦县| 铜鼓县| 乡宁县| 平山县| 丘北县| 庆元县| 获嘉县| 北川| 犍为县| 桐城市| 孝感市| 繁峙县| 湘乡市| 习水县| 大兴区| 修武县| 雷波县| 金秀| 任丘市| 夹江县| 聂拉木县| 达日县| 泽州县| 嫩江县| 克什克腾旗| 桃江县| 保德县| 高平市| 昌江| 边坝县| 桂林市| 蕲春县| 武城县| 常德市| 兴隆县| 房产| 潜山县| 南开区| 盐池县| 常宁市|