來源:火訊財經
文章轉載來源:騰訊研究院
作者:胡璇 騰訊研究院高級研究員;胡曉萌 騰訊研究院研究員,、博士后
圖片來源:由
工具生成
內容生產,,特別是創(chuàng)意工作,,一向被認為是人類的專屬和智能的體現。牛津大學計算機學院院長邁克爾·伍爾德里奇2019年寫作的《人工智能全傳》一書中,,“撰寫有趣的故事”被列為人工智能“遠未實現”的任務之一,。
如今,AI正大步邁入數字內容生產領域,。AIGC(AI Generated Content)不僅在寫作,、繪畫、作曲多項領域達到“類人”表現,,更展示出在大數據學習基礎上的非凡創(chuàng)意潛能,。2023年3月15日,多模態(tài)信息處理標桿GPT-4模型正式發(fā)布,,使生成內容的準確度及合規(guī)性進一步提升,。數字內容生產的人機協(xié)作新范式正在形成,創(chuàng)作者和更多普通人得以跨越“技法”和“效能”限制,,盡情揮灑內容創(chuàng)意,。
也有人擔憂,AI是否會讓創(chuàng)作者們集體“失業(yè)”,,甚至讓“創(chuàng)作”本身走向衰頹,,就像機械復制時代的藝術品可能失去“靈韻”那樣。換言之,AIGC的流行給了我們一個重新審視“創(chuàng)作”是什么,、是否為人所獨有這些問題的機會,。
本文將分析AIGC改變數字內容創(chuàng)作的現狀、關鍵突破和挑戰(zhàn),,并嘗試探討以上問題,。
AIGC正在成為互聯網內容生產基礎設施
數字內容正邁入強需求、視頻化,、拼創(chuàng)意的升級周期,,AIGC恰逢其會。線上生活成為常態(tài),,一方面,,用戶創(chuàng)作內容大幅解放生產力,例如短視頻就是將原本需要長制作周期,、高注意投入的視頻,,變成了可以源源不斷產出的“工業(yè)品”和“快消品”;另一方面,,作為核心的創(chuàng)意仍舊稀缺,,需要新的模式輔助創(chuàng)作者持續(xù)產生、迭代和驗證創(chuàng)意,。種種因素,,都需要更加低成本、高效能的新工具與方式,。
AIGC正在越來越多地參與數字內容的創(chuàng)意性生成工作,,以人機協(xié)同的方式釋放價值,成為未來互聯網的內容生產基礎設施,。
從范圍上看,,AIGC逐步深度融入到文字、代碼,、音樂,、圖片、視頻,、3D多種媒介形態(tài)的生產中,,可以擔任新聞、論文,、小說寫手,,音樂作曲和編曲者,多樣化風格的畫手,,長短視頻的剪輯者和后期處理工程師,,3D建模師等多樣化的助手角色,,在人類的指導下完成指定主題內容的創(chuàng)作、編輯和風格遷移工作,。
從效果上看,,AIGC在基于自然語言的文本、語音和圖片生成領域初步令人滿意,,特別是知識類中短文,,插畫等高度風格化的圖片創(chuàng)作,創(chuàng)作效果可以與有中級經驗的創(chuàng)作者相匹敵,;在視頻和3D等媒介復雜度高的領域處于探索階段,。盡管AIGC對極端案例的處理、細節(jié)把控,、成品準確率等方面仍有許多進步空間,,但蘊含的潛力令人期待。
從方式上看,,AIGC的跨文字,、圖像、視頻和3D的多模態(tài)加工是熱點,。吳恩達(Andrew Ng)認為多模態(tài)是2021年AI的最重要趨勢,,AI 模型在發(fā)現文本與圖像間關系中取得了顯著進步,如OPEN AI的CLIP能匹配圖像和文本,,Dall·E生成與輸入文本對應的圖像;DeepMind的Perceiver IO可以對文本,、圖像,、視頻和點云進行分類。典型應用包括如文本轉換語音TTS(Text To Speech),、文本生成圖片(Text-to-Image),,廣義來看AI翻譯、圖片風格化也可以看作是兩個不同“模態(tài)“間的映射,。
上圖:原圖,AIGC的典型場景及發(fā)展趨勢,,來自紅杉資本
下圖:使用有道智云AI翻譯后的結果
關鍵突破:自然語言技術解放創(chuàng)作力
AIGC對創(chuàng)作者的解放體現在:“只要會說話,,你就能創(chuàng)作”,無需懂得原理,,不用學習代碼,,或者Photoshop等專業(yè)工具,。創(chuàng)作者以自然語言向AI描述腦海中的要素甚至想法(術語是給出“prompt”)后,AI就能生成對應的結果,。這也是人機互動從打孔紙帶,,到編程語言,圖形界面后的又一次飛躍,。
自然語言是不同數字內容類型間轉化的根信息和紐帶,,比如“貓”這個詞語就是加菲貓的圖片,音樂劇《貓》和無數內容的索引,,這些不同的內容類型可以稱為“多模態(tài)”,。
AIGC此輪浪潮,最大底層進化就在AI對自然語言“理解”和“運用”能力的飛躍,,這離不開2017年Google發(fā)布的Transformer,,它開啟了大型語言模型(Large Language Model,簡稱LLM)時代,。有了這一強大的特征提取器,,后續(xù)的GPT、BERT等語言模型突飛猛進,,不僅質量高,、效率高,還能以大數據預訓練+小數據微調的方式,,擺脫了對大量人工調參的依賴,,在手寫、語音和圖像識別,、語言理解方面的表現大幅突破,,所生成的內容也越來越準確和自然。
但大模型意味著極高的研究和使用門檻,,例如GPT-3有1750 億參數量,,既需要大算力集群也不向一般用戶開放。2022年,,部署在Discord論壇上,、以聊天機器人形式提供的midjourney成為了第一個用戶友好型AIGC應用,帶來AI繪畫熱潮,,一位設計師用其生成的圖片甚至在線下比賽中獲獎,。
使用簡單文字即可交流的低門檻,,類似搜索引擎的使用方式,一下子點燃了普通用戶對AI使用的熱情,。緊接著,,基于擴散模型(Diffusion Models)的一系列文本生成圖片(Text-to-Image)產品,,如Stable Diffusion等,把AI繪畫從設計圈帶向大眾,。開源的Stable Diffusion僅需一臺電腦就能運行,,截至2022年10月已有超過20萬開發(fā)者下載,累計日活用戶超過1000萬,;而面向消費者的DreamStudio則已獲得了超過150萬用戶,,生成超過1.7億圖片。其驚艷的藝術風格,、以及圖像涉及的版權,、法律等問題也引發(fā)了諸多爭議。
Diffusion的震撼感還沒消散,,ChatGPT橫空出世,,真正做到和人類“對答如流”,能理解各式各樣的需求,,寫出回答,、短文和詩歌創(chuàng)作、代碼寫作,、數學和邏輯計算等,。不僅如此,人類反饋強化學習(RLHF)技術讓ChatGPT能持續(xù)學習人類對回答的建議和評價,,朝更加正確的方向前進,,因此以不到GPT3的1%的參數實現了極佳的效果。盡管ChatGPT仍存在一些缺陷,,例如引用不存在的論文和書籍,、對缺乏數據的問題回答質量不佳等,但它仍然是人工智能史上的里程碑,,并上線兩個月后用戶數突破1億,成為史上用戶數增長最快的消費者應用,。
下一挑戰(zhàn):向“在場”的3D互聯網進發(fā)
在文,、圖、視頻后,,數字技術演進的重要方向是從“在線”走向“在場”,,AIGC將成為打造3D互聯網的基石。人們將在在虛擬空間構建仿真世界,,在現實世界“疊加“虛擬增強,,實現真正的臨場感。隨著XR,、游戲引擎,、云游戲等等各種交互,、仿真、傳輸技術的突破,,信息傳輸越來越接近無損,,數字仿真能力真假難辨,人類的交互和體驗將到達新階段,。
目前AIGC在3D模型領域還處于探索階段,,一條路徑是以擴散模型為基礎分兩步走:先由文字生成圖片,再生成包含深度的三維數據,。谷歌和英偉達在這一領域較為領先,,先后發(fā)布了自己的文字生成3D的AI模型。但從生成效果看,,距離現在人工制作的3D內容的平均質量還有距離,;生成速度也未能盡如人意。
2022年10月,,谷歌率先發(fā)布了DreamFusion,,但其缺點也很顯著,首先擴散模型僅對64×64的圖像生效,,導致生成3D的質量不高,;其次場景渲染模型不僅需要海量樣本,也在計算上費時費力,,導致生成速度較慢,。隨后,英偉達發(fā)布了Magic3D,,面對提示語“一只坐在睡蓮上的藍色毒鏢蛙”,,用大約40分鐘生成了一個帶有紋理的3D模型。相比谷歌,,Magic3D生成速度更快,、效果更好,還能在連續(xù)生成過程中保留相同的主題,,或者將風格遷移到3D模型中,。
Magic3D(第1,、3列)與DreamFusion(第2、4列)對比
第二條路徑是借助AI來“合成”不同視角下同一物品的照片,,從而直接生成3D,。英偉達在2022年12月的NeurIPS 上展示了 生成式 AI 模型——GET3D(Generate Explicit Textured 3D 的縮寫),可根據其所訓練的建筑物,、汽車,、動物等 2D 圖像類別,,即時合成 3D 模型。和上文中的輸出物相比,,模型和紋理更精細,,更采取了一般3D工具的通用格式,能直接用到構建游戲,、機器人,、建筑、社交媒體等行業(yè)設計的數字空間,,比如建筑物,、戶外空間或整座城市的 3D 表達。GET3D在 英偉達A100 GPU 上訓練而成,,使用了不同角度拍攝的約 100 萬張照片,,每秒可生成約 20 個物體。結合團隊的另一項技術,,AI生成的模型能夠區(qū)分出物體的幾何形狀,、光照信息和材質信息,使可編輯性大幅加強,。
NVIDIA GET3D基于AI生成的模型示例
可行路徑:與游戲中的程序化生成技術相結合
盡管如此,,AIGC在3D側的能力,,距離打造3D互聯網仍有不小的距離。而游戲中較為成熟的程序化內容生成(PCG,,Procedural Content Generation)技術,,可能是AIGC邁過深水區(qū)的一大助力。
從技術路徑上,,AI生成3D難以沿用“大力出奇跡”的老辦法,,即單靠喂給AI海量的輸入來提升效果。首先,,信息量不同,,一張圖片和一個3D模型相比相差一個維度,體現在存儲上就是數據量級不同,;其次,,圖片和3D的存儲及顯示原理不同,,如果說2D是像素點陣在顯示器的客觀陳列,,3D則是實時、快速,、海量的矩陣運算,,就像對著模型在1秒內進行幾十次“拍照”,。為了準確計算得到每個像素點,“渲染”在顯示器上,,需要考慮的因素至少有(1)模型幾何特征,,通常用幾千上萬個三角面來表示(2)材質特征,模型本身的顏色,,是強反射的金屬,,還是漫反射的布料(3)光線,光源是點狀的嗎,,顏色和強度如何,。最后,原生3D模型的數據相對較少,,僅游戲,、影視、數字孿生等領域有少量積累,,遠不如已存在了數千年,、可以以非數字化形態(tài)存在的圖像那么多,例如ImageNet中就包含了超過1400萬張圖片,。
用計算機幫助創(chuàng)作者這件事,,游戲界已經探索了四十多年。用算法生成的游戲內容首次出現在1981年的游戲Rogue(Toy and Wichman)中,,地圖隨機,,每局不同。3D時代,,程序化生成技術大量應用于美術制作,,因為其需要巨額時間和人力成本,以2018年發(fā)售的游戲《荒野大鏢客2》為例,,先后有六百余名美術參與,,歷經8年才完成約60平方公里的虛擬場景。
程序化生成在效能和可控度上介于純手工和AIGC之間,。例如2016年發(fā)布,、主打宇宙探險的獨立游戲《無人深空》(No Man’s Sky),用PCG構造了一系列生成規(guī)則和參數,,聲稱能創(chuàng)造出1840億億顆不同的星球,,每個星球都有形態(tài)各異的環(huán)境和生物。
游戲《無人深空》中使用程序化生成的海洋生物示例
2022年的Epic打造的交互內容《黑客帝國:覺醒》在最新虛幻引擎和程序化生成加持下,打造出栩栩如生、高度復雜的未來城市,,共包括700萬個美術資產,,包括7000棟建筑、38000輛可駕駛的車和超過260公里的道路,,其中每個資產由數百萬個多邊形組成,。
Epic使用虛幻5引擎和程序化生成技術高效制作《黑客帝國:覺醒》中的龐大城市
程序化生成和AI的結合更成為熱門學術領域,,每年人工智能與游戲的頂級學會——IEEE Transactions on Games都會為程序化生成開辟專門的討論板塊。劇情,、關卡,、場景、角色,,每個板塊都有大量的研究和實踐成果在推進,。
創(chuàng)作到底是什么?
關于創(chuàng)作,,有一句經典論斷——天才是99%的汗水,,加上1%的靈感。愛迪生認為那1%的靈感最重要,。AIGC則向我們證明,,99%的汗水能產生質變,。善用AI的創(chuàng)作者,,或許才是“完全體”,。
首先,AI和自然人的創(chuàng)作過程,,沒有那么大的差異:一部作品的誕生,,一個作者的成長,都建立在大量對經典的觀察,、參照,、模仿、提煉基礎上,,并非一蹴而就,。而創(chuàng)新往往也有跡可循,或者是對主流的揚棄甚至反叛,,或者是對多種元素的加成和融合,。因此,如知識產權制度,,也是在鼓勵創(chuàng)作的基礎上,,給予貢獻者以對等的獎勵,而非一刀切地拒絕模仿。
其次,,人作為創(chuàng)作核心這一點沒有變化:AI面向任務,人類面向創(chuàng)造,。一方面,,人類信息系統(tǒng)紛繁復雜,遠非幾個“prompt”輸入就能概括,。正如一位網友說,,AI代替不了我,因為它理解不了老板的需求,。沒有五年經驗的乙方,,也解讀不來甲方口中的“要大氣”。另一方面,,AI成長的養(yǎng)料仍然由人提供,,AI更可靠可信也依賴著人的使用與反饋?!皵嗄獭庇?021年的ChatGPT可不知道2022年世界杯的戰(zhàn)果,。
從實用的視角,AIGC將賦予普通用戶更多的創(chuàng)作權力和自由,。從PGC,、UGC到AIGC的發(fā)展路徑可見,普通人越來越多的參與到創(chuàng)作之中,,數字內容不僅呈現數量上的指數級增長,,類型和風格也走向了更加包容和多元的生態(tài)。未來,,用戶可以使用手機拍攝的一系列照片,,通過AIGC工具生成一個可以使用的3D渲染圖。采用這種創(chuàng)造內容的方式,,我們可以想象未來的數字空間將不再完全由開發(fā)人員構建,,而是利用AIGC響應用戶的輸入按需生成。
AIGC工具對專業(yè)人士的杠桿效應更顯著:如果對普通人的增益是從0到1,,對專業(yè)人士則可能是從1到10,,使他們能集中精力處理更頂層、更有價值的事情:比如立意,,風格,,構圖,元素組合和后處理,,或者怎樣在前期制作盡可能多樣的demo來找尋更好的方案,。運用AI也正成為新的職業(yè)能力,善于“施咒”的大觸們前赴后繼地開發(fā)著AI近乎無限的潛能,并社交平臺上留下讓人望洋興嘆的作品,。
更長期看,,創(chuàng)作和藝術的歷史是螺旋上升的歷史,是某一種風格數量極大豐富,、質量巔峰造極之后的突破,、突變與跨界,也是一個時代精神情感的凝結,。我們有理由相信,,AIGC變革下創(chuàng)新依舊存在,甚至會加速發(fā)展,。
參考資料來源:
[1]https://mp.weixin.qq.com/s/ZYSEou1ki0a4JVY2Nv8_SA.
[2]https://zhuanlan.zhihu.com/p/388666777.
[3]https://zhuanlan.zhihu.com/p/82758631.
[4]https://zhuanlan.zhihu.com/p/493739360.
免責聲明:本文來自網絡收錄或投稿,,觀點僅代表作者本人,,不代表芒果財經贊同其觀點或證實其描述,版權歸原作者所有,。轉載請注明出處:http://lequren.com/1002353.html
溫馨提示:投資有風險,,入市須謹慎,。本資訊不作為投資理財建議,。