由AI作畫應(yīng)用Midjourney生成的繪畫作品《太空歌劇院》在今年9月美國科羅納州博覽會(huì)上獲得藝術(shù)比賽一等獎(jiǎng),,吸引了不少人的眼球,。今年以來連續(xù)好幾個(gè)AIGC領(lǐng)域的項(xiàng)目獲得了不錯(cuò)的融資,, 到底AIGC有什么特別之處,?本文中,,PANews將對AIGC近來的發(fā)展作一個(gè)梳理介紹,。
美國科羅納州博覽會(huì)獲獎(jiǎng)藝術(shù)作品《太空歌劇院》
什么是AIGC?
互聯(lián)網(wǎng)內(nèi)容生產(chǎn)方式經(jīng)歷了PGC——UGC——AIGC的過程,。PGC(Professionally Generated Content)是專業(yè)生產(chǎn)內(nèi)容,,如Web1.0和廣電行業(yè)中專業(yè)人員生產(chǎn)的文字和視頻,其特點(diǎn)是專業(yè),、內(nèi)容質(zhì)量有保證,。UGC(User Generated Content)是用戶生產(chǎn)內(nèi)容,伴隨Web2.0概念而產(chǎn)生,,特點(diǎn)是用戶可以自由上傳內(nèi)容,,內(nèi)容豐富。AIGC(AI Generated Content)是由AI生成的內(nèi)容,,其特點(diǎn)是自動(dòng)化生產(chǎn),、高效。隨著自然語言生成技術(shù)NLG和AI模型的成熟,,AIGC逐漸受到大家的關(guān)注,,目前已經(jīng)可以自動(dòng)生成文字、圖片,、音頻,、視頻,甚至3D模型和代碼,。AIGC將極大的推動(dòng)元宇宙的發(fā)展,,元宇宙中大量的數(shù)字原生內(nèi)容,需要由AI來幫助完成創(chuàng)作,。
內(nèi)容生產(chǎn)方式演變過程
AIGC底層技術(shù)突破
底層技術(shù)的突破使AIGC商業(yè)落地成為可能,傳統(tǒng)AI繪畫技術(shù)采用生成對抗網(wǎng)絡(luò)(GAN),,但GAN生成的圖片結(jié)果輸出不穩(wěn)定,,分辨率低。直到2021年OpenaAI團(tuán)隊(duì)開源了其深度學(xué)習(xí)模型CLIP,,以及今年7月出現(xiàn)的去躁擴(kuò)散模型Diffusion,,兩者相互結(jié)合,讓AI自動(dòng)生成文字和圖片的質(zhì)量得到了質(zhì)的提升,。
Diffusion是一種去噪擴(kuò)散模型,,工作原理是對圖像逐步施加噪點(diǎn),直至圖像被破壞變成完全的噪點(diǎn),,然后再逆向?qū)W習(xí)從全噪點(diǎn)還原為原始圖像的過程,,而AI所看到的是全是噪點(diǎn)的畫面如何一點(diǎn)點(diǎn)變清晰直到變成一幅畫,通過這個(gè)逆向過程來學(xué)習(xí)如何作畫。
CLIP是 OpenAI 在 2021 年初發(fā)布的用于匹配文本和圖像的神經(jīng)網(wǎng)絡(luò)模型,,是近年來在多模態(tài)研究領(lǐng)域的杰出成果,,它一方面對文字進(jìn)行語言分析,另一方面對圖形進(jìn)行視覺分析,,不斷調(diào)整兩個(gè)模型內(nèi)部參數(shù),,達(dá)到文字和圖像高度匹配的效果。
在AI生成文字方面,,目前AI已經(jīng)可以作詩,、寫郵件、寫廣告,、劇本和小說,。在今年,采用AIGC技術(shù)的虛擬人度曉曉寫作高考作文,,在不到1分鐘的時(shí)間,,完成了40多篇文章,獲得專家打分48分的成績,,擊敗了75%的考生,。目前OpenAI的GPT-3模型是AI生成文字中最成熟的模型,最近有一些項(xiàng)目把GPT-3模型商業(yè)化,,包括自動(dòng)寫郵件的OthersideAI,,自動(dòng)寫廣告文案的Copy.ai和Jasper.ai,在用戶數(shù)量上突飛猛進(jìn),,并獲得了大筆的融資,,就在11月16日知識(shí)管理和內(nèi)容協(xié)作平臺(tái)Notion也發(fā)布了其文字自動(dòng)生成產(chǎn)品Notion AI,并開始Alpha版本測試,,Notion AI也是基于GPT-3模型開發(fā),。
在AI生成圖片方面,今年AI作畫水平突飛猛進(jìn),,其背后的算法模型也在不斷迭代,,年初推出的Disco Diffusion只能生成粗糙的圖片,4月OpenAI發(fā)布的DALL-E2代已經(jīng)可以生成完整的人像和圖片,,到8月StabilityAI發(fā)布的Stable Diffusion模型取得質(zhì)的突破,,已經(jīng)可以生成可以媲美專業(yè)畫師的作品,生成圖片的效率也從年初的數(shù)小時(shí)到現(xiàn)在的幾分鐘甚至數(shù)十秒,。
AI生成圖片技術(shù)演變
在AI生成音頻方面,,10月11日,AI播客Podcast.ai生成的一段關(guān)于喬布斯和美國知名主持人喬·羅根之間的20分鐘訪談播客在科技圈廣為流傳,,在播客中喬布斯談到自己的大學(xué)時(shí)代,、對計(jì)算機(jī),、工作狀態(tài)和信仰的看法,整個(gè)播客聽起來毫無違和感,,基本做到以假亂真,。
由AI生成的喬·羅根采訪喬布斯播客
在AI生成視頻方面,目前AI生成視頻的算法模型還未成熟,,也還沒出現(xiàn)一家獨(dú)大的局面。9月底Meta公布了AI制作視頻工具M(jìn)ake-A-Video,,Google也緊接著發(fā)布了Imagen Video和Phenaki,。Make-A-Video具有文字轉(zhuǎn)視頻、圖片轉(zhuǎn)視頻,、視頻生成視頻三種功能,。僅僅通過文本描述,Phenaki就可以生成一段情節(jié)連貫的視頻,。10月9日B站上的UP主“秋之雪華”公布了全球首個(gè)AI繪圖,、AI配音的動(dòng)畫《夏末彌夢》的DEMO,其畫面精美程度不輸專業(yè)畫師的作品,。
AI動(dòng)畫《夏末彌夢》DEMO
但PANews觀看該DEMO后發(fā)現(xiàn),,動(dòng)畫中人物幾乎是靜態(tài)的,只是在場景切換時(shí)換了個(gè)另一張圖,,由此可以看出目前AI生成視頻中動(dòng)畫的過度和連貫性技術(shù)還不是很成熟,,因?yàn)锳I生成視頻需要多個(gè)AI模型來配合完成。
AI生成視頻技術(shù)模型
從技術(shù)上看,,視頻是把多張圖片有邏輯和連貫的組合在一起,。由文字生成視頻,首先要生成多張圖片,,然后還要把這些圖片有邏輯和連貫性的組合起來,,因此難度比文字生成圖片高了很多,如果一旦像文字生成圖片那樣能夠高效率的生成高品質(zhì)視頻,,將對內(nèi)短視頻,、影視、游戲,、廣告等內(nèi)容生產(chǎn)行業(yè)帶來重大影響,,不僅提升視頻制作的效率和成本,還能幫助設(shè)計(jì)師產(chǎn)生更多的靈感和創(chuàng)意,,讓視頻內(nèi)容行業(yè)變得更加豐富和繁榮,。
在AI生成3D方面,以往的“3D建?!毙枰萌S制作軟件通過虛擬三維空間構(gòu)建出具有三維數(shù)據(jù)的模型,,技術(shù)要求比較高,,需要懂美術(shù)、熟悉3DMAX和Maya等軟件,,還需要大量的時(shí)間去人工繪制,。但UC Berkeley 的幾個(gè)博士后發(fā)表的論文神經(jīng)輻射場技術(shù)(NeRF)可以把全景相機(jī)拍攝的視頻自動(dòng)渲染為3D場景,減少了人工3D建模的過程,,NeRF技術(shù)在2020年的 ECCV (歐洲計(jì)算機(jī)視覺國際會(huì)議) 提出,, 并在2021年的ACM(美國計(jì)算機(jī)協(xié)會(huì))獲了榮譽(yù)提名獎(jiǎng)。著名VR科技博主Robert Scoble 7月在他的Twitter發(fā)布了這個(gè)視頻,,他用NeRF技術(shù)渲染Insta360全景相機(jī)所拍視頻后得到的3D場景,,效果令人驚嘆,預(yù)計(jì)會(huì)有相關(guān)項(xiàng)目將NeRF技術(shù)進(jìn)行商業(yè)落地嘗試,,對于這點(diǎn)非常值得期待,。
AIGC領(lǐng)域重要項(xiàng)目
今年加入AI作畫賽道的公司越來越多,今年分別出現(xiàn)了Mid Journey,、DALL-E2,、Stable Diffusion、Tiamat,、百度文心等多家AI作畫公司,,以及JasperAI、CopyAI這樣的AI文字項(xiàng)目,。
從融資角度來看,,目前AIGC有3個(gè)商業(yè)化的方向:
◎第一個(gè)方向是通過AI生成文字,比如自動(dòng)寫郵件和廣告營銷文案,,這要?dú)w功于OpenAI的GPT-3 AI語言模型,,目前大多數(shù)AI生成文字類項(xiàng)目都使用該模型。
◎第二個(gè)方向是利用AI作圖,,主要技術(shù)是結(jié)合多模態(tài)神經(jīng)語言模型CLIP和圖像去躁擴(kuò)散模型Diffusion,,僅僅提供一些關(guān)鍵詞描述就可以自動(dòng)生成圖片。
◎第三個(gè)方向是AIGC的底層技術(shù)模型開發(fā),,OPENAI和StableAI 是這個(gè)方向的龍頭,,也是融資金額最大的。
預(yù)計(jì)接下來AIGC的熱門方向可能是用AI生成視頻和動(dòng)畫,,這就看Meta,、Google的AI視頻模型能不能解決視頻的連貫性和邏輯性問題,或其他公司提出更好的解決方案,。
AIGC領(lǐng)域熱門項(xiàng)目
OpenAI/GPT-3, OpenAI是由馬斯克和Y-Combinator CEO Sam Altman于2015年成立的一個(gè)非營利組織,,但2019 年馬斯克離開了OpenAI ,緊接著微軟注資 10 億美元將其變?yōu)闋I利性公司,,并與微軟的云計(jì)算平臺(tái)Azure展開合作,。最近微軟正在對OpenAI進(jìn)行新一輪的投資進(jìn)行后期談判,,目前估值已經(jīng)達(dá)200億美金。GPT-3是OpenAI于2020年5月推出的自然語言處理模型,,支持用戶僅輸入一些關(guān)鍵詞就能生成一封郵件,、文章或新聞,甚至是小說,,它是目前最成熟的自然語言生成技術(shù)NLG之一,。今年4月OpenAI還推出了DALL-E2項(xiàng)目,允許用戶通過文本生成圖像,,成為目前主流的三大AI作畫應(yīng)用之一,。
StableAI /Stable Diffusion,10月17日英國的Stability AI宣布以10億美元的估值完成1.01億美元融資,,此次融資由 Coatue 和 Lightspeed 領(lǐng)投。消息稱Stability AI正準(zhǔn)備下一輪 10 億美金的融資,,本輪融資Google可能會(huì)參與,,如果投資成功,相信Google將會(huì)和StableAI深度合作,。Stability AI成立于2020年,,由去中心化組織EleutherAI支持開發(fā),其理念是“AI by the people, for the people”,。StableAI主要研AI生成圖片,、音頻、視頻和3D的模型,,其研發(fā)的開源AI作圖模型Stable Diffusion在2022年8月一經(jīng)推出就立刻吸引了大家的眼球,,在Stable Diffusion的Dream Studio測試版網(wǎng)站中只要輸入文字描述,它就能生成一副可以媲美專業(yè)畫師的圖片,,Stable Diffusion是開源產(chǎn)品,,一些AIGC項(xiàng)目對其進(jìn)行了二次開發(fā),退出了包括圖像,、語言,、音頻、視頻,、3D,、生物AI等模型。
由stable diffusion生成的圖片
Midjourney:Midjourney是一款可以和Stable Diffusio以及DALL-E2媲美的AI繪畫工具,。Midjourney是部署在Discord上的應(yīng)用,,在Discord里輸入文字,一分鐘就可以生成對應(yīng)的圖片,,目前其官方Discord已經(jīng)擁有140萬用戶,,其免費(fèi)版本能生成的圖片數(shù)量有限,,超出數(shù)量需要付費(fèi)訂閱,如果想體驗(yàn)一下Midjourney作圖可以查看這個(gè)教程,。
由Midjourney生成的圖片
OthersideAI:OthersideAI主打利用AI自動(dòng)回復(fù)郵件,,底層技術(shù)采用OpenAI的GPT-3 協(xié)議,OthersideAI曾獲得Madrona Venture Group領(lǐng)投的 260 萬美金種子輪融資,,Madrona Venture Group曾參投過Amazon 的早期種子輪融資,。 OthersideAI 的操作非常簡單,只要輸入郵件內(nèi)容的關(guān)鍵要點(diǎn),,它就可以為生成一封完整的郵件,。
CopyAI:Copy.ai 是一個(gè)通過AI來寫作廣告和營銷文案的創(chuàng)業(yè)公司,它可以幫助用戶幾秒鐘內(nèi)生成高質(zhì)量的廣告和營銷文案,,主打 ToB 商業(yè)場景,,它的底層技術(shù)也是采用OpenAI的GPT-3 協(xié)議。目前Copy.ai的用戶包括像微軟,、Ebay 這樣的大公司,。Copy.ai 曾獲得 Craft Ventures 領(lǐng)投的290 萬美金種子輪,A 輪融資 1100 萬美金,,由Wing Venture Capital 領(lǐng)投,,紅杉資金及Tiger Global 跟投。
JasperAI:Jasper.ai 成立于2020年,,通過 AI 幫企業(yè)和個(gè)人寫營銷推廣文案以及博客等各種文字內(nèi)容(和Copy.ai 類似),,其底層技術(shù)也是 GPT-3。Jasper.ai 10月以15 億美金估值完成了 1.25 億美元的 A 輪融資,,由 Insight Partners 領(lǐng)投,,Coatue、BVP以及 IVP 跟投,。今年1月推出第一個(gè)版本后,,很快受到歡迎,短時(shí)間內(nèi)獲得了數(shù)百萬美元的收入,。
Play.ht :Play.ht 是一個(gè) AI 文本轉(zhuǎn)換語音應(yīng)用,,在今年9月發(fā)布了第一個(gè)語音模型 Peregrine,包含數(shù)千種說話的聲音,,可以學(xué)習(xí)人類的語氣,、音調(diào)和笑聲。再進(jìn)生成采訪喬布斯播客的Podcast.ai就是采用Play.ht語音模型,,它通過大量采集網(wǎng)絡(luò)上關(guān)于喬布斯的錄音,,然后進(jìn)行訓(xùn)練,,最終生成假喬布斯的聲音,,相似度非常高。
Notion AI: 剛剛于本月16日公布的Notion AI是知名知識(shí)管理和內(nèi)容協(xié)作平臺(tái)Notion基于OpenAI GPT-3模型開發(fā)的AI文字生成工具。目前Notion AI的功能包括自動(dòng)撰寫文章,、廣告文案和播客,;通過頭腦風(fēng)暴為用戶提供創(chuàng)意建議,;自動(dòng)檢查文字拼寫和語法錯(cuò)誤,;自動(dòng)翻譯文章;目前Notion AI以白名單的形式開放Alpha版本測試,。相信Notion AI的加入將會(huì)進(jìn)一步推動(dòng)AI生成文字走向普及,。
AIGC如何助推元宇宙發(fā)展
雖然元宇宙的終極形態(tài)還無法確定,但可以肯定的是元宇宙將極大擴(kuò)展人類的存在空間,,在我們邁向元宇宙的過程中,,需要大量的數(shù)字內(nèi)容來支撐,單靠人工來設(shè)計(jì)和開發(fā)根本無法滿足需求,,AIGC正好可以解決這個(gè)問題,。游戲?qū)⑹窃钪嬷凶钕嚷涞氐膱鼍埃钪婧陀螒蛴幸粋€(gè)共同點(diǎn),,都是為用戶提供高度的真實(shí)感和沉浸式體驗(yàn),,我們可以拿AIGC在游戲中的應(yīng)用來說明其將如何主推元宇宙發(fā)展。
AIGC技術(shù)在游戲中的應(yīng)用
開發(fā)游戲周期長和成本高,,通常需要花費(fèi)幾年時(shí)間和上千萬資金,好在AIGC可以極大提高游戲的開發(fā)效率,,具體來說,,游戲中的劇本、人物,、頭像,、道具、場景,、配音,、動(dòng)作、特效,、主程序未來都可以通過AIGC生成,。根據(jù)AIGC在文字和圖像方向的推進(jìn)速度,以上應(yīng)用在五到十年之內(nèi)應(yīng)該可以實(shí)現(xiàn),。
紅杉資本在最近的研究報(bào)告中也指出,,到2030年文本、代碼,、圖像,、視頻、3D,、游戲都可以通過AIGC生成,,并且達(dá)到專業(yè)開發(fā)人員和設(shè)計(jì)師的水平,。
圖片來源:紅杉資本
除了游戲之外,虛擬人也是元宇宙的一個(gè)重要落地場景,,AIGC同樣也會(huì)促進(jìn)虛擬人賽道的發(fā)展,。
虛擬人是圍繞一個(gè)虛擬的人設(shè),為其設(shè)計(jì)聲音,、形象,、動(dòng)作、性格以及活動(dòng)場景,,其本質(zhì)和游戲相似度很高,。虛擬人注重一個(gè)人在虛擬世界的表演和功能性,游戲注重多個(gè)人在虛擬世界中的交互體驗(yàn),。游戲是一出戲,,虛擬人也是在演一出戲,戈夫曼擬劇理論中的“人生如戲”一語道破了現(xiàn)實(shí)世界,、虛擬世界的本質(zhì),。
AIGC在Web3方向的應(yīng)用
AIGC聽起來這么好,那跟Web3會(huì)有什么關(guān)系,?最近聽說Web3的基金都在看AIGC方向的項(xiàng)目,,我想大概有這幾個(gè)方向值得關(guān)注。
Gamefi 開發(fā)引擎:在傳統(tǒng)游戲中應(yīng)用最廣的開發(fā)引擎是Unity和Unreal,,但在Web3中,,游戲的開發(fā)范式也許會(huì)因AIGC帶來許多變革,因此將需要一個(gè)采用AIGC技術(shù)的Gamefi開發(fā)引擎,。里面的人物,、場景、動(dòng)畫均用AIGC設(shè)計(jì),,游戲中的主程序和區(qū)塊鏈部分也可以通過AIGC代碼生成功能完成,如果這些都能實(shí)現(xiàn),設(shè)計(jì)Gamefi游戲或者元宇宙場景將變得非常高效,,這一套開發(fā)引擎將會(huì)具有極高的價(jià)值,。目前看到RCT AI是運(yùn)用人工智能為游戲行業(yè)提供完整解決方式的一個(gè)項(xiàng)目,,但其在多大程度上采用了AIGC技術(shù),還不得而知,,不過已經(jīng)有一款Gamefi游戲Mirror World是基于RCT AI來開發(fā)的,,有興趣的朋友可以進(jìn)一步了解。
開發(fā)Gamefi游戲:退而求其次,,如果一套AIGC全集成的Gamefi開發(fā)引擎還太遙遠(yuǎn),,那采用各個(gè)廠商提供的AIGC工具來開發(fā)Gamefi游戲也會(huì)極大的提高效率,比如用AIGC來生成游戲劇本,、設(shè)計(jì)人物、生成動(dòng)畫這些都幾乎都會(huì)很快實(shí)現(xiàn),,特別在AI生成視頻和3D場景技術(shù)一旦成熟之后Gamefi游戲開發(fā)效率將會(huì)突飛猛進(jìn),。
算力和數(shù)據(jù)共享:訓(xùn)練AIGC模型需要海量的數(shù)據(jù)和強(qiáng)大的算力,這導(dǎo)致成本非常巨大,,AIGC行業(yè)龍頭 Stability AI 為了訓(xùn)練其 Stable Diffusion模型,,在 AWS 中運(yùn)行了包含 4000 多個(gè) Nvidia A100 GPU 的集群,運(yùn)營成本高達(dá)數(shù)千萬美元 ,。如果能通過去中心化方式發(fā)行Token激勵(lì)用戶提供訓(xùn)練模型所需的數(shù)據(jù),,就可以很好的解決AIGC生成中的版權(quán)問題。另外也可以通過發(fā)行Token的方式,,激勵(lì)用戶提供訓(xùn)練模型所需要的大量算力,,分散算力成本,實(shí)現(xiàn)成本共擔(dān),利益共享,。
結(jié)語
今年7月李彥宏在百度世界大會(huì)上判斷,,AIGC將分為三個(gè)發(fā)展階段:“助手階段”——“協(xié)作階段”——“原創(chuàng)階段”?!拔磥硎?,AIGC將顛覆現(xiàn)有內(nèi)容生產(chǎn)模式??梢詫?shí)現(xiàn)以十分之一的成本,,以百倍千倍的生產(chǎn)速度,去生成AI原創(chuàng)內(nèi)容,?!?/p>
在最近的研究報(bào)告中,紅杉資本的兩位合伙人也認(rèn)為:“AIGC目前已經(jīng)擁有更好的模型,,更多的數(shù)據(jù),,更好的算力,預(yù)計(jì)殺手級(jí)應(yīng)用該要出現(xiàn)了”,。
對于以上判斷,,我們傾向于認(rèn)同,AIGC的出現(xiàn)意味著創(chuàng)作者將從繁冗的基礎(chǔ)性工作中解脫出來,,把更多的精力放到創(chuàng)意表達(dá)上,,這是未來內(nèi)容創(chuàng)作行業(yè),甚至是人類工作方式的整體趨勢,。
免責(zé)聲明:本文來自網(wǎng)絡(luò)收錄或投稿,,觀點(diǎn)僅代表作者本人,不代表芒果財(cái)經(jīng)贊同其觀點(diǎn)或證實(shí)其描述,,版權(quán)歸原作者所有,。轉(zhuǎn)載請注明出處:http://lequren.com/995348.html
溫馨提示:投資有風(fēng)險(xiǎn),入市須謹(jǐn)慎,。本資訊不作為投資理財(cái)建議,。