來源:錦秋集
作者:錦秋基金
圖片來源:由無界 AI生成
TL;DR
1.從2017年至今3D經(jīng)歷過了3D視覺,、元宇宙還有當(dāng)前的大模型+MR驅(qū)動的三波熱潮,軟件(AI)和硬件(Vision Pro)共振帶來的新一波熱潮有望帶來更持續(xù)的3D創(chuàng)新,;
2.文字和圖像的大模型都已經(jīng)有了各自的基石模型并進(jìn)入到應(yīng)用爆發(fā)期,,3D生成模型仍處在模型迭代階段,尚無行業(yè)領(lǐng)導(dǎo)者,,但創(chuàng)新速度明顯加快,,市場在等待屬于3D的“Midjourney時刻”;
3.現(xiàn)有3D管線研發(fā)成本高,、制作周期長,,AI+3D正在通過以下幾種方式大幅優(yōu)化3D生產(chǎn)管線:生成式3D建模、紋理生成及綁定,、服裝布料生成及驅(qū)動,、Text to action動畫驅(qū)動、基于大模型的新交互方式(LUI,、拖拉拽式交互),、3D資產(chǎn)庫+LLM,其中生成式3D最具有變革性,;
4.現(xiàn)有3D生成模型可以劃分成“原生3D”和“2D升維”路線,,目前都面臨著生成速度、質(zhì)量,、豐富性的“不可能三角”:“原生3D”通常在生成速度和質(zhì)量上占優(yōu),,但由于3D數(shù)據(jù)的匱乏導(dǎo)致生成的豐富性上仍是短板,“2D升維”則繼承2D圖像生成的豐富性,,同時在生成速度和質(zhì)量上快速追趕,;
5.“3D原生”的生成式模型更接近商業(yè)化要求,會在特定場景下先行商業(yè)化,,“2D升維”的生成式模型預(yù)期未來一年內(nèi)有機(jī)會在元宇宙等對生成質(zhì)量要求不高的場景落地,,真正的3D應(yīng)用市場爆發(fā)尚待XR的成熟滲透,我們認(rèn)為五年內(nèi)AI+3D TAM市場的下限是3D資產(chǎn)交易市場的27億美元,,樂觀能看到數(shù)百億美元的市場(單游戲的3D研發(fā)投入就超過百億美元)
6.當(dāng)前階段有底層技術(shù)能力的公司會有顯著的競爭優(yōu)勢,,而3D應(yīng)用的爆發(fā)仍需至少一年以上的時間,屆時競爭要素才會逐漸往產(chǎn)品端傾斜,,但優(yōu)秀的AIGC公司應(yīng)當(dāng)是擁有底層技術(shù)的同時有自己的爆款C端應(yīng)用,。
目錄
引子:三看3D,我們在期待什么,?
一,、AI+3D=,?
二、生成式3D的加速狂奔與“不可能三角”
三,、生成式3D的商業(yè)化路徑和市場潛力
四,、誰能成為3D的“Midjourney”?
引子:三看3D,,我們在期待什么?
最近3D借AI的光又被廣泛地討論起來了,。
第一次記憶中的“3D熱”始于2017年iPhone發(fā)布了帶3D結(jié)構(gòu)光的iPhone X,,三年后又發(fā)布了基于3D dTOF的Lidar。那是少數(shù)蘋果沒有帶起來的“時髦”的新技術(shù),,因?yàn)橛焉虃冏詈蟀l(fā)現(xiàn)增加了數(shù)十美金的BOM成本死磕技術(shù)帶來的體驗(yàn)提升似乎有點(diǎn)雞肋,,智能手機(jī)上遲遲沒有等來那個3D的Killer app,第一次“3D熱”隨即進(jìn)入冷靜期,。
第二次是在2021年,,Roblox“元宇宙”第一股、Quest銷量突破千萬“奇點(diǎn)”,、Meta加入萬億俱樂部,,智能手機(jī)接不住的“3D熱”用XR可還行?結(jié)果VR始終沒能突破“游戲主機(jī)”的敘事,,而下行的經(jīng)濟(jì)環(huán)境下一臺399美元的笨重的游戲主機(jī)又難免有些奢侈,,22年VR出貨量跌破千萬、Meta股價打到骨折,,3D再次無人問津,。
而今年開始的這波“3D熱”主要是受LLM和Text to image為代表的大模型驅(qū)動,疊加6月WWDC中千呼萬喚始出來的蘋果的Vision pro,,似乎在軟件和硬件層面又開始有了一些新的變化,。
圖:近三次3D熱潮
3D的體驗(yàn)和交互是人自然而然的需求,制約3D的從來都是供給端,,而供給端的瓶頸主要有兩個:1)適應(yīng)3D的體驗(yàn)優(yōu)異的硬件終端,;2)豐富且高質(zhì)量的3D內(nèi)容。
“之前兩次熱潮都由硬件引領(lǐng),,而Vision pro又給硬件創(chuàng)新帶來了新的期待,。此外,這次大模型創(chuàng)新之于3D則主要是在內(nèi)容創(chuàng)作門檻的降低,。生成式3D,、3D copilot等都在日新月異地迭代,期待在硬件和軟件共振的創(chuàng)新周期中的新一輪3D熱潮能夠有更強(qiáng)和持續(xù)的生命力,。”
我們看到文本和圖像的大模型都已經(jīng)有了各自的無論開源還是閉源的基石模型,,基于LLM已經(jīng)誕生了Character AI,、Inflection、Jasper等AI native的獨(dú)角獸,,LUI(基于LLM的用戶交互)正在席卷和重塑軟件行業(yè),,而圖片生成領(lǐng)域除了Midjourney以外也出現(xiàn)了基于Stable Diffusion等開源模型的Lensa、妙鴨相機(jī)等“輕”而爆火出圈的應(yīng)用,。我們不禁想問,,3D的“Midjourney時刻”何時到來?
圖:文字,、圖像,、3D大模型發(fā)展脈絡(luò)
一、AI+3D=,?
1)現(xiàn)有的3D管線周期長,、高度依賴人工
現(xiàn)有的3D資產(chǎn)生產(chǎn)管線大致包括概念設(shè)計、原畫制作,、3D建模,、紋理貼圖、動畫驅(qū)動,、還有渲染,。
其中3D相關(guān)的環(huán)節(jié)制作周期長、高度依賴人工,,往往是研發(fā)投入的大頭,。以最大的游戲市場為例,全球市場來看3D游戲約占全部游戲的60%以上,,而在3D游戲中3D美術(shù)相關(guān)的支出通常會占到研發(fā)成本的60%-70%以上,,包括3D建模、紋理貼圖,、驅(qū)動動畫等,,一款頂尖3D游戲在3D研發(fā)上的投入可以高達(dá)數(shù)億美元,整個游戲行業(yè)每年在3D相關(guān)的研發(fā)投入~75億美元,。
以3D游戲中的人物建模舉例,,一個十萬面以上的3D高模資源,廠商如果要委托外包團(tuán)隊生產(chǎn)該模型,,則價格至少需要3萬元起步,,時間為30-45天。即便是通過3D資產(chǎn)庫購買的方式,,除了面臨可選的資產(chǎn)有限的問題以外,,通常也需要花5-10人*天進(jìn)行清洗才可以使用。全球最大3D內(nèi)容公司Sketchfab顯示,,3D模型生產(chǎn)周期在數(shù)小時到數(shù)天,,生產(chǎn)成本平均高達(dá)千元以上,。
圖:全球生產(chǎn)3D模型的費(fèi)用 ?數(shù)據(jù)來源:Sketchfab
除了3D模型資產(chǎn)以外,模型的動作,、表情驅(qū)動也是耗時耗力的環(huán)節(jié),,特別在影視動畫、數(shù)字人領(lǐng)域動畫驅(qū)動的投入占比更高,,都是有機(jī)會通過AI大幅提效的環(huán)節(jié),。
2)基于生成式AI的3D管線可實(shí)現(xiàn)效率飛躍
生成式AI幾乎可以在所有3D管線的環(huán)節(jié)中發(fā)揮作用,提高生產(chǎn)效率,、縮短制作周期,。
上圖的管線中目前應(yīng)用最廣泛的還是文生圖在原畫制作環(huán)節(jié),很多游戲工作室目前已經(jīng)是美術(shù)人手一個Midjourney再加一些特定風(fēng)格微調(diào)的Stable Diffusion,,LLM能夠在概念設(shè)計環(huán)節(jié)幫助編劇提升一定效率但更多還是創(chuàng)意輔助,。相比之下3D與大模型結(jié)合則仍處在非常早期的探索階段,,但以5年維度來看,,我們認(rèn)為整個3D管線能夠做到70%以上的成本、時間優(yōu)化,,意味著3-4倍的效率提升,。
目前我們關(guān)注到的AI+3D主要包括以下幾種方式:
1.生成式3D建模:類似Midjourney的文生圖或圖生圖模式,以一段文字或者圖片作為prompt輸入,,由生成式模型生成所需的3D資產(chǎn),,包括3D的虛擬人、物品,、場景等,,將原本高門檻、長周期的3D建模環(huán)節(jié)簡化成只需要一句“咒語”或者一張“原畫”就能夠完成3D建模,,生產(chǎn)效率有質(zhì)的飛躍,。由于3D生成模型對3D管線效率的極大提升,也是目前3D創(chuàng)新最為活躍的領(lǐng)域,,下文將會展開重點(diǎn)介紹,。
2.紋理生成及綁定:目前基于NeRF(Neural Radiance Fields,神經(jīng)輻射場)的3D生成模型通常是一步到位生成帶貼圖的3D資產(chǎn),,而沒有單獨(dú)進(jìn)行紋理的生成和綁定,,而非NeRF路線的生成模型通常會對幾何和紋理進(jìn)行分別生成,再進(jìn)行綁定和驅(qū)動,,比如英偉達(dá)的GET3D,,上海科大的影眸科技提出的Dreamface,,以及來自美國的Synthesis AI等,。
圖:英偉達(dá)GET3D模型
圖:Dreamface模型中的紋理材質(zhì)生成環(huán)節(jié)
3.Text to action動畫驅(qū)動:類似OpenAI在圖像領(lǐng)域提出的CLIP模型,,通過大量的文本動作數(shù)據(jù)對進(jìn)行預(yù)訓(xùn)練,形成大模型對于動作表情的理解和生成的能力,,例如在虛擬人場景中根據(jù)對話文本生成合適的肢體動作和表情,。
在action方面,字節(jié)旗下的朝夕光年在今年3月的游戲開發(fā)者大會(GDC)上介紹了將文本轉(zhuǎn)化成全身動畫的技術(shù),,并將應(yīng)用在即將推出的游戲《星球:重啟》,;騰訊聯(lián)合復(fù)旦于今年6月在Arxiv上發(fā)布了MotionGPT模型的研究;北京大學(xué)團(tuán)隊在7月份提出GestureDiffuCLIP用于語音語義到手勢的生成,;國內(nèi)初創(chuàng)企業(yè)中科深智也基于多年文本動作對數(shù)據(jù)集的積累推出了CLLAP模型,。
而表情驅(qū)動上比較有代表性的是英偉達(dá)的Audio2Face和多倫多大學(xué)的JALI模型,嘗試通過對輸入文本的理解生成恰當(dāng)?shù)目谛秃捅砬?。目前在嘴型匹配上有比較好的進(jìn)展,,但整體表情生成上仍有待突破。
圖:朝夕光年于GDC介紹Text to action技術(shù)
圖:復(fù)旦聯(lián)合騰訊發(fā)布的MotionGPT
4.服裝布料生成及驅(qū)動:服裝布料生成也是3D模型里比較重要的環(huán)節(jié),,在3D場景下不同布料工藝的服裝如何生成,、如何適配avatar體型、怎么解算服裝的動畫都是服裝布料生成需要回答的問題,。目前這塊的相關(guān)研究尚處在早期,。
我們看到有凌迪科技Style3D通過diffusion+圖形學(xué)仿真來實(shí)現(xiàn)生成和動畫驅(qū)動,也關(guān)注到米哈游和倫敦大學(xué)等在2019年的Siggraph上聯(lián)合發(fā)布了關(guān)于服裝動畫半自動生成的研究,,而在米哈游的虛擬人鹿鳴新近的直播中我們看到其服裝動畫的實(shí)時解算渲染已經(jīng)達(dá)到了較高的水平,。
圖:凌迪科技Style3D模型
圖:米哈游、倫敦大學(xué)等半自動生成服裝動畫的研究
5.基于大模型的新交互方式降低使用門檻
a.LUI:基于LLM,,融入對話式的交互,,實(shí)現(xiàn)類似微軟office copilot式的軟件交互,大幅降低3D建模軟件的使用門檻,,比如Unity在6月發(fā)布的Unity Muse,。LUI已經(jīng)在逐漸成為各類軟件的標(biāo)配,3D軟件也不例外,。
圖:Unity發(fā)布的Unity Muse工具
b.拖拉拽式交互:3D作為基于視覺的內(nèi)容,,很多時候通過Chat來進(jìn)行微調(diào)不如通過拖拉拽的所見即所得來得高效,5月份的DragGAN模型實(shí)現(xiàn)了通過拖拉拽把圖片中的大象P轉(zhuǎn)身驚艷了整個行業(yè),,緊接著也馬上有人基于DragGAN和3D生成模型Get3D縫合出了Drag3D模型,,可以通過拖拉拽的方式對3D資產(chǎn)的幾何形狀和紋理進(jìn)行編輯,也是有意思的探索方向,。
圖:DragGAN模型效果
6.3D資產(chǎn)庫+LLM:3D資產(chǎn)庫可以基于LLM進(jìn)行3D資產(chǎn)的快速匹配,、參數(shù)調(diào)整,從而在資產(chǎn)庫的范圍內(nèi)實(shí)現(xiàn)“Text to 3D”,。美國老牌的3D資產(chǎn)庫Tafi在6月份發(fā)布了驚艷的Text to 3D引擎demo,,可以幫助用戶在極短時間內(nèi)“生成”想要的3D資產(chǎn),,并可導(dǎo)入到Unity等引擎進(jìn)行后續(xù)的編輯和商用。
二,、生成式3D的加速狂奔與“不可能三角”
盡管大模型正在以多種不同的方式在改變著3D管線,,但通過生成式3D模型實(shí)現(xiàn)3D資產(chǎn)的生成是本文的關(guān)注重點(diǎn),包括3D建模和紋理貼圖,。
一方面是3D資產(chǎn)建模和貼圖研發(fā)投入占比最高,,而生成式3D有望帶來真正的生產(chǎn)力變革,另一方面是生成式3D是一個更加“3D native”的事情,,相比之下LUI或者檢索匹配已經(jīng)在2D圖像等領(lǐng)域快速滲透,。
生成式3D建模可以從“遠(yuǎn)古”的3D-GAN(2016)說起,,而奠基最近一波3D生成的基礎(chǔ)是NeRF模型(2020)和diffusion模型(關(guān)鍵成果~2020年),,催生了到2022年底前誕生的Dreamfield、Dreamfusion,、Get3D,、Magic3D、Point-E等經(jīng)典的3D生成模型,。
而進(jìn)入2023年,,隨著大模型進(jìn)一步成為顯學(xué),,3D生成領(lǐng)域也開始進(jìn)入了新的加速車道,,半年多時間我們看到了包括Shap-E、DreamFace,、ProlificDreamer,、One-2-3-45等在生成質(zhì)量或者速度上表現(xiàn)驚艷的模型。
NeRF模型:NeRF(Neural Radiance Fields,,神經(jīng)輻射場),利用深度學(xué)習(xí)技術(shù)從多個視角的圖像中提取出對象的幾何形狀和紋理信息,,然后使用這些信息生成一個連續(xù)的三維輻射場,,從而可以在任意角度和距離下呈現(xiàn)出高度逼真的三維模型。
Diffusion模型:在深度學(xué)習(xí)中,,Diffusion模型是一種以Markov鏈和噪聲驅(qū)動的逆過程為基礎(chǔ)的生成模型,。該模型通過模擬噪聲的慢慢消散過程,逐步形成想要的數(shù)據(jù)分布,,常用于生成高質(zhì)量的圖像和其他數(shù)據(jù)類型,。
從實(shí)現(xiàn)路徑上,生成式3D可以粗略劃分為“原生3D”和“2D升維”兩種不同技術(shù)路線,。核心區(qū)別在于是直接文字到3D,,還是先到2D圖像再進(jìn)一步通過擴(kuò)散模型或者NeRF生成3D,。兩種路徑的選擇對于模型的生成質(zhì)量、速度和豐富性有決定性的影響,。
圖:3D生成技術(shù)路線及典型模型
1.原生3D派:原生3D 路線主要特點(diǎn)是使用3D數(shù)據(jù)集進(jìn)行訓(xùn)練,,從訓(xùn)練到推理都基于 3D 數(shù)據(jù),通常也是基于diffusion模型和transformer模型的方法進(jìn)行訓(xùn)練,,實(shí)現(xiàn)從文字/圖片輸入直接到3D資產(chǎn)的生成,。
圖:Get3D(Nvidia)模型原理圖
a.優(yōu)勢:
i.生成速度快:2D升維通常利用 2D 擴(kuò)散生成模型來指導(dǎo) 3D 表示(如 NeRF)的優(yōu)化,需要很多步迭代導(dǎo)致非常耗時,,而3D原生的生成通??梢栽?min以內(nèi)完成,類似2D的文生圖,;
ii.生成質(zhì)量高:在特定范圍內(nèi)能夠生成質(zhì)量較高的3D資產(chǎn),,比如通過高質(zhì)量的3D人臉數(shù)據(jù)可以訓(xùn)練出4k以上高質(zhì)量的3D人臉,同時避免了2D升維的多面等問題,;
iii.兼容性好:通常有幾何和紋理的分別生成,,可以直接在標(biāo)準(zhǔn)圖形引擎中進(jìn)行后續(xù)編輯。
b.劣勢:
i.豐富性不足:原生3D生成的問題在于缺乏高質(zhì)量,、大規(guī)模的3D數(shù)據(jù)集,,目前比較大的3D數(shù)據(jù)集基本在百萬級別,相比于十億級別的圖像數(shù)據(jù)集有三個數(shù)量級的差距,,并且數(shù)據(jù)質(zhì)量和一致性較差,,制約了模型的“想象力”,比如沒有見過的物品或者組合,,對目前的原生3D模型往往比較挑戰(zhàn),。
c.典型模型:Get3D(Nvidia)、Shap-E(OpenAI),、Dreamface(影眸科技)
2.2D升維派:通過 2D 生成模型(如 Imagen,、diffusion model)生成多個視角的 3D 視圖,然后用 NeRF 重建,。背后核心邏輯是3D數(shù)據(jù)集的匱乏難以滿足豐富的3D生成需求,,在2D的文生圖紅紅火火的背景下開始越來越多的研究者試圖基于海量的2D圖像數(shù)據(jù)來實(shí)現(xiàn)3D的生成,并取得了飛速的進(jìn)展,。
圖:Dreamfusion(Google)模型原理圖
a.優(yōu)勢:可以利用大量的2D圖像數(shù)據(jù)進(jìn)行預(yù)訓(xùn)練,,數(shù)據(jù)的豐富性使生成的3D模型復(fù)雜度提高,富有“想象力”,;
b.劣勢:
i.生成速度慢:NeRF的訓(xùn)練和推理過程都需要大量的計算資源,。因?yàn)樾枰獙?D空間進(jìn)行密集的采樣,這也導(dǎo)致了生成速度較慢,不過最近的One-2-3-45模型提出了 “2D 多視角預(yù)測 + 3D 可泛化重建”將生成時間縮短到了45s,,生成速度上在追趕3D原生派,;
ii.生成質(zhì)量較低:NeRF更擅長合成視角而非精確重建,受限于采樣數(shù)量,、視角數(shù)量及計算資源的平衡,,目前2D升維生成3D在分辨率、紋理細(xì)節(jié)都還比較粗糙,,以及2D升維3D過程中的一些非理想效應(yīng)的存在,,導(dǎo)致整體的生成質(zhì)量還有較大提升空間;
iii.兼容性問題:NeRF格式無法直接在Unity等3D引擎中進(jìn)行后續(xù)的編輯,,也可以通過Matching cubes等方法轉(zhuǎn)換成3D網(wǎng)格再到3D引擎中進(jìn)行編輯,,也有一些2D升維3D模型已經(jīng)可以實(shí)現(xiàn)Mesh格式的導(dǎo)出,兼容現(xiàn)有3D管線,,整體兼容性有所改善,;
c.典型模型:Dreamfield、Dreamfusion(Google),、Point-E(OpenAI),、Magic3D(Nvidia)、ProlificDreamer(生數(shù)科技),、One-2–3–45
我們按照生成速度,、生成質(zhì)量以及豐富性來對典型的模型進(jìn)行大致坐標(biāo)系排列,大概能得到如下的圖:
我們發(fā)現(xiàn),,目前的3D生成模型存在一個明顯的在生成質(zhì)量,、速度、豐富性之間的“不可能三角”:
?“3D原生派”基本上保證了質(zhì)量和速度,,但是在豐富性上由于3D數(shù)據(jù)的匱乏導(dǎo)致了明顯的短板,,后續(xù)的重點(diǎn)發(fā)展方向就是通過自主采集或者開源共享的方式,,在更多的場景,、類型上豐富3D數(shù)據(jù),逐步提高豐富性,;
?“2D升維派”繼承了2D圖像生成的豐富性,,而在第二個角上,我們看到既有ProlificDreamer這樣生成質(zhì)量讓人亮眼的,,也有One-2–3–45這樣在生成速度上追求極致的模型出現(xiàn),,生成質(zhì)量和速度都在不斷提升。
三,、生成式3D的商業(yè)化路徑
和市場潛力
當(dāng)前的生成式3D存在的問題好比一年前的文生圖,,V1、V2的Midjourney的生圖質(zhì)量、可控性和可編輯性離商業(yè)化看似遙不可及,,而短短一年多時間設(shè)計師們就要開始驚呼“失業(yè)”了,。錦秋基金認(rèn)為,上述“不可能三角”的問題同樣有機(jī)會在未來一年內(nèi)逐漸取得突破,,并開始生成式3D的商業(yè)化之路。
圖:Midjourney在短短一年時間就從“玩具式”的v1迭代到了生產(chǎn)力工具v5
“3D原生”的生成式模型由于生成速度和質(zhì)量可以達(dá)到或接近商業(yè)化的要求,,將會在特定場景下的先行商業(yè)化,。
例如影眸科技的Dreamface已經(jīng)可以在游戲領(lǐng)域替代一部分前期建模的工作,例如Get3D正在一些元宇宙類場景里進(jìn)行簡單物品生成的測試,。隨著越來越多人加入“3D原生”生成的研究,,預(yù)計將會出現(xiàn)越來越多大規(guī)模、高質(zhì)量的3D資產(chǎn)數(shù)據(jù)集,,以及改進(jìn)模型架構(gòu)以降低對數(shù)據(jù)依賴,,共同推動原生3D在更多的場景逐步落地。
“2D升維”的生成式模型相比之下離商業(yè)化稍微遠(yuǎn)一些,,但得益于NeRF和diffusion的快速發(fā)展,能看到今年以來“2D升維”的新的學(xué)術(shù)成果較“3D原生”要多很多,,在生成質(zhì)量,、生成速度上都有不同程度的顯著提升??梢灶A(yù)期未來一年內(nèi),,2D升維的3D生成有機(jī)會在一些對生成質(zhì)量要求不苛刻的場景初步落地,比如元宇宙(UGC到AIGC的升級),、VR家裝等,。
“短期來看,3D生成的應(yīng)用場景還是以游戲,、影視為主,,但我們也留意到像虛擬人這樣的3D內(nèi)容場景的增長,;
長遠(yuǎn)來看(5-10年),隨著XR將成為下一代智能終端,,3D的內(nèi)容和交互將成為比圖片更為普遍的需求,而3D生成則會是一件和圖片生成至少一樣重要的事情,。”
圖:Vision Pro發(fā)布時Character AI的官方P圖,,MR時代3D內(nèi)容會在C端進(jìn)一步打開市場每個ChatBot都可以是ChatAvatar進(jìn)行更好的3D交互
我們嘗試以保守和樂觀兩種思路簡單測算生成式3D五年內(nèi)的全球市場潛力:
1)測算邏輯一(保守):假設(shè)完全替代3D資產(chǎn)交易市場,對應(yīng)22年3D資產(chǎn)交易市場~12億美元,,28年預(yù)計27億美元
?生成相比于購買在成本,、效率上都能有很好的提升,技術(shù)成熟的情況下基本可以做到完全的替代,,一如文生圖對圖庫市場發(fā)起的進(jìn)攻,。假設(shè)五年時間做到技術(shù)成熟水平,可替代的3D資產(chǎn)交易市場規(guī)模~27億美元,。
2)測算邏輯二(樂觀):參考游戲3D資產(chǎn)的研發(fā)成本進(jìn)行樂觀測算,,到2028年可觸達(dá)的市場將超過百億美金。
游戲是目前3D資產(chǎn)需求的大頭,,以數(shù)據(jù)完整度較高的游戲市場進(jìn)行測算:
?通過公開數(shù)據(jù)和行業(yè)調(diào)研,,我們大致假設(shè):1)3D游戲占游戲類型的60%;2)美術(shù)占3D游戲研發(fā)成本70%(3D游戲美術(shù)成本通常比2D高),;3)3D美術(shù)在3D游戲美術(shù)費(fèi)用中占60%
可以得到游戲在3D相關(guān)的研發(fā)投入當(dāng)前大約在75億美金,,到2028年將會超過100億美金,是AI+3D有機(jī)會觸及的市場,。除了游戲以外還有影視以及未來的XR都有大量的3D內(nèi)容需求,,綜合來看AI+3D有機(jī)會觸及的市場將達(dá)到數(shù)百億美元。
“樂觀預(yù)計,,到2028年,,除了游戲以外還有影視以及未來的XR都有大量的3D內(nèi)容需求,綜合來看AI+3D有機(jī)會觸及的市場將達(dá)到數(shù)百億美元,。”
我們認(rèn)為Midjourney的出現(xiàn)不會干掉Photoshop,,我們看到的是Photoshop也在拿起AI的武器升級自己,同樣的未來生成式3D的數(shù)百億美金市場力里也少不了現(xiàn)有的Unity,、Unreal,、3ds Max等的身影,但我們更期待3D領(lǐng)域的“Midjourney”出現(xiàn),。
四,、誰能成為3D的“Midjourney”?
大模型的創(chuàng)新下文字和圖片的生成都已經(jīng)進(jìn)入到應(yīng)用蓬勃創(chuàng)新的階段,,也出現(xiàn)了很多從收入和融資上都很優(yōu)秀的公司,,即便是尚未大規(guī)模商業(yè)化有PMF的視頻生成領(lǐng)域,也有Runway這樣受到市場高度認(rèn)可的獨(dú)角獸企業(yè),。但反觀生成式3D從商業(yè)化和市場認(rèn)可角度這樣的公司市場仍舊在虛位以待。
“我們認(rèn)為,,當(dāng)前階段有底層技術(shù)能力的公司會有顯著的競爭優(yōu)勢,,而生成式3D應(yīng)用的爆發(fā)仍需至少一年以上的時間,屆時競爭要素才會逐漸往產(chǎn)品端傾斜,但優(yōu)秀的AIGC公司應(yīng)當(dāng)是擁有底層技術(shù)的同時有自己的爆款C端應(yīng)用,。”
?技術(shù):當(dāng)前仍處在3D生成的技術(shù)創(chuàng)新周期,,技術(shù)上的創(chuàng)新能夠帶來產(chǎn)品上的極強(qiáng)競爭力。我們觀察到目前跑出來的或者得到資本市場認(rèn)可的AIGC應(yīng)用幾乎都是具備較強(qiáng)底層技術(shù)能力的團(tuán)隊,,包括ChatGPT(OpenAI),、Midjourney(自研模型)、Runway(stable diffusion共同作者),、Character AI(Attention is All You Need 的核心作者)等,,技術(shù)在生成式3D的當(dāng)前階段仍然是核心競爭要素,缺乏底層技術(shù)能力的公司有可能會在未來出現(xiàn)Jasper AI的窘境,;
?產(chǎn)品能力:Midjourney在11人的情況下通過discord做到千萬級用戶,、過億美金年收入是被津津樂道的成功產(chǎn)品案例,Lensa,、妙鴨也都是并不復(fù)雜的技術(shù)+成功的產(chǎn)品定義而在短時間成為爆款應(yīng)用,,面對一個新的技術(shù)物種,怎么去做好產(chǎn)品定義對于團(tuán)隊來說也是重要考驗(yàn),。
AIGC的產(chǎn)品面臨幾個重要的產(chǎn)品決策:
1)如何設(shè)計User in the loop的數(shù)據(jù)反饋回路,;
2)自研模型的公司是選擇閉源還是開源,產(chǎn)品型公司選擇什么樣的大模型底座,;
3)做生產(chǎn)工具還是做內(nèi)容平臺,。
讓人興奮的是,過去半年多時間,,我們已經(jīng)看到越來越多在移動互聯(lián)網(wǎng)時代操刀過千萬甚至億級DAU產(chǎn)品的產(chǎn)品經(jīng)理也開始加入AIGC浪潮,,讓筆者對接下來的AIGC產(chǎn)品創(chuàng)新充滿了期待。
最后一個繞不開的商業(yè)化問題是:對于3D生成的企業(yè),,2C or 2B,?
to C依然是AIGC最理想的商業(yè)模式,大家都希望像ChatGPT,、Midjourney用自己的C端應(yīng)用,、有數(shù)據(jù)飛輪、再反哺底層模型的快速迭代,。但受限于硬件終端,,C端消費(fèi)者能夠直接消費(fèi)3D的場景非常少,不像Midjourney用戶會生成圖片再到社交媒體進(jìn)行展示,,3D的內(nèi)容消費(fèi)需要通過游戲,、影視等內(nèi)容載體。
因而短期來看更容易的路徑是2B2C,,通過游戲,、元宇宙等B端場景觸達(dá)C端,,但往往數(shù)據(jù)回路在B端應(yīng)用這里就被切斷了;或者選擇自研C端泛游戲類應(yīng)用,,比如“AIGC版roblox”,、“3D版抖音”等,確保了對用戶,、數(shù)據(jù)的掌控,,但對團(tuán)隊的產(chǎn)品及運(yùn)營能力提出了比較高的要求,。
還是那個觀點(diǎn),隨著XR的發(fā)展,會有越來越多的游戲影視以外的3D native的應(yīng)用可以被大眾直接消費(fèi),,而生成式3D將會從大幅降低3D內(nèi)容生產(chǎn)門檻的角度,,一起助推3D成為The next big thing,。
作為多年XR投資人和果粉,,最后再放兩張圖帶大家一起憧憬下不遠(yuǎn)處的3D數(shù)字世界????
圖:Vision Pro演示的3D交互畫面
圖:Vision Pro為每個用戶無感創(chuàng)建3D虛擬化身Persona
參考資料:
《DreamFusion: Text-to-3D using 2D Diffusion》
《GET3D: A Generative Model of High Quality 3D Textured Shapes Learned from Images》
《Magic3D: High-Resolution Text-to-3D Content Creation》
《Shap-E: Generating Conditional 3D Implicit Functions》
《Drag Your GAN: Interactive Point-based Manipulation on the Generative Image Manifold》
《Drag3D: DragGAN meets GET3D》
《MotionGPT: Human Motion as a Foreign Language》
《GestureDiffuCLIP: Gesture Diffusion Model with CLIP Latents》
《無需任何3D數(shù)據(jù),直接文本生成高質(zhì)量3D內(nèi)容,,清華朱軍團(tuán)隊帶來重大進(jìn)展》機(jī)器之心
《游族稱AI讓2D美術(shù)降本25%,、明年發(fā)布三體游戲,上市公司密集談AI》GameLook
《次世代3D游戲角色的制作流程》游鯊游戲
《一句話實(shí)現(xiàn)3D內(nèi)容制作,,Unity上線AI工具「Muse Chat」,,美股飆升15%》機(jī)器之心
《驚艷!全球首個文本生成高質(zhì)量3D模型,,效果媲美瑪雅,、C4D!》AIGC開放社區(qū)
《生成式AI對于游戲的研發(fā)變革以及產(chǎn)業(yè)要義》廣發(fā)證券
《AI+游戲會議紀(jì)要》騰訊手游助手
《凌迪科技Style3D:讓AIGC走上秀場背后,,是打造服裝產(chǎn)業(yè)模型的決心 》
免責(zé)聲明:本文來自網(wǎng)絡(luò)收錄或投稿,,觀點(diǎn)僅代表作者本人,不代表芒果財經(jīng)贊同其觀點(diǎn)或證實(shí)其描述,,版權(quán)歸原作者所有,。轉(zhuǎn)載請注明出處:http://lequren.com/1066175.html
溫馨提示:投資有風(fēng)險,入市須謹(jǐn)慎,。本資訊不作為投資理財建議,。