來源:錦秋集
作者:錦秋基金
圖片來源:由無界 AI生成
TL;DR
1.從2017年至今3D經(jīng)歷過了3D視覺、元宇宙還有當(dāng)前的大模型+MR驅(qū)動(dòng)的三波熱潮,軟件(AI)和硬件(Vision Pro)共振帶來的新一波熱潮有望帶來更持續(xù)的3D創(chuàng)新,;
2.文字和圖像的大模型都已經(jīng)有了各自的基石模型并進(jìn)入到應(yīng)用爆發(fā)期,,3D生成模型仍處在模型迭代階段,尚無行業(yè)領(lǐng)導(dǎo)者,,但創(chuàng)新速度明顯加快,市場在等待屬于3D的“Midjourney時(shí)刻”;
3.現(xiàn)有3D管線研發(fā)成本高,、制作周期長,AI+3D正在通過以下幾種方式大幅優(yōu)化3D生產(chǎn)管線:生成式3D建模,、紋理生成及綁定,、服裝布料生成及驅(qū)動(dòng)、Text to action動(dòng)畫驅(qū)動(dòng)、基于大模型的新交互方式(LUI,、拖拉拽式交互),、3D資產(chǎn)庫+LLM,其中生成式3D最具有變革性,;
4.現(xiàn)有3D生成模型可以劃分成“原生3D”和“2D升維”路線,,目前都面臨著生成速度、質(zhì)量,、豐富性的“不可能三角”:“原生3D”通常在生成速度和質(zhì)量上占優(yōu),,但由于3D數(shù)據(jù)的匱乏導(dǎo)致生成的豐富性上仍是短板,“2D升維”則繼承2D圖像生成的豐富性,,同時(shí)在生成速度和質(zhì)量上快速追趕,;
5.“3D原生”的生成式模型更接近商業(yè)化要求,會(huì)在特定場景下先行商業(yè)化,,“2D升維”的生成式模型預(yù)期未來一年內(nèi)有機(jī)會(huì)在元宇宙等對生成質(zhì)量要求不高的場景落地,,真正的3D應(yīng)用市場爆發(fā)尚待XR的成熟滲透,我們認(rèn)為五年內(nèi)AI+3D TAM市場的下限是3D資產(chǎn)交易市場的27億美元,,樂觀能看到數(shù)百億美元的市場(單游戲的3D研發(fā)投入就超過百億美元)
6.當(dāng)前階段有底層技術(shù)能力的公司會(huì)有顯著的競爭優(yōu)勢,,而3D應(yīng)用的爆發(fā)仍需至少一年以上的時(shí)間,屆時(shí)競爭要素才會(huì)逐漸往產(chǎn)品端傾斜,,但優(yōu)秀的AIGC公司應(yīng)當(dāng)是擁有底層技術(shù)的同時(shí)有自己的爆款C端應(yīng)用,。
目錄
引子:三看3D,我們在期待什么,?
一,、AI+3D=?
二,、生成式3D的加速狂奔與“不可能三角”
三,、生成式3D的商業(yè)化路徑和市場潛力
四、誰能成為3D的“Midjourney”,?
引子:三看3D,,我們在期待什么?
最近3D借AI的光又被廣泛地討論起來了,。
第一次記憶中的“3D熱”始于2017年iPhone發(fā)布了帶3D結(jié)構(gòu)光的iPhone X,,三年后又發(fā)布了基于3D dTOF的Lidar。那是少數(shù)蘋果沒有帶起來的“時(shí)髦”的新技術(shù),,因?yàn)橛焉虃冏詈蟀l(fā)現(xiàn)增加了數(shù)十美金的BOM成本死磕技術(shù)帶來的體驗(yàn)提升似乎有點(diǎn)雞肋,,智能手機(jī)上遲遲沒有等來那個(gè)3D的Killer app,第一次“3D熱”隨即進(jìn)入冷靜期,。
第二次是在2021年,,Roblox“元宇宙”第一股,、Quest銷量突破千萬“奇點(diǎn)”、Meta加入萬億俱樂部,,智能手機(jī)接不住的“3D熱”用XR可還行,?結(jié)果VR始終沒能突破“游戲主機(jī)”的敘事,而下行的經(jīng)濟(jì)環(huán)境下一臺(tái)399美元的笨重的游戲主機(jī)又難免有些奢侈,,22年VR出貨量跌破千萬,、Meta股價(jià)打到骨折,3D再次無人問津,。
而今年開始的這波“3D熱”主要是受LLM和Text to image為代表的大模型驅(qū)動(dòng),,疊加6月WWDC中千呼萬喚始出來的蘋果的Vision pro,似乎在軟件和硬件層面又開始有了一些新的變化,。
圖:近三次3D熱潮
3D的體驗(yàn)和交互是人自然而然的需求,,制約3D的從來都是供給端,而供給端的瓶頸主要有兩個(gè):1)適應(yīng)3D的體驗(yàn)優(yōu)異的硬件終端,;2)豐富且高質(zhì)量的3D內(nèi)容,。
“之前兩次熱潮都由硬件引領(lǐng),而Vision pro又給硬件創(chuàng)新帶來了新的期待,。此外,,這次大模型創(chuàng)新之于3D則主要是在內(nèi)容創(chuàng)作門檻的降低。生成式3D,、3D copilot等都在日新月異地迭代,,期待在硬件和軟件共振的創(chuàng)新周期中的新一輪3D熱潮能夠有更強(qiáng)和持續(xù)的生命力。”
我們看到文本和圖像的大模型都已經(jīng)有了各自的無論開源還是閉源的基石模型,,基于LLM已經(jīng)誕生了Character AI,、Inflection、Jasper等AI native的獨(dú)角獸,,LUI(基于LLM的用戶交互)正在席卷和重塑軟件行業(yè),,而圖片生成領(lǐng)域除了Midjourney以外也出現(xiàn)了基于Stable Diffusion等開源模型的Lensa、妙鴨相機(jī)等“輕”而爆火出圈的應(yīng)用,。我們不禁想問,,3D的“Midjourney時(shí)刻”何時(shí)到來?
圖:文字,、圖像,、3D大模型發(fā)展脈絡(luò)
一、AI+3D=,?
1)現(xiàn)有的3D管線周期長、高度依賴人工
現(xiàn)有的3D資產(chǎn)生產(chǎn)管線大致包括概念設(shè)計(jì),、原畫制作,、3D建模,、紋理貼圖、動(dòng)畫驅(qū)動(dòng),、還有渲染,。
其中3D相關(guān)的環(huán)節(jié)制作周期長、高度依賴人工,,往往是研發(fā)投入的大頭,。以最大的游戲市場為例,全球市場來看3D游戲約占全部游戲的60%以上,,而在3D游戲中3D美術(shù)相關(guān)的支出通常會(huì)占到研發(fā)成本的60%-70%以上,,包括3D建模、紋理貼圖,、驅(qū)動(dòng)動(dòng)畫等,,一款頂尖3D游戲在3D研發(fā)上的投入可以高達(dá)數(shù)億美元,整個(gè)游戲行業(yè)每年在3D相關(guān)的研發(fā)投入~75億美元,。
以3D游戲中的人物建模舉例,,一個(gè)十萬面以上的3D高模資源,廠商如果要委托外包團(tuán)隊(duì)生產(chǎn)該模型,,則價(jià)格至少需要3萬元起步,,時(shí)間為30-45天。即便是通過3D資產(chǎn)庫購買的方式,,除了面臨可選的資產(chǎn)有限的問題以外,,通常也需要花5-10人*天進(jìn)行清洗才可以使用。全球最大3D內(nèi)容公司Sketchfab顯示,,3D模型生產(chǎn)周期在數(shù)小時(shí)到數(shù)天,,生產(chǎn)成本平均高達(dá)千元以上。
圖:全球生產(chǎn)3D模型的費(fèi)用 ?數(shù)據(jù)來源:Sketchfab
除了3D模型資產(chǎn)以外,,模型的動(dòng)作,、表情驅(qū)動(dòng)也是耗時(shí)耗力的環(huán)節(jié),特別在影視動(dòng)畫,、數(shù)字人領(lǐng)域動(dòng)畫驅(qū)動(dòng)的投入占比更高,,都是有機(jī)會(huì)通過AI大幅提效的環(huán)節(jié)。
2)基于生成式AI的3D管線可實(shí)現(xiàn)效率飛躍
生成式AI幾乎可以在所有3D管線的環(huán)節(jié)中發(fā)揮作用,,提高生產(chǎn)效率,、縮短制作周期。
上圖的管線中目前應(yīng)用最廣泛的還是文生圖在原畫制作環(huán)節(jié),,很多游戲工作室目前已經(jīng)是美術(shù)人手一個(gè)Midjourney再加一些特定風(fēng)格微調(diào)的Stable Diffusion,,LLM能夠在概念設(shè)計(jì)環(huán)節(jié)幫助編劇提升一定效率但更多還是創(chuàng)意輔助。相比之下3D與大模型結(jié)合則仍處在非常早期的探索階段,,但以5年維度來看,,我們認(rèn)為整個(gè)3D管線能夠做到70%以上的成本,、時(shí)間優(yōu)化,意味著3-4倍的效率提升,。
目前我們關(guān)注到的AI+3D主要包括以下幾種方式:
1.生成式3D建模:類似Midjourney的文生圖或圖生圖模式,,以一段文字或者圖片作為prompt輸入,由生成式模型生成所需的3D資產(chǎn),,包括3D的虛擬人,、物品、場景等,,將原本高門檻,、長周期的3D建模環(huán)節(jié)簡化成只需要一句“咒語”或者一張“原畫”就能夠完成3D建模,生產(chǎn)效率有質(zhì)的飛躍,。由于3D生成模型對3D管線效率的極大提升,,也是目前3D創(chuàng)新最為活躍的領(lǐng)域,下文將會(huì)展開重點(diǎn)介紹,。
2.紋理生成及綁定:目前基于NeRF(Neural Radiance Fields,,神經(jīng)輻射場)的3D生成模型通常是一步到位生成帶貼圖的3D資產(chǎn),而沒有單獨(dú)進(jìn)行紋理的生成和綁定,,而非NeRF路線的生成模型通常會(huì)對幾何和紋理進(jìn)行分別生成,,再進(jìn)行綁定和驅(qū)動(dòng),比如英偉達(dá)的GET3D,,上??拼蟮挠绊萍继岢龅腄reamface,以及來自美國的Synthesis AI等,。
圖:英偉達(dá)GET3D模型
圖:Dreamface模型中的紋理材質(zhì)生成環(huán)節(jié)
3.Text to action動(dòng)畫驅(qū)動(dòng):類似OpenAI在圖像領(lǐng)域提出的CLIP模型,,通過大量的文本動(dòng)作數(shù)據(jù)對進(jìn)行預(yù)訓(xùn)練,形成大模型對于動(dòng)作表情的理解和生成的能力,,例如在虛擬人場景中根據(jù)對話文本生成合適的肢體動(dòng)作和表情,。
在action方面,字節(jié)旗下的朝夕光年在今年3月的游戲開發(fā)者大會(huì)(GDC)上介紹了將文本轉(zhuǎn)化成全身動(dòng)畫的技術(shù),,并將應(yīng)用在即將推出的游戲《星球:重啟》,;騰訊聯(lián)合復(fù)旦于今年6月在Arxiv上發(fā)布了MotionGPT模型的研究;北京大學(xué)團(tuán)隊(duì)在7月份提出GestureDiffuCLIP用于語音語義到手勢的生成,;國內(nèi)初創(chuàng)企業(yè)中科深智也基于多年文本動(dòng)作對數(shù)據(jù)集的積累推出了CLLAP模型,。
而表情驅(qū)動(dòng)上比較有代表性的是英偉達(dá)的Audio2Face和多倫多大學(xué)的JALI模型,嘗試通過對輸入文本的理解生成恰當(dāng)?shù)目谛秃捅砬?。目前在嘴型匹配上有比較好的進(jìn)展,,但整體表情生成上仍有待突破。
圖:朝夕光年于GDC介紹Text to action技術(shù)
圖:復(fù)旦聯(lián)合騰訊發(fā)布的MotionGPT
4.服裝布料生成及驅(qū)動(dòng):服裝布料生成也是3D模型里比較重要的環(huán)節(jié),在3D場景下不同布料工藝的服裝如何生成,、如何適配avatar體型,、怎么解算服裝的動(dòng)畫都是服裝布料生成需要回答的問題。目前這塊的相關(guān)研究尚處在早期,。
我們看到有凌迪科技Style3D通過diffusion+圖形學(xué)仿真來實(shí)現(xiàn)生成和動(dòng)畫驅(qū)動(dòng),也關(guān)注到米哈游和倫敦大學(xué)等在2019年的Siggraph上聯(lián)合發(fā)布了關(guān)于服裝動(dòng)畫半自動(dòng)生成的研究,,而在米哈游的虛擬人鹿鳴新近的直播中我們看到其服裝動(dòng)畫的實(shí)時(shí)解算渲染已經(jīng)達(dá)到了較高的水平,。
圖:凌迪科技Style3D模型
圖:米哈游、倫敦大學(xué)等半自動(dòng)生成服裝動(dòng)畫的研究
5.基于大模型的新交互方式降低使用門檻
a.LUI:基于LLM,,融入對話式的交互,,實(shí)現(xiàn)類似微軟office copilot式的軟件交互,大幅降低3D建模軟件的使用門檻,,比如Unity在6月發(fā)布的Unity Muse,。LUI已經(jīng)在逐漸成為各類軟件的標(biāo)配,3D軟件也不例外,。
圖:Unity發(fā)布的Unity Muse工具
b.拖拉拽式交互:3D作為基于視覺的內(nèi)容,,很多時(shí)候通過Chat來進(jìn)行微調(diào)不如通過拖拉拽的所見即所得來得高效,5月份的DragGAN模型實(shí)現(xiàn)了通過拖拉拽把圖片中的大象P轉(zhuǎn)身驚艷了整個(gè)行業(yè),,緊接著也馬上有人基于DragGAN和3D生成模型Get3D縫合出了Drag3D模型,,可以通過拖拉拽的方式對3D資產(chǎn)的幾何形狀和紋理進(jìn)行編輯,也是有意思的探索方向,。
圖:DragGAN模型效果
6.3D資產(chǎn)庫+LLM:3D資產(chǎn)庫可以基于LLM進(jìn)行3D資產(chǎn)的快速匹配,、參數(shù)調(diào)整,從而在資產(chǎn)庫的范圍內(nèi)實(shí)現(xiàn)“Text to 3D”,。美國老牌的3D資產(chǎn)庫Tafi在6月份發(fā)布了驚艷的Text to 3D引擎demo,,可以幫助用戶在極短時(shí)間內(nèi)“生成”想要的3D資產(chǎn),并可導(dǎo)入到Unity等引擎進(jìn)行后續(xù)的編輯和商用,。
二,、生成式3D的加速狂奔與“不可能三角”
盡管大模型正在以多種不同的方式在改變著3D管線,但通過生成式3D模型實(shí)現(xiàn)3D資產(chǎn)的生成是本文的關(guān)注重點(diǎn),,包括3D建模和紋理貼圖,。
一方面是3D資產(chǎn)建模和貼圖研發(fā)投入占比最高,而生成式3D有望帶來真正的生產(chǎn)力變革,,另一方面是生成式3D是一個(gè)更加“3D native”的事情,,相比之下LUI或者檢索匹配已經(jīng)在2D圖像等領(lǐng)域快速滲透。
生成式3D建??梢詮摹斑h(yuǎn)古”的3D-GAN(2016)說起,,而奠基最近一波3D生成的基礎(chǔ)是NeRF模型(2020)和diffusion模型(關(guān)鍵成果~2020年),催生了到2022年底前誕生的Dreamfield,、Dreamfusion,、Get3D,、Magic3D、Point-E等經(jīng)典的3D生成模型,。
而進(jìn)入2023年,,隨著大模型進(jìn)一步成為顯學(xué),3D生成領(lǐng)域也開始進(jìn)入了新的加速車道,,半年多時(shí)間我們看到了包括Shap-E,、DreamFace、ProlificDreamer,、One-2-3-45等在生成質(zhì)量或者速度上表現(xiàn)驚艷的模型,。
NeRF模型:NeRF(Neural Radiance Fields,神經(jīng)輻射場),,利用深度學(xué)習(xí)技術(shù)從多個(gè)視角的圖像中提取出對象的幾何形狀和紋理信息,,然后使用這些信息生成一個(gè)連續(xù)的三維輻射場,從而可以在任意角度和距離下呈現(xiàn)出高度逼真的三維模型,。
Diffusion模型:在深度學(xué)習(xí)中,,Diffusion模型是一種以Markov鏈和噪聲驅(qū)動(dòng)的逆過程為基礎(chǔ)的生成模型。該模型通過模擬噪聲的慢慢消散過程,,逐步形成想要的數(shù)據(jù)分布,,常用于生成高質(zhì)量的圖像和其他數(shù)據(jù)類型。
從實(shí)現(xiàn)路徑上,,生成式3D可以粗略劃分為“原生3D”和“2D升維”兩種不同技術(shù)路線,。核心區(qū)別在于是直接文字到3D,還是先到2D圖像再進(jìn)一步通過擴(kuò)散模型或者NeRF生成3D,。兩種路徑的選擇對于模型的生成質(zhì)量,、速度和豐富性有決定性的影響。
圖:3D生成技術(shù)路線及典型模型
1.原生3D派:原生3D 路線主要特點(diǎn)是使用3D數(shù)據(jù)集進(jìn)行訓(xùn)練,,從訓(xùn)練到推理都基于 3D 數(shù)據(jù),,通常也是基于diffusion模型和transformer模型的方法進(jìn)行訓(xùn)練,實(shí)現(xiàn)從文字/圖片輸入直接到3D資產(chǎn)的生成,。
圖:Get3D(Nvidia)模型原理圖
a.優(yōu)勢:
i.生成速度快:2D升維通常利用 2D 擴(kuò)散生成模型來指導(dǎo) 3D 表示(如 NeRF)的優(yōu)化,,需要很多步迭代導(dǎo)致非常耗時(shí),而3D原生的生成通??梢栽?min以內(nèi)完成,,類似2D的文生圖;
ii.生成質(zhì)量高:在特定范圍內(nèi)能夠生成質(zhì)量較高的3D資產(chǎn),,比如通過高質(zhì)量的3D人臉數(shù)據(jù)可以訓(xùn)練出4k以上高質(zhì)量的3D人臉,,同時(shí)避免了2D升維的多面等問題;
iii.兼容性好:通常有幾何和紋理的分別生成,可以直接在標(biāo)準(zhǔn)圖形引擎中進(jìn)行后續(xù)編輯,。
b.劣勢:
i.豐富性不足:原生3D生成的問題在于缺乏高質(zhì)量,、大規(guī)模的3D數(shù)據(jù)集,目前比較大的3D數(shù)據(jù)集基本在百萬級別,,相比于十億級別的圖像數(shù)據(jù)集有三個(gè)數(shù)量級的差距,,并且數(shù)據(jù)質(zhì)量和一致性較差,制約了模型的“想象力”,,比如沒有見過的物品或者組合,,對目前的原生3D模型往往比較挑戰(zhàn)。
c.典型模型:Get3D(Nvidia),、Shap-E(OpenAI)、Dreamface(影眸科技)
2.2D升維派:通過 2D 生成模型(如 Imagen,、diffusion model)生成多個(gè)視角的 3D 視圖,,然后用 NeRF 重建。背后核心邏輯是3D數(shù)據(jù)集的匱乏難以滿足豐富的3D生成需求,,在2D的文生圖紅紅火火的背景下開始越來越多的研究者試圖基于海量的2D圖像數(shù)據(jù)來實(shí)現(xiàn)3D的生成,,并取得了飛速的進(jìn)展。
圖:Dreamfusion(Google)模型原理圖
a.優(yōu)勢:可以利用大量的2D圖像數(shù)據(jù)進(jìn)行預(yù)訓(xùn)練,,數(shù)據(jù)的豐富性使生成的3D模型復(fù)雜度提高,,富有“想象力”;
b.劣勢:
i.生成速度慢:NeRF的訓(xùn)練和推理過程都需要大量的計(jì)算資源,。因?yàn)樾枰獙?D空間進(jìn)行密集的采樣,,這也導(dǎo)致了生成速度較慢,不過最近的One-2-3-45模型提出了 “2D 多視角預(yù)測 + 3D 可泛化重建”將生成時(shí)間縮短到了45s,,生成速度上在追趕3D原生派,;
ii.生成質(zhì)量較低:NeRF更擅長合成視角而非精確重建,受限于采樣數(shù)量,、視角數(shù)量及計(jì)算資源的平衡,,目前2D升維生成3D在分辨率、紋理細(xì)節(jié)都還比較粗糙,,以及2D升維3D過程中的一些非理想效應(yīng)的存在,,導(dǎo)致整體的生成質(zhì)量還有較大提升空間;
iii.兼容性問題:NeRF格式無法直接在Unity等3D引擎中進(jìn)行后續(xù)的編輯,,也可以通過Matching cubes等方法轉(zhuǎn)換成3D網(wǎng)格再到3D引擎中進(jìn)行編輯,,也有一些2D升維3D模型已經(jīng)可以實(shí)現(xiàn)Mesh格式的導(dǎo)出,兼容現(xiàn)有3D管線,,整體兼容性有所改善,;
c.典型模型:Dreamfield、Dreamfusion(Google)、Point-E(OpenAI),、Magic3D(Nvidia),、ProlificDreamer(生數(shù)科技)、One-2–3–45
我們按照生成速度,、生成質(zhì)量以及豐富性來對典型的模型進(jìn)行大致坐標(biāo)系排列,,大概能得到如下的圖:
我們發(fā)現(xiàn),目前的3D生成模型存在一個(gè)明顯的在生成質(zhì)量,、速度,、豐富性之間的“不可能三角”:
?“3D原生派”基本上保證了質(zhì)量和速度,但是在豐富性上由于3D數(shù)據(jù)的匱乏導(dǎo)致了明顯的短板,,后續(xù)的重點(diǎn)發(fā)展方向就是通過自主采集或者開源共享的方式,,在更多的場景、類型上豐富3D數(shù)據(jù),,逐步提高豐富性,;
?“2D升維派”繼承了2D圖像生成的豐富性,而在第二個(gè)角上,,我們看到既有ProlificDreamer這樣生成質(zhì)量讓人亮眼的,,也有One-2–3–45這樣在生成速度上追求極致的模型出現(xiàn),生成質(zhì)量和速度都在不斷提升,。
三,、生成式3D的商業(yè)化路徑
和市場潛力
當(dāng)前的生成式3D存在的問題好比一年前的文生圖,V1,、V2的Midjourney的生圖質(zhì)量,、可控性和可編輯性離商業(yè)化看似遙不可及,而短短一年多時(shí)間設(shè)計(jì)師們就要開始驚呼“失業(yè)”了,。錦秋基金認(rèn)為,,上述“不可能三角”的問題同樣有機(jī)會(huì)在未來一年內(nèi)逐漸取得突破,,并開始生成式3D的商業(yè)化之路,。
圖:Midjourney在短短一年時(shí)間就從“玩具式”的v1迭代到了生產(chǎn)力工具v5
“3D原生”的生成式模型由于生成速度和質(zhì)量可以達(dá)到或接近商業(yè)化的要求,將會(huì)在特定場景下的先行商業(yè)化,。
例如影眸科技的Dreamface已經(jīng)可以在游戲領(lǐng)域替代一部分前期建模的工作,,例如Get3D正在一些元宇宙類場景里進(jìn)行簡單物品生成的測試,。隨著越來越多人加入“3D原生”生成的研究,預(yù)計(jì)將會(huì)出現(xiàn)越來越多大規(guī)模,、高質(zhì)量的3D資產(chǎn)數(shù)據(jù)集,,以及改進(jìn)模型架構(gòu)以降低對數(shù)據(jù)依賴,共同推動(dòng)原生3D在更多的場景逐步落地,。
“2D升維”的生成式模型相比之下離商業(yè)化稍微遠(yuǎn)一些,,但得益于NeRF和diffusion的快速發(fā)展,,能看到今年以來“2D升維”的新的學(xué)術(shù)成果較“3D原生”要多很多,在生成質(zhì)量,、生成速度上都有不同程度的顯著提升,。可以預(yù)期未來一年內(nèi),,2D升維的3D生成有機(jī)會(huì)在一些對生成質(zhì)量要求不苛刻的場景初步落地,,比如元宇宙(UGC到AIGC的升級)、VR家裝等,。
“短期來看,,3D生成的應(yīng)用場景還是以游戲、影視為主,,但我們也留意到像虛擬人這樣的3D內(nèi)容場景的增長,;
長遠(yuǎn)來看(5-10年),隨著XR將成為下一代智能終端,,3D的內(nèi)容和交互將成為比圖片更為普遍的需求,,而3D生成則會(huì)是一件和圖片生成至少一樣重要的事情。”
圖:Vision Pro發(fā)布時(shí)Character AI的官方P圖,,MR時(shí)代3D內(nèi)容會(huì)在C端進(jìn)一步打開市場每個(gè)ChatBot都可以是ChatAvatar進(jìn)行更好的3D交互
我們嘗試以保守和樂觀兩種思路簡單測算生成式3D五年內(nèi)的全球市場潛力:
1)測算邏輯一(保守):假設(shè)完全替代3D資產(chǎn)交易市場,對應(yīng)22年3D資產(chǎn)交易市場~12億美元,,28年預(yù)計(jì)27億美元
?生成相比于購買在成本,、效率上都能有很好的提升,技術(shù)成熟的情況下基本可以做到完全的替代,,一如文生圖對圖庫市場發(fā)起的進(jìn)攻,。假設(shè)五年時(shí)間做到技術(shù)成熟水平,可替代的3D資產(chǎn)交易市場規(guī)模~27億美元,。
2)測算邏輯二(樂觀):參考游戲3D資產(chǎn)的研發(fā)成本進(jìn)行樂觀測算,,到2028年可觸達(dá)的市場將超過百億美金。
游戲是目前3D資產(chǎn)需求的大頭,,以數(shù)據(jù)完整度較高的游戲市場進(jìn)行測算:
?通過公開數(shù)據(jù)和行業(yè)調(diào)研,,我們大致假設(shè):1)3D游戲占游戲類型的60%;2)美術(shù)占3D游戲研發(fā)成本70%(3D游戲美術(shù)成本通常比2D高),;3)3D美術(shù)在3D游戲美術(shù)費(fèi)用中占60%
可以得到游戲在3D相關(guān)的研發(fā)投入當(dāng)前大約在75億美金,,到2028年將會(huì)超過100億美金,是AI+3D有機(jī)會(huì)觸及的市場,。除了游戲以外還有影視以及未來的XR都有大量的3D內(nèi)容需求,,綜合來看AI+3D有機(jī)會(huì)觸及的市場將達(dá)到數(shù)百億美元。
“樂觀預(yù)計(jì),,到2028年,,除了游戲以外還有影視以及未來的XR都有大量的3D內(nèi)容需求,,綜合來看AI+3D有機(jī)會(huì)觸及的市場將達(dá)到數(shù)百億美元。”
我們認(rèn)為Midjourney的出現(xiàn)不會(huì)干掉Photoshop,,我們看到的是Photoshop也在拿起AI的武器升級自己,,同樣的未來生成式3D的數(shù)百億美金市場力里也少不了現(xiàn)有的Unity、Unreal,、3ds Max等的身影,,但我們更期待3D領(lǐng)域的“Midjourney”出現(xiàn)。
四,、誰能成為3D的“Midjourney”,?
大模型的創(chuàng)新下文字和圖片的生成都已經(jīng)進(jìn)入到應(yīng)用蓬勃?jiǎng)?chuàng)新的階段,也出現(xiàn)了很多從收入和融資上都很優(yōu)秀的公司,,即便是尚未大規(guī)模商業(yè)化有PMF的視頻生成領(lǐng)域,,也有Runway這樣受到市場高度認(rèn)可的獨(dú)角獸企業(yè)。但反觀生成式3D從商業(yè)化和市場認(rèn)可角度這樣的公司市場仍舊在虛位以待,。
“我們認(rèn)為,,當(dāng)前階段有底層技術(shù)能力的公司會(huì)有顯著的競爭優(yōu)勢,而生成式3D應(yīng)用的爆發(fā)仍需至少一年以上的時(shí)間,,屆時(shí)競爭要素才會(huì)逐漸往產(chǎn)品端傾斜,,但優(yōu)秀的AIGC公司應(yīng)當(dāng)是擁有底層技術(shù)的同時(shí)有自己的爆款C端應(yīng)用。”
?技術(shù):當(dāng)前仍處在3D生成的技術(shù)創(chuàng)新周期,,技術(shù)上的創(chuàng)新能夠帶來產(chǎn)品上的極強(qiáng)競爭力,。我們觀察到目前跑出來的或者得到資本市場認(rèn)可的AIGC應(yīng)用幾乎都是具備較強(qiáng)底層技術(shù)能力的團(tuán)隊(duì),包括ChatGPT(OpenAI),、Midjourney(自研模型),、Runway(stable diffusion共同作者)、Character AI(Attention is All You Need 的核心作者)等,,技術(shù)在生成式3D的當(dāng)前階段仍然是核心競爭要素,,缺乏底層技術(shù)能力的公司有可能會(huì)在未來出現(xiàn)Jasper AI的窘境;
?產(chǎn)品能力:Midjourney在11人的情況下通過discord做到千萬級用戶,、過億美金年收入是被津津樂道的成功產(chǎn)品案例,,Lensa、妙鴨也都是并不復(fù)雜的技術(shù)+成功的產(chǎn)品定義而在短時(shí)間成為爆款應(yīng)用,,面對一個(gè)新的技術(shù)物種,,怎么去做好產(chǎn)品定義對于團(tuán)隊(duì)來說也是重要考驗(yàn)。
AIGC的產(chǎn)品面臨幾個(gè)重要的產(chǎn)品決策:
1)如何設(shè)計(jì)User in the loop的數(shù)據(jù)反饋回路,;
2)自研模型的公司是選擇閉源還是開源,,產(chǎn)品型公司選擇什么樣的大模型底座;
3)做生產(chǎn)工具還是做內(nèi)容平臺(tái),。
讓人興奮的是,,過去半年多時(shí)間,,我們已經(jīng)看到越來越多在移動(dòng)互聯(lián)網(wǎng)時(shí)代操刀過千萬甚至億級DAU產(chǎn)品的產(chǎn)品經(jīng)理也開始加入AIGC浪潮,讓筆者對接下來的AIGC產(chǎn)品創(chuàng)新充滿了期待,。
最后一個(gè)繞不開的商業(yè)化問題是:對于3D生成的企業(yè),,2C or 2B?
to C依然是AIGC最理想的商業(yè)模式,,大家都希望像ChatGPT,、Midjourney用自己的C端應(yīng)用、有數(shù)據(jù)飛輪,、再反哺底層模型的快速迭代,。但受限于硬件終端,C端消費(fèi)者能夠直接消費(fèi)3D的場景非常少,,不像Midjourney用戶會(huì)生成圖片再到社交媒體進(jìn)行展示,,3D的內(nèi)容消費(fèi)需要通過游戲、影視等內(nèi)容載體,。
因而短期來看更容易的路徑是2B2C,,通過游戲、元宇宙等B端場景觸達(dá)C端,,但往往數(shù)據(jù)回路在B端應(yīng)用這里就被切斷了,;或者選擇自研C端泛游戲類應(yīng)用,比如“AIGC版roblox”,、“3D版抖音”等,,確保了對用戶、數(shù)據(jù)的掌控,,但對團(tuán)隊(duì)的產(chǎn)品及運(yùn)營能力提出了比較高的要求。
還是那個(gè)觀點(diǎn),,隨著XR的發(fā)展,,會(huì)有越來越多的游戲影視以外的3D native的應(yīng)用可以被大眾直接消費(fèi),而生成式3D將會(huì)從大幅降低3D內(nèi)容生產(chǎn)門檻的角度,,一起助推3D成為The next big thing,。
作為多年XR投資人和果粉,最后再放兩張圖帶大家一起憧憬下不遠(yuǎn)處的3D數(shù)字世界????
圖:Vision Pro演示的3D交互畫面
圖:Vision Pro為每個(gè)用戶無感創(chuàng)建3D虛擬化身Persona
參考資料:
《DreamFusion: Text-to-3D using 2D Diffusion》
《GET3D: A Generative Model of High Quality 3D Textured Shapes Learned from Images》
《Magic3D: High-Resolution Text-to-3D Content Creation》
《Shap-E: Generating Conditional 3D Implicit Functions》
《Drag Your GAN: Interactive Point-based Manipulation on the Generative Image Manifold》
《Drag3D: DragGAN meets GET3D》
《MotionGPT: Human Motion as a Foreign Language》
《GestureDiffuCLIP: Gesture Diffusion Model with CLIP Latents》
《無需任何3D數(shù)據(jù),,直接文本生成高質(zhì)量3D內(nèi)容,,清華朱軍團(tuán)隊(duì)帶來重大進(jìn)展》機(jī)器之心
《游族稱AI讓2D美術(shù)降本25%、明年發(fā)布三體游戲,,上市公司密集談AI》GameLook
《次世代3D游戲角色的制作流程》游鯊游戲
《一句話實(shí)現(xiàn)3D內(nèi)容制作,,Unity上線AI工具「Muse Chat」,美股飆升15%》機(jī)器之心
《驚艷,!全球首個(gè)文本生成高質(zhì)量3D模型,,效果媲美瑪雅,、C4D!》AIGC開放社區(qū)
《生成式AI對于游戲的研發(fā)變革以及產(chǎn)業(yè)要義》廣發(fā)證券
《AI+游戲會(huì)議紀(jì)要》騰訊手游助手
《凌迪科技Style3D:讓AIGC走上秀場背后,,是打造服裝產(chǎn)業(yè)模型的決心 》
免責(zé)聲明:本文來自網(wǎng)絡(luò)收錄或投稿,,觀點(diǎn)僅代表作者本人,不代表芒果財(cái)經(jīng)贊同其觀點(diǎn)或證實(shí)其描述,,版權(quán)歸原作者所有,。轉(zhuǎn)載請注明出處:http://lequren.com/1066175.html
溫馨提示:投資有風(fēng)險(xiǎn),入市須謹(jǐn)慎,。本資訊不作為投資理財(cái)建議,。