原文來(lái)源:AIGC開(kāi)放社區(qū)
圖片來(lái)源:由無(wú)界 AI生成
隨著ChatGPT的出現(xiàn)以及廣泛應(yīng)用,,通過(guò)文本生成文本、視頻,、音頻等內(nèi)容,,成為實(shí)現(xiàn)技術(shù)民主化的關(guān)鍵手段,。
在3D模型領(lǐng)域通過(guò)文本生成并不成熟,多數(shù)方法是通過(guò)圖片,。而該方法存在生成時(shí)間長(zhǎng),、缺乏細(xì)節(jié)、難以匹配圖像等缺點(diǎn),。
加州大學(xué),、清華大學(xué)、斯坦福大學(xué)共同開(kāi)發(fā)了全新模型“One-2-3-45++”并將其開(kāi)源,。該模型僅通過(guò)圖片,,就能在1分鐘內(nèi)將一張RGB圖像轉(zhuǎn)換為高精準(zhǔn)3D模型,這對(duì)于游戲開(kāi)發(fā),、3D建模等領(lǐng)域,,可以節(jié)省大量開(kāi)發(fā)時(shí)間。
研究人員在包含1030個(gè)3D對(duì)象的GSO數(shù)據(jù)集上與多個(gè)基準(zhǔn)方法進(jìn)行了比較,。測(cè)試數(shù)據(jù)顯示,,One-2-3-45++在幾何相似度、CLIP相似度指標(biāo)上均優(yōu)于基準(zhǔn)方法,。
在包含50多名真實(shí)用戶的評(píng)估數(shù)據(jù)顯示,87.6%表示One-2-3-45++生成的結(jié)果,,優(yōu)于其他方法,質(zhì)量更高、更符合輸入圖像,。
開(kāi)源地址:https://github.com/SUDO-AI-3D/One2345plus
論文地址:https://arxiv.org/abs/2311.07885
在線demo:https://www.sudo.ai/3dgen
One-2-3-45++的核心技術(shù)原理主要包括三大塊:一致的多視角圖像生成、基于多視角的3D重建以及紋理優(yōu)化,。
一致的多視角圖像生成
這一模塊的作用是從單個(gè)輸入圖像中生成多個(gè)視角一致的圖像,。One-2-3-45++一共可生成6個(gè)視角的圖像,布局是一個(gè)3×2的矩形網(wǎng)格,分別對(duì)應(yīng)不同的相機(jī)位置。
為了避免生成的3D形狀存在方向歧義,這6個(gè)相機(jī)位姿使用絕對(duì)高度角以及相對(duì)方位角來(lái)定義,,同時(shí)使用了預(yù)訓(xùn)練文生圖模型Stable Diffusion作為生成器,。
此外,使用了Objaverse數(shù)據(jù)集中的3D形狀進(jìn)行微調(diào),。對(duì)每個(gè)3D形狀,生成3個(gè)訓(xùn)練樣本,分別對(duì)應(yīng)不同的輸入圖像視角,。同時(shí)使用統(tǒng)一的HDR環(huán)境光進(jìn)行渲染,以提升細(xì)節(jié),、光影效果,。
基于多視角的3D重建
上一個(gè)模塊我們已經(jīng)有了6個(gè)對(duì)象的多視角圖片,這個(gè)模塊就是要把二維的圖片轉(zhuǎn)換成3D模型。
具體做法是先用6張圖片生成一個(gè)低分辨率的三維體積元素,近似表示整體形狀。然后在體積元素里面生成更高分辨率的“體積元素”,捕捉表面細(xì)節(jié),。
體積元素就是用小立方體組成的三維矩陣,。這里有兩種體積元素,一種SDF體積元素,記錄了一個(gè)位置到物體表面的距離;另一種是顏色體積元素,記錄一個(gè)位置到物體表面最近點(diǎn)的顏色。
同時(shí)這6張圖片是生成體積元素的條件,,先從圖片里提取二維特征,然后反投影到三維空間構(gòu)建一個(gè)三維特征體,這個(gè)體包含了多視角的先驗(yàn)信息,可以指導(dǎo)三維模型體積元素的生成,。
紋理優(yōu)化
經(jīng)過(guò)前面兩個(gè)步驟生成的3D模型,在顏色,、質(zhì)量,、紋理方面還比較粗糙,所以需要進(jìn)行優(yōu)化達(dá)到最終效果,。同樣可以利用前面6個(gè)視角的圖像,,來(lái)增強(qiáng)最終網(wǎng)格模型的紋理質(zhì)量。
方法是固定住網(wǎng)格的三維結(jié)構(gòu)不變,僅優(yōu)化表示顏色的網(wǎng)絡(luò),。每次迭代中,用當(dāng)前的顏色網(wǎng)絡(luò)渲染網(wǎng)格,生成二維圖片,。然后與之前生成的多視角圖片計(jì)算損失,更新顏色網(wǎng)絡(luò)。
這樣通過(guò)不斷地優(yōu)化,網(wǎng)格表面的顏色信息會(huì)逐漸跟多視角圖片越來(lái)越接近,從而實(shí)現(xiàn)紋理的提升,。
免責(zé)聲明:本文來(lái)自網(wǎng)絡(luò)收錄或投稿,,觀點(diǎn)僅代表作者本人,不代表芒果財(cái)經(jīng)贊同其觀點(diǎn)或證實(shí)其描述,,版權(quán)歸原作者所有,。轉(zhuǎn)載請(qǐng)注明出處:http://lequren.com/1085088.html
溫馨提示:投資有風(fēng)險(xiǎn),入市須謹(jǐn)慎,。本資訊不作為投資理財(cái)建議,。