文章來源:AIGC開放社區(qū)
圖片來源:由無界AI生成
谷歌研究人員推出了創(chuàng)新性文本生成視頻模型——Lumiere,。
與傳統(tǒng)模型不同的是,Lumiere采用了一種時空擴散(Space-time)U-Net架構(gòu),可以在單次推理中生成整個視頻的所有時間段,能明顯增強生成視頻的動作連貫性,,并大幅度提升時間的一致性,。
此外,,Lumiere為了解決空間超分辨率級聯(lián)模塊,在整個視頻的內(nèi)存需求過大的難題,,使用了Multidiffusion方法,,同時可以對生成的視頻質(zhì)量、連貫性進行優(yōu)化,。
論文地址:https://arxiv.org/abs/2401.12945?ref=maginative.com
時空擴散U-Net架構(gòu)
傳統(tǒng)的U-Net是一種常用于圖像分割任務(wù)的卷積神經(jīng)網(wǎng)絡(luò)架構(gòu),,其特點是具有對稱的編碼器-解碼器,能夠在多個層次上捕獲上下文信息,,并且能夠精確地定位圖像中的對象,。
而時空擴散U-Net是在時空維度上執(zhí)行下采樣和上采樣操作,以便在緊湊的時空表示中生成視頻,。
下采樣的目的是減小特征圖的尺寸,,同時增加特征圖的通道數(shù),,以捕捉更豐富的特征。
上采樣則是通過插值以及將特征圖的尺寸恢復到原始輸入的大小,,同時減少通道數(shù),,以生成更細節(jié)的輸出。
時空擴散U-Net的編碼器部分通過卷積和池化操作實現(xiàn)時空下采樣。卷積層用于提取特征,,并逐漸減小特征圖的尺寸,。
池化層則通過降采樣操作減小特征圖的空間尺寸,,同時保留重要的特征信息。通過逐步堆疊這些下采樣模塊,,編碼器可以逐漸提取出更高級別的抽象特征,。
因此,Lumiere在時空擴散U-Net架構(gòu)幫助下,,能夠一次生成80幀,、16幀/秒(相當于5秒鐘)的視頻。并且與傳統(tǒng)方法相比,,這種架構(gòu)顯著增強了生成視頻運動的整體連貫性,。
Multidiffusion優(yōu)化方法
Multidiffusion核心技術(shù)是通過在時間窗口內(nèi)進行空間超分辨率計算,并將結(jié)果整合為整個視頻段的全局連貫解決方案,。
具體來說,,Multidiffusion通過將視頻序列分割成多個時間窗口,每個時間窗口內(nèi)進行空間超分辨率計算,。
這樣做的好處是,,在每個時間窗口內(nèi)進行計算可以減少內(nèi)存需求,,因為每個時間窗口的大小相對較小。同時,,這種分割的方式也使得計算更加高效,,并且能夠更好地處理長視頻序列。
在每個時間窗口內(nèi),Multidiffusion方法使用已經(jīng)生成的低分辨率視頻作為輸入,,通過空間超分辨率級聯(lián)模塊生成高分辨率的視頻幀,。
然后,通過引入擴散算法,,將每個時間窗口的結(jié)果進行整合,,形成整個視頻段的全局連貫解決方案。
這種整合過程考慮了時間窗口之間的關(guān)聯(lián)性,,保證了視頻生成的連貫性和視覺一致性,。
免責聲明:本文來自網(wǎng)絡(luò)收錄或投稿,,觀點僅代表作者本人,不代表芒果財經(jīng)贊同其觀點或證實其描述,,版權(quán)歸原作者所有,。轉(zhuǎn)載請注明出處:http://lequren.com/1088665.html
溫馨提示:投資有風險,入市須謹慎,。本資訊不作為投資理財建議,。