原文來源:AIGC開放社區(qū)
圖片來源:由無界 AI生成
隨著擴(kuò)散模型的飛速發(fā)展,誕生了Midjourney,、DALL·E 3,、Stable Difusion等一大批出色的文生圖模型。但在文生視頻領(lǐng)域卻進(jìn)步緩慢,,因為文生視頻多數(shù)采用逐幀生成的方式,這類自回歸方法運算效率低下,、成本高。
即便使用先生成關(guān)鍵幀,再生成中間幀新方法,。如何插值幀數(shù),保證生成視頻的連貫性也有很多技術(shù)難點,。
科技、社交巨頭Meta則提出了一種全新的文生視頻模型Emu Video,。該模型使用了分解式生成方法,,先生成一張圖像,再以該圖像和文本作為條件生成視頻,不僅生成的視頻逼真符合文本描述,,算力成本也非常低,。
論文:https://emu-video.metademolab.com/assets/emu_video.pdf?
在線demo:https://emu-video.metademolab.com/#/demo?
Emu Video的核心技術(shù)創(chuàng)新在于,使用了分解式生成方法,。之前,其他文生視頻模型是直接從文本描述映射到高維視頻空間,。
但由于視頻維度非常高,直接映射非常困難,。Emu Video的策略是首先生成一張圖像,然后以該圖像和文本作為條件,生成隨后的視頻幀。
由于圖像空間維度較低,生成第一幀更容易,然后生成后續(xù)幀只需要預(yù)測圖像如何變化,這樣整個任務(wù)難度很大程度降低,。
技術(shù)流程方面, Emu Video利用先前訓(xùn)練好的文本到圖像模型來固定空間參數(shù),初始化視頻模型,。
然后僅需要訓(xùn)練時間參數(shù)來進(jìn)行文本到視頻任務(wù)。在訓(xùn)練時,模型以視頻片段及相應(yīng)文本描述作為樣本進(jìn)行學(xué)習(xí),。
在推理時,給定一段文本后,先用文本到圖像部分生成第一幀圖像,再輸入該圖像及文本到視頻部分生成完整的視頻,。
文本到圖像
Emu Video使用了一個訓(xùn)練好的文本到圖像模型,可以生成很逼真的圖片,。為了讓生成的圖片更有創(chuàng)意,這個模型在海量的圖像和文本描述進(jìn)行預(yù)訓(xùn)練,學(xué)到了很多圖像的風(fēng)格,例如,,朋克,、素描、油畫,、彩繪等,。
文本到圖像模型采用了U-Net結(jié)構(gòu),包含編碼器和解碼器,。編碼器包含多層卷積塊,并降采樣獲得較低分辨率的特征圖。
解碼器包含對稱的上采樣和卷積層,最終輸出圖像,。兩個文本編碼器(T5和CLIP模型)被并行加入,分別對文本進(jìn)行編碼產(chǎn)生文本特征,。
圖像到視頻
這個模塊使用了跟文本到圖像模塊類似的結(jié)構(gòu),也是一個編碼器-解碼器結(jié)構(gòu)。不同的是增加了處理時間信息的模塊,也就是說可以學(xué)習(xí)如何把圖片中的內(nèi)容變化成一個視頻,。
在訓(xùn)練的過程中,研究人員輸入一小段視頻,隨機抽取其中的一幀圖片,讓這個模塊學(xué)習(xí)根據(jù)這張圖片和對應(yīng)的文本生成整段視頻,。
在實際使用時,先用第一個模塊生成第一幀圖片,然后輸入這張圖片和文本給第二個模塊,讓它生成整個視頻。
這種分解的方法讓第二個模塊的任務(wù)變得比較簡單,只需要預(yù)測圖片會隨著時間而怎么變化和運動,就可以生成流暢逼真的視頻。
為了生成更高質(zhì)量逼真的視頻,,研究人員進(jìn)行了一些技術(shù)優(yōu)化:1)采用零終端信噪比的散度噪聲計劃,能夠直接生成高清視頻,無需級聯(lián)多個模型,。之前的計劃在訓(xùn)練和測試階段信噪比存在偏差,導(dǎo)致生成質(zhì)量下降。
2)利用預(yù)訓(xùn)練文本到圖像模型固定參數(shù),保留圖像質(zhì)量和多樣性,生成第一幀時不需額外訓(xùn)練數(shù)據(jù)和計算成本,。
3)設(shè)計多階段訓(xùn)練策略,先在低分辨率訓(xùn)練快速采樣視頻信息,再在高分辨率進(jìn)行微調(diào),避免全程高分辨率的計算量大,。
在人類評估中顯示,,Emu Video生成的4秒長視頻比其他方法更具質(zhì)量和遵循文本的要求,。語義一致性超過86%,質(zhì)量一致性超過91%,明顯優(yōu)于Gen-2、Pika Labs,、Make-A Video等知名商業(yè)模型,。
免責(zé)聲明:本文來自網(wǎng)絡(luò)收錄或投稿,觀點僅代表作者本人,,不代表芒果財經(jīng)贊同其觀點或證實其描述,,版權(quán)歸原作者所有。轉(zhuǎn)載請注明出處:http://lequren.com/1081695.html
溫馨提示:投資有風(fēng)險,,入市須謹(jǐn)慎,。本資訊不作為投資理財建議。