原文來源:AIGC開放社區(qū)
圖片來源:由無界 AI生成
大模型在生成高質(zhì)量圖像方面表現(xiàn)出色,但在生成視頻任務(wù)中,經(jīng)常會(huì)面臨視頻不連貫,、圖像模糊,、掉幀等問題。
這主要是因?yàn)樯墒匠闃舆^程中的隨機(jī)性,會(huì)在視頻序列中引入無法預(yù)測(cè)的幀跳動(dòng),。同時(shí)現(xiàn)有方法僅考慮了局部視頻片段的時(shí)空一致性,無法保證整個(gè)長視頻的整體連貫性,。
為了解決這些難題,新加坡南洋理工大學(xué)的研究人員開發(fā)了一種Upscale-A-Video框架,,無需任何訓(xùn)練便能快速集成到大模型中,,提供視頻超分辨率、去噪,、還原等強(qiáng)大功能,。
論文地址:https://arxiv.org/abs/2312.06640?
開源地址:https://github.com/sczhou/Upscale-A-Video?
項(xiàng)目地址:https://shangchenzhou.com/projects/upscale-a-video/?
Upscale-A-Video主要借鑒了圖像模型中的擴(kuò)散方法,設(shè)計(jì)了一種無需大規(guī)模訓(xùn)練即可快速遷移的框架。
該框架融合了局部和全局兩種策略來維持時(shí)間的一致性,。局部層,模型通過 3D 卷積和時(shí)序注意力層增強(qiáng)特征提取網(wǎng)絡(luò)U-Net在短視頻片段內(nèi)的一致性,。
全局層,則通過光流指導(dǎo)的循環(huán)潛碼傳播功能,提供跨視頻片段強(qiáng)化更長時(shí)間尺度下的連貫性。
除了時(shí)間一致性,Upscale-A-Video還可以通過文本提示指導(dǎo)細(xì)節(jié)紋理的生成,不同的提示詞可產(chǎn)生不同風(fēng)格,、質(zhì)量,。
時(shí)序U-Net
U-Net作為特征提取網(wǎng)絡(luò),對(duì)視頻質(zhì)量起決定性作用,。傳統(tǒng)只考慮空間信息的U-Net在處理視頻時(shí)往往會(huì)引入高頻誤差,表現(xiàn)為抖動(dòng)和閃爍,。
Upscale-A-Video通過向U-Net中插入3D卷積塊和時(shí)序自注意力層,增強(qiáng)其對(duì)時(shí)間維度的建模能力。這使U-Net可以學(xué)習(xí)視頻數(shù)據(jù)中幀與幀之間的依賴,從而在局部序列內(nèi)實(shí)現(xiàn)一致的超分辨重建,。
另一方面,研究人員選擇固定U-Net中的空間層參數(shù),只對(duì)新增時(shí)序?qū)舆M(jìn)行調(diào)優(yōu)。這種策略的優(yōu)點(diǎn)是可以避免從頭大規(guī)模預(yù)訓(xùn)練,充分利用圖像模型中提取的豐富特征,。同時(shí)也縮短了網(wǎng)絡(luò)收斂的時(shí)間,起到事半功倍的效果,。
循環(huán)潛碼
時(shí)序U-Net的作用范圍僅局限于短視頻片段,難以約束更長序列的全局一致性,。而視頻抖動(dòng)和質(zhì)量波動(dòng)往往都是長時(shí)間范圍內(nèi)的現(xiàn)象。
為解決這一問題,Upscale-A-Video設(shè)計(jì)了一個(gè)基于光流的循環(huán)潛碼傳播模塊,。
該模塊可以在不增加訓(xùn)練參數(shù)的情況下,通過前向和后向傳播推斷所有幀的潛碼信息,有效擴(kuò)大模型感知的時(shí)間范圍,。
具體來說,該模塊利用預(yù)先估計(jì)的光流場(chǎng),進(jìn)行逐幀傳播與融合,。它根據(jù)光流的前向-后向一致性誤差判斷傳播的有效性,只選擇誤差小于閾值的區(qū)域進(jìn)行特征傳播,。
而超出閾值的區(qū)域則保留當(dāng)前幀信息。這種混合融合策略,既利用了光流建模的長期信息,又避免了傳播錯(cuò)誤的累積,。
文本提示增強(qiáng)指導(dǎo)
Upscale-A-Video還支持文本條件和噪聲水平的控制,用戶可以依據(jù)實(shí)際情況,引導(dǎo)模型生成不同風(fēng)格和質(zhì)量的結(jié)果。
文本提示可以指導(dǎo)模型合成更逼真的細(xì)節(jié),如動(dòng)物皮毛,、油畫筆觸等。噪聲水平的調(diào)整也提供了在還原與生成間權(quán)衡的靈活性:加入更少噪聲有利于保真,而更高水平的噪聲則促使模型補(bǔ)充更豐富的細(xì)節(jié),。
這種可控制的生成能力進(jìn)一步增強(qiáng)了Upscale-A-Video處理復(fù)雜真實(shí)場(chǎng)景的魯棒性
實(shí)驗(yàn)數(shù)據(jù)
研究人員從定量和定性兩個(gè)方面全面驗(yàn)證了Upscale-A-Video的性能,。在四個(gè)合成低質(zhì)量視頻基準(zhǔn)上,皆取得了最高的峰值信號(hào)噪聲比和最低的流式感知損失,。
流式驗(yàn)證集和AI生成視頻上, Upscale-A-Video的非參考畫質(zhì)評(píng)分也高居各方法之首,。這也證明了Upscale-A-Video在保真還原和感知質(zhì)量上的優(yōu)勢(shì)。
從生成效果對(duì)比來看,Upscale-A-Video重建的視頻展現(xiàn)了更高實(shí)際分辨率下的細(xì)節(jié)層次;運(yùn)動(dòng)軌跡更加連貫自然,沒有明顯的抖動(dòng)和裂縫,。這得益于強(qiáng)大的擴(kuò)散先驗(yàn)和時(shí)空一致性優(yōu)化。
相比之下,卷積神經(jīng)網(wǎng)絡(luò)和擴(kuò)散等方法會(huì)出現(xiàn)模糊不清,,失真等效果,,無法達(dá)到同等水準(zhǔn)。
免責(zé)聲明:本文來自網(wǎng)絡(luò)收錄或投稿,,觀點(diǎn)僅代表作者本人,,不代表芒果財(cái)經(jīng)贊同其觀點(diǎn)或證實(shí)其描述,版權(quán)歸原作者所有,。轉(zhuǎn)載請(qǐng)注明出處:http://lequren.com/1084824.html
溫馨提示:投資有風(fēng)險(xiǎn),,入市須謹(jǐn)慎。本資訊不作為投資理財(cái)建議,。