文章來(lái)源:AIGC開(kāi)放社區(qū)
(圖)
圖片來(lái)源:由無(wú)界 AI生成
文本領(lǐng)域的 ChatGPT,畫(huà)圖領(lǐng)域的 Midjourney 都展現(xiàn)出了大模型強(qiáng)大的一面,雖然視頻領(lǐng)域有 Gen-2 這樣的領(lǐng)導(dǎo)者,,但現(xiàn)有的視頻擴(kuò)散模型在生成的效果中仍然存在時(shí)間一致性不足和不自然的動(dòng)態(tài)效果,。
南洋理工大學(xué) S 實(shí)驗(yàn)室的研究人員發(fā)現(xiàn),,擴(kuò)散模型訓(xùn)練和推理階段初始噪聲的頻率分布不均勻,,是導(dǎo)致生成視頻質(zhì)量下降的重要原因之一,。因此,,開(kāi)發(fā)了創(chuàng)新性文生視頻模型 FreeInit,。
FreeInit 的核心技術(shù)概念是通過(guò)重新初始化噪聲,來(lái)彌合訓(xùn)練和推理之間的差距,。研究人員提出了一種創(chuàng)新性的推理采樣策略,,通過(guò)迭代地改進(jìn)初始噪聲的空時(shí)低頻分量,從而提高時(shí)間的一致性,。
為驗(yàn)證 FreeInit 的有效性,,研究人員在多個(gè)文到視頻生成模型上進(jìn)行了大量實(shí)驗(yàn),包括 AnimateDiff,、ModelScope 和 VideoCrafter 等,。結(jié)果顯示,F(xiàn)reeInit 可以使這些模型的時(shí)間一致性指標(biāo)提高 2.92—8.62,。
開(kāi)源地址:https://github.com/tianxingwu/freeinit
論文地址:https://arxiv.org/abs/2312.07537v1
為了找出文生視頻模型效果不佳的原因,研究人員通過(guò)對(duì)多個(gè)模型的信噪比進(jìn)行檢測(cè),,驚奇地發(fā)現(xiàn),,視頻擴(kuò)散模型的推理初始化噪聲中,低頻信息很難被完全移除,。
這與高斯白噪聲初始化存在明顯的分布差距,。這種低頻信息殘留,可能就是導(dǎo)致生成視頻效果的時(shí)間線,,不連貫的主要原因,。
為了驗(yàn)證這個(gè)想法,研究人員設(shè)計(jì)了一個(gè)創(chuàng)造性的測(cè)試實(shí)驗(yàn):他們收集真實(shí)視頻,,使其經(jīng)過(guò)擴(kuò)散模型的正向推理,,得到具有強(qiáng)相關(guān)性的噪聲,;然后再用這個(gè)噪聲作為推理的初始化,繼續(xù)生成視頻,。
結(jié)果發(fā)現(xiàn),,與高斯噪聲相比,相關(guān)噪聲生成的視頻時(shí)間一致性和細(xì)節(jié)清晰度明顯增強(qiáng),。這充分證明了低頻信息對(duì)推理質(zhì)量的關(guān)鍵影響,,也證實(shí)了訓(xùn)練推理初始化的差距確實(shí)是重要原因。
而FreeInit的創(chuàng)新點(diǎn)在于,,在模型推理的過(guò)程中可精煉低頻信息,逐步彌合訓(xùn)練推理的差距,,使初始化噪聲分布逼近相關(guān)性更強(qiáng)的訓(xùn)練噪聲,,從而生成時(shí)間一致性更好的視頻。
采樣,、擴(kuò)散模塊
FreeInit在推理的第一步,先初始化獨(dú)立高斯噪聲,,然后通過(guò)經(jīng)典的DDIM離散采樣策略,采樣生成初步的視頻潛碼,。
通過(guò)利用擴(kuò)散模型已有的去噪功能,,從完全隨機(jī)的噪聲中采樣出較為清晰的視頻潛碼。
接著獲取上一步生成視頻潛碼的帶有時(shí)間相關(guān)性的噪聲版本,,將生成的視頻潛碼通過(guò)原始的高斯噪聲進(jìn)行正向擴(kuò)散過(guò)程,使其重新含有低頻時(shí)間相關(guān)信息,。
這里需要復(fù)用 DDIM 采樣中使用的高斯噪聲,,避免引入過(guò)多額外隨機(jī)性。最終得到低頻信息較豐富的噪聲潛碼,。
噪聲重新初始化
將得到的含低頻相關(guān)性噪聲與新的高斯噪聲高頻部分結(jié)合,,得到重新初始化的噪聲,并為下一輪采樣的初始提供輸入,。
這里采用頻域分解的方式:先通過(guò) 3 D FFT 變換噪聲潛碼到頻域,,然后與新的高斯噪聲通過(guò)低通濾波器和高通濾波器分別提取低頻和高頻部分后拼接。該模塊在保留低頻信息的同時(shí),,也為高頻部分引入額外靈活性,。
將上述多個(gè)模塊進(jìn)行聯(lián)合,、重組,,便形成了一次完整的采樣優(yōu)化過(guò)程。研究者表示,進(jìn)行多次重復(fù)迭代,,可以進(jìn)一步累積提升低頻信息質(zhì)量,,逐步彌合訓(xùn)練和推理的初始化差距,最終讓生成視頻質(zhì)量不斷改善,,時(shí)間一致性也越來(lái)越好,。
免責(zé)聲明:本文來(lái)自網(wǎng)絡(luò)收錄或投稿,觀點(diǎn)僅代表作者本人,,不代表芒果財(cái)經(jīng)贊同其觀點(diǎn)或證實(shí)其描述,,版權(quán)歸原作者所有,。轉(zhuǎn)載請(qǐng)注明出處:http://lequren.com/1086193.html
溫馨提示:投資有風(fēng)險(xiǎn),,入市須謹(jǐn)慎。本資訊不作為投資理財(cái)建議,。