文章來源:AIGC開放社區(qū)
(圖)
圖片來源:由無界 AI生成
文本領(lǐng)域的 ChatGPT,,畫圖領(lǐng)域的 Midjourney 都展現(xiàn)出了大模型強大的一面,,雖然視頻領(lǐng)域有 Gen-2 這樣的領(lǐng)導(dǎo)者,,但現(xiàn)有的視頻擴散模型在生成的效果中仍然存在時間一致性不足和不自然的動態(tài)效果,。
南洋理工大學(xué) S 實驗室的研究人員發(fā)現(xiàn),,擴散模型訓(xùn)練和推理階段初始噪聲的頻率分布不均勻,,是導(dǎo)致生成視頻質(zhì)量下降的重要原因之一。因此,,開發(fā)了創(chuàng)新性文生視頻模型 FreeInit,。
FreeInit 的核心技術(shù)概念是通過重新初始化噪聲,來彌合訓(xùn)練和推理之間的差距,。研究人員提出了一種創(chuàng)新性的推理采樣策略,,通過迭代地改進初始噪聲的空時低頻分量,從而提高時間的一致性,。
為驗證 FreeInit 的有效性,,研究人員在多個文到視頻生成模型上進行了大量實驗,包括 AnimateDiff,、ModelScope 和 VideoCrafter 等,。結(jié)果顯示,F(xiàn)reeInit 可以使這些模型的時間一致性指標(biāo)提高 2.92—8.62,。
開源地址:https://github.com/tianxingwu/freeinit
論文地址:https://arxiv.org/abs/2312.07537v1
為了找出文生視頻模型效果不佳的原因,,研究人員通過對多個模型的信噪比進行檢測,驚奇地發(fā)現(xiàn),,視頻擴散模型的推理初始化噪聲中,,低頻信息很難被完全移除。
這與高斯白噪聲初始化存在明顯的分布差距,。這種低頻信息殘留,,可能就是導(dǎo)致生成視頻效果的時間線,不連貫的主要原因,。
為了驗證這個想法,,研究人員設(shè)計了一個創(chuàng)造性的測試實驗:他們收集真實視頻,使其經(jīng)過擴散模型的正向推理,,得到具有強相關(guān)性的噪聲,;然后再用這個噪聲作為推理的初始化,繼續(xù)生成視頻,。
結(jié)果發(fā)現(xiàn),,與高斯噪聲相比,相關(guān)噪聲生成的視頻時間一致性和細節(jié)清晰度明顯增強,。這充分證明了低頻信息對推理質(zhì)量的關(guān)鍵影響,,也證實了訓(xùn)練推理初始化的差距確實是重要原因。
而FreeInit的創(chuàng)新點在于,,在模型推理的過程中可精煉低頻信息,逐步彌合訓(xùn)練推理的差距,,使初始化噪聲分布逼近相關(guān)性更強的訓(xùn)練噪聲,,從而生成時間一致性更好的視頻。
采樣,、擴散模塊
FreeInit在推理的第一步,先初始化獨立高斯噪聲,,然后通過經(jīng)典的DDIM離散采樣策略,采樣生成初步的視頻潛碼,。
通過利用擴散模型已有的去噪功能,,從完全隨機的噪聲中采樣出較為清晰的視頻潛碼。
接著獲取上一步生成視頻潛碼的帶有時間相關(guān)性的噪聲版本,,將生成的視頻潛碼通過原始的高斯噪聲進行正向擴散過程,使其重新含有低頻時間相關(guān)信息,。
這里需要復(fù)用 DDIM 采樣中使用的高斯噪聲,,避免引入過多額外隨機性。最終得到低頻信息較豐富的噪聲潛碼,。
噪聲重新初始化
將得到的含低頻相關(guān)性噪聲與新的高斯噪聲高頻部分結(jié)合,,得到重新初始化的噪聲,,并為下一輪采樣的初始提供輸入。
這里采用頻域分解的方式:先通過 3 D FFT 變換噪聲潛碼到頻域,,然后與新的高斯噪聲通過低通濾波器和高通濾波器分別提取低頻和高頻部分后拼接,。該模塊在保留低頻信息的同時,也為高頻部分引入額外靈活性,。
將上述多個模塊進行聯(lián)合,、重組,,便形成了一次完整的采樣優(yōu)化過程。研究者表示,,進行多次重復(fù)迭代,,可以進一步累積提升低頻信息質(zhì)量,逐步彌合訓(xùn)練和推理的初始化差距,,最終讓生成視頻質(zhì)量不斷改善,,時間一致性也越來越好。
免責(zé)聲明:本文來自網(wǎng)絡(luò)收錄或投稿,,觀點僅代表作者本人,,不代表芒果財經(jīng)贊同其觀點或證實其描述,版權(quán)歸原作者所有,。轉(zhuǎn)載請注明出處:http://lequren.com/1086193.html
溫馨提示:投資有風(fēng)險,,入市須謹(jǐn)慎。本資訊不作為投資理財建議,。