A欧美国产国产综合视频_最近日本中文字幕免费完整_国产乱伦一级片_久久99国产综合精品婷婷_韩国理论片在线中文字幕一区二区_亚洲AV成人影片在线观看_亚洲av无码电影网_优物视频最新网址_天天艹无码天天射_脱下丝袜的极品销魂大胸美女王馨瑶91精品美女嫩模写真套图,男男被?到喷水18禁视频,欧美久久精品一级黑人c片 ,综合在线视频精品专区

字節(jié)跳動推出超高清文生視頻模型，效果比Gen-2更強(qiáng)！ – AI新智界

AIGC開放社區(qū) ? 2024年2月4日下午2:05 ? 人工智能 ? 閱讀 4000

文章來源：AIGC開放社區(qū)

圖片來源：由無界AI生成

字節(jié)跳動的研究人員開發(fā)了一種超高清文生視頻模型MagicVideo-V2,。

MagicVideo-V2公布的實(shí)驗(yàn)評測數(shù)據(jù)顯示，視頻的高清度,、潤滑度,、連貫性、文本語義還原等方面,，比目前主流的文生視頻模型Gen-2,、Stable Video Diffusion、Pika 1.0等更出色,。

這是因?yàn)?，MagicVideo-V2將文生圖像、圖像生成視頻,、視頻到視頻和視頻幀插值4種功能整合到一個模型中,，解決了之前面臨的4大難題。

論文地址：https://arxiv.org/abs/2401.04468

項(xiàng)目地址：https://magicvideov2.github.io/

隨著Gen-2等模型的出現(xiàn)，文生視頻領(lǐng)域?qū)崿F(xiàn)飛速發(fā)展,，尤其是在這個短視頻時代被大量用戶應(yīng)用,。但是在生成的過程中，模型經(jīng)常面臨4個難題,。

視頻不美觀,，由于多數(shù)是采用公開訓(xùn)練數(shù)據(jù)，生成的視頻經(jīng)常會出現(xiàn)劣質(zhì)的情況,；

內(nèi)容不一致,，在生成視頻的過程中，無法精準(zhǔn)還原文本提示的內(nèi)容,；

視覺質(zhì)量和清晰度較差：如何將用戶的文本提示,，轉(zhuǎn)化為高清、精準(zhǔn)高質(zhì)量視頻很難,；

視頻運(yùn)動不連貫,，多數(shù)模型無法在生成的關(guān)鍵幀之間，插入額外的幀,，使視頻的運(yùn)動更加自然和連貫性,。

所以,，字節(jié)跳動的研究人員直接將4個模塊整合在MagicVideo-V2模型中,，一一解決了這些難題。

文生圖像

文生圖像模塊（Text-to-Image, T2I）主要用于接收用戶提供的文本描述作為輸入,，并生成一個1024×1024像素的圖像作為視頻生成的參考圖像,。這有助于增強(qiáng)視頻的內(nèi)容和美學(xué)風(fēng)格。

T2I模型采用基于擴(kuò)散的生成模型，通過多個迭代步驟逐漸生成高質(zhì)量的圖像,，同時可以學(xué)習(xí)到從文本描述到圖像的映射關(guān)系,，從而生成與文本描述相符的精美圖像。

圖像到視頻

該模塊基于SD1.5模型,，通過人類反饋來提高模型在視覺質(zhì)量和內(nèi)容一致性方面的能力,。圖像到視頻模塊還使用了一個參考圖像嵌入模塊，用于利用參考圖像,。

具體來說,，研究人員使用了一種外觀編碼器來提取參考圖像的嵌入，并通過交叉注意機(jī)制將其注入到圖像到視頻模塊中,。

這樣,，圖像提示可以有效地與文本提示解耦，并提供更強(qiáng)的圖像條件,。此外,，使用了潛在噪聲先驗(yàn)策略，通過在起始噪聲潛變量中引入適當(dāng)?shù)脑肼曄闰?yàn)技巧,，保留部分圖像布局,，改善幀之間的時間連貫性。

視頻到視頻

該模塊進(jìn)一步對低分辨率視頻的關(guān)鍵幀進(jìn)行優(yōu)化和超分辨率處理,，以生成高分辨率的視頻。

簡單來說,，就像照相機(jī)的美顏功能,會根據(jù)圖像內(nèi)容自動生成更豐富的像素級細(xì)節(jié),增強(qiáng)整體逼真度與紋理細(xì)節(jié),。

這也是比其他文生視頻模型更高清的重要原因之一。

視頻幀插值

該模塊可以在生成的視頻關(guān)鍵幀之間插入額外的幀,，增加視頻的平滑性,、動態(tài)感以及連貫性。

主要通過分析相鄰關(guān)鍵幀之間的運(yùn)動信息,，以及參考圖像和文本描述,，插入中間幀，使視頻的運(yùn)動更加連續(xù)和自然,。

測試數(shù)據(jù)

為了評估 MagicVideo-V2的性能,，研究人員使用了人類評估和目前最先進(jìn)的 T2V 系統(tǒng)兩種評估方法,。

分別由61位評估者組成的小組對 MagicVideo-V2 和另一種 T2V 方法進(jìn)行了 500 次并排比較。

在每一輪比較中,，每位投票者都會看到一對隨機(jī)的視頻,，包括基于相同文本提示的一個我們的視頻和一個競爭對手的視頻。他們會看到三個評估選項(xiàng)–"好",、"一樣 "或 "壞"–分別表示偏好 MagicVideo-V2,、無偏好或偏好競爭的 T2V 方法。

投票者需要根據(jù)他們對三個標(biāo)準(zhǔn)的總體偏好進(jìn)行投票：

1) 哪種視頻具有更高的幀質(zhì)量和整體視覺吸引力。

2) 哪種視頻的時間一致性更高,，運(yùn)動范圍和運(yùn)動連貫性性更好,。

3) 哪個視頻的結(jié)構(gòu)錯誤或不良情況更少。測試結(jié)果表明,，MagicVideo-V2 明顯更受評估者青睞,。

免責(zé)聲明：本文來自網(wǎng)絡(luò)收錄或投稿，觀點(diǎn)僅代表作者本人,，不代表芒果財(cái)經(jīng)贊同其觀點(diǎn)或證實(shí)其描述,，版權(quán)歸原作者所有。轉(zhuǎn)載請注明出處：http://lequren.com/1088935.html
溫馨提示：投資有風(fēng)險(xiǎn),，入市須謹(jǐn)慎,。本資訊不作為投資理財(cái)建議。

贊 (0)