A欧美国产国产综合视频_最近日本中文字幕免费完整_国产乱伦一级片_久久99国产综合精品婷婷_韩国理论片在线中文字幕一区二区_亚洲AV成人影片在线观看_亚洲av无码电影网_优物视频最新网址_天天艹无码天天射_脱下丝袜的极品销魂大胸美女王馨瑶91精品美女嫩模写真套图,男男被?到喷水18禁视频,欧美久久精品一级黑人c片 ,综合在线视频精品专区

人民網(wǎng)

英偉達(dá)推出免訓(xùn)練,,可生成連貫圖片的文生圖模型 – AI新智界

文章來源:AIGC開放社區(qū)

英偉達(dá)推出免訓(xùn)練,,可生成連貫圖片的文生圖模型 – AI新智界圖片來源:由無界AI生成

目前,多數(shù)文生圖模型皆使用的是隨機(jī)采樣模式,使得每次生成的圖像效果皆不同,,在生成連貫的圖像方面非常差,。

例如,,想通過AI生成一套圖像連環(huán)畫,,即便使用同類的提示詞也很難實(shí)現(xiàn)。雖然DALL·E 3和Midjourney可以對(duì)圖像實(shí)現(xiàn)連貫的生成控制,,但這兩個(gè)產(chǎn)品都是閉源的,。

因此,英偉達(dá)和特拉維夫大學(xué)的研究人員開發(fā)了免訓(xùn)練一致性連貫文生圖模型——ConsiStory,。(即將開源)

論文地址:https://arxiv.org/abs/2402.03286

英偉達(dá)推出免訓(xùn)練,,可生成連貫圖片的文生圖模型 – AI新智界

目前,文生圖模型在生成內(nèi)容一致性方面比較差的原因主要有兩個(gè):1)無法識(shí)別和定位圖像中的共同主體,,文生圖像模型沒有內(nèi)置的對(duì)象檢測(cè)或分割模塊,很難自動(dòng)識(shí)別不同圖像中的相同主體,;

2)無法在不同圖像中保持主體的視覺一致性,即使定位到主體,也很難使不同步驟中獨(dú)立生成的主體在細(xì)節(jié)上保持高度相似,。

主流解決這兩種難題的方法是,,基于個(gè)性化和編碼器的優(yōu)化方法,。但這兩類方法都需要額外的訓(xùn)練流程,例如,,針對(duì)特定主體微調(diào)模型參數(shù),或使用目標(biāo)圖像訓(xùn)練編碼器作為條件,。

即便使用了這種優(yōu)化方法,訓(xùn)練周期較長(zhǎng)難以擴(kuò)展到多個(gè)主體,且容易與原始模型分布偏離,。

而ConsiStory提出了一種全新的方法,,通過共享和調(diào)整模型內(nèi)部表示,可以在無需任何訓(xùn)練或調(diào)優(yōu)的情況下實(shí)現(xiàn)主體的一致性

值得一提的是,,ConsiStory可以作為一種插件,,幫助其他擴(kuò)散模型提升文生圖的一致性和連貫性。

主體驅(qū)動(dòng)自注意力(SDSA)

SDSA是ConsiStory的核心模塊之一,,可以在生成的圖像批次中共享主體相關(guān)的視覺信息,使不同圖像中的主體保持一致的外觀,。

SDSA主要擴(kuò)大了擴(kuò)散模型中自注意力層,允許一個(gè)圖像中的“提示詞”不僅可以關(guān)注自己圖像的輸出結(jié)果,還可以關(guān)注批次中其他圖像的主體區(qū)域的輸出結(jié)果

這樣主體的視覺特征就可以在整個(gè)批次中共享,不同圖像中的主體互相"對(duì)齊",。

英偉達(dá)推出免訓(xùn)練,可生成連貫圖片的文生圖模型 – AI新智界

為了防止背景區(qū)域之間的敏感信息泄露,該模塊使用主體分割蒙版來進(jìn)行遮蔽——每個(gè)圖像只能關(guān)注批次中其他圖像主體區(qū)域的輸出結(jié)果,。

英偉達(dá)推出免訓(xùn)練,,可生成連貫圖片的文生圖模型 – AI新智界

主體蒙版是通過擴(kuò)散模型本身的交叉注意力特征自動(dòng)提取。

特征注入

為了進(jìn)一步增強(qiáng)主體不同圖像之間細(xì)節(jié)層面的一致性,,“特征注入”基于擴(kuò)散特征空間建立的密集對(duì)應(yīng)圖,,可以在圖像之間共享自注意力輸出特征。

同時(shí)圖像中一些相似的優(yōu)化地方之間共享自注意力特征,,這可以有效確保主體相關(guān)的紋理,、顏色等細(xì)節(jié)特征在整個(gè)批次中互相"對(duì)齊"

英偉達(dá)推出免訓(xùn)練,,可生成連貫圖片的文生圖模型 – AI新智界

特征注入也使用主體蒙版進(jìn)行遮蔽,只在主體區(qū)域執(zhí)行特征共享,。同時(shí)還設(shè)置相似度閾值,只在足夠相似的優(yōu)化之間執(zhí)行。

錨圖像和可重用主體

ConsiStory中的錨圖像提供了主題信息的參考功能,,主要用于引導(dǎo)圖像生成過程,,確保生成的圖像在主題上保持一致。

錨圖像可以是用戶提供的圖像,,也可以是從其他來源獲取的相關(guān)圖像,。在生成過程中,模型會(huì)參考錨圖像的特征和結(jié)構(gòu),,并盡可能地生成與一致性的圖像,。

英偉達(dá)推出免訓(xùn)練,可生成連貫圖片的文生圖模型 – AI新智界

可重用主體是通過共享預(yù)訓(xùn)練模型的內(nèi)部激活,,來實(shí)現(xiàn)主題一致性的方法,。在圖像生成過程中,,模型會(huì)利用預(yù)訓(xùn)練模型的內(nèi)部特征表示來對(duì)生成的圖像進(jìn)行對(duì)齊,而無需進(jìn)一步對(duì)齊外部來源的圖像,。

英偉達(dá)推出免訓(xùn)練,,可生成連貫圖片的文生圖模型 – AI新智界

也就是說生成的圖像可以相互關(guān)注、共享特征,,這使得ConsiStory實(shí)現(xiàn)了0訓(xùn)練成本,,避免了傳統(tǒng)方法中需要針對(duì)每個(gè)主題進(jìn)行訓(xùn)練的難題。

免責(zé)聲明:本文來自網(wǎng)絡(luò)收錄或投稿,,觀點(diǎn)僅代表作者本人,,不代表芒果財(cái)經(jīng)贊同其觀點(diǎn)或證實(shí)其描述,版權(quán)歸原作者所有,。轉(zhuǎn)載請(qǐng)注明出處:http://lequren.com/1089704.html
溫馨提示:投資有風(fēng)險(xiǎn),,入市須謹(jǐn)慎。本資訊不作為投資理財(cái)建議,。

(0)
AIGC開放社區(qū)的頭像AIGC開放社區(qū)
上一篇 2024年2月22日 上午10:15
下一篇 2024年2月22日 上午11:23
198搶自鏈數(shù)字人

相關(guān)推薦