原文來源:機(jī)器之心
圖片來源:由無界 AI生成
研究者表示,,CoDi-2 標(biāo)志著在開發(fā)全面的多模態(tài)基礎(chǔ)模型領(lǐng)域取得了重大突破。
今年 5 月,,北卡羅來納大學(xué)教堂山分校,、微軟提出一種可組合擴(kuò)散(Composable Diffusion,簡(jiǎn)稱 CoDi)模型,,讓一種模型統(tǒng)一多種模態(tài)成為可能,。CoDi 不僅支持從單模態(tài)到單模態(tài)的生成,還能接收多個(gè)條件輸入以及多模態(tài)聯(lián)合生成,。
近日,,UC 伯克利、微軟 Azure AI,、Zoom,、北卡羅來納大學(xué)教堂山分校等多個(gè)機(jī)構(gòu)的研究者將 CoDi 升級(jí)到了 CoDi-2。
- 論文地址:https://arxiv.org/pdf/2311.18775.pdf
- 項(xiàng)目地址:https://codi-2.github.io/
,,時(shí)長(zhǎng)00:46
項(xiàng)目 demo
論文一作 Zineng Tang 表示,,「CoDi-2 遵循復(fù)雜的多模態(tài)交錯(cuò)上下文指令,以零樣本或少樣本交互的方式生成任何模態(tài)(文本,、視覺和音頻),。」
圖源:https://twitter.com/ZinengTang/status/1730658941414371820
可以說,,作為一種多功能,、交互式的多模態(tài)大語言模型(MLLM),CoDi-2 能夠以 any-to-any 輸入-輸出模態(tài)范式進(jìn)行上下文學(xué)習(xí),、推理,、聊天、編輯等任務(wù),。通過對(duì)齊編碼與生成時(shí)的模態(tài)與語言,,CoDi-2 使 LLM 不僅可以理解復(fù)雜的模態(tài)交錯(cuò)指令和上下文示例,, 還能在連續(xù)的特征空間內(nèi)自回歸地生成合理和連貫的多模態(tài)輸出。
而為了訓(xùn)練 CoDi-2,,研究者構(gòu)建了一個(gè)大規(guī)模生成數(shù)據(jù)集,,包含了跨文本、視覺和音頻的上下文多模態(tài)指令,。CoDi-2 展示了一系列多模態(tài)生成的零樣本能力,,比如上下文學(xué)習(xí)、推理以及通過多輪交互對(duì)話實(shí)現(xiàn)的 any-to-any 模態(tài)生成組合,。其中在主題驅(qū)動(dòng)圖像生成,、視覺轉(zhuǎn)換和音頻編輯等任務(wù)上超越了以往領(lǐng)域特定的模型。
人類與 CoDi-2 的多輪對(duì)話為圖像編輯提供了上下文多模態(tài)指令,。
模型架構(gòu)
CoDi-2 在設(shè)計(jì)時(shí)旨在處理上下文中的文本,、圖像和音頻等多模態(tài)輸入,利用特定指令促進(jìn)上下文學(xué)習(xí)并生成相應(yīng)的文本,、圖像和音頻輸出。CoDi-2 模型架構(gòu)圖如下所示,。
將多模態(tài)大語言模型作為基礎(chǔ)引擎
這種 any-to-any 基礎(chǔ)模型可以消化交錯(cuò)式模態(tài)輸入,,理解和推理復(fù)雜指令(如多輪對(duì)話、上下文示例),,并與多模態(tài)擴(kuò)散器交互,,實(shí)現(xiàn)這一切的前提是需要一個(gè)強(qiáng)大的基礎(chǔ)引擎,。研究者提出將 MLLM 作為這個(gè)引擎,,它的構(gòu)建需要為僅文本的 LLM 提供多模態(tài)感知。
利用對(duì)齊的多模態(tài)編碼器映射,,研究者可以無縫地使 LLM 感知到模態(tài)交錯(cuò)的輸入序列,。具體地,在處理多模態(tài)輸入序列時(shí),,他們首先使用多模態(tài)編碼器將多模態(tài)數(shù)據(jù)映射到特征序列,,然后特殊 token 被添加到特征序列的前后,比如「?audio? ?/audio?」,。
基于 MLLM 的多模態(tài)生成
研究者提出將擴(kuò)散模型(DM)集成到 MLLM 中,,從而生成多模態(tài)輸出,,這里遵循細(xì)致入微的多模態(tài)交錯(cuò)指令和提示。擴(kuò)散模型的訓(xùn)練目標(biāo)如下所示:
接著他們提出訓(xùn)練 MLLM 以生成條件式特征 c = C_y (y),,該特征被饋入到擴(kuò)散模型中以合成目標(biāo)輸出 x,。這樣一來,擴(kuò)散模型的生成損失被用來訓(xùn)練 MLLM,。
任務(wù)類型
本文提出的模型在以下示例任務(wù)類型中顯示出強(qiáng)大的能力,它提供了一種獨(dú)特的方法來提示模型生成或轉(zhuǎn)換上下文中的多模態(tài)內(nèi)容,,包括本文、圖像,、音頻、視頻及其組合,。
1. 零樣本提示。零樣本提示任務(wù)要求模型在沒有任何先前示例的情況下進(jìn)行推理并生成新內(nèi)容,。
2. 一次/少量樣本提示。一次或少量樣本提示為模型提供了一個(gè)或幾個(gè)示例,,以便在執(zhí)行類似任務(wù)之前從中學(xué)習(xí),。這種方法在以下任務(wù)中很明顯:模型將學(xué)習(xí)到的概念從一個(gè)圖像應(yīng)用到另一個(gè)圖像,或者通過理解所提供示例中描述的風(fēng)格來創(chuàng)建一個(gè)新的藝術(shù)品,。
(1)范例學(xué)習(xí)在要求模型將此學(xué)習(xí)應(yīng)用于新實(shí)例之前,,向模型顯式顯示期望輸出的示例。
(2)概念學(xué)習(xí)涉及模型從這些給定示例的共享概念/屬性中學(xué)習(xí),,例如藝術(shù)風(fēng)格或模式,,然后創(chuàng)建展示類似概念/屬性的新內(nèi)容。
(3)主題驅(qū)動(dòng)的學(xué)習(xí)側(cè)重于根據(jù)一組提供的圖像生成新的內(nèi)容,。
實(shí)驗(yàn)及結(jié)果
模型設(shè)置?
本文模型的實(shí)現(xiàn)基于 Llama2,特別是 Llama-2-7b-chat-hf,。研究者使用 ImageBind ,,它具有對(duì)齊的圖像、視頻,、音頻,、文本,、深度、thermal 和 IMU 模式編碼器,。研究者使用 ImageBind 對(duì)圖像和音頻特征進(jìn)行編碼,,并通過多層感知器(MLP)將其投射到 LLM(Llama-2-7b-chat-hf)的輸入維度。MLP 由線性映射,、激活,、歸一化和另一個(gè)線性映射組成。當(dāng) LLM 生成圖像或音頻特征時(shí),,他們通過另一個(gè) MLP 將其投射回 ImageBind 特征維度,。本文圖像擴(kuò)散模型基于 StableDiffusion2.1 (stabilityai/stable-diffusion-2-1-unclip)、AudioLDM2 和 zeroscope v2,。
對(duì)于需要更高保真原始輸入的圖像或音頻,,研究者還將原始圖像或音頻輸入到擴(kuò)散模型中,同時(shí)通過連接擴(kuò)散噪聲生成特征,。這種方法在保留輸入內(nèi)容的最大感知特征方面尤為有效,,添加新內(nèi)容或改變風(fēng)格等指令編輯也是如此。
圖像生成評(píng)估?
下圖展示了 Dreambench 上主題驅(qū)動(dòng)圖像生成的評(píng)估結(jié)果和 MSCOCO 上的 FID 分?jǐn)?shù),。本文方法實(shí)現(xiàn)了極具競(jìng)爭(zhēng)力的零樣本性能,,顯示了其對(duì)未知新任務(wù)的泛化能力。
音頻生成評(píng)估
表 5 展示了音頻處理任務(wù)的評(píng)估結(jié)果,,即添加、刪除和替換音軌中的元素,。從表中可以明顯看出,,與之前的方法相比,本文方法表現(xiàn)出了卓越的性能,。值得注意的是,,在所有三個(gè)編輯任務(wù)中,它在所有指標(biāo) — 對(duì)數(shù)譜距離(LSD),、Kullback-Leibler(KL)發(fā)散和 Fréchet Dis- tance(FD)上都取得了最低得分,。
閱讀原文,了解更多技術(shù)細(xì)節(jié),。
免責(zé)聲明:本文來自網(wǎng)絡(luò)收錄或投稿,,觀點(diǎn)僅代表作者本人,,不代表芒果財(cái)經(jīng)贊同其觀點(diǎn)或證實(shí)其描述,版權(quán)歸原作者所有,。轉(zhuǎn)載請(qǐng)注明出處:http://lequren.com/1081597.html
溫馨提示:投資有風(fēng)險(xiǎn),,入市須謹(jǐn)慎。本資訊不作為投資理財(cái)建議,。