A欧美国产国产综合视频_最近日本中文字幕免费完整_国产乱伦一级片_久久99国产综合精品婷婷_韩国理论片在线中文字幕一区二区_亚洲AV成人影片在线观看_亚洲av无码电影网_优物视频最新网址_天天艹无码天天射_脱下丝袜的极品销魂大胸美女王馨瑶91精品美女嫩模写真套图,男男被?到喷水18禁视频,欧美久久精品一级黑人c片 ,综合在线视频精品专区

規(guī)模小,、效率高：DeepMind推出多模態(tài)解決方案Mirasol 3B – AI新智界

機(jī)器之心 ? 2023年11月28日下午5:42 ? 人工智能 ? 閱讀 6407

文章來源：機(jī)器之心

性能優(yōu)于規(guī)模更大的模型,。

圖片來源：由無界 AI生成

多模態(tài)學(xué)習(xí)面臨的主要挑戰(zhàn)之一是需要融合文本、音頻,、視頻等異構(gòu)的模態(tài),，多模態(tài)模型需要組合不同來源的信號(hào)。然而,，這些模態(tài)具有不同的特征,，很難通過單一模型來組合。例如,，視頻和文本具有不同的采樣率,。

最近，來自 Google DeepMind 的研究團(tuán)隊(duì)將多模態(tài)模型解耦成多個(gè)獨(dú)立的,、專門的自回歸模型,，根據(jù)各種模態(tài)的特征來處理輸入。

具體來說,，該研究提出了多模態(tài)模型 Mirasol3B,。Mirasol3B 由時(shí)間同步模態(tài)（音頻和視頻）自回歸組件，以及用于上下文模態(tài)的自回歸組件組成,。這些模態(tài)不一定在時(shí)間上對(duì)齊,，但是按順序排列的。

論文地址：https://arxiv.org/abs/2311.05698

Mirasol3B 在多模態(tài)基準(zhǔn)測(cè)試中達(dá)到了 SOTA 水平,，優(yōu)于規(guī)模更大的模型。通過學(xué)習(xí)更緊湊的表征,，控制音頻 – 視頻特征表征的序列長(zhǎng)度,，并根據(jù)時(shí)間對(duì)應(yīng)關(guān)系進(jìn)行建模，Mirasol3B 能夠有效滿足多模態(tài)輸入的高計(jì)算要求,。

方法簡(jiǎn)介

Mirasol3B 是一個(gè)音頻 – 視頻 – 文本多模態(tài)模型,，其中將自回歸建模解耦成時(shí)間對(duì)齊模態(tài)（例如音頻、視頻）的自回歸組件,，以及針對(duì)非時(shí)間對(duì)齊的上下文模態(tài)（例如文本）的自回歸組件,。Mirasol3B 使用交叉注意力權(quán)重來協(xié)調(diào)這些組件的學(xué)習(xí)進(jìn)程。這種解耦使得模型內(nèi)部的參數(shù)分布更合理,，也為模態(tài)（視頻和音頻）分配了足夠的容量,，并使得整體模型更加輕量。

如下圖 1 所示,，Mirasol3B 主要由兩個(gè)學(xué)習(xí)組件組成：自回歸組件,，旨在處理（幾乎）同步的多模態(tài)輸入，例如視頻 + 音頻,，并及時(shí)組合輸入,。

該研究還提出將時(shí)間對(duì)齊的模態(tài)分割成時(shí)間段,，在時(shí)間段中學(xué)習(xí)音頻 – 視頻聯(lián)合表征,。具體來說，該研究提出了一種名為「Combiner」的模態(tài)聯(lián)合特征學(xué)習(xí)機(jī)制,?！窩ombiner」融合了同一時(shí)間段中的模態(tài)特征，產(chǎn)生了更緊湊的表征,。

「Combiner」從原始的模態(tài)輸入中提取初級(jí)的時(shí)空表示,，捕捉視頻的動(dòng)態(tài)特性，并結(jié)合與其共時(shí)的音頻特征,，模型可以在不同的速率接收多模態(tài)輸入,，在處理較長(zhǎng)的視頻時(shí)表現(xiàn)良好。

「Combiner」有效地滿足了模態(tài)表征既要高效又要信息量豐富的需求,。它可以充分涵蓋視頻與其他同時(shí)發(fā)生的模態(tài)中的事件和活動(dòng),，并能夠用于后續(xù)的自回歸模型，學(xué)習(xí)長(zhǎng)期依賴關(guān)系,。

為了處理視頻和音頻信號(hào)，并適應(yīng)更長(zhǎng)的視頻 / 音頻輸入,，它們被分割成（在時(shí)間上大致同步）的小塊,，再通過「Combiner」學(xué)習(xí)聯(lián)合視聽表示。第二個(gè)組件處理上下文,，或時(shí)間上未對(duì)齊的信號(hào),，如全局文本信息，這些信息通常仍然是連續(xù)的,。它也是自回歸的,，并使用組合的潛在空間作為交叉注意力輸入。

視頻 + 音頻學(xué)習(xí)組件有 3B 參數(shù),；沒有音頻的組件是 2.9B,。多半?yún)?shù)用于音頻 + 視頻自回歸模型。Mirasol3B 通常處理 128 幀的視頻,，也可以處理更長(zhǎng)（例如 512 幀）的視頻。

由于設(shè)計(jì)了分區(qū)和「Combiner」的模型架構(gòu),，增加更多幀,，或增加塊的大小、數(shù)目等,，只會(huì)使參數(shù)略有增加,，解決了更長(zhǎng)視頻需要更多參數(shù),、更大的內(nèi)存的問題。

實(shí)驗(yàn)及結(jié)果

該研究在標(biāo)準(zhǔn) VideoQA 基準(zhǔn),、長(zhǎng)視頻 VideoQA 基準(zhǔn)和音頻 + 視頻基準(zhǔn)上對(duì) Mirasol3B 進(jìn)行了測(cè)試評(píng)估,。

在 VideoQA 數(shù)據(jù)集 MSRVTTQA 上的測(cè)試結(jié)果如下表 1 所示，Mirasol3B 超越了目前的 SOTA 模型,，以及規(guī)模更大的模型,，如 PaLI-X、Flamingo,。

在長(zhǎng)視頻問答方面，該研究在 ActivityNet-QA,、NExTQA 數(shù)據(jù)集上對(duì) Mirasol3B 進(jìn)行了測(cè)試評(píng)估,，結(jié)果如下表 2 所示：

最后,，該研究選擇使用 KineticsSound,、VGG-Sound、Epic-Sound 進(jìn)行音頻 – 視頻基準(zhǔn)測(cè)試,，采用開放式生成評(píng)估,，實(shí)驗(yàn)結(jié)果如下表 3 所示：

感興趣的讀者可以閱讀論文原文,，了解更多研究?jī)?nèi)容,。

免責(zé)聲明：本文來自網(wǎng)絡(luò)收錄或投稿，觀點(diǎn)僅代表作者本人,，不代表芒果財(cái)經(jīng)贊同其觀點(diǎn)或證實(shí)其描述,，版權(quán)歸原作者所有。轉(zhuǎn)載請(qǐng)注明出處：http://lequren.com/1080900.html
溫馨提示：投資有風(fēng)險(xiǎn),，入市須謹(jǐn)慎,。本資訊不作為投資理財(cái)建議。

贊 (0)