A欧美国产国产综合视频_最近日本中文字幕免费完整_国产乱伦一级片_久久99国产综合精品婷婷_韩国理论片在线中文字幕一区二区_亚洲AV成人影片在线观看_亚洲av无码电影网_优物视频最新网址_天天艹无码天天射_脱下丝袜的极品销魂大胸美女王馨瑶91精品美女嫩模写真套图,男男被?到喷水18禁视频,欧美久久精品一级黑人c片 ,综合在线视频精品专区

人民網(wǎng)

文本生成精準圖像字幕,谷歌等開源PixelLLM – AI新智界

原文來源:AIGC開放社區(qū)

文本生成精準圖像字幕,,谷歌等開源PixelLLM – AI新智界

圖片來源:由無界 AI生成

傳統(tǒng)的大語言模型可以描述,、回答與圖像相關(guān)的問題,甚至進行復(fù)雜的圖像推理,。但使用大型語言模型進行文本定位,或用圖像指代準確坐標卻不太行,。

為了進行該技術(shù)的探索,,谷歌和加州大學圣地亞哥分校的研究人員開發(fā)了像素對齊大語言模型——PixelLLM。

PixelLLM可以將圖像位置信息作為輸入或輸出,。當將位置作為輸入時,,模型可以根據(jù)位置生成與指定對象或區(qū)域相關(guān)的描述文本,。

當生成位置作為輸出時,,模型可以為每個輸出詞語生成像素坐標,,實現(xiàn)密集的詞語定位,。

項目地址:https://jerryxu.net/PixelLLM/?

論文地址:https://arxiv.org/abs/2312.09237?

PixelLLM的核心技術(shù)原理是,,通過在大語言模型的單詞特征之上添加一個小型多層感知機(MLP),,來回歸每個輸出單詞的像素坐標,,從而實現(xiàn)對文本的密集定位,。而語言模型的權(quán)重可以保持凍結(jié),也可以通過低秩微調(diào)(LoRA)進行更新,。

文本生成精準圖像字幕,,谷歌等開源PixelLLM – AI新智界

PixelLLM的整體架構(gòu)包括圖像編碼器、提示編碼器/特征提取器和大語言模型組成,。

支持圖像以及位置或文本的任意組合作為輸入,并生成字幕以及每個詞的像素定位作為輸出,。

圖像編碼器

圖像編碼器使用了Vision Transformer為輸入圖像生成表征,可以把圖片轉(zhuǎn)換成計算機可以理解的格式,。
圖像編碼器使用了兩種并行的主干:一種是從SAM模型初始化的ViT-H,用于獲取強大的定位特征;

文本生成精準圖像字幕,,谷歌等開源PixelLLM – AI新智界

另一種是從EVA02初始化的ViT-L,用于學習語義特征。兩種主干的輸出在通道維上拼接,作為整體的圖像表征,。

提示編碼/提取器

提示編碼器將位置或文本等非圖像輸入編碼為與圖像表征相匹配的特征空間。對于位置輸入,使用正弦余弦位置編碼和線性層編碼邊界框坐標或點序列,。對于文本輸入,將詞嵌入與圖像表征拼接作為語言模型的前綴特征,。

提示特征提取器用于接收來自提示編碼器的特征,以及來自圖像編碼器的整幅圖像表征。它的作用是從整幅圖像中提取出與提示相關(guān)的區(qū)域特征,。

文本生成精準圖像字幕,,谷歌等開源PixelLLM – AI新智界

提示特征提取器使用了基于學習性查詢詞的“雙向變壓”結(jié)構(gòu)。其中提示特征和查詢詞作為“詢問”,;圖像表征作為關(guān)鍵字和結(jié)果,,并進行自注意力聚焦,。

大語言模型

PixelLLM使用了谷歌曾發(fā)布的T5-XL作為基礎(chǔ)語言模型,,并將大部分參數(shù)進行了凍結(jié), 只有提問和結(jié)果的投影層通過LoRA進行了低秩適配,。

文本生成精準圖像字幕,,谷歌等開源PixelLLM – AI新智界

主要用于接收來自提示特征提取器的區(qū)域特定特征,以及可選的文本特征,并自動回歸地生成字幕。

此外,在映射到詞典空間的線性層之前,應(yīng)用了多層感知器為每個詞預(yù)測坐標,。這樣語言解碼和定位預(yù)測可以并行地進行,。

訓練方法和實驗數(shù)據(jù)

PixelLLM使用了谷歌的Localized Narrative數(shù)據(jù)集進行預(yù)訓練,。該數(shù)據(jù)集包含了人類對圖像進行敘述的注釋,,以及注釋者在敘述過程中的鼠標軌跡。這些注釋提供了敘述中每個詞語的同步位置信息,。

在訓練過程中,,研究人員通過最小化生成的描述與實際注釋之間的差異來優(yōu)化PixelLLM模型,。語言模型的權(quán)重可以保持固定,也可以使用低秩微調(diào)(LoRA)進行更新,。

為了評估PixelLLM的性能,,研究人員在RefCOCO、Visual Genome等下游數(shù)據(jù)集上進行了微調(diào),,根據(jù)具體任務(wù)的要求,,微調(diào)模型的參數(shù),并在相應(yīng)的任務(wù)上進行性能評估,。

結(jié)果顯示,,PixelLLM在多個視覺-語言任務(wù)上取得了最先進的性能。例如,,在RefCOCO的指代定位任務(wù)上達到了89.8,。在Visual Genome的基于位置的描述生成任務(wù)上達到了19.9。

免責聲明:本文來自網(wǎng)絡(luò)收錄或投稿,,觀點僅代表作者本人,,不代表芒果財經(jīng)贊同其觀點或證實其描述,版權(quán)歸原作者所有,。轉(zhuǎn)載請注明出處:http://lequren.com/1084056.html
溫馨提示:投資有風險,,入市須謹慎。本資訊不作為投資理財建議,。

(0)
AIGC開放社區(qū)的頭像AIGC開放社區(qū)
上一篇 2023年12月20日
下一篇 2023年12月20日
198搶自鏈數(shù)字人

相關(guān)推薦