原文來(lái)源:AIGC開放社區(qū)
圖片來(lái)源:由無(wú)界 AI生成
傳統(tǒng)的大語(yǔ)言模型可以描述,、回答與圖像相關(guān)的問題,甚至進(jìn)行復(fù)雜的圖像推理,。但使用大型語(yǔ)言模型進(jìn)行文本定位,,或用圖像指代準(zhǔn)確坐標(biāo)卻不太行。
為了進(jìn)行該技術(shù)的探索,,谷歌和加州大學(xué)圣地亞哥分校的研究人員開發(fā)了像素對(duì)齊大語(yǔ)言模型——PixelLLM,。
PixelLLM可以將圖像位置信息作為輸入或輸出。當(dāng)將位置作為輸入時(shí),,模型可以根據(jù)位置生成與指定對(duì)象或區(qū)域相關(guān)的描述文本,。
當(dāng)生成位置作為輸出時(shí),模型可以為每個(gè)輸出詞語(yǔ)生成像素坐標(biāo),,實(shí)現(xiàn)密集的詞語(yǔ)定位,。
項(xiàng)目地址:https://jerryxu.net/PixelLLM/?
論文地址:https://arxiv.org/abs/2312.09237?
PixelLLM的核心技術(shù)原理是,,通過(guò)在大語(yǔ)言模型的單詞特征之上添加一個(gè)小型多層感知機(jī)(MLP),來(lái)回歸每個(gè)輸出單詞的像素坐標(biāo),,從而實(shí)現(xiàn)對(duì)文本的密集定位,。而語(yǔ)言模型的權(quán)重可以保持凍結(jié),也可以通過(guò)低秩微調(diào)(LoRA)進(jìn)行更新,。
PixelLLM的整體架構(gòu)包括圖像編碼器、提示編碼器/特征提取器和大語(yǔ)言模型組成,。
支持圖像以及位置或文本的任意組合作為輸入,并生成字幕以及每個(gè)詞的像素定位作為輸出,。
圖像編碼器
圖像編碼器使用了Vision Transformer為輸入圖像生成表征,可以把圖片轉(zhuǎn)換成計(jì)算機(jī)可以理解的格式,。
圖像編碼器使用了兩種并行的主干:一種是從SAM模型初始化的ViT-H,用于獲取強(qiáng)大的定位特征;
另一種是從EVA02初始化的ViT-L,用于學(xué)習(xí)語(yǔ)義特征。兩種主干的輸出在通道維上拼接,作為整體的圖像表征,。
提示編碼/提取器
提示編碼器將位置或文本等非圖像輸入編碼為與圖像表征相匹配的特征空間,。對(duì)于位置輸入,使用正弦余弦位置編碼和線性層編碼邊界框坐標(biāo)或點(diǎn)序列。對(duì)于文本輸入,將詞嵌入與圖像表征拼接作為語(yǔ)言模型的前綴特征,。
提示特征提取器用于接收來(lái)自提示編碼器的特征,以及來(lái)自圖像編碼器的整幅圖像表征,。它的作用是從整幅圖像中提取出與提示相關(guān)的區(qū)域特征。
提示特征提取器使用了基于學(xué)習(xí)性查詢?cè)~的“雙向變壓”結(jié)構(gòu),。其中提示特征和查詢?cè)~作為“詢問”;圖像表征作為關(guān)鍵字和結(jié)果,,并進(jìn)行自注意力聚焦,。
大語(yǔ)言模型
PixelLLM使用了谷歌曾發(fā)布的T5-XL作為基礎(chǔ)語(yǔ)言模型,并將大部分參數(shù)進(jìn)行了凍結(jié), 只有提問和結(jié)果的投影層通過(guò)LoRA進(jìn)行了低秩適配,。
主要用于接收來(lái)自提示特征提取器的區(qū)域特定特征,以及可選的文本特征,并自動(dòng)回歸地生成字幕。
此外,在映射到詞典空間的線性層之前,應(yīng)用了多層感知器為每個(gè)詞預(yù)測(cè)坐標(biāo),。這樣語(yǔ)言解碼和定位預(yù)測(cè)可以并行地進(jìn)行,。
訓(xùn)練方法和實(shí)驗(yàn)數(shù)據(jù)
PixelLLM使用了谷歌的Localized Narrative數(shù)據(jù)集進(jìn)行預(yù)訓(xùn)練。該數(shù)據(jù)集包含了人類對(duì)圖像進(jìn)行敘述的注釋,,以及注釋者在敘述過(guò)程中的鼠標(biāo)軌跡,。這些注釋提供了敘述中每個(gè)詞語(yǔ)的同步位置信息。
在訓(xùn)練過(guò)程中,,研究人員通過(guò)最小化生成的描述與實(shí)際注釋之間的差異來(lái)優(yōu)化PixelLLM模型,。語(yǔ)言模型的權(quán)重可以保持固定,,也可以使用低秩微調(diào)(LoRA)進(jìn)行更新,。
為了評(píng)估PixelLLM的性能,,研究人員在RefCOCO、Visual Genome等下游數(shù)據(jù)集上進(jìn)行了微調(diào),,根據(jù)具體任務(wù)的要求,,微調(diào)模型的參數(shù),并在相應(yīng)的任務(wù)上進(jìn)行性能評(píng)估,。
結(jié)果顯示,,PixelLLM在多個(gè)視覺-語(yǔ)言任務(wù)上取得了最先進(jìn)的性能。例如,,在RefCOCO的指代定位任務(wù)上達(dá)到了89.8,。在Visual Genome的基于位置的描述生成任務(wù)上達(dá)到了19.9。
免責(zé)聲明:本文來(lái)自網(wǎng)絡(luò)收錄或投稿,,觀點(diǎn)僅代表作者本人,,不代表芒果財(cái)經(jīng)贊同其觀點(diǎn)或證實(shí)其描述,版權(quán)歸原作者所有,。轉(zhuǎn)載請(qǐng)注明出處:http://lequren.com/1084056.html
溫馨提示:投資有風(fēng)險(xiǎn),,入市須謹(jǐn)慎。本資訊不作為投資理財(cái)建議,。