原文來源:AIGC開放社區(qū)
圖片來源:由無界 AI生成
傳統(tǒng)的大語言模型可以描述,、回答與圖像相關(guān)的問題,甚至進(jìn)行復(fù)雜的圖像推理。但使用大型語言模型進(jìn)行文本定位,,或用圖像指代準(zhǔn)確坐標(biāo)卻不太行。
為了進(jìn)行該技術(shù)的探索,,谷歌和加州大學(xué)圣地亞哥分校的研究人員開發(fā)了像素對(duì)齊大語言模型——PixelLLM,。
PixelLLM可以將圖像位置信息作為輸入或輸出。當(dāng)將位置作為輸入時(shí),,模型可以根據(jù)位置生成與指定對(duì)象或區(qū)域相關(guān)的描述文本,。
當(dāng)生成位置作為輸出時(shí),模型可以為每個(gè)輸出詞語生成像素坐標(biāo),,實(shí)現(xiàn)密集的詞語定位,。
項(xiàng)目地址:https://jerryxu.net/PixelLLM/?
論文地址:https://arxiv.org/abs/2312.09237?
PixelLLM的核心技術(shù)原理是,通過在大語言模型的單詞特征之上添加一個(gè)小型多層感知機(jī)(MLP),,來回歸每個(gè)輸出單詞的像素坐標(biāo),,從而實(shí)現(xiàn)對(duì)文本的密集定位。而語言模型的權(quán)重可以保持凍結(jié),,也可以通過低秩微調(diào)(LoRA)進(jìn)行更新,。
PixelLLM的整體架構(gòu)包括圖像編碼器,、提示編碼器/特征提取器和大語言模型組成,。
支持圖像以及位置或文本的任意組合作為輸入,并生成字幕以及每個(gè)詞的像素定位作為輸出。
圖像編碼器
圖像編碼器使用了Vision Transformer為輸入圖像生成表征,,可以把圖片轉(zhuǎn)換成計(jì)算機(jī)可以理解的格式,。
圖像編碼器使用了兩種并行的主干:一種是從SAM模型初始化的ViT-H,用于獲取強(qiáng)大的定位特征;
另一種是從EVA02初始化的ViT-L,用于學(xué)習(xí)語義特征,。兩種主干的輸出在通道維上拼接,作為整體的圖像表征,。
提示編碼/提取器
提示編碼器將位置或文本等非圖像輸入編碼為與圖像表征相匹配的特征空間。對(duì)于位置輸入,使用正弦余弦位置編碼和線性層編碼邊界框坐標(biāo)或點(diǎn)序列,。對(duì)于文本輸入,將詞嵌入與圖像表征拼接作為語言模型的前綴特征。
提示特征提取器用于接收來自提示編碼器的特征,以及來自圖像編碼器的整幅圖像表征,。它的作用是從整幅圖像中提取出與提示相關(guān)的區(qū)域特征,。
提示特征提取器使用了基于學(xué)習(xí)性查詢詞的“雙向變壓”結(jié)構(gòu),。其中提示特征和查詢詞作為“詢問”,;圖像表征作為關(guān)鍵字和結(jié)果,并進(jìn)行自注意力聚焦。
大語言模型
PixelLLM使用了谷歌曾發(fā)布的T5-XL作為基礎(chǔ)語言模型,,并將大部分參數(shù)進(jìn)行了凍結(jié), 只有提問和結(jié)果的投影層通過LoRA進(jìn)行了低秩適配,。
主要用于接收來自提示特征提取器的區(qū)域特定特征,以及可選的文本特征,并自動(dòng)回歸地生成字幕,。
此外,在映射到詞典空間的線性層之前,應(yīng)用了多層感知器為每個(gè)詞預(yù)測坐標(biāo),。這樣語言解碼和定位預(yù)測可以并行地進(jìn)行。
訓(xùn)練方法和實(shí)驗(yàn)數(shù)據(jù)
PixelLLM使用了谷歌的Localized Narrative數(shù)據(jù)集進(jìn)行預(yù)訓(xùn)練,。該數(shù)據(jù)集包含了人類對(duì)圖像進(jìn)行敘述的注釋,,以及注釋者在敘述過程中的鼠標(biāo)軌跡。這些注釋提供了敘述中每個(gè)詞語的同步位置信息,。
在訓(xùn)練過程中,,研究人員通過最小化生成的描述與實(shí)際注釋之間的差異來優(yōu)化PixelLLM模型。語言模型的權(quán)重可以保持固定,,也可以使用低秩微調(diào)(LoRA)進(jìn)行更新,。
為了評(píng)估PixelLLM的性能,研究人員在RefCOCO,、Visual Genome等下游數(shù)據(jù)集上進(jìn)行了微調(diào),,根據(jù)具體任務(wù)的要求,微調(diào)模型的參數(shù),,并在相應(yīng)的任務(wù)上進(jìn)行性能評(píng)估,。
結(jié)果顯示,PixelLLM在多個(gè)視覺-語言任務(wù)上取得了最先進(jìn)的性能,。例如,,在RefCOCO的指代定位任務(wù)上達(dá)到了89.8。在Visual Genome的基于位置的描述生成任務(wù)上達(dá)到了19.9,。
免責(zé)聲明:本文來自網(wǎng)絡(luò)收錄或投稿,,觀點(diǎn)僅代表作者本人,不代表芒果財(cái)經(jīng)贊同其觀點(diǎn)或證實(shí)其描述,,版權(quán)歸原作者所有,。轉(zhuǎn)載請(qǐng)注明出處:http://lequren.com/1084056.html
溫馨提示:投資有風(fēng)險(xiǎn),入市須謹(jǐn)慎,。本資訊不作為投資理財(cái)建議,。