原文來源:元宇宙新聲
圖片來源:由無界 AI生成
“蘋果公司在 LLM 方面一直表現(xiàn)不佳,,但他們一直在不斷發(fā)展‘硬件 + 軟件人工智能’堆棧,,沒有太多耀眼的廣告,。我認(rèn)為,如果新的 iOS 版本突然讓 OpenAI/Bard 聊天框看起來可笑地過時(shí),,他們可能會(huì)擊敗微軟 /OpenAI 和谷歌,。如果大量人工智能使用轉(zhuǎn)向蘋果硬件,它們也會(huì)對(duì)英偉達(dá)構(gòu)成威脅,,Arm 和臺(tái)積電將獲勝,。”有網(wǎng)友說到蘋果在大模型發(fā)展上的狀況,。
也有網(wǎng)友認(rèn)為,,蘋果在大模型上的發(fā)力將為其在未來的手機(jī)市場(chǎng)競(jìng)爭(zhēng)中帶來優(yōu)勢(shì)。他們認(rèn)為,,開源模型加上移動(dòng)設(shè)備的本地?cái)?shù)據(jù),,即本地化的原生 LLM,才是關(guān)鍵,,誰在設(shè)備上運(yùn)行得好,,誰就賣得好。具體來說,,iPhone/iPad/Mac 擁有最多,、最一致的本地?cái)?shù)據(jù)生態(tài),許多開源大模型已經(jīng)可以在 iPhone 上運(yùn)行,,社區(qū)也對(duì) M1/M2/M3 芯片進(jìn)行了大量?jī)?yōu)化,。而反觀 Android 生態(tài),情況卻不容樂觀:三星占據(jù)了大部分市場(chǎng)份額,,國內(nèi)五大廠商也占據(jù)了相當(dāng)大的份額,,谷歌所占份額極少,,碎片化的局面讓通用模型運(yùn)行面臨困難。
相比微軟等其他巨頭在大模型上的高歌猛進(jìn),,蘋果顯得很是安靜,,尤其蘋果和哥倫比亞大學(xué)的研究人員于在 2023 年 10 月低調(diào)發(fā)布的一個(gè)名為 Ferret 的開源多模態(tài)大模型也沒有收到太多關(guān)注。當(dāng)時(shí),,該版本包含代碼和權(quán)重,,但僅供研究使用,而非商業(yè)許可,。
但隨著 Mistral 開源模型備受關(guān)注,、谷歌 Gemini 即將應(yīng)用于 Pixel Pro 和 Android,關(guān)于本地大模型為小型設(shè)備提供支持的討論越來越多,。而蘋果公司也宣布啦在 iPhone 上部署大模型方面取得了重大突破:該公司發(fā)布了兩篇新的研究論文,,介紹了 3D 頭像和高效語言模型推理的新技術(shù),被認(rèn)為可能帶來更身臨其境的視覺體驗(yàn),,并允許復(fù)雜的人工智能系統(tǒng)在 iPhone 和 iPad 等消費(fèi)設(shè)備上運(yùn)行,。
AI 社區(qū)中的許多人后來才注意到 Ferret 的發(fā)布,他們很開心蘋果公司出人意料地進(jìn)入了開源 LLM 領(lǐng)域,,因?yàn)樘O果公司歷來由于封閉的生態(tài)而被稱為“圍墻花園”,。下面我們看下這個(gè)才開始被熱議的項(xiàng)目。
多模態(tài)大語言模型 Ferret
“據(jù)我們所知,,F(xiàn)erret 是首個(gè)能夠在多模態(tài)大模型中處理自由形式區(qū)域輸入的成果,。”項(xiàng)目研發(fā)團(tuán)隊(duì)在論文中寫道,。Ferret 是一種新穎的引用與定位多模態(tài)大語言模型(MLLM),。之所以選擇多模態(tài)大模型作為 Ferret 的設(shè)計(jì)前提,是因?yàn)槠鋼碛袕?qiáng)大的視覺語言全局理解能力,。
模型架構(gòu)
根據(jù)介紹,,F(xiàn)erret 主要由用于提取圖像嵌入的圖像編碼器;用于提取區(qū)域連續(xù)特征的空間感知視覺采樣器,;以及用于對(duì)圖像,、文本和區(qū)域特征進(jìn)行聯(lián)合建模的大語言模型組成。
?輸入
將圖像輸入經(jīng)過預(yù)訓(xùn)練的視覺編碼器 CLIP-ViT-L/14 ,,以提取圖像嵌入 Z ∈ R H×W×C。對(duì)于文本輸入,使用經(jīng)過預(yù)訓(xùn)練的大模型標(biāo)記器對(duì)文本序列進(jìn)行標(biāo)記,,并將其投射至文本嵌入 T ∈ R L×D 當(dāng)中,。
?空間感知視覺采樣器
除了常見的點(diǎn)或矩形框之外,團(tuán)隊(duì)需要處理的區(qū)域形狀可能存在很大差異,?;诰W(wǎng)格的處理方法(例如卷積或 patch attention)無法處理不規(guī)則形狀。與之類似,,3D 點(diǎn)云也屬于不規(guī)則形狀,,而且在 3D 空間中表現(xiàn)出不同的稀疏性。受到現(xiàn)有 3D 點(diǎn)云學(xué)習(xí)方法的啟發(fā),,團(tuán)隊(duì)提出一種空間感知視覺采樣器。
空間感知視覺采樣器用以獲取任意形狀區(qū)域的視覺特征,,同時(shí)考慮到這些形狀所對(duì)應(yīng)的不同稀疏性,。以此為基礎(chǔ),團(tuán)隊(duì)將離散坐標(biāo)與連續(xù)視覺特征組合起來以表示輸入中的視覺區(qū)域,,由此構(gòu)成 Ferret 中的混合區(qū)域表示,。憑借上述方法,F(xiàn)erret 就能夠處理由區(qū)域同自由格式文本混合而成的輸入,,并可以無縫生成每個(gè)可定位對(duì)象的坐標(biāo)和文本,,由此在輸出中定位所提及的對(duì)象。
假設(shè)已經(jīng)給定提取得出的圖像特征圖 Z ∈ R H×W×C 和二值化區(qū)域掩模 M,,團(tuán)隊(duì)首先在 M 內(nèi)隨機(jī)采樣 N 個(gè)正點(diǎn),。這 N 個(gè)點(diǎn)被輸入至級(jí)聯(lián)的塊中,每個(gè)塊包含三個(gè)步驟:采樣,、收集,、池化。經(jīng)過這三個(gè)步驟,,將獲得更少的點(diǎn)和更密集的特征空間,。
?輸出
在 Ferret 的輸出中,為了實(shí)現(xiàn)定位,,團(tuán)隊(duì)在文本響應(yīng)中的相應(yīng)區(qū)域 / 名詞之后生成框坐標(biāo),。例如“圖中有一只狗 [100,150,300,200]?!蓖ㄟ^這種數(shù)據(jù)格式,,模型即可隱式學(xué)習(xí)當(dāng)前圖像中的可定位內(nèi)容及其確切位置。
?大語言模型
團(tuán)隊(duì)選定 Vicuna 作為語言模型,,這是一種在 Llama 之上通過指令微調(diào)而來的純解碼器大語言模型,。在輸入大模型之前,圖像嵌入先通過額外的線性層進(jìn)行轉(zhuǎn)換,以匹配文本標(biāo)記的嵌入維度,。
為了使 Ferret 的引用機(jī)制具有開放詞匯,、指令遵循和健壯性,團(tuán)隊(duì)還整理出了一套包含 110 萬個(gè)樣本的引用與引用指令調(diào)整數(shù)據(jù)集 GRIT,。
GRIT 中包含多個(gè)層次的空間知識(shí),,涵蓋對(duì)象、關(guān)系,、區(qū)域描述和復(fù)雜推理等要素,。GRIT 包含三種數(shù)據(jù)類型:被轉(zhuǎn)換為指認(rèn)遵循格式的公共數(shù)據(jù)集、通過 ChatGPT 和 GPT-4 生成的指令微調(diào)數(shù)據(jù)和額外的空間負(fù)樣本數(shù)據(jù),。其中大部分?jǐn)?shù)據(jù)是由現(xiàn)有視覺(語言)任務(wù)轉(zhuǎn)換而來,,例如對(duì)象檢測(cè)和短語定位。
此外,,團(tuán)隊(duì)表示,,通過 ChatGPT/GPT-4 收集的 34000 條引用和定位指令調(diào)整對(duì)話,可以高效完成模型的指令遵循與開放詞匯引用 / 定位訓(xùn)練,。團(tuán)隊(duì)還進(jìn)行了空間感知的負(fù)樣本挖掘,,進(jìn)一步提高了模型的健壯性。
幻覺問題
團(tuán)隊(duì)也觀察到了多模態(tài)大模型在回答是 / 否類問題時(shí),,往往表現(xiàn)出產(chǎn)生“幻覺”。對(duì)此,,團(tuán)隊(duì)通過圖像條件類別定位以及語義條件類別定位兩種方式進(jìn)行負(fù)樣本挖掘,。
這兩種方式都要求模型定位特定的對(duì)象類別,從而使模型能夠辨別并潛在發(fā)現(xiàn)某些對(duì)象的缺失,。不同之處在于,,如何選擇負(fù)樣本類別。對(duì)于前者,,團(tuán)隊(duì)采用 Object365 數(shù)據(jù)從給定圖像中未顯示的詞匯中隨機(jī)選擇對(duì)象類,,對(duì)后者則使用 Flickr30k 數(shù)據(jù),并通過 ChatGPT/GPT-4 查找與原始類別,、屬性或數(shù)量最相似的實(shí)體以獲取負(fù)樣本,,例如“男人”和“女人”、“藍(lán)色”和“黃色”,。
此外,,團(tuán)隊(duì)還進(jìn)行了數(shù)據(jù)整理,以維持兩種類別下正樣本和負(fù)樣本之間的平衡,最終共收集到 95000 條數(shù)據(jù),。
大模型響應(yīng)
除了通過模板轉(zhuǎn)換現(xiàn)有數(shù)據(jù)集之外,,對(duì)話指令調(diào)整數(shù)據(jù)同樣在幫助多模態(tài)大模型理解人類意圖,并生成流暢,、自然,、長(zhǎng)格式響應(yīng)方面至關(guān)重要。目前,,業(yè)界廣泛使用少樣本提示以獲取視覺指令調(diào)整數(shù)據(jù),,其中將圖像的文本場(chǎng)景描述與人工標(biāo)注對(duì)話作為少樣本演示,并通過提示詞要求 ChatGPT/GPT-4 根據(jù)新圖像的文本場(chǎng)景生成相應(yīng)的對(duì)話描述,。
但是,,以往的指令調(diào)整數(shù)據(jù)主要集中于描述整體圖像,而不會(huì)明確指定空間相關(guān)信息,。為了收集引用與定位指令調(diào)整數(shù)據(jù),,團(tuán)隊(duì)通過以下三個(gè)步驟強(qiáng)調(diào)基于區(qū)域的空間知識(shí):
- 除了像以往那樣使用對(duì)象與全局標(biāo)題之外,其符號(hào)場(chǎng)景描述還包含對(duì)象與區(qū)域標(biāo)題間的物理關(guān)系以及相應(yīng)坐標(biāo),。
- 在人工標(biāo)注的對(duì)話中,團(tuán)隊(duì)在輸入 / 輸出 / 二者兼具的可定位區(qū)域或?qū)ο笾筇砑幼鴺?biāo),,且對(duì)話通常集中于特定區(qū)域,,有助于隱式提示 ChatGPT/GPT-4 在生成新對(duì)話時(shí)遵循類似的模式。
- 實(shí)際生成的對(duì)話有時(shí)無法遵循在系統(tǒng)提示和少樣本示例中編寫的規(guī)則和模式,,這可能是由于大語言模型輸入中的上下文太長(zhǎng),,導(dǎo)致無法處理所有細(xì)節(jié)。為此,,團(tuán)隊(duì)建議重復(fù)使用 ChatGPT/GPT-4 來簡(jiǎn)化最初生成的對(duì)話,,其平均上下文長(zhǎng)度僅為首輪生成數(shù)據(jù)的 10%。另外,,為了節(jié)約成本,,團(tuán)隊(duì)僅在首輪生成中使用 ChatGPT,而后使用 GPT-4 進(jìn)行簡(jiǎn)寫提煉,,最終共收集到 34000 條對(duì)話,。
訓(xùn)練過程
對(duì)于訓(xùn)練過程,團(tuán)隊(duì)使用 CLIP-ViT-L/14@336p 對(duì)圖像編碼器進(jìn)行初始化,,使用 Vicuna 對(duì)大模型進(jìn)行初始化,,使用 LlaVA 的第一階段權(quán)重對(duì)投射層進(jìn)行初始化,借此實(shí)現(xiàn)了視覺采樣器的隨機(jī)初始化,。初始化完成后,,F(xiàn)erret 在 GRIT 數(shù)據(jù)上接受了三個(gè)輪次(epoch)的訓(xùn)練,使用 Loshchilov & Hutter 進(jìn)行優(yōu)化,學(xué)習(xí)率為 2e ? 5,,批量大小為 128,。
根據(jù)介紹,F(xiàn)erret-13B/7B 模型在 8 張 A100 上的訓(xùn)練分別需要約 5/2.5 天,。在訓(xùn)練過程中,,當(dāng)輸入引用區(qū)域時(shí),團(tuán)隊(duì)會(huì)隨機(jī)選擇中心點(diǎn)或邊界框(在可行時(shí)也會(huì)選擇分割掩膜)來表示各區(qū)域,,并對(duì)訓(xùn)練數(shù)據(jù)進(jìn)行了重復(fù)數(shù)據(jù)刪除,,借此清理下游評(píng)估中的樣本。
為了評(píng)估這項(xiàng)新功能,,團(tuán)隊(duì)引入了 Ferret-Bench,,其涵蓋三種新型任務(wù):引用描述 / 引用推理和對(duì)話內(nèi)定位。團(tuán)隊(duì)表示,,通過對(duì)現(xiàn)有多模態(tài)大模型進(jìn)行了基準(zhǔn)測(cè)試,,發(fā)現(xiàn) Ferret 的平均性能較最出色的原有大模型高 20.4%,而且在物體識(shí)別的幻覺方面也有所減輕,。
概括來講,,F(xiàn)erret 項(xiàng)目論文的貢獻(xiàn)主要為以下三個(gè)方面:
- 提出了 Ferret 模型,其采用基于新型空間感知視覺采樣器的混合區(qū)域表示方法,,可在多模態(tài)大模型中實(shí)現(xiàn)細(xì)粒度和開放詞匯的引用和定位功能,。
- 建立起 GRIT,一套大規(guī)模定位與引用指令調(diào)整數(shù)據(jù)集,,既可用于模型訓(xùn)練,,還包含額外的空間負(fù)樣本以增強(qiáng)模型健壯性。
- 引入了 Ferret-Bench 來評(píng)估涉及引用 / 定位,、語義,、知識(shí)和推理的聯(lián)合任務(wù)。
結(jié)束語
很明顯,,蘋果正在努力追趕這次 AIGC 浪潮,。據(jù)報(bào)道,蘋果每天在人工智能上投資數(shù)百萬美元,,內(nèi)部有多個(gè)團(tuán)隊(duì)開發(fā)多種人工智能模型,。
根據(jù)報(bào)道,蘋果致力于對(duì)話式人工智能的部門被稱為“Foundational Models”,,“大約 16 名”成員,,其中包括幾名前谷歌工程師。該部門由 Apple 人工智能主管 John Giannandrea 掌舵,,他于 2018 年受聘幫助改進(jìn) Siri,。
蘋果正在開發(fā)自己的大模型“Ajax”,。Ajax 旨在與 OpenAI 的 GPT-3 和 GPT-4 等產(chǎn)品相媲美,可運(yùn)行 2000 億個(gè)參數(shù),。Ajax 在內(nèi)部被稱為“Apple GPT”,,旨在統(tǒng)一整個(gè) Apple 的機(jī)器學(xué)習(xí)開發(fā),提出了將人工智能更深入地集成到 Apple 生態(tài)系統(tǒng)中的更廣泛戰(zhàn)略,。
截至最新報(bào)告,,Ajax 被認(rèn)為比上一代 ChatGPT 3.5 更強(qiáng)大。然而,,也有人認(rèn)為,,截至 2023 年 9 月,OpenAI 的新模型可能已經(jīng)超越了 Ajax 的能力,。
近日,,蘋果的機(jī)器學(xué)習(xí)研究團(tuán)隊(duì)還悄悄發(fā)布了一個(gè)名為 MLX 的框架來構(gòu)建基礎(chǔ)模型。彭博社報(bào)道稱,,蘋果正在開發(fā) Siri 的改進(jìn)版本,,并計(jì)劃在下一個(gè)重大 iOS 版本中提供以人工智能為中心的功能。
另外,,蘋果還正在與一些大型新聞出版商洽談授權(quán)其新聞檔案,,并利用這些信息來訓(xùn)練模型?!都~約時(shí)報(bào)》稱,,該公司正在討論“價(jià)值至少 5000 萬美元的多年期交易” ,并已與 Condé Nast,、NBC News 和 IAC 等出版商保持聯(lián)系。
相關(guān)鏈接:
https://arxiv.org/pdf/2310.07704.pdf
https://www.macrumors.com/2023/12/21/apple-ai-researchers-run-llms-iphones/
https://www.theverge.com/2023/12/22/24012730/apple-ai-models-news-publishers
免責(zé)聲明:本文來自網(wǎng)絡(luò)收錄或投稿,,觀點(diǎn)僅代表作者本人,,不代表芒果財(cái)經(jīng)贊同其觀點(diǎn)或證實(shí)其描述,版權(quán)歸原作者所有,。轉(zhuǎn)載請(qǐng)注明出處:http://lequren.com/1084963.html
溫馨提示:投資有風(fēng)險(xiǎn),,入市須謹(jǐn)慎。本資訊不作為投資理財(cái)建議,。