A欧美国产国产综合视频_最近日本中文字幕免费完整_国产乱伦一级片_久久99国产综合精品婷婷_韩国理论片在线中文字幕一区二区_亚洲AV成人影片在线观看_亚洲av无码电影网_优物视频最新网址_天天艹无码天天射_脱下丝袜的极品销魂大胸美女王馨瑶91精品美女嫩模写真套图,男男被?到喷水18禁视频,欧美久久精品一级黑人c片 ,综合在线视频精品专区

人民網(wǎng)

蘋果的封閉生態(tài)為大模型打開!發(fā)布開源多模態(tài)大模型,、每天為AI燒百萬美元,,零碎的Android 生態(tài)打得過嗎? – AI新智界

原文來源:元宇宙新聲

蘋果的封閉生態(tài)為大模型打開,!發(fā)布開源多模態(tài)大模型,、每天為AI燒百萬美元,零碎的Android 生態(tài)打得過嗎,? – AI新智界

圖片來源:由無界 AI生成

蘋果公司在 LLM 方面一直表現(xiàn)不佳,,但他們一直在不斷發(fā)展‘硬件 + 軟件人工智能’堆棧,,沒有太多耀眼的廣告。我認(rèn)為,如果新的 iOS 版本突然讓 OpenAI/Bard 聊天框看起來可笑地過時,,他們可能會擊敗微軟 /OpenAI 和谷歌,。如果大量人工智能使用轉(zhuǎn)向蘋果硬件,它們也會對英偉達(dá)構(gòu)成威脅,,Arm 和臺積電將獲勝,。”有網(wǎng)友說到蘋果在大模型發(fā)展上的狀況,。

也有網(wǎng)友認(rèn)為,,蘋果在大模型上的發(fā)力將為其在未來的手機(jī)市場競爭中帶來優(yōu)勢。他們認(rèn)為,,開源模型加上移動設(shè)備的本地數(shù)據(jù),,即本地化的原生 LLM,才是關(guān)鍵,,誰在設(shè)備上運(yùn)行得好,,誰就賣得好。具體來說,,iPhone/iPad/Mac 擁有最多,、最一致的本地數(shù)據(jù)生態(tài),許多開源大模型已經(jīng)可以在 iPhone 上運(yùn)行,,社區(qū)也對 M1/M2/M3 芯片進(jìn)行了大量優(yōu)化,。而反觀 Android 生態(tài),情況卻不容樂觀:三星占據(jù)了大部分市場份額,,國內(nèi)五大廠商也占據(jù)了相當(dāng)大的份額,,谷歌所占份額極少,碎片化的局面讓通用模型運(yùn)行面臨困難,。

相比微軟等其他巨頭在大模型上的高歌猛進(jìn),,蘋果顯得很是安靜,尤其蘋果和哥倫比亞大學(xué)的研究人員于在 2023 年 10 月低調(diào)發(fā)布的一個名為 Ferret 的開源多模態(tài)大模型也沒有收到太多關(guān)注,。當(dāng)時,,該版本包含代碼和權(quán)重,但僅供研究使用,,而非商業(yè)許可,。

但隨著 Mistral 開源模型備受關(guān)注、谷歌 Gemini 即將應(yīng)用于 Pixel Pro 和 Android,,關(guān)于本地大模型為小型設(shè)備提供支持的討論越來越多。而蘋果公司也宣布啦在 iPhone 上部署大模型方面取得了重大突破:該公司發(fā)布了兩篇新的研究論文,,介紹了 3D 頭像和高效語言模型推理的新技術(shù),,被認(rèn)為可能帶來更身臨其境的視覺體驗(yàn),并允許復(fù)雜的人工智能系統(tǒng)在 iPhone 和 iPad 等消費(fèi)設(shè)備上運(yùn)行。

AI 社區(qū)中的許多人后來才注意到 Ferret 的發(fā)布,,他們很開心蘋果公司出人意料地進(jìn)入了開源 LLM 領(lǐng)域,,因?yàn)樘O果公司歷來由于封閉的生態(tài)而被稱為“圍墻花園”。下面我們看下這個才開始被熱議的項(xiàng)目,。

多模態(tài)大語言模型 Ferret

“據(jù)我們所知,,F(xiàn)erret 是首個能夠在多模態(tài)大模型中處理自由形式區(qū)域輸入的成果?!表?xiàng)目研發(fā)團(tuán)隊(duì)在論文中寫道,。Ferret 是一種新穎的引用與定位多模態(tài)大語言模型(MLLM)。之所以選擇多模態(tài)大模型作為 Ferret 的設(shè)計前提,,是因?yàn)槠鋼碛袕?qiáng)大的視覺語言全局理解能力,。

模型架構(gòu)

根據(jù)介紹,F(xiàn)erret 主要由用于提取圖像嵌入的圖像編碼器,;用于提取區(qū)域連續(xù)特征的空間感知視覺采樣器,;以及用于對圖像、文本和區(qū)域特征進(jìn)行聯(lián)合建模的大語言模型組成,。

蘋果的封閉生態(tài)為大模型打開,!發(fā)布開源多模態(tài)大模型、每天為AI燒百萬美元,,零碎的Android 生態(tài)打得過嗎,? – AI新智界

?輸入

將圖像輸入經(jīng)過預(yù)訓(xùn)練的視覺編碼器 CLIP-ViT-L/14 ,以提取圖像嵌入 Z ∈ R H×W×C,。對于文本輸入,,使用經(jīng)過預(yù)訓(xùn)練的大模型標(biāo)記器對文本序列進(jìn)行標(biāo)記,并將其投射至文本嵌入 T ∈ R L×D 當(dāng)中,。

?空間感知視覺采樣器

除了常見的點(diǎn)或矩形框之外,,團(tuán)隊(duì)需要處理的區(qū)域形狀可能存在很大差異?;诰W(wǎng)格的處理方法(例如卷積或 patch attention)無法處理不規(guī)則形狀,。與之類似,3D 點(diǎn)云也屬于不規(guī)則形狀,,而且在 3D 空間中表現(xiàn)出不同的稀疏性,。受到現(xiàn)有 3D 點(diǎn)云學(xué)習(xí)方法的啟發(fā),團(tuán)隊(duì)提出一種空間感知視覺采樣器,。

空間感知視覺采樣器用以獲取任意形狀區(qū)域的視覺特征,,同時考慮到這些形狀所對應(yīng)的不同稀疏性。以此為基礎(chǔ),,團(tuán)隊(duì)將離散坐標(biāo)與連續(xù)視覺特征組合起來以表示輸入中的視覺區(qū)域,,由此構(gòu)成 Ferret 中的混合區(qū)域表示,。憑借上述方法,F(xiàn)erret 就能夠處理由區(qū)域同自由格式文本混合而成的輸入,,并可以無縫生成每個可定位對象的坐標(biāo)和文本,,由此在輸出中定位所提及的對象。

假設(shè)已經(jīng)給定提取得出的圖像特征圖 Z ∈ R H×W×C 和二值化區(qū)域掩模 M,,團(tuán)隊(duì)首先在 M 內(nèi)隨機(jī)采樣 N 個正點(diǎn),。這 N 個點(diǎn)被輸入至級聯(lián)的塊中,每個塊包含三個步驟:采樣,、收集,、池化。經(jīng)過這三個步驟,,將獲得更少的點(diǎn)和更密集的特征空間,。

?輸出

在 Ferret 的輸出中,為了實(shí)現(xiàn)定位,,團(tuán)隊(duì)在文本響應(yīng)中的相應(yīng)區(qū)域 / 名詞之后生成框坐標(biāo),。例如“圖中有一只狗 [100,150,300,200]?!蓖ㄟ^這種數(shù)據(jù)格式,,模型即可隱式學(xué)習(xí)當(dāng)前圖像中的可定位內(nèi)容及其確切位置。

?大語言模型

團(tuán)隊(duì)選定 Vicuna 作為語言模型,,這是一種在 Llama 之上通過指令微調(diào)而來的純解碼器大語言模型,。在輸入大模型之前,圖像嵌入先通過額外的線性層進(jìn)行轉(zhuǎn)換,,以匹配文本標(biāo)記的嵌入維度,。

為了使 Ferret 的引用機(jī)制具有開放詞匯、指令遵循和健壯性,,團(tuán)隊(duì)還整理出了一套包含 110 萬個樣本的引用與引用指令調(diào)整數(shù)據(jù)集 GRIT,。

GRIT 中包含多個層次的空間知識,涵蓋對象,、關(guān)系,、區(qū)域描述和復(fù)雜推理等要素。GRIT 包含三種數(shù)據(jù)類型:被轉(zhuǎn)換為指認(rèn)遵循格式的公共數(shù)據(jù)集,、通過 ChatGPT 和 GPT-4 生成的指令微調(diào)數(shù)據(jù)和額外的空間負(fù)樣本數(shù)據(jù),。其中大部分?jǐn)?shù)據(jù)是由現(xiàn)有視覺(語言)任務(wù)轉(zhuǎn)換而來,例如對象檢測和短語定位,。

此外,,團(tuán)隊(duì)表示,通過 ChatGPT/GPT-4 收集的 34000 條引用和定位指令調(diào)整對話,,可以高效完成模型的指令遵循與開放詞匯引用 / 定位訓(xùn)練,。團(tuán)隊(duì)還進(jìn)行了空間感知的負(fù)樣本挖掘,,進(jìn)一步提高了模型的健壯性。

蘋果的封閉生態(tài)為大模型打開,!發(fā)布開源多模態(tài)大模型、每天為AI燒百萬美元,,零碎的Android 生態(tài)打得過嗎,? – AI新智界

幻覺問題

團(tuán)隊(duì)也觀察到了多模態(tài)大模型在回答是 / 否類問題時,往往表現(xiàn)出產(chǎn)生“幻覺”,。對此,,團(tuán)隊(duì)通過圖像條件類別定位以及語義條件類別定位兩種方式進(jìn)行負(fù)樣本挖掘。

這兩種方式都要求模型定位特定的對象類別,,從而使模型能夠辨別并潛在發(fā)現(xiàn)某些對象的缺失,。不同之處在于,如何選擇負(fù)樣本類別,。對于前者,,團(tuán)隊(duì)采用 Object365 數(shù)據(jù)從給定圖像中未顯示的詞匯中隨機(jī)選擇對象類,對后者則使用 Flickr30k 數(shù)據(jù),,并通過 ChatGPT/GPT-4 查找與原始類別,、屬性或數(shù)量最相似的實(shí)體以獲取負(fù)樣本,例如“男人”和“女人”,、“藍(lán)色”和“黃色”,。

此外,團(tuán)隊(duì)還進(jìn)行了數(shù)據(jù)整理,,以維持兩種類別下正樣本和負(fù)樣本之間的平衡,,最終共收集到 95000 條數(shù)據(jù)。

大模型響應(yīng)

除了通過模板轉(zhuǎn)換現(xiàn)有數(shù)據(jù)集之外,,對話指令調(diào)整數(shù)據(jù)同樣在幫助多模態(tài)大模型理解人類意圖,,并生成流暢、自然,、長格式響應(yīng)方面至關(guān)重要,。目前,業(yè)界廣泛使用少樣本提示以獲取視覺指令調(diào)整數(shù)據(jù),,其中將圖像的文本場景描述與人工標(biāo)注對話作為少樣本演示,,并通過提示詞要求 ChatGPT/GPT-4 根據(jù)新圖像的文本場景生成相應(yīng)的對話描述。

但是,,以往的指令調(diào)整數(shù)據(jù)主要集中于描述整體圖像,,而不會明確指定空間相關(guān)信息。為了收集引用與定位指令調(diào)整數(shù)據(jù),,團(tuán)隊(duì)通過以下三個步驟強(qiáng)調(diào)基于區(qū)域的空間知識:

  1. 除了像以往那樣使用對象與全局標(biāo)題之外,,其符號場景描述還包含對象與區(qū)域標(biāo)題間的物理關(guān)系以及相應(yīng)坐標(biāo),。
  2. 在人工標(biāo)注的對話中,團(tuán)隊(duì)在輸入 / 輸出 / 二者兼具的可定位區(qū)域或?qū)ο笾筇砑幼鴺?biāo),,且對話通常集中于特定區(qū)域,,有助于隱式提示 ChatGPT/GPT-4 在生成新對話時遵循類似的模式。
  3. 實(shí)際生成的對話有時無法遵循在系統(tǒng)提示和少樣本示例中編寫的規(guī)則和模式,,這可能是由于大語言模型輸入中的上下文太長,,導(dǎo)致無法處理所有細(xì)節(jié)。為此,,團(tuán)隊(duì)建議重復(fù)使用 ChatGPT/GPT-4 來簡化最初生成的對話,,其平均上下文長度僅為首輪生成數(shù)據(jù)的 10%。另外,,為了節(jié)約成本,,團(tuán)隊(duì)僅在首輪生成中使用 ChatGPT,而后使用 GPT-4 進(jìn)行簡寫提煉,,最終共收集到 34000 條對話,。

訓(xùn)練過程

對于訓(xùn)練過程,團(tuán)隊(duì)使用 CLIP-ViT-L/14@336p 對圖像編碼器進(jìn)行初始化,,使用 Vicuna 對大模型進(jìn)行初始化,,使用 LlaVA 的第一階段權(quán)重對投射層進(jìn)行初始化,借此實(shí)現(xiàn)了視覺采樣器的隨機(jī)初始化,。初始化完成后,,F(xiàn)erret 在 GRIT 數(shù)據(jù)上接受了三個輪次(epoch)的訓(xùn)練,使用 Loshchilov & Hutter 進(jìn)行優(yōu)化,,學(xué)習(xí)率為 2e ? 5,,批量大小為 128。

根據(jù)介紹,,F(xiàn)erret-13B/7B 模型在 8 張 A100 上的訓(xùn)練分別需要約 5/2.5 天,。在訓(xùn)練過程中,當(dāng)輸入引用區(qū)域時,,團(tuán)隊(duì)會隨機(jī)選擇中心點(diǎn)或邊界框(在可行時也會選擇分割掩膜)來表示各區(qū)域,,并對訓(xùn)練數(shù)據(jù)進(jìn)行了重復(fù)數(shù)據(jù)刪除,借此清理下游評估中的樣本,。

為了評估這項(xiàng)新功能,,團(tuán)隊(duì)引入了 Ferret-Bench,其涵蓋三種新型任務(wù):引用描述 / 引用推理和對話內(nèi)定位,。團(tuán)隊(duì)表示,,通過對現(xiàn)有多模態(tài)大模型進(jìn)行了基準(zhǔn)測試,發(fā)現(xiàn) Ferret 的平均性能較最出色的原有大模型高 20.4%,,而且在物體識別的幻覺方面也有所減輕,。

概括來講,,F(xiàn)erret 項(xiàng)目論文的貢獻(xiàn)主要為以下三個方面:

  • 提出了 Ferret 模型,其采用基于新型空間感知視覺采樣器的混合區(qū)域表示方法,,可在多模態(tài)大模型中實(shí)現(xiàn)細(xì)粒度和開放詞匯的引用和定位功能,。
  • 建立起 GRIT,一套大規(guī)模定位與引用指令調(diào)整數(shù)據(jù)集,,既可用于模型訓(xùn)練,,還包含額外的空間負(fù)樣本以增強(qiáng)模型健壯性。
  • 引入了 Ferret-Bench 來評估涉及引用 / 定位,、語義、知識和推理的聯(lián)合任務(wù),。

結(jié)束語

很明顯,,蘋果正在努力追趕這次 AIGC 浪潮。據(jù)報道,,蘋果每天在人工智能上投資數(shù)百萬美元,,內(nèi)部有多個團(tuán)隊(duì)開發(fā)多種人工智能模型。

根據(jù)報道,,蘋果致力于對話式人工智能的部門被稱為“Foundational Models”,,“大約 16 名”成員,其中包括幾名前谷歌工程師,。該部門由 Apple 人工智能主管 John Giannandrea 掌舵,,他于 2018 年受聘幫助改進(jìn) Siri。

蘋果正在開發(fā)自己的大模型“Ajax”,。Ajax 旨在與 OpenAI 的 GPT-3 和 GPT-4 等產(chǎn)品相媲美,,可運(yùn)行 2000 億個參數(shù)。Ajax 在內(nèi)部被稱為“Apple GPT”,,旨在統(tǒng)一整個 Apple 的機(jī)器學(xué)習(xí)開發(fā),,提出了將人工智能更深入地集成到 Apple 生態(tài)系統(tǒng)中的更廣泛戰(zhàn)略。

截至最新報告,,Ajax 被認(rèn)為比上一代 ChatGPT 3.5 更強(qiáng)大,。然而,也有人認(rèn)為,,截至 2023 年 9 月,,OpenAI 的新模型可能已經(jīng)超越了 Ajax 的能力。

近日,,蘋果的機(jī)器學(xué)習(xí)研究團(tuán)隊(duì)還悄悄發(fā)布了一個名為 MLX 的框架來構(gòu)建基礎(chǔ)模型,。彭博社報道稱,蘋果正在開發(fā) Siri 的改進(jìn)版本,,并計劃在下一個重大 iOS 版本中提供以人工智能為中心的功能,。

另外,,蘋果還正在與一些大型新聞出版商洽談授權(quán)其新聞檔案,并利用這些信息來訓(xùn)練模型,?!都~約時報》稱,該公司正在討論“價值至少 5000 萬美元的多年期交易” ,,并已與 Condé Nast,、NBC News 和 IAC 等出版商保持聯(lián)系。

相關(guān)鏈接:

https://arxiv.org/pdf/2310.07704.pdf

https://www.macrumors.com/2023/12/21/apple-ai-researchers-run-llms-iphones/

https://www.theverge.com/2023/12/22/24012730/apple-ai-models-news-publishers

免責(zé)聲明:本文來自網(wǎng)絡(luò)收錄或投稿,,觀點(diǎn)僅代表作者本人,,不代表芒果財經(jīng)贊同其觀點(diǎn)或證實(shí)其描述,版權(quán)歸原作者所有,。轉(zhuǎn)載請注明出處:http://lequren.com/1084963.html
溫馨提示:投資有風(fēng)險,,入市須謹(jǐn)慎。本資訊不作為投資理財建議,。

(0)
AI之勢的頭像AI之勢
上一篇 2023年12月26日 上午10:23
下一篇 2023年12月26日 上午10:46
198搶自鏈數(shù)字人

相關(guān)推薦