《科創(chuàng)板日?qǐng)?bào)》4月21日訊(編輯 宋子喬) 在AI大模型競(jìng)賽中,Meta選擇重押視覺模型,,繼推出零樣本分割一切的SAM后,,扎克伯格親自官宣了重量級(jí)開源項(xiàng)目DINOv2。
據(jù)介紹,,DINOv2是計(jì)算機(jī)視覺領(lǐng)域的預(yù)訓(xùn)練大模型,,模型參數(shù)量是10億級(jí),采用Transformer架構(gòu),,能在語義分割,、圖像檢索和深度估計(jì)等方面實(shí)現(xiàn)自監(jiān)督訓(xùn)練,不需微調(diào)即可用于多種下游任務(wù),,可以被用于改善醫(yī)學(xué)成像,、糧食作物生長(zhǎng)、地圖繪制等,。
DINOv2 用于語義分割,,將圖中每個(gè)像素劃分類別
DINOv2 用于圖像檢索,查找與給定圖像相關(guān)的圖
DINOv2用于深度估計(jì),,給出圖中物體到鏡頭的距離信息
DINOv2有何亮點(diǎn),?
主要體現(xiàn)在兩方面——DINOv2可以為大語言模型提供豐富的圖像特征,有助于完善多模態(tài)GPT應(yīng)用,;其蒸餾成小模型后效果依然優(yōu)秀,,便于在各種邊緣場(chǎng)景及本地化落地。
對(duì)于前者,,Meta已表示計(jì)劃將DINOv2集成到更大,、更復(fù)雜的AI系統(tǒng)中,作為視覺主干提供豐富的圖像特征與大型語言模型進(jìn)行交互,。
國(guó)盛證券分析師劉高暢表示,,DINOv2能比用圖像文本對(duì)做訓(xùn)練的模型得到更豐富的圖像特征,這將讓整個(gè)系統(tǒng)能更好地理解圖像,,對(duì)多模態(tài)AI的發(fā)展起到加速作用,。
值得注意的是,多模態(tài)技術(shù)還能助力游戲內(nèi)容與元宇宙構(gòu)造,,隨著AR/VR技術(shù)的發(fā)展,,未來將能構(gòu)建逼真的虛擬現(xiàn)實(shí)。扎克伯格就強(qiáng)調(diào),,DINOv2可以極大地加持元宇宙的建設(shè),,讓用戶在元宇宙中的沉浸體驗(yàn)更出色。
上述分析師大膽預(yù)測(cè),,1-5年內(nèi),,隨著多模態(tài)的發(fā)展帶來AI泛化能力提升,,通用視覺、通用機(jī)械臂,、通用物流搬運(yùn)機(jī)器人、行業(yè)服務(wù)機(jī)器人,、真正的智能家居會(huì)進(jìn)入生活,。未來5-10年內(nèi),結(jié)合復(fù)雜多模態(tài)方案的大模型有望具備完備的與世界交互的能力,,在通用機(jī)器人,、虛擬現(xiàn)實(shí)等領(lǐng)域得到應(yīng)用。
對(duì)于邊緣場(chǎng)景落地,,簡(jiǎn)單來說是指將大模型移植到移動(dòng)端或是算力有限的場(chǎng)景,。
運(yùn)行大型的模型需要強(qiáng)大的硬件,這可能會(huì)限制模型在C端場(chǎng)景的應(yīng)用,,為大模型“瘦身”成了手機(jī)等移動(dòng)終端運(yùn)行大模型的前提,,其技術(shù)路徑多樣,包括通過剪枝讓模型稀疏化,、知識(shí)蒸餾對(duì)模型進(jìn)行壓縮,、通過權(quán)重共享來減少參數(shù)量等。
DINOv2即采用模型蒸餾的方式,,將大型模型的知識(shí)壓縮為較小的模型,,從而降低推理時(shí)的硬件要求。據(jù)官方介紹,,Meta開源了多個(gè)不同參數(shù)規(guī)模的預(yù)訓(xùn)練模型,,在相同的規(guī)模下比較,DINOv2在多種測(cè)試基準(zhǔn)的得分都能優(yōu)于目前開源視覺模型中表現(xiàn)最好的OpenCLIP,。
Meta之外,,高通、華為等科技巨頭也在致力于實(shí)現(xiàn)AI大模型在終端的輕量化部署,,谷歌,、騰訊、百度等已將模型壓縮技術(shù)緊密結(jié)合移動(dòng)端模型部署框架/工具,。
免責(zé)聲明:本文來自網(wǎng)絡(luò)收錄或投稿,,觀點(diǎn)僅代表作者本人,不代表芒果財(cái)經(jīng)贊同其觀點(diǎn)或證實(shí)其描述,,版權(quán)歸原作者所有,。轉(zhuǎn)載請(qǐng)注明出處:http://lequren.com/1019917.html
溫馨提示:投資有風(fēng)險(xiǎn),入市須謹(jǐn)慎,。本資訊不作為投資理財(cái)建議,。