“最大”,、最有能力”,、“最佳”、“最高效”,,谷歌為其12月7日新發(fā)布的多模態(tài)大模型Gemini冠上了好幾個“最”,,與OpenAI GPT-4“比高高”的勝負(fù)欲呼之欲出。
區(qū)分為Ultra,、Pro,、Nano三個尺寸的Gemini,,不僅號稱在各種“AI考試”中得了“高分”,,演示視頻里顯示的Gemini簡直就是“聽說讀寫”樣樣拿的“超級工具”。
按照官方說法,,Gemini Ultra最為強(qiáng)大,,兼具多模態(tài)能力、專業(yè)性與準(zhǔn)確度,,能以圖文,、語音的形式輸入輸出不說,具體還能批改數(shù)學(xué)作業(yè),,指導(dǎo)運(yùn)動員的動作與發(fā)力,,還能夠執(zhí)行復(fù)雜的繪制圖表、編碼等任務(wù),,在MMLU(大規(guī)模多任務(wù)語言理解)測試?yán)锷踔痢俺搅巳祟悓<摇薄?/p>
不過,,目前能供C端普通用戶體驗(yàn)的是Gemini Pro版,按官方定位是“在各種任務(wù)上擴(kuò)展的最佳模型”,,已集成至谷歌此前發(fā)布的對話機(jī)器人Bard中,;“在設(shè)備上執(zhí)行任務(wù)的最高效模型”Gemini Nano將置入谷歌智能手機(jī)Pixel8 Pro;而“最大且最有能力,,適用于高度復(fù)雜任務(wù)”的Gemini Ultra,,谷歌的計劃是在明年年初開放給開發(fā)者和企業(yè)用戶。
那么,,Gemini真的比GPT-4強(qiáng)嗎,?
有網(wǎng)友發(fā)現(xiàn),,谷歌給出的Gemini Ultra“考試成績”用的是自家的“試卷”(測試方法);而彭博社指出,,Gemini的演示視頻非實(shí)時,,網(wǎng)友們也覺得該視頻有剪輯痕跡。
《元宇宙日爆》實(shí)測了Bard的數(shù)學(xué)能力,,該對話機(jī)器人已植入了精調(diào)的Gemini Pro模型,,結(jié)果顯示,Bard對復(fù)雜的數(shù)學(xué)題仍有理解錯誤,,尤其是識圖方面,。
谷歌展示Gemini “聽說讀寫”能力
Gemini是谷歌從頭構(gòu)建的多模態(tài)人工智能大模型,。盡管在時間上落后GPT-4許多,但被谷歌以“能力最強(qiáng)”對外推出,,“強(qiáng)”的一面是Gemini的多模態(tài)能力,。
它能夠同時處理和解析文本、圖像,、音頻,、視頻以及代碼等多種數(shù)據(jù)類型,也就是說,,用戶可以將各種形式的信息輸入給Gemini,,它不僅能理解,還能分析甚至按你的需求處理任務(wù),。
目前,,Gemini還在1.0版,按規(guī)模不同分為Ultra、Pro和Nano,。Ultra版本是適用于高度復(fù)雜的任務(wù),,而Pro版本則專注于多任務(wù)處理,,Nano版本則針對移動設(shè)備上的應(yīng)用,。三種版本有針對性地適用于多個不同場景,,且在多項基準(zhǔn)測試中展現(xiàn)出超群實(shí)力。
谷歌官方放出的宣傳視頻展示了Gemini超強(qiáng)的多模態(tài)能力,,相信看完后你會驚呼,。
“超級模型”Gemini Ultra的背后有谷歌發(fā)布的測試數(shù)據(jù)支撐。在32個廣泛用于測評大型語言模型(LLM)的學(xué)術(shù)基準(zhǔn)中,,它在30個上性能超過了大模型領(lǐng)域當(dāng)前的技術(shù)水平,。
Gemini Ultra號稱以90.0%的得分成為第一個在MMLU(大規(guī)模多任務(wù)語言理解)上“勝過人類專家的模型”,該測試使用數(shù)學(xué),、物理,、歷史、法律,、醫(yī)學(xué)和倫理學(xué)等57個學(xué)科的組合來測試世界知識和解決問題的能力,。Gemini在包括文本和編碼在內(nèi)的一系列基準(zhǔn)測試中超越了目前的技術(shù)水平。
MMLU是一種針對大模型的語言理解能力的測評,,包含了57個關(guān)于人類知識的多選題回答任務(wù),,涵蓋了初等數(shù)學(xué)、美國歷史,、計算機(jī)科學(xué),、法律等,難度覆蓋高中水平到專家水平的人類知識,,是目前主流的的大模型語義理解測評之一。
從谷歌給出的測試結(jié)果來看,,Gemini在理解復(fù)雜數(shù)據(jù)和執(zhí)行高級任務(wù)方面將對GPT-4構(gòu)成強(qiáng)有力的競爭,。
谷歌稱Gemini在MMLU測評中首次超越人類專家
由于從一開始構(gòu)建就基于多模態(tài)訓(xùn)練,,Gemini Ultra理論上對文字、圖片,、語音,、視頻、代碼等各種形態(tài)的信息都能理解,,這就給AI應(yīng)用和使用場景帶來了更多可能性,。
例如在教育領(lǐng)域,借助Gemini Ultra的多模態(tài)推理技能,凌亂的手寫筆記能被理解,,學(xué)生解題時出錯的步驟能被發(fā)現(xiàn),,然后給出題目的正確解答和過程。這一套下來,,不能說要淘汰教師吧,,至少老師們也得到了一個高能AI助手。
Gemini可以批改學(xué)生作業(yè)
在視頻的理解與推理上,Gemini Ultra甚至展現(xiàn)出“足球教練”的素養(yǎng),,能分析運(yùn)動員的動作與發(fā)力,,還會給出具體的改進(jìn)建議。
Gemini可理解視頻內(nèi)容并給運(yùn)動員提供指導(dǎo)建議
對于復(fù)雜的圖像理解、代碼生成,、指令跟蹤,,Gemini Ultra也不在話下。輸入圖像與提示次“我希望你采用左上角子圖中描繪的函數(shù),,將其乘以1000,,然后將其添加到左下子圖中描繪的函數(shù)中,生成 matplotlib 代碼單個結(jié)果圖”后,,Gemini Ultra 能夠完美的執(zhí)行逆圖形任務(wù)來推斷生成繪圖的代碼,、執(zhí)行額外的數(shù)學(xué)轉(zhuǎn)換并生成相關(guān)代碼。
從谷歌給出的這些案例看,,Gemini Ultra簡直是“地表最強(qiáng)”的大模型,,觀眾朋友們最想知道的是,這個大模型界的“超級賽亞人”,,咱啥時候能用上,?
按照谷歌的披露,從12月6號開始,,Bard就會上載Gemini Pro的精細(xì)調(diào)整版本,,用于更高級的推理、規(guī)劃,、理解等,,這是Bard自推出以來的最大升級。
需要注意的是,,集成了Gemini Pro的Bard只提供英語支持,,可在全球170多個國家和地區(qū)使用,計劃在不久的將來擴(kuò)展到不同的模態(tài),支持新的語言和地區(qū),。也就是說,,中文用戶目前還無法完美體驗(yàn)Gemini Pro。
Gemini Nano最先在谷歌的Pixel 8 Pro智能手機(jī)上應(yīng)用,,從WhatsApp開始,明年將支持更多的消息應(yīng)用,。
在未來幾個月中,,Gemini還將在更多的產(chǎn)品和服務(wù)中推出,包括Search,、Ads,、Chrome和Duet AI。也就是說,,谷歌的搜索引擎中也將輸入Gemini能力,。
至于“最強(qiáng)”的Gemini Ultra,普通用戶還得等等,。谷歌說,,它正在進(jìn)行信任和安全性檢查,在推出前還得通過對人類反饋的微調(diào)和強(qiáng)化學(xué)習(xí)(RLHF)的進(jìn)一步改進(jìn),。
在這個過程中,,Gemini Ultra會有選擇地給客戶、開發(fā)人員,、合作伙伴以及安全和責(zé)任專家拿來早期實(shí)驗(yàn),,等待反饋,然后在明年初向開發(fā)人員和企業(yè)客戶開放,。
Ultra的MMLU“試卷”疑為谷歌版
展示的是最強(qiáng)的Gemini Ultra,,但推出和使用要緩一緩,谷歌這樣的操作很快就惹來了懷疑,,真比GPT-4強(qiáng)嗎,?
彭博社就出來“打臉”說,谷歌的模型和OpenAI相比還仍有差距,,現(xiàn)在這能力也僅憑演示,而視頻演示還是錄制的,,又不實(shí)時,,很可能是“精心調(diào)整的文本提示與靜態(tài)圖像”。彭博社還指出,,Gemini的回答需要其他信息的輔助,,在真正的交互中需要暗示性很強(qiáng)的提示。
圍觀演示視頻的網(wǎng)友們也覺得,視頻中有很明顯的剪輯痕跡,,“強(qiáng)大的能力存在水分”,。
而谷歌給Gemini Ultra考試的MMLU測評,被網(wǎng)友指出用的是自家出的“試卷”,。在57個科目的多選題測試中,,得了90分的Ultra,底下分明標(biāo)著“CoT@32*”,,這是谷歌自己調(diào)試的測評方案,。如果采用和GPT-4同樣的標(biāo)準(zhǔn),它的得分只有83.7,,還不如得分86.4的GPT-4,。
Gemini Ultra在谷歌調(diào)整的測試方案中得分90
學(xué)術(shù)上的事情太專業(yè),,好在谷歌已經(jīng)把Gemini植入了Bard,盡管用的是Utral的低配版Pro,,但也號稱能多任務(wù)處理,,這是普通大眾最能直接測試Gemini的方式了。
《元宇宙日爆》直接選用了數(shù)學(xué)題,,因?yàn)镃hatGPT對數(shù)學(xué)就不太精通,而有唯一正確性的數(shù)學(xué)被OpenAI視作通往AGI的基礎(chǔ),,咱來看看被輸入Gemini能力的Bard是否擅長數(shù)學(xué),。
我們統(tǒng)一用英文進(jìn)行提問,題1為求算圓錐體積,,題2為稍難的幾何證明題,。
測試結(jié)果表明,Gemini Pro能夠準(zhǔn)確識別圖像以及圖片內(nèi)的文字,,也能夠正確解決簡單數(shù)學(xué)問題,,但在處理復(fù)雜數(shù)學(xué)題時,仍然存在明顯錯誤,。題2中的錯誤就很明顯,,Bard在第2步將EG與AB兩條線錯誤地證明為相互垂直。
有Gemin Pro能力的Bard做數(shù)學(xué)題還不完美
這難道是因?yàn)锽ard用的是Gemini Pro而顯得不夠強(qiáng)大?那咱只能等Ultra加入再測試了,。
而會引入智能手機(jī)Pixel 8 Pro的Gemini Nano,,將應(yīng)用在“記錄器摘要”和 “Gboard 智能回復(fù)”兩項功能中,。
按谷歌說法,即使手機(jī)不連網(wǎng),,記錄器也可以獲得手機(jī)對話錄音,、采訪、演示等內(nèi)容的摘要,;而智能回復(fù)功能類似掛斷電話后的自動回復(fù),,Gemini Nano可以識別來信的內(nèi)容,生成對應(yīng)的回復(fù),。不過,,這兩項功能,目前也只支持英文文本的識別,。
按照DeepMind曾提出的 AGI 評估框架,,在AGI-1階段,人工智能將能夠跨領(lǐng)域和跨模態(tài)地進(jìn)行學(xué)習(xí)和推理,,在多個領(lǐng)域和任務(wù)上表現(xiàn)出智能,,如問答、摘要,、翻譯,、對話等,實(shí)現(xiàn)與人類和其他 AI 進(jìn)行基本的溝通和協(xié)作,,感知和表達(dá)簡單的情感和價值,。
綜合Google官方發(fā)布與實(shí)際測試體驗(yàn)來看,值得期待并有希望超越GPT-4模型的仍是尚未公開發(fā)布的Ultra版本,,如果這個版本的多模態(tài)能力真能如演示般表現(xiàn),,那么谷歌距離它定義的AGI也就不遠(yuǎn)了。
免責(zé)聲明:本文來自網(wǎng)絡(luò)收錄或投稿,,觀點(diǎn)僅代表作者本人,,不代表芒果財經(jīng)贊同其觀點(diǎn)或證實(shí)其描述,版權(quán)歸原作者所有,。轉(zhuǎn)載請注明出處:http://lequren.com/1082806.html
溫馨提示:投資有風(fēng)險,,入市須謹(jǐn)慎。本資訊不作為投資理財建議,。