微軟想要強(qiáng)調(diào)的,也是 Gemini 發(fā)布時(shí)就已顯現(xiàn)出來(lái)的,,是兩個(gè)模型的性能其實(shí)是相當(dāng)?shù)摹?/p>
圖片來(lái)源:由無(wú)界 AI生成
簡(jiǎn)直不講武德,繼上周推出號(hào)稱(chēng)其“最新,、功能最強(qiáng)大”的 AI 模型 Gemini 后,,今日,谷歌宣布將向開(kāi)發(fā)人員和組織提供 Gemini Pro 以及一系列新的人工智能工具,、模型和基礎(chǔ)架構(gòu)。
首先,,Gemini Pro 可通過(guò) Gemini API 提供給 Google AI Studio(免費(fèi)的基于 Web 的開(kāi)發(fā)工具)的開(kāi)發(fā)人員,。企業(yè)也可以通過(guò)谷歌云的 Vertex AI 平臺(tái)進(jìn)行使用。此外,,谷歌還將在 Vertex AI 中引入其他模型,,幫助開(kāi)發(fā)者和企業(yè)靈活構(gòu)建和發(fā)布應(yīng)用程序,包括升級(jí)版的文生圖工具 Imagen 2,,以及針對(duì)醫(yī)療保健行業(yè)微調(diào)的基礎(chǔ)模型系列 MedLM,。另外,谷歌還宣布其面向開(kāi)發(fā)人員的在線協(xié)作工具 Duet AI 已全面上線,。
作為對(duì) OpenAI GPT-4 的回應(yīng),,谷歌 DeepMind 稱(chēng),Gemini 的 Ultra 版本在 32 項(xiàng)標(biāo)準(zhǔn)性能指標(biāo)中,,有 30 項(xiàng)指標(biāo)都優(yōu)于 GPT-4,。
然而,發(fā)布還不到一天,,Gemini 就遭到了質(zhì)疑,,不僅測(cè)試標(biāo)準(zhǔn)有失偏頗,連效果視頻也疑似剪輯,。
無(wú)獨(dú)有偶,,微軟今日發(fā)文更是把谷歌的臉打的啪啪響。微軟稱(chēng),,GPT-4 與特殊的提示策略相結(jié)合,,在語(yǔ)言理解基準(zhǔn) MMLU(衡量大規(guī)模多任務(wù)語(yǔ)言理解能力)中的表現(xiàn)優(yōu)于谷歌 Gemini Ultra。
微軟的反擊:復(fù)雜提示提高基準(zhǔn)性能
據(jù)悉,,Medprompt 是微軟最近推出的一種提示策略,,最初是針對(duì)醫(yī)療挑戰(zhàn)而開(kāi)發(fā)的。不過(guò),,微軟的研究人員發(fā)現(xiàn),,它也適用于更廣泛的應(yīng)用。
通過(guò)使用改進(jìn)版的 Medprompt 運(yùn)行 GPT-4,,微軟在 MMLU 基準(zhǔn)測(cè)試中獲得了新的技術(shù)水平 (SoTA) 分?jǐn)?shù),。根據(jù)報(bào)告,,GPT-4 在 MMLU 中的表現(xiàn)達(dá)到了 90.10% 的歷史新高,超過(guò)了 Gemini Ultra 的 90.04%,。
注:MMLU 基準(zhǔn)測(cè)試是一項(xiàng)常識(shí)和推理的綜合測(cè)試,。它包含數(shù)學(xué)、歷史,、法律,、計(jì)算機(jī)科學(xué)、工程和醫(yī)學(xué)等 57 個(gè)學(xué)科領(lǐng)域的數(shù)萬(wàn)個(gè)題目,。它被認(rèn)為是語(yǔ)言模型最重要的基準(zhǔn),。
據(jù)悉,,最初將原始 Medprompt 應(yīng)用于 GPT-4 在綜合 MMLU 上的得分率為 89.1%,。而通過(guò)將 Medprompt 中的集合調(diào)用次數(shù)從 5 次增加到 20 次,GPT-4 在 MMLU 上的表現(xiàn)進(jìn)一步提高到 89.56%,。為了達(dá)到新的 SoTA,,微軟的研究人員將 Medprompt 擴(kuò)展為 Medprompt+,方法是在 Medprompt 中添加一種更簡(jiǎn)單的提示方法,,并制定一種策略,,將 Medprompt 基本策略和更簡(jiǎn)單的提示方法的答案結(jié)合起來(lái),得出最終答案,。
除了 MMLU 基準(zhǔn)測(cè)試之外,微軟還發(fā)布了其他基準(zhǔn)測(cè)試的結(jié)果,,使用這些基準(zhǔn)測(cè)試中常見(jiàn)的簡(jiǎn)單提示來(lái)顯示 GPT-4 與 Gemini Ultra 的性能比較,。據(jù)稱(chēng),GPT-4 在使用這種測(cè)量方法的多個(gè)基準(zhǔn)測(cè)試中表現(xiàn)均優(yōu)于 Gemini Ultra,,包括 GSM8K,、MATH、HumanEval,、BIG-Bench-Hard,、DROP 和 HellaSwag。
微軟表示,,雖然系統(tǒng)化的提示工程可以產(chǎn)生最高性能,但其仍在探索使用簡(jiǎn)單提示的前沿模型開(kāi)箱即用性能,。微軟稱(chēng),,重要的是,要關(guān)注 GPT-4 的原生功能,,以及如何利用零次或少量提示策略引導(dǎo)模型,。如上圖所示,,在采用更復(fù)雜、更昂貴的方法之前,,從簡(jiǎn)單的提示開(kāi)始有助于建立基線性能,。
據(jù)悉,微軟已在名為 Promptbase 的 GitHub 中發(fā)布了 Medprompt 和類(lèi)似的提示策略,,包含腳本,、通用工具和信息,可幫助重現(xiàn)上述測(cè)試結(jié)果,。
需要留意的是,,在實(shí)際應(yīng)用中,這些基準(zhǔn)中的微小差異可能不會(huì)有太大影響,,畢竟它的目的是用來(lái)公關(guān)的,。微軟想要強(qiáng)調(diào)的,也是在 Gemini?Ultra 發(fā)布時(shí)就已經(jīng)顯現(xiàn)出來(lái)的,,是兩個(gè)模型的性能其實(shí)是相當(dāng)?shù)摹?/p>
可能正如比爾·蓋茨最近所說(shuō)的那樣,,當(dāng)前形式的 LLM 技術(shù)已經(jīng)達(dá)到了極限?;蛟S要等到 GPT-4.5 或 GPT-5 的出現(xiàn),,才有可能迎來(lái)下一波浪潮。
參考鏈接:
- https://the-decoder.com/microsoft-puts-gpt-4-ahead-of-gemini-ultra-again-using-googles-own-tricks/
- https://www.microsoft.com/en-us/research/blog/steering-at-the-frontier-extending-the-power-of-prompting/
免責(zé)聲明:本文來(lái)自網(wǎng)絡(luò)收錄或投稿,,觀點(diǎn)僅代表作者本人,,不代表芒果財(cái)經(jīng)贊同其觀點(diǎn)或證實(shí)其描述,版權(quán)歸原作者所有,。轉(zhuǎn)載請(qǐng)注明出處:http://lequren.com/1083229.html
溫馨提示:投資有風(fēng)險(xiǎn),,入市須謹(jǐn)慎。本資訊不作為投資理財(cái)建議,。