微軟想要強(qiáng)調(diào)的,,也是 Gemini 發(fā)布時就已顯現(xiàn)出來的,,是兩個模型的性能其實是相當(dāng)?shù)摹?/p>
圖片來源:由無界 AI生成
簡直不講武德,繼上周推出號稱其“最新,、功能最強(qiáng)大”的 AI 模型 Gemini 后,,今日,谷歌宣布將向開發(fā)人員和組織提供 Gemini Pro 以及一系列新的人工智能工具、模型和基礎(chǔ)架構(gòu),。
首先,,Gemini Pro 可通過 Gemini API 提供給 Google AI Studio(免費(fèi)的基于 Web 的開發(fā)工具)的開發(fā)人員。企業(yè)也可以通過谷歌云的 Vertex AI 平臺進(jìn)行使用,。此外,,谷歌還將在 Vertex AI 中引入其他模型,幫助開發(fā)者和企業(yè)靈活構(gòu)建和發(fā)布應(yīng)用程序,,包括升級版的文生圖工具 Imagen 2,,以及針對醫(yī)療保健行業(yè)微調(diào)的基礎(chǔ)模型系列 MedLM。另外,,谷歌還宣布其面向開發(fā)人員的在線協(xié)作工具 Duet AI 已全面上線,。
作為對 OpenAI GPT-4 的回應(yīng),谷歌 DeepMind 稱,,Gemini 的 Ultra 版本在 32 項標(biāo)準(zhǔn)性能指標(biāo)中,,有 30 項指標(biāo)都優(yōu)于 GPT-4。
然而,,發(fā)布還不到一天,,Gemini 就遭到了質(zhì)疑,不僅測試標(biāo)準(zhǔn)有失偏頗,連效果視頻也疑似剪輯,。
無獨(dú)有偶,,微軟今日發(fā)文更是把谷歌的臉打的啪啪響。微軟稱,,GPT-4 與特殊的提示策略相結(jié)合,,在語言理解基準(zhǔn) MMLU(衡量大規(guī)模多任務(wù)語言理解能力)中的表現(xiàn)優(yōu)于谷歌 Gemini Ultra。
微軟的反擊:復(fù)雜提示提高基準(zhǔn)性能
據(jù)悉,,Medprompt 是微軟最近推出的一種提示策略,,最初是針對醫(yī)療挑戰(zhàn)而開發(fā)的。不過,,微軟的研究人員發(fā)現(xiàn),,它也適用于更廣泛的應(yīng)用。
通過使用改進(jìn)版的 Medprompt 運(yùn)行 GPT-4,,微軟在 MMLU 基準(zhǔn)測試中獲得了新的技術(shù)水平 (SoTA) 分?jǐn)?shù),。根據(jù)報告,GPT-4 在 MMLU 中的表現(xiàn)達(dá)到了 90.10% 的歷史新高,,超過了 Gemini Ultra 的 90.04%,。
注:MMLU 基準(zhǔn)測試是一項常識和推理的綜合測試。它包含數(shù)學(xué),、歷史,、法律、計算機(jī)科學(xué),、工程和醫(yī)學(xué)等 57 個學(xué)科領(lǐng)域的數(shù)萬個題目,。它被認(rèn)為是語言模型最重要的基準(zhǔn)。
據(jù)悉,,最初將原始 Medprompt 應(yīng)用于 GPT-4 在綜合 MMLU 上的得分率為 89.1%。而通過將 Medprompt 中的集合調(diào)用次數(shù)從 5 次增加到 20 次,,GPT-4 在 MMLU 上的表現(xiàn)進(jìn)一步提高到 89.56%,。為了達(dá)到新的 SoTA,微軟的研究人員將 Medprompt 擴(kuò)展為 Medprompt+,,方法是在 Medprompt 中添加一種更簡單的提示方法,,并制定一種策略,將 Medprompt 基本策略和更簡單的提示方法的答案結(jié)合起來,,得出最終答案,。
除了 MMLU 基準(zhǔn)測試之外,微軟還發(fā)布了其他基準(zhǔn)測試的結(jié)果,,使用這些基準(zhǔn)測試中常見的簡單提示來顯示 GPT-4 與 Gemini Ultra 的性能比較,。據(jù)稱,,GPT-4 在使用這種測量方法的多個基準(zhǔn)測試中表現(xiàn)均優(yōu)于 Gemini Ultra,,包括 GSM8K,、MATH、HumanEval,、BIG-Bench-Hard,、DROP 和 HellaSwag。
微軟表示,,雖然系統(tǒng)化的提示工程可以產(chǎn)生最高性能,但其仍在探索使用簡單提示的前沿模型開箱即用性能,。微軟稱,,重要的是,要關(guān)注 GPT-4 的原生功能,,以及如何利用零次或少量提示策略引導(dǎo)模型,。如上圖所示,在采用更復(fù)雜,、更昂貴的方法之前,,從簡單的提示開始有助于建立基線性能。
據(jù)悉,,微軟已在名為 Promptbase 的 GitHub 中發(fā)布了 Medprompt 和類似的提示策略,,包含腳本、通用工具和信息,,可幫助重現(xiàn)上述測試結(jié)果,。
需要留意的是,在實際應(yīng)用中,,這些基準(zhǔn)中的微小差異可能不會有太大影響,,畢竟它的目的是用來公關(guān)的。微軟想要強(qiáng)調(diào)的,,也是在 Gemini?Ultra 發(fā)布時就已經(jīng)顯現(xiàn)出來的,,是兩個模型的性能其實是相當(dāng)?shù)摹?/p>
可能正如比爾·蓋茨最近所說的那樣,當(dāng)前形式的 LLM 技術(shù)已經(jīng)達(dá)到了極限,?;蛟S要等到 GPT-4.5 或 GPT-5 的出現(xiàn),才有可能迎來下一波浪潮,。
參考鏈接:
- https://the-decoder.com/microsoft-puts-gpt-4-ahead-of-gemini-ultra-again-using-googles-own-tricks/
- https://www.microsoft.com/en-us/research/blog/steering-at-the-frontier-extending-the-power-of-prompting/
免責(zé)聲明:本文來自網(wǎng)絡(luò)收錄或投稿,,觀點(diǎn)僅代表作者本人,不代表芒果財經(jīng)贊同其觀點(diǎn)或證實其描述,,版權(quán)歸原作者所有,。轉(zhuǎn)載請注明出處:http://lequren.com/1083229.html
溫馨提示:投資有風(fēng)險,入市須謹(jǐn)慎。本資訊不作為投資理財建議,。