A欧美国产国产综合视频_最近日本中文字幕免费完整_国产乱伦一级片_久久99国产综合精品婷婷_韩国理论片在线中文字幕一区二区_亚洲AV成人影片在线观看_亚洲av无码电影网_优物视频最新网址_天天艹无码天天射_脱下丝袜的极品销魂大胸美女王馨瑶91精品美女嫩模写真套图,男男被?到喷水18禁视频,欧美久久精品一级黑人c片 ,综合在线视频精品专区

又打臉！微軟用新的提示策略證明：GPT-4 領(lǐng)先于 Gemini Ultra – AI新智界

Yangz ? 2023年12月14日下午12:11 ? 人工智能 ? 閱讀 3653

微軟想要強(qiáng)調(diào)的,，也是 Gemini 發(fā)布時就已顯現(xiàn)出來的,，是兩個模型的性能其實是相當(dāng)?shù)摹?/p>

圖片來源：由無界 AI生成

簡直不講武德，繼上周推出號稱其“最新,、功能最強(qiáng)大”的 AI 模型 Gemini 后,，今日，谷歌宣布將向開發(fā)人員和組織提供 Gemini Pro 以及一系列新的人工智能工具、模型和基礎(chǔ)架構(gòu),。

首先,，Gemini Pro 可通過 Gemini API 提供給 Google AI Studio（免費(fèi)的基于 Web 的開發(fā)工具）的開發(fā)人員。企業(yè)也可以通過谷歌云的 Vertex AI 平臺進(jìn)行使用,。此外,，谷歌還將在 Vertex AI 中引入其他模型，幫助開發(fā)者和企業(yè)靈活構(gòu)建和發(fā)布應(yīng)用程序,，包括升級版的文生圖工具 Imagen 2,，以及針對醫(yī)療保健行業(yè)微調(diào)的基礎(chǔ)模型系列 MedLM。另外,，谷歌還宣布其面向開發(fā)人員的在線協(xié)作工具 Duet AI 已全面上線,。

作為對 OpenAI GPT-4 的回應(yīng)，谷歌 DeepMind 稱,，Gemini 的 Ultra 版本在 32 項標(biāo)準(zhǔn)性能指標(biāo)中,，有 30 項指標(biāo)都優(yōu)于 GPT-4。

然而,，發(fā)布還不到一天,，Gemini 就遭到了質(zhì)疑，不僅測試標(biāo)準(zhǔn)有失偏頗，連效果視頻也疑似剪輯,。

無獨(dú)有偶,，微軟今日發(fā)文更是把谷歌的臉打的啪啪響。微軟稱,，GPT-4 與特殊的提示策略相結(jié)合,，在語言理解基準(zhǔn) MMLU（衡量大規(guī)模多任務(wù)語言理解能力）中的表現(xiàn)優(yōu)于谷歌 Gemini Ultra。

微軟的反擊：復(fù)雜提示提高基準(zhǔn)性能

據(jù)悉,，Medprompt 是微軟最近推出的一種提示策略,，最初是針對醫(yī)療挑戰(zhàn)而開發(fā)的。不過,，微軟的研究人員發(fā)現(xiàn),，它也適用于更廣泛的應(yīng)用。

通過使用改進(jìn)版的 Medprompt 運(yùn)行 GPT-4,，微軟在 MMLU 基準(zhǔn)測試中獲得了新的技術(shù)水平 (SoTA) 分?jǐn)?shù),。根據(jù)報告，GPT-4 在 MMLU 中的表現(xiàn)達(dá)到了 90.10% 的歷史新高,，超過了 Gemini Ultra 的 90.04%,。

注：MMLU 基準(zhǔn)測試是一項常識和推理的綜合測試。它包含數(shù)學(xué),、歷史,、法律、計算機(jī)科學(xué),、工程和醫(yī)學(xué)等 57 個學(xué)科領(lǐng)域的數(shù)萬個題目,。它被認(rèn)為是語言模型最重要的基準(zhǔn)。

據(jù)悉,，最初將原始 Medprompt 應(yīng)用于 GPT-4 在綜合 MMLU 上的得分率為 89.1%。而通過將 Medprompt 中的集合調(diào)用次數(shù)從 5 次增加到 20 次,，GPT-4 在 MMLU 上的表現(xiàn)進(jìn)一步提高到 89.56%,。為了達(dá)到新的 SoTA，微軟的研究人員將 Medprompt 擴(kuò)展為 Medprompt+,，方法是在 Medprompt 中添加一種更簡單的提示方法,，并制定一種策略，將 Medprompt 基本策略和更簡單的提示方法的答案結(jié)合起來,，得出最終答案,。

除了 MMLU 基準(zhǔn)測試之外，微軟還發(fā)布了其他基準(zhǔn)測試的結(jié)果,，使用這些基準(zhǔn)測試中常見的簡單提示來顯示 GPT-4 與 Gemini Ultra 的性能比較,。據(jù)稱,，GPT-4 在使用這種測量方法的多個基準(zhǔn)測試中表現(xiàn)均優(yōu)于 Gemini Ultra,，包括 GSM8K,、MATH、HumanEval,、BIG-Bench-Hard,、DROP 和 HellaSwag。

微軟表示,，雖然系統(tǒng)化的提示工程可以產(chǎn)生最高性能，但其仍在探索使用簡單提示的前沿模型開箱即用性能,。微軟稱,，重要的是，要關(guān)注 GPT-4 的原生功能,，以及如何利用零次或少量提示策略引導(dǎo)模型,。如上圖所示，在采用更復(fù)雜,、更昂貴的方法之前,，從簡單的提示開始有助于建立基線性能。

據(jù)悉,，微軟已在名為 Promptbase 的 GitHub 中發(fā)布了 Medprompt 和類似的提示策略,，包含腳本、通用工具和信息,，可幫助重現(xiàn)上述測試結(jié)果,。

需要留意的是，在實際應(yīng)用中,，這些基準(zhǔn)中的微小差異可能不會有太大影響,，畢竟它的目的是用來公關(guān)的。微軟想要強(qiáng)調(diào)的,，也是在 Gemini?Ultra 發(fā)布時就已經(jīng)顯現(xiàn)出來的,，是兩個模型的性能其實是相當(dāng)?shù)摹?/p>

可能正如比爾·蓋茨最近所說的那樣，當(dāng)前形式的 LLM 技術(shù)已經(jīng)達(dá)到了極限,?；蛟S要等到 GPT-4.5 或 GPT-5 的出現(xiàn)，才有可能迎來下一波浪潮,。

參考鏈接：

https://the-decoder.com/microsoft-puts-gpt-4-ahead-of-gemini-ultra-again-using-googles-own-tricks/
https://www.microsoft.com/en-us/research/blog/steering-at-the-frontier-extending-the-power-of-prompting/

免責(zé)聲明：本文來自網(wǎng)絡(luò)收錄或投稿,，觀點(diǎn)僅代表作者本人，不代表芒果財經(jīng)贊同其觀點(diǎn)或證實其描述,，版權(quán)歸原作者所有,。轉(zhuǎn)載請注明出處：http://lequren.com/1083229.html
溫馨提示：投資有風(fēng)險，入市須謹(jǐn)慎。本資訊不作為投資理財建議,。

微軟