A欧美国产国产综合视频_最近日本中文字幕免费完整_国产乱伦一级片_久久99国产综合精品婷婷_韩国理论片在线中文字幕一区二区_亚洲AV成人影片在线观看_亚洲av无码电影网_优物视频最新网址_天天艹无码天天射_脱下丝袜的极品销魂大胸美女王馨瑶91精品美女嫩模写真套图,男男被?到喷水18禁视频,欧美久久精品一级黑人c片 ,综合在线视频精品专区

人民網(wǎng)

跑分沒輸過,,體驗沒贏過,,大模型刷分何時休,? – AI新智界

作者:一號

編輯:美美

跑分沒輸過,,體驗沒贏過,大模型刷分何時休,? – AI新智界

圖片來源:由無界 AI生成

從手機到大模型,國內(nèi)產(chǎn)品為啥都這么熱衷跑分?

IDCAI大模型技術(shù)能力評估,,12項指標,7項滿分,,文心大模型3.5“大滿貫”,;360智腦在SuperCLUE評測中多項能力位列國產(chǎn)大模型第一,某些方面甚至跑贏了GPT-4,;夸克大模型在C-Eval和CMMLU兩大權(quán)威評測榜單中名列第一,,顯示出其在寫作、考試等部分場景中甚至優(yōu)于GPT-4……

跑分沒輸過,,體驗沒贏過,,大模型刷分何時休? – AI新智界

今年以來,,國產(chǎn)AI大模型發(fā)展趨勢之迅猛,,不得不讓人感慨。截至目前,,國產(chǎn)大模型數(shù)量已經(jīng)超過了200個,,而且,這些大模型紛紛表現(xiàn)不俗,,從百度文心一言到阿里巴巴的夸克大模型,,國產(chǎn)AI在各類評測榜單上的表現(xiàn)引人注目。有人對此評價,,“跑分沒輸過,,體驗沒贏過”。

這種似曾相識的“跑分”現(xiàn)象,,不禁讓人想到手機市場里類似的做法,。這種在評測中名列前茅、表現(xiàn)出色,,但實際用戶體驗一言難盡的情況,,究竟意味著什么?

為何跑分與體驗不符?

回顧手機市場,,“跑分沒輸過,,體驗沒贏過”這句話最開始就是從手機圈中興起的,,各大廠商通過不斷疊加定語,來讓自己獲得第一,;還有的手機會自動識別跑分軟件,,針對性地開啟性能模式,讓自己的跑分數(shù)據(jù)好看些,,從而實現(xiàn)“作弊”,。用戶買到跑分高的手機后,實際體驗并不是那么回事,。

而在AI大模型領(lǐng)域,,評估標準則相對公平,并且是同意的,,其中包括MMLU(用于衡量多任務(wù)語言理解能力),、Big-Bench(用于量化和外推LLMs的能力),以及AGIEval(用于評估人類級任務(wù)的能力),。

跑分沒輸過,,體驗沒贏過,大模型刷分何時休,? – AI新智界

目前國內(nèi)廠商經(jīng)常飲用的榜單就是SuperCLUE,、CMMLU和C-Eval,其中C-Eval是由清華大學,、上海交通大學和愛丁堡大學合作構(gòu)建的綜合性考試評測集,CMMLU則是MBZUAI,、上海交通大學,、微軟亞洲研究院共同推出,至于SuperCLUE,,則是由各大高校的AI專業(yè)人士設(shè)立的,。

盡管大模型的評測標準相對公平,但其仍有一定的局限性,,實際的測評之中總會出現(xiàn)問題,,其中一個最大的問題就是“考題泄露”。

大模型評測的一個主要方法就是做題,。為了讓評測相對透明公開,,避免暗箱操作,評測機構(gòu)通常會將評測的方法,、標準甚至是題庫對外公開,。例如C-Eval榜單在上線之初就有13948道題目,由于題庫有限,,并且更新頻率不是特別高,,這就給了一些大模型刷題“鉆空子”的機會,。

我們都知道,如果在考試之前知道會考哪些題目,,那考生完全可以做針對性的學習,,大模型也一樣,并且大模型最擅長的就是記憶,。在評測之前,,把題庫直接加入大模型的訓練集,訓練之后的大模型就能在評測中表現(xiàn)得比實際能力更好,,甚至跑出一些夸張的成績,,例如1.3B的模型在某些任務(wù)上超越了10倍體量的大模型。

那么這樣的評測結(jié)果,,跟實際體驗一定會很不相符,。

為何熱衷于跑分?

無論是國產(chǎn)手機廠商還是AI大模型公司,,他們對跑分的熱衷,,本質(zhì)上是一種營銷策略。跑分成績?nèi)菀妆涣炕?、對比,,因此成為了向公眾展示技術(shù)實力的便捷手段。這種做法在短期內(nèi)可能會吸引消費者和投資者的注意,,但它也可能引起誤導,,使人們過分關(guān)注理論性能,而忽視了實際應(yīng)用中的體驗和效能,。

跑分沒輸過,,體驗沒贏過,大模型刷分何時休,? – AI新智界

這種營銷策略的問題在于,,它可能導致公司本末倒置,過分投入于提高特定測試的分數(shù),,而非真正的技術(shù)創(chuàng)新,。在手機行業(yè),這可能意味著優(yōu)化設(shè)備性能以提升特定跑分軟件的測試成績,;在AI領(lǐng)域,,則可能表現(xiàn)為優(yōu)化模型以應(yīng)對評測榜單的特定題目。這種做法雖然能在短期內(nèi)提高產(chǎn)品在評測榜單上的排名,,但卻可能忽視了產(chǎn)品在真實使用環(huán)境中的性能和用戶體驗,。

這種以跑分為核心的營銷策略需要被重新審視。盡管高分成績在營銷中具有吸引力,,但它們并不總是反映產(chǎn)品的真實價值,。對于消費者而言,,理論上的高性能與日常使用中的實際體驗之間往往存在差距。因此,,無論是手機行業(yè)還是AI領(lǐng)域,,公眾和行業(yè)都應(yīng)該更加關(guān)注產(chǎn)品在真實世界中的表現(xiàn)。

要放棄跑分嗎,?

從隋唐的科舉到今天的高考,,從國內(nèi)的四六級到國外的托福雅思,考試在時間和空間的維度上,,都是一種相對公平的衡量機制,。因此,大模型評測作為大模型的“考試”,,同樣不能被輕易拋棄,。

倘若評測相對準確、靠譜,、權(quán)威,,那么對于所有的大模型公司來說都是好事。研發(fā)者可以通過評測結(jié)果了解自家大模型的優(yōu)缺點,,查漏補缺,,找到正確的方向鉆研算法、提升技術(shù),、加強訓練,,不斷攻克,進行優(yōu)化迭代,,從而讓產(chǎn)品更具有競爭力,。

對于AI大模型開發(fā)者而言,,榜單的排名不應(yīng)該成為最終目的,真正的挑戰(zhàn)在于如何將先進的技術(shù)轉(zhuǎn)化為實際應(yīng)用中的有效工具,,這不僅僅是一場分數(shù)的競賽,,更是對技術(shù)創(chuàng)新和實用性的追求。我們期待一個更加全面和科學的評測體系的出現(xiàn),,這不僅能正確評估AI模型的實際能力,,還能促進整個行業(yè)向著更加健康、理性的方向發(fā)展,。

免責聲明:本文來自網(wǎng)絡(luò)收錄或投稿,,觀點僅代表作者本人,不代表芒果財經(jīng)贊同其觀點或證實其描述,,版權(quán)歸原作者所有,。轉(zhuǎn)載請注明出處:http://lequren.com/1081710.html
溫馨提示:投資有風險,,入市須謹慎。本資訊不作為投資理財建議,。

(0)
新火種的頭像新火種
上一篇 2023年12月5日 上午10:40
下一篇 2023年12月5日 上午11:33
198搶自鏈數(shù)字人

相關(guān)推薦