亚洲欧美日韩自偷自拍,日日摸夜夜添夜夜添国产三级

作者：一號(hào)

編輯：美美

圖片來(lái)源：由無(wú)界 AI生成

從手機(jī)到大模型,，國(guó)內(nèi)產(chǎn)品為啥都這么熱衷跑分,？

IDCAI大模型技術(shù)能力評(píng)估，12項(xiàng)指標(biāo),，7項(xiàng)滿分,，文心大模型3.5“大滿貫”；360智腦在SuperCLUE評(píng)測(cè)中多項(xiàng)能力位列國(guó)產(chǎn)大模型第一,，某些方面甚至跑贏了GPT-4,；夸克大模型在C-Eval和CMMLU兩大權(quán)威評(píng)測(cè)榜單中名列第一,，顯示出其在寫(xiě)作、考試等部分場(chǎng)景中甚至優(yōu)于GPT-4……

今年以來(lái),，國(guó)產(chǎn)AI大模型發(fā)展趨勢(shì)之迅猛,，不得不讓人感慨。截至目前,，國(guó)產(chǎn)大模型數(shù)量已經(jīng)超過(guò)了200個(gè),，而且，這些大模型紛紛表現(xiàn)不俗,，從百度文心一言到阿里巴巴的夸克大模型,，國(guó)產(chǎn)AI在各類評(píng)測(cè)榜單上的表現(xiàn)引人注目。有人對(duì)此評(píng)價(jià),，“跑分沒(méi)輸過(guò),，體驗(yàn)沒(méi)贏過(guò)”。

這種似曾相識(shí)的“跑分”現(xiàn)象,，不禁讓人想到手機(jī)市場(chǎng)里類似的做法,。這種在評(píng)測(cè)中名列前茅、表現(xiàn)出色,，但實(shí)際用戶體驗(yàn)一言難盡的情況,，究竟意味著什么？

為何跑分與體驗(yàn)不符?

回顧手機(jī)市場(chǎng),，“跑分沒(méi)輸過(guò),，體驗(yàn)沒(méi)贏過(guò)”這句話最開(kāi)始就是從手機(jī)圈中興起的，各大廠商通過(guò)不斷疊加定語(yǔ),，來(lái)讓自己獲得第一,；還有的手機(jī)會(huì)自動(dòng)識(shí)別跑分軟件，針對(duì)性地開(kāi)啟性能模式,，讓自己的跑分?jǐn)?shù)據(jù)好看些,，從而實(shí)現(xiàn)“作弊”。用戶買到跑分高的手機(jī)后,，實(shí)際體驗(yàn)并不是那么回事,。

而在AI大模型領(lǐng)域，評(píng)估標(biāo)準(zhǔn)則相對(duì)公平,，并且是同意的,，其中包括MMLU（用于衡量多任務(wù)語(yǔ)言理解能力）、Big-Bench（用于量化和外推LLMs的能力）,，以及AGIEval(用于評(píng)估人類級(jí)任務(wù)的能力）,。

目前國(guó)內(nèi)廠商經(jīng)常飲用的榜單就是SuperCLUE,、CMMLU和C-Eval，其中C-Eval是由清華大學(xué),、上海交通大學(xué)和愛(ài)丁堡大學(xué)合作構(gòu)建的綜合性考試評(píng)測(cè)集,，CMMLU則是MBZUAI、上海交通大學(xué),、微軟亞洲研究院共同推出,，至于SuperCLUE，則是由各大高校的AI專業(yè)人士設(shè)立的,。

盡管大模型的評(píng)測(cè)標(biāo)準(zhǔn)相對(duì)公平,，但其仍有一定的局限性，實(shí)際的測(cè)評(píng)之中總會(huì)出現(xiàn)問(wèn)題,，其中一個(gè)最大的問(wèn)題就是“考題泄露”,。

大模型評(píng)測(cè)的一個(gè)主要方法就是做題。為了讓評(píng)測(cè)相對(duì)透明公開(kāi),，避免暗箱操作,，評(píng)測(cè)機(jī)構(gòu)通常會(huì)將評(píng)測(cè)的方法,、標(biāo)準(zhǔn)甚至是題庫(kù)對(duì)外公開(kāi),。例如C-Eval榜單在上線之初就有13948道題目，由于題庫(kù)有限,，并且更新頻率不是特別高,，這就給了一些大模型刷題“鉆空子”的機(jī)會(huì)。

我們都知道,，如果在考試之前知道會(huì)考哪些題目,，那考生完全可以做針對(duì)性的學(xué)習(xí)，大模型也一樣,，并且大模型最擅長(zhǎng)的就是記憶,。在評(píng)測(cè)之前，把題庫(kù)直接加入大模型的訓(xùn)練集,，訓(xùn)練之后的大模型就能在評(píng)測(cè)中表現(xiàn)得比實(shí)際能力更好,，甚至跑出一些夸張的成績(jī)，例如1.3B的模型在某些任務(wù)上超越了10倍體量的大模型,。

那么這樣的評(píng)測(cè)結(jié)果,，跟實(shí)際體驗(yàn)一定會(huì)很不相符。

為何熱衷于跑分,？

無(wú)論是國(guó)產(chǎn)手機(jī)廠商還是AI大模型公司,，他們對(duì)跑分的熱衷,，本質(zhì)上是一種營(yíng)銷策略。跑分成績(jī)?nèi)菀妆涣炕?、?duì)比,，因此成為了向公眾展示技術(shù)實(shí)力的便捷手段。這種做法在短期內(nèi)可能會(huì)吸引消費(fèi)者和投資者的注意,，但它也可能引起誤導(dǎo),，使人們過(guò)分關(guān)注理論性能，而忽視了實(shí)際應(yīng)用中的體驗(yàn)和效能,。

這種營(yíng)銷策略的問(wèn)題在于,，它可能導(dǎo)致公司本末倒置，過(guò)分投入于提高特定測(cè)試的分?jǐn)?shù),，而非真正的技術(shù)創(chuàng)新,。在手機(jī)行業(yè)，這可能意味著優(yōu)化設(shè)備性能以提升特定跑分軟件的測(cè)試成績(jī),；在AI領(lǐng)域,，則可能表現(xiàn)為優(yōu)化模型以應(yīng)對(duì)評(píng)測(cè)榜單的特定題目。這種做法雖然能在短期內(nèi)提高產(chǎn)品在評(píng)測(cè)榜單上的排名,，但卻可能忽視了產(chǎn)品在真實(shí)使用環(huán)境中的性能和用戶體驗(yàn),。

這種以跑分為核心的營(yíng)銷策略需要被重新審視。盡管高分成績(jī)?cè)跔I(yíng)銷中具有吸引力,，但它們并不總是反映產(chǎn)品的真實(shí)價(jià)值,。對(duì)于消費(fèi)者而言，理論上的高性能與日常使用中的實(shí)際體驗(yàn)之間往往存在差距,。因此,，無(wú)論是手機(jī)行業(yè)還是AI領(lǐng)域，公眾和行業(yè)都應(yīng)該更加關(guān)注產(chǎn)品在真實(shí)世界中的表現(xiàn),。

要放棄跑分嗎,？

從隋唐的科舉到今天的高考，從國(guó)內(nèi)的四六級(jí)到國(guó)外的托福雅思,，考試在時(shí)間和空間的維度上,，都是一種相對(duì)公平的衡量機(jī)制。因此,，大模型評(píng)測(cè)作為大模型的“考試”,，同樣不能被輕易拋棄。

倘若評(píng)測(cè)相對(duì)準(zhǔn)確、靠譜,、權(quán)威,，那么對(duì)于所有的大模型公司來(lái)說(shuō)都是好事。研發(fā)者可以通過(guò)評(píng)測(cè)結(jié)果了解自家大模型的優(yōu)缺點(diǎn),，查漏補(bǔ)缺,，找到正確的方向鉆研算法、提升技術(shù),、加強(qiáng)訓(xùn)練,，不斷攻克，進(jìn)行優(yōu)化迭代,，從而讓產(chǎn)品更具有競(jìng)爭(zhēng)力,。

對(duì)于AI大模型開(kāi)發(fā)者而言，榜單的排名不應(yīng)該成為最終目的,，真正的挑戰(zhàn)在于如何將先進(jìn)的技術(shù)轉(zhuǎn)化為實(shí)際應(yīng)用中的有效工具,，這不僅僅是一場(chǎng)分?jǐn)?shù)的競(jìng)賽，更是對(duì)技術(shù)創(chuàng)新和實(shí)用性的追求,。我們期待一個(gè)更加全面和科學(xué)的評(píng)測(cè)體系的出現(xiàn),，這不僅能正確評(píng)估AI模型的實(shí)際能力，還能促進(jìn)整個(gè)行業(yè)向著更加健康,、理性的方向發(fā)展,。

免責(zé)聲明：本文來(lái)自網(wǎng)絡(luò)收錄或投稿，觀點(diǎn)僅代表作者本人,，不代表芒果財(cái)經(jīng)贊同其觀點(diǎn)或證實(shí)其描述,，版權(quán)歸原作者所有。轉(zhuǎn)載請(qǐng)注明出處：http://lequren.com/1081710.html
溫馨提示：投資有風(fēng)險(xiǎn),，入市須謹(jǐn)慎,。本資訊不作為投資理財(cái)建議,。