文章來源：硅星人Pro

圖片來源：由無界AI生成

上海人工智能研究室（下簡稱上海 AI Lab）在徐匯區(qū)云錦路上有11幢樓,。這里有6000張GPU，也是這座城市在人工智能領(lǐng)域的中心,。

這是上海想要抓住的一條新的“黃河路”,。今年六月的2023世界人工智能大會，這里是其中一個分會場,。那時全球有30多款大模型在上海聚攏?，F(xiàn)在國內(nèi)的大模型數(shù)量已經(jīng)超過了200個。

“你看那邊,，看到那個麥當(dāng)勞了嗎,，他前面黑色的那些建筑群，就是上海 AI Lab了,?！睆那盀┨爬锏奶鞓蛏峡梢噪[約看到那里，高梵大致指了指,。

圖源：小紅書用戶@APP

高梵是愛丁堡大學(xué)AI方向的研究生，今年即將畢業(yè),，在2023年末回到國內(nèi),。他是當(dāng)下比較新的一個大模型評測基準CoT Hub的核心構(gòu)建者之一,。CoT Hub這個項目的發(fā)起者是符堯，在這之前,，符堯另一項矚目的工作是C-Eval,，大模型中文能力上標志性的評測基準。

OpenAI上九天攬月也下五洋捉鱉,，一邊琢磨著下一代GPT,，一邊用GPT Store吃用戶，Meta對Llama 2可商用的政策（7億用戶以下）,，又再次打擊了國內(nèi)在Llama 2出現(xiàn)之前就訓(xùn)出來了的大模型們,。

高懸的達摩克利斯之劍不止一把，吊足觀眾胃口,，也急迫地為國內(nèi)大模型玩家設(shè)定了生命線,。

“外面看氣派吧，其實里面內(nèi)飾挺簡陋的,?！?/p>

高梵說的是上海 AI Lab那十多幢樓，聽上去也是目前國內(nèi)大模型群體性的反差感,。

這句話的背景是,，在一些知名的大模型評測基準的榜單上，GPT-3.5,、Claude-2甚至GPT-4能夠落到10名開外,，一些名不見經(jīng)傳的名字則在榜單前列輪流坐莊。

“刷榜是我們的一個陋習(xí),?！比ツ?1月，元象XVERSE科技創(chuàng)始人姚星直言不諱,。

這也是這次我和高梵見面的目的,，想向一位靠近C-Eval又設(shè)計過評測基準的人請教一下這件事。

首先,，這玩意兒到底是怎么測的,？

“C-Eval早被刷爛了”

“我的意思是，你們做評測基準,，還自己花這個錢來測嗎,？”

評測分兩種，自己測或是提交,，“C-Eval嘛,，大多數(shù)是后者”，高梵說。

包括愛丁堡大學(xué)在內(nèi),，英國一所高校在GPU上的存量大概在200-400張的區(qū)間,，美國多一些，沙特更多,，中國則更少,。如果只考慮不做工程優(yōu)化的那種無腦跑，一張卡一個任務(wù)集可能要跑一天,，這個計算成本和時間成本都是很高的。所有通常,，這些卡和資金有限的學(xué)術(shù)性評測基準團隊,，只能是靠著大模型公司拿著論文自己跑測試，然后把評分匯總給評測基準團隊,。

自己提交,，那跑榜單這件事的變量就多了。

“符堯很敏銳,，這是件用愛發(fā)電的事,，但結(jié)果是C-Eval被刷慘了”，高梵說,。

符堯是高梵在愛丁堡大學(xué)的學(xué)長,。C-Eval開始構(gòu)建的時候他還不認識付堯，但高梵知道C-Eval做的很早,，早到甚至像是Chatgpt出現(xiàn)之前就開始的項目,，所以當(dāng)今年年初大量意在做中文能力評測的評測基準都仍然在做著英文數(shù)據(jù)集簡單粗暴的的翻譯工作時，C-Eval第一個從零開始構(gòu)建了自己的數(shù)據(jù)集,，用大量時間和人工標注把數(shù)據(jù)集堆上去,，然后一下子成了中文大模型中標志性的評測基準。

C-Eval對自己的聲明? 圖源：C-Eval

C-Eval很快成為這一波大模型熱潮里最被廣泛認可的榜單之一,。然后很快，它也是最先被刷爛的榜單,。

6月份的C-Eval榜單上,，ChatGLM 2超過GPT-4排名第一，第三名是商湯的日日新,。

7月,，APUS天燕大模型和容聯(lián)云赤兔大模型緊隨排名第二的GPT-4沖進前六。一個月后,，C-Eval榜單的榜眼位置換成了一家成立僅兩個月的初創(chuàng)公司共生矩陣,。又過了一個月，這份榜單上力壓GPT-4的國產(chǎn)大模型突然增加到8個。

從10月開始,，GPT-4在C-Eval上的平均分掉出前十,。

幾乎每一個國產(chǎn)大模型的推出，都會從一份亮眼的C-Eval分數(shù)開始,。幾個月前見到智源研究院的林詠華時,，她直言幾個權(quán)威的榜已經(jīng)被刷的太嚴重，失去了參考價值,，其中提到C-Eval,。

百川智能在8月拋棄了C-Eval，因為那時候如果不作弊,，百川模型的分數(shù)就只有50多分,。一個GPT-4只能拿到70分的評測基準，50分對于一家創(chuàng)業(yè)不到半年的初創(chuàng)公司來說已經(jīng)可喜,，但這樣的“低分”連前10都進不了,，在國內(nèi)模型排名里會排在很后面?！暗覀冇植辉敢庾鞅住?，一位百川智能的內(nèi)部人士說。

這種“作弊”高分可以用刷題實現(xiàn),，并且大量進入C-Eval榜單前列的大模型都是這么做的,。“這幾乎已經(jīng)是公開的秘密”,，高梵說,。

很早就有人關(guān)注到這一點。一篇《Rethinking Benchmark and Contamination for Language Models with Rephrased Samples》的論文里顯示出來的跡象是,，一些輕微的數(shù)據(jù)泄露——訓(xùn)練集和測試集之間的數(shù)據(jù)重疊——就可能導(dǎo)致評估結(jié)果的顯著提升,。

當(dāng)數(shù)據(jù)泄露情況發(fā)生，大模型會過度適應(yīng)這些它“背到過”的訓(xùn)練數(shù)據(jù),。這會讓小參數(shù)模型表現(xiàn)超過大參數(shù)模型,，也會讓差的模型得分比優(yōu)秀的模型表現(xiàn)更好，這最終會導(dǎo)致對模型性能的不可靠評估,。這種重疊不只發(fā)生在詞句上,，也就是說，把一些題中的原詞作原意替換放進去訓(xùn)練,，這種數(shù)據(jù)污染的情況仍然存在,。

這會造成一定程度的過擬合，也就是讓模型在訓(xùn)練數(shù)據(jù)上學(xué)習(xí)到了過多的細節(jié),，以至于它開始記憶特定的數(shù)據(jù)點,，而不是學(xué)習(xí)到數(shù)據(jù)背后的一般規(guī)律或模式。

智源研究院內(nèi)部的研究表明，這種刷分所造成的過擬合現(xiàn)象,，可能會影響模型本身的“智力”,。這種擔(dān)心很可能是正確的。

去年11月,，中國人民大學(xué)和美國伊利諾伊大學(xué)厄巴納-香檳分校的聯(lián)合團隊曾經(jīng)選取了當(dāng)時市面上流行的幾個大模型,，控制變量的來測試它們刷題后的表現(xiàn)變化。結(jié)果是經(jīng)過泄露數(shù)據(jù)訓(xùn)練的大語言模型在文本生成和代碼合成任務(wù)上的表現(xiàn)都有不同程度的下降,。

OpenLLaMA-3B和LLaMA-2-7B在XSum任務(wù)上的ROUGE-L分數(shù)分別從0.19和0.25降低,。這種能力衰退哪怕在用Alpaca和CodeAlpaca數(shù)據(jù)集再次對模型進行指令微調(diào)都調(diào)不回來。

刷題這件事像是從NLP和CV時代就延續(xù)下來的肌肉記憶,。最近的一個新模型的發(fā)布會現(xiàn)場,，創(chuàng)始人出來，聊到刷分,，說團隊奔著刷分訓(xùn)了一個“應(yīng)試教育”版本，分數(shù)超過GPT-4,，技術(shù)人員還跟他說——分夠嗎,，不夠還能再往上拔點。這位創(chuàng)始人當(dāng)然是當(dāng)作玩笑講的這件事,。但等到了模型介紹,，第一句話仍然是“模型在各種榜單上SOTA”，他自己也有些哭笑不得,。

圖源：LessWrong

“那‘做題’這件事，能一條路走到黑嗎,？”

“如果能設(shè)計出那種足夠接近ground truth的數(shù)據(jù)集的話”,，高梵說。

但那意味著一個超級大的題庫,，比C-Eval這樣的要大得多,。C-Eval里面已經(jīng)包含了多達超過100個任務(wù)，BBH有200多個任務(wù),。這也是為什么C-Eval多是大模型公司自己測完提交——能否完整跑下來這樣的測試集本來就是一種門檻,。

“更何況測試基準的影響因素遠不止做題這一件事?！?/p>

脆弱的評測

“如果測試不在一種統(tǒng)一標準下進行的話,，你會發(fā)現(xiàn)這個變量簡直是無限多——溫度，你的解碼策略,、Prompt（提示詞）等等等等……每個榜單都會有標準的建議實現(xiàn),，但它不一定是你這個模型表現(xiàn)最好的形式。”

高梵舉了個例子,。

比如做多選題,，有的測試方法是把題庫的答案變成一串字母排列（A/B/C/D或多選），然后拿著生成的字母序列去和正確的序列相比,，看這整個一串答案的正確率,。也有直接測“The answer is”后面那個Token的，比如說正確答案是A,，你只要測出來是a的概率大于B和C,，就算你答對這道題——哪怕它其實并不知道為什么選A。

“光解碼策略就有n個方法,，而且除了測ABCD的概率,，還有測帶不帶括號的概率——偏好有很多種，這個其實挺復(fù)雜的,?！?/p>

Anthropic的一篇技術(shù)論文也在說同樣的事。Claude團隊表示,，對簡單的格式變化敏感,，例如將選項從 (A) 更改為 (1)，或者在選項和答案之間添加額外的空格,，這些做法都可能導(dǎo)致評估準確率約有 5% 的浮動,。

但退一步講，如果所有模型都按一個方法測也可以,，這是每個測評基準遇到的一樣的問題,。

這也是為什么HuggingFace這么受到推崇的原因之一，他們有足夠的卡,，并且提供了一套全自動的模型能力評測框架,。這意味著不管模型經(jīng)過了什么“討巧”的訓(xùn)練，至少在評測這個環(huán)節(jié)上他們能夠被放在同一個水平線上,。

“但HuggingFace上的評測也不是沒出過事故吧,。”

我記得有這樣一起“事故”,。當(dāng)時的背景是,，F(xiàn)alcon的分數(shù)很高，Llama1-65B在Open LLM Leaderboard（HuggingFace的自動化模型榜單）上MMLU的分數(shù)異常的低,。最后研究下來原因僅僅是自動化測評框架有一個Bug,。這個錯誤很快被修復(fù)了，但仍然在社區(qū)里引起了一番討論,。

圖源：X

CoT Hub本身也是這起事件的主角之一,，正是他們發(fā)起了對Llama1-65B在MMLU上表現(xiàn)的再次測試。

一個自動化腳本的Bug,，導(dǎo)致這個模型在MMLU上的正確率降了20%,，也就是刷分成績掉了20分——要知道GPT-4在MMLU上減掉20分后，連GPT-3.5Turbo都不如,。

這個測試事故或許能反映出來測評這件事本身是多么脆弱易碎,。

“但總歸，這是目前最好的辦法,，CoT Hub未來也可能朝全自動化的方式更新一版”,，高梵說。

“不過,，最大的變量其實是Prompt,。”風(fēng)大的很,，我們躲進了對面的一家書店,。

最大的問題是Prompt

蔦屋書店在前灘太古里的這家店是上海的第二家門店，到現(xiàn)在已經(jīng)開了兩年多,。時下的暢銷書多擺在動線上的黃金位置,，現(xiàn)在多了很多“ChatGPT”和“AIGC”的字眼。

最先活躍起來的布道者們已經(jīng)把新時代扯到嗓子眼了,，但對普通人來說又什么都還未來臨。

幾個星期前,，我見到了其中一本暢銷書的作者,，他對于2024年生成式AI最篤定的預(yù)測是——AI網(wǎng)紅。聽起來靠譜又無聊,。如果寫書,、賣課算是某種程度的布道，賺新時代的頭金,，模型評測則是另一種,，這些榜單像是淘金者從西部回來的第一批承銷商。

“這意味著什么,，關(guān)于剛才說的Prompt,？”

“提示詞的敏感度是很高的?！备哞笳f,，“什么意思呢，比如Claud的系列模型,，我光是Prompt改一改,，對評測分數(shù)的擾動就會有10%,。”

測試時怎么用Prompt有很多“坑”,，里面很多是工程問題,。比如MMLU——你可以理解成它是一個做多選題的題庫，然后你要知道被測的模型做出了怎樣的回答,。這個答案回收的過程,，大部分的評測基準只是做一個字符串的匹配，但這個方式其實很不穩(wěn)定,，考慮到對于測評結(jié)果提取位置的精確性上甚至有點“災(zāi)難”,。

提取字符串這件事的邏輯，人類大腦看來很簡單,，但這只說明人類大腦的高明罷了,。

“如果模型的回答是‘選b’，那‘b’這個字符可以輕松被提取出來,。但如果模型的回答是‘不應(yīng)該選c,，應(yīng)該選b’呢，這時候答案是‘b’,、‘c’還是‘b&c’,？”

這就需要讓模型符合規(guī)范的回答，比如在模型的Few-Shot例子中都以“Answer: ”來訓(xùn)練,。這樣一來,，似乎在“Answer: ”字符串后面的就應(yīng)該是模型想要的回答。但高梵和團隊成員的測試結(jié)果是,，這個方法對GPT家族的模型效果都不錯,，因為GPT不喜歡亂說話。但是對Claude或者Llama家族模型,，可能會產(chǎn)生 “這道題選b是不對的,，應(yīng)該選c” 這樣不按常理出牌的回答。

“哪怕你再囑咐它‘你不要說別的’也沒有用,，這個時候提取器就會失效——只有GPT-4可以以接近人類的理解能力進行答案提取,，但是不會這么去測試，因為成本不可能劃得來,?！?/p>

為了解決模型不亂說話的問題，需要一些Prompt的技巧,，而CoT Hub在測試后發(fā)現(xiàn),，在Claude優(yōu)化前和優(yōu)化后能有10%的擾動。這幾乎是貫穿大模型評測這件事的一個不可控的風(fēng)險,。

為了公平起見,，在大模型評測時,，理論上應(yīng)該遵循相同的答案提取規(guī)則。開源社區(qū)是這么做的,，為了對所有模型一視同仁,，開源社區(qū)默認的只有一個提取規(guī)則，比如 “Answer: ”,。

但這又成了一件矛盾的事,，一個評測基準到底該為了保證公平而堅持用相同提取器和提示詞的組合來測試所有模型，還是為了度量模型的潛力,？

前者由于太多的變量參雜看起來缺乏橫向比較的意義,。如果是為了后者，Prompt如何擠壓出一個大模型的性能上限,，需要更多精細的研究,。

圖源：arXiv

“尋找Prompt的最優(yōu)解,，可以說我們那時候最多的精力都花在這上面,。”

這是一個正在越來越被重視的研究方向,。平庸的Prompt本身就存在著無法調(diào)動出大模型能力上限的可能性,，尋找并且驗證Prompt的最優(yōu)解這件事任重道遠。

CoT Hub嚴格來講現(xiàn)在一共就4個人,，但是每個階段的參與者不一樣,。一開始符堯和他帶的幾個本科生開始動手寫基礎(chǔ)代碼，后來幾位本科生因為別的事離開,，高梵加入,。

聽高梵的描述，這是個比較松散的項目,，每天寫個兩三小時代碼，每周開一次會,。按高梵的說法,，“反正就零零散散做著”。這個項目從2月發(fā)起,，到5月成型,，在10月上了GitHub，到現(xiàn)在也有超過2000顆星,。

每個研究都有它的時代背景,。在CoT Hub之前，大部分的大模型評測都是以Zero-Shot和單輪對話的方式來做的,，也就是在一次對話動作中提出問題并且得到答案,。但這樣的簡單方法容易被針對性訓(xùn)練,，并且在大模型更高級的性能考察上缺乏區(qū)分度。

CoT Hub沒有做新的數(shù)據(jù)集,，只是把市面上優(yōu)質(zhì)的數(shù)據(jù)集拿來,，打磨合適的Prompt，把原先Zero-Shot的方式轉(zhuǎn)換成多輪對話,，以及對CoT能力的考察,。

任務(wù)復(fù)雜后，模型的性能進一步分出層次,。CoT Hub團隊在當(dāng)時得出的結(jié)論是,，開源的Llama-65B模型性能已經(jīng)非常接近code-davinci-002，也就是GPT-3.5的基礎(chǔ)模型,。但即便如此,，開源模型和封閉模型的差距還是很大。而在真正有挑戰(zhàn)性的數(shù)據(jù)集上（比如Big-Bench-Hard）,，小參數(shù)模型與大參數(shù)模型的差距十分驚人,，而不是像一些文章或者灌水論文中所說，前者可以“以小搏大”的復(fù)現(xiàn)大參數(shù)模型的性能,，甚至直追ChatGPT,。

看起來“幻覺”這件事，不僅出現(xiàn)在模型上,，也出現(xiàn)在榜單上,。但后者何嘗不是對人類大腦幻覺的一種映射呢。

最終我們要測的是超越人類的智能,，能測么,？

一位活在二維世界里，謙卑的平面國居民“正方形”先生某一天遇到了從三維國前來傳福音的“球”先生,，“球”先生可以輕松的看到“正方形”先生的身體內(nèi)部,，甚至穿過它，就像用手指從上方捅破一張紙,。但后者卻無法理解這一切,。

圖源：知乎@李想

這是我對大模型評測這件事最大的疑問：

如果對大模型的期望是奔著AGI而去,，那該怎么用人類設(shè)計的評價標準來衡量或者描述一種比人類更高級的智能,？

高梵提供了一種思路：這件事或許可以理解成，如何找到一種方式幫助人類去監(jiān)督大模型的表現(xiàn),，并且讓這種監(jiān)督有足夠的擴展性,。

“比如我們要讓一個小學(xué)學(xué)歷的數(shù)據(jù)標注員能夠?qū)δＰ驮贛MLU上的表現(xiàn)作出判斷，如果這件事成立,，那或許就可以拓展到人類極限去看超越人類極限的測試結(jié)果”,，高梵說,。

他給我看了一個很有趣的工作——準確的說是一個的Demo——關(guān)于如何讓一個非程序員在有了一些特別的的工具后能夠像程序員一樣來標記數(shù)據(jù)集。

在OpenAI在12月發(fā)出的一篇關(guān)于超級對齊（Superalignment）的論文里,，展示了一種用GPT-2去監(jiān)督GPT-4的方法,，這與前面的例子一樣都是“弱”監(jiān)督“強”的邏輯。

這件事屬于可監(jiān)督拓展（scalable oversight）的范疇——去年7月OpenAI首次公布超級對齊計劃時有所提及——關(guān)于如何監(jiān)督一個在特定領(lǐng)域表現(xiàn)超出人類的系統(tǒng),，并且尋找它能夠大規(guī)模scale上去的可能性,。可監(jiān)督拓展是對齊領(lǐng)域的一個分支,，有一些研究者在推進這方面的研究,，其中有一位是NYU的教授，“他同時在Anthropic兼任做指導(dǎo)”,。

現(xiàn)在領(lǐng)導(dǎo)著OpenAI“超級對齊”部門的則是伊爾亞,，但在一個月前OpenAI內(nèi)部兵變之后處境尷尬，也很少在X上更新動態(tài),。

他“消失”前最后一個工作,，就是OpenAI那篇關(guān)于“超級對齊”的論文。論文里提到了另一種大模型超越人類的探索：辯論,。

高梵最關(guān)注這個,。

“可是——辯論？”

“人類有兩條線,，一條是形式語言上的,，也就是邏輯學(xué)范疇，這條線延伸到現(xiàn)在就是計算機語言,。與之平行的還有另一條非形式語言的線——那些關(guān)于語用學(xué),、語義學(xué)、修辭學(xué)的東西——發(fā)展到現(xiàn)在就和辯論的藝術(shù)有關(guān),，比如法學(xué),。”

“辯論能力以及說服能力,，這是目前在AI智識中還未被定義清楚的能力,。但既然推理能力能夠被定義清楚，同層次的辯論理論上也是應(yīng)該能遷移到語言模型上的,，只是現(xiàn)在的研究還太淺?！?/p>

我記得GPT-4剛出的那兩個月里曾經(jīng)冒出來過一篇論文,，論文作者讓大語言模型扮演賣氣球這個任務(wù)中的買賣雙方，再加一個大模型“評論家”為買賣雙方提供反饋意見,，氣球價格從20美元起跳,，來看最后會被砍刀什么價格,。

從實驗內(nèi)容上，這在考研大模型的辯論能力,，從評論家角度,，這個實驗跟用GPT-2監(jiān)督GPT-4有點像，是可監(jiān)督擴展中很有代表性的路線,。這篇論文的作者也是符堯,，這位C-Eval的“始作俑者”，下一站是谷歌的Gemini,。

這些模型基準遇到的問題和設(shè)計者們在嘗試的思路,，甚至“始作俑者”的工作選擇，都在說明一件事：大模型最終不會停留在這些多選題和榜單上,。

而真正在做大模型的公司也早已經(jīng)有了自己的方法,。外部公開的評測基準現(xiàn)在更多的角色是一種面向公眾的宣傳手段（甚至連ToVC都算不上），而在大模型公司內(nèi)部,，他們往往有一套更有針對性的評測基準,。

一位在當(dāng)下非常受矚目的某大模型公司做產(chǎn)品負責(zé)人的朋友說，這套內(nèi)部的評測基準,，需要非常漫長的調(diào)試才能成型,，它實際上是一家大模型公司最核心的資產(chǎn)，為自己模型的訓(xùn)練和迭代提供方向,。

“評測基準從一開始的滯后,，到后來成為一種被利用的工具而逐漸泡沫化，現(xiàn)在最泡沫的時期也差不多要過去了”,，高梵說,。

“最終，用戶會用腳投票的”,。

免責(zé)聲明：本文來自網(wǎng)絡(luò)收錄或投稿,，觀點僅代表作者本人，不代表芒果財經(jīng)贊同其觀點或證實其描述,，版權(quán)歸原作者所有,。轉(zhuǎn)載請注明出處：http://lequren.com/1088731.html
溫馨提示：投資有風(fēng)險，入市須謹慎,。本資訊不作為投資理財建議,。