A欧美国产国产综合视频_最近日本中文字幕免费完整_国产乱伦一级片_久久99国产综合精品婷婷_韩国理论片在线中文字幕一区二区_亚洲AV成人影片在线观看_亚洲av无码电影网_优物视频最新网址_天天艹无码天天射_脱下丝袜的极品销魂大胸美女王馨瑶91精品美女嫩模写真套图,男男被?到喷水18禁视频,欧美久久精品一级黑人c片 ,综合在线视频精品专区

人民網(wǎng)

大語(yǔ)言模型評(píng)測(cè)是怎么被玩兒爛的,? – AI新智界

文章來(lái)源:硅星人Pro

大語(yǔ)言模型評(píng)測(cè)是怎么被玩兒爛的,? – AI新智界圖片來(lái)源:由無(wú)界AI生成

上海人工智能研究室(下簡(jiǎn)稱上海 AI Lab)在徐匯區(qū)云錦路上有11幢樓。這里有6000張GPU,也是這座城市在人工智能領(lǐng)域的中心,。

這是上海想要抓住的一條新的“黃河路”,。今年六月的2023世界人工智能大會(huì),,這里是其中一個(gè)分會(huì)場(chǎng),。那時(shí)全球有30多款大模型在上海聚攏。現(xiàn)在國(guó)內(nèi)的大模型數(shù)量已經(jīng)超過(guò)了200個(gè),。

“你看那邊,,看到那個(gè)麥當(dāng)勞了嗎,他前面黑色的那些建筑群,,就是上海 AI Lab了,。”從前灘太古里的天橋上可以隱約看到那里,,高梵大致指了指,。

大語(yǔ)言模型評(píng)測(cè)是怎么被玩兒爛的? – AI新智界

圖源:小紅書(shū)用戶@APP

高梵是愛(ài)丁堡大學(xué)AI方向的研究生,,今年即將畢業(yè),,在2023年末回到國(guó)內(nèi)。他是當(dāng)下比較新的一個(gè)大模型評(píng)測(cè)基準(zhǔn)CoT Hub的核心構(gòu)建者之一,。CoT Hub這個(gè)項(xiàng)目的發(fā)起者是符堯,,在這之前,符堯另一項(xiàng)矚目的工作是C-Eval,,大模型中文能力上標(biāo)志性的評(píng)測(cè)基準(zhǔn),。

OpenAI上九天攬?jiān)乱蚕挛逖笞谨M,一邊琢磨著下一代GPT,,一邊用GPT Store吃用戶,,Meta對(duì)Llama 2可商用的政策(7億用戶以下),又再次打擊了國(guó)內(nèi)在Llama 2出現(xiàn)之前就訓(xùn)出來(lái)了的大模型們,。

高懸的達(dá)摩克利斯之劍不止一把,,吊足觀眾胃口,也急迫地為國(guó)內(nèi)大模型玩家設(shè)定了生命線,。

“外面看氣派吧,,其實(shí)里面內(nèi)飾挺簡(jiǎn)陋的?!?/p>

高梵說(shuō)的是上海 AI Lab那十多幢樓,,聽(tīng)上去也是目前國(guó)內(nèi)大模型群體性的反差感。

這句話的背景是,,在一些知名的大模型評(píng)測(cè)基準(zhǔn)的榜單上,,GPT-3.5、Claude-2甚至GPT-4能夠落到10名開(kāi)外,一些名不見(jiàn)經(jīng)傳的名字則在榜單前列輪流坐莊,。

“刷榜是我們的一個(gè)陋習(xí),。”去年11月,,元象XVERSE科技創(chuàng)始人姚星直言不諱,。

這也是這次我和高梵見(jiàn)面的目的,想向一位靠近C-Eval又設(shè)計(jì)過(guò)評(píng)測(cè)基準(zhǔn)的人請(qǐng)教一下這件事,。

首先,,這玩意兒到底是怎么測(cè)的?

“C-Eval早被刷爛了”

“我的意思是,,你們做評(píng)測(cè)基準(zhǔn),,還自己花這個(gè)錢(qián)來(lái)測(cè)嗎?”

評(píng)測(cè)分兩種,,自己測(cè)或是提交,,“C-Eval嘛,大多數(shù)是后者”,,高梵說(shuō),。

包括愛(ài)丁堡大學(xué)在內(nèi),英國(guó)一所高校在GPU上的存量大概在200-400張的區(qū)間,,美國(guó)多一些,,沙特更多,中國(guó)則更少,。如果只考慮不做工程優(yōu)化的那種無(wú)腦跑,,一張卡一個(gè)任務(wù)集可能要跑一天,這個(gè)計(jì)算成本和時(shí)間成本都是很高的,。所有通常,,這些卡和資金有限的學(xué)術(shù)性評(píng)測(cè)基準(zhǔn)團(tuán)隊(duì),只能是靠著大模型公司拿著論文自己跑測(cè)試,,然后把評(píng)分匯總給評(píng)測(cè)基準(zhǔn)團(tuán)隊(duì),。

自己提交,那跑榜單這件事的變量就多了,。

“符堯很敏銳,,這是件用愛(ài)發(fā)電的事,但結(jié)果是C-Eval被刷慘了”,,高梵說(shuō),。

符堯是高梵在愛(ài)丁堡大學(xué)的學(xué)長(zhǎng)。C-Eval開(kāi)始構(gòu)建的時(shí)候他還不認(rèn)識(shí)付堯,,但高梵知道C-Eval做的很早,,早到甚至像是Chatgpt出現(xiàn)之前就開(kāi)始的項(xiàng)目,,所以當(dāng)今年年初大量意在做中文能力評(píng)測(cè)的評(píng)測(cè)基準(zhǔn)都仍然在做著英文數(shù)據(jù)集簡(jiǎn)單粗暴的的翻譯工作時(shí),C-Eval第一個(gè)從零開(kāi)始構(gòu)建了自己的數(shù)據(jù)集,,用大量時(shí)間和人工標(biāo)注把數(shù)據(jù)集堆上去,,然后一下子成了中文大模型中標(biāo)志性的評(píng)測(cè)基準(zhǔn)。

大語(yǔ)言模型評(píng)測(cè)是怎么被玩兒爛的,? – AI新智界

C-Eval對(duì)自己的聲明? 圖源:C-Eval

C-Eval很快成為這一波大模型熱潮里最被廣泛認(rèn)可的榜單之一,。然后很快,它也是最先被刷爛的榜單,。

6月份的C-Eval榜單上,,ChatGLM 2超過(guò)GPT-4排名第一,,第三名是商湯的日日新,。

7月,APUS天燕大模型和容聯(lián)云赤兔大模型緊隨排名第二的GPT-4沖進(jìn)前六,。一個(gè)月后,,C-Eval榜單的榜眼位置換成了一家成立僅兩個(gè)月的初創(chuàng)公司共生矩陣。又過(guò)了一個(gè)月,,這份榜單上力壓GPT-4的國(guó)產(chǎn)大模型突然增加到8個(gè),。

從10月開(kāi)始,GPT-4在C-Eval上的平均分掉出前十,。

幾乎每一個(gè)國(guó)產(chǎn)大模型的推出,,都會(huì)從一份亮眼的C-Eval分?jǐn)?shù)開(kāi)始。幾個(gè)月前見(jiàn)到智源研究院的林詠華時(shí),,她直言幾個(gè)權(quán)威的榜已經(jīng)被刷的太嚴(yán)重,,失去了參考價(jià)值,其中提到C-Eval,。

百川智能在8月拋棄了C-Eval,,因?yàn)槟菚r(shí)候如果不作弊,百川模型的分?jǐn)?shù)就只有50多分,。一個(gè)GPT-4只能拿到70分的評(píng)測(cè)基準(zhǔn),,50分對(duì)于一家創(chuàng)業(yè)不到半年的初創(chuàng)公司來(lái)說(shuō)已經(jīng)可喜,但這樣的“低分”連前10都進(jìn)不了,,在國(guó)內(nèi)模型排名里會(huì)排在很后面,。“但我們又不愿意作弊”,,一位百川智能的內(nèi)部人士說(shuō),。

這種“作弊”高分可以用刷題實(shí)現(xiàn),并且大量進(jìn)入C-Eval榜單前列的大模型都是這么做的,?!斑@幾乎已經(jīng)是公開(kāi)的秘密”,高梵說(shuō)。

很早就有人關(guān)注到這一點(diǎn),。一篇《Rethinking Benchmark and Contamination for Language Models with Rephrased Samples》的論文里顯示出來(lái)的跡象是,,一些輕微的數(shù)據(jù)泄露——訓(xùn)練集和測(cè)試集之間的數(shù)據(jù)重疊——就可能導(dǎo)致評(píng)估結(jié)果的顯著提升,。

當(dāng)數(shù)據(jù)泄露情況發(fā)生,,大模型會(huì)過(guò)度適應(yīng)這些它“背到過(guò)”的訓(xùn)練數(shù)據(jù)。這會(huì)讓小參數(shù)模型表現(xiàn)超過(guò)大參數(shù)模型,也會(huì)讓差的模型得分比優(yōu)秀的模型表現(xiàn)更好,,這最終會(huì)導(dǎo)致對(duì)模型性能的不可靠評(píng)估,。這種重疊不只發(fā)生在詞句上,,也就是說(shuō),把一些題中的原詞作原意替換放進(jìn)去訓(xùn)練,,這種數(shù)據(jù)污染的情況仍然存在,。

這會(huì)造成一定程度的過(guò)擬合,也就是讓模型在訓(xùn)練數(shù)據(jù)上學(xué)習(xí)到了過(guò)多的細(xì)節(jié),,以至于它開(kāi)始記憶特定的數(shù)據(jù)點(diǎn),,而不是學(xué)習(xí)到數(shù)據(jù)背后的一般規(guī)律或模式,。

智源研究院內(nèi)部的研究表明,這種刷分所造成的過(guò)擬合現(xiàn)象,,可能會(huì)影響模型本身的“智力”,。這種擔(dān)心很可能是正確的。

去年11月,,中國(guó)人民大學(xué)和美國(guó)伊利諾伊大學(xué)厄巴納-香檳分校的聯(lián)合團(tuán)隊(duì)曾經(jīng)選取了當(dāng)時(shí)市面上流行的幾個(gè)大模型,,控制變量的來(lái)測(cè)試它們刷題后的表現(xiàn)變化。結(jié)果是經(jīng)過(guò)泄露數(shù)據(jù)訓(xùn)練的大語(yǔ)言模型在文本生成和代碼合成任務(wù)上的表現(xiàn)都有不同程度的下降,。

OpenLLaMA-3B和LLaMA-2-7B在XSum任務(wù)上的ROUGE-L分?jǐn)?shù)分別從0.19和0.25降低,。這種能力衰退哪怕在用Alpaca和CodeAlpaca數(shù)據(jù)集再次對(duì)模型進(jìn)行指令微調(diào)都調(diào)不回來(lái)。

刷題這件事像是從NLP和CV時(shí)代就延續(xù)下來(lái)的肌肉記憶,。最近的一個(gè)新模型的發(fā)布會(huì)現(xiàn)場(chǎng),,創(chuàng)始人出來(lái),聊到刷分,,說(shuō)團(tuán)隊(duì)奔著刷分訓(xùn)了一個(gè)“應(yīng)試教育”版本,,分?jǐn)?shù)超過(guò)GPT-4,,技術(shù)人員還跟他說(shuō)——分夠嗎,,不夠還能再往上拔點(diǎn)。這位創(chuàng)始人當(dāng)然是當(dāng)作玩笑講的這件事,。但等到了模型介紹,,第一句話仍然是“模型在各種榜單上SOTA”,他自己也有些哭笑不得,。

大語(yǔ)言模型評(píng)測(cè)是怎么被玩兒爛的,? – AI新智界

圖源:LessWrong

“那‘做題’這件事,能一條路走到黑嗎,?”

“如果能設(shè)計(jì)出那種足夠接近ground truth的數(shù)據(jù)集的話”,,高梵說(shuō)。

但那意味著一個(gè)超級(jí)大的題庫(kù),,比C-Eval這樣的要大得多,。C-Eval里面已經(jīng)包含了多達(dá)超過(guò)100個(gè)任務(wù),BBH有200多個(gè)任務(wù),。這也是為什么C-Eval多是大模型公司自己測(cè)完提交——能否完整跑下來(lái)這樣的測(cè)試集本來(lái)就是一種門(mén)檻,。

“更何況測(cè)試基準(zhǔn)的影響因素遠(yuǎn)不止做題這一件事?!?/p>

脆弱的評(píng)測(cè)

“如果測(cè)試不在一種統(tǒng)一標(biāo)準(zhǔn)下進(jìn)行的話,,你會(huì)發(fā)現(xiàn)這個(gè)變量簡(jiǎn)直是無(wú)限多——溫度,你的解碼策略,、Prompt(提示詞)等等等等……每個(gè)榜單都會(huì)有標(biāo)準(zhǔn)的建議實(shí)現(xiàn),,但它不一定是你這個(gè)模型表現(xiàn)最好的形式,。”

高梵舉了個(gè)例子,。

比如做多選題,,有的測(cè)試方法是把題庫(kù)的答案變成一串字母排列(A/B/C/D或多選),然后拿著生成的字母序列去和正確的序列相比,,看這整個(gè)一串答案的正確率,。也有直接測(cè)“The answer is”后面那個(gè)Token的,比如說(shuō)正確答案是A,,你只要測(cè)出來(lái)是a的概率大于B和C,,就算你答對(duì)這道題——哪怕它其實(shí)并不知道為什么選A。

“光解碼策略就有n個(gè)方法,,而且除了測(cè)ABCD的概率,,還有測(cè)帶不帶括號(hào)的概率——偏好有很多種,這個(gè)其實(shí)挺復(fù)雜的,?!?/p>

Anthropic的一篇技術(shù)論文也在說(shuō)同樣的事。Claude團(tuán)隊(duì)表示,,對(duì)簡(jiǎn)單的格式變化敏感,,例如將選項(xiàng)從 (A) 更改為 (1),或者在選項(xiàng)和答案之間添加額外的空格,,這些做法都可能導(dǎo)致評(píng)估準(zhǔn)確率約有 5% 的浮動(dòng),。

但退一步講,如果所有模型都按一個(gè)方法測(cè)也可以,,這是每個(gè)測(cè)評(píng)基準(zhǔn)遇到的一樣的問(wèn)題,。

這也是為什么HuggingFace這么受到推崇的原因之一,他們有足夠的卡,,并且提供了一套全自動(dòng)的模型能力評(píng)測(cè)框架,。這意味著不管模型經(jīng)過(guò)了什么“討巧”的訓(xùn)練,至少在評(píng)測(cè)這個(gè)環(huán)節(jié)上他們能夠被放在同一個(gè)水平線上,。

“但HuggingFace上的評(píng)測(cè)也不是沒(méi)出過(guò)事故吧,。”

我記得有這樣一起“事故”,。當(dāng)時(shí)的背景是,,F(xiàn)alcon的分?jǐn)?shù)很高,Llama1-65B在Open LLM Leaderboard(HuggingFace的自動(dòng)化模型榜單)上MMLU的分?jǐn)?shù)異常的低,。最后研究下來(lái)原因僅僅是自動(dòng)化測(cè)評(píng)框架有一個(gè)Bug,。這個(gè)錯(cuò)誤很快被修復(fù)了,但仍然在社區(qū)里引起了一番討論,。

大語(yǔ)言模型評(píng)測(cè)是怎么被玩兒爛的,? – AI新智界

圖源:X

CoT Hub本身也是這起事件的主角之一,,正是他們發(fā)起了對(duì)Llama1-65B在MMLU上表現(xiàn)的再次測(cè)試。

一個(gè)自動(dòng)化腳本的Bug,,導(dǎo)致這個(gè)模型在MMLU上的正確率降了20%,,也就是刷分成績(jī)掉了20分——要知道GPT-4在MMLU上減掉20分后,連GPT-3.5Turbo都不如,。

這個(gè)測(cè)試事故或許能反映出來(lái)測(cè)評(píng)這件事本身是多么脆弱易碎,。

“但總歸,這是目前最好的辦法,,CoT Hub未來(lái)也可能朝全自動(dòng)化的方式更新一版”,,高梵說(shuō)。

“不過(guò),,最大的變量其實(shí)是Prompt,。”風(fēng)大的很,,我們躲進(jìn)了對(duì)面的一家書(shū)店,。

最大的問(wèn)題是Prompt

蔦屋書(shū)店在前灘太古里的這家店是上海的第二家門(mén)店,到現(xiàn)在已經(jīng)開(kāi)了兩年多,。時(shí)下的暢銷(xiāo)書(shū)多擺在動(dòng)線上的黃金位置,,現(xiàn)在多了很多“ChatGPT”和“AIGC”的字眼。

最先活躍起來(lái)的布道者們已經(jīng)把新時(shí)代扯到嗓子眼了,,但對(duì)普通人來(lái)說(shuō)又什么都還未來(lái)臨,。

幾個(gè)星期前,我見(jiàn)到了其中一本暢銷(xiāo)書(shū)的作者,,他對(duì)于2024年生成式AI最篤定的預(yù)測(cè)是——AI網(wǎng)紅。聽(tīng)起來(lái)靠譜又無(wú)聊,。如果寫(xiě)書(shū),、賣(mài)課算是某種程度的布道,賺新時(shí)代的頭金,,模型評(píng)測(cè)則是另一種,,這些榜單像是淘金者從西部回來(lái)的第一批承銷(xiāo)商。

“這意味著什么,,關(guān)于剛才說(shuō)的Prompt,?”

“提示詞的敏感度是很高的?!备哞笳f(shuō),,“什么意思呢,比如Claud的系列模型,,我光是Prompt改一改,,對(duì)評(píng)測(cè)分?jǐn)?shù)的擾動(dòng)就會(huì)有10%,。”

測(cè)試時(shí)怎么用Prompt有很多“坑”,,里面很多是工程問(wèn)題,。比如MMLU——你可以理解成它是一個(gè)做多選題的題庫(kù),然后你要知道被測(cè)的模型做出了怎樣的回答,。這個(gè)答案回收的過(guò)程,,大部分的評(píng)測(cè)基準(zhǔn)只是做一個(gè)字符串的匹配,但這個(gè)方式其實(shí)很不穩(wěn)定,,考慮到對(duì)于測(cè)評(píng)結(jié)果提取位置的精確性上甚至有點(diǎn)“災(zāi)難”,。

提取字符串這件事的邏輯,人類大腦看來(lái)很簡(jiǎn)單,,但這只說(shuō)明人類大腦的高明罷了,。

“如果模型的回答是‘選b’,那‘b’這個(gè)字符可以輕松被提取出來(lái),。但如果模型的回答是‘不應(yīng)該選c,,應(yīng)該選b’呢,這時(shí)候答案是‘b’,、‘c’還是‘b&c’,?”

這就需要讓模型符合規(guī)范的回答,比如在模型的Few-Shot例子中都以“Answer: ”來(lái)訓(xùn)練,。這樣一來(lái),,似乎在“Answer: ”字符串后面的就應(yīng)該是模型想要的回答。但高梵和團(tuán)隊(duì)成員的測(cè)試結(jié)果是,,這個(gè)方法對(duì)GPT家族的模型效果都不錯(cuò),,因?yàn)镚PT不喜歡亂說(shuō)話。但是對(duì)Claude或者Llama家族模型,,可能會(huì)產(chǎn)生 “這道題選b是不對(duì)的,,應(yīng)該選c” 這樣不按常理出牌的回答。

“哪怕你再囑咐它‘你不要說(shuō)別的’也沒(méi)有用,,這個(gè)時(shí)候提取器就會(huì)失效——只有GPT-4可以以接近人類的理解能力進(jìn)行答案提取,,但是不會(huì)這么去測(cè)試,因?yàn)槌杀静豢赡軇澋脕?lái),?!?/p>

為了解決模型不亂說(shuō)話的問(wèn)題,需要一些Prompt的技巧,,而CoT Hub在測(cè)試后發(fā)現(xiàn),,在Claude優(yōu)化前和優(yōu)化后能有10%的擾動(dòng)。這幾乎是貫穿大模型評(píng)測(cè)這件事的一個(gè)不可控的風(fēng)險(xiǎn),。

為了公平起見(jiàn),,在大模型評(píng)測(cè)時(shí),,理論上應(yīng)該遵循相同的答案提取規(guī)則。開(kāi)源社區(qū)是這么做的,,為了對(duì)所有模型一視同仁,,開(kāi)源社區(qū)默認(rèn)的只有一個(gè)提取規(guī)則,比如 “Answer: ”,。

但這又成了一件矛盾的事,,一個(gè)評(píng)測(cè)基準(zhǔn)到底該為了保證公平而堅(jiān)持用相同提取器和提示詞的組合來(lái)測(cè)試所有模型,還是為了度量模型的潛力,?

前者由于太多的變量參雜看起來(lái)缺乏橫向比較的意義,。如果是為了后者,Prompt如何擠壓出一個(gè)大模型的性能上限,,需要更多精細(xì)的研究,。

大語(yǔ)言模型評(píng)測(cè)是怎么被玩兒爛的? – AI新智界

圖源:arXiv

“尋找Prompt的最優(yōu)解,,可以說(shuō)我們那時(shí)候最多的精力都花在這上面,。”

這是一個(gè)正在越來(lái)越被重視的研究方向,。平庸的Prompt本身就存在著無(wú)法調(diào)動(dòng)出大模型能力上限的可能性,,尋找并且驗(yàn)證Prompt的最優(yōu)解這件事任重道遠(yuǎn)。

CoT Hub嚴(yán)格來(lái)講現(xiàn)在一共就4個(gè)人,,但是每個(gè)階段的參與者不一樣,。一開(kāi)始符堯和他帶的幾個(gè)本科生開(kāi)始動(dòng)手寫(xiě)基礎(chǔ)代碼,后來(lái)幾位本科生因?yàn)閯e的事離開(kāi),,高梵加入,。

聽(tīng)高梵的描述,這是個(gè)比較松散的項(xiàng)目,,每天寫(xiě)個(gè)兩三小時(shí)代碼,,每周開(kāi)一次會(huì)。按高梵的說(shuō)法,,“反正就零零散散做著”。這個(gè)項(xiàng)目從2月發(fā)起,,到5月成型,,在10月上了GitHub,到現(xiàn)在也有超過(guò)2000顆星,。

每個(gè)研究都有它的時(shí)代背景,。在CoT Hub之前,大部分的大模型評(píng)測(cè)都是以Zero-Shot和單輪對(duì)話的方式來(lái)做的,,也就是在一次對(duì)話動(dòng)作中提出問(wèn)題并且得到答案,。但這樣的簡(jiǎn)單方法容易被針對(duì)性訓(xùn)練,,并且在大模型更高級(jí)的性能考察上缺乏區(qū)分度。

CoT Hub沒(méi)有做新的數(shù)據(jù)集,,只是把市面上優(yōu)質(zhì)的數(shù)據(jù)集拿來(lái),,打磨合適的Prompt,把原先Zero-Shot的方式轉(zhuǎn)換成多輪對(duì)話,,以及對(duì)CoT能力的考察,。

任務(wù)復(fù)雜后,模型的性能進(jìn)一步分出層次,。CoT Hub團(tuán)隊(duì)在當(dāng)時(shí)得出的結(jié)論是,,開(kāi)源的Llama-65B模型性能已經(jīng)非常接近c(diǎn)ode-davinci-002,也就是GPT-3.5的基礎(chǔ)模型,。但即便如此,,開(kāi)源模型和封閉模型的差距還是很大。而在真正有挑戰(zhàn)性的數(shù)據(jù)集上(比如Big-Bench-Hard),,小參數(shù)模型與大參數(shù)模型的差距十分驚人,,而不是像一些文章或者灌水論文中所說(shuō),前者可以“以小搏大”的復(fù)現(xiàn)大參數(shù)模型的性能,,甚至直追ChatGPT,。

看起來(lái)“幻覺(jué)”這件事,不僅出現(xiàn)在模型上,,也出現(xiàn)在榜單上,。但后者何嘗不是對(duì)人類大腦幻覺(jué)的一種映射呢。

最終我們要測(cè)的是超越人類的智能,,能測(cè)么,?

一位活在二維世界里,謙卑的平面國(guó)居民“正方形”先生某一天遇到了從三維國(guó)前來(lái)傳福音的“球”先生,,“球”先生可以輕松的看到“正方形”先生的身體內(nèi)部,,甚至穿過(guò)它,就像用手指從上方捅破一張紙,。但后者卻無(wú)法理解這一切,。

大語(yǔ)言模型評(píng)測(cè)是怎么被玩兒爛的? – AI新智界

圖源:知乎@李想

這是我對(duì)大模型評(píng)測(cè)這件事最大的疑問(wèn):

如果對(duì)大模型的期望是奔著AGI而去,,那該怎么用人類設(shè)計(jì)的評(píng)價(jià)標(biāo)準(zhǔn)來(lái)衡量或者描述一種比人類更高級(jí)的智能,?

高梵提供了一種思路:這件事或許可以理解成,如何找到一種方式幫助人類去監(jiān)督大模型的表現(xiàn),,并且讓這種監(jiān)督有足夠的擴(kuò)展性,。

“比如我們要讓一個(gè)小學(xué)學(xué)歷的數(shù)據(jù)標(biāo)注員能夠?qū)δP驮贛MLU上的表現(xiàn)作出判斷,如果這件事成立,那或許就可以拓展到人類極限去看超越人類極限的測(cè)試結(jié)果”,,高梵說(shuō),。

他給我看了一個(gè)很有趣的工作——準(zhǔn)確的說(shuō)是一個(gè)的Demo——關(guān)于如何讓一個(gè)非程序員在有了一些特別的的工具后能夠像程序員一樣來(lái)標(biāo)記數(shù)據(jù)集。

在OpenAI在12月發(fā)出的一篇關(guān)于超級(jí)對(duì)齊(Superalignment)的論文里,,展示了一種用GPT-2去監(jiān)督GPT-4的方法,,這與前面的例子一樣都是“弱”監(jiān)督“強(qiáng)”的邏輯。

這件事屬于可監(jiān)督拓展(scalable oversight)的范疇——去年7月OpenAI首次公布超級(jí)對(duì)齊計(jì)劃時(shí)有所提及——關(guān)于如何監(jiān)督一個(gè)在特定領(lǐng)域表現(xiàn)超出人類的系統(tǒng),,并且尋找它能夠大規(guī)模scale上去的可能性,。可監(jiān)督拓展是對(duì)齊領(lǐng)域的一個(gè)分支,,有一些研究者在推進(jìn)這方面的研究,,其中有一位是NYU的教授,“他同時(shí)在Anthropic兼任做指導(dǎo)”,。

現(xiàn)在領(lǐng)導(dǎo)著OpenAI“超級(jí)對(duì)齊”部門(mén)的則是伊爾亞,,但在一個(gè)月前OpenAI內(nèi)部兵變之后處境尷尬,也很少在X上更新動(dòng)態(tài),。

他“消失”前最后一個(gè)工作,,就是OpenAI那篇關(guān)于“超級(jí)對(duì)齊”的論文。論文里提到了另一種大模型超越人類的探索:辯論,。

高梵最關(guān)注這個(gè),。

“可是——辯論?”

“人類有兩條線,,一條是形式語(yǔ)言上的,,也就是邏輯學(xué)范疇,這條線延伸到現(xiàn)在就是計(jì)算機(jī)語(yǔ)言,。與之平行的還有另一條非形式語(yǔ)言的線——那些關(guān)于語(yǔ)用學(xué),、語(yǔ)義學(xué)、修辭學(xué)的東西——發(fā)展到現(xiàn)在就和辯論的藝術(shù)有關(guān),,比如法學(xué),。”

“辯論能力以及說(shuō)服能力,,這是目前在AI智識(shí)中還未被定義清楚的能力,。但既然推理能力能夠被定義清楚,同層次的辯論理論上也是應(yīng)該能遷移到語(yǔ)言模型上的,,只是現(xiàn)在的研究還太淺,。”

我記得GPT-4剛出的那兩個(gè)月里曾經(jīng)冒出來(lái)過(guò)一篇論文,,論文作者讓大語(yǔ)言模型扮演賣(mài)氣球這個(gè)任務(wù)中的買(mǎi)賣(mài)雙方,再加一個(gè)大模型“評(píng)論家”為買(mǎi)賣(mài)雙方提供反饋意見(jiàn),氣球價(jià)格從20美元起跳,,來(lái)看最后會(huì)被砍刀什么價(jià)格,。

從實(shí)驗(yàn)內(nèi)容上,這在考研大模型的辯論能力,,從評(píng)論家角度,,這個(gè)實(shí)驗(yàn)跟用GPT-2監(jiān)督GPT-4有點(diǎn)像,是可監(jiān)督擴(kuò)展中很有代表性的路線,。這篇論文的作者也是符堯,,這位C-Eval的“始作俑者”,下一站是谷歌的Gemini,。

這些模型基準(zhǔn)遇到的問(wèn)題和設(shè)計(jì)者們?cè)趪L試的思路,,甚至“始作俑者”的工作選擇,都在說(shuō)明一件事:大模型最終不會(huì)停留在這些多選題和榜單上,。

而真正在做大模型的公司也早已經(jīng)有了自己的方法,。外部公開(kāi)的評(píng)測(cè)基準(zhǔn)現(xiàn)在更多的角色是一種面向公眾的宣傳手段(甚至連ToVC都算不上),而在大模型公司內(nèi)部,,他們往往有一套更有針對(duì)性的評(píng)測(cè)基準(zhǔn),。

一位在當(dāng)下非常受矚目的某大模型公司做產(chǎn)品負(fù)責(zé)人的朋友說(shuō),這套內(nèi)部的評(píng)測(cè)基準(zhǔn),,需要非常漫長(zhǎng)的調(diào)試才能成型,,它實(shí)際上是一家大模型公司最核心的資產(chǎn),為自己模型的訓(xùn)練和迭代提供方向,。

“評(píng)測(cè)基準(zhǔn)從一開(kāi)始的滯后,,到后來(lái)成為一種被利用的工具而逐漸泡沫化,現(xiàn)在最泡沫的時(shí)期也差不多要過(guò)去了”,,高梵說(shuō),。

“最終,用戶會(huì)用腳投票的”,。

免責(zé)聲明:本文來(lái)自網(wǎng)絡(luò)收錄或投稿,,觀點(diǎn)僅代表作者本人,不代表芒果財(cái)經(jīng)贊同其觀點(diǎn)或證實(shí)其描述,,版權(quán)歸原作者所有,。轉(zhuǎn)載請(qǐng)注明出處:http://lequren.com/1088731.html
溫馨提示:投資有風(fēng)險(xiǎn),入市須謹(jǐn)慎,。本資訊不作為投資理財(cái)建議,。

(0)
硅星人的頭像硅星人
上一篇 2024年1月31日 下午1:13
下一篇 2024年1月31日
198搶自鏈數(shù)字人

相關(guān)推薦