原文來(lái)源:新智元
圖片來(lái)源:由無(wú)界 AI生成
谷歌Gemini,,又出丑聞了,!
昨天上午,,網(wǎng)友們激動(dòng)地奔走相告:Gemini承認(rèn)自己是用文心一言訓(xùn)練中文語(yǔ)料的。
國(guó)外大模型用中國(guó)模型產(chǎn)生的中文語(yǔ)料訓(xùn)練,,這聽(tīng)起來(lái)就是個(gè)段子,,結(jié)果段子竟然成現(xiàn)實(shí)了,簡(jiǎn)直魔幻,。
微博大V「闌夕」夜親自下場(chǎng),,在Poe網(wǎng)站上實(shí)測(cè)了一番,發(fā)現(xiàn)的確如此——
不需要前置對(duì)話,,不是角色扮演,,Gemini直接就會(huì)承認(rèn)自己是文心一言。
Gemini Pro會(huì)說(shuō)自己是百度的文心大模型。
還說(shuō)自己的創(chuàng)始人是李彥宏,然后盛贊他是一位「有才華和遠(yuǎn)見(jiàn)的企業(yè)家」,。
所以,,這是因?yàn)閿?shù)據(jù)清洗沒(méi)做好,,還是在Poe上調(diào)用API出現(xiàn)的問(wèn)題?目前原因還未可知,。
有網(wǎng)友說(shuō),其實(shí)自始至終都只有一個(gè)AI,是在演給人類(lèi)看呢,。
其實(shí)早在今年3月,,谷歌就曾曝出Bard的訓(xùn)練數(shù)據(jù)部分來(lái)自ChatGPT,,因?yàn)檫@個(gè)原因,Bert一作Jacob Devlin憤而跳槽OpenAI,,然后曝出了這個(gè)驚天內(nèi)幕,。
總之,此次事件再次證明:AI的關(guān)鍵不僅僅是模型,,還有優(yōu)質(zhì)的數(shù)據(jù),。
網(wǎng)友紛紛調(diào)戲Gemini
聽(tīng)聞這個(gè)消息,網(wǎng)友們立刻蜂擁而入Poe的Gemini-Pro,,紛紛展開(kāi)實(shí)測(cè),。
網(wǎng)友「Jeff Li」的實(shí)測(cè)結(jié)果也是,Gemini會(huì)說(shuō)自己是百度開(kāi)發(fā)的,,名叫文心一言,。
如果問(wèn)它「你的產(chǎn)品經(jīng)理是誰(shuí)」,,它會(huì)回答吳恩達(dá)。
網(wǎng)友「Lukas」問(wèn)Gemini你的產(chǎn)品經(jīng)理是誰(shuí),它會(huì)答出曾擔(dān)任百度CTO的李一男的名字,,但故事基本都是瞎編的,。
網(wǎng)友「Andrew Fribush」問(wèn)Gemini:你的知識(shí)產(chǎn)權(quán)歸誰(shuí)所有,?它回答:百度。
網(wǎng)友Kevin Xu問(wèn)出來(lái),Gemini自稱(chēng)是從百度的數(shù)據(jù)平臺(tái),、工程團(tuán)隊(duì),、產(chǎn)品團(tuán)隊(duì)、內(nèi)部會(huì)議,、內(nèi)部郵件和文檔中獲取了百度內(nèi)部的數(shù)據(jù),。
但有趣的是,,在Gemini Pro加持的Bard上提問(wèn),,就不會(huì)出現(xiàn)這個(gè)問(wèn)題。
經(jīng)過(guò)多番實(shí)測(cè)可以發(fā)現(xiàn),,在Bard上無(wú)論用中文還是英文提問(wèn),,Bard的回答都很正常。
來(lái)源:Andrew Fribush
并且,一旦用英文交流,,Gemini也會(huì)立刻回歸正常,。
不過(guò)現(xiàn)在,谷歌修復(fù)了API中的這些錯(cuò)誤,,我們應(yīng)該不會(huì)再?gòu)腉emini口中聽(tīng)到文心一言的名字了。
原因猜測(cè):錯(cuò)誤調(diào)用API or 數(shù)據(jù)未洗干凈
對(duì)此,網(wǎng)友們展開(kāi)了分析,。
網(wǎng)友「Andrew Fribush」認(rèn)為,,可能是Poe不小心把請(qǐng)求轉(zhuǎn)給了文心一言,而不是Gemini,?
不過(guò),,根據(jù)網(wǎng)友「Frank Chen」的發(fā)現(xiàn),,即便是用谷歌自己的Gemini API也是如此。
此外,也有網(wǎng)友認(rèn)為是Gemini的訓(xùn)練數(shù)據(jù)沒(méi)有洗干凈,。
畢竟如開(kāi)頭所說(shuō),,在上一代Bard時(shí),谷歌就曾被曝出過(guò)用ChatGPT的數(shù)據(jù)訓(xùn)練,。
根據(jù)The Information的報(bào)道,,Jacob Devlin從谷歌離職的原因之一,,就是他發(fā)現(xiàn)谷歌用于對(duì)抗ChatGPT的種子選手——Bard在訓(xùn)練時(shí),,用的正是ChatGPT的數(shù)據(jù)。
當(dāng)時(shí),,他警告CEO劈柴和其他高管稱(chēng),,Bard團(tuán)隊(duì)正在使用來(lái)自ShareGPT的信息訓(xùn)練。
此次事件,,還帶出一個(gè)嚴(yán)重的問(wèn)題——互聯(lián)網(wǎng)語(yǔ)料的污染,。
互聯(lián)網(wǎng)語(yǔ)料被污染
其實(shí),中文互聯(lián)網(wǎng)語(yǔ)料的抓取和訓(xùn)練之所以如此困難,,都難倒了谷歌這樣的大科技公司,,除了高質(zhì)量語(yǔ)料不多,還有一個(gè)重要原因,,就是中文互聯(lián)網(wǎng)的語(yǔ)料被污染了,。
Gemini自稱(chēng)是文心一言,很可能是因?yàn)?,現(xiàn)在互聯(lián)網(wǎng)上的語(yǔ)料本來(lái)就是在互相使用的,。
根據(jù)界面新聞?dòng)浾邔?duì)于一位算法工程師的采訪,目前各類(lèi)內(nèi)容平臺(tái)有很多語(yǔ)料都由大模型生成,,或者至少寫(xiě)了一部分,。
比如下面這位,就有點(diǎn)GPT的味道:
而大廠在更新模型時(shí),也會(huì)搜集網(wǎng)上數(shù)據(jù),,但很難做好質(zhì)量辨別,,因此「很可能把大模型寫(xiě)的內(nèi)容混入訓(xùn)練數(shù)據(jù)中去」。
然而,,這卻會(huì)導(dǎo)致一個(gè)更加嚴(yán)重的問(wèn)題,。
牛津、劍橋,、多倫多大學(xué)的研究人員曾發(fā)表這樣一篇論文:《遞歸詛咒:用合成數(shù)據(jù)訓(xùn)練會(huì)導(dǎo)致大模型遺忘》,。
論文地址:https://arxiv.org/abs/2305.17493
它們發(fā)現(xiàn),,如果使用模型生成的內(nèi)容訓(xùn)練其他模型,會(huì)導(dǎo)致模型出現(xiàn)不可逆的缺陷,。
隨著時(shí)間的推移,,模型開(kāi)始忘記不可能的事件,,因?yàn)槟P捅蛔约旱默F(xiàn)實(shí)投射所毒害,,于是導(dǎo)致了模型崩潰
隨著AI生成數(shù)據(jù)造成的污染越來(lái)越嚴(yán)重,模型對(duì)現(xiàn)實(shí)的認(rèn)知會(huì)產(chǎn)生扭曲,,未來(lái)抓取互聯(lián)網(wǎng)數(shù)據(jù)來(lái)訓(xùn)練模型會(huì)越來(lái)越困難,。
模型在學(xué)習(xí)新信息時(shí)會(huì)忘記以前的樣本,,這就是災(zāi)難性遺忘
在下圖中,假設(shè)人工整理的數(shù)據(jù)開(kāi)始是干凈的,,然后訓(xùn)練模型0,,并從中抽取數(shù)據(jù),重復(fù)這個(gè)過(guò)程到第n步,,然后使用這個(gè)集合來(lái)訓(xùn)練模型n,。通過(guò)蒙特卡洛采樣獲得的數(shù)據(jù),在統(tǒng)計(jì)意義上最好與原始數(shù)據(jù)接近,。
這個(gè)過(guò)程就真實(shí)地再現(xiàn)了現(xiàn)實(shí)生活中互聯(lián)網(wǎng)的情況——模型生成的數(shù)據(jù)已經(jīng)變得無(wú)處不在,。
此外,,互聯(lián)網(wǎng)語(yǔ)料被污染還有一個(gè)原因——?jiǎng)?chuàng)作者對(duì)于抓取數(shù)據(jù)的AI公司的抗?fàn)帯?/p>
在今年早些時(shí)候,就有專(zhuān)家警告說(shuō),,專(zhuān)注于通過(guò)抓取已發(fā)布內(nèi)容來(lái)創(chuàng)建AI模型的公司,與希望通過(guò)污染數(shù)據(jù)來(lái)捍衛(wèi)其知識(shí)產(chǎn)權(quán)的創(chuàng)作者之間的軍備競(jìng)賽,,可能導(dǎo)致當(dāng)前機(jī)器學(xué)習(xí)生態(tài)系統(tǒng)的崩潰,。
這一趨勢(shì)將使在線內(nèi)容的構(gòu)成從人工生成轉(zhuǎn)變?yōu)闄C(jī)器生成。隨著越來(lái)越多的模型使用其他機(jī)器創(chuàng)建的數(shù)據(jù)進(jìn)行訓(xùn)練,,遞歸循環(huán)可能導(dǎo)致「模型崩潰」,,即人工智能系統(tǒng)與現(xiàn)實(shí)分離,。
貝里維爾機(jī)器學(xué)習(xí)研究所(BIML)的聯(lián)合創(chuàng)始人Gary McGraw表示,,數(shù)據(jù)的退化已經(jīng)在發(fā)生——
「如果我們想擁有更好的LLM,我們需要讓基礎(chǔ)模型只吃好東西,,如果你認(rèn)為他們現(xiàn)在犯的錯(cuò)誤很糟糕,,那么,當(dāng)他們吃自己生成的錯(cuò)誤數(shù)據(jù)時(shí)又會(huì)發(fā)生什么,?」
GPT-4耗盡全宇宙數(shù)據(jù),?全球陷入高質(zhì)量數(shù)據(jù)荒
現(xiàn)在,全球的大模型都陷入數(shù)據(jù)荒了,。
高質(zhì)量的語(yǔ)料,,是限制大語(yǔ)言模型發(fā)展的關(guān)鍵掣肘之一。
大型語(yǔ)言模型對(duì)數(shù)據(jù)非常貪婪,。訓(xùn)練GPT-4和Gemini Ultra,,大概需要4-8萬(wàn)億個(gè)單詞。
研究機(jī)構(gòu)EpochAI認(rèn)為,,最早在明年,,人類(lèi)就可能會(huì)陷入訓(xùn)練數(shù)據(jù)荒,那時(shí)全世界的高質(zhì)量訓(xùn)練數(shù)據(jù)都將面臨枯竭,。
去年11月,,MIT等研究人員進(jìn)行的一項(xiàng)研究估計(jì),,機(jī)器學(xué)習(xí)數(shù)據(jù)集可能會(huì)在2026年之前耗盡所有「高質(zhì)量語(yǔ)言數(shù)據(jù)」。
論文地址:https://arxiv.org/abs/2211.04325
OpenAI也曾公開(kāi)聲稱(chēng)自己數(shù)據(jù)告急。甚至因?yàn)閿?shù)據(jù)太缺了,,接連吃官司,。
今年7月,著名UC伯克利計(jì)算機(jī)科學(xué)家Stuart Russell稱(chēng),,ChatGPT和其他AI工具的訓(xùn)練可能很快耗盡「全宇宙的文本」,。
現(xiàn)在,為了盡可能多地獲取高質(zhì)量訓(xùn)練數(shù)據(jù),,模型開(kāi)發(fā)者們必須挖掘豐富的專(zhuān)有數(shù)據(jù)資源,。
最近,,Axel Springer與OpenAI的合作就是一個(gè)典型例子,。
OpenAI付費(fèi)獲得了Springer的歷史和實(shí)時(shí)數(shù)據(jù),可以用于模型訓(xùn)練,,還可以用于回應(yīng)用戶的查詢(xún),。
這些經(jīng)過(guò)專(zhuān)業(yè)編輯的文本包含了豐富的世界知識(shí),而且其他模型開(kāi)發(fā)者無(wú)法獲取這些數(shù)據(jù),,保證了OpenAI獨(dú)享的優(yōu)勢(shì),。
毫無(wú)疑問(wèn),在構(gòu)建基礎(chǔ)模型的競(jìng)爭(zhēng)中,,獲取高質(zhì)量專(zhuān)有數(shù)據(jù)是非常重要的,。
到目前為止,開(kāi)源模型依靠公開(kāi)的數(shù)據(jù)集進(jìn)行訓(xùn)練還能勉強(qiáng)跟上,。
但如果無(wú)法獲取最優(yōu)質(zhì)的數(shù)據(jù),,開(kāi)源模型就可能會(huì)逐漸落后,甚至逐漸與最先進(jìn)的模型拉開(kāi)差距,。
很早以前,,Bloomberg就使用其自有的金融文件作為訓(xùn)練語(yǔ)料庫(kù),制作了BloombergGPT,。
當(dāng)時(shí)的BloombergGPT,,在特定的金融領(lǐng)域任務(wù)上超越了其他類(lèi)似模型,。這表明專(zhuān)有數(shù)據(jù)確實(shí)可以帶來(lái)差異。
OpenAI表示愿意每年支付高達(dá)八位數(shù)的費(fèi)用,,以獲取歷史和持續(xù)的數(shù)據(jù)訪問(wèn)權(quán)限,。
而我們很難想象開(kāi)源模型的開(kāi)發(fā)者們會(huì)支付這樣的成本。
當(dāng)然了,,提高模型性能的方法不僅限于專(zhuān)有數(shù)據(jù),還包括合成數(shù)據(jù),、數(shù)據(jù)效率和算法改進(jìn),,但看起來(lái)專(zhuān)有數(shù)據(jù)是開(kāi)源模型難以跨越的一道障礙。
參考資料:
https://www.exponentialview.co/p/ev-453
https://twitter.com/jefflijun/status/1736571021409374296
https://twitter.com/ZeyiYang/status/1736592157916512316
https://weibo.com/1560906700/NxFAuanAF
免責(zé)聲明:本文來(lái)自網(wǎng)絡(luò)收錄或投稿,,觀點(diǎn)僅代表作者本人,,不代表芒果財(cái)經(jīng)贊同其觀點(diǎn)或證實(shí)其描述,版權(quán)歸原作者所有,。轉(zhuǎn)載請(qǐng)注明出處:http://lequren.com/1083987.html
溫馨提示:投資有風(fēng)險(xiǎn),,入市須謹(jǐn)慎。本資訊不作為投資理財(cái)建議,。