免费久久一级毛片大黄,亚洲AV人无码激艳

原文來源：新智元

圖片來源：由無界 AI生成

谷歌Gemini,，又出丑聞了！

昨天上午,，網(wǎng)友們激動(dòng)地奔走相告：Gemini承認(rèn)自己是用文心一言訓(xùn)練中文語料的,。

國外大模型用中國模型產(chǎn)生的中文語料訓(xùn)練,，這聽起來就是個(gè)段子，結(jié)果段子竟然成現(xiàn)實(shí)了,，簡直魔幻,。

微博大V「闌夕」夜親自下場，在Poe網(wǎng)站上實(shí)測了一番,，發(fā)現(xiàn)的確如此——

不需要前置對話,，不是角色扮演，Gemini直接就會(huì)承認(rèn)自己是文心一言,。

Gemini Pro會(huì)說自己是百度的文心大模型,。

還說自己的創(chuàng)始人是李彥宏,，然后盛贊他是一位「有才華和遠(yuǎn)見的企業(yè)家」,。

所以,，這是因?yàn)閿?shù)據(jù)清洗沒做好，還是在Poe上調(diào)用API出現(xiàn)的問題,？目前原因還未可知,。

有網(wǎng)友說,，其實(shí)自始至終都只有一個(gè)AI,，是在演給人類看呢。

其實(shí)早在今年3月，谷歌就曾曝出Bard的訓(xùn)練數(shù)據(jù)部分來自ChatGPT,，因?yàn)檫@個(gè)原因,，Bert一作Jacob Devlin憤而跳槽OpenAI,，然后曝出了這個(gè)驚天內(nèi)幕。

總之,，此次事件再次證明：AI的關(guān)鍵不僅僅是模型,，還有優(yōu)質(zhì)的數(shù)據(jù)。

網(wǎng)友紛紛調(diào)戲Gemini

聽聞這個(gè)消息,，網(wǎng)友們立刻蜂擁而入Poe的Gemini-Pro,，紛紛展開實(shí)測。

網(wǎng)友「Jeff Li」的實(shí)測結(jié)果也是,，Gemini會(huì)說自己是百度開發(fā)的,，名叫文心一言。

如果問它「你的產(chǎn)品經(jīng)理是誰」，它會(huì)回答吳恩達(dá),。

網(wǎng)友「Lukas」問Gemini你的產(chǎn)品經(jīng)理是誰,，它會(huì)答出曾擔(dān)任百度CTO的李一男的名字,，但故事基本都是瞎編的。

網(wǎng)友「Andrew Fribush」問Gemini：你的知識(shí)產(chǎn)權(quán)歸誰所有？它回答：百度,。

網(wǎng)友Kevin Xu問出來,，Gemini自稱是從百度的數(shù)據(jù)平臺(tái),、工程團(tuán)隊(duì)、產(chǎn)品團(tuán)隊(duì),、內(nèi)部會(huì)議,、內(nèi)部郵件和文檔中獲取了百度內(nèi)部的數(shù)據(jù)。

但有趣的是,，在Gemini Pro加持的Bard上提問,，就不會(huì)出現(xiàn)這個(gè)問題。

經(jīng)過多番實(shí)測可以發(fā)現(xiàn),，在Bard上無論用中文還是英文提問,，Bard的回答都很正常,。

來源：Andrew Fribush

并且,，一旦用英文交流，Gemini也會(huì)立刻回歸正常,。

不過現(xiàn)在,，谷歌修復(fù)了API中的這些錯(cuò)誤，我們應(yīng)該不會(huì)再從Gemini口中聽到文心一言的名字了,。

原因猜測：錯(cuò)誤調(diào)用API or 數(shù)據(jù)未洗干凈

對此,，網(wǎng)友們展開了分析,。

網(wǎng)友「Andrew Fribush」認(rèn)為，可能是Poe不小心把請求轉(zhuǎn)給了文心一言,，而不是Gemini？

不過,，根據(jù)網(wǎng)友「Frank Chen」的發(fā)現(xiàn),，即便是用谷歌自己的Gemini API也是如此。

此外,，也有網(wǎng)友認(rèn)為是Gemini的訓(xùn)練數(shù)據(jù)沒有洗干凈,。

畢竟如開頭所說，在上一代Bard時(shí),，谷歌就曾被曝出過用ChatGPT的數(shù)據(jù)訓(xùn)練,。

根據(jù)The Information的報(bào)道,，Jacob Devlin從谷歌離職的原因之一，就是他發(fā)現(xiàn)谷歌用于對抗ChatGPT的種子選手——Bard在訓(xùn)練時(shí),，用的正是ChatGPT的數(shù)據(jù),。

當(dāng)時(shí)，他警告CEO劈柴和其他高管稱，Bard團(tuán)隊(duì)正在使用來自ShareGPT的信息訓(xùn)練,。

此次事件,，還帶出一個(gè)嚴(yán)重的問題——互聯(lián)網(wǎng)語料的污染。

互聯(lián)網(wǎng)語料被污染

其實(shí),，中文互聯(lián)網(wǎng)語料的抓取和訓(xùn)練之所以如此困難,，都難倒了谷歌這樣的大科技公司，除了高質(zhì)量語料不多,，還有一個(gè)重要原因,，就是中文互聯(lián)網(wǎng)的語料被污染了。

Gemini自稱是文心一言,，很可能是因?yàn)?，現(xiàn)在互聯(lián)網(wǎng)上的語料本來就是在互相使用的。

根據(jù)界面新聞?dòng)浾邔τ谝晃凰惴üこ處煹牟稍L,，目前各類內(nèi)容平臺(tái)有很多語料都由大模型生成,，或者至少寫了一部分。

比如下面這位,，就有點(diǎn)GPT的味道：

而大廠在更新模型時(shí),，也會(huì)搜集網(wǎng)上數(shù)據(jù)，但很難做好質(zhì)量辨別,，因此「很可能把大模型寫的內(nèi)容混入訓(xùn)練數(shù)據(jù)中去」。

然而,，這卻會(huì)導(dǎo)致一個(gè)更加嚴(yán)重的問題,。

牛津、劍橋,、多倫多大學(xué)的研究人員曾發(fā)表這樣一篇論文：《遞歸詛咒：用合成數(shù)據(jù)訓(xùn)練會(huì)導(dǎo)致大模型遺忘》,。

論文地址：https://arxiv.org/abs/2305.17493

它們發(fā)現(xiàn),，如果使用模型生成的內(nèi)容訓(xùn)練其他模型，會(huì)導(dǎo)致模型出現(xiàn)不可逆的缺陷,。

隨著時(shí)間的推移,，模型開始忘記不可能的事件,，因?yàn)槟Ｐ捅蛔约旱默F(xiàn)實(shí)投射所毒害,，于是導(dǎo)致了模型崩潰

隨著AI生成數(shù)據(jù)造成的污染越來越嚴(yán)重，模型對現(xiàn)實(shí)的認(rèn)知會(huì)產(chǎn)生扭曲,，未來抓取互聯(lián)網(wǎng)數(shù)據(jù)來訓(xùn)練模型會(huì)越來越困難。

模型在學(xué)習(xí)新信息時(shí)會(huì)忘記以前的樣本,，這就是災(zāi)難性遺忘

在下圖中,，假設(shè)人工整理的數(shù)據(jù)開始是干凈的，然后訓(xùn)練模型0,，并從中抽取數(shù)據(jù),，重復(fù)這個(gè)過程到第n步，然后使用這個(gè)集合來訓(xùn)練模型n,。通過蒙特卡洛采樣獲得的數(shù)據(jù)，在統(tǒng)計(jì)意義上最好與原始數(shù)據(jù)接近,。

這個(gè)過程就真實(shí)地再現(xiàn)了現(xiàn)實(shí)生活中互聯(lián)網(wǎng)的情況——模型生成的數(shù)據(jù)已經(jīng)變得無處不在,。

此外,，互聯(lián)網(wǎng)語料被污染還有一個(gè)原因——?jiǎng)?chuàng)作者對于抓取數(shù)據(jù)的AI公司的抗?fàn)帯?/p>

在今年早些時(shí)候，就有專家警告說,，專注于通過抓取已發(fā)布內(nèi)容來創(chuàng)建AI模型的公司,，與希望通過污染數(shù)據(jù)來捍衛(wèi)其知識(shí)產(chǎn)權(quán)的創(chuàng)作者之間的軍備競賽,，可能導(dǎo)致當(dāng)前機(jī)器學(xué)習(xí)生態(tài)系統(tǒng)的崩潰,。

這一趨勢將使在線內(nèi)容的構(gòu)成從人工生成轉(zhuǎn)變?yōu)闄C(jī)器生成。隨著越來越多的模型使用其他機(jī)器創(chuàng)建的數(shù)據(jù)進(jìn)行訓(xùn)練,，遞歸循環(huán)可能導(dǎo)致「模型崩潰」,，即人工智能系統(tǒng)與現(xiàn)實(shí)分離,。

貝里維爾機(jī)器學(xué)習(xí)研究所（BIML）的聯(lián)合創(chuàng)始人Gary McGraw表示,，數(shù)據(jù)的退化已經(jīng)在發(fā)生——

「如果我們想擁有更好的LLM，我們需要讓基礎(chǔ)模型只吃好東西,，如果你認(rèn)為他們現(xiàn)在犯的錯(cuò)誤很糟糕,，那么，當(dāng)他們吃自己生成的錯(cuò)誤數(shù)據(jù)時(shí)又會(huì)發(fā)生什么,？」

GPT-4耗盡全宇宙數(shù)據(jù),？全球陷入高質(zhì)量數(shù)據(jù)荒

現(xiàn)在，全球的大模型都陷入數(shù)據(jù)荒了,。

高質(zhì)量的語料,，是限制大語言模型發(fā)展的關(guān)鍵掣肘之一。

大型語言模型對數(shù)據(jù)非常貪婪,。訓(xùn)練GPT-4和Gemini Ultra,，大概需要4-8萬億個(gè)單詞。

研究機(jī)構(gòu)EpochAI認(rèn)為,，最早在明年,，人類就可能會(huì)陷入訓(xùn)練數(shù)據(jù)荒,，那時(shí)全世界的高質(zhì)量訓(xùn)練數(shù)據(jù)都將面臨枯竭,。

去年11月,，MIT等研究人員進(jìn)行的一項(xiàng)研究估計(jì),，機(jī)器學(xué)習(xí)數(shù)據(jù)集可能會(huì)在2026年之前耗盡所有「高質(zhì)量語言數(shù)據(jù)」。

論文地址：https://arxiv.org/abs/2211.04325

OpenAI也曾公開聲稱自己數(shù)據(jù)告急,。甚至因?yàn)閿?shù)據(jù)太缺了,，接連吃官司。

今年7月,，著名UC伯克利計(jì)算機(jī)科學(xué)家Stuart Russell稱，ChatGPT和其他AI工具的訓(xùn)練可能很快耗盡「全宇宙的文本」,。

現(xiàn)在,，為了盡可能多地獲取高質(zhì)量訓(xùn)練數(shù)據(jù)，模型開發(fā)者們必須挖掘豐富的專有數(shù)據(jù)資源,。

最近,，Axel Springer與OpenAI的合作就是一個(gè)典型例子,。

OpenAI付費(fèi)獲得了Springer的歷史和實(shí)時(shí)數(shù)據(jù)，可以用于模型訓(xùn)練,，還可以用于回應(yīng)用戶的查詢,。

這些經(jīng)過專業(yè)編輯的文本包含了豐富的世界知識(shí)，而且其他模型開發(fā)者無法獲取這些數(shù)據(jù),，保證了OpenAI獨(dú)享的優(yōu)勢,。

毫無疑問，在構(gòu)建基礎(chǔ)模型的競爭中,，獲取高質(zhì)量專有數(shù)據(jù)是非常重要的,。

到目前為止，開源模型依靠公開的數(shù)據(jù)集進(jìn)行訓(xùn)練還能勉強(qiáng)跟上,。

但如果無法獲取最優(yōu)質(zhì)的數(shù)據(jù),，開源模型就可能會(huì)逐漸落后，甚至逐漸與最先進(jìn)的模型拉開差距,。

很早以前,，Bloomberg就使用其自有的金融文件作為訓(xùn)練語料庫，制作了BloombergGPT,。

當(dāng)時(shí)的BloombergGPT,，在特定的金融領(lǐng)域任務(wù)上超越了其他類似模型,。這表明專有數(shù)據(jù)確實(shí)可以帶來差異,。

OpenAI表示愿意每年支付高達(dá)八位數(shù)的費(fèi)用，以獲取歷史和持續(xù)的數(shù)據(jù)訪問權(quán)限,。

而我們很難想象開源模型的開發(fā)者們會(huì)支付這樣的成本,。

當(dāng)然了，提高模型性能的方法不僅限于專有數(shù)據(jù),，還包括合成數(shù)據(jù),、數(shù)據(jù)效率和算法改進(jìn)，但看起來專有數(shù)據(jù)是開源模型難以跨越的一道障礙,。

參考資料：

https://www.exponentialview.co/p/ev-453

https://twitter.com/jefflijun/status/1736571021409374296

https://twitter.com/ZeyiYang/status/1736592157916512316

https://weibo.com/1560906700/NxFAuanAF

免責(zé)聲明：本文來自網(wǎng)絡(luò)收錄或投稿,，觀點(diǎn)僅代表作者本人，不代表芒果財(cái)經(jīng)贊同其觀點(diǎn)或證實(shí)其描述,，版權(quán)歸原作者所有,。轉(zhuǎn)載請注明出處：http://lequren.com/1083987.html
溫馨提示：投資有風(fēng)險(xiǎn)，入市須謹(jǐn)慎,。本資訊不作為投資理財(cái)建議,。