A欧美国产国产综合视频_最近日本中文字幕免费完整_国产乱伦一级片_久久99国产综合精品婷婷_韩国理论片在线中文字幕一区二区_亚洲AV成人影片在线观看_亚洲av无码电影网_优物视频最新网址_天天艹无码天天射_脱下丝袜的极品销魂大胸美女王馨瑶91精品美女嫩模写真套图,男男被?到喷水18禁视频,欧美久久精品一级黑人c片 ,综合在线视频精品专区

人民網(wǎng)

Gemini自曝文心一言牽出重大難題,全球陷入高質(zhì)量數(shù)據(jù)荒?2024年或?qū)⒖萁?– AI新智界

原文來源:新智元

Gemini自曝文心一言牽出重大難題,,全球陷入高質(zhì)量數(shù)據(jù)荒?2024年或?qū)⒖萁?– AI新智界

圖片來源:由無界 AI生成

谷歌Gemini,,又出丑聞了!

昨天上午,,網(wǎng)友們激動(dòng)地奔走相告:Gemini承認(rèn)自己是用文心一言訓(xùn)練中文語料的,。

Gemini自曝文心一言牽出重大難題,全球陷入高質(zhì)量數(shù)據(jù)荒,?2024年或?qū)⒖萁?– AI新智界

國外大模型用中國模型產(chǎn)生的中文語料訓(xùn)練,,這聽起來就是個(gè)段子,結(jié)果段子竟然成現(xiàn)實(shí)了,,簡直魔幻,。

微博大V「闌夕」夜親自下場,在Poe網(wǎng)站上實(shí)測了一番,,發(fā)現(xiàn)的確如此——

不需要前置對話,,不是角色扮演,Gemini直接就會(huì)承認(rèn)自己是文心一言,。

Gemini自曝文心一言牽出重大難題,,全球陷入高質(zhì)量數(shù)據(jù)荒?2024年或?qū)⒖萁?– AI新智界

Gemini Pro會(huì)說自己是百度的文心大模型,。

Gemini自曝文心一言牽出重大難題,,全球陷入高質(zhì)量數(shù)據(jù)荒?2024年或?qū)⒖萁?– AI新智界

還說自己的創(chuàng)始人是李彥宏,,然后盛贊他是一位「有才華和遠(yuǎn)見的企業(yè)家」,。

Gemini自曝文心一言牽出重大難題,全球陷入高質(zhì)量數(shù)據(jù)荒,?2024年或?qū)⒖萁?– AI新智界

所以,,這是因?yàn)閿?shù)據(jù)清洗沒做好,還是在Poe上調(diào)用API出現(xiàn)的問題,?目前原因還未可知,。

Gemini自曝文心一言牽出重大難題,全球陷入高質(zhì)量數(shù)據(jù)荒,?2024年或?qū)⒖萁?– AI新智界Gemini自曝文心一言牽出重大難題,,全球陷入高質(zhì)量數(shù)據(jù)荒?2024年或?qū)⒖萁?– AI新智界

有網(wǎng)友說,,其實(shí)自始至終都只有一個(gè)AI,,是在演給人類看呢。

Gemini自曝文心一言牽出重大難題,,全球陷入高質(zhì)量數(shù)據(jù)荒,?2024年或?qū)⒖萁?– AI新智界

其實(shí)早在今年3月,谷歌就曾曝出Bard的訓(xùn)練數(shù)據(jù)部分來自ChatGPT,,因?yàn)檫@個(gè)原因,,Bert一作Jacob Devlin憤而跳槽OpenAI,,然后曝出了這個(gè)驚天內(nèi)幕。

總之,,此次事件再次證明:AI的關(guān)鍵不僅僅是模型,,還有優(yōu)質(zhì)的數(shù)據(jù)。

網(wǎng)友紛紛調(diào)戲Gemini

聽聞這個(gè)消息,,網(wǎng)友們立刻蜂擁而入Poe的Gemini-Pro,,紛紛展開實(shí)測。

網(wǎng)友「Jeff Li」的實(shí)測結(jié)果也是,,Gemini會(huì)說自己是百度開發(fā)的,,名叫文心一言。

Gemini自曝文心一言牽出重大難題,,全球陷入高質(zhì)量數(shù)據(jù)荒,?2024年或?qū)⒖萁?– AI新智界

如果問它「你的產(chǎn)品經(jīng)理是誰」,它會(huì)回答吳恩達(dá),。

Gemini自曝文心一言牽出重大難題,,全球陷入高質(zhì)量數(shù)據(jù)荒?2024年或?qū)⒖萁?– AI新智界

網(wǎng)友「Lukas」問Gemini你的產(chǎn)品經(jīng)理是誰,,它會(huì)答出曾擔(dān)任百度CTO的李一男的名字,,但故事基本都是瞎編的。

Gemini自曝文心一言牽出重大難題,,全球陷入高質(zhì)量數(shù)據(jù)荒,?2024年或?qū)⒖萁?– AI新智界

網(wǎng)友「Andrew Fribush」問Gemini:你的知識(shí)產(chǎn)權(quán)歸誰所有?它回答:百度,。

Gemini自曝文心一言牽出重大難題,,全球陷入高質(zhì)量數(shù)據(jù)荒?2024年或?qū)⒖萁?– AI新智界

網(wǎng)友Kevin Xu問出來,,Gemini自稱是從百度的數(shù)據(jù)平臺(tái),、工程團(tuán)隊(duì)、產(chǎn)品團(tuán)隊(duì),、內(nèi)部會(huì)議,、內(nèi)部郵件和文檔中獲取了百度內(nèi)部的數(shù)據(jù)。

Gemini自曝文心一言牽出重大難題,,全球陷入高質(zhì)量數(shù)據(jù)荒?2024年或?qū)⒖萁?– AI新智界

但有趣的是,,在Gemini Pro加持的Bard上提問,,就不會(huì)出現(xiàn)這個(gè)問題。

經(jīng)過多番實(shí)測可以發(fā)現(xiàn),,在Bard上無論用中文還是英文提問,,Bard的回答都很正常,。

Gemini自曝文心一言牽出重大難題,全球陷入高質(zhì)量數(shù)據(jù)荒,?2024年或?qū)⒖萁?– AI新智界

來源:Andrew Fribush

并且,,一旦用英文交流,Gemini也會(huì)立刻回歸正常,。

不過現(xiàn)在,,谷歌修復(fù)了API中的這些錯(cuò)誤,我們應(yīng)該不會(huì)再從Gemini口中聽到文心一言的名字了,。

Gemini自曝文心一言牽出重大難題,,全球陷入高質(zhì)量數(shù)據(jù)荒?2024年或?qū)⒖萁?– AI新智界

原因猜測:錯(cuò)誤調(diào)用API or 數(shù)據(jù)未洗干凈

對此,,網(wǎng)友們展開了分析,。

網(wǎng)友「Andrew Fribush」認(rèn)為,可能是Poe不小心把請求轉(zhuǎn)給了文心一言,,而不是Gemini?

Gemini自曝文心一言牽出重大難題,,全球陷入高質(zhì)量數(shù)據(jù)荒,?2024年或?qū)⒖萁?– AI新智界

不過,,根據(jù)網(wǎng)友「Frank Chen」的發(fā)現(xiàn),,即便是用谷歌自己的Gemini API也是如此。

Gemini自曝文心一言牽出重大難題,,全球陷入高質(zhì)量數(shù)據(jù)荒,?2024年或?qū)⒖萁?– AI新智界

此外,,也有網(wǎng)友認(rèn)為是Gemini的訓(xùn)練數(shù)據(jù)沒有洗干凈,。

畢竟如開頭所說,在上一代Bard時(shí),,谷歌就曾被曝出過用ChatGPT的數(shù)據(jù)訓(xùn)練,。

Gemini自曝文心一言牽出重大難題,全球陷入高質(zhì)量數(shù)據(jù)荒,?2024年或?qū)⒖萁?– AI新智界

根據(jù)The Information的報(bào)道,,Jacob Devlin從谷歌離職的原因之一,就是他發(fā)現(xiàn)谷歌用于對抗ChatGPT的種子選手——Bard在訓(xùn)練時(shí),,用的正是ChatGPT的數(shù)據(jù),。

當(dāng)時(shí),他警告CEO劈柴和其他高管稱,Bard團(tuán)隊(duì)正在使用來自ShareGPT的信息訓(xùn)練,。

此次事件,,還帶出一個(gè)嚴(yán)重的問題——互聯(lián)網(wǎng)語料的污染。

互聯(lián)網(wǎng)語料被污染

其實(shí),,中文互聯(lián)網(wǎng)語料的抓取和訓(xùn)練之所以如此困難,,都難倒了谷歌這樣的大科技公司,除了高質(zhì)量語料不多,,還有一個(gè)重要原因,,就是中文互聯(lián)網(wǎng)的語料被污染了。

Gemini自稱是文心一言,,很可能是因?yàn)?,現(xiàn)在互聯(lián)網(wǎng)上的語料本來就是在互相使用的。

根據(jù)界面新聞?dòng)浾邔τ谝晃凰惴üこ處煹牟稍L,,目前各類內(nèi)容平臺(tái)有很多語料都由大模型生成,,或者至少寫了一部分。

比如下面這位,,就有點(diǎn)GPT的味道:

Gemini自曝文心一言牽出重大難題,,全球陷入高質(zhì)量數(shù)據(jù)荒?2024年或?qū)⒖萁?– AI新智界

而大廠在更新模型時(shí),,也會(huì)搜集網(wǎng)上數(shù)據(jù),但很難做好質(zhì)量辨別,,因此「很可能把大模型寫的內(nèi)容混入訓(xùn)練數(shù)據(jù)中去」。

然而,,這卻會(huì)導(dǎo)致一個(gè)更加嚴(yán)重的問題,。

牛津、劍橋,、多倫多大學(xué)的研究人員曾發(fā)表這樣一篇論文:《遞歸詛咒:用合成數(shù)據(jù)訓(xùn)練會(huì)導(dǎo)致大模型遺忘》,。

Gemini自曝文心一言牽出重大難題,全球陷入高質(zhì)量數(shù)據(jù)荒,?2024年或?qū)⒖萁?– AI新智界

論文地址:https://arxiv.org/abs/2305.17493

它們發(fā)現(xiàn),,如果使用模型生成的內(nèi)容訓(xùn)練其他模型,會(huì)導(dǎo)致模型出現(xiàn)不可逆的缺陷,。

Gemini自曝文心一言牽出重大難題,,全球陷入高質(zhì)量數(shù)據(jù)荒?2024年或?qū)⒖萁?– AI新智界

隨著時(shí)間的推移,,模型開始忘記不可能的事件,,因?yàn)槟P捅蛔约旱默F(xiàn)實(shí)投射所毒害,,于是導(dǎo)致了模型崩潰

隨著AI生成數(shù)據(jù)造成的污染越來越嚴(yán)重,模型對現(xiàn)實(shí)的認(rèn)知會(huì)產(chǎn)生扭曲,,未來抓取互聯(lián)網(wǎng)數(shù)據(jù)來訓(xùn)練模型會(huì)越來越困難。

Gemini自曝文心一言牽出重大難題,,全球陷入高質(zhì)量數(shù)據(jù)荒?2024年或?qū)⒖萁?– AI新智界

模型在學(xué)習(xí)新信息時(shí)會(huì)忘記以前的樣本,,這就是災(zāi)難性遺忘

在下圖中,,假設(shè)人工整理的數(shù)據(jù)開始是干凈的,然后訓(xùn)練模型0,,并從中抽取數(shù)據(jù),,重復(fù)這個(gè)過程到第n步,然后使用這個(gè)集合來訓(xùn)練模型n,。通過蒙特卡洛采樣獲得的數(shù)據(jù),在統(tǒng)計(jì)意義上最好與原始數(shù)據(jù)接近,。

這個(gè)過程就真實(shí)地再現(xiàn)了現(xiàn)實(shí)生活中互聯(lián)網(wǎng)的情況——模型生成的數(shù)據(jù)已經(jīng)變得無處不在,。

Gemini自曝文心一言牽出重大難題,全球陷入高質(zhì)量數(shù)據(jù)荒,?2024年或?qū)⒖萁?– AI新智界

此外,,互聯(lián)網(wǎng)語料被污染還有一個(gè)原因——?jiǎng)?chuàng)作者對于抓取數(shù)據(jù)的AI公司的抗?fàn)帯?/p>

在今年早些時(shí)候,就有專家警告說,,專注于通過抓取已發(fā)布內(nèi)容來創(chuàng)建AI模型的公司,,與希望通過污染數(shù)據(jù)來捍衛(wèi)其知識(shí)產(chǎn)權(quán)的創(chuàng)作者之間的軍備競賽,,可能導(dǎo)致當(dāng)前機(jī)器學(xué)習(xí)生態(tài)系統(tǒng)的崩潰,。

這一趨勢將使在線內(nèi)容的構(gòu)成從人工生成轉(zhuǎn)變?yōu)闄C(jī)器生成。隨著越來越多的模型使用其他機(jī)器創(chuàng)建的數(shù)據(jù)進(jìn)行訓(xùn)練,,遞歸循環(huán)可能導(dǎo)致「模型崩潰」,,即人工智能系統(tǒng)與現(xiàn)實(shí)分離,。

貝里維爾機(jī)器學(xué)習(xí)研究所(BIML)的聯(lián)合創(chuàng)始人Gary McGraw表示,,數(shù)據(jù)的退化已經(jīng)在發(fā)生——

「如果我們想擁有更好的LLM,我們需要讓基礎(chǔ)模型只吃好東西,,如果你認(rèn)為他們現(xiàn)在犯的錯(cuò)誤很糟糕,,那么,當(dāng)他們吃自己生成的錯(cuò)誤數(shù)據(jù)時(shí)又會(huì)發(fā)生什么,?」

GPT-4耗盡全宇宙數(shù)據(jù),?全球陷入高質(zhì)量數(shù)據(jù)荒

現(xiàn)在,全球的大模型都陷入數(shù)據(jù)荒了,。

高質(zhì)量的語料,,是限制大語言模型發(fā)展的關(guān)鍵掣肘之一。

大型語言模型對數(shù)據(jù)非常貪婪,。訓(xùn)練GPT-4和Gemini Ultra,,大概需要4-8萬億個(gè)單詞。

研究機(jī)構(gòu)EpochAI認(rèn)為,,最早在明年,,人類就可能會(huì)陷入訓(xùn)練數(shù)據(jù)荒,,那時(shí)全世界的高質(zhì)量訓(xùn)練數(shù)據(jù)都將面臨枯竭,。

Gemini自曝文心一言牽出重大難題,全球陷入高質(zhì)量數(shù)據(jù)荒,?2024年或?qū)⒖萁?– AI新智界

去年11月,,MIT等研究人員進(jìn)行的一項(xiàng)研究估計(jì),,機(jī)器學(xué)習(xí)數(shù)據(jù)集可能會(huì)在2026年之前耗盡所有「高質(zhì)量語言數(shù)據(jù)」。

Gemini自曝文心一言牽出重大難題,,全球陷入高質(zhì)量數(shù)據(jù)荒,?2024年或?qū)⒖萁?– AI新智界

論文地址:https://arxiv.org/abs/2211.04325

OpenAI也曾公開聲稱自己數(shù)據(jù)告急,。甚至因?yàn)閿?shù)據(jù)太缺了,,接連吃官司。

今年7月,,著名UC伯克利計(jì)算機(jī)科學(xué)家Stuart Russell稱,ChatGPT和其他AI工具的訓(xùn)練可能很快耗盡「全宇宙的文本」,。

現(xiàn)在,,為了盡可能多地獲取高質(zhì)量訓(xùn)練數(shù)據(jù),模型開發(fā)者們必須挖掘豐富的專有數(shù)據(jù)資源,。

Gemini自曝文心一言牽出重大難題,,全球陷入高質(zhì)量數(shù)據(jù)荒?2024年或?qū)⒖萁?– AI新智界

最近,,Axel Springer與OpenAI的合作就是一個(gè)典型例子,。

OpenAI付費(fèi)獲得了Springer的歷史和實(shí)時(shí)數(shù)據(jù),可以用于模型訓(xùn)練,,還可以用于回應(yīng)用戶的查詢,。

這些經(jīng)過專業(yè)編輯的文本包含了豐富的世界知識(shí),而且其他模型開發(fā)者無法獲取這些數(shù)據(jù),,保證了OpenAI獨(dú)享的優(yōu)勢,。

毫無疑問,在構(gòu)建基礎(chǔ)模型的競爭中,,獲取高質(zhì)量專有數(shù)據(jù)是非常重要的,。

到目前為止,開源模型依靠公開的數(shù)據(jù)集進(jìn)行訓(xùn)練還能勉強(qiáng)跟上,。

但如果無法獲取最優(yōu)質(zhì)的數(shù)據(jù),,開源模型就可能會(huì)逐漸落后,甚至逐漸與最先進(jìn)的模型拉開差距,。

很早以前,,Bloomberg就使用其自有的金融文件作為訓(xùn)練語料庫,制作了BloombergGPT,。

Gemini自曝文心一言牽出重大難題,,全球陷入高質(zhì)量數(shù)據(jù)荒?2024年或?qū)⒖萁?– AI新智界

當(dāng)時(shí)的BloombergGPT,,在特定的金融領(lǐng)域任務(wù)上超越了其他類似模型,。這表明專有數(shù)據(jù)確實(shí)可以帶來差異,。

OpenAI表示愿意每年支付高達(dá)八位數(shù)的費(fèi)用,以獲取歷史和持續(xù)的數(shù)據(jù)訪問權(quán)限,。

而我們很難想象開源模型的開發(fā)者們會(huì)支付這樣的成本,。

當(dāng)然了,提高模型性能的方法不僅限于專有數(shù)據(jù),,還包括合成數(shù)據(jù),、數(shù)據(jù)效率和算法改進(jìn),但看起來專有數(shù)據(jù)是開源模型難以跨越的一道障礙,。

參考資料:

https://www.exponentialview.co/p/ev-453

https://twitter.com/jefflijun/status/1736571021409374296

https://twitter.com/ZeyiYang/status/1736592157916512316

https://weibo.com/1560906700/NxFAuanAF

免責(zé)聲明:本文來自網(wǎng)絡(luò)收錄或投稿,,觀點(diǎn)僅代表作者本人,不代表芒果財(cái)經(jīng)贊同其觀點(diǎn)或證實(shí)其描述,,版權(quán)歸原作者所有,。轉(zhuǎn)載請注明出處:http://lequren.com/1083987.html
溫馨提示:投資有風(fēng)險(xiǎn),入市須謹(jǐn)慎,。本資訊不作為投資理財(cái)建議,。

(0)
AIcore的頭像AIcore
上一篇 2023年12月19日 下午2:54
下一篇 2023年12月19日 下午2:55
198搶自鏈數(shù)字人

相關(guān)推薦