A欧美国产国产综合视频_最近日本中文字幕免费完整_国产乱伦一级片_久久99国产综合精品婷婷_韩国理论片在线中文字幕一区二区_亚洲AV成人影片在线观看_亚洲av无码电影网_优物视频最新网址_天天艹无码天天射_脱下丝袜的极品销魂大胸美女王馨瑶91精品美女嫩模写真套图,男男被?到喷水18禁视频,欧美久久精品一级黑人c片 ,综合在线视频精品专区

人民網(wǎng)

AI產(chǎn)業(yè)的灰色暗面:OpenAI,、谷歌,、META如何搞訓(xùn)練語料

財聯(lián)社4月7日訊(編輯 史正丞)種種跡象顯示,目前站在全世界AI領(lǐng)域潮頭浪尖的這些公司,,早在幾年前就已經(jīng)陷入對訓(xùn)練語料的“絕望”追逐中——為此他們不惜修改政策條款,、無視互聯(lián)網(wǎng)信息的使用規(guī)則,只為了讓自家的產(chǎn)品更加先進(jìn)一些,。

《紐約時報》在本周末刊發(fā)的調(diào)查報道中,,揭露了OpenAI,、谷歌,、Meta等公司為了獲取訓(xùn)練語料所采取的一些“走捷徑”措施,,同時也展現(xiàn)了整個行業(yè)迫在眉睫的困境,。

美國科技巨頭各走“捷徑”

2021年末,正在訓(xùn)練GPT-4的OpenAI遇到了一個棘手的問題,,公司已經(jīng)耗盡了互聯(lián)網(wǎng)上所有可靠的英文文本資源,,而他們需要更多、更大規(guī)模的數(shù)據(jù)來訓(xùn)練更強(qiáng)大的模型,。

為了處理這個問題,,OpenAI的Whisper語音識別工具誕生了——用來轉(zhuǎn)錄谷歌旗下視頻平臺Youtube的視頻音頻,生成大量的對話文本,。

報道稱,包括OpenAI總裁布洛克曼在內(nèi)的團(tuán)隊總共轉(zhuǎn)錄了超過一百萬小時的Youtube視頻,。隨后這些資料被輸入到GPT-4系統(tǒng)中,,并成為聊天機(jī)器人ChatGPT的基礎(chǔ),。

根據(jù)谷歌的政策,,禁止用戶將平臺上的視頻用于“獨立”應(yīng)用,,同時禁止通過任何自動化手段(爬蟲等)訪問其視頻。

有趣的是,,在OpenAI偷偷扒Youtube視頻時,,谷歌也在轉(zhuǎn)錄自家流媒體平臺的內(nèi)容訓(xùn)練大模型——同樣冒著侵犯版權(quán)的風(fēng)險。正因如此,,雖然有谷歌員工知道OpenAI在這么干,,也沒有出手阻止,。因為一旦谷歌對OpenAI提出抗議,也有可能“引火燒身”到自己身上,。

對于是否采用Youtube視頻訓(xùn)練AI的詢問,,OpenAI方面回應(yīng)稱,他們使用了“多個來源”的數(shù)據(jù),。谷歌發(fā)言人Matt Bryant則表示,公司對OpenAI的行為一無所知,,且禁止任何人“未經(jīng)授權(quán)抓取或下載Youtube視頻”,。不過Bryant也表示,公司只會在有明確法律,、技術(shù)依據(jù)時才會采取行動,。

谷歌自家的條款,,則允許平臺使用這些視頻開發(fā)視頻平臺的新功能,但這樣的措辭是否意味著谷歌能用這些資料開發(fā)商用AI,,也存在不小的疑問,。

與此同時,Meta的內(nèi)部會議紀(jì)要顯示,,工程師和產(chǎn)品經(jīng)理討論了購買美國大型出版商Simon & Schuster以獲取長文本資料的計劃,,另外他們還討論了從互聯(lián)網(wǎng)上收集受版權(quán)保護(hù)的內(nèi)容,并表示“與出版商,、藝術(shù)家,、音樂家和新聞行業(yè)談判授權(quán)需要的時間太多了”。

據(jù)悉,,有Meta的高管表示,,OpenAI似乎正在使用受版權(quán)保護(hù)的材料,所以公司也可以遵循這個“市場先例”,。

更顯性的變化是,,谷歌去年修改了服務(wù)條款。根據(jù)內(nèi)部資料顯示,,推動隱私政策變化的動機(jī)之一,,包括允許谷歌利用公開的谷歌文檔、谷歌地圖上的餐廳評論,,以及更多在線資料開發(fā)AI產(chǎn)品,。最終谷歌趕在美國國慶節(jié)(7月4日)放假前的7月1日發(fā)布了修改后的隱私條款,將“使用公開信息訓(xùn)練AI模型”首次納入其中,。

Bryant回應(yīng)稱,,公司不會在沒有用戶“明確許可”的情況下使用他們的谷歌文檔來訓(xùn)練AI,這里指的是自愿參與的實驗性功能體驗計劃,。

即便如此還是不夠

正因為這些操作,,近些年來伴隨著人們對AI能力的驚嘆,越來越多的版權(quán)方也開始意識到自己的數(shù)據(jù)被偷偷拿走訓(xùn)練AI了,。包括《紐約時報》,、一些電影制作人和作家已經(jīng)將這些科技公司告上法庭,美國著作權(quán)局也正在制定版權(quán)法在AI時代的適用指南,。

問題在于,即便一些作家,、制片人將科技公司的行為稱為“美國史上最大盜竊案”,,科技公司用來發(fā)展下一代AI的數(shù)據(jù)依然還是不夠。

2020年初,,約翰霍普金斯大學(xué)的理論物理學(xué)家(現(xiàn)Anthropic首席科學(xué)官)Jared Kaplan發(fā)布了一篇論文,,明確表示訓(xùn)練大語言模型用的數(shù)據(jù)越多,表現(xiàn)就會越好,。自那以后,,“規(guī)模就是一切”成為了人工智能行業(yè)的信條,。

2020年11月發(fā)布的GPT-3包含約3000億個Token的訓(xùn)練數(shù)據(jù),。2022年,谷歌DeepMind對400個人工智能模型進(jìn)行測試,,其中表現(xiàn)最好的模型(之一),,一個名為Chinchilla的模型用了1.4萬億個Token的數(shù)據(jù)。到2023年,,中國科學(xué)家開發(fā)的Skywork大模型在訓(xùn)練中使用了3.2萬億個英文和中文Token,,谷歌PaLM 2的訓(xùn)練數(shù)據(jù)量則達(dá)到3.6萬億個Token。

研究機(jī)構(gòu)Epoch直白地表示,,現(xiàn)在科技公司使用數(shù)據(jù)的速度已經(jīng)超過數(shù)據(jù)生產(chǎn)的速度,,這些公司最快會在2026年就耗盡互聯(lián)網(wǎng)上的高質(zhì)量數(shù)據(jù)。

面對這樣的問題,,奧爾特曼已經(jīng)提出了一種解決方法:像OpenAI這樣的公司,,最終會轉(zhuǎn)向使用AI生成的數(shù)據(jù)(也被稱為合成數(shù)據(jù))來訓(xùn)練AI。這樣開發(fā)人員在創(chuàng)建愈發(fā)強(qiáng)大的技術(shù)同時,,也會減少對受版權(quán)保護(hù)數(shù)據(jù)的依賴,。

目前OpenAI和一系列機(jī)構(gòu)也正在研究使用兩個不同的模型,能否共同生成更有用,、更可靠的合成數(shù)據(jù)——一個系統(tǒng)產(chǎn)生數(shù)據(jù),,另一個系統(tǒng)對信息進(jìn)行評判。當(dāng)然,,這種技術(shù)路徑是否可行,,目前仍存爭議。

前OpenAI研究員Jeff Clune認(rèn)為,,這些AI系統(tǒng)所需的數(shù)據(jù)就像是穿越叢林的路徑,,如果這些公司只是在合成數(shù)據(jù)上訓(xùn)練,AI可能會在叢林里迷失,。

(財聯(lián)社 史正丞 )

免責(zé)聲明:本文來自網(wǎng)絡(luò)收錄或投稿,,觀點僅代表作者本人,不代表芒果財經(jīng)贊同其觀點或證實其描述,,版權(quán)歸原作者所有,。轉(zhuǎn)載請注明出處:http://lequren.com/1096038.html
溫馨提示:投資有風(fēng)險,入市須謹(jǐn)慎,。本資訊不作為投資理財建議,。

(0)
財聯(lián)社的頭像財聯(lián)社
上一篇 2024年4月7日
下一篇 2024年4月8日
198搶自鏈數(shù)字人

相關(guān)推薦