原文來(lái)源:元宇宙新聲
圖片來(lái)源:由無(wú)界 AI生成
眾所周知,,在AI大模型領(lǐng)域,,OpenAI研發(fā)出Chat-GPT這件事就像上學(xué)時(shí)老師布置了一個(gè)特別困難的題目,,就在大家都還在整理解題思路或是百思不得其解的時(shí)候,班級(jí)里的學(xué)霸已經(jīng)第一個(gè)寫(xiě)完了,,于是大部分人則更傾向于與學(xué)霸交流思路,,抑或是直接抄作業(yè)。
近期的種種風(fēng)波似乎也證實(shí)了,,許多看似復(fù)雜的事物其本質(zhì)是一樣的,。前有馬斯克的Grok AI 因?yàn)閿?shù)據(jù)集污染被懷疑抄襲甚至是套殼Chat-GPT ,現(xiàn)有字節(jié)跳動(dòng)涉嫌違反服務(wù)條款被OpenAI 封號(hào),。
字節(jié)跳動(dòng),,陷入大模型輿論風(fēng)波
近日,外媒The Verge報(bào)道稱(chēng),,字節(jié)跳動(dòng)利用微軟的 OpenAI API 賬戶(hù)生成數(shù)據(jù)來(lái)訓(xùn)練自己的人工智能模型,這種行為實(shí)際上已經(jīng)違反了微軟和OpenAI的使用條款,。在此消息被披露不久,,The Verge進(jìn)一步稱(chēng)OpenAI已經(jīng)暫停了字節(jié)跳動(dòng)的賬戶(hù)。
那么字節(jié)跳動(dòng)具體是違反了什么條款呢?其實(shí)在OpenAI的服務(wù)條款中有一項(xiàng)明確的規(guī)定,,那就是OpenAI提供的模型能力,不允許用來(lái)被“開(kāi)發(fā)任何與之產(chǎn)品和服務(wù)形成競(jìng)爭(zhēng)的 AI 模型”,。
根據(jù)The Verge的說(shuō)法,,證據(jù)是來(lái)自字節(jié)跳動(dòng)的一份內(nèi)部文件——海外版飛書(shū)Lark的聊天記錄。
這份文件表明,,字節(jié)跳動(dòng)在代號(hào)為“種子計(jì)劃”(Project Seed)基礎(chǔ)大語(yǔ)言模型項(xiàng)目中,,幾乎是在每個(gè)開(kāi)發(fā)階段都依賴(lài)OpenAI的API來(lái)進(jìn)行開(kāi)發(fā),包括訓(xùn)練和評(píng)估模型,。
“種子計(jì)劃”大約在一年前啟動(dòng),目前主要研發(fā)兩個(gè)產(chǎn)品,,一個(gè)是在國(guó)內(nèi)已經(jīng)上線的豆包;另一個(gè)是針對(duì)商業(yè)用戶(hù)的聊天機(jī)器人平臺(tái),,目前正在開(kāi)發(fā)中。
參與“種子計(jì)劃”的員工是深知過(guò)度依賴(lài)OpenAI API的后果,,于是他們就開(kāi)始討論如何通過(guò)“數(shù)據(jù)脫敏”來(lái)粉飾證據(jù),。以至于經(jīng)常會(huì)出現(xiàn)員工達(dá)到OpenAI API的最大訪問(wèn)上限的情況。
The Verge根據(jù)內(nèi)部文件表示,,字節(jié)跳動(dòng)大約是在幾個(gè)月前下達(dá)了“模型開(kāi)發(fā)的任何階段停止使用 GPT 生成的文本”的命令,。
不過(guò)也正是在這個(gè)時(shí)候,字節(jié)跳動(dòng)發(fā)布了自家大語(yǔ)言模型豆包,。豆包AI官微介紹,,豆包AI可以提供聊天機(jī)器人、寫(xiě)作助手以及英語(yǔ)學(xué)習(xí)助手等功能,,它可以回答各種問(wèn)題并進(jìn)行對(duì)話,,幫助人們獲取信息,支持網(wǎng)頁(yè)Web平臺(tái),,iOS以及安卓平臺(tái),。豆包能提供自然語(yǔ)言處理、知識(shí)理解,、對(duì)話,、信息檢索、情感分析,、機(jī)器學(xué)習(xí)等多種類(lèi)型的幫助,。
但是,字節(jié)跳動(dòng)繼續(xù)以違反 OpenAI 和微軟服務(wù)條款的方式使用 API,,包括評(píng)估豆包背后模型的性能,。一位對(duì)字節(jié)跳動(dòng)內(nèi)部情況有第一手了解的人指出,“他們說(shuō)他們想確保一切都是合法的,,但他們實(shí)際上只是不想被抓住把柄”,。
三方接連表態(tài),著急的只有字節(jié)
字節(jié)跳動(dòng)
在The Verge發(fā)出這篇報(bào)道之后,,字節(jié)跳動(dòng)發(fā)言人Jodi Seth做出了如下回應(yīng):GPT 生成的數(shù)據(jù)在“種子計(jì)劃”的早期開(kāi)發(fā)中用于注釋模型,,并且在今年年中左右的時(shí)候已從字節(jié)跳動(dòng)的訓(xùn)練數(shù)據(jù)中刪除。字節(jié)跳動(dòng)得到了微軟的授權(quán),,可以使用GPT API,。我們?cè)诜侵袊?guó)市場(chǎng)利用GPT支持我們的產(chǎn)品;但在中國(guó)市場(chǎng),則是使用我們自研的模型來(lái)支持豆包,。
昨日下午,,字節(jié)跳動(dòng)相關(guān)負(fù)責(zé)人再度回應(yīng)稱(chēng),公司在使用 OpenAI 相關(guān)服務(wù)時(shí),,強(qiáng)調(diào)要遵守其使用條款,。我們也正與 OpenAI 聯(lián)系溝通,以澄清外部報(bào)道可能引發(fā)的誤解,。
字節(jié)跳動(dòng)使用 OpenAI 服務(wù)相關(guān)情況的介紹:
1,、今年年初,當(dāng)技術(shù)團(tuán)隊(duì)剛開(kāi)始進(jìn)行大模型的初期探索時(shí),有部分工程師將 GPT 的 API 服務(wù)應(yīng)用于較小模型的實(shí)驗(yàn)性項(xiàng)目研究中,。該模型僅為測(cè)試,,沒(méi)有計(jì)劃上線,也從未對(duì)外使用,。在 4 月公司引入 GPT API 調(diào)用規(guī)范檢查后,,這種做法已經(jīng)停止。
2,、早在今年 4 月,,字節(jié)大模型團(tuán)隊(duì)已經(jīng)提出了明確的內(nèi)部要求,不得將 GPT 模型生成的數(shù)據(jù)添加到字節(jié)大模型的訓(xùn)練數(shù)據(jù)集,,并培訓(xùn)工程師團(tuán)隊(duì)在使用 GPT 時(shí)遵守服務(wù)條款,。
3、9 月,,公司內(nèi)部又進(jìn)行了一輪檢查,,采取措施進(jìn)一步保證對(duì) GPT 的 API 調(diào)用符合規(guī)范要求。例如分批次抽樣模型訓(xùn)練數(shù)據(jù)與 GPT 的相似度,,避免數(shù)據(jù)標(biāo)注人員私自使用 GPT,。
4、未來(lái)幾天里,,我們會(huì)再次全面檢查,,以確保嚴(yán)格遵守相關(guān)服務(wù)的使用條款。
OpenAI
OpenAI 發(fā)言人尼克?菲利克斯(Niko Felix)發(fā)表聲明,,確認(rèn)字節(jié)跳動(dòng)的賬戶(hù)已被暫停,。“所有 API 客戶(hù)必須遵守我們的使用政策,以確保我們的技術(shù)被用于好的一面,。雖然字節(jié)跳動(dòng)很少使用我們的 API,,但我們?cè)谶M(jìn)一步調(diào)查期間已暫停了他們的帳戶(hù)。如果我們發(fā)現(xiàn)他們的使用不符合公司政策,,我們將要求他們做出必要的改變或終止他們的賬戶(hù),。”菲利克斯表示,。
微軟
微軟發(fā)言人弗蘭克?肖(Frank Shaw)在一份聲明中表示:“Azure OpenAI 服務(wù)等微軟 AI 解決方案屬于我們有限訪問(wèn)框架的一部分,,這意味著所有客戶(hù)都必須申請(qǐng)并獲得微軟的批準(zhǔn)才能訪問(wèn)。我們還制定了標(biāo)準(zhǔn)并提供資源,,幫助我們的客戶(hù)負(fù)責(zé)任地使用這些技術(shù),并遵守我們的服務(wù)條款,。我們還制定了發(fā)現(xiàn)濫用行為的流程,,并在企業(yè)違反我們的行為準(zhǔn)則時(shí)停止他們的訪問(wèn)。”
從此次事件中的三方聲明中可以看出,,OpenAI 比較保守,,只是暫停了字節(jié)跳動(dòng)的賬號(hào),并表示會(huì)進(jìn)行調(diào)查后再?zèng)Q定是否需要采取進(jìn)一步措施,。微軟則是有一種“事不關(guān)己高高掛起”的態(tài)度,,仿佛再說(shuō)“我只是中間人,我們有自己的規(guī)定,,如果有違反的行為我們會(huì)禁止的”,。字節(jié)跳動(dòng)則顯得更著急一些,畢竟“火”已經(jīng)燒在身上了,。先是澄清解釋?zhuān)偈橇⒖搪?lián)系OpenAI想要迅速對(duì)此次事件“滅火”,。
字節(jié)跳動(dòng)的AI布局
公開(kāi)資料顯示,早在2016年,,字節(jié)跳動(dòng)就成立了AI實(shí)驗(yàn)室,,聚焦于自然語(yǔ)言處理、機(jī)器學(xué)習(xí),、數(shù)據(jù)挖掘等方面的研究,。抖音、今日頭條等字節(jié)跳動(dòng)旗下產(chǎn)品中也頻頻加入AIGC(生成式人工智能)功能,,持續(xù)吸引流量,。
2023年,字節(jié)跳動(dòng)在AI領(lǐng)域的動(dòng)作明顯加快,。6月,,字節(jié)跳動(dòng)旗下火山引擎發(fā)布大模型服務(wù)平臺(tái)“火山方舟”,面向企業(yè)提供模型精調(diào),、評(píng)測(cè),、推理等全方位的平臺(tái)服務(wù)。
8月,,字節(jié)跳動(dòng)自研的通用大模型“云雀”在首批通過(guò)《生成式人工智能服務(wù)管理暫行辦法》大模型名單中露出,。
8月17日,字節(jié)跳動(dòng)公測(cè)基于云雀大模型開(kāi)發(fā)的AI聊天機(jī)器人“豆包”,,面向C端市場(chǎng)發(fā)力AI應(yīng)用,。
近期,在收縮游戲和XR業(yè)務(wù)的同時(shí),,字節(jié)跳動(dòng)成立了一個(gè)新的AI部門(mén)Flow,。相關(guān)招聘信息顯示,F(xiàn)low是字節(jié)跳動(dòng)旗下AI創(chuàng)新業(yè)務(wù)團(tuán)隊(duì),,目前已在國(guó)內(nèi)和海外分別上線了“豆包”和“Cici”兩款產(chǎn)品,,還有多個(gè)AI相關(guān)創(chuàng)新產(chǎn)品在孵化中,。
同時(shí),今年字節(jié)跳動(dòng)向英偉達(dá)訂購(gòu)超過(guò)10億美元的GPU,,僅它一家的訂單就達(dá)到了英偉達(dá)去年在中國(guó)銷(xiāo)售商用GPU收入的總和,。除此之外,在人才招聘上,,有關(guān)AIGC新發(fā)崗位量TOP10的企業(yè)中,,字節(jié)跳動(dòng)也是位列第一,占所有AIGC新發(fā)崗位的3.24%,。
種種行為足見(jiàn)字節(jié)對(duì)于AI和大模型的重視之高,,回到此次事件本身,如此重視的字節(jié)會(huì)為了“彎道超車(chē)”而冒如此大的風(fēng)險(xiǎn)嗎?
元宇宙新聲有話說(shuō)
ChatGPT 的橫空出世后,,字節(jié)跟很多國(guó)內(nèi)大廠一樣,,在努力跟進(jìn)AI的節(jié)奏。但顯然字節(jié)要更加落后一點(diǎn),,豆包上線后很多人使用,,但效果并沒(méi)有達(dá)到一流的水準(zhǔn)。如果說(shuō)利用Chat-GPT訓(xùn)練出來(lái)的AI只是這種效果的話,,似乎不太說(shuō)的過(guò)去,,而如果沒(méi)有用Chat-GPT來(lái)訓(xùn)練豆包的話,那么達(dá)到這種效果也算是預(yù)料之中,。
在此前馬斯克的Grok AI涉嫌抄襲Chat-GPT時(shí),,人工智能研究員西蒙·威利森 (Simon Willison)在接受 Ars Technica 采訪時(shí)就表示:“許多大模型已經(jīng)在使用 OpenAI API 生成的數(shù)據(jù)集上進(jìn)行了微調(diào),或者從 ChatGPT 本身中抓取,?!?/p>
但顯然這些操作都是在合理范圍內(nèi)進(jìn)行的,字節(jié)或許也是如此,,至于字節(jié)是否過(guò)于“急功近利”而選擇越過(guò)合理范圍進(jìn)行使用,,想必作為一家龐大的互聯(lián)網(wǎng)公司,應(yīng)該還不至于進(jìn)行如此“因小失大”的抄襲行為,。
免責(zé)聲明:本文來(lái)自網(wǎng)絡(luò)收錄或投稿,,觀點(diǎn)僅代表作者本人,不代表芒果財(cái)經(jīng)贊同其觀點(diǎn)或證實(shí)其描述,,版權(quán)歸原作者所有,。轉(zhuǎn)載請(qǐng)注明出處:http://lequren.com/1083888.html
溫馨提示:投資有風(fēng)險(xiǎn),入市須謹(jǐn)慎,。本資訊不作為投資理財(cái)建議,。