原文來源:元宇宙新聲
圖片來源:由無界 AI生成
眾所周知,在AI大模型領(lǐng)域,,OpenAI研發(fā)出Chat-GPT這件事就像上學(xué)時(shí)老師布置了一個(gè)特別困難的題目,,就在大家都還在整理解題思路或是百思不得其解的時(shí)候,班級里的學(xué)霸已經(jīng)第一個(gè)寫完了,,于是大部分人則更傾向于與學(xué)霸交流思路,,抑或是直接抄作業(yè)。
近期的種種風(fēng)波似乎也證實(shí)了,,許多看似復(fù)雜的事物其本質(zhì)是一樣的,。前有馬斯克的Grok AI 因?yàn)閿?shù)據(jù)集污染被懷疑抄襲甚至是套殼Chat-GPT ,現(xiàn)有字節(jié)跳動涉嫌違反服務(wù)條款被OpenAI 封號,。
字節(jié)跳動,,陷入大模型輿論風(fēng)波
近日,,外媒The Verge報(bào)道稱,,字節(jié)跳動利用微軟的 OpenAI API 賬戶生成數(shù)據(jù)來訓(xùn)練自己的人工智能模型,,這種行為實(shí)際上已經(jīng)違反了微軟和OpenAI的使用條款,。在此消息被披露不久,The Verge進(jìn)一步稱OpenAI已經(jīng)暫停了字節(jié)跳動的賬戶,。
那么字節(jié)跳動具體是違反了什么條款呢?其實(shí)在OpenAI的服務(wù)條款中有一項(xiàng)明確的規(guī)定,那就是OpenAI提供的模型能力,,不允許用來被“開發(fā)任何與之產(chǎn)品和服務(wù)形成競爭的 AI 模型”,。
根據(jù)The Verge的說法,證據(jù)是來自字節(jié)跳動的一份內(nèi)部文件——海外版飛書Lark的聊天記錄,。
這份文件表明,,字節(jié)跳動在代號為“種子計(jì)劃”(Project Seed)基礎(chǔ)大語言模型項(xiàng)目中,幾乎是在每個(gè)開發(fā)階段都依賴OpenAI的API來進(jìn)行開發(fā),,包括訓(xùn)練和評估模型,。
“種子計(jì)劃”大約在一年前啟動,目前主要研發(fā)兩個(gè)產(chǎn)品,,一個(gè)是在國內(nèi)已經(jīng)上線的豆包;另一個(gè)是針對商業(yè)用戶的聊天機(jī)器人平臺,,目前正在開發(fā)中。
參與“種子計(jì)劃”的員工是深知過度依賴OpenAI API的后果,,于是他們就開始討論如何通過“數(shù)據(jù)脫敏”來粉飾證據(jù),。以至于經(jīng)常會出現(xiàn)員工達(dá)到OpenAI API的最大訪問上限的情況。
The Verge根據(jù)內(nèi)部文件表示,,字節(jié)跳動大約是在幾個(gè)月前下達(dá)了“模型開發(fā)的任何階段停止使用 GPT 生成的文本”的命令,。
不過也正是在這個(gè)時(shí)候,字節(jié)跳動發(fā)布了自家大語言模型豆包,。豆包AI官微介紹,,豆包AI可以提供聊天機(jī)器人、寫作助手以及英語學(xué)習(xí)助手等功能,,它可以回答各種問題并進(jìn)行對話,,幫助人們獲取信息,支持網(wǎng)頁Web平臺,,iOS以及安卓平臺,。豆包能提供自然語言處理、知識理解,、對話,、信息檢索、情感分析,、機(jī)器學(xué)習(xí)等多種類型的幫助,。
但是,字節(jié)跳動繼續(xù)以違反 OpenAI 和微軟服務(wù)條款的方式使用 API,,包括評估豆包背后模型的性能,。一位對字節(jié)跳動內(nèi)部情況有第一手了解的人指出,“他們說他們想確保一切都是合法的,,但他們實(shí)際上只是不想被抓住把柄”,。
三方接連表態(tài),著急的只有字節(jié)
字節(jié)跳動
在The Verge發(fā)出這篇報(bào)道之后,,字節(jié)跳動發(fā)言人Jodi Seth做出了如下回應(yīng):GPT 生成的數(shù)據(jù)在“種子計(jì)劃”的早期開發(fā)中用于注釋模型,,并且在今年年中左右的時(shí)候已從字節(jié)跳動的訓(xùn)練數(shù)據(jù)中刪除。字節(jié)跳動得到了微軟的授權(quán),,可以使用GPT API,。我們在非中國市場利用GPT支持我們的產(chǎn)品;但在中國市場,則是使用我們自研的模型來支持豆包,。
昨日下午,,字節(jié)跳動相關(guān)負(fù)責(zé)人再度回應(yīng)稱,公司在使用 OpenAI 相關(guān)服務(wù)時(shí),,強(qiáng)調(diào)要遵守其使用條款,。我們也正與 OpenAI 聯(lián)系溝通,以澄清外部報(bào)道可能引發(fā)的誤解,。
字節(jié)跳動使用 OpenAI 服務(wù)相關(guān)情況的介紹:
1,、今年年初,當(dāng)技術(shù)團(tuán)隊(duì)剛開始進(jìn)行大模型的初期探索時(shí),有部分工程師將 GPT 的 API 服務(wù)應(yīng)用于較小模型的實(shí)驗(yàn)性項(xiàng)目研究中,。該模型僅為測試,,沒有計(jì)劃上線,也從未對外使用,。在 4 月公司引入 GPT API 調(diào)用規(guī)范檢查后,這種做法已經(jīng)停止,。
2,、早在今年 4 月,字節(jié)大模型團(tuán)隊(duì)已經(jīng)提出了明確的內(nèi)部要求,,不得將 GPT 模型生成的數(shù)據(jù)添加到字節(jié)大模型的訓(xùn)練數(shù)據(jù)集,,并培訓(xùn)工程師團(tuán)隊(duì)在使用 GPT 時(shí)遵守服務(wù)條款。
3,、9 月,,公司內(nèi)部又進(jìn)行了一輪檢查,采取措施進(jìn)一步保證對 GPT 的 API 調(diào)用符合規(guī)范要求,。例如分批次抽樣模型訓(xùn)練數(shù)據(jù)與 GPT 的相似度,,避免數(shù)據(jù)標(biāo)注人員私自使用 GPT。
4,、未來幾天里,,我們會再次全面檢查,以確保嚴(yán)格遵守相關(guān)服務(wù)的使用條款,。
OpenAI
OpenAI 發(fā)言人尼克?菲利克斯(Niko Felix)發(fā)表聲明,,確認(rèn)字節(jié)跳動的賬戶已被暫停。“所有 API 客戶必須遵守我們的使用政策,,以確保我們的技術(shù)被用于好的一面,。雖然字節(jié)跳動很少使用我們的 API,但我們在進(jìn)一步調(diào)查期間已暫停了他們的帳戶,。如果我們發(fā)現(xiàn)他們的使用不符合公司政策,,我們將要求他們做出必要的改變或終止他們的賬戶?!?/em>菲利克斯表示,。
微軟
微軟發(fā)言人弗蘭克?肖(Frank Shaw)在一份聲明中表示:“Azure OpenAI 服務(wù)等微軟 AI 解決方案屬于我們有限訪問框架的一部分,這意味著所有客戶都必須申請并獲得微軟的批準(zhǔn)才能訪問,。我們還制定了標(biāo)準(zhǔn)并提供資源,,幫助我們的客戶負(fù)責(zé)任地使用這些技術(shù),并遵守我們的服務(wù)條款,。我們還制定了發(fā)現(xiàn)濫用行為的流程,,并在企業(yè)違反我們的行為準(zhǔn)則時(shí)停止他們的訪問。”
從此次事件中的三方聲明中可以看出,,OpenAI 比較保守,,只是暫停了字節(jié)跳動的賬號,并表示會進(jìn)行調(diào)查后再決定是否需要采取進(jìn)一步措施,。微軟則是有一種“事不關(guān)己高高掛起”的態(tài)度,仿佛再說“我只是中間人,,我們有自己的規(guī)定,,如果有違反的行為我們會禁止的”,。字節(jié)跳動則顯得更著急一些,,畢竟“火”已經(jīng)燒在身上了。先是澄清解釋,,再是立刻聯(lián)系OpenAI想要迅速對此次事件“滅火”,。
字節(jié)跳動的AI布局
公開資料顯示,早在2016年,,字節(jié)跳動就成立了AI實(shí)驗(yàn)室,,聚焦于自然語言處理、機(jī)器學(xué)習(xí),、數(shù)據(jù)挖掘等方面的研究,。抖音、今日頭條等字節(jié)跳動旗下產(chǎn)品中也頻頻加入AIGC(生成式人工智能)功能,,持續(xù)吸引流量,。
2023年,字節(jié)跳動在AI領(lǐng)域的動作明顯加快,。6月,字節(jié)跳動旗下火山引擎發(fā)布大模型服務(wù)平臺“火山方舟”,,面向企業(yè)提供模型精調(diào),、評測,、推理等全方位的平臺服務(wù)。
8月,,字節(jié)跳動自研的通用大模型“云雀”在首批通過《生成式人工智能服務(wù)管理暫行辦法》大模型名單中露出。
8月17日,,字節(jié)跳動公測基于云雀大模型開發(fā)的AI聊天機(jī)器人“豆包”,面向C端市場發(fā)力AI應(yīng)用,。
近期,,在收縮游戲和XR業(yè)務(wù)的同時(shí),字節(jié)跳動成立了一個(gè)新的AI部門Flow,。相關(guān)招聘信息顯示,,F(xiàn)low是字節(jié)跳動旗下AI創(chuàng)新業(yè)務(wù)團(tuán)隊(duì),目前已在國內(nèi)和海外分別上線了“豆包”和“Cici”兩款產(chǎn)品,,還有多個(gè)AI相關(guān)創(chuàng)新產(chǎn)品在孵化中,。
同時(shí),,今年字節(jié)跳動向英偉達(dá)訂購超過10億美元的GPU,僅它一家的訂單就達(dá)到了英偉達(dá)去年在中國銷售商用GPU收入的總和,。除此之外,,在人才招聘上,有關(guān)AIGC新發(fā)崗位量TOP10的企業(yè)中,,字節(jié)跳動也是位列第一,,占所有AIGC新發(fā)崗位的3.24%。
種種行為足見字節(jié)對于AI和大模型的重視之高,,回到此次事件本身,,如此重視的字節(jié)會為了“彎道超車”而冒如此大的風(fēng)險(xiǎn)嗎?
元宇宙新聲有話說
ChatGPT 的橫空出世后,字節(jié)跟很多國內(nèi)大廠一樣,,在努力跟進(jìn)AI的節(jié)奏,。但顯然字節(jié)要更加落后一點(diǎn),豆包上線后很多人使用,,但效果并沒有達(dá)到一流的水準(zhǔn),。如果說利用Chat-GPT訓(xùn)練出來的AI只是這種效果的話,似乎不太說的過去,,而如果沒有用Chat-GPT來訓(xùn)練豆包的話,,那么達(dá)到這種效果也算是預(yù)料之中。
在此前馬斯克的Grok AI涉嫌抄襲Chat-GPT時(shí),,人工智能研究員西蒙·威利森 (Simon Willison)在接受 Ars Technica 采訪時(shí)就表示:“許多大模型已經(jīng)在使用 OpenAI API 生成的數(shù)據(jù)集上進(jìn)行了微調(diào),,或者從 ChatGPT 本身中抓取?!?/p>
但顯然這些操作都是在合理范圍內(nèi)進(jìn)行的,,字節(jié)或許也是如此,至于字節(jié)是否過于“急功近利”而選擇越過合理范圍進(jìn)行使用,,想必作為一家龐大的互聯(lián)網(wǎng)公司,,應(yīng)該還不至于進(jìn)行如此“因小失大”的抄襲行為。
免責(zé)聲明:本文來自網(wǎng)絡(luò)收錄或投稿,觀點(diǎn)僅代表作者本人,,不代表芒果財(cái)經(jīng)贊同其觀點(diǎn)或證實(shí)其描述,,版權(quán)歸原作者所有。轉(zhuǎn)載請注明出處:http://lequren.com/1083888.html
溫馨提示:投資有風(fēng)險(xiǎn),,入市須謹(jǐn)慎,。本資訊不作為投資理財(cái)建議。