《科創(chuàng)板日報》4月19日訊(編輯 鄭遠(yuǎn)方)AIGC熱潮下,數(shù)據(jù)重要性愈發(fā)凸顯,。以ChatGPT為首的人工智能,,由龐大數(shù)據(jù)集訓(xùn)練而成,。如今,已有公司“揭竿而起”要求收費,,不再甘于被微軟,、谷歌等科技巨頭免費用數(shù)據(jù)。
當(dāng)?shù)貢r間周二,Reddit宣布,,將向使用其API訓(xùn)練AI聊天機(jī)器人的公司收取數(shù)據(jù)使用費,,其中便包含微軟、谷歌,、OpenAI等,。
之前這些公司都通過應(yīng)用程序編程接口(API)下載并處理論壇上的聊天內(nèi)容,并將聊天內(nèi)容當(dāng)做免費訓(xùn)練工具,,用于開發(fā)新AI系統(tǒng),。例如,谷歌聊天機(jī)器人Bard的底層算法之一便是用Reddit聊天數(shù)據(jù)訓(xùn)練而來,;OpenAI的ChatGPT也將Reddit數(shù)據(jù)納入大型語言模型的訓(xùn)練內(nèi)容,。
Reddit是美國訪問量最大的網(wǎng)站之一,用戶可以在其中創(chuàng)建并分享內(nèi)容,,還有人將其稱為“美國版百度貼吧”,。
公司創(chuàng)始人兼首席執(zhí)行官Steve Huffman表示,“Reddit比互聯(lián)網(wǎng)上任何其他地方都更適合聊天,,平臺上很多內(nèi)容是用戶只會私下說的、或壓根不會說的東西,。Reddit的數(shù)據(jù)庫確實很有價值,,我們沒有必要免費提供這些價值給世界上最大的公司?!?/p>
這也是首次有社交媒體公司明確向OpenAI等收取費用,,開放訪問權(quán)用于開發(fā)人工智能系統(tǒng),。
目前,Reddit暫未公布具體收費標(biāo)準(zhǔn),但其表示,,將會給出不同的等級,,根據(jù)使用者的規(guī)模和需求來收費。此外,,這一舉措不會影響那些使用API來創(chuàng)建和維護(hù)內(nèi)容審核工具的人,,Reddit會為他們提供專門的iOS和Android應(yīng)用程序。
實際上,,眼下已意識到數(shù)據(jù)價值的公司并不止Reddit——圖片托管服務(wù)商Shutterstock已把圖像數(shù)據(jù)出售給OpenAI,,幫助開發(fā)了DALL-E;許多公司也在使用API追蹤推特上的聊天內(nèi)容,,推特計劃針對API使用收取幾萬到幾十萬美元不等的費用,。
▌數(shù)據(jù)已成“AI發(fā)展的勝負(fù)手”
為了不斷改進(jìn)AI模型,有兩個關(guān)鍵因素不可或缺:強(qiáng)大的計算能力和大量可用的數(shù)據(jù),。一些大型AI開發(fā)公司通常擁有足夠的算力,,但仍會在互聯(lián)網(wǎng)上尋找改進(jìn)算法所需的數(shù)據(jù),數(shù)據(jù)來源包括維基百科,、各種數(shù)字化書籍,、學(xué)術(shù)文章和Reddit論壇上的聊天內(nèi)容等。
OpenAI就曾透露,,訓(xùn)練ChatGPT使用了45TB的數(shù)據(jù),、近1萬億個單詞,大概是1351萬本牛津詞典所包含的單詞數(shù)量,。
知乎在日前發(fā)布大模型“知海圖AI”,,其倚仗的一大有力支撐便是中文互聯(lián)網(wǎng)大量問答內(nèi)容。知乎創(chuàng)始人,、董事長兼CEO周源表示,,AI時代,生產(chǎn)力的三要素分別是應(yīng)用場景,、專有數(shù)據(jù)和基礎(chǔ)模型,。其中,知乎以問答為基礎(chǔ)的討論場景是天然的應(yīng)用場景,,構(gòu)成了獨一無二的專有數(shù)據(jù),。
而彭博的BloomberGPT訓(xùn)練數(shù)據(jù)總量約為5300億次,其中金融行業(yè)數(shù)據(jù)約為2720億次,,約占所有訓(xùn)練數(shù)據(jù)的54.2%,,來源包括網(wǎng)絡(luò)、新聞,、公司公告與財務(wù)報表以及彭博自己的新聞庫,。
海量數(shù)據(jù)為基礎(chǔ)的大模型訓(xùn)練產(chǎn)生了突現(xiàn)能力(Emergent Ability),,帶來AI研究范式轉(zhuǎn)變。只有在訓(xùn)練數(shù)據(jù)量足夠大時,,量變才能引起質(zhì)變,。而GPT相比于此前模型所具備的“泛化能力”,就是以海量數(shù)據(jù)為基礎(chǔ)產(chǎn)生的,。
在這種情況下,,數(shù)據(jù)更有了“AI發(fā)展的勝負(fù)手”之稱——算法、算力和數(shù)據(jù)是AI發(fā)展的三大重要基礎(chǔ),。東吳證券指出,,對于我國而言,算法和算力都可以通過挖掘優(yōu)質(zhì)人才,、引進(jìn)優(yōu)秀工程實踐,,或者直接購買海外優(yōu)質(zhì)資產(chǎn)追趕。而培養(yǎng)中文環(huán)境的優(yōu)質(zhì)數(shù)據(jù)集,、語料庫卻必須長期自我積累沉淀,,未來數(shù)據(jù)將成為AI發(fā)展的勝負(fù)手,并有望為中國訓(xùn)練自己的大模型,,走出差異化道路提供重要基礎(chǔ),。
免責(zé)聲明:本文來自網(wǎng)絡(luò)收錄或投稿,,觀點僅代表作者本人,,不代表芒果財經(jīng)贊同其觀點或證實其描述,版權(quán)歸原作者所有,。轉(zhuǎn)載請注明出處:http://lequren.com/1018897.html
溫馨提示:投資有風(fēng)險,入市須謹(jǐn)慎,。本資訊不作為投資理財建議,。