本報記者 劉霞人工智能(AI)初創(chuàng)公司xAI創(chuàng)始人埃隆·馬斯克近日表示:“在AI訓練中,,我們現(xiàn)在基本上耗盡了人類知識的累積總和?!敝把芯恳脖砻?,人類生成的真實數(shù)據(jù)將在2到8年內(nèi)消耗殆盡,。鑒于真實數(shù)據(jù)日益稀缺,為滿足AI的“胃口”,,科技行業(yè)正轉向使用合成數(shù)據(jù),。澳大利亞“對話”網(wǎng)站在本月稍早時間報道中指出,合成數(shù)據(jù)具有諸多優(yōu)勢,,但過度依賴合成數(shù)據(jù)也可能削弱AI的精確性和可靠性,。合成數(shù)據(jù)應運而生以往,科技公司主要依賴真實數(shù)據(jù)來構建,、訓練和改進AI模型,。真實數(shù)據(jù)是指由人類創(chuàng)建的文本、視頻和圖像,。它們通過調查,、實驗、觀察或挖掘網(wǎng)站和社交媒體等途徑被收集而來。真實數(shù)據(jù)因蘊含真實事件以及其場景和背景而極具價值,,但其并非盡善盡美,。它可能摻雜拼寫錯誤、不一致或無關的內(nèi)容,,甚至潛藏嚴重偏見,,導致生成式AI模型在某些情況下創(chuàng)建的圖像僅展示男性或白人形象。但真實數(shù)據(jù)日益匱乏,,因為人類生成數(shù)據(jù)的速度趕不上AI不斷增長的需求,。美國開放人工智能研究中心聯(lián)合創(chuàng)始人伊利亞·蘇茨克維爾在去年12月舉行的機器學習會議上聲稱,,AI行業(yè)已觸及他所稱的“數(shù)據(jù)峰值”,AI的訓練數(shù)據(jù)如同化石燃料一樣面臨著耗盡的危機,。此外,,有研究預測,到2026年,,ChatGPT等大型語言模型的訓練將耗盡互聯(lián)網(wǎng)上所有可用文本數(shù)據(jù),,屆時將沒有新的真實數(shù)據(jù)可供使用。為給AI提供充足的“養(yǎng)分”,,一種由算法生成的,、模仿真實世界情況的數(shù)據(jù)——合成數(shù)據(jù)應運而生。合成數(shù)據(jù)是在數(shù)字世界中創(chuàng)造的,,而非從現(xiàn)實世界收集或測量而來,。它可以作為真實世界數(shù)據(jù)的替代品,來訓練,、測試,、驗證AI模型。從理論上來說,,合成數(shù)據(jù)為訓練AI模型提供了一種經(jīng)濟高效且快捷的解決方案,。它有效解決了AI訓練使用真實數(shù)據(jù)時飽受詬病的隱私問題和道德問題,尤其是涉及個人健康數(shù)據(jù)等敏感信息時,。更重要的是,,與真實數(shù)據(jù)不同,合成數(shù)據(jù)在理論上可以無限供應,。研究機構高德納公司估計,,2024年AI及分析項目使用的數(shù)據(jù)中,約60%是合成數(shù)據(jù),。到2030年,,AI模型使用的絕大部分數(shù)據(jù)將是由AI生成的合成數(shù)據(jù)??萍脊緛碚卟痪苁聦嵣?,微軟、元宇宙平臺公司,,以及Anthropic等眾多科技頭部企業(yè)和初創(chuàng)企業(yè),,已經(jīng)開始廣泛使用合成數(shù)據(jù)來訓練其AI模型。例如,,微軟在1月8日開源的AI模型“Phi-4”,,便是合成數(shù)據(jù)攜手真實數(shù)據(jù)訓練的;谷歌的“Gemma”模型也采用了類似方法,。Anthropic公司也利用部分合成數(shù)據(jù),,開發(fā)出其性能最優(yōu)異的AI系統(tǒng)之一“Claude3.5Sonnet”。蘋果自研AI系統(tǒng)AppleIntelligence,,在預訓練階段,,也大量使用了合成數(shù)據(jù)。隨著科技公司對合成數(shù)據(jù)的需求與日俱增,,生產(chǎn)合成數(shù)據(jù)的工具也接踵而至,。英偉達公司發(fā)布的3D仿真數(shù)據(jù)生成引擎OmniverseReplicator,能夠生成合成數(shù)據(jù),,用于自動駕駛汽車和機器人訓練,。去年6月,英偉達開源了Nemotron-4340b系列模型,,開發(fā)者可使用該模型生成合成數(shù)據(jù),,用于訓練大型語言模型,以應用于醫(yī)療保健,、金融,、制造、零售等行業(yè)。在醫(yī)療,、金融等專業(yè)領域,,該模型能夠根據(jù)特定需求生成高質量的合成數(shù)據(jù),幫助構建更為精準的行業(yè)專屬模型,。微軟推出的開源合成數(shù)據(jù)工具SyntheticDataShowcase則旨在通過生成合成數(shù)據(jù)和用戶界面,,實現(xiàn)隱私保護的數(shù)據(jù)共享和分析。亞馬遜云科技推出的AmazonSageMakerGroundTruth也能為用戶生成數(shù)十萬張自動標記的合成圖像,。此外,,去年12月,元宇宙平臺公司推出開源大模型Llama3.3,,更是大幅降低了生成合成數(shù)據(jù)的成本,。過度依賴風險難測盡管合成數(shù)據(jù)暫時解決了AI訓練的燃眉之急,但它也并非盡善盡美,。一個關鍵問題在于:當AI模型過于依賴合成數(shù)據(jù)時,,它們可能會“崩潰”。它們會產(chǎn)生更多“幻覺”,,編造看似合理可信但實際上并不存在的信息,。而且,AI模型的質量和性能也會飛速下降,,甚至無法使用,。例如,某個AI模型生成的數(shù)據(jù)出現(xiàn)了一些拼寫錯誤,,利用這些充滿了錯誤的數(shù)據(jù)訓練其他模型,,這些AI模型必定會“以訛傳訛”,導致更大的錯誤,。此外,,合成數(shù)據(jù)也存在過于簡單化的風險。它可能缺乏真實數(shù)據(jù)集蘊含的細節(jié)和多樣性,,這可能導致在其上訓練的AI模型的輸出也過于簡單,,缺乏實用性。為解決這些問題,,國際標準化組織需要著手創(chuàng)建強大的系統(tǒng),,來跟蹤和驗證AI訓練數(shù)據(jù)。此外,,AI系統(tǒng)可以配備元數(shù)據(jù)追蹤功能,,讓用戶或系統(tǒng)能對合成數(shù)據(jù)進行溯源。人類也需要在AI模型的整個訓練過程中對合成數(shù)據(jù)進行監(jiān)督,,以確保其高質量且符合道德標準,。AI的未來在很大程度上取決于數(shù)據(jù)的質量,,合成數(shù)據(jù)將在克服數(shù)據(jù)短缺方面發(fā)揮越來越重要的作用。對合成數(shù)據(jù)的使用,,人們必須保持謹慎態(tài)度,,盡量減少錯誤,確保其作為真實數(shù)據(jù)的可靠補充,,從而保障AI系統(tǒng)的準確性和可信度。更多精彩資訊請在應用市場下載“央廣網(wǎng)”客戶端,。歡迎提供新聞線索,,24小時報料熱線400-800-0088;消費者也可通過央廣網(wǎng)“啄木鳥消費者投訴平臺”線上投訴,。版權聲明:本文章版權歸屬央廣網(wǎng)所有,,未經(jīng)授權不得轉載。轉載請聯(lián)系:[email protected],,不尊重原創(chuàng)的行為我們將追究責任,。
免責聲明:本文來自網(wǎng)絡收錄或投稿,觀點僅代表作者本人,,不代表芒果財經(jīng)贊同其觀點或證實其描述,,版權歸原作者所有。轉載請注明出處:http://lequren.com/1128968.html
溫馨提示:投資有風險,,入市須謹慎,。本資訊不作為投資理財建議。