人妻聚色窝窝人体WWW一区,毛片中国女人水真多

圖片來源：物理學家組織網【今日視點】◎本報記者劉霞人工智能（AI）初創(chuàng)公司xAI創(chuàng)始人埃隆·馬斯克近日表示：“在AI訓練中,，我們現在基本上耗盡了人類知識的累積總和,?！敝把芯恳脖砻?，人類生成的真實數據將在2到8年內消耗殆盡,。鑒于真實數據日益稀缺，為滿足AI的“胃口”,，科技行業(yè)正轉向使用合成數據。澳大利亞“對話”網站在本月稍早時間報道中指出,，合成數據具有諸多優(yōu)勢,，但過度依賴合成數據也可能削弱AI的精確性和可靠性。合成數據應運而生以往,，科技公司主要依賴真實數據來構建,、訓練和改進AI模型。真實數據是指由人類創(chuàng)建的文本,、視頻和圖像,。它們通過調查、實驗,、觀察或挖掘網站和社交媒體等途徑被收集而來,。真實數據因蘊含真實事件以及其場景和背景而極具價值，但其并非盡善盡美,。它可能摻雜拼寫錯誤,、不一致或無關的內容，甚至潛藏嚴重偏見,，導致生成式AI模型在某些情況下創(chuàng)建的圖像僅展示男性或白人形象,。但真實數據日益匱乏，因為人類生成數據的速度趕不上AI不斷增長的需求,。美國開放人工智能研究中心聯合創(chuàng)始人伊利亞·蘇茨克維爾在去年12月舉行的機器學習會議上聲稱，AI行業(yè)已觸及他所稱的“數據峰值”,，AI的訓練數據如同化石燃料一樣面臨著耗盡的危機,。此外，有研究預測,，到2026年,，ChatGPT等大型語言模型的訓練將耗盡互聯網上所有可用文本數據，屆時將沒有新的真實數據可供使用,。為給AI提供充足的“養(yǎng)分”,，一種由算法生成的、模仿真實世界情況的數據——合成數據應運而生,。合成數據是在數字世界中創(chuàng)造的,，而非從現實世界收集或測量而來。它可以作為真實世界數據的替代品,，來訓練,、測試、驗證AI模型,。從理論上來說,，合成數據為訓練AI模型提供了一種經濟高效且快捷的解決方案。它有效解決了AI訓練使用真實數據時飽受詬病的隱私問題和道德問題,，尤其是涉及個人健康數據等敏感信息時,。更重要的是，與真實數據不同,，合成數據在理論上可以無限供應,。研究機構高德納公司估計，2024年AI及分析項目使用的數據中,，約60%是合成數據,。到2030年，AI模型使用的絕大部分數據將是由AI生成的合成數據,?？萍脊緛碚卟痪苁聦嵣希④?、元宇宙平臺公司,，以及Anthropic等眾多科技頭部企業(yè)和初創(chuàng)企業(yè)，已經開始廣泛使用合成數據來訓練其AI模型,。例如,，微軟在1月8日開源的AI模型“Phi-4”,，便是合成數據攜手真實數據訓練的；谷歌的“Gemma”模型也采用了類似方法,。Anthropic公司也利用部分合成數據,，開發(fā)出其性能最優(yōu)異的AI系統(tǒng)之一“Claude3.5Sonnet”。蘋果自研AI系統(tǒng)AppleIntelligence,，在預訓練階段,，也大量使用了合成數據。隨著科技公司對合成數據的需求與日俱增,，生產合成數據的工具也接踵而至,。英偉達公司發(fā)布的3D仿真數據生成引擎OmniverseReplicator，能夠生成合成數據,，用于自動駕駛汽車和機器人訓練,。去年6月，英偉達開源了Nemotron-4340b系列模型,，開發(fā)者可使用該模型生成合成數據，用于訓練大型語言模型,，以應用于醫(yī)療保健,、金融、制造,、零售等行業(yè),。在醫(yī)療、金融等專業(yè)領域,，該模型能夠根據特定需求生成高質量的合成數據,，幫助構建更為精準的行業(yè)專屬模型。微軟推出的開源合成數據工具SyntheticDataShowcase則旨在通過生成合成數據和用戶界面,，實現隱私保護的數據共享和分析,。亞馬遜云科技推出的AmazonSageMakerGroundTruth也能為用戶生成數十萬張自動標記的合成圖像。此外,，去年12月,，元宇宙平臺公司推出開源大模型Llama3.3，更是大幅降低了生成合成數據的成本,。過度依賴風險難測盡管合成數據暫時解決了AI訓練的燃眉之急,，但它也并非盡善盡美。一個關鍵問題在于：當AI模型過于依賴合成數據時,，它們可能會“崩潰”,。它們會產生更多“幻覺”，編造看似合理可信但實際上并不存在的信息,。而且,，AI模型的質量和性能也會飛速下降,，甚至無法使用。例如,，某個AI模型生成的數據出現了一些拼寫錯誤,，利用這些充滿了錯誤的數據訓練其他模型，這些AI模型必定會“以訛傳訛”,，導致更大的錯誤,。此外，合成數據也存在過于簡單化的風險,。它可能缺乏真實數據集蘊含的細節(jié)和多樣性,，這可能導致在其上訓練的AI模型的輸出也過于簡單，缺乏實用性,。為解決這些問題,，國際標準化組織需要著手創(chuàng)建強大的系統(tǒng)，來跟蹤和驗證AI訓練數據,。此外,，AI系統(tǒng)可以配備元數據追蹤功能，讓用戶或系統(tǒng)能對合成數據進行溯源,。人類也需要在AI模型的整個訓練過程中對合成數據進行監(jiān)督,，以確保其高質量且符合道德標準。AI的未來在很大程度上取決于數據的質量,，合成數據將在克服數據短缺方面發(fā)揮越來越重要的作用,。對合成數據的使用，人們必須保持謹慎態(tài)度,，盡量減少錯誤,，確保其作為真實數據的可靠補充，從而保障AI系統(tǒng)的準確性和可信度,。（來源：科技日報）

免責聲明：本文來自網絡收錄或投稿,，觀點僅代表作者本人，不代表芒果財經贊同其觀點或證實其描述,，版權歸原作者所有,。轉載請注明出處：http://lequren.com/1129097.html
溫馨提示：投資有風險，入市須謹慎,。本資訊不作為投資理財建議,。

“喂”給人工智能的真實數據終將耗盡 合成數據能否讓AI模型精確可靠,？

相關推薦

“喂”給人工智能的真實數據終將耗盡合成數據能否讓AI模型精確可靠,？