A欧美国产国产综合视频_最近日本中文字幕免费完整_国产乱伦一级片_久久99国产综合精品婷婷_韩国理论片在线中文字幕一区二区_亚洲AV成人影片在线观看_亚洲av无码电影网_优物视频最新网址_天天艹无码天天射_脱下丝袜的极品销魂大胸美女王馨瑶91精品美女嫩模写真套图,男男被?到喷水18禁视频,欧美久久精品一级黑人c片 ,综合在线视频精品专区

人民網

數(shù)據(jù)開源為AI發(fā)展“推波助瀾”

大模型是AI未來發(fā)展的重要方向,,其研究和應用將逐步成為AI發(fā)展的關鍵方向,,并有望形成新一波AI推廣浪潮,,而AI數(shù)據(jù)開源將進一步促進大模型的發(fā)展,。

——林詠華 北京智源人工智能研究院副院長兼總工程師

◎實習記者 裴宸緯

在6月9日—10日舉行的2023北京智源大會上,“AI數(shù)據(jù)開源”引發(fā)廣泛關注,。AI數(shù)據(jù)為什么要開源,?AI數(shù)據(jù)開源面臨哪些挑戰(zhàn)?它會是未來AI發(fā)展的重要趨勢嗎,?科技日報記者帶著這些問題采訪了相關專家,。

AI數(shù)據(jù)開源意義重大

有專家認為,AI數(shù)據(jù)開源對深度學習模型的發(fā)展意義重大,。由于訓練AI大模型需要大量資源,,所以預計“贏家通吃”類AI系統(tǒng)的開發(fā)和管理將首先由少部分閉源實體所主導。

但遺憾的是,,這種資源限制導致研究人員,、非營利組織和初創(chuàng)公司等小規(guī)模實體因無法承擔高昂的成本,幾乎不可能從零開始訓練自己的AI大模型,。

以對話類模型為例,,目前國內外眾多已經開源的對話模型,其實都是基于語言基礎大模型,,再利用少量指令微調數(shù)據(jù)進行訓練所得,。

如果開源AI大模型的數(shù)據(jù)在質量上具有足夠的競爭力,深度學習模型的規(guī)?;柧毢瓦\行成本將大幅降低,。

北京智源人工智能研究院(以下簡稱智源)副院長兼總工程師林詠華對記者表示,,大模型是AI未來發(fā)展的重要方向,其研究和應用將逐步成為AI發(fā)展的關鍵方向,,并有望形成新一波AI推廣浪潮,,而AI數(shù)據(jù)開源將進一步促進大模型的發(fā)展。

深度學習需要大量的標注數(shù)據(jù)進行模型訓練,。在林詠華看來,,過去10年,深度學習技術快速發(fā)展的重要原因,,就是許多志愿者團體,、國外科研團隊一直在積極地收集、整理并開源用于深度學習的訓練數(shù)據(jù)集,?!爱斍癆I大模型訓練對數(shù)據(jù)量的需求,比之前的深度學習小模型對數(shù)據(jù)量的需求有了百倍,,甚至千倍的提升,。所以,尤其在過去一年,,數(shù)據(jù)開源的問題日益受到廣泛關注,。”林詠華說,。

背后挑戰(zhàn)不容忽視

開源固然會為AI發(fā)展帶來諸多好處,,但其背后的挑戰(zhàn)也不容忽視。其中之一,,便是開源安全與合規(guī)挑戰(zhàn),。林詠華認為,對傳統(tǒng)的商業(yè)軟件而言,,開源中的安全,、合規(guī)、許可證和代碼質量風險等是使用開源組件必須面臨的挑戰(zhàn),。然而在AI大模型時代,,更大的挑戰(zhàn)則在開源數(shù)據(jù)集方面,。

因此,AI數(shù)據(jù)開源應在協(xié)議許可的范圍內進行,?!坝糜贏I大模型訓練的開源數(shù)據(jù)必須是合法地從公開或可公開獲得的資源中收集的數(shù)據(jù)。人們可以在開源協(xié)議允許的范圍內,,以AI大模型訓練,、AI算法開發(fā)為目的,對數(shù)據(jù)進行訪問,、修改和使用,。部分數(shù)據(jù)可能要求使用過程中遵守更嚴格的協(xié)議?!绷衷伻A表示,。

此外,今天的基礎AI大模型不只具備理解能力,,還具有生成能力,,它能夠對外進行認知輸出、價值觀輸出等,,可能給社會帶來巨大影響,。“我們在訓練基礎大模型的時候,,所使用的預訓練數(shù)據(jù)會對AI生成內容質量起到很大程度的決定性作用,。因此,開源數(shù)據(jù)的質量十分重要,?!?/p>

林詠華指出,由于高質量的數(shù)據(jù)(如文章,、圖片,、視頻等)通常有版權,由于版權或商業(yè)因素導致的閉源以及數(shù)據(jù)孤島等挑戰(zhàn)會制約AI的發(fā)展,,所以需要多方推動構建更多高質量的開源數(shù)據(jù)集,,尤其是用于訓練基礎AI大模型的開源數(shù)據(jù)集。

LF AI & DATA基金會董事主席堵俊平對此也深有感觸:“AI大模型就像一個貪吃的‘怪獸’,,始終需要研究人員投喂更多的,、質量更好的數(shù)據(jù)?!彼f,,當前數(shù)據(jù)幾乎都是從“在網絡上主動收集”“從第三方購買”“利用公開數(shù)據(jù)集”這三個渠道得來。在堵俊平看來,從第一個渠道得到的數(shù)據(jù)局限性較強,,由于版權問題,很多公司只能從其私域獲得數(shù)據(jù),;從第二個渠道獲取的數(shù)據(jù)面臨數(shù)據(jù)定價,、數(shù)據(jù)質量等問題;而從第三個渠道獲取的數(shù)據(jù)往往只能作為研究使用,,在商用或者其他方面有很多限制,。

開源漸成AI發(fā)展重要趨勢

記者了解到,智源對2023年1月到5月底發(fā)布的,、具有影響力的語言模型進行過統(tǒng)計,。統(tǒng)計結果表明,國外發(fā)布的開源語言模型有39個,,國內發(fā)布的開源語言模型有11個,。

“開源是推動AI技術進步的重要力量,AI開源開放生態(tài)及平臺建設也日益受到重視,。開源開放毫無疑問已經成為重要的AI發(fā)展趨勢之一,。”林詠華表示,,“開源能夠促進AI大模型科研創(chuàng)新,,推動和降低AI大模型落地乃至整個AI產業(yè)落地的門檻?!?/p>

然而,,通往開源的道路并非一帆風順,在數(shù)據(jù)之外,,算力也是開源路上的一只“攔路虎”,。AI大模型訓練依賴龐大的數(shù)據(jù)、算力,。訓練參數(shù)量級的增長使得算力需求也隨之增長,,算力集群正變得愈發(fā)龐大。

然而算力成本卻是小型開發(fā)者的“不可承受之重”,。拿到AI大模型開源數(shù)據(jù)后,,往往需要對其進行微調和二次開發(fā)。但現(xiàn)實的情況是,,對一些小型開發(fā)者來說,,僅僅是做推理都很困難,就更別提對AI大模型做微調,、二次開發(fā),。以ChatGPT為例,僅就算力而言,Open AI為了訓練它,,就構建了由近3萬張英偉達V100顯卡組成的龐大算力集群,。有消息稱,Open AI公司發(fā)布的新一代語言模型GPT-4甚至達到了100萬億的參數(shù)規(guī)模,,其對應的算力需求同比大幅增加,。

目前,有一些研究機構希望用技術的革新抵消巨大的算力成本,。最直接的手段是通過訓練技術的革新加快AI大模型推理速度,、降低算力成本、減少能耗,,以此來提高AI大模型的易用性,,讓開源數(shù)據(jù)更好地發(fā)揮價值,但這只能從工程上對算力資源的約束起到緩解作用,,并非終極方案,。

有業(yè)內專家表示,解決算力問題最終還是要回到AI大模型自身尋找突破點,,一個十分被看好的方向便是稀疏大模型,。稀疏大模型的特點是容量很大,但只有用于給定任務,、樣本或標記時,,模型的部分功能才會被激活。也就是說,,這種稀疏大模型的動態(tài)結構能夠讓AI大模型在參數(shù)量上再躍升幾個層級,,同時又不必付出巨大的算力代價,一舉兩得,。

此外,,開源社區(qū)的作用同樣不容忽視。開源社區(qū)是推動開源發(fā)展的重要基石,,開源的最初發(fā)源點,,就是來自于社區(qū)開發(fā)者的貢獻?!癓inux系統(tǒng)的成功很大程度上得益于開源社區(qū),。30多年來,Linux系統(tǒng)發(fā)展成為擁有海量全球用戶的操作系統(tǒng),,其成功以及長久不衰的秘訣就是開源,,尤其是內核社區(qū)成千上萬開發(fā)者的貢獻?!绷衷伻A舉例說,。

“開源開放可以使得我們站在前人的肩膀上前行,。”林詠華總結道,,“這些年AI領域取得的成果大多受益于開源,,如果沒有開源,AI不會發(fā)展到今天,?!?/p>

來源:科技日報

數(shù)據(jù)開源為AI發(fā)展“推波助瀾”

免責聲明:本文來自網絡收錄或投稿,觀點僅代表作者本人,,不代表芒果財經贊同其觀點或證實其描述,,版權歸原作者所有,。轉載請注明出處:http://lequren.com/1050633.html
溫馨提示:投資有風險,,入市須謹慎。本資訊不作為投資理財建議,。

(0)
中國經濟網的頭像中國經濟網
上一篇 2023年6月26日 上午7:00
下一篇 2023年6月26日 上午7:48
198搶自鏈數(shù)字人

相關推薦