A欧美国产国产综合视频_最近日本中文字幕免费完整_国产乱伦一级片_久久99国产综合精品婷婷_韩国理论片在线中文字幕一区二区_亚洲AV成人影片在线观看_亚洲av无码电影网_优物视频最新网址_天天艹无码天天射_脱下丝袜的极品销魂大胸美女王馨瑶91精品美女嫩模写真套图,男男被?到喷水18禁视频,欧美久久精品一级黑人c片 ,综合在线视频精品专区

人民網(wǎng)

北京智源人工智能研究院林詠華:大模型背后的數(shù)據(jù)與算力挑戰(zhàn)|新質(zhì)生產(chǎn)力·AI Partner大會(huì)

當(dāng)下的人類正站在AI時(shí)代的開端,,社會(huì)中的每一個(gè)人都在被強(qiáng)大的AI技術(shù)賦能,。聚焦AI領(lǐng)域的“賦能者”與“被賦能者”,36氪“新質(zhì)生產(chǎn)力·AI Partner大會(huì)”以“我被AI賦能了”為主題,,匯聚國(guó)內(nèi)AI領(lǐng)域重量級(jí)嘉賓,,一起共探AI行業(yè)新圖景,。

5月24日,36氪“新質(zhì)生產(chǎn)力·AI Partner大會(huì)”于北京環(huán)球貿(mào)易中心正式拉開帷幕,。大會(huì)聚焦AI場(chǎng)景與應(yīng)用端,,分為“AI能為我們做什么”和“我被AI賦能了”兩大篇章。現(xiàn)場(chǎng)匯聚來(lái)自螞蟻集團(tuán),、聯(lián)想,、OPPO,、百度、英特爾等企業(yè)的AI領(lǐng)域先鋒者,,以“賦能者”與“被賦能者”的不同視角,,共同探討AI技術(shù)如何“爆改”千行百業(yè)。

北京智源人工智能研究院林詠華:大模型背后的數(shù)據(jù)與算力挑戰(zhàn)|新質(zhì)生產(chǎn)力·AI Partner大會(huì)

北京智源人工智能研究院副院長(zhǎng)兼總工程師 林詠華

2024年,,AI技術(shù)走向應(yīng)用落地的原野,,模型參數(shù)正式邁入萬(wàn)億時(shí)代,對(duì)AGI的探索從語(yǔ)言跨入多模態(tài),。

技術(shù)和應(yīng)用的進(jìn)展喜人,,但發(fā)展的掣肘,從技術(shù)黑箱,,轉(zhuǎn)移到了資源消耗,。據(jù)OpenAI測(cè)算,全球AI訓(xùn)練所用的計(jì)算量平均每3.43個(gè)月便會(huì)翻一倍,。在樂(lè)觀估計(jì)下,,僅國(guó)內(nèi)大模型的訓(xùn)練與推理,就會(huì)產(chǎn)生1.1-3.8萬(wàn)臺(tái)高性能AI服務(wù)器的算力需求,。

而模型訓(xùn)練,,又是吃數(shù)據(jù)的黑洞。研究機(jī)構(gòu)Epoch AI認(rèn)為,對(duì)數(shù)據(jù)需求急劇增加,,以至于可用于訓(xùn)練的高質(zhì)量文本可能會(huì)在2026年耗盡,。

過(guò)去一周,北京智源人工智能研究院副院長(zhǎng)兼總工程師林詠華,,被大模型降價(jià)的消息刷了屏,。這位智源研究院的副院長(zhǎng)兼總工程師,、IBM中國(guó)研究院成立以來(lái)的首位女性院長(zhǎng)認(rèn)為,降價(jià)的壓力,,本質(zhì)上是資源的壓力,,一方面來(lái)自模型訓(xùn)練,另一方面來(lái)自模型部署,。

2021年,,智源研究院就發(fā)布了中國(guó)首個(gè)、全球最大的萬(wàn)億參數(shù)規(guī)模的模型“悟道2.0”,。2022年加入智源后,,林詠華對(duì)中國(guó)的AI資源和生態(tài)有了更為深刻的洞察和見解。

在主題為《大模型背后的數(shù)據(jù)與算力挑戰(zhàn)》的演講中,,林詠華認(rèn)為,,AI背后最重要的資源是數(shù)據(jù)和算力,當(dāng)下,,中國(guó)AI行業(yè)需要解決的不僅僅是資源儲(chǔ)備的問(wèn)題,,還有生態(tài)共建的問(wèn)題,上下游需要以開源開放的心態(tài)建設(shè)生態(tài),。

“數(shù)據(jù),、算力,這里面有很多的問(wèn)題,,有很多事情需要解決,,它是技術(shù)的基座,我們也希望通過(guò)開源開放跟大家一起共筑好基座,?!彼偨Y(jié)。

以下為林詠華演講實(shí)錄,,經(jīng)36氪編輯整理:

大家早上好,,智源研究院除了應(yīng)用不做,包括大模型算法,、數(shù)據(jù),、評(píng)測(cè)、算力在內(nèi)的各種問(wèn)題,,我們都探索,、研究、突破,,我們是實(shí)實(shí)在在的AI賦能者,。

今天給大家?guī)?lái)的題目是《大模型背后的數(shù)據(jù)與算力挑戰(zhàn)》。

人工智能大模型背后最重要的資源是:算法,、數(shù)據(jù),、算力,。近兩年,各種開源算法,,迭代不窮,,算法資源不斷涌現(xiàn)。相比起算法,,我們看到用于訓(xùn)練的數(shù)據(jù),、算力已經(jīng)成為大模型發(fā)展的資源瓶頸。

數(shù)據(jù)的問(wèn)題有三個(gè)部分:數(shù)據(jù)的數(shù)量,、數(shù)據(jù)的質(zhì)量,、及如何使用數(shù)據(jù)。

首先是數(shù)據(jù)的數(shù)量?,F(xiàn)在全球的大模型背后都離不開一個(gè)數(shù)據(jù)集Common Crawl,。得益于17年前一群志愿者,他們以公益的方式在全球不斷爬取網(wǎng)頁(yè),、積累數(shù)據(jù),,至今積累了超過(guò)2500多億的網(wǎng)頁(yè),并以免費(fèi)方式提供給全球研究和開發(fā)者使用,。無(wú)論是OpenAI還是Meta,,都是基于這個(gè)數(shù)據(jù)集進(jìn)行語(yǔ)言模型訓(xùn)練。沒有17年前開啟的這個(gè)持續(xù)不斷的數(shù)據(jù)集積累工作,,今天的大模型不會(huì)發(fā)展這么快,。除了網(wǎng)頁(yè)文本數(shù)據(jù),其它諸如圖文,、視頻,、書籍、代碼等都是打造大模型很重要的“原材料”,,但這些數(shù)據(jù)遠(yuǎn)遠(yuǎn)不夠,。尤其各個(gè)團(tuán)隊(duì)在今年紛紛開始多模態(tài)模型、文生視頻模型的訓(xùn)練,,就更需要高質(zhì)量的圖文對(duì),,和視頻數(shù)據(jù)。此外,,當(dāng)前國(guó)外能夠有的開源數(shù)據(jù)集,,95%以上的都是英文內(nèi)容,中文相關(guān)的數(shù)據(jù)非常少,。

當(dāng)我們考慮把通用模型落地行業(yè),,必需用該行業(yè)的大量知識(shí)來(lái)對(duì)通用模型進(jìn)行持續(xù)訓(xùn)練。但這個(gè)行業(yè)的專業(yè)知識(shí)在哪里,?行業(yè)知識(shí)的數(shù)據(jù)并不是指企業(yè)數(shù)據(jù),、業(yè)務(wù)數(shù)據(jù),,而是這個(gè)行業(yè)領(lǐng)域的大量書籍、文獻(xiàn)等數(shù)據(jù),。針對(duì)行業(yè)的領(lǐng)域數(shù)據(jù),當(dāng)前也是十分分散和匱乏,。

第二,,數(shù)據(jù)質(zhì)量問(wèn)題。GPT-4o發(fā)布后,,MIT Technology Review的文章指出,,GPT-4o的分詞器訓(xùn)練所用的中文數(shù)據(jù)大量充斥了中文垃圾網(wǎng)站的信息,例如該分詞器模型中最長(zhǎng)的100個(gè)中文詞語(yǔ)中有超過(guò)90個(gè)來(lái)自垃圾網(wǎng)站,。這在行業(yè)內(nèi)引起關(guān)注,,OpenAI訓(xùn)練GPT-4o用的中文語(yǔ)料質(zhì)量堪憂。其實(shí),,在我們調(diào)研分析Common Crawl這一全球最大的數(shù)據(jù)集,,也發(fā)現(xiàn)了該數(shù)據(jù)集的中文數(shù)據(jù)的類似質(zhì)量問(wèn)題。

除了數(shù)據(jù)集的內(nèi)容質(zhì)量問(wèn)題,,還會(huì)出現(xiàn)其它數(shù)據(jù)質(zhì)量問(wèn)題,。例如,如果數(shù)據(jù)來(lái)源是一些掃描圖片,,OCR進(jìn)行文字,、尤其公式和圖表轉(zhuǎn)換,也存在識(shí)別質(zhì)量的問(wèn)題,;當(dāng)前用于跨模態(tài)學(xué)習(xí)的圖文對(duì),、視頻文字對(duì)則往往存在對(duì)圖片或視頻的文字描述質(zhì)量低下等眾多問(wèn)題。若用于訓(xùn)練的數(shù)據(jù)集質(zhì)量低,,將會(huì)大大浪費(fèi)算力,,并且很大程度會(huì)影響模型的生成內(nèi)容安全問(wèn)題,因此質(zhì)量是在數(shù)據(jù)里面十分重要的一點(diǎn),。

第三,,數(shù)據(jù)使用問(wèn)題。訓(xùn)練數(shù)據(jù)是用來(lái)讓機(jī)器進(jìn)行學(xué)習(xí),,而不是做內(nèi)容的二次分發(fā),、給人類進(jìn)行直接閱讀和使用。在現(xiàn)有法律體系下,,對(duì)于讓機(jī)器進(jìn)行“學(xué)習(xí)”的數(shù)據(jù)這一新型的使用方式,,并沒有相關(guān)的定義。大模型的開發(fā)需要使用高質(zhì)量數(shù)據(jù),,如何平衡數(shù)據(jù)版權(quán)問(wèn)題與高質(zhì)量數(shù)據(jù)的“機(jī)器學(xué)習(xí)”使用,?

面對(duì)數(shù)據(jù)的這幾個(gè)問(wèn)題,,智源研究院一直希望能探索出一條讓整個(gè)產(chǎn)業(yè)有更多高質(zhì)量數(shù)據(jù)可使用的路。

首先,,我們摸索出三種數(shù)據(jù)的共享使用方式,,并實(shí)現(xiàn)在數(shù)據(jù)平臺(tái)上。智源研究院聯(lián)合全國(guó)數(shù)十家頭部互聯(lián)網(wǎng)企業(yè),、大模型企業(yè),、數(shù)據(jù)提供企業(yè)等,還有中央,、北京市各方機(jī)構(gòu)一起努力打造的,。

這三種使用方式包括,一是完全開源下載,,這對(duì)所有的開發(fā)者,、科研工作者都是很重要的,對(duì)沒有版權(quán)或者弱版權(quán)的數(shù)據(jù)我們做了大量的安全過(guò)濾,、質(zhì)量過(guò)濾,,整理到開源網(wǎng)站上,目前有2.4T數(shù)據(jù),,這個(gè)事情我們將持續(xù)堅(jiān)持做好,。

二是鼓勵(lì)更多的機(jī)構(gòu)把數(shù)據(jù)貢獻(xiàn)出來(lái),在聯(lián)盟內(nèi)部進(jìn)行共享,,我們打造了積分共享機(jī)制,,鼓勵(lì)企業(yè)貢獻(xiàn)數(shù)據(jù),進(jìn)行質(zhì)量評(píng)定后,,通過(guò)質(zhì)量系數(shù)乘數(shù)據(jù)量,,得到積分。貢獻(xiàn)數(shù)據(jù)的企業(yè)可以用積分在高質(zhì)量數(shù)據(jù)池中,,選擇另外一個(gè)企業(yè)在聯(lián)盟內(nèi)貢獻(xiàn)的數(shù)據(jù),,打造“共建-共享”積分使用數(shù)據(jù)的互助模式。當(dāng)前已經(jīng)有近30家企業(yè)跟我們一起做這個(gè)事情,。我們期待有更多企業(yè)能加入進(jìn)來(lái),,跟我們一起“共建-共享”。

三是針對(duì)有版權(quán)要求的高質(zhì)量數(shù)據(jù),,我們打造了“數(shù)算一體”的使用方式,。高質(zhì)量有版權(quán)的數(shù)據(jù)的處理、訓(xùn)練等都和算力平臺(tái)在同一個(gè)安全域,,嚴(yán)格保障數(shù)據(jù)的使用可控不出域,。大模型團(tuán)隊(duì)可以在這個(gè)平臺(tái)上使用這些數(shù)據(jù),對(duì)數(shù)據(jù)進(jìn)行二次加工,進(jìn)行模型訓(xùn)練,,訓(xùn)練完成后不能帶走數(shù)據(jù),,但可以帶走模型,讓數(shù)據(jù)提供方減少對(duì)數(shù)據(jù)安全的擔(dān)憂,。

我們針對(duì)不同的數(shù)據(jù)情況,,構(gòu)建推廣這三種不同的數(shù)據(jù)使用方式。希望幫助大模型產(chǎn)業(yè)盡快解決“數(shù)據(jù)難題”,。沒有好的高質(zhì)量數(shù)據(jù),,無(wú)法做出更好的模型供用戶使用。

除了數(shù)據(jù)的問(wèn)題,,我們這幾天還被各個(gè)大模型企業(yè)的降價(jià)甚至免費(fèi)的消息刷屏。這背后是算力成本的壓力,,一方面是部署的成本,;另一方面是訓(xùn)練的成本。

我們今天面臨的算力難題,,是算力增長(zhǎng)趕不上大模型對(duì)算力的需要,。從去年到今年,英偉達(dá),,AMD,、英特爾的單芯片算力增長(zhǎng)基本達(dá)到2倍。但即便是2倍單芯片算力增長(zhǎng),,依然趕不上模型參數(shù)量,、訓(xùn)練數(shù)據(jù)量需要的算力增長(zhǎng)。

而我們當(dāng)前面臨的挑戰(zhàn)是AI算力建設(shè)不足,,和國(guó)際相比國(guó)內(nèi)單芯片算力還有差距,,另外,現(xiàn)在國(guó)內(nèi)各種AI芯片的生態(tài)是割裂的,。各個(gè)芯片廠商的硬件架構(gòu),、指令集、編譯器,、算子庫(kù)等都不一樣,,導(dǎo)致上層算法的遷移成本十分高。如果算法開發(fā)團(tuán)隊(duì)遇到某個(gè)算子在目標(biāo)芯片平臺(tái)上缺失的話,,或許要等待廠商開發(fā)好一段時(shí)間,,將耽誤整個(gè)開發(fā)周期。

我們面臨AI芯片生態(tài)割裂的問(wèn)題,,是否可以參考已經(jīng)發(fā)展了數(shù)十年的通用處理器CPU的生態(tài)構(gòu)建方法,?CPU有各種不同的架構(gòu)和不同的指令集(包括x86、ARM、MIPS等),。GCC作為開源統(tǒng)一編譯器,,向下各個(gè)芯片廠商分別進(jìn)行移植支持,上層的C/C++語(yǔ)言開發(fā)者只需要開發(fā)同一套C/C++語(yǔ)言的算法庫(kù)或應(yīng)用代碼,,而不需要考慮底層是什么芯片,。通過(guò)GCC各個(gè)芯片版本的編譯器,就可以編譯得到目標(biāo)芯片上面的二進(jìn)制代碼,。

那我們?cè)贏I芯片領(lǐng)域,,是否有這樣的語(yǔ)言和開源的編譯器呢?答案是有的,。當(dāng)前,,開源領(lǐng)域有面向AI算子庫(kù)開發(fā)的開源編程語(yǔ)言Triton,包括它的開源編譯器,。當(dāng)前Triton已被英偉達(dá),、英特爾、AMD以及國(guó)內(nèi)多個(gè)芯片廠商支持,。

因此,,以前是各個(gè)廠商需要打造自己的編譯器、算子庫(kù),,追趕不同的算法迭代?,F(xiàn)在將變成另外一種生態(tài)模式,由開源社區(qū)打造統(tǒng)一的,、各種AI算法的算子庫(kù),,芯片廠商只需要移植和優(yōu)化好Triton編譯器。智源研究院聯(lián)同多個(gè)團(tuán)隊(duì),、芯片廠商一起正在打造的基于Triton的通用算子庫(kù),。

我們希望通過(guò)打造統(tǒng)一開源開放的軟件生態(tài),幫助多元AI芯片接入到各種框架,、支撐各種AI應(yīng)用,。我們?cè)?月2日會(huì)舉行第一次Triton中國(guó)生態(tài)meetup,這對(duì)未來(lái)以更低成本使用算力有著重要意義,。

今天給大家分享的是智源研究院為AI大模型賦能的兩個(gè)資源,,即數(shù)據(jù)、算力,,我們希望通過(guò)開源開放和大家共筑技術(shù)基座,,賦能AI大模型產(chǎn)業(yè)的發(fā)展。

免責(zé)聲明:本文來(lái)自網(wǎng)絡(luò)收錄或投稿,,觀點(diǎn)僅代表作者本人,,不代表芒果財(cái)經(jīng)贊同其觀點(diǎn)或證實(shí)其描述,版權(quán)歸原作者所有。轉(zhuǎn)載請(qǐng)注明出處:http://lequren.com/1104781.html
溫馨提示:投資有風(fēng)險(xiǎn),,入市須謹(jǐn)慎,。本資訊不作為投資理財(cái)建議。

(0)
的頭像
上一篇 2024年5月27日 下午7:06
下一篇 2024年5月27日
198搶自鏈數(shù)字人

相關(guān)推薦