當(dāng)下的人類正站在AI時代的開端,,社會中的每一個人都在被強(qiáng)大的AI技術(shù)賦能,。聚焦AI領(lǐng)域的“賦能者”與“被賦能者”,,36氪“新質(zhì)生產(chǎn)力·AI Partner大會”以“我被AI賦能了”為主題,,匯聚國內(nèi)AI領(lǐng)域重量級嘉賓,,一起共探AI行業(yè)新圖景,。
5月24日,,36氪“新質(zhì)生產(chǎn)力·AI Partner大會”于北京環(huán)球貿(mào)易中心正式拉開帷幕,。大會聚焦AI場景與應(yīng)用端,,分為“AI能為我們做什么”和“我被AI賦能了”兩大篇章?,F(xiàn)場匯聚來自螞蟻集團(tuán)、聯(lián)想,、OPPO,、百度、英特爾等企業(yè)的AI領(lǐng)域先鋒者,,以“賦能者”與“被賦能者”的不同視角,,共同探討AI技術(shù)如何“爆改”千行百業(yè)。
北京智源人工智能研究院副院長兼總工程師 林詠華
2024年,,AI技術(shù)走向應(yīng)用落地的原野,,模型參數(shù)正式邁入萬億時代,對AGI的探索從語言跨入多模態(tài),。
技術(shù)和應(yīng)用的進(jìn)展喜人,,但發(fā)展的掣肘,從技術(shù)黑箱,,轉(zhuǎn)移到了資源消耗,。據(jù)OpenAI測算,全球AI訓(xùn)練所用的計算量平均每3.43個月便會翻一倍,。在樂觀估計下,,僅國內(nèi)大模型的訓(xùn)練與推理,就會產(chǎn)生1.1-3.8萬臺高性能AI服務(wù)器的算力需求,。
而模型訓(xùn)練,,又是吃數(shù)據(jù)的黑洞。研究機(jī)構(gòu)Epoch AI認(rèn)為,對數(shù)據(jù)需求急劇增加,,以至于可用于訓(xùn)練的高質(zhì)量文本可能會在2026年耗盡,。
過去一周,北京智源人工智能研究院副院長兼總工程師林詠華,,被大模型降價的消息刷了屏。這位智源研究院的副院長兼總工程師,、IBM中國研究院成立以來的首位女性院長認(rèn)為,,降價的壓力,本質(zhì)上是資源的壓力,,一方面來自模型訓(xùn)練,,另一方面來自模型部署。
2021年,,智源研究院就發(fā)布了中國首個,、全球最大的萬億參數(shù)規(guī)模的模型“悟道2.0”。2022年加入智源后,,林詠華對中國的AI資源和生態(tài)有了更為深刻的洞察和見解,。
在主題為《大模型背后的數(shù)據(jù)與算力挑戰(zhàn)》的演講中,林詠華認(rèn)為,,AI背后最重要的資源是數(shù)據(jù)和算力,,當(dāng)下,中國AI行業(yè)需要解決的不僅僅是資源儲備的問題,,還有生態(tài)共建的問題,,上下游需要以開源開放的心態(tài)建設(shè)生態(tài)。
“數(shù)據(jù),、算力,,這里面有很多的問題,有很多事情需要解決,,它是技術(shù)的基座,,我們也希望通過開源開放跟大家一起共筑好基座,。”她總結(jié),。
以下為林詠華演講實(shí)錄,,經(jīng)36氪編輯整理:
大家早上好,智源研究院除了應(yīng)用不做,,包括大模型算法,、數(shù)據(jù)、評測,、算力在內(nèi)的各種問題,,我們都探索、研究,、突破,,我們是實(shí)實(shí)在在的AI賦能者。
今天給大家?guī)淼念}目是《大模型背后的數(shù)據(jù)與算力挑戰(zhàn)》,。
人工智能大模型背后最重要的資源是:算法、數(shù)據(jù),、算力,。近兩年,各種開源算法,,迭代不窮,,算法資源不斷涌現(xiàn)。相比起算法,,我們看到用于訓(xùn)練的數(shù)據(jù),、算力已經(jīng)成為大模型發(fā)展的資源瓶頸。
數(shù)據(jù)的問題有三個部分:數(shù)據(jù)的數(shù)量,、數(shù)據(jù)的質(zhì)量,、及如何使用數(shù)據(jù)。
首先是數(shù)據(jù)的數(shù)量?,F(xiàn)在全球的大模型背后都離不開一個數(shù)據(jù)集Common Crawl,。得益于17年前一群志愿者,他們以公益的方式在全球不斷爬取網(wǎng)頁,、積累數(shù)據(jù),,至今積累了超過2500多億的網(wǎng)頁,并以免費(fèi)方式提供給全球研究和開發(fā)者使用,。無論是OpenAI還是Meta,,都是基于這個數(shù)據(jù)集進(jìn)行語言模型訓(xùn)練。沒有17年前開啟的這個持續(xù)不斷的數(shù)據(jù)集積累工作,,今天的大模型不會發(fā)展這么快,。除了網(wǎng)頁文本數(shù)據(jù),,其它諸如圖文、視頻,、書籍,、代碼等都是打造大模型很重要的“原材料”,但這些數(shù)據(jù)遠(yuǎn)遠(yuǎn)不夠,。尤其各個團(tuán)隊在今年紛紛開始多模態(tài)模型,、文生視頻模型的訓(xùn)練,就更需要高質(zhì)量的圖文對,,和視頻數(shù)據(jù),。此外,當(dāng)前國外能夠有的開源數(shù)據(jù)集,,95%以上的都是英文內(nèi)容,,中文相關(guān)的數(shù)據(jù)非常少。
當(dāng)我們考慮把通用模型落地行業(yè),,必需用該行業(yè)的大量知識來對通用模型進(jìn)行持續(xù)訓(xùn)練,。但這個行業(yè)的專業(yè)知識在哪里?行業(yè)知識的數(shù)據(jù)并不是指企業(yè)數(shù)據(jù),、業(yè)務(wù)數(shù)據(jù),,而是這個行業(yè)領(lǐng)域的大量書籍、文獻(xiàn)等數(shù)據(jù),。針對行業(yè)的領(lǐng)域數(shù)據(jù),,當(dāng)前也是十分分散和匱乏。
第二,,數(shù)據(jù)質(zhì)量問題,。GPT-4o發(fā)布后,MIT Technology Review的文章指出,,GPT-4o的分詞器訓(xùn)練所用的中文數(shù)據(jù)大量充斥了中文垃圾網(wǎng)站的信息,,例如該分詞器模型中最長的100個中文詞語中有超過90個來自垃圾網(wǎng)站。這在行業(yè)內(nèi)引起關(guān)注,,OpenAI訓(xùn)練GPT-4o用的中文語料質(zhì)量堪憂,。其實(shí),在我們調(diào)研分析Common Crawl這一全球最大的數(shù)據(jù)集,,也發(fā)現(xiàn)了該數(shù)據(jù)集的中文數(shù)據(jù)的類似質(zhì)量問題,。
除了數(shù)據(jù)集的內(nèi)容質(zhì)量問題,還會出現(xiàn)其它數(shù)據(jù)質(zhì)量問題,。例如,,如果數(shù)據(jù)來源是一些掃描圖片,OCR進(jìn)行文字,、尤其公式和圖表轉(zhuǎn)換,,也存在識別質(zhì)量的問題,;當(dāng)前用于跨模態(tài)學(xué)習(xí)的圖文對、視頻文字對則往往存在對圖片或視頻的文字描述質(zhì)量低下等眾多問題,。若用于訓(xùn)練的數(shù)據(jù)集質(zhì)量低,,將會大大浪費(fèi)算力,并且很大程度會影響模型的生成內(nèi)容安全問題,,因此質(zhì)量是在數(shù)據(jù)里面十分重要的一點(diǎn),。
第三,數(shù)據(jù)使用問題,。訓(xùn)練數(shù)據(jù)是用來讓機(jī)器進(jìn)行學(xué)習(xí),,而不是做內(nèi)容的二次分發(fā)、給人類進(jìn)行直接閱讀和使用,。在現(xiàn)有法律體系下,,對于讓機(jī)器進(jìn)行“學(xué)習(xí)”的數(shù)據(jù)這一新型的使用方式,并沒有相關(guān)的定義,。大模型的開發(fā)需要使用高質(zhì)量數(shù)據(jù),,如何平衡數(shù)據(jù)版權(quán)問題與高質(zhì)量數(shù)據(jù)的“機(jī)器學(xué)習(xí)”使用?
面對數(shù)據(jù)的這幾個問題,,智源研究院一直希望能探索出一條讓整個產(chǎn)業(yè)有更多高質(zhì)量數(shù)據(jù)可使用的路,。
首先,我們摸索出三種數(shù)據(jù)的共享使用方式,,并實(shí)現(xiàn)在數(shù)據(jù)平臺上。智源研究院聯(lián)合全國數(shù)十家頭部互聯(lián)網(wǎng)企業(yè),、大模型企業(yè),、數(shù)據(jù)提供企業(yè)等,還有中央,、北京市各方機(jī)構(gòu)一起努力打造的,。
這三種使用方式包括,一是完全開源下載,,這對所有的開發(fā)者,、科研工作者都是很重要的,對沒有版權(quán)或者弱版權(quán)的數(shù)據(jù)我們做了大量的安全過濾,、質(zhì)量過濾,,整理到開源網(wǎng)站上,目前有2.4T數(shù)據(jù),,這個事情我們將持續(xù)堅持做好,。
二是鼓勵更多的機(jī)構(gòu)把數(shù)據(jù)貢獻(xiàn)出來,在聯(lián)盟內(nèi)部進(jìn)行共享,,我們打造了積分共享機(jī)制,,鼓勵企業(yè)貢獻(xiàn)數(shù)據(jù),,進(jìn)行質(zhì)量評定后,通過質(zhì)量系數(shù)乘數(shù)據(jù)量,,得到積分,。貢獻(xiàn)數(shù)據(jù)的企業(yè)可以用積分在高質(zhì)量數(shù)據(jù)池中,選擇另外一個企業(yè)在聯(lián)盟內(nèi)貢獻(xiàn)的數(shù)據(jù),,打造“共建-共享”積分使用數(shù)據(jù)的互助模式,。當(dāng)前已經(jīng)有近30家企業(yè)跟我們一起做這個事情。我們期待有更多企業(yè)能加入進(jìn)來,,跟我們一起“共建-共享”,。
三是針對有版權(quán)要求的高質(zhì)量數(shù)據(jù),我們打造了“數(shù)算一體”的使用方式,。高質(zhì)量有版權(quán)的數(shù)據(jù)的處理,、訓(xùn)練等都和算力平臺在同一個安全域,嚴(yán)格保障數(shù)據(jù)的使用可控不出域,。大模型團(tuán)隊可以在這個平臺上使用這些數(shù)據(jù),,對數(shù)據(jù)進(jìn)行二次加工,進(jìn)行模型訓(xùn)練,,訓(xùn)練完成后不能帶走數(shù)據(jù),,但可以帶走模型,讓數(shù)據(jù)提供方減少對數(shù)據(jù)安全的擔(dān)憂,。
我們針對不同的數(shù)據(jù)情況,,構(gòu)建推廣這三種不同的數(shù)據(jù)使用方式。希望幫助大模型產(chǎn)業(yè)盡快解決“數(shù)據(jù)難題”,。沒有好的高質(zhì)量數(shù)據(jù),,無法做出更好的模型供用戶使用。
除了數(shù)據(jù)的問題,,我們這幾天還被各個大模型企業(yè)的降價甚至免費(fèi)的消息刷屏,。這背后是算力成本的壓力,一方面是部署的成本,;另一方面是訓(xùn)練的成本,。
我們今天面臨的算力難題,是算力增長趕不上大模型對算力的需要,。從去年到今年,,英偉達(dá),AMD,、英特爾的單芯片算力增長基本達(dá)到2倍,。但即便是2倍單芯片算力增長,依然趕不上模型參數(shù)量,、訓(xùn)練數(shù)據(jù)量需要的算力增長,。
而我們當(dāng)前面臨的挑戰(zhàn)是AI算力建設(shè)不足,,和國際相比國內(nèi)單芯片算力還有差距,另外,,現(xiàn)在國內(nèi)各種AI芯片的生態(tài)是割裂的,。各個芯片廠商的硬件架構(gòu)、指令集,、編譯器,、算子庫等都不一樣,導(dǎo)致上層算法的遷移成本十分高,。如果算法開發(fā)團(tuán)隊遇到某個算子在目標(biāo)芯片平臺上缺失的話,,或許要等待廠商開發(fā)好一段時間,將耽誤整個開發(fā)周期,。
我們面臨AI芯片生態(tài)割裂的問題,,是否可以參考已經(jīng)發(fā)展了數(shù)十年的通用處理器CPU的生態(tài)構(gòu)建方法?CPU有各種不同的架構(gòu)和不同的指令集(包括x86,、ARM,、MIPS等)。GCC作為開源統(tǒng)一編譯器,,向下各個芯片廠商分別進(jìn)行移植支持,,上層的C/C++語言開發(fā)者只需要開發(fā)同一套C/C++語言的算法庫或應(yīng)用代碼,而不需要考慮底層是什么芯片,。通過GCC各個芯片版本的編譯器,,就可以編譯得到目標(biāo)芯片上面的二進(jìn)制代碼。
那我們在AI芯片領(lǐng)域,,是否有這樣的語言和開源的編譯器呢,?答案是有的。當(dāng)前,,開源領(lǐng)域有面向AI算子庫開發(fā)的開源編程語言Triton,包括它的開源編譯器,。當(dāng)前Triton已被英偉達(dá),、英特爾、AMD以及國內(nèi)多個芯片廠商支持,。
因此,,以前是各個廠商需要打造自己的編譯器、算子庫,,追趕不同的算法迭代?,F(xiàn)在將變成另外一種生態(tài)模式,由開源社區(qū)打造統(tǒng)一的,、各種AI算法的算子庫,,芯片廠商只需要移植和優(yōu)化好Triton編譯器,。智源研究院聯(lián)同多個團(tuán)隊、芯片廠商一起正在打造的基于Triton的通用算子庫,。
我們希望通過打造統(tǒng)一開源開放的軟件生態(tài),,幫助多元AI芯片接入到各種框架、支撐各種AI應(yīng)用,。我們在6月2日會舉行第一次Triton中國生態(tài)meetup,,這對未來以更低成本使用算力有著重要意義。
今天給大家分享的是智源研究院為AI大模型賦能的兩個資源,,即數(shù)據(jù),、算力,我們希望通過開源開放和大家共筑技術(shù)基座,,賦能AI大模型產(chǎn)業(yè)的發(fā)展,。
免責(zé)聲明:本文來自網(wǎng)絡(luò)收錄或投稿,觀點(diǎn)僅代表作者本人,,不代表芒果財經(jīng)贊同其觀點(diǎn)或證實(shí)其描述,,版權(quán)歸原作者所有。轉(zhuǎn)載請注明出處:http://lequren.com/1104781.html
溫馨提示:投資有風(fēng)險,,入市須謹(jǐn)慎,。本資訊不作為投資理財建議。