當下的人類正站在AI時代的開端,,社會中的每一個人都在被強大的AI技術賦能,。聚焦AI領域的“賦能者”與“被賦能者”,36氪“新質生產(chǎn)力·AI Partner大會”以“我被AI賦能了”為主題,,匯聚國內(nèi)AI領域重量級嘉賓,,一起共探AI行業(yè)新圖景。
5月24日,,36氪“新質生產(chǎn)力·AI Partner大會”于北京環(huán)球貿(mào)易中心正式拉開帷幕,。大會聚焦AI場景與應用端,分為“AI能為我們做什么”和“我被AI賦能了”兩大篇章?,F(xiàn)場匯聚來自螞蟻集團,、聯(lián)想、OPPO,、百度,、英特爾等企業(yè)的AI領域先鋒者,以“賦能者”與“被賦能者”的不同視角,,共同探討AI技術如何“爆改”千行百業(yè),。
北京智源人工智能研究院副院長兼總工程師 林詠華
2024年,AI技術走向應用落地的原野,,模型參數(shù)正式邁入萬億時代,,對AGI的探索從語言跨入多模態(tài)。
技術和應用的進展喜人,,但發(fā)展的掣肘,,從技術黑箱,,轉移到了資源消耗,。據(jù)OpenAI測算,全球AI訓練所用的計算量平均每3.43個月便會翻一倍,。在樂觀估計下,僅國內(nèi)大模型的訓練與推理,,就會產(chǎn)生1.1-3.8萬臺高性能AI服務器的算力需求。
而模型訓練,,又是吃數(shù)據(jù)的黑洞。研究機構Epoch AI認為,對數(shù)據(jù)需求急劇增加,,以至于可用于訓練的高質量文本可能會在2026年耗盡。
過去一周,,北京智源人工智能研究院副院長兼總工程師林詠華,,被大模型降價的消息刷了屏。這位智源研究院的副院長兼總工程師,、IBM中國研究院成立以來的首位女性院長認為,,降價的壓力,本質上是資源的壓力,,一方面來自模型訓練,,另一方面來自模型部署。
2021年,,智源研究院就發(fā)布了中國首個,、全球最大的萬億參數(shù)規(guī)模的模型“悟道2.0”。2022年加入智源后,,林詠華對中國的AI資源和生態(tài)有了更為深刻的洞察和見解,。
在主題為《大模型背后的數(shù)據(jù)與算力挑戰(zhàn)》的演講中,林詠華認為,,AI背后最重要的資源是數(shù)據(jù)和算力,,當下,中國AI行業(yè)需要解決的不僅僅是資源儲備的問題,,還有生態(tài)共建的問題,,上下游需要以開源開放的心態(tài)建設生態(tài)。
“數(shù)據(jù),、算力,,這里面有很多的問題,,有很多事情需要解決,它是技術的基座,,我們也希望通過開源開放跟大家一起共筑好基座,?!彼偨Y,。
以下為林詠華演講實錄,經(jīng)36氪編輯整理:
大家早上好,,智源研究院除了應用不做,,包括大模型算法、數(shù)據(jù),、評測,、算力在內(nèi)的各種問題,我們都探索,、研究,、突破,我們是實實在在的AI賦能者,。
今天給大家?guī)淼念}目是《大模型背后的數(shù)據(jù)與算力挑戰(zhàn)》,。
人工智能大模型背后最重要的資源是:算法、數(shù)據(jù),、算力,。近兩年,各種開源算法,,迭代不窮,,算法資源不斷涌現(xiàn)。相比起算法,,我們看到用于訓練的數(shù)據(jù),、算力已經(jīng)成為大模型發(fā)展的資源瓶頸。
數(shù)據(jù)的問題有三個部分:數(shù)據(jù)的數(shù)量,、數(shù)據(jù)的質量,、及如何使用數(shù)據(jù)。
首先是數(shù)據(jù)的數(shù)量?,F(xiàn)在全球的大模型背后都離不開一個數(shù)據(jù)集Common Crawl,。得益于17年前一群志愿者,他們以公益的方式在全球不斷爬取網(wǎng)頁,、積累數(shù)據(jù),,至今積累了超過2500多億的網(wǎng)頁,并以免費方式提供給全球研究和開發(fā)者使用,。無論是OpenAI還是Meta,,都是基于這個數(shù)據(jù)集進行語言模型訓練,。沒有17年前開啟的這個持續(xù)不斷的數(shù)據(jù)集積累工作,今天的大模型不會發(fā)展這么快,。除了網(wǎng)頁文本數(shù)據(jù),,其它諸如圖文、視頻,、書籍,、代碼等都是打造大模型很重要的“原材料”,但這些數(shù)據(jù)遠遠不夠,。尤其各個團隊在今年紛紛開始多模態(tài)模型,、文生視頻模型的訓練,就更需要高質量的圖文對,,和視頻數(shù)據(jù),。此外,當前國外能夠有的開源數(shù)據(jù)集,,95%以上的都是英文內(nèi)容,,中文相關的數(shù)據(jù)非常少。
當我們考慮把通用模型落地行業(yè),,必需用該行業(yè)的大量知識來對通用模型進行持續(xù)訓練,。但這個行業(yè)的專業(yè)知識在哪里?行業(yè)知識的數(shù)據(jù)并不是指企業(yè)數(shù)據(jù),、業(yè)務數(shù)據(jù),,而是這個行業(yè)領域的大量書籍、文獻等數(shù)據(jù),。針對行業(yè)的領域數(shù)據(jù),,當前也是十分分散和匱乏。
第二,,數(shù)據(jù)質量問題,。GPT-4o發(fā)布后,MIT Technology Review的文章指出,,GPT-4o的分詞器訓練所用的中文數(shù)據(jù)大量充斥了中文垃圾網(wǎng)站的信息,,例如該分詞器模型中最長的100個中文詞語中有超過90個來自垃圾網(wǎng)站。這在行業(yè)內(nèi)引起關注,,OpenAI訓練GPT-4o用的中文語料質量堪憂,。其實,在我們調研分析Common Crawl這一全球最大的數(shù)據(jù)集,,也發(fā)現(xiàn)了該數(shù)據(jù)集的中文數(shù)據(jù)的類似質量問題,。
除了數(shù)據(jù)集的內(nèi)容質量問題,還會出現(xiàn)其它數(shù)據(jù)質量問題,。例如,,如果數(shù)據(jù)來源是一些掃描圖片,,OCR進行文字、尤其公式和圖表轉換,,也存在識別質量的問題,;當前用于跨模態(tài)學習的圖文對、視頻文字對則往往存在對圖片或視頻的文字描述質量低下等眾多問題,。若用于訓練的數(shù)據(jù)集質量低,,將會大大浪費算力,并且很大程度會影響模型的生成內(nèi)容安全問題,,因此質量是在數(shù)據(jù)里面十分重要的一點,。
第三,,數(shù)據(jù)使用問題,。訓練數(shù)據(jù)是用來讓機器進行學習,而不是做內(nèi)容的二次分發(fā),、給人類進行直接閱讀和使用,。在現(xiàn)有法律體系下,對于讓機器進行“學習”的數(shù)據(jù)這一新型的使用方式,,并沒有相關的定義,。大模型的開發(fā)需要使用高質量數(shù)據(jù),如何平衡數(shù)據(jù)版權問題與高質量數(shù)據(jù)的“機器學習”使用,?
面對數(shù)據(jù)的這幾個問題,,智源研究院一直希望能探索出一條讓整個產(chǎn)業(yè)有更多高質量數(shù)據(jù)可使用的路。
首先,,我們摸索出三種數(shù)據(jù)的共享使用方式,,并實現(xiàn)在數(shù)據(jù)平臺上。智源研究院聯(lián)合全國數(shù)十家頭部互聯(lián)網(wǎng)企業(yè),、大模型企業(yè),、數(shù)據(jù)提供企業(yè)等,還有中央,、北京市各方機構一起努力打造的,。
這三種使用方式包括,一是完全開源下載,,這對所有的開發(fā)者,、科研工作者都是很重要的,對沒有版權或者弱版權的數(shù)據(jù)我們做了大量的安全過濾,、質量過濾,,整理到開源網(wǎng)站上,目前有2.4T數(shù)據(jù),,這個事情我們將持續(xù)堅持做好,。
二是鼓勵更多的機構把數(shù)據(jù)貢獻出來,,在聯(lián)盟內(nèi)部進行共享,我們打造了積分共享機制,,鼓勵企業(yè)貢獻數(shù)據(jù),,進行質量評定后,通過質量系數(shù)乘數(shù)據(jù)量,,得到積分,。貢獻數(shù)據(jù)的企業(yè)可以用積分在高質量數(shù)據(jù)池中,選擇另外一個企業(yè)在聯(lián)盟內(nèi)貢獻的數(shù)據(jù),,打造“共建-共享”積分使用數(shù)據(jù)的互助模式,。當前已經(jīng)有近30家企業(yè)跟我們一起做這個事情。我們期待有更多企業(yè)能加入進來,,跟我們一起“共建-共享”,。
三是針對有版權要求的高質量數(shù)據(jù),我們打造了“數(shù)算一體”的使用方式,。高質量有版權的數(shù)據(jù)的處理,、訓練等都和算力平臺在同一個安全域,嚴格保障數(shù)據(jù)的使用可控不出域,。大模型團隊可以在這個平臺上使用這些數(shù)據(jù),,對數(shù)據(jù)進行二次加工,進行模型訓練,,訓練完成后不能帶走數(shù)據(jù),,但可以帶走模型,讓數(shù)據(jù)提供方減少對數(shù)據(jù)安全的擔憂,。
我們針對不同的數(shù)據(jù)情況,,構建推廣這三種不同的數(shù)據(jù)使用方式。希望幫助大模型產(chǎn)業(yè)盡快解決“數(shù)據(jù)難題”,。沒有好的高質量數(shù)據(jù),,無法做出更好的模型供用戶使用。
除了數(shù)據(jù)的問題,,我們這幾天還被各個大模型企業(yè)的降價甚至免費的消息刷屏,。這背后是算力成本的壓力,一方面是部署的成本,;另一方面是訓練的成本,。
我們今天面臨的算力難題,是算力增長趕不上大模型對算力的需要,。從去年到今年,,英偉達,AMD,、英特爾的單芯片算力增長基本達到2倍,。但即便是2倍單芯片算力增長,,依然趕不上模型參數(shù)量、訓練數(shù)據(jù)量需要的算力增長,。
而我們當前面臨的挑戰(zhàn)是AI算力建設不足,,和國際相比國內(nèi)單芯片算力還有差距,另外,,現(xiàn)在國內(nèi)各種AI芯片的生態(tài)是割裂的,。各個芯片廠商的硬件架構、指令集,、編譯器,、算子庫等都不一樣,導致上層算法的遷移成本十分高,。如果算法開發(fā)團隊遇到某個算子在目標芯片平臺上缺失的話,,或許要等待廠商開發(fā)好一段時間,將耽誤整個開發(fā)周期,。
我們面臨AI芯片生態(tài)割裂的問題,,是否可以參考已經(jīng)發(fā)展了數(shù)十年的通用處理器CPU的生態(tài)構建方法?CPU有各種不同的架構和不同的指令集(包括x86,、ARM、MIPS等),。GCC作為開源統(tǒng)一編譯器,,向下各個芯片廠商分別進行移植支持,上層的C/C++語言開發(fā)者只需要開發(fā)同一套C/C++語言的算法庫或應用代碼,,而不需要考慮底層是什么芯片,。通過GCC各個芯片版本的編譯器,就可以編譯得到目標芯片上面的二進制代碼,。
那我們在AI芯片領域,,是否有這樣的語言和開源的編譯器呢?答案是有的,。當前,,開源領域有面向AI算子庫開發(fā)的開源編程語言Triton,包括它的開源編譯器,。當前Triton已被英偉達,、英特爾、AMD以及國內(nèi)多個芯片廠商支持,。
因此,,以前是各個廠商需要打造自己的編譯器、算子庫,,追趕不同的算法迭代?,F(xiàn)在將變成另外一種生態(tài)模式,,由開源社區(qū)打造統(tǒng)一的、各種AI算法的算子庫,,芯片廠商只需要移植和優(yōu)化好Triton編譯器,。智源研究院聯(lián)同多個團隊、芯片廠商一起正在打造的基于Triton的通用算子庫,。
我們希望通過打造統(tǒng)一開源開放的軟件生態(tài),,幫助多元AI芯片接入到各種框架、支撐各種AI應用,。我們在6月2日會舉行第一次Triton中國生態(tài)meetup,,這對未來以更低成本使用算力有著重要意義。
今天給大家分享的是智源研究院為AI大模型賦能的兩個資源,,即數(shù)據(jù),、算力,我們希望通過開源開放和大家共筑技術基座,,賦能AI大模型產(chǎn)業(yè)的發(fā)展,。
免責聲明:本文來自網(wǎng)絡收錄或投稿,觀點僅代表作者本人,,不代表芒果財經(jīng)贊同其觀點或證實其描述,,版權歸原作者所有。轉載請注明出處:http://lequren.com/1104781.html
溫馨提示:投資有風險,,入市須謹慎,。本資訊不作為投資理財建議。