原文來源:阿爾法公社
圖片來源:由無界 AI生成
算力不足是目前整個(gè)AI行業(yè)都在面對的問題,,就在上周OpenAI的Devday后,,由于一系列新功能吸引了大量用戶試用,ChatGPT和GPT的API出現(xiàn)了大范圍長時(shí)間的宕機(jī),,而Sam Altman也宣布暫停Plus新會員的注冊,。
目前在AI算力領(lǐng)域,NVIDIA的GPU占據(jù)近乎壟斷的地位,,無論是A100,,H100還是剛剛發(fā)布的H200,都是AI算力芯片的標(biāo)桿,,但是它的GPU面臨一個(gè)問題:布署于數(shù)據(jù)中心的顯卡算力集群,,會因?yàn)檫B接網(wǎng)絡(luò)無法足夠快速地提供數(shù)據(jù),在部分時(shí)間無法滿負(fù)載運(yùn)行,從而造成算力的浪費(fèi),,進(jìn)而推高總擁有成本(TCO),。
而一家叫Enfabrica的初創(chuàng)公司,利用專為人工智能數(shù)據(jù)中心開發(fā)的網(wǎng)絡(luò)芯片,,可以使GPU性能節(jié)點(diǎn)的算力利用率提升50%,,降低AI推理和訓(xùn)練的算力成本。
近日,,Enfabrica完成了由Atreides Management領(lǐng)投,,NVIDIA作為戰(zhàn)略投資人參投的1.25億美元B輪融資,其他參與本輪融資的投資者包括IAG Capital Partners,、Liberty Global Ventures,、Valor Equity Partners、Infinitum Partners和Alumni Ventures,,它的早期投資者Sutter Hill Ventures也繼續(xù)加磅,。
這一輪融資使公司估值較前一輪增長了5倍以上,使其累計(jì)融資達(dá)到1.48億美元,。Atreides Management的創(chuàng)始人Gavin Baker加入董事會,,以協(xié)助公司的發(fā)展和戰(zhàn)略方向。
瞄準(zhǔn)AI算力領(lǐng)域的重大挑戰(zhàn),,兩位芯片領(lǐng)域資深人士聯(lián)手創(chuàng)業(yè)
根據(jù)650集團(tuán)(專注云計(jì)算供應(yīng)鏈的研究機(jī)構(gòu))最新市場研究,,AI/ML計(jì)算需求的規(guī)模可能會在每24個(gè)月內(nèi)增長8到275倍,,在未來十年的時(shí)間里,,基于AI/ML的服務(wù)器將從市場的1%增長到近20%。
但是,,因?yàn)锳I計(jì)算的特點(diǎn),,數(shù)據(jù)和元數(shù)據(jù)在分布式計(jì)算元素之間的大量移動形成了瓶頸,。SemiAnalysis的分析師Dylan Patel指出:每一代芯片/封裝的浮點(diǎn)運(yùn)算能力(FLOPs)的增長速度都超過數(shù)據(jù)輸入輸出速度。而且這種不匹配正變得越來越嚴(yán)重,。
Enfabrica由Rochan Sankar和Shrijeet Mukherjee聯(lián)手創(chuàng)建,。Rochan Sankar曾是芯片巨頭博通的工程總監(jiān),Shrijeet Mukherjee曾在谷歌負(fù)責(zé)網(wǎng)絡(luò)平臺和架構(gòu),,他們對于芯片和網(wǎng)絡(luò)架構(gòu)有深刻的理解和豐富的經(jīng)驗(yàn),。
在組織架構(gòu)上,,Sankar擔(dān)任首席執(zhí)行官,,Mukherjee擔(dān)任首席開發(fā)官,Enfabrica核心團(tuán)隊(duì)包括來自思科,、Meta和英特爾等公司AI,,網(wǎng)絡(luò),芯片領(lǐng)域的資深工程師,。
Enfabrica瞄準(zhǔn)的是AI行業(yè)對“并行,、加速和異構(gòu)”基礎(chǔ)算力設(shè)施(也就是GPU)的增長需求。
Rochan Sankar表示:“當(dāng)前AI革命帶來的最大挑戰(zhàn)是AI基礎(chǔ)設(shè)施的擴(kuò)展—無論是計(jì)算成本還是計(jì)算的可持續(xù)性,。
傳統(tǒng)的網(wǎng)絡(luò)芯片,,如交換機(jī),在跟上現(xiàn)代AI工作負(fù)載的數(shù)據(jù)移動需求方面存在困難,,這會對在訓(xùn)練過程中需要大量數(shù)據(jù)集的AI訓(xùn)練或AI微調(diào)等計(jì)算需求造成瓶頸,。
AI計(jì)算領(lǐng)域迫切需要彌合不斷增長的AI工作負(fù)載需求與計(jì)算集群的總體成本、效率,、可持續(xù)性和擴(kuò)展便利性之間的差距,。”
Enfabrica推出了加速計(jì)算結(jié)構(gòu)交換機(jī)(ACF-S)設(shè)備和解決方案,,這些解決方案與GPU,、CPU和加速器相輔相成,能夠解決數(shù)據(jù)中心AI和高性能計(jì)算集群中的關(guān)鍵網(wǎng)絡(luò),、I/O和內(nèi)存擴(kuò)展問題,。它能使數(shù)據(jù)中心GPU和加速計(jì)算集群的計(jì)算成本降低50%,內(nèi)存擴(kuò)展50倍,,并且在相同的性能點(diǎn)上將大模型推理的計(jì)算成本降低約50%,,實(shí)現(xiàn)了總擁有成本(TCO)的降低。
根據(jù)Dell’Oro Group的數(shù)據(jù),,AI基礎(chǔ)設(shè)施投資將使數(shù)據(jù)中心資本支出在2027年前超過5000億美元,。同時(shí),根據(jù)IDC的預(yù)測,廣義上針對AI的硬件投資在未來五年內(nèi)預(yù)計(jì)將有20.5%的復(fù)合年增長率,。
預(yù)計(jì)到2027年,,數(shù)據(jù)中心用的互聯(lián)半導(dǎo)體市場規(guī)模將從2022年的近125億美元翻倍至近250億美元。
加入Enfabrica董事會的Gavin Baker是Atreides Management的首席信息官兼管理合伙人,,它曾經(jīng)投資了Nutanix,、Jet.com、AppNexus,、Dataminr,、Cloudflare和SpaceX等公司,并且擔(dān)任部分公司的董事會成員,。
在談到AI的算力基礎(chǔ)設(shè)施時(shí),,他談到了幾個(gè)重要的改進(jìn)方面:“通過更快的存儲、更好的后端網(wǎng)絡(luò)(尤其是Enfabrica),,以及現(xiàn)在正在出現(xiàn)的線性可插拔/共封裝光學(xué)器件和改進(jìn)的CPU/GPU集成(NVIDIA的GraceHopper,、AMD的MI300和特斯拉的Dojo)來提高GPU利用率,,這些結(jié)合在一起打破了“內(nèi)存墻”,,將進(jìn)一步提高訓(xùn)練的投資回報(bào)率——既直接降低了訓(xùn)練成本,也間接地通過以下方式增加了利潤率降低推理成本,。
總結(jié)來說,,在“每單位能量有用計(jì)算”具有優(yōu)勢的架構(gòu)將獲勝,我們正在快速朝著每單位能量更有用的計(jì)算邁進(jìn),?!?/p>
幫助NVIDIA GPU計(jì)算集群打破“內(nèi)存墻”
在AI加速計(jì)算領(lǐng)域,“內(nèi)存壁壘”是一個(gè)實(shí)際存在的問題,,它指的是處理性能與提供這種性能所需的內(nèi)存帶寬之間日益擴(kuò)大的差距,。
相對于傳統(tǒng)CPU計(jì)算,AI普遍使用的GPU計(jì)算在這個(gè)方面表現(xiàn)得更嚴(yán)重,,因?yàn)镚PU擁有更多的核心,,更高的處理吞吐量,以及對數(shù)據(jù)的巨大需求,。
AI使用的數(shù)據(jù)必須首先被組織和存儲在內(nèi)存中,,然后才能由GPU處理。為AI提供必要的內(nèi)存帶寬和容量是一個(gè)當(dāng)前急需解決的問題,。
為了解決這個(gè)問題,已經(jīng)有幾個(gè)關(guān)鍵技術(shù)可以利用:之前已經(jīng)在CPU和分布式集群計(jì)算中使用的內(nèi)存性能/容量分層和緩存架構(gòu),;支持?jǐn)U展AI系統(tǒng)的遠(yuǎn)程直接內(nèi)存訪問(RDMA)網(wǎng)絡(luò)技術(shù),;以及業(yè)界廣泛認(rèn)可和采用的Compute Express Link(CXL)接口標(biāo)準(zhǔn)。
Enfabrica的方案融合了CXL.mem解耦、性能/容量分層和RDMA網(wǎng)絡(luò)等關(guān)鍵技術(shù),,實(shí)現(xiàn)了一個(gè)可擴(kuò)展的,、高帶寬、高容量,、延遲有界的內(nèi)存層次結(jié)構(gòu),,為任何大規(guī)模AI計(jì)算集群提供服務(wù)。
它的第一款芯片叫做ACF (Accelerated Compute Fabric)轉(zhuǎn)換芯片,,它能夠讓GPU算力池與數(shù)十TB的本地CXL.mem DRAM池直接連接,,延遲極低。
具體來說,,ACF進(jìn)一步推動了內(nèi)存分層構(gòu)造,,通過800GbE網(wǎng)絡(luò)端口,實(shí)現(xiàn)對分布在計(jì)算集群和數(shù)據(jù)中心其余部分的PB級DRAM的高帶寬訪問,。進(jìn)而為加速計(jì)算構(gòu)建一個(gè)具有近內(nèi)存,、近遠(yuǎn)內(nèi)存、網(wǎng)絡(luò)遠(yuǎn)內(nèi)存,,并在每個(gè)內(nèi)存層次上都有嚴(yán)格延遲限制的層次化數(shù)據(jù)存儲,。通過ACF的幫助,執(zhí)行數(shù)據(jù)處理的NVIDIA GPU能夠從多個(gè)不同的地方提取數(shù)據(jù),,而不會遇到速度障礙,。
Enfabrica的解決方案叫ACF-S,它由多個(gè)ACF芯片組成,,具有8-Tbps人工智能基礎(chǔ)設(shè)施網(wǎng)絡(luò)節(jié)點(diǎn),,具有800G以太網(wǎng)、PCIe第5代和CXL 2.0+接口,,與NVIDIA DGX-H100系統(tǒng)和Meta Grand Teton搭載八個(gè)NVIDIA H100 GPU的系統(tǒng)相比,,它可以將I/O功耗降低高達(dá)50%(每機(jī)架節(jié)省2千瓦)。
“ACF-S是一種融合解決方案,,它消除了對傳統(tǒng)的、各不相同的服務(wù)器I/O和網(wǎng)絡(luò)芯片的需求,,如架級網(wǎng)絡(luò)交換機(jī),、服務(wù)器網(wǎng)絡(luò)接口控制器和PCIe交換機(jī)的需求?!盧ochan Sankar解釋道,。
ACF-S設(shè)備能夠讓處理AI推理任務(wù)的公司使用盡可能少的GPU,、CPU和其他AI加速器,。這是因?yàn)锳CF-S能夠通過快速移動大量數(shù)據(jù),,更有效地利用現(xiàn)有硬件。
而且,,Enfabrica的解決方案不僅可以用于大規(guī)模AI推理,,也適用于AI訓(xùn)練,以及數(shù)據(jù)庫和網(wǎng)格計(jì)算等非AI用例,。
Enfabrica計(jì)劃向系統(tǒng)構(gòu)建者(云廠商,,數(shù)據(jù)中心運(yùn)營商)銷售芯片和解決方案,而不是自己構(gòu)建系統(tǒng),。Sankar透露,,Enfabrica與NVIDIA生態(tài)系統(tǒng)具有較深的契合度,但是他們也計(jì)劃與更多不同的AI算力公司合作,。
他說:“ACF-S對用于AI計(jì)算的AI處理器的類型和品牌,,以及部署的確切模型都持中立態(tài)度,這允許構(gòu)建跨多個(gè)不同用例的AI基礎(chǔ)設(shè)施,,并支持多個(gè)處理器供應(yīng)商,,無需專有技術(shù)鎖定?!?/p>
速度更快,,能耗更低,新一代AI算力體系正在成型
H100剛剛出貨一年時(shí)間,,NVIDIA就推出了H200,,這顯示出它維護(hù)自己在AI算力領(lǐng)域領(lǐng)先地位的急迫,。因?yàn)檫^去一年的生成式AI大爆發(fā),,它的競爭對手們也都推出了強(qiáng)力的AI算力產(chǎn)品,無論是AMD的MI300系列芯片還是微軟推出的對標(biāo)H100的Maia芯片,。
AI算力是一個(gè)技術(shù)集中和資金集中的產(chǎn)業(yè),,面對巨頭們的“神仙打架”,AI算力創(chuàng)業(yè)公司們?nèi)绾紊??Enfabrica和此前我們介紹過的d-Matrix給出了自己的答案,。
d-Matrix的做法是專注在AI推理上,推出的AI推理專用芯片比NVIDIA的同類產(chǎn)品更快更省電,。Enfabrica卻沒有去直接“搶NVIDIA的飯碗”,,而是作為AI算力體系的一個(gè)重要部分,幫助NVIDIA的GPU(以及其他AI算力芯片)打破“內(nèi)存墻”,,減少算力閑置,,整體上提高算力系統(tǒng)的利用率。
AI算力系統(tǒng)與所有算力系統(tǒng)一樣,,有兩個(gè)重要的因素,,速度和能耗,。盡管大型的AI計(jì)算(無論是訓(xùn)練還是推理)都由算力集群來運(yùn)行,但是更快的運(yùn)算速度和更低的能耗仍然是行業(yè)整體的努力方向,。
NVIDIA的GPU在更快的運(yùn)算速度這個(gè)方向上優(yōu)勢明顯,,而Enfabrica這樣的公司則在往更低的能耗上努力。
正如Enfabrica的創(chuàng)始人Rochan Sankar所說:“要想讓AI計(jì)算真正普及,,成本曲線必須下降,。關(guān)鍵在于GPU的算力是否得到更好,更高效的利用,?!?/p>
顯然,NVIDIA對于Enfabrica的投資也是基于這個(gè)邏輯,,隨著Enfabrica技術(shù)讓NVIDIA的GPU算力利用率進(jìn)一步提高,,它在行業(yè)中的領(lǐng)先優(yōu)勢有望進(jìn)一步穩(wěn)固。
不過,,面對這個(gè)顯而易見又迫切的需求,,行業(yè)中并不止Enfabrica一家在做,行業(yè)巨頭思科也已經(jīng)推出了Silicon One G200和G202系列AI網(wǎng)絡(luò)硬件,,博通也在這個(gè)領(lǐng)域耕耘,。Enfabrica想要進(jìn)一步成長,仍然面臨著競爭,。
如果說海外的AI行業(yè)已經(jīng)面臨著暫時(shí)的算力不足問題,,那么中國的AI行業(yè)更要面對長期的AI算力不足問題,隨著NIVDIA的GPU被進(jìn)一步的限制,,行業(yè)對本土的AI算力產(chǎn)品產(chǎn)生了強(qiáng)烈的需求,。目前已經(jīng)有華為,阿里,,百度,,摩爾線程,寒武紀(jì)等公司在AI算力領(lǐng)域發(fā)展,,希望他們,,以及更多的公司,能夠幫助建立起中國自己的AI算力體系,。
免責(zé)聲明:本文來自網(wǎng)絡(luò)收錄或投稿,,觀點(diǎn)僅代表作者本人,不代表芒果財(cái)經(jīng)贊同其觀點(diǎn)或證實(shí)其描述,,版權(quán)歸原作者所有,。轉(zhuǎn)載請注明出處:http://lequren.com/1079476.html
溫馨提示:投資有風(fēng)險(xiǎn),入市須謹(jǐn)慎,。本資訊不作為投資理財(cái)建議,。