原文來源:阿爾法公社
圖片來源:由無界 AI生成
算力不足是目前整個AI行業(yè)都在面對的問題,,就在上周OpenAI的Devday后,,由于一系列新功能吸引了大量用戶試用,ChatGPT和GPT的API出現(xiàn)了大范圍長時間的宕機,,而Sam Altman也宣布暫停Plus新會員的注冊,。
目前在AI算力領域,NVIDIA的GPU占據(jù)近乎壟斷的地位,,無論是A100,,H100還是剛剛發(fā)布的H200,都是AI算力芯片的標桿,,但是它的GPU面臨一個問題:布署于數(shù)據(jù)中心的顯卡算力集群,,會因為連接網(wǎng)絡無法足夠快速地提供數(shù)據(jù),在部分時間無法滿負載運行,,從而造成算力的浪費,,進而推高總擁有成本(TCO)。
而一家叫Enfabrica的初創(chuàng)公司,,利用專為人工智能數(shù)據(jù)中心開發(fā)的網(wǎng)絡芯片,,可以使GPU性能節(jié)點的算力利用率提升50%,降低AI推理和訓練的算力成本。
近日,,Enfabrica完成了由Atreides Management領投,,NVIDIA作為戰(zhàn)略投資人參投的1.25億美元B輪融資,其他參與本輪融資的投資者包括IAG Capital Partners,、Liberty Global Ventures,、Valor Equity Partners、Infinitum Partners和Alumni Ventures,,它的早期投資者Sutter Hill Ventures也繼續(xù)加磅,。
這一輪融資使公司估值較前一輪增長了5倍以上,使其累計融資達到1.48億美元,。Atreides Management的創(chuàng)始人Gavin Baker加入董事會,以協(xié)助公司的發(fā)展和戰(zhàn)略方向,。
瞄準AI算力領域的重大挑戰(zhàn),,兩位芯片領域資深人士聯(lián)手創(chuàng)業(yè)
根據(jù)650集團(專注云計算供應鏈的研究機構(gòu))最新市場研究,,AI/ML計算需求的規(guī)模可能會在每24個月內(nèi)增長8到275倍,,在未來十年的時間里,基于AI/ML的服務器將從市場的1%增長到近20%,。
但是,,因為AI計算的特點,,數(shù)據(jù)和元數(shù)據(jù)在分布式計算元素之間的大量移動形成了瓶頸。SemiAnalysis的分析師Dylan Patel指出:每一代芯片/封裝的浮點運算能力(FLOPs)的增長速度都超過數(shù)據(jù)輸入輸出速度,。而且這種不匹配正變得越來越嚴重。
Enfabrica由Rochan Sankar和Shrijeet Mukherjee聯(lián)手創(chuàng)建,。Rochan Sankar曾是芯片巨頭博通的工程總監(jiān),,Shrijeet Mukherjee曾在谷歌負責網(wǎng)絡平臺和架構(gòu),他們對于芯片和網(wǎng)絡架構(gòu)有深刻的理解和豐富的經(jīng)驗,。
在組織架構(gòu)上,,Sankar擔任首席執(zhí)行官,Mukherjee擔任首席開發(fā)官,,Enfabrica核心團隊包括來自思科、Meta和英特爾等公司AI,,網(wǎng)絡,,芯片領域的資深工程師。
Enfabrica瞄準的是AI行業(yè)對“并行,、加速和異構(gòu)”基礎算力設施(也就是GPU)的增長需求,。
Rochan Sankar表示:“當前AI革命帶來的最大挑戰(zhàn)是AI基礎設施的擴展—無論是計算成本還是計算的可持續(xù)性。
傳統(tǒng)的網(wǎng)絡芯片,,如交換機,,在跟上現(xiàn)代AI工作負載的數(shù)據(jù)移動需求方面存在困難,這會對在訓練過程中需要大量數(shù)據(jù)集的AI訓練或AI微調(diào)等計算需求造成瓶頸,。
AI計算領域迫切需要彌合不斷增長的AI工作負載需求與計算集群的總體成本、效率,、可持續(xù)性和擴展便利性之間的差距,。”
Enfabrica推出了加速計算結(jié)構(gòu)交換機(ACF-S)設備和解決方案,,這些解決方案與GPU,、CPU和加速器相輔相成,,能夠解決數(shù)據(jù)中心AI和高性能計算集群中的關鍵網(wǎng)絡,、I/O和內(nèi)存擴展問題,。它能使數(shù)據(jù)中心GPU和加速計算集群的計算成本降低50%,,內(nèi)存擴展50倍,并且在相同的性能點上將大模型推理的計算成本降低約50%,,實現(xiàn)了總擁有成本(TCO)的降低,。
根據(jù)Dell’Oro Group的數(shù)據(jù),AI基礎設施投資將使數(shù)據(jù)中心資本支出在2027年前超過5000億美元,。同時,,根據(jù)IDC的預測,廣義上針對AI的硬件投資在未來五年內(nèi)預計將有20.5%的復合年增長率,。
預計到2027年,,數(shù)據(jù)中心用的互聯(lián)半導體市場規(guī)模將從2022年的近125億美元翻倍至近250億美元。
加入Enfabrica董事會的Gavin Baker是Atreides Management的首席信息官兼管理合伙人,,它曾經(jīng)投資了Nutanix,、Jet.com、AppNexus,、Dataminr,、Cloudflare和SpaceX等公司,并且擔任部分公司的董事會成員,。
在談到AI的算力基礎設施時,,他談到了幾個重要的改進方面:“通過更快的存儲、更好的后端網(wǎng)絡(尤其是Enfabrica),,以及現(xiàn)在正在出現(xiàn)的線性可插拔/共封裝光學器件和改進的CPU/GPU集成(NVIDIA的GraceHopper,、AMD的MI300和特斯拉的Dojo)來提高GPU利用率,這些結(jié)合在一起打破了“內(nèi)存墻”,,將進一步提高訓練的投資回報率——既直接降低了訓練成本,,也間接地通過以下方式增加了利潤率降低推理成本。
總結(jié)來說,,在“每單位能量有用計算”具有優(yōu)勢的架構(gòu)將獲勝,,我們正在快速朝著每單位能量更有用的計算邁進?!?/p>
幫助NVIDIA GPU計算集群打破“內(nèi)存墻”
在AI加速計算領域,,“內(nèi)存壁壘”是一個實際存在的問題,它指的是處理性能與提供這種性能所需的內(nèi)存帶寬之間日益擴大的差距,。
相對于傳統(tǒng)CPU計算,,AI普遍使用的GPU計算在這個方面表現(xiàn)得更嚴重,因為GPU擁有更多的核心,,更高的處理吞吐量,,以及對數(shù)據(jù)的巨大需求。
AI使用的數(shù)據(jù)必須首先被組織和存儲在內(nèi)存中,,然后才能由GPU處理,。為AI提供必要的內(nèi)存帶寬和容量是一個當前急需解決的問題,。
為了解決這個問題,,已經(jīng)有幾個關鍵技術(shù)可以利用:之前已經(jīng)在CPU和分布式集群計算中使用的內(nèi)存性能/容量分層和緩存架構(gòu);支持擴展AI系統(tǒng)的遠程直接內(nèi)存訪問(RDMA)網(wǎng)絡技術(shù),;以及業(yè)界廣泛認可和采用的Compute Express Link(CXL)接口標準,。
Enfabrica的方案融合了CXL.mem解耦、性能/容量分層和RDMA網(wǎng)絡等關鍵技術(shù),,實現(xiàn)了一個可擴展的,、高帶寬、高容量,、延遲有界的內(nèi)存層次結(jié)構(gòu),,為任何大規(guī)模AI計算集群提供服務。
它的第一款芯片叫做ACF (Accelerated Compute Fabric)轉(zhuǎn)換芯片,,它能夠讓GPU算力池與數(shù)十TB的本地CXL.mem DRAM池直接連接,,延遲極低。
具體來說,,ACF進一步推動了內(nèi)存分層構(gòu)造,,通過800GbE網(wǎng)絡端口,實現(xiàn)對分布在計算集群和數(shù)據(jù)中心其余部分的PB級DRAM的高帶寬訪問,。進而為加速計算構(gòu)建一個具有近內(nèi)存,、近遠內(nèi)存、網(wǎng)絡遠內(nèi)存,,并在每個內(nèi)存層次上都有嚴格延遲限制的層次化數(shù)據(jù)存儲,。通過ACF的幫助,執(zhí)行數(shù)據(jù)處理的NVIDIA GPU能夠從多個不同的地方提取數(shù)據(jù),,而不會遇到速度障礙,。
Enfabrica的解決方案叫ACF-S,它由多個ACF芯片組成,,具有8-Tbps人工智能基礎設施網(wǎng)絡節(jié)點,,具有800G以太網(wǎng)、PCIe第5代和CXL 2.0+接口,,與NVIDIA DGX-H100系統(tǒng)和Meta Grand Teton搭載八個NVIDIA H100 GPU的系統(tǒng)相比,,它可以將I/O功耗降低高達50%(每機架節(jié)省2千瓦)。
“ACF-S是一種融合解決方案,,它消除了對傳統(tǒng)的、各不相同的服務器I/O和網(wǎng)絡芯片的需求,,如架級網(wǎng)絡交換機,、服務器網(wǎng)絡接口控制器和PCIe交換機的需求,。”Rochan Sankar解釋道,。
ACF-S設備能夠讓處理AI推理任務的公司使用盡可能少的GPU、CPU和其他AI加速器,。這是因為ACF-S能夠通過快速移動大量數(shù)據(jù),,更有效地利用現(xiàn)有硬件。
而且,,Enfabrica的解決方案不僅可以用于大規(guī)模AI推理,,也適用于AI訓練,以及數(shù)據(jù)庫和網(wǎng)格計算等非AI用例,。
Enfabrica計劃向系統(tǒng)構(gòu)建者(云廠商,,數(shù)據(jù)中心運營商)銷售芯片和解決方案,而不是自己構(gòu)建系統(tǒng),。Sankar透露,,Enfabrica與NVIDIA生態(tài)系統(tǒng)具有較深的契合度,但是他們也計劃與更多不同的AI算力公司合作,。
他說:“ACF-S對用于AI計算的AI處理器的類型和品牌,,以及部署的確切模型都持中立態(tài)度,這允許構(gòu)建跨多個不同用例的AI基礎設施,,并支持多個處理器供應商,,無需專有技術(shù)鎖定?!?/p>
速度更快,,能耗更低,新一代AI算力體系正在成型
H100剛剛出貨一年時間,,NVIDIA就推出了H200,,這顯示出它維護自己在AI算力領域領先地位的急迫。因為過去一年的生成式AI大爆發(fā),,它的競爭對手們也都推出了強力的AI算力產(chǎn)品,,無論是AMD的MI300系列芯片還是微軟推出的對標H100的Maia芯片。
AI算力是一個技術(shù)集中和資金集中的產(chǎn)業(yè),,面對巨頭們的“神仙打架”,,AI算力創(chuàng)業(yè)公司們?nèi)绾紊妫縀nfabrica和此前我們介紹過的d-Matrix給出了自己的答案,。
d-Matrix的做法是專注在AI推理上,,推出的AI推理專用芯片比NVIDIA的同類產(chǎn)品更快更省電。Enfabrica卻沒有去直接“搶NVIDIA的飯碗”,而是作為AI算力體系的一個重要部分,,幫助NVIDIA的GPU(以及其他AI算力芯片)打破“內(nèi)存墻”,,減少算力閑置,整體上提高算力系統(tǒng)的利用率,。
AI算力系統(tǒng)與所有算力系統(tǒng)一樣,,有兩個重要的因素,速度和能耗,。盡管大型的AI計算(無論是訓練還是推理)都由算力集群來運行,,但是更快的運算速度和更低的能耗仍然是行業(yè)整體的努力方向。
NVIDIA的GPU在更快的運算速度這個方向上優(yōu)勢明顯,,而Enfabrica這樣的公司則在往更低的能耗上努力。
正如Enfabrica的創(chuàng)始人Rochan Sankar所說:“要想讓AI計算真正普及,,成本曲線必須下降,。關鍵在于GPU的算力是否得到更好,更高效的利用,?!?/p>
顯然,NVIDIA對于Enfabrica的投資也是基于這個邏輯,,隨著Enfabrica技術(shù)讓NVIDIA的GPU算力利用率進一步提高,,它在行業(yè)中的領先優(yōu)勢有望進一步穩(wěn)固。
不過,,面對這個顯而易見又迫切的需求,,行業(yè)中并不止Enfabrica一家在做,行業(yè)巨頭思科也已經(jīng)推出了Silicon One G200和G202系列AI網(wǎng)絡硬件,,博通也在這個領域耕耘,。Enfabrica想要進一步成長,仍然面臨著競爭,。
如果說海外的AI行業(yè)已經(jīng)面臨著暫時的算力不足問題,,那么中國的AI行業(yè)更要面對長期的AI算力不足問題,隨著NIVDIA的GPU被進一步的限制,,行業(yè)對本土的AI算力產(chǎn)品產(chǎn)生了強烈的需求,。目前已經(jīng)有華為,阿里,,百度,,摩爾線程,寒武紀等公司在AI算力領域發(fā)展,,希望他們,,以及更多的公司,能夠幫助建立起中國自己的AI算力體系,。
免責聲明:本文來自網(wǎng)絡收錄或投稿,,觀點僅代表作者本人,,不代表芒果財經(jīng)贊同其觀點或證實其描述,版權(quán)歸原作者所有,。轉(zhuǎn)載請注明出處:http://lequren.com/1079476.html
溫馨提示:投資有風險,,入市須謹慎。本資訊不作為投資理財建議,。