來源:至頂網(wǎng)
十多年前,,Arm的高管看到數(shù)據(jù)中心能源成本飆升,意識到有機會擴展其同名片上系統(tǒng)的低功耗架構(gòu),這個系統(tǒng)從一開始就主導(dǎo)了移動電話市場并占領(lǐng)了嵌入式設(shè)備市場,,從PowerPC進入企業(yè)服務(wù)器。
這是為了打造功耗更低,、更便宜,、且更具延展性的英特爾Xeon和AMD Epyc CPU的替代品。
Arm公司花了多年的時間來開發(fā)這個架構(gòu),,因為一些早期的Arm服務(wù)器處理器供應(yīng)商倒閉或放棄其計劃而倍感失望,,同時也付出了巨大的努力來開發(fā)軟件生態(tài)系統(tǒng),不過現(xiàn)在,,Arm已經(jīng)在本地系統(tǒng)和云數(shù)據(jù)中心站穩(wěn)了腳跟,。
Arm在公布2月份最新季度財報的時候特別提到了自己平臺化的市場策略,指出在2016年Arm的收入中至少有三分之二是來自移動領(lǐng)域的通用CPU?,F(xiàn)在,,Arm已經(jīng)擁有針對多個市場的平臺,包括云和網(wǎng)絡(luò)系統(tǒng),,并在高性能計算領(lǐng)域取得了不錯的成績,,富士通的A64FX處理器就是基于Armv8.2-A架構(gòu)的,為代號Fugaku的系統(tǒng)提供支持,,這個是最近Top500榜單中位列第四的超級計算機,。
隨著AI的興起,Arm公司首席執(zhí)行官Rene Haas也看到了其中的機會,。Haas表示,,模型現(xiàn)在消耗了大量的電力,,未來只會有增無減。
他說:“我花了很多時間與這些公司的CEO交談,,電力問題一直是每個人最關(guān)心的問題,,他們都在尋找不同的方法來解決這個問題,因為我們認(rèn)為,,AI可以帶來的一切好處都是相當(dāng)巨大的,。為了獲得越來越多的智能、更好的模型,、更好的預(yù)測性,、添加上下文、學(xué)習(xí)能力等等,,這對計算的需求不斷增加,,顯然也會推動對電力的需求。在過去的幾個月里,,我們在生成式AI,,特別是所有這些復(fù)雜的工作負(fù)載中看到的一切,感覺都是在加快速度的,?!?/p>
Haas表示,Arm參與了美日聯(lián)合資助的AI研究計劃,,該計劃規(guī)模達(dá)到1.1億美金,,其中Arm為計劃貢獻(xiàn)了2500萬美金。Arm將在控制功耗和相關(guān)成本方面發(fā)揮核心作用,。Arm已經(jīng)證明,,其架構(gòu)可以使數(shù)據(jù)中心的能源效率提高15%。他說,,這些類型的節(jié)約也可以轉(zhuǎn)化為AI工作負(fù)載,。
Haas指出,目前現(xiàn)代數(shù)據(jù)中心每年要消耗約460太瓦時的電力,,到2030年,,這一數(shù)字可能會增加兩倍。他表示,,數(shù)據(jù)中心目前消耗的電力約占全球電力需求的4%,,如果不加以控制,這一比例可能會上升至25%,。
這也是有代價的,。在斯坦福大學(xué)最新的AI指數(shù)報告中,研究人員寫道,,“訓(xùn)練這些巨型模型的成本呈現(xiàn)出指數(shù)級的增長”,,并指出,,谷歌的Gemini Ultra訓(xùn)練成本約為1.91億美元,OpenAI的GPT-4的訓(xùn)練成本估計為7800萬美元,。相比之下,,“最初的Transformer模型引入了幾乎所有現(xiàn)代大型語言模型的基礎(chǔ)架構(gòu),成本約為900美元”,。
Haas說,,這些成本只會有增無減。OpenAI和Google等AI公司致力于實現(xiàn)通用型人工智能(AGI),,即AI系統(tǒng)可以像人類一樣或更好地進行推理,、思考、學(xué)習(xí)和執(zhí)行,,這將需要更大的,、更復(fù)雜的模型,需要輸入更多數(shù)據(jù),,這些都會增加功耗。
“GPT-3和GPT-4相比有多么復(fù)雜,,GPT-4需要十倍的數(shù)據(jù),、更大的尺寸、更長的token等等,。但就其完成令人驚嘆的事情這個能力而言,,包括思考、背景和判斷,,仍然是相當(dāng)有限的,。模型需要不斷進化,并且在某種程度上,,需要在數(shù)據(jù)集方面變得更加復(fù)雜,。除非你進行越來越多的訓(xùn)練,否則是無法真正做到這一點的,。這是良性的循環(huán),。為了變得更聰明、將其從模型中推進并進行更多研究,,你只需要進行越來越多的訓(xùn)練即可,。在接下來的幾年里,推進這種訓(xùn)練所需的計算量將會非常多,,而且相對于你運行模型的方式來說,,感覺不會有任何重大的根本性變化?!?/p>
最近幾周,,Arm,、英特爾和Nvidia相繼推出了新的平臺,旨在滿足日益增長的AI功率需求,,包括在邊緣進行更多模型訓(xùn)練和推理,、而邊緣數(shù)據(jù)的生成和存儲越來越多所帶來的壓力。Arm本月推出了Ethos-U85神經(jīng)處理單元(NPU),,承諾比前代產(chǎn)品性能提高4倍,,能效提高20%。
同一天,,英特爾推出了Gaudi 3 AI加速器和Xeon 6 CPU,,首席執(zhí)行官Pat Gelsinger認(rèn)為,該芯片的功能和開放系統(tǒng)的策略將按照英特爾的方式推動AI工作負(fù)載的發(fā)展,。Haas不太確定,,他說“英特爾和AMD可能很難做到,因為他們只是在構(gòu)建標(biāo)準(zhǔn)化的產(chǎn)品,,以及打造一個插入了連接到英特爾或AMD CPU的Nvidia H100加速器這個偉大想法,。”
Haas表示,,對數(shù)據(jù)中心效率的更高需求也推動了定制芯片這一發(fā)展趨勢,,他指出,大多數(shù)芯片都是采用Arm的Neoverse架構(gòu)構(gòu)建的,,包括亞馬遜的Graviton處理器,、谷歌云的Axion、微軟Azure的Cobalt和Oracle Cloud的Ampere,,所有這些不僅可以提高性能和效率,,還可以提高AI工作負(fù)載所需的集成。
“現(xiàn)在,,你基本上可以針對數(shù)據(jù)中心打造一種AI自定義部署方式,,以幾乎任何你想要從中獲得巨大性能的方式對其進行配置,這些定制芯片是我們前進發(fā)展的機會,?!?/p>
他提到了Nvidia上個月推出專用于AI的Grace Blackwell GB200加速器,其中包括2個Nvidia B200 Tensor Core GPU,,通過900 GB/s NVLink互連連接到基于Arm的Grace CPU,。
Haas說:“在某種程度上,Grace-Blackwell是一款定制芯片,,因為之前的H1 100基本上是插入機架并與X86處理器相連的?,F(xiàn)在Grace-Blackwell已經(jīng)高度集成到使用Arm的產(chǎn)品中。Arm將成為其中的核心,,因為Arm所實現(xiàn)的集成水平以及定制能力,,將真正能夠優(yōu)化最高效的工作負(fù)載類型,。以Grace-Blackwell為例,在該架構(gòu)中,,通過在NVLink上使用CPU和GPU,,你可以開始解決有關(guān)內(nèi)存帶寬的一些關(guān)鍵問題,因為最終這些巨型模型需要大量的內(nèi)存訪問才能運行推理,?!?/p>
他表示,與大型語言模型中的H100 GPU相比,,Arm架構(gòu)實現(xiàn)的系統(tǒng)級設(shè)計優(yōu)化有助于將功耗降低25倍,,并將每個GPU的性能提高30倍。在AI時代,,這種定制是必要的,,因為創(chuàng)新和采用的步伐只會加快而不會停下。
“在某種程度上,,我們整個行業(yè)面臨的挑戰(zhàn)之一就是,,雖然這些基礎(chǔ)模型變得越來越智能,而且創(chuàng)新的步伐非???,但開發(fā)新芯片是需要一定時間的,建立新的數(shù)據(jù)中心也需要一定的時間,,建立新的配電能力需要大量的時間。確保能夠以盡可能多的靈活性來設(shè)計芯片,,這是一項非常艱巨的任務(wù),,但眼下這正在發(fā)生,正在以令人難以置信的速度發(fā)生,?!?/p>
免責(zé)聲明:本文來自網(wǎng)絡(luò)收錄或投稿,觀點僅代表作者本人,,不代表芒果財經(jīng)贊同其觀點或證實其描述,,版權(quán)歸原作者所有。轉(zhuǎn)載請注明出處:http://lequren.com/1097900.html
溫馨提示:投資有風(fēng)險,,入市須謹(jǐn)慎,。本資訊不作為投資理財建議。