原文來源:鈦媒體
作者:張帥
圖片來源:由無界 AI生成
大模型,是數(shù)據(jù)中心產(chǎn)業(yè)十年一遇的變革,。
相比于以GPT為代表的大模型帶來的現(xiàn)象級熱度,,數(shù)據(jù)中心產(chǎn)業(yè)太不「性感」了。長久以來,,數(shù)據(jù)中心產(chǎn)業(yè)較為成熟,,但是重資產(chǎn)、長周期,、年折舊額高的屬性,,注定了它不是一門互聯(lián)網(wǎng)式的快生意,,也缺少激動人心的故事。
但不論是互聯(lián)網(wǎng),,還是如今的大模型,,數(shù)字世界都得依靠物理基礎(chǔ)。簡而化之,,AI產(chǎn)業(yè)的最上層是各種應(yīng)用,,如人臉識別、工業(yè)大腦,、智能客服,,當然還有ChatGPT,支撐這些應(yīng)用的則是云計算平臺,,承載了大模型和算力調(diào)度等軟件功能,,數(shù)據(jù)中心在更下一層,“風(fēng),、火,、水、電”基礎(chǔ)設(shè)施,,加上芯片,、服務(wù)器等,海量數(shù)據(jù)的存儲和計算都在此發(fā)生,。
上層應(yīng)用技術(shù),,直接影響底層數(shù)字基礎(chǔ)設(shè)施,數(shù)據(jù)中心層級的變化往往容易被忽略,,實際上,,通信、互聯(lián)網(wǎng),、云計算和大模型的發(fā)展,,分別對應(yīng)機房、數(shù)據(jù)中心,、云數(shù)據(jù)中心,、智算中心(AIDC)的不同形態(tài),尤其是大模型代表的人工智能技術(shù),,可能比此前所有的影響加起來還要大。
中國信息通信研究院云計算與大數(shù)據(jù)研究所所長何寶宏表示,,“今天的數(shù)據(jù)中心仍然是傳統(tǒng)技術(shù)和創(chuàng)新技術(shù)混合,,再過大概十年,,我們會進入數(shù)據(jù)中心原生的時代,,這些技術(shù)是土生土長專用于數(shù)據(jù)中心,比較有代表性的如液冷技術(shù),、智算中心的飛速發(fā)展,。”
2023年,,數(shù)據(jù)中心行業(yè)之間的交流頻率明顯多了起來,,在產(chǎn)業(yè)變換的關(guān)鍵節(jié)點,一面是客戶需求驅(qū)動下的“大干快上”,,另一面則是未被厘清的新技術(shù)路線,,大模型讓數(shù)據(jù)中心廠商隱約嗅到了行業(yè)洗牌的味道。
“數(shù)據(jù)中心大干快上,,就等GPU了”
過去一年,,中國數(shù)據(jù)中心產(chǎn)業(yè)開啟了一場算力進化的新征程,國家政策點名了方向,。2023年10月份,,工信部六部委印發(fā)《算力基礎(chǔ)設(shè)施高質(zhì)量行動計劃》,首次提出了算力中心相關(guān)的概念和發(fā)展要求,,將通用數(shù)據(jù)中心,、智算中心、超算中心都納入了算力基礎(chǔ)設(shè)施的內(nèi)涵,。
其中明確到2025年,,算力規(guī)模要超過300EFLOPS,智能算力占比達到35%以上,,重點行業(yè)的核心數(shù)據(jù),、重要數(shù)據(jù)的災(zāi)備覆蓋率要達到百分之百,每個重點領(lǐng)域要打造30個應(yīng)用標桿等,。
與此同時,,數(shù)據(jù)中心全面智算化,,截至2023年上半年,全國在用的數(shù)據(jù)中心總規(guī)模超過760萬標準機架,,算力總規(guī)模達到了197EFLOPS,,已經(jīng)位居全球第二。新增的算力設(shè)施中,,智能算力的占比超過了50%,,成為了增長的新熱點。
根據(jù)科智咨詢最新統(tǒng)計的數(shù)據(jù),,2023年1月份到12月份初,,全國立項規(guī)劃建設(shè)的智算中心的項目數(shù)量達到118個,其中規(guī)劃算力大于1000P的項目16個,,大于500P以上的26個,,大于100P以上的項目56個。
而對于大部分數(shù)據(jù)中心服務(wù)商來說,,今年的主旋律就是一邊大干快上新建智算中心,,一邊等AI算力卡,更準確地說,,是主要依賴GPU供應(yīng)市場份額90%的英偉達,,否則只能選擇性能和產(chǎn)能不足的其他供應(yīng)商。
數(shù)據(jù)中心服務(wù)的核心是服務(wù)器,,其架構(gòu)設(shè)計也是圍繞服務(wù)器,,當服務(wù)器發(fā)生任何一種變化,數(shù)據(jù)中心就要相應(yīng)做出調(diào)整,,結(jié)合客戶預(yù)算和需求做兼容或創(chuàng)新的改變,。大模型火爆之前,純GPU服務(wù)器的數(shù)據(jù)中心很少,,充其量就是大規(guī)模數(shù)據(jù)中心有少數(shù)幾個GPU服務(wù)器機房,,而且由于GPU的成本高昂,只有大型互聯(lián)網(wǎng)等企業(yè)才有相應(yīng)儲備,。
一位數(shù)據(jù)中心業(yè)內(nèi)人士提到,,“2023年是算力大元年,全行業(yè)都在搶GPU卡,,而且是瘋狂地搶,,因為受到貿(mào)易政策的影響,現(xiàn)在進入到暫緩供應(yīng)的階段,,目前大家還是在積極部署數(shù)據(jù)中心,,預(yù)計未來一段時間行業(yè)會有非常大的發(fā)展空間?!?/p>
“理論上客戶需求的緊迫性走在我們前面,,但是客戶也受限于上游GPU的供應(yīng),,能不能按計劃拿到足量的算力卡是關(guān)鍵。我們與算力客戶先做算力中心規(guī)劃設(shè)計,,先把符合需求的算力中心樓建造出來,,分階段交付機電等,讓客戶有卡就能立馬上架”,,普洛斯數(shù)據(jù)中心平臺產(chǎn)品部副總裁韓玉說,。
韓玉透露,今年接到的需求中,,超過七成以上都是智算中心的需求,,由于大模型對算力的需求異常旺盛,大模型廠商對數(shù)據(jù)中心建設(shè)的時間表也一再壓縮,。
在2014年左右,,云數(shù)據(jù)中心的建設(shè)從空地開始,到機電交付是11個月,,在2019年,,行業(yè)領(lǐng)先的水平大概能做到9個月左右,,今天數(shù)據(jù)中心可以做到從空地開始建設(shè),,到測試完成上架大概在7個半月左右。
以普洛斯今年交付的某項目為例,,該客戶布局大模型之后需要自己的智算中心,,4月下訂單,8月底安裝完,,9月底做驗收,,10月份整個項目已經(jīng)投入運營,數(shù)據(jù)中心整體建筑采用了大量預(yù)制模塊,,包括鋼結(jié)構(gòu)的預(yù)制樓,、預(yù)制制冷模塊、電力組合標準模塊,、預(yù)制機柜及通道密封預(yù)制化,,從而實現(xiàn)快速交付。
大模型如何改變數(shù)據(jù)中心
為了滿足大模型的訓(xùn)練需求,,智算中心有幾大明顯的變化,,首先是服務(wù)器和機柜功率顯著提高,傳統(tǒng)x86架構(gòu)的通用計算服務(wù)器,,標準形態(tài)是2U2節(jié)點或4節(jié)點,,一臺服務(wù)器功率600W—900W,四十多U的機柜空間里插12—15臺服務(wù)器,,其余部分是交換機,、電源等模塊,。到了智算時代,一臺GPU服務(wù)器八張GPU卡加兩個CPU,,至少10千瓦,、12千瓦起步。
以前一臺服務(wù)器里既有CPU,,又有內(nèi)存和硬盤,,今天的GPU服務(wù)器更像一種純算力的堆疊,在一定規(guī)模下,,大模型訓(xùn)練效率隨著GPU數(shù)量增加而提高,,前提是網(wǎng)絡(luò)時延足夠低。
智算中心的第二大變化,,便是短距離傳輸,,降低網(wǎng)絡(luò)時延。韓玉表示,,通用服務(wù)器架構(gòu)設(shè)計需要算力經(jīng)網(wǎng)卡互聯(lián)造成轉(zhuǎn)換速率較慢,,英偉達實現(xiàn)了CPU直連GPU的直接通信的架構(gòu)設(shè)計,算力效率數(shù)量級提升,,更高功率,、更短距離、更低時延,、更可靠的GPU互聯(lián),,是大模型訓(xùn)練的基礎(chǔ)。
“今天的智算業(yè)務(wù)集群里,,網(wǎng)絡(luò)成本超過20%,,短距離高可靠性的低延時,是大家愿意投入去創(chuàng)新優(yōu)化的環(huán)節(jié),,因為足夠有性價比,。”他說,。
第三,,目前智算中心還未完全定型,架構(gòu)設(shè)計要具備高度兼容性,。合盈數(shù)據(jù)CTO?周天宇提到,,芯片、功率密度,、風(fēng)液混合,,三者均存在變數(shù),一個數(shù)據(jù)中心?的壽命如果以20年計,基礎(chǔ)設(shè)施如何應(yīng)對由于芯片,,不同制冷方式帶來的散熱挑戰(zhàn),,也是行業(yè)面臨的共性問題。
周天宇說,,美國芯片禁令一次次嚴峻,,從V系列到A系列,再到H系列,,加上國產(chǎn)芯片以華為為代表的昇騰910B,,一紙禁令就可能導(dǎo)致某款芯片斷貨,數(shù)據(jù)中心要能兼容不同類型,、不同品牌,、不同系列的芯片,不同芯片的采用直接影響服務(wù)器的功率密度,,而高功率密度呼喚更高效率的制冷方案,。
前述人士認為,國外要封鎖中國的AI算力,,只能是短期封鎖,,國內(nèi)一些集成電路廠商或者GPU廠商正在加速發(fā)展,大概需要1—2年的時間緩沖,,原來數(shù)據(jù)中心適應(yīng)的是國外GPU服務(wù)器,,現(xiàn)在開始考慮適應(yīng)國內(nèi)GPU和CPU服務(wù)器,機遇遠遠大于挑戰(zhàn),。
科華數(shù)據(jù)股份有限公司高級副總裁鄒建忠也表示,,機柜功率密度越大,,芯片液冷散熱的比重就會越高,,結(jié)合南北方的天氣因素,北方氣候條件比較好,,對液冷需求相對沒那么高,,南方則必須要有液冷,政策嚴格限制PUE在1.2到1.3左右,,傳統(tǒng)風(fēng)冷方案遠遠沒辦法滿足,,只要功率密度上升,液冷是必經(jīng)之路,。
大模型訓(xùn)練消耗了高昂的電力成本,,而推理對于算力的需求可能是訓(xùn)練的10倍。從電力成本的角度考量,,無論是面向訓(xùn)練還是推理,,行業(yè)內(nèi)形成了基本共識,支持大模型訓(xùn)練的智算中心,大家基本上傾向于到相對偏遠,、電費比較低的地方,,推理還是放在離城市比較近的區(qū)域,更多是環(huán)一線城市,。
韓玉解釋道,,云計算中心的業(yè)務(wù)本身就需要很短的數(shù)據(jù)交互和災(zāi)備切換,大量業(yè)務(wù)在做實時計算,,大模型所在的智算中心則不同,,當一家大模型廠商有上億用戶,用戶問的問題分類相同,,推理和計算需求大致相同的基本都算過了,,只需要很小的網(wǎng)絡(luò)接入的服務(wù)就可以,計算和推理可以適度解耦,,后臺專注大模型大需求算力,,前臺推理分布布局。
新型智算中心的建設(shè)邏輯
“如果今天我們想做新一代的智算中心,,一定不要想著‘穿舊鞋走新路’,,一定要有新的思維、新的方法來應(yīng)對智算中心的需求和發(fā)展,?!敝芴煊畹莱隽诵袠I(yè)的集體思考。
智算中心的建設(shè)牽一發(fā)而動全身,,十幾兆瓦的傳統(tǒng)數(shù)據(jù)中心,,已經(jīng)算大規(guī)模數(shù)據(jù)中心,有時需要一兩年,,甚至兩三年才放滿服務(wù)器,,但是今天在建的智算中心,十幾兆瓦是起步,,算力集群規(guī)模越來越大,,就算是七十兆瓦的智算中心,十幾萬張GPU就能吃光電力,。
傳統(tǒng)云計算中心承載的是同城兩點之間可漂移的云業(yè)務(wù),,今天的算力集群完全不同,很多數(shù)據(jù)中心已經(jīng)把網(wǎng)絡(luò)連到了推算一體,,單一數(shù)據(jù)中心體量特別大,。
據(jù)悉,美國純CPU的數(shù)據(jù)中心機柜在15千瓦左右,,GPU機柜平均在25千瓦,,國內(nèi)很多大廠單個機柜的密度能上升到70—100千瓦,風(fēng)液兼容是比較大的趨勢。隨著AIGC時代的到來,,美國一個數(shù)據(jù)中心園區(qū)能達到200兆瓦—500兆瓦,,單棟數(shù)據(jù)中心考慮到網(wǎng)絡(luò)、GPU,、光纖等因素,,數(shù)十兆瓦規(guī)模更多。
“我們遇到最新需求是要在一個園區(qū)里直接做一個5萬卡的大集群,、60兆瓦的一個單體,,跟云計算分成幾個樓和若干集群是完全不一樣的概念,結(jié)果就是單機功率很高,,單元區(qū)越來越大,。這時候優(yōu)先需求維度是算力效率怎么最大化和算力最佳性價比,其次才是優(yōu)化PUE,。解決方案就是堆高功率密度和集中空間,,結(jié)合最短光纖直連。所以智算時代,,基礎(chǔ)設(shè)施彈性就是最大的挑戰(zhàn),。”韓玉說,。
為了滿足高密度兼容彈性需求,,普洛斯智算中心的建筑模型在規(guī)劃階段,就把建筑外部空間到機柜內(nèi)部空間,,做成幾個模式組合,,比如說40個10千瓦或者10個40千瓦服務(wù)器,怎么在一個空間里承載,,在更短距離實現(xiàn)收斂,,同時兼容風(fēng)冷和液冷的不同制冷方式,冷水系統(tǒng)也可做到全預(yù)制化,,上下均可堆疊,,液冷機柜可以前布線也可以后布線,并在建筑上方預(yù)留出制冷空間,,解決風(fēng)冷或者液冷的擴展問題。
鄒建忠提到,,板式液冷和浸沒式液冷,,是行業(yè)不同的創(chuàng)新方向,取決于現(xiàn)階段客戶評估的收益,,過去的英偉達H800等芯片原生不支持液冷也就沒有大批應(yīng)用,,如果新機房長期功耗特別大,浸沒式液冷會更合適,但是如果從投資收益來看,,前期投資太高,,浸沒式液冷的投資收益并不好。
鈦媒體了解到,,也正是因為成本高等原因,行業(yè)普遍傾向于用板式液冷作為過渡,,目前20千瓦左右的機柜占主流,,板式液冷能夠較好滿足散熱需求,阿里云此前大力推進浸沒式液冷,,但從今年開始,,加大了對板式液冷的投入,根本原因也是行業(yè)沒有達成共識,,阿里云自身要付出的成本高昂,。
不過浸沒式液冷依舊在小規(guī)模試驗,例如,,字節(jié)跳動在東南亞就采用浸沒式液冷來保證服務(wù)器的穩(wěn)定性,,雖然單體功耗不高,但是東南亞氣候炎熱,,浸沒式液冷的投入產(chǎn)出比有所提高,,板式液冷和浸沒式液冷無所謂領(lǐng)先與否,還是要結(jié)合應(yīng)用場景具體選擇,。
數(shù)據(jù)中心產(chǎn)業(yè)已經(jīng)很久沒有如此熱鬧,,既有挑戰(zhàn)封鎖的躍躍欲試,也有迎接新技術(shù)浪潮的興奮感,,無可否認的是,,未來很長一段時間,數(shù)據(jù)中心將被大模型重塑,。
免責(zé)聲明:本文來自網(wǎng)絡(luò)收錄或投稿,,觀點僅代表作者本人,不代表芒果財經(jīng)贊同其觀點或證實其描述,,版權(quán)歸原作者所有,。轉(zhuǎn)載請注明出處:http://lequren.com/1084142.html
溫馨提示:投資有風(fēng)險,入市須謹慎,。本資訊不作為投資理財建議,。