1. 算力荒:大模型繞不開的大難題自從ChatGPT引爆大模型發(fā)展熱潮,,眾多科技企業(yè)前赴后繼,,紛紛投入大模型研發(fā)中。然而,,這波創(chuàng)業(yè)浪潮中鮮有小微初創(chuàng)企業(yè)的身影,,甚至一些堪稱“準(zhǔn)獨(dú)角獸”規(guī)模的企業(yè),也只集中在大模型的下游應(yīng)用創(chuàng)新或微調(diào)中,,不具備獨(dú)立的大模型創(chuàng)新能力,。與海外層出不窮的新成果相比,我國(guó)這波創(chuàng)新浪潮遠(yuǎn)不夠猛烈,。而與該現(xiàn)象相對(duì)的是:大模型背后的神經(jīng)網(wǎng)絡(luò)技術(shù)其實(shí)早已頗為普及,;國(guó)內(nèi)擁有眾多專業(yè)人才,有能力獨(dú)立完成模型的設(shè)計(jì),、搭建和訓(xùn)練,。由此,一類觀點(diǎn)認(rèn)為:大模型創(chuàng)新的主要門檻并不在算法與技術(shù),,而在于訓(xùn)練一個(gè)大模型,、完成思路驗(yàn)證和檢驗(yàn)所需的超大規(guī)模算力。算力,,才是這條賽道最高的墻,。讓我們用數(shù)字更直觀地理解這一困難:大模型的海量參數(shù)絕非單臺(tái)計(jì)算設(shè)備所能容納,集群是大模型訓(xùn)練的標(biāo)配,。GPT的訓(xùn)練集群規(guī)模為25000張A100,,按官方售價(jià)折算已達(dá)數(shù)億美金。這遠(yuǎn)非絕大多數(shù)創(chuàng)新企業(yè)所能承擔(dān),。由于上萬個(gè)計(jì)算單元間的數(shù)據(jù)同步效率會(huì)給大模型訓(xùn)練帶來重要影響,,因此對(duì)單數(shù)據(jù)中心建設(shè)規(guī)模的要求也達(dá)到新高,連一些專業(yè)服務(wù)商都難以獨(dú)立提供可滿足大模型訓(xùn)練需求的單一計(jì)算集群,。而我國(guó)當(dāng)下還面臨著愈發(fā)嚴(yán)苛的制裁:海外硬件資源越發(fā)緊缺,,國(guó)產(chǎn)替代品依然存在較大性能差距。解決算力不足,,成為中國(guó)人工智能創(chuàng)新發(fā)展的核心問題,。2. 面向大模型的分布式方法論當(dāng)單點(diǎn)能力不足成為主要瓶頸后,大家總會(huì)去思考集群化,、分布式的解決之道,。從“東數(shù)西算”工程和“全國(guó)一體化算力網(wǎng)絡(luò)”,到云邊端協(xié)同一體化計(jì)算框架,,再到群智計(jì)算以及Web3激勵(lì)式計(jì)算聚合等,。我們總能窺見“聚少成多”的底層邏輯,。然而,相比于傳統(tǒng)計(jì)算任務(wù),,讓分布式系統(tǒng)適配于大模型規(guī)模的神經(jīng)網(wǎng)絡(luò)訓(xùn)練卻絕非一件簡(jiǎn)單的事,。尤其是把分布式協(xié)作的范圍從單個(gè)集群內(nèi)部的局域網(wǎng)內(nèi)協(xié)作,放大到城域網(wǎng),、廣域網(wǎng)范圍下多個(gè)中遠(yuǎn)距離集群間協(xié)作,,所產(chǎn)生的挑戰(zhàn)將更加復(fù)雜。接下來我們將從與分布式訓(xùn)練的兩個(gè)核心部分入手,,介紹模型的分布式訓(xùn)練,,對(duì)這一挑戰(zhàn)建立認(rèn)識(shí):2.1 分布式訓(xùn)練的前提:神經(jīng)網(wǎng)絡(luò)模型的分割與并行化訓(xùn)練神經(jīng)網(wǎng)絡(luò)訓(xùn)練有前后依賴、相互耦合的特性,,導(dǎo)致其并行化存在天然困難,。以一個(gè)最基本的三層神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)為例,其訓(xùn)練流程通常包含前向推理和反向傳播兩個(gè)步驟:在前向推理過程中,,數(shù)據(jù)由輸入層輸入,,在層間逐級(jí)計(jì)算傳遞,并在最后由輸出層輸出結(jié)果,。隨后,,我們計(jì)算推理得到的結(jié)果與真實(shí)結(jié)果之間的誤差,由輸出層將該誤差反向逐級(jí)傳播計(jì)算,,直到輸入層,。由此,我們可以得到每一層中每個(gè)參數(shù)的梯度,,并由優(yōu)化器根據(jù)梯度更新參數(shù),。在這一過程中,每一層的計(jì)算都依賴于其前一層(或后一層)的數(shù)據(jù),。圖1 經(jīng)典的神經(jīng)網(wǎng)絡(luò)訓(xùn)練流程在這樣的架構(gòu)下,,“模型平行方法”(Model parallelism)與“數(shù)據(jù)平行方法”(Data parallelism)是當(dāng)下兩種分布式訓(xùn)練的主要思路:2.1.1 模型平行方法該類方法將神經(jīng)網(wǎng)絡(luò)模型分割,,由不同計(jì)算節(jié)點(diǎn)負(fù)責(zé)不同部分的計(jì)算,,每個(gè)計(jì)算節(jié)點(diǎn)擁有不同的參數(shù)或模型層。通過這種方法,,單個(gè)節(jié)點(diǎn)的參數(shù)量減少,。然而由于神經(jīng)網(wǎng)絡(luò)各層次間前后依賴的特性,模型平行法有時(shí)需要計(jì)算節(jié)點(diǎn)的“串行化”,,因此相關(guān)研究往往著眼于“流水線(Pipeline)”的搭建,,把切分后的模型順序傳送給流水線上的設(shè)備進(jìn)行計(jì)算,通過將模型切分為粒度足夠小的分片以降低流水線上計(jì)算設(shè)備的閑置率,。
圖2 模型平行方法,、其串行化特性以及流水線搭建案例詳細(xì)而言,模型平行訓(xùn)練一般包括以下幾個(gè)部分:模型分割、訓(xùn)練流程調(diào)度優(yōu)化,、流水線搭建等,。為了將訓(xùn)練任務(wù)分散到不同計(jì)算設(shè)備的同時(shí)避免過于頻繁的數(shù)據(jù)交換,需要找到適合神經(jīng)網(wǎng)絡(luò)架構(gòu)的模型分割方法,,當(dāng)前的主流方法一般為:層間分割與層內(nèi)分割,。層間分割是最直觀的模型分割方式:由于神經(jīng)網(wǎng)絡(luò)模型自身是分層的,可以天然地由不同設(shè)備分別負(fù)責(zé)整個(gè)神經(jīng)網(wǎng)絡(luò)中一層或多層的訓(xùn)練,。層間分割下,,不同計(jì)算機(jī)之間需要交換前向推理時(shí)的激活數(shù)據(jù),以及反向傳播時(shí)的梯度數(shù)據(jù),。層內(nèi)分割會(huì)對(duì)神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)進(jìn)行進(jìn)一步地細(xì)分,。不同計(jì)算設(shè)備分別負(fù)責(zé)神經(jīng)網(wǎng)絡(luò)一層或多層內(nèi)的部分神經(jīng)元激活函數(shù)計(jì)算、以及部分矩陣(張量)運(yùn)算,。在層內(nèi)分割下,,前向推理時(shí),負(fù)責(zé)某一層不同部分的不同計(jì)算設(shè)備,,基于其所訓(xùn)練的神經(jīng)網(wǎng)絡(luò)架構(gòu)的具體特性,,獲得前一層的全部或部分激活數(shù)據(jù),并提供給下一層的全部或部分計(jì)算設(shè)備,。反向傳播亦與之相類似,。兩種模型分割方式都在模型平行訓(xùn)練的實(shí)踐中有著廣泛的運(yùn)用。二者也可以同時(shí)運(yùn)用,。而性能表現(xiàn)取決于所訓(xùn)練的神經(jīng)網(wǎng)絡(luò)具體架構(gòu),。模型分割之外,還需要均衡各計(jì)算設(shè)備所負(fù)責(zé)的工作,,避免單臺(tái)設(shè)備成為整個(gè)訓(xùn)練流程的計(jì)算瓶頸,。因此還需要采用優(yōu)化方法,針對(duì)最適合現(xiàn)有神經(jīng)網(wǎng)絡(luò)和設(shè)備的模型分割及任務(wù)分配方式進(jìn)行優(yōu)化問題建模求解,,找到最大化模型訓(xùn)練效率的優(yōu)化方法,。神經(jīng)網(wǎng)絡(luò)前后依賴的特性和串行化的訓(xùn)練流程,難以實(shí)現(xiàn)真正的并行化,,所以一般還需要通過不斷細(xì)分計(jì)算粒度并搭建“流水線”的方法,,盡量提高設(shè)備的占用率,降低設(shè)備空閑時(shí)間,。
圖3 層內(nèi)分割與層間分割的調(diào)度優(yōu)化從整體效益看:當(dāng)模型平行方法用于大規(guī)模分布式算力的協(xié)同任務(wù)時(shí),,不利于最大化發(fā)揮規(guī)模優(yōu)勢(shì)給效率帶來的潛在提升機(jī)會(huì)。此外,,由于各個(gè)節(jié)點(diǎn)均存儲(chǔ)有全量訓(xùn)練數(shù)據(jù),,這不利于數(shù)據(jù)隱私的保護(hù),。2.1.2 數(shù)據(jù)平行方法在采用數(shù)據(jù)平行方法進(jìn)行模型分布式訓(xùn)練過程中,相同的模型參數(shù)被復(fù)制到各個(gè)計(jì)算節(jié)點(diǎn)上,。在單次迭代中,,每個(gè)計(jì)算節(jié)點(diǎn)基于各自不同的小批量數(shù)據(jù)計(jì)算局部梯度或模型更新。然后,,節(jié)點(diǎn)間交換結(jié)果,,執(zhí)行聚合和廣播操作,以獲得新的全局模型,。
圖4 經(jīng)典的數(shù)據(jù)平行方法訓(xùn)練流程數(shù)據(jù)平行訓(xùn)練有多種不同的模式:完全同步模式,、適用于異構(gòu)設(shè)備的部分同步模式、聚合參數(shù)而不是梯度的本地隨機(jī)梯度下降模式,、由參數(shù)服務(wù)器異步聚合梯度更新參數(shù)的完全異步模式,、不要求參數(shù)完全同步的謠傳通信模式等。完全同步模式的一個(gè)訓(xùn)練循環(huán)可以被分為如下幾個(gè)串行的步驟:數(shù)據(jù)加載,、前向計(jì)算,、反向傳播、梯度聚合,、模型更新,。其中,僅有梯度聚合步驟需要計(jì)算機(jī)之間通信,,以保證全局模型的一致性,。由于該步驟前、后都是計(jì)算負(fù)擔(dān)較重的環(huán)節(jié),,當(dāng)網(wǎng)絡(luò)中節(jié)點(diǎn)計(jì)算能力不一致時(shí),,計(jì)算較快的節(jié)點(diǎn)必須等待較慢的節(jié)點(diǎn)完成計(jì)算才能開始同步,完成梯度聚合,。在小規(guī)模的,、同構(gòu)設(shè)備的網(wǎng)絡(luò)中,使用完全同步模式帶來的損失較小,,當(dāng)網(wǎng)絡(luò)規(guī)模擴(kuò)大,,更多樣化的設(shè)備加入網(wǎng)絡(luò)中后,其訓(xùn)練效率將受到較慢設(shè)備的制約,。部分同步模式并不要求所有設(shè)備每一個(gè)訓(xùn)練循環(huán)的嚴(yán)格同步,。在兩次梯度聚合的間隔內(nèi),,其允許計(jì)算較快的設(shè)備完成多次訓(xùn)練循環(huán),。但為了保持模型的一致以保證收斂,部分同步模式限制了較快設(shè)備所允許的循環(huán)次數(shù),。通過合適的參數(shù)設(shè)置,,部分同步模式可以有效減少快速設(shè)備的空閑時(shí)間,,提高收斂速率。本地隨機(jī)梯度下降模式更改了設(shè)備間需要同步的步驟:其取消了梯度聚合步驟,,而是在模型更新后聚合模型參數(shù),。這一方法又被稱為“模型平均”法。各設(shè)備可以將本地的模型訓(xùn)練多個(gè)循環(huán)后再完成平均,,以降低通信頻率,。然而,過多地減少通信頻率又會(huì)影響模型收斂率,。因此,,找到通訊消耗與收斂率之間的平衡點(diǎn)成為當(dāng)前研究的重要方向。完全異步模式將模型更新與訓(xùn)練流程完全分開:其允許在僅從一部分設(shè)備得到的梯度的基礎(chǔ)上更新模型,,而無需等待所有設(shè)備完成訓(xùn)練循環(huán),。具體而言,該模式使用一個(gè)獨(dú)立的參數(shù)服務(wù)器,,該服務(wù)器在得到部分設(shè)備計(jì)算得到的梯度后即更新整個(gè)模型,。該方法可以完全避免慢速設(shè)備的短板效應(yīng),但收斂率存在一定損失,。謠傳通信模式是一種新興的數(shù)據(jù)平行訓(xùn)練方法:其并不需要維護(hù)一個(gè)完全相同的全局模型,,即不需要參數(shù)的完全同步。具體而言,,一臺(tái)設(shè)備僅需要與部分設(shè)備通信,,完成部分的參數(shù)同步。該方法的一大難點(diǎn)在于當(dāng)局部參數(shù)不一致時(shí)如何保證最終模型的一致性,,以及如何在部分更新的情況下實(shí)現(xiàn)模型的有效性,。然而,這一方法與分布式,、移動(dòng)性網(wǎng)絡(luò)具有天然的高匹配度,。
圖5 不同模型平行訓(xùn)練模式的訓(xùn)練流程對(duì)比直觀上,數(shù)據(jù)平行方法可以真正發(fā)揮分布式算力的并行化優(yōu)勢(shì),,該方法也是當(dāng)下并行訓(xùn)練中更常見的方案,。但其也有缺點(diǎn):模型的每個(gè)可訓(xùn)練參數(shù)都對(duì)應(yīng)一個(gè)梯度值,數(shù)據(jù)平行訓(xùn)練中每次梯度聚合所需傳輸?shù)臄?shù)據(jù)量都與模型的參數(shù)量相當(dāng),。對(duì)于參數(shù)量較大的大模型而言,,這一高頻多次的傳輸帶來了巨大的通信開銷。2.1.3 混合平行方法在除了模型平行和數(shù)據(jù)平行方法以外,,從技術(shù)實(shí)現(xiàn)上,,目前還存在混合平行方法。這一類方法結(jié)合了數(shù)據(jù)平行訓(xùn)練的規(guī)?;瘍?yōu)勢(shì)和模型平行訓(xùn)練的低帶寬消耗,。一些研究將混合了層間分割,、層內(nèi)分割的模型平行訓(xùn)練以及數(shù)據(jù)平行訓(xùn)練方式稱為3D平行訓(xùn)練。但相對(duì)應(yīng)地,,對(duì)混合平行訓(xùn)練的優(yōu)化難度也更高,。
圖6 混合了層間分割、層內(nèi)分割的模型平行訓(xùn)練以及數(shù)據(jù)平行訓(xùn)練的3D平行訓(xùn)練以上,,我們對(duì)模型分拆與并行化訓(xùn)練進(jìn)行了介紹,。然而無論采用何種并行方法,在分布式訓(xùn)練場(chǎng)景中,,都必須首先解決好海量數(shù)據(jù)在不同計(jì)算節(jié)點(diǎn)間的高速同步與傳輸,。通信效率是分布式訓(xùn)練中的核心瓶頸,而當(dāng)面對(duì)大模型時(shí),,這一問題則更加突出,。2.2 分布式訓(xùn)練的保障:從本地集群到大范圍跨域的數(shù)據(jù)同步如前所述,無論采用何種并行方法,,在分布式訓(xùn)練場(chǎng)景中,,都必須首先解決好海量數(shù)據(jù)在不同計(jì)算節(jié)點(diǎn)間的高速同步與傳輸。圍繞當(dāng)前大模型的分布式訓(xùn)練的兩種核心思想(模型平行和數(shù)據(jù)平行),,多種支撐數(shù)據(jù)同步的技術(shù)逐漸引起了學(xué)界與業(yè)界的關(guān)注,,接下來,我們從本地集群同步擴(kuò)展到跨域同步,,介紹分布式訓(xùn)練涉及的數(shù)據(jù)同步及其相關(guān)的通信與調(diào)度技術(shù):2.2.1 遠(yuǎn)程直接內(nèi)存訪問技術(shù)(RDMA)分布式訓(xùn)練的節(jié)點(diǎn)間需要頻繁交換模型參數(shù),、梯度等大量數(shù)據(jù)。這些數(shù)據(jù)的傳輸需要操作系統(tǒng)和協(xié)議棧的統(tǒng)籌調(diào)度,,從而給數(shù)據(jù)傳輸帶來額外的延遲,,影響并行化訓(xùn)練效率。此外,,由于這些數(shù)據(jù)均存儲(chǔ)于內(nèi)存(或顯存)中,,向外傳輸前需要先經(jīng)處理器和總線傳輸給網(wǎng)絡(luò)設(shè)備,在給處理器和總線增加了巨大負(fù)擔(dān)之外,,也帶來了額外的時(shí)間開銷,。針對(duì)這些開銷,遠(yuǎn)程直接內(nèi)存訪問(RDMA)技術(shù)誕生了,。RDMA技術(shù)使用專用硬件讀寫內(nèi)存數(shù)據(jù)并直接與外部通信,,將數(shù)據(jù)從本地系統(tǒng)快速移動(dòng)到遠(yuǎn)程系統(tǒng)的內(nèi)存中,而不對(duì)操作系統(tǒng),、CPU增加任何負(fù)載,。
圖7 RDMA工作原理目前,RDMA有三種協(xié)議:InfiniBand、RoCE,、iWARP。InfiniBand是一種專為RDMA量身定做的網(wǎng)絡(luò)協(xié)議,,可以從硬件級(jí)別上保證數(shù)據(jù)傳輸?shù)目煽啃?。InfiniBand與TCP/IP不兼容,從鏈路層到傳輸控制層都需要專用實(shí)現(xiàn),。RoCE允許在以太網(wǎng)上執(zhí)行RDMA協(xié)議(可分為RoCEv1和RoCEv2),。RoCE是為了滿足更大市場(chǎng)需求而設(shè)計(jì)出來的低成本InfiniBand網(wǎng)絡(luò)。iWARP 允許在TCP上執(zhí)行RDMA協(xié)議,,它能夠運(yùn)行在標(biāo)準(zhǔn)TCP/IP網(wǎng)絡(luò)中,,對(duì)硬件的要求也相對(duì)簡(jiǎn)單(只需iWARP網(wǎng)卡),但缺點(diǎn)是性能比RoCE更差,。
圖8 RDMA協(xié)議類型人工智能的分布式訓(xùn)練讓RDMA技術(shù)得到越來越廣泛的關(guān)注,,而對(duì)于大規(guī)模,、大跨度集群的需求,使基于RDMA的大規(guī)模組網(wǎng)技術(shù)也日益得到重視,。目前,,各界圍繞大規(guī)模RDMA組網(wǎng)架構(gòu)、關(guān)鍵算法(如擁塞控制,、負(fù)載均衡),、網(wǎng)絡(luò)虛擬化、與主流網(wǎng)絡(luò)的融合(如降低無損網(wǎng)絡(luò)依賴性)等方向已開展了系列深入研究,,其中不乏微軟,、谷歌、華為,、阿里等巨頭,。由于我國(guó)現(xiàn)有的單個(gè)集群能力往往不足以滿足大模型需求,,跨集群協(xié)作的需求將使兼容于TCP/IP網(wǎng)絡(luò)的iWARP等協(xié)議受到進(jìn)一步重視。2.2.2集合通信分布式訓(xùn)練任務(wù)間完成數(shù)據(jù)傳輸調(diào)度的方式一般可以分為點(diǎn)對(duì)點(diǎn)(Point-to-Point Communication)和集合通信(Collective Communication),。點(diǎn)對(duì)點(diǎn)通信是在兩個(gè)節(jié)點(diǎn)之間進(jìn)行通信和數(shù)據(jù)同步,。集合通信是指在一組節(jié)點(diǎn)內(nèi)進(jìn)行通信完成數(shù)據(jù)同步的方式。計(jì)算集群中海量數(shù)據(jù)的同步需要采用集合通信方法,。集合通信一般包含多個(gè)Sender和Receiver,,通信類型包括:Broadcast、Gather,、All-Gather,、Scatter、Reduce,、All-Reduce,、Reduce-Scatter、All-to-All等,。以數(shù)據(jù)平行訓(xùn)練為例,,去中心化的梯度聚合需要每臺(tái)計(jì)算機(jī)獲得所有計(jì)算機(jī)計(jì)算得到的梯度,這一操作即需要All-Reduce,,即將所有設(shè)備(All)上的信息歸納(Reduce)到所有設(shè)備(All)上,。顯然,直接的All-Reduce將帶來極大的通信資源浪費(fèi),,因?yàn)橥环輸?shù)據(jù)可能會(huì)被冗余傳輸多次,。因此,許多優(yōu)化版All-Reduce算法被提出,,如環(huán)狀A(yù)ll-Reduce,、基于二叉樹的All-Reduce等,這些算法均能極大降低All-Reduce的帶寬和延遲,。
圖9 All-Reduce我們以環(huán)狀A(yù)ll-Reduce為例說明集合通信優(yōu)化調(diào)度的思路:基于環(huán)狀A(yù)ll-Reduce,,每臺(tái)設(shè)備僅需與另外兩臺(tái)設(shè)備通信,分為Scatter-Reduce與All-Gather兩個(gè)步驟,。首先對(duì)相鄰設(shè)備完成多次Scatter-Reduce操作,,在每臺(tái)設(shè)備分別獲取得到聚合后的完整數(shù)據(jù)中一部分。隨后,,每臺(tái)設(shè)備再對(duì)其相鄰設(shè)備完成多次All-Gather操作,,在每臺(tái)設(shè)備中補(bǔ)全完整數(shù)據(jù)。環(huán)狀A(yù)ll-Reduce不僅能降低帶寬和延遲,,還可以簡(jiǎn)化網(wǎng)絡(luò)的拓?fù)浣Y(jié)構(gòu),,降低網(wǎng)絡(luò)的搭建成本。當(dāng)數(shù)據(jù)同步調(diào)度擴(kuò)展到廣域網(wǎng)范圍時(shí),現(xiàn)有集合通信思路將面臨一些新的問題,,例如重新評(píng)估各類算法在新場(chǎng)景下的有效性及其效率評(píng)測(cè)方法,,重新建模計(jì)算節(jié)點(diǎn)的鄰近關(guān)系等。
圖10 Scatter-Reduce的第一與最后一次循環(huán)
圖11 All-Gather的第一與最后一次循環(huán)2.2.3 算力網(wǎng)絡(luò)算力網(wǎng)絡(luò)是一種網(wǎng)絡(luò)前沿技術(shù),,其目標(biāo)是構(gòu)建連接算力的網(wǎng)絡(luò),,使算力像水電一樣高效流動(dòng)。傳統(tǒng)的網(wǎng)絡(luò)設(shè)施僅僅承擔(dān)信息傳遞的基礎(chǔ)功能,,是連接用戶與計(jì)算資源的“數(shù)據(jù)通道”,;而算力網(wǎng)絡(luò)可以構(gòu)建數(shù)據(jù),、計(jì)算資源,、網(wǎng)絡(luò)的一體化服務(wù),使計(jì)算需求方在網(wǎng)絡(luò)的幫助下,,高效感知并調(diào)用遠(yuǎn)距離的算力資源,,打破自身單點(diǎn)計(jì)算能力的局限。算力網(wǎng)絡(luò)能夠連接大范圍內(nèi)的算力集群實(shí)現(xiàn)計(jì)算任務(wù)協(xié)同,,目前被視為支撐多集群間大模型跨域分布式訓(xùn)練的網(wǎng)絡(luò)基礎(chǔ)設(shè)施層最優(yōu)解,。當(dāng)前,算力網(wǎng)絡(luò)的發(fā)展方興未艾,,體系架構(gòu)及諸多關(guān)鍵技術(shù)還未形成定論,,產(chǎn)業(yè)及標(biāo)準(zhǔn)化工作也在不斷推進(jìn)中。國(guó)際電信聯(lián)盟(ITU)于2021年9月正式發(fā)布的算力網(wǎng)絡(luò)框架結(jié)構(gòu)標(biāo)準(zhǔn)(ITU-T Y.2501:Computing Power Network–Framework and Architecture)中提出,,算力網(wǎng)絡(luò)主要由四層構(gòu)成,,分別為算力網(wǎng)絡(luò)資源層、算力網(wǎng)絡(luò)控制層,、算力網(wǎng)絡(luò)服務(wù)層,、算力網(wǎng)絡(luò)編排管理層。
圖12 算力網(wǎng)絡(luò)功能架構(gòu)算力網(wǎng)絡(luò)資源層對(duì)算力服務(wù)方和網(wǎng)絡(luò)運(yùn)營(yíng)方提供的各類計(jì)算資源進(jìn)行了抽象,,主要涉及云計(jì)算節(jié)點(diǎn),、邊緣計(jì)算節(jié)點(diǎn)等各類設(shè)備資源,例如各類服務(wù)器上的計(jì)算資源和部署的服務(wù)資源,、交換機(jī)和路由器上的網(wǎng)絡(luò)資源,、存儲(chǔ)設(shè)備上的存儲(chǔ)資源。算力網(wǎng)絡(luò)控制層從算力網(wǎng)絡(luò)資源層收集資源信息,,并將資源信息發(fā)送給服務(wù)層以便其處理相關(guān)算力服務(wù)請(qǐng)求,。當(dāng)接收到算力網(wǎng)絡(luò)服務(wù)層的服務(wù)請(qǐng)求處理結(jié)果后,算力網(wǎng)絡(luò)控制層將根據(jù)資源狀態(tài)信息生成資源分配策略,,并通知資源供應(yīng)商占用相關(guān)資源,、更新資源狀態(tài)信息。此外,根據(jù)資源分配策略獲取網(wǎng)絡(luò)連接需求,,調(diào)度相關(guān)網(wǎng)絡(luò)資源,,建立對(duì)應(yīng)網(wǎng)絡(luò)鏈路。算力網(wǎng)絡(luò)服務(wù)層主要用于實(shí)現(xiàn)具體算力服務(wù)功能,。算力網(wǎng)絡(luò)服務(wù)層通過算力網(wǎng)絡(luò)控制層獲取各種算力資源信息和網(wǎng)絡(luò)資源信息,,根據(jù)算力服務(wù)請(qǐng)求和資源信息,提供可選的資源和對(duì)應(yīng)價(jià)格,,并支持算力服務(wù)用戶和各類資源供應(yīng)商完成交易過程,。算力網(wǎng)絡(luò)編排管理層能夠?yàn)樗懔W(wǎng)絡(luò)實(shí)現(xiàn)編排、安全,、建模和運(yùn)維管理功能,。算力編排模塊負(fù)責(zé)對(duì)算力網(wǎng)絡(luò)中各類資源和服務(wù)進(jìn)行編排管理。算力網(wǎng)絡(luò)安全模塊負(fù)責(zé)采用安全相關(guān)的控制手段消除算力網(wǎng)絡(luò)環(huán)境中的各種威脅隱患,。算力建模模塊用于根據(jù)各種服務(wù)對(duì)算力的狀態(tài)及變化規(guī)律進(jìn)行定量化描述,。算力運(yùn)維管理模塊能夠負(fù)責(zé)算力網(wǎng)絡(luò)的各種運(yùn)行操作管理及維護(hù)?;谏鲜龈鲗拥哪芰χ?,算力網(wǎng)絡(luò)完成對(duì)算力資源的抽象、標(biāo)識(shí),、路由,、調(diào)度等,實(shí)現(xiàn)遠(yuǎn)距離計(jì)算供需間的高效匹配,。大模型分布式訓(xùn)練作為一項(xiàng)整體的計(jì)算任務(wù),,在經(jīng)過并行化處理、數(shù)據(jù)同步調(diào)度決策后,,形成多個(gè)更小顆粒度的計(jì)算子任務(wù),,由算力網(wǎng)絡(luò)依據(jù)所需的QoS,在分布式的算力集群間完成統(tǒng)籌調(diào)配,。3. 總結(jié)與展望單點(diǎn)算力的不足,,促使學(xué)術(shù)界和工業(yè)界投入更多的視線到分布式訓(xùn)練技術(shù),希望基于廣域內(nèi)分散的多個(gè)算力集群,,開展協(xié)同訓(xùn)練,。一方面,這是一場(chǎng)以空間換時(shí)間的戰(zhàn)斗:通過投入更多的集群,,給算力單點(diǎn)的能力提升爭(zhēng)取時(shí)間,。另一方面,這也許是中西部算力產(chǎn)業(yè)轉(zhuǎn)型升級(jí)的大好機(jī)會(huì):長(zhǎng)期以來,,雖然中西部算力集群有成本更低,、綠電占比更高等優(yōu)勢(shì),,但也存在業(yè)務(wù)需求單一、不足等問題,,當(dāng)人工智能需求爆發(fā)后,,又出現(xiàn)因單點(diǎn)建設(shè)規(guī)模不足難以提供服務(wù)等困難。然而,,當(dāng)分布式訓(xùn)練技術(shù)不斷成熟后,,在算力網(wǎng)絡(luò)高效調(diào)度的整體統(tǒng)籌下,分散的小規(guī)模數(shù)據(jù)中心將有更多機(jī)會(huì)參與到巨大的人工智能需求所釋放的產(chǎn)業(yè)機(jī)遇里,,這可能是中西部城市通過并不高的投入就能深度參與到人工智能發(fā)展浪潮中的好機(jī)會(huì),。大模型是一種超大規(guī)模的神經(jīng)網(wǎng)絡(luò)模型。傳統(tǒng)神經(jīng)網(wǎng)絡(luò)分布式訓(xùn)練技術(shù)長(zhǎng)期以來更多局限于單集群內(nèi),,跨域場(chǎng)景較少,。讓大模型在大范圍多集群間完成分布式訓(xùn)練,一方面,,將會(huì)在模型拆分等計(jì)算任務(wù)上增加更多新挑戰(zhàn),;另一方面,,在廣域網(wǎng)完成海量訓(xùn)練數(shù)據(jù)的同步,,所涉及的相關(guān)網(wǎng)絡(luò)及調(diào)度問題也將是一個(gè)新的研究場(chǎng)景。相關(guān)研究會(huì)逐步更新現(xiàn)有技術(shù)棧,,乃至形成全新的技術(shù)棧,。而當(dāng)“星火·鏈網(wǎng)”等區(qū)塊鏈平臺(tái)通過提供分布式激勵(lì)保障和可信計(jì)算環(huán)境等基礎(chǔ)條件,,也更加深入地融進(jìn)算力網(wǎng)絡(luò),、人工智能分布式訓(xùn)練等新型計(jì)算場(chǎng)景,全新且巨大的產(chǎn)業(yè)機(jī)遇更會(huì)應(yīng)運(yùn)而生,。本文作者:信通院泰爾英福iF-Labs 焦臻楨,、張曉普同濟(jì)大學(xué)電信學(xué)院 唐志恒、李莉
免責(zé)聲明:本文來自網(wǎng)絡(luò)收錄或投稿,,觀點(diǎn)僅代表作者本人,,不代表芒果財(cái)經(jīng)贊同其觀點(diǎn)或證實(shí)其描述,,版權(quán)歸原作者所有。轉(zhuǎn)載請(qǐng)注明出處:http://lequren.com/1084427.html
溫馨提示:投資有風(fēng)險(xiǎn),,入市須謹(jǐn)慎,。本資訊不作為投資理財(cái)建議。