文章來源:機(jī)器之心
近日,,CMU Catalyst 團(tuán)隊(duì)推出了一篇關(guān)于高效 LLM 推理的綜述,覆蓋了 300 余篇相關(guān)論文,,從 MLSys 的研究視角介紹了算法創(chuàng)新和系統(tǒng)優(yōu)化兩個(gè)方面的相關(guān)進(jìn)展,。
圖片來源:由無界 AI生成
在人工智能(AI)的快速發(fā)展背景下,,大語言模型(LLMs)憑借其在語言相關(guān)任務(wù)上的杰出表現(xiàn),已成為 AI 領(lǐng)域的重要推動(dòng)力,。然而,隨著這些模型在各種應(yīng)用中的普及,,它們的復(fù)雜性和規(guī)模也為其部署和服務(wù)帶來了前所未有的挑戰(zhàn),。LLM 部署和服務(wù)面臨著密集的計(jì)算強(qiáng)度和巨大的內(nèi)存消耗,特別是在要求低延遲和高吞吐量的場(chǎng)景中,,如何提高 LLM 服務(wù)效率,,降低其部署成本,已經(jīng)成為了當(dāng)前 AI 和系統(tǒng)領(lǐng)域亟需解決的問題,。
來自卡內(nèi)基梅隆大學(xué)的 Catalyst 團(tuán)隊(duì)在他們的最新綜述論文中,,從機(jī)器學(xué)習(xí)系統(tǒng)(MLSys)的研究視角出發(fā),詳細(xì)分析了從前沿的 LLM 推理算法到系統(tǒng)的革命性變革,,以應(yīng)對(duì)這些挑戰(zhàn),。該綜述旨在提供對(duì)高效 LLM 服務(wù)的當(dāng)前狀態(tài)和未來方向的全面理解,,為研究者和實(shí)踐者提供了寶貴的洞見,幫助他們克服有效 LLM 部署的障礙,,從而重塑 AI 的未來,。
論文鏈接:https://arxiv.org/abs/2312.15234
該論文的第一作者是卡內(nèi)基梅隆大學(xué)的 Xupeng Miao(苗旭鵬)博士后研究員,,合作者還包括 Tianqi Chen 和 Zhihao Jia 助理教授,。此外,其他學(xué)生作者也均來自于 CMU Catalyst Group 實(shí)驗(yàn)室,,該實(shí)驗(yàn)室由 Zhihao Jia 與 Tianqi Chen(陳天奇)在 CMU 共同主持,,致力于集成來自于機(jī)器學(xué)習(xí)算法、系統(tǒng),、硬件等多方面的優(yōu)化技術(shù),,構(gòu)造自動(dòng)化的機(jī)器學(xué)習(xí)系統(tǒng)。此前,,該實(shí)驗(yàn)室還推出了 SpecInfer, MLC-LLM, SpotServe [ASPLOS‘24] 等開源項(xiàng)目,,推進(jìn) LLM 大模型相關(guān)系統(tǒng)的研究和應(yīng)用。實(shí)驗(yàn)室主頁:https://catalyst.cs.cmu.edu,。
綜述概覽
該綜述系統(tǒng)地審視了現(xiàn)有 LLM 推理技術(shù),,覆蓋了 300 余篇相關(guān)論文,從算法創(chuàng)新和系統(tǒng)優(yōu)化兩個(gè)方面展開介紹,。論文以此為基礎(chǔ),,對(duì)現(xiàn)有工作設(shè)計(jì)了一套清晰且詳盡的分類法,突出了各種方法的優(yōu)勢(shì)和局限性,,逐類別搜集整理并介紹了每種方法的相關(guān)論文,。除此之外,論文還對(duì)當(dāng)前的主流 LLM 推理框架在系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)方面進(jìn)行了深入的對(duì)比和分析,。最后,,作者對(duì)未來如何繼續(xù)提高 LLM 推理效率進(jìn)行了展望,在技術(shù)層面提出了六大潛在發(fā)展方向,。
分類法
算法創(chuàng)新
這一節(jié)對(duì)提出的各種算法和技術(shù)進(jìn)行了全面分析,旨在改進(jìn)大規(guī)模 Transformer 模型推理的原生性能缺陷,,包括解碼算法,、架構(gòu)設(shè)計(jì)、和模型壓縮等等,。
解碼算法:在這一部分中,我們回顧了在圖 2 中展示的幾種 LLMs 推理優(yōu)化過程的新穎解碼算法,。這些算法旨在減少計(jì)算復(fù)雜度,,并提高語言模型推理在生成任務(wù)中的總體效率,,包括:
- 非自回歸解碼:現(xiàn)有 LLMs 的一個(gè)主要限制是默認(rèn)的自回歸解碼機(jī)制,它逐個(gè)順序生成輸出 token,。為解決這一問題,,一種代表性的工作方向是非自回歸解碼 [97, 104, 108,271],,即放棄自回歸生成范式,,打破單詞依賴并假設(shè)一定程度的條件獨(dú)立性,并行解碼輸出 token,。然而,,盡管這類方法解碼速度有所提高,但大多數(shù)非自回歸方法的輸出質(zhì)量仍不如自回歸方法可靠,。
- 投機(jī)式推理:另一類工作是通過投機(jī)執(zhí)行思想 [47] 實(shí)現(xiàn)并行解碼,。自回歸 LLM 推理過程中的每個(gè)解碼步驟都可以被視為帶有條件分支的程序執(zhí)行語句,即決定接下來生成哪個(gè) token,。投機(jī)式推理 [51, 155] 先使用較小的草稿模型進(jìn)行多步解碼預(yù)測(cè),,然后讓 LLM 同時(shí)驗(yàn)證這些預(yù)測(cè)以實(shí)現(xiàn)加速。然而,,將投機(jī)解碼應(yīng)用于 LLMs 時(shí)仍然存在一些實(shí)際挑戰(zhàn),,例如,如何使解碼預(yù)測(cè)足夠輕量且準(zhǔn)確,,以及如何借助 LLMs 實(shí)現(xiàn)高效的并行驗(yàn)證,。SpecInfer [177] 首次引入基于 tree-based speculative decoding 和 tree attention,并提出了一個(gè)低延遲 LLM 服務(wù)系統(tǒng)實(shí)現(xiàn),,該機(jī)制也被后續(xù)多個(gè)工作 [48, 118, 168, 185, 229, 236, 274, 310] 直接采用,。
- 提前退出:這類方法主要利用 LLMs 的深層多層結(jié)構(gòu),在中間層提前推出推理,,中間層輸出可以通過分類器轉(zhuǎn)化成輸出的 token,,從而降低推理開銷 [117, 147, 163, 167, 234, 272, 282, 291, 308],它們也被稱為自適應(yīng)計(jì)算 [68, 219],。
- 級(jí)聯(lián)推理:這類方法級(jí)聯(lián)了多個(gè)不同規(guī)模的 LLM 模型,,用于分別處理不同復(fù)雜度的推理請(qǐng)求,代表性工作包括 CascadeBERT [157] 和 FrugalGPT [53],。
架構(gòu)設(shè)計(jì):
- 配置縮小:直接縮小模型配置,。
- 注意力簡(jiǎn)化:最近出現(xiàn)了很多研究工作,,它們主要是將之前的長(zhǎng)序列高效注意力機(jī)制 [240] 應(yīng)用在 LLM 上,以縮短上下文,,減少 KV 緩存,,以及注意力復(fù)雜度,,同時(shí)略微降低解碼質(zhì)量(如滑動(dòng)窗口 [129, 299]、哈希 [198],、dilated [74],、動(dòng)態(tài)選擇等等)。表 1 中總結(jié)了一些近期的熱門方法和之前的工作之間的對(duì)應(yīng)關(guān)系,。
- 激活共享:這類方法主要是通過共享 attention 計(jì)算的中間激活來降低推理內(nèi)存開銷,代表性工作包括 MQA [220] 和 GQA [32],。
- 條件計(jì)算:這類方法主要是指稀疏專家混合模型(Sparse MoE),,比如最近大火的 Mistrial 7Bx8 模型就屬于此類。
- 循環(huán)單元:盡管 Transformer 已經(jīng)替代了 RNN 模型,,但考慮到注意力機(jī)制的二次復(fù)雜性,,人們始終未曾放棄將 recurrent unit 機(jī)制重新引入 LLM 的嘗試,比如 RWKV [200],、RetNet [235],,以及狀態(tài)空間模型 [91, 102, 103, 176] 等等。
模型壓縮:
- 知識(shí)蒸餾:這類方法以大型的教師模型為監(jiān)督,,訓(xùn)練一個(gè)小型的學(xué)生模型,。大多數(shù)之前的方法都在探索白盒蒸餾 [106, 133, 214, 233, 255],需要訪問整個(gè)教師模型的參數(shù),。由于基于 API 的 LLM 服務(wù)(如 ChatGPT)的出現(xiàn),,一些黑盒蒸餾模型吸引了很多關(guān)注 [238,59, 273, 201, 313],這些模型通常具有更少的模型參數(shù),,與原始 LLMs(如 GPT-4 [195])相比,,在各種下游任務(wù)上表現(xiàn)出了相當(dāng)?shù)男阅堋?/li>
- 網(wǎng)絡(luò)剪枝:過去幾年中,網(wǎng)絡(luò)剪枝方法 [180, 215, 215] 已被廣泛研究,,但并非所有方法都可以直接應(yīng)用于 LLMs,,需要考慮重新訓(xùn)練可能帶來的過高計(jì)算成本,以及評(píng)估剪枝是否可以在底層系統(tǒng)實(shí)現(xiàn)上取得效率提升,。大致上可以分為結(jié)構(gòu)化剪枝 [80, 149, 174, 216, 172] 和半結(jié)構(gòu)化稀疏化 [40, 87, 232, 251, 276] 等,。
系統(tǒng)優(yōu)化
本節(jié)研究 LLM 推理系統(tǒng)優(yōu)化技術(shù),以加速 LLM 推理,,而不改變 LLM 計(jì)算語義,。這一工作的目標(biāo)是通過改進(jìn)用于大型語言模型推理的底層系統(tǒng)和框架來提高系統(tǒng)效率,包括低比特量化,、并行計(jì)算,、內(nèi)存管理、請(qǐng)求調(diào)度、和內(nèi)核優(yōu)化等等,,詳細(xì)內(nèi)容可以參見論文原文,。
軟件框架
論文還對(duì)一些目前最先進(jìn)的基于 GPU 的開源 LLM 推理系統(tǒng)進(jìn)行了深入的分析,,并從多個(gè)方面總結(jié)了它們?cè)谠O(shè)計(jì)與實(shí)現(xiàn)傷的差異,。
未來方向
- 專用硬件加速器的發(fā)展:生成型 LLM 服務(wù)效率的顯著提升可能在很大程度上依賴于專用硬件加速器的發(fā)展和提升,尤其是軟硬協(xié)同設(shè)計(jì)方法,。例如,,讓內(nèi)存單元更加接近處理單元,或是針對(duì) LLM 算法數(shù)據(jù)流優(yōu)化芯片架構(gòu),,這些硬件優(yōu)化可以在很大程度上為 LLM 推理在軟件層面帶來便利和機(jī)會(huì),。
- 高效有效的解碼算法:開發(fā)更高效的解碼算法可以顯著提高服務(wù)效率。受對(duì)實(shí)時(shí)應(yīng)用更快生成速度的需求驅(qū)動(dòng),,一個(gè)有前途的方向是廣義的投機(jī)式推理(generalized speculative inference),,不僅會(huì)帶來顯著加速,同時(shí)保持相同的生成質(zhì)量,。正如 SpecInfer 中所指出的,,廣義的投機(jī)式推理中,用于生成草稿 token 的小模型可以被替換為任何快速的 token 生成方法,,比如自定義函數(shù),、召回方法、甚至早停機(jī)制和非自回歸解碼等等,。
- 長(zhǎng)上下文 / 序列場(chǎng)景優(yōu)化:隨著應(yīng)用場(chǎng)景變得更加復(fù)雜,,處理更長(zhǎng)的上下文或序列的需求不斷增長(zhǎng)。服務(wù)長(zhǎng)序列負(fù)載的 LLM 需要解決算法和系統(tǒng)兩方面的挑戰(zhàn),。在算法方面,,它們依然面臨長(zhǎng)度泛化失效問題,甚至可能出現(xiàn) “l(fā)oss in the middle” 的情況,。目前的解法主要是通過召回增強(qiáng),、序列壓縮和緩存來盡可能縮短序列長(zhǎng)度并保存相關(guān)信息。
- 探索替代基礎(chǔ)架構(gòu):盡管 Transformer 模型和自注意力機(jī)制目前主導(dǎo)著 LLM 領(lǐng)域,,但探索替代架構(gòu)是未來研究的一個(gè)有前景的方向,。例如,一些最新研究探索了無注意力方法,,使用純 MLP(多層感知機(jī))架構(gòu)來替代注意力機(jī)制,,可能會(huì)改變目前 LLM 推理優(yōu)化的格局。
- 在復(fù)雜環(huán)境中的部署探索:隨著 LLM 應(yīng)用的擴(kuò)展,,探索并優(yōu)化它們?cè)诟鞣N復(fù)雜環(huán)境中的部署成為一個(gè)關(guān)鍵的未來方向,。這一探索不僅限于傳統(tǒng)的基于云的部署,,還包括邊緣計(jì)算、混合計(jì)算(cloud+edge),、去中心化計(jì)算以及廉價(jià)的可搶占資源等。
- 特定需求的自動(dòng)適應(yīng):應(yīng)用特定需求的多樣性創(chuàng)造了一系列創(chuàng)新的 LLM 服務(wù)優(yōu)化機(jī)會(huì),,例如模型微調(diào)(parameter-efficient fine-tuning),、向量數(shù)據(jù)庫檢索、多模態(tài)負(fù)載等等,。這些獨(dú)特的挑戰(zhàn)也要求將 LLM 服務(wù)技術(shù)自動(dòng)且順利地集成到現(xiàn)有 IT 基礎(chǔ)設(shè)施中,,將優(yōu)化空間擴(kuò)展到整個(gè) LLM 生命周期。
總結(jié)
總的來說,,該綜述不僅是對(duì)當(dāng)前 LLM 服務(wù)優(yōu)化研究的全面概述,,也為未來在這一領(lǐng)域的探索和發(fā)展指明了方向。通過深入了解這些先進(jìn)的解決方案,,研究者和實(shí)踐者可以更好地理解和應(yīng)對(duì)在實(shí)際應(yīng)用中部署大型語言模型時(shí)面臨的挑戰(zhàn),。
免責(zé)聲明:本文來自網(wǎng)絡(luò)收錄或投稿,觀點(diǎn)僅代表作者本人,,不代表芒果財(cái)經(jīng)贊同其觀點(diǎn)或證實(shí)其描述,,版權(quán)歸原作者所有。轉(zhuǎn)載請(qǐng)注明出處:http://lequren.com/1087140.html
溫馨提示:投資有風(fēng)險(xiǎn),,入市須謹(jǐn)慎,。本資訊不作為投資理財(cái)建議。