日本老熟妇乱子伦视频,苍井空第一次部av

文章來源：機(jī)器之心

近日,，CMU Catalyst 團(tuán)隊(duì)推出了一篇關(guān)于高效 LLM 推理的綜述，覆蓋了 300 余篇相關(guān)論文,，從 MLSys 的研究視角介紹了算法創(chuàng)新和系統(tǒng)優(yōu)化兩個(gè)方面的相關(guān)進(jìn)展,。

圖片來源：由無界 AI生成

在人工智能（AI）的快速發(fā)展背景下,，大語言模型（LLMs）憑借其在語言相關(guān)任務(wù)上的杰出表現(xiàn)，已成為 AI 領(lǐng)域的重要推動(dòng)力,。然而,，隨著這些模型在各種應(yīng)用中的普及，它們的復(fù)雜性和規(guī)模也為其部署和服務(wù)帶來了前所未有的挑戰(zhàn),。LLM 部署和服務(wù)面臨著密集的計(jì)算強(qiáng)度和巨大的內(nèi)存消耗,，特別是在要求低延遲和高吞吐量的場(chǎng)景中，如何提高 LLM 服務(wù)效率,，降低其部署成本,，已經(jīng)成為了當(dāng)前 AI 和系統(tǒng)領(lǐng)域亟需解決的問題。

來自卡內(nèi)基梅隆大學(xué)的 Catalyst 團(tuán)隊(duì)在他們的最新綜述論文中,，從機(jī)器學(xué)習(xí)系統(tǒng)（MLSys）的研究視角出發(fā),，詳細(xì)分析了從前沿的 LLM 推理算法到系統(tǒng)的革命性變革，以應(yīng)對(duì)這些挑戰(zhàn),。該綜述旨在提供對(duì)高效 LLM 服務(wù)的當(dāng)前狀態(tài)和未來方向的全面理解,，為研究者和實(shí)踐者提供了寶貴的洞見，幫助他們克服有效 LLM 部署的障礙,，從而重塑 AI 的未來,。

論文鏈接：https://arxiv.org/abs/2312.15234

該論文的第一作者是卡內(nèi)基梅隆大學(xué)的 Xupeng Miao（苗旭鵬）博士后研究員,，合作者還包括 Tianqi Chen 和 Zhihao Jia 助理教授,。此外，其他學(xué)生作者也均來自于 CMU Catalyst Group 實(shí)驗(yàn)室,，該實(shí)驗(yàn)室由 Zhihao Jia 與 Tianqi Chen（陳天奇）在 CMU 共同主持,，致力于集成來自于機(jī)器學(xué)習(xí)算法、系統(tǒng),、硬件等多方面的優(yōu)化技術(shù),，構(gòu)造自動(dòng)化的機(jī)器學(xué)習(xí)系統(tǒng)。此前,，該實(shí)驗(yàn)室還推出了 SpecInfer, MLC-LLM, SpotServe [ASPLOS‘24] 等開源項(xiàng)目,，推進(jìn) LLM 大模型相關(guān)系統(tǒng)的研究和應(yīng)用。實(shí)驗(yàn)室主頁：https://catalyst.cs.cmu.edu,。

綜述概覽

該綜述系統(tǒng)地審視了現(xiàn)有 LLM 推理技術(shù),，覆蓋了 300 余篇相關(guān)論文，從算法創(chuàng)新和系統(tǒng)優(yōu)化兩個(gè)方面展開介紹,。論文以此為基礎(chǔ),，對(duì)現(xiàn)有工作設(shè)計(jì)了一套清晰且詳盡的分類法，突出了各種方法的優(yōu)勢(shì)和局限性,，逐類別搜集整理并介紹了每種方法的相關(guān)論文,。除此之外，論文還對(duì)當(dāng)前的主流 LLM 推理框架在系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)方面進(jìn)行了深入的對(duì)比和分析,。最后,，作者對(duì)未來如何繼續(xù)提高 LLM 推理效率進(jìn)行了展望,，在技術(shù)層面提出了六大潛在發(fā)展方向。

分類法

算法創(chuàng)新

這一節(jié)對(duì)提出的各種算法和技術(shù)進(jìn)行了全面分析,，旨在改進(jìn)大規(guī)模 Transformer 模型推理的原生性能缺陷，包括解碼算法,、架構(gòu)設(shè)計(jì),、和模型壓縮等等。

解碼算法：在這一部分中,，我們回顧了在圖 2 中展示的幾種 LLMs 推理優(yōu)化過程的新穎解碼算法。這些算法旨在減少計(jì)算復(fù)雜度,，并提高語言模型推理在生成任務(wù)中的總體效率,，包括：

非自回歸解碼：現(xiàn)有 LLMs 的一個(gè)主要限制是默認(rèn)的自回歸解碼機(jī)制，它逐個(gè)順序生成輸出 token,。為解決這一問題,，一種代表性的工作方向是非自回歸解碼 [97, 104, 108，271],，即放棄自回歸生成范式,，打破單詞依賴并假設(shè)一定程度的條件獨(dú)立性，并行解碼輸出 token,。然而,，盡管這類方法解碼速度有所提高，但大多數(shù)非自回歸方法的輸出質(zhì)量仍不如自回歸方法可靠,。
投機(jī)式推理：另一類工作是通過投機(jī)執(zhí)行思想 [47] 實(shí)現(xiàn)并行解碼,。自回歸 LLM 推理過程中的每個(gè)解碼步驟都可以被視為帶有條件分支的程序執(zhí)行語句，即決定接下來生成哪個(gè) token,。投機(jī)式推理 [51, 155] 先使用較小的草稿模型進(jìn)行多步解碼預(yù)測(cè),，然后讓 LLM 同時(shí)驗(yàn)證這些預(yù)測(cè)以實(shí)現(xiàn)加速。然而,，將投機(jī)解碼應(yīng)用于 LLMs 時(shí)仍然存在一些實(shí)際挑戰(zhàn),，例如，如何使解碼預(yù)測(cè)足夠輕量且準(zhǔn)確,，以及如何借助 LLMs 實(shí)現(xiàn)高效的并行驗(yàn)證,。SpecInfer [177] 首次引入基于 tree-based speculative decoding 和 tree attention，并提出了一個(gè)低延遲 LLM 服務(wù)系統(tǒng)實(shí)現(xiàn),，該機(jī)制也被后續(xù)多個(gè)工作 [48, 118, 168, 185, 229, 236, 274, 310] 直接采用,。
提前退出：這類方法主要利用 LLMs 的深層多層結(jié)構(gòu)，在中間層提前推出推理,，中間層輸出可以通過分類器轉(zhuǎn)化成輸出的 token,，從而降低推理開銷 [117, 147, 163, 167, 234, 272, 282, 291, 308],，它們也被稱為自適應(yīng)計(jì)算 [68, 219]。
級(jí)聯(lián)推理：這類方法級(jí)聯(lián)了多個(gè)不同規(guī)模的 LLM 模型,，用于分別處理不同復(fù)雜度的推理請(qǐng)求,，代表性工作包括 CascadeBERT [157] 和 FrugalGPT [53]。

架構(gòu)設(shè)計(jì)：

配置縮?。褐苯涌s小模型配置。
注意力簡化：最近出現(xiàn)了很多研究工作,，它們主要是將之前的長序列高效注意力機(jī)制 [240] 應(yīng)用在 LLM 上,，以縮短上下文，減少 KV 緩存,，以及注意力復(fù)雜度,，同時(shí)略微降低解碼質(zhì)量（如滑動(dòng)窗口 [129, 299]、哈希 [198],、dilated [74],、動(dòng)態(tài)選擇等等）。表 1 中總結(jié)了一些近期的熱門方法和之前的工作之間的對(duì)應(yīng)關(guān)系,。

激活共享：這類方法主要是通過共享 attention 計(jì)算的中間激活來降低推理內(nèi)存開銷，代表性工作包括 MQA [220] 和 GQA [32],。
條件計(jì)算：這類方法主要是指稀疏專家混合模型（Sparse MoE）,，比如最近大火的 Mistrial 7Bx8 模型就屬于此類。
循環(huán)單元：盡管 Transformer 已經(jīng)替代了 RNN 模型,，但考慮到注意力機(jī)制的二次復(fù)雜性,，人們始終未曾放棄將 recurrent unit 機(jī)制重新引入 LLM 的嘗試，比如 RWKV [200],、RetNet [235],，以及狀態(tài)空間模型 [91, 102, 103, 176] 等等。

模型壓縮：

知識(shí)蒸餾：這類方法以大型的教師模型為監(jiān)督,，訓(xùn)練一個(gè)小型的學(xué)生模型,。大多數(shù)之前的方法都在探索白盒蒸餾 [106, 133, 214, 233, 255]，需要訪問整個(gè)教師模型的參數(shù),。由于基于 API 的 LLM 服務(wù)（如 ChatGPT）的出現(xiàn),，一些黑盒蒸餾模型吸引了很多關(guān)注 [238,59, 273, 201, 313]，這些模型通常具有更少的模型參數(shù),，與原始 LLMs（如 GPT-4 [195]）相比,，在各種下游任務(wù)上表現(xiàn)出了相當(dāng)?shù)男阅堋?/li>
網(wǎng)絡(luò)剪枝：過去幾年中，網(wǎng)絡(luò)剪枝方法 [180, 215, 215] 已被廣泛研究,，但并非所有方法都可以直接應(yīng)用于 LLMs,，需要考慮重新訓(xùn)練可能帶來的過高計(jì)算成本,，以及評(píng)估剪枝是否可以在底層系統(tǒng)實(shí)現(xiàn)上取得效率提升。大致上可以分為結(jié)構(gòu)化剪枝 [80, 149, 174, 216, 172] 和半結(jié)構(gòu)化稀疏化 [40, 87, 232, 251, 276] 等,。

系統(tǒng)優(yōu)化

本節(jié)研究 LLM 推理系統(tǒng)優(yōu)化技術(shù),，以加速 LLM 推理，而不改變 LLM 計(jì)算語義,。這一工作的目標(biāo)是通過改進(jìn)用于大型語言模型推理的底層系統(tǒng)和框架來提高系統(tǒng)效率,，包括低比特量化、并行計(jì)算,、內(nèi)存管理,、請(qǐng)求調(diào)度、和內(nèi)核優(yōu)化等等,，詳細(xì)內(nèi)容可以參見論文原文,。

軟件框架

論文還對(duì)一些目前最先進(jìn)的基于 GPU 的開源 LLM 推理系統(tǒng)進(jìn)行了深入的分析,，并從多個(gè)方面總結(jié)了它們?cè)谠O(shè)計(jì)與實(shí)現(xiàn)傷的差異,。

未來方向

專用硬件加速器的發(fā)展：生成型 LLM 服務(wù)效率的顯著提升可能在很大程度上依賴于專用硬件加速器的發(fā)展和提升，尤其是軟硬協(xié)同設(shè)計(jì)方法,。例如,，讓內(nèi)存單元更加接近處理單元，或是針對(duì) LLM 算法數(shù)據(jù)流優(yōu)化芯片架構(gòu),，這些硬件優(yōu)化可以在很大程度上為 LLM 推理在軟件層面帶來便利和機(jī)會(huì),。
高效有效的解碼算法：開發(fā)更高效的解碼算法可以顯著提高服務(wù)效率。受對(duì)實(shí)時(shí)應(yīng)用更快生成速度的需求驅(qū)動(dòng),，一個(gè)有前途的方向是廣義的投機(jī)式推理（generalized speculative inference）,，不僅會(huì)帶來顯著加速，同時(shí)保持相同的生成質(zhì)量,。正如 SpecInfer 中所指出的,，廣義的投機(jī)式推理中，用于生成草稿 token 的小模型可以被替換為任何快速的 token 生成方法,，比如自定義函數(shù),、召回方法、甚至早停機(jī)制和非自回歸解碼等等,。
長上下文 / 序列場(chǎng)景優(yōu)化：隨著應(yīng)用場(chǎng)景變得更加復(fù)雜,，處理更長的上下文或序列的需求不斷增長。服務(wù)長序列負(fù)載的 LLM 需要解決算法和系統(tǒng)兩方面的挑戰(zhàn),。在算法方面,，它們依然面臨長度泛化失效問題，甚至可能出現(xiàn) “l(fā)oss in the middle” 的情況。目前的解法主要是通過召回增強(qiáng),、序列壓縮和緩存來盡可能縮短序列長度并保存相關(guān)信息,。
探索替代基礎(chǔ)架構(gòu)：盡管 Transformer 模型和自注意力機(jī)制目前主導(dǎo)著 LLM 領(lǐng)域，但探索替代架構(gòu)是未來研究的一個(gè)有前景的方向,。例如,，一些最新研究探索了無注意力方法，使用純 MLP（多層感知機(jī)）架構(gòu)來替代注意力機(jī)制,，可能會(huì)改變目前 LLM 推理優(yōu)化的格局,。
在復(fù)雜環(huán)境中的部署探索：隨著 LLM 應(yīng)用的擴(kuò)展，探索并優(yōu)化它們?cè)诟鞣N復(fù)雜環(huán)境中的部署成為一個(gè)關(guān)鍵的未來方向,。這一探索不僅限于傳統(tǒng)的基于云的部署,，還包括邊緣計(jì)算、混合計(jì)算（cloud+edge）,、去中心化計(jì)算以及廉價(jià)的可搶占資源等。
特定需求的自動(dòng)適應(yīng)：應(yīng)用特定需求的多樣性創(chuàng)造了一系列創(chuàng)新的 LLM 服務(wù)優(yōu)化機(jī)會(huì),，例如模型微調(diào)（parameter-efficient fine-tuning）,、向量數(shù)據(jù)庫檢索、多模態(tài)負(fù)載等等,。這些獨(dú)特的挑戰(zhàn)也要求將 LLM 服務(wù)技術(shù)自動(dòng)且順利地集成到現(xiàn)有 IT 基礎(chǔ)設(shè)施中,，將優(yōu)化空間擴(kuò)展到整個(gè) LLM 生命周期。

總結(jié)

總的來說,，該綜述不僅是對(duì)當(dāng)前 LLM 服務(wù)優(yōu)化研究的全面概述,，也為未來在這一領(lǐng)域的探索和發(fā)展指明了方向。通過深入了解這些先進(jìn)的解決方案,，研究者和實(shí)踐者可以更好地理解和應(yīng)對(duì)在實(shí)際應(yīng)用中部署大型語言模型時(shí)面臨的挑戰(zhàn),。

免責(zé)聲明：本文來自網(wǎng)絡(luò)收錄或投稿，觀點(diǎn)僅代表作者本人,，不代表芒果財(cái)經(jīng)贊同其觀點(diǎn)或證實(shí)其描述,，版權(quán)歸原作者所有。轉(zhuǎn)載請(qǐng)注明出處：http://lequren.com/1087140.html
溫馨提示：投資有風(fēng)險(xiǎn),，入市須謹(jǐn)慎,。本資訊不作為投資理財(cái)建議。

如何高效部署大模型,？CMU最新萬字綜述縱覽LLM推理MLSys優(yōu)化技術(shù) – AI新智界

綜述概覽

分類法

軟件框架

未來方向

相關(guān)推薦