來(lái)源:Hugging Face
圖片來(lái)源:由無(wú)界 AI生成
在 2023 年,,大型語(yǔ)言模型(Large Language Models,,簡(jiǎn)稱(chēng) LLMs)受到了公眾的廣泛關(guān)注,許多人對(duì)這些模型的本質(zhì)及其功能有了基本的了解。是否開(kāi)源的議題同樣引起了廣泛的討論。在 Hugging Face,我們對(duì)開(kāi)源模型抱有極大熱情,。開(kāi)源模型的優(yōu)勢(shì)在于,它們不僅促進(jìn)了研究的可復(fù)制性,,還鼓勵(lì)社區(qū)參與到人工智能模型的開(kāi)發(fā)中來(lái),這樣做有助于我們更容易地審視模型中可能存在的偏差和局限性,。此外,,通過(guò)重復(fù)利用已有的檢查點(diǎn),我們還能夠減少整個(gè)領(lǐng)域的碳足跡(這只是眾多優(yōu)點(diǎn)中的一部分),。
讓我們一起回顧開(kāi)源 LLMs 在過(guò)去一年的發(fā)展歷程吧,!
為了確保本文篇幅適中,我們將不涉及代碼模型的相關(guān)內(nèi)容,。
?? 預(yù)訓(xùn)練大型語(yǔ)言模型的配方
首先,,如何獲得一個(gè)大型語(yǔ)言模型呢?(如果你對(duì)此已有所了解,,可以跳過(guò)這部分內(nèi)容,。)
模型的 架構(gòu)(即其代碼表示)定義了它的具體實(shí)現(xiàn)和數(shù)學(xué)結(jié)構(gòu):這包括所有的相關(guān)參數(shù),以及這些參數(shù)如何與輸入數(shù)據(jù)進(jìn)行交互,。目前,,大多數(shù)高性能的大型語(yǔ)言模型(LLMs)都是基于 “僅解碼器”(decoder-only)的 Transformer 架構(gòu)的衍生版本,有關(guān)原始 Transformer 的詳細(xì)信息可以參考其 發(fā)表的論文,。
訓(xùn)練數(shù)據(jù)集 是模型訓(xùn)練過(guò)程中(即參數(shù)被學(xué)習(xí)時(shí))所依賴(lài)的全部樣本和信息的集合,,它使模型能夠?qū)W習(xí)到特定的數(shù)據(jù)模式,。這些數(shù)據(jù)通常包括多樣的文本材料,,既可以是各種自然語(yǔ)言文本,如法語(yǔ),、英語(yǔ),、漢語(yǔ)等,也可以是各類(lèi)編程語(yǔ)言代碼,,比如 Python,、C 語(yǔ)言等,,或者是任何能夠以文本形式表現(xiàn)的結(jié)構(gòu)化信息,例如 Markdown 或 LaTeX 中的表格,、公式等,。
分詞器 是定義如何將訓(xùn)練數(shù)據(jù)集中的文本轉(zhuǎn)化為數(shù)字的工具(因?yàn)槟P褪且粋€(gè)數(shù)學(xué)函數(shù),因此需要數(shù)字作為輸入),。分詞是通過(guò)將文本轉(zhuǎn)換為稱(chēng)為 “詞元” 的子單元(可以是單詞,、子詞或字符,具體取決于分詞方法)來(lái)完成的,。分詞器的詞匯量大小決定了其能夠?qū)⑽谋痉指畛傻牟煌~元的種類(lèi)數(shù)目,,這個(gè)數(shù)字通常介于 32,000 到 200,000 之間。數(shù)據(jù)集的規(guī)模常常用它包含的 詞元數(shù)量 來(lái)衡量,。經(jīng)過(guò)分詞后,,如今的數(shù)據(jù)集范圍從幾千億詞元到幾萬(wàn)億詞元不等,這些詞元是構(gòu)成數(shù)據(jù)集的基本單元,。
訓(xùn)練超參數(shù) 定義了模型訓(xùn)練的方法,。這些參數(shù)決定了模型應(yīng)如何調(diào)整自身以適應(yīng)新的數(shù)據(jù)樣本,以及模型參數(shù)更新的速度應(yīng)該是多快,。
一旦確定了這些超參數(shù),,接下來(lái)需要的就是 1)充足的計(jì)算資源來(lái)進(jìn)行模型訓(xùn)練;2)具備專(zhuān)業(yè)技能的人員來(lái)執(zhí)行和監(jiān)督訓(xùn)練過(guò)程,。訓(xùn)練過(guò)程本身包括在訓(xùn)練所用的硬件上初始化模型架構(gòu),以及依據(jù)前述超參數(shù)在訓(xùn)練數(shù)據(jù)集上應(yīng)用訓(xùn)練算法,。訓(xùn)練的成果是一系列模型權(quán)重 —— 這些就是經(jīng)過(guò)學(xué)習(xí)的 模型參數(shù),,也正是人們通常所說(shuō)的開(kāi)放獲取的預(yù)訓(xùn)練模型。這些權(quán)重可以用于后續(xù)的 推理過(guò)程,,即對(duì)新的輸入數(shù)據(jù)進(jìn)行預(yù)測(cè),,例如生成文本。
預(yù)訓(xùn)練的大型語(yǔ)言模型(LLM)在完成初始訓(xùn)練后,,還可以根據(jù)具體任務(wù)進(jìn)行定制化或進(jìn)一步調(diào)整,。特別是當(dāng)這些模型的參數(shù)被開(kāi)放共享時(shí),它們可以作為不同用例和應(yīng)用的基礎(chǔ),,經(jīng)過(guò)一種稱(chēng)為 “微調(diào)” 的過(guò)程進(jìn)行優(yōu)化,。微調(diào)包括在與原始預(yù)訓(xùn)練數(shù)據(jù)集不同的、通常更小且更專(zhuān)業(yè)化的數(shù)據(jù)集上,,對(duì)模型執(zhí)行額外的訓(xùn)練步驟,,目的是為了針對(duì)特定應(yīng)用場(chǎng)景優(yōu)化模型性能。盡管微調(diào)步驟在計(jì)算資源消耗上有一定成本,,但這一成本通常遠(yuǎn)低于從零開(kāi)始訓(xùn)練一個(gè)全新模型所需的財(cái)務(wù)投入和環(huán)境代價(jià),。這也是高品質(zhì)開(kāi)源預(yù)訓(xùn)練模型極具吸引力的一個(gè)原因,,它們使得即便是計(jì)算預(yù)算有限的從業(yè)者也能夠自由地使用和改進(jìn)這些模型。
??? 2022 年,,從規(guī)模競(jìng)賽轉(zhuǎn)向數(shù)據(jù)競(jìng)賽
在 2023 年之前,,社區(qū)有哪些開(kāi)源模型可用?
直至 2022 年初,,機(jī)器學(xué)習(xí)界普遍認(rèn)為,,模型的規(guī)模越大(即擁有的參數(shù)越多),其性能也越出色,。特別是,,模型一旦超過(guò)某個(gè)特定的規(guī)模閾值,其能力似乎會(huì)實(shí)現(xiàn)質(zhì)的飛躍,,這兩種現(xiàn)象分別被稱(chēng)為 突現(xiàn)能力 和 規(guī)模定律,。2022 年推出的多個(gè)預(yù)訓(xùn)練開(kāi)源模型家族大多遵循這種范例。
- BLOOM (BigScience Large Open-science Open-access Multilingual Language Model)
BLOOM 是由 BigScience 研究團(tuán)隊(duì)推出的 一系列模型,。BigScience 是一個(gè)由 Hugging Face 協(xié)調(diào),,聯(lián)合法國(guó)的 GENCI 和 IDRIS 組織共同參與的國(guó)際合作項(xiàng)目,,涵蓋了來(lái)自 60 個(gè)國(guó)家,、250 個(gè)研究機(jī)構(gòu)的 1000 名科研人員。這些模型采用了僅包含解碼器的 transformer 架構(gòu),,并進(jìn)行了細(xì)微調(diào)整,,比如引入了嵌入后歸一化和 ALiBi 位置嵌入技術(shù)。在這一系列模型中,,最大的一個(gè)擁有 1760 億個(gè)參數(shù),,它接受了 46 種人類(lèi)語(yǔ)言和 13 種編程語(yǔ)言的 3500 億個(gè)多語(yǔ)言數(shù)據(jù)詞元的訓(xùn)練。大量的訓(xùn)練數(shù)據(jù)已經(jīng)向公眾開(kāi)放,,包括數(shù)據(jù)的來(lái)源,、策劃和處理過(guò)程的詳細(xì)信息,。它是目前為止發(fā)布的最大的開(kāi)源多語(yǔ)言模型,。 - OPT (Open Pre-trained Transformer)
Meta 發(fā)布的 OPT 模型 系列采用了僅包含解碼器的 Transformer 架構(gòu),。這些模型借鑒了 GPT-3 論文中的技術(shù),,如特定的權(quán)重初始化和預(yù)歸一化策略,,并對(duì)注意力機(jī)制進(jìn)行了改進(jìn),,比如引入了交替的密集型與局部帶狀注意力層,。系列中最大的模型擁有 1750 億個(gè)參數(shù),,其訓(xùn)練數(shù)據(jù)涵蓋了來(lái)自公共領(lǐng)域的 1800 億個(gè)數(shù)據(jù)詞元,包括書(shū)籍,、Reddit 社交平臺(tái)數(shù)據(jù),、新聞,、維基百科以及其他多種互聯(lián)網(wǎng)來(lái)源,。這一系列模型在性能上與 GPT-3 不相上下,并且通過(guò)編碼優(yōu)化減少了計(jì)算資源的消耗,。 - GLM-130B (General Language Model)
清華大學(xué)聯(lián)合智譜 AI 共同發(fā)布了 GLM-130B 模型,。該模型基于完整的 Transformer 架構(gòu),并引入了一些創(chuàng)新(如采用 DeepNorm 進(jìn)行層后歸一化,、使用旋轉(zhuǎn)式位置嵌入),。GLM-130B 擁有 1300 億參數(shù),,是在包含英文和中文的互聯(lián)網(wǎng)數(shù)據(jù)集上訓(xùn)練的,,這些數(shù)據(jù)集包括 The Pile、WuDao 語(yǔ)料庫(kù)以及其他中文語(yǔ)料庫(kù),,共計(jì) 4000 億個(gè)詞元,。在性能上,GLM-130B 與 GPT-3 模型不相上下,。 - 較小或更專(zhuān)業(yè)的開(kāi)源大語(yǔ)言模型
近期,,一些較小型的開(kāi)源模型也相繼發(fā)布,這些模型主要服務(wù)于科研領(lǐng)域:Meta 推出了 Galactica 系列的大型語(yǔ)言模型(LLM),,其中規(guī)模最大的模型擁有高達(dá) 120B 參數(shù),,這些模型是在科學(xué)文獻(xiàn)中的 1060 億個(gè)詞元基礎(chǔ)上進(jìn)行預(yù)訓(xùn)練的。EleutherAI 則發(fā)布了 GPT-NeoX-20B 模型,,這是一個(gè)完全開(kāi)源的僅解碼器式 Transformer 模型(包括模型架構(gòu),、權(quán)重和數(shù)據(jù)),在 5000 億詞元上經(jīng)過(guò)訓(xùn)練,,并采用了 RoPE 以及對(duì)注意力機(jī)制和初始化過(guò)程的若干改進(jìn),,為科學(xué)研究提供了一個(gè)完整的工具集。
這些巨大的模型令人振奮,,然而,,它們的運(yùn)行成本也高得驚人!在進(jìn)行推理計(jì)算(即從模型中得出預(yù)測(cè)結(jié)果)時(shí),,模型必須被加載到內(nèi)存中,,而一個(gè)具有一千億參數(shù)的模型往往需要占用高達(dá) 220GB 的內(nèi)存空間(這個(gè)過(guò)程我們將在后文中詳細(xì)闡述),這樣的內(nèi)存需求對(duì)于大多數(shù)機(jī)構(gòu)和專(zhuān)業(yè)人士來(lái)說(shuō)都是難以承擔(dān)的,!
然而,,2022 年 3 月,,DeepMind 發(fā)表了一篇 論文,探討了在固定計(jì)算預(yù)算條件下,,模型參數(shù)與數(shù)據(jù)量的最優(yōu)配比,。簡(jiǎn)而言之,如果你的模型訓(xùn)練預(yù)算有限,,應(yīng)該如何平衡模型大小和數(shù)據(jù)規(guī)模,?研究者們發(fā)現(xiàn),在平均計(jì)算預(yù)算下,,對(duì)于大型語(yǔ)言模型(LLMs),,更高效的策略是維持一個(gè)相對(duì)較小的模型,并在更廣泛的數(shù)據(jù)集上進(jìn)行訓(xùn)練,。他們開(kāi)發(fā)的模型 Chinchilla(未公開(kāi))擁有 700 億個(gè)參數(shù),,僅為某些大型模型參數(shù)總數(shù)的三分之一,卻在高達(dá) 1.4 萬(wàn)億個(gè)詞元的數(shù)據(jù)集上進(jìn)行了訓(xùn)練,,是其他模型所使用數(shù)據(jù)量的三到四倍,。結(jié)果顯示,Chinchilla 在性能上不僅媲美甚至超越了其他更大的同類(lèi)型模型,,無(wú)論是開(kāi)源還是非開(kāi)源的,。
這種范式的變化,盡管可能已在封閉的實(shí)驗(yàn)室環(huán)境中為人所知,,但它卻讓整個(gè)開(kāi)放的科學(xué)界感到措手不及,。
?? 2023, 開(kāi)放發(fā)布之年
小型 大語(yǔ)言模型的崛起
2023 年,僅解碼器(decoder-only)式的 Transformer 模型迎來(lái)了爆發(fā)式增長(zhǎng),。幾乎每月都有新的預(yù)訓(xùn)練模型問(wèn)世,,發(fā)展速度之快以至于漸漸演變?yōu)槊恐苌踔撩咳斩加行履P偷耐瞥觥eta 在 2 月推出了 LLaMA 模型,;Eleuther AI 在 4 月帶來(lái)了 Pythia 模型,;MosaicML 在 5 月推出了 MPT 模型;Salesforce 和 TIIUAE 則在 6 月分別發(fā)布了 X-GEN 和 Falcon 模型,。Meta 緊隨其后,,在 7 月發(fā)布了 LLaMA 的升級(jí)版本 LLaMA 2。進(jìn)入下半年,,9 月阿里巴巴發(fā)布了 Qwen 模型,;Mistral.AI 推出了同名 Mistral 模型;01-ai 在 11 月發(fā)布了 Yi 模型,;Deci 推出了 DeciLM 模型,;而 Upstage 則在 12 月帶來(lái)了 Phi-2 和 SOLAR 模型。這一系列的模型發(fā)布,不僅展示了人工智能領(lǐng)域的快速進(jìn)步,,也預(yù)示著技術(shù)的不斷迭代與革新,。
這些發(fā)布包括了:a) 模型權(quán)重(在不同程度的開(kāi)源許可下);b) 對(duì)于較小規(guī)模的模型(介于 30 億至 700 億參數(shù)之間),,它們的性能都相當(dāng)出色,,因此立刻被社區(qū)采用,。這些模型幾乎都采用僅解碼器的 Transformer 架構(gòu),,并且進(jìn)行了各種調(diào)整(比如 ALiBi 或 RoPE、RMS 預(yù)歸一化,、SwiGLU),,以及對(duì)注意力函數(shù)的一些改變(如 Flash-Attention、GQA,、滑動(dòng)窗口注意力),,并且在不同的代碼庫(kù)實(shí)現(xiàn)中進(jìn)行了優(yōu)化,以提高訓(xùn)練或推理速度,。這些調(diào)整很可能在一定程度上影響模型的性能和訓(xùn)練速度,;然而,由于所有架構(gòu)都已經(jīng)連同權(quán)重一起公開(kāi)發(fā)布,,剩下的核心差異主要在于訓(xùn)練數(shù)據(jù)和模型的許可方式,。
Meta AI 發(fā)布的 LLaMA 系列是該系列中的首款模型。研究團(tuán)隊(duì)的目標(biāo)是在既定的計(jì)算預(yù)算內(nèi)訓(xùn)練不同規(guī)模的模型,,以求達(dá)到最優(yōu)性能,。他們首次明確將訓(xùn)練預(yù)算與推理成本(即在滿(mǎn)足特定性能目標(biāo)時(shí),模型推理所需的成本)并重考慮,?;谶@樣的考量,他們選擇在更大量的數(shù)據(jù)和更多的訓(xùn)練步驟上,,訓(xùn)練規(guī)模較小的模型,,以期在較小的模型尺度上獲得更高的性能(這是對(duì)訓(xùn)練計(jì)算效率的一種權(quán)衡)。在 LLaMA 系列中,,最大的模型擁有 650 億參數(shù),,經(jīng)過(guò)了 1.4 萬(wàn)億的詞元訓(xùn)練,而規(guī)模較小的模型 —— 分別具有 60 億和 130 億參數(shù) —— 則在 1 萬(wàn)億詞元訓(xùn)練后完成,。在大多數(shù)基準(zhǔn)測(cè)試中,,130 億參數(shù)的 LLaMA 小型模型的表現(xiàn)超過(guò)了 GPT-3,而 650 億參數(shù)的 LLaMA 大模型在發(fā)布時(shí)則代表了最先進(jìn)的技術(shù)水平,。然而,,這些模型的權(quán)重是以非商業(yè)許可的形式發(fā)布的,這限制了它們?cè)谏鐓^(qū)中的應(yīng)用范圍。
Eleuther AI 是一個(gè)開(kāi)源的非營(yíng)利實(shí)驗(yàn)室,,它發(fā)布了一系列名為 Pythia 的大型語(yǔ)言模型(LLMs),。這些模型有不同的規(guī)模,全部采用公開(kāi)數(shù)據(jù)進(jìn)行訓(xùn)練,,目的是為了幫助研究人員理解大型語(yǔ)言模型訓(xùn)練的不同階段,。有關(guān) Pythia 模型的更多信息,可以通過(guò)它們?cè)?Hugging Face 上的 系列合集 查看,。
MosaicML 公司在兩個(gè)月后推出了 MPT 模型,,該模型的性能優(yōu)越,并且支持商業(yè)用途,,同時(shí)公司還公開(kāi)了其訓(xùn)練的具體細(xì)節(jié),。MPT 的首個(gè)版本是一個(gè) 7B 的模型,緊接著在 6 月份,,公司發(fā)布了一個(gè)更大的 30B 版本,。這兩個(gè)模型都是基于 1 萬(wàn)億個(gè)英語(yǔ)和編程語(yǔ)言的詞元訓(xùn)練而成,訓(xùn)練數(shù)據(jù)包括了 C4,、CommonCrawl,、The Stack、S2ORC 等數(shù)據(jù)集,。
MPT 模型推出后不久,,TIIUAE 團(tuán)隊(duì)便發(fā)布了 Falcon 系列模型 中的 7B 和 30B 版本。這些模型在 1 至 1.5 萬(wàn)億個(gè)英文和代碼詞元上進(jìn)行了訓(xùn)練,,訓(xùn)練數(shù)據(jù)包括來(lái)自 RefinedWeb,、Project Gutenberg、Reddit,、StackOverflow,、GitHub、arXiv,、Wikipedia 等多個(gè)來(lái)源,。同年晚些時(shí)候,TIIUAE 還發(fā)布了一款更為龐大的 180B 模型,。Falcon 模型的細(xì)節(jié),、所用數(shù)據(jù)以及訓(xùn)練過(guò)程均在一份技術(shù)報(bào)告及隨后發(fā)表的 研究論文 中有詳盡的描述。
先前的模型在公開(kāi)時(shí)通常會(huì)公開(kāi)其數(shù)據(jù)集,,但隨后推出的模型很少公布其訓(xùn)練過(guò)程中使用的具體信息,,這使得重現(xiàn)它們的成果變得困難。盡管如此,,這些模型通過(guò)發(fā)布它們的權(quán)重參數(shù),,為研究社區(qū)提供了一個(gè)研究和進(jìn)一步開(kāi)發(fā)的起點(diǎn),。
Salesforce 在夏初推出了 X-Gen 模型,這是一款擁有 70 億參數(shù)的模型,,訓(xùn)練數(shù)據(jù)包括了 15 萬(wàn)億個(gè) “自然語(yǔ)言和代碼” 詞元,,訓(xùn)練過(guò)程分為多個(gè)步驟,并采用了數(shù)據(jù)調(diào)度系統(tǒng)(并非所有數(shù)據(jù)同時(shí)輸入模型),。
X-Gen 在 Meta 推出的更為引人注目的新的 LLaMA-2 家族的陰影下顯得有些黯然失色,。LLaMA-2 是 Meta 推出的一個(gè)新的模型系列,規(guī)模從 7B 到 70B 不等,,這些模型是在 2 萬(wàn)億個(gè) “來(lái)自公開(kāi)來(lái)源的詞元” 上訓(xùn)練而成的,,采用了寬松的社區(qū)許可證,并經(jīng)過(guò)了人類(lèi)偏好的精細(xì)調(diào)整(RLHF),,即所謂的對(duì)齊過(guò)程,。
隨后,,新興初創(chuàng)企業(yè) Mistral 推出了其首款模型 ——Mistral-7B,,該模型 是基于互聯(lián)網(wǎng)公開(kāi)數(shù)據(jù)集的大量數(shù)據(jù)訓(xùn)練而成,具體數(shù)據(jù)量尚未公布,。隨著 2023 年末的臨近,,模型發(fā)布活動(dòng)日益頻繁。Mistral 緊接著發(fā)布了更為龐大的第二款模型 Mixtral 8x7B,。與此同時(shí),,Deci.AI 公司也帶來(lái)了其令人矚目的首款模型 DeciLM,upstage 公司也不甘落后,,推出了規(guī)模更大的 SOLAR 模型,。這些模型均采用了來(lái)源和數(shù)量未公開(kāi)的數(shù)據(jù)進(jìn)行訓(xùn)練。在各大排行榜和公開(kāi)基準(zhǔn)測(cè)試中,,這些模型均展現(xiàn)出穩(wěn)步的進(jìn)步,。
在 2023 年年底,值得關(guān)注的一大事件是中國(guó)訓(xùn)練并公開(kāi)發(fā)布了多個(gè)性能顯著提升的模型,。其中,,阿里巴巴推出了其雙語(yǔ)(英漢)模型 Qwen 系列,其參數(shù)規(guī)模從 70 億 至 700 億不等,,經(jīng)過(guò)了 240 億詞元數(shù)據(jù)的訓(xùn)練,。與此同時(shí),01-AI 公司也發(fā)布了 Yi 系列模型,,其參數(shù)規(guī)模介于 60 億至 340 億之間,,訓(xùn)練數(shù)據(jù)量達(dá)到了 300 億詞元。這些模型在公開(kāi)排行榜(如 Open LLM leaderboard)以及一些極具挑戰(zhàn)性的基準(zhǔn)測(cè)試(例如 Skill-Mix)中的表現(xiàn),,均超過(guò)了之前的模型,。2023 年底的另一強(qiáng)有力的新競(jìng)爭(zhēng)者是 DeepSeek AI,,他們推出了 “DeepSeek-Coder”,該模型從零開(kāi)始訓(xùn)練了 200 億詞元數(shù)據(jù),,其中包含 87% 的代碼和 13% 的英漢混合自然語(yǔ)言,。
隨處可見(jiàn)的對(duì)話(huà)模型
2023 年,與前一年相比,,幾乎所有新發(fā)布的預(yù)訓(xùn)練模型都配備了預(yù)訓(xùn)練版本和對(duì)話(huà)微調(diào)版本,,這些版本采納了多種現(xiàn)有的調(diào)整方法。盡管適用于聊天環(huán)境的模型調(diào)整技術(shù)在 2022 年及以前已有所開(kāi)發(fā),,但這些技術(shù)在 2023 年得到了廣泛應(yīng)用并迅速興起,,這突顯了聊天模型在普羅大眾中使用的快速增長(zhǎng),以及通過(guò)與模型的互動(dòng)對(duì)其進(jìn)行的人工評(píng)估(即 “氛圍檢查” 評(píng)估),。本文將詳細(xì)介紹幾種著名的訓(xùn)練調(diào)整預(yù)訓(xùn)練模型以進(jìn)行聊天的方法,,實(shí)際上,相關(guān)的變體還有很多,!
基于對(duì)話(huà)的微調(diào) 是一種特殊形式的監(jiān)督式微調(diào),。在這種方法中,我們使用的標(biāo)注數(shù)據(jù)是對(duì)話(huà)形式的,,類(lèi)似于社交媒體上的多輪對(duì)話(huà)記錄,。通過(guò)這種方式,可以對(duì)模型進(jìn)行特定的微調(diào),。在這個(gè)過(guò)程中,,我們可以采用與模型訓(xùn)練階段相同的技術(shù)。例如,,在處理僅解碼器 Transformer 模型時(shí),,可以訓(xùn)練模型通過(guò)自回歸方法,即逐一預(yù)測(cè)接下來(lái)的詞元,。
指令微調(diào)(Instruction-based Fine-Tuning,,IFT)采用相同的方法,但使用指令數(shù)據(jù)集,,該數(shù)據(jù)集包含一系列類(lèi)似查詢(xún)的提示以及答案(如果需要,,還可以包含可選的附加輸入)。這些數(shù)據(jù)集教導(dǎo)模型如何遵循指示,,并且可以是人類(lèi)生成的,,也可以是大型語(yǔ)言模型生成的。
利用大規(guī)模模型輸出的合成數(shù)據(jù)集(由模型生成的數(shù)據(jù)集,,例如來(lái)自 GPT-4 的生成,,可以是來(lái)自指示或用戶(hù)與模型之間的交互)是實(shí)現(xiàn)指導(dǎo)微調(diào)和聊天微調(diào)的一種方式。這通常被稱(chēng)為 “蒸餾”,,因?yàn)樗婕皬男阅茌^高的模型中獲取知識(shí),,以訓(xùn)練或微調(diào)較小的模型,。
這兩種方法都相對(duì)容易執(zhí)行:你只需找到或創(chuàng)建相應(yīng)的數(shù)據(jù)集,然后采用與訓(xùn)練時(shí)相同的技術(shù)對(duì)模型進(jìn)行調(diào)整即可,。去年,,發(fā)布了眾多指導(dǎo)性數(shù)據(jù)集,它們有效提升了模型在對(duì)話(huà)場(chǎng)景中的表現(xiàn),。想要了解更多關(guān)于此主題的信息,,可以參閱這篇介紹性博文的 鏈接。然而,,盡管模型的性能有了顯著提升,,但它們?nèi)晕茨芡耆_(dá)到人類(lèi)的預(yù)期水平。
從人類(lèi)反饋中強(qiáng)化學(xué)習(xí)(Reinforcement Learning from Human Feedback,,RLHF)是一項(xiàng)旨在使模型輸出與人類(lèi)偏好(基于特定標(biāo)準(zhǔn))相一致的特定方法,。具體操作流程如下:模型根據(jù)給定的提示生成多個(gè)潛在答案;人類(lèi)評(píng)估者對(duì)這些答案進(jìn)行排序,;然后,,這些排序結(jié)果用于訓(xùn)練一個(gè)偏好模型(該模型學(xué)習(xí)如何給出反映人類(lèi)對(duì)答案偏好程度的評(píng)分);最后,,利用偏好模型通過(guò)強(qiáng)化學(xué)習(xí)對(duì)語(yǔ)言模型進(jìn)行進(jìn)一步的微調(diào),。更詳細(xì)的信息,,請(qǐng)參閱這篇 博客文章,,原始 RLHF 論文,或者 Anthropic 關(guān)于 RLHF 的論文,。需要注意的是,,這是一種成本較高的方法(注釋 / 排名 + 訓(xùn)練新模型 + 微調(diào)的整個(gè)過(guò)程成本很高),主要用于確保模型的輸出與安全目標(biāo)相符,。為了降低成本,,人們開(kāi)發(fā)了一種低成本的變體方法,即利用高質(zhì)量的語(yǔ)言模型來(lái)對(duì)模型輸出進(jìn)行評(píng)分,,而不是完全依賴(lài)人類(lèi)評(píng)價(jià),,這種方法稱(chēng)為從 人工智能反饋中學(xué)習(xí)的強(qiáng)化學(xué)習(xí)(Reinforcement Learning from AI Feedback, RLAIF)。
直接偏好優(yōu)化(Direct Preference Optimization, DPO)是 RLHF 的另一種變體,,其核心優(yōu)勢(shì)在于無(wú)需訓(xùn)練和運(yùn)用獨(dú)立的偏好模型,。這一方法同樣需要人類(lèi)或人工智能生成的排序數(shù)據(jù)集,但它通過(guò)直接利用這些數(shù)據(jù)來(lái)更新模型,,即通過(guò)對(duì)比模型現(xiàn)有的策略(即預(yù)測(cè)行為)與理想的策略(即能夠預(yù)測(cè)出最優(yōu)排序答案的行為),。換言之,模型本身即扮演了對(duì)齊和偏好模型的雙重角色,,這不僅簡(jiǎn)化了優(yōu)化流程,,而且根據(jù)報(bào)告,,還能夠?qū)崿F(xiàn)與其他方法相媲美的性能水平。
回到來(lái)自(大多數(shù))私企的小型開(kāi)放權(quán)重模型的浪潮,,其中很多模型都發(fā)布了經(jīng)過(guò)精細(xì)調(diào)整的對(duì)應(yīng)版本:MPT-7B 還配備了一個(gè)指令微調(diào)和一個(gè)對(duì)話(huà)版本,,F(xiàn)alcon 和 XGen 模型的指令微調(diào)版本在年底發(fā)布,Llama-2,、Qwen 和 Yi 發(fā)布了對(duì)話(huà)版本,DeciLM 則發(fā)布了一個(gè)指令微調(diào)版本。Llama-2 的發(fā)布尤其引人注目,,因?yàn)樗陬A(yù)訓(xùn)練和指令微調(diào)模型中都特別注重安全性,。
社區(qū)的進(jìn)展如何,?
雖然隨著新模型的發(fā)布,,聊天模型和指令微調(diào)模型通常會(huì)立即推出,,但社區(qū)成員和研究人員并沒(méi)有把這看作是理所應(yīng)當(dāng)?shù)?。在這些基礎(chǔ)模型提供的沃土上,,涌現(xiàn)出了一個(gè)龐大而活躍的微調(diào)愛(ài)好者社區(qū)。這些微調(diào)專(zhuān)家經(jīng)常會(huì)構(gòu)建新的數(shù)據(jù)集,,并對(duì)模型進(jìn)行細(xì)致的微調(diào),,以此來(lái)展現(xiàn)新發(fā)布模型的出色性能,。
在 2023 年伊始,一些專(zhuān)為指令交互和對(duì)話(huà)微調(diào)設(shè)計(jì)的數(shù)據(jù)集已經(jīng)被發(fā)布,。例如,代表人類(lèi)偏好的數(shù)據(jù)集包括 OpenAI 的 WebGPT 數(shù)據(jù)集,、Anthropic 的 HH-RLHF 數(shù)據(jù)集以及 OpenAI 的 摘要 數(shù)據(jù)集,,它們?cè)谶@一領(lǐng)域是開(kāi)拓者,。指令數(shù)據(jù)集的例子包括 BigScience 的 公共提示池,、Google 的 FLAN 1 和 2(FLAN 數(shù)據(jù)集)、AllenAI 的 自然指令 數(shù)據(jù)集,、由不同機(jī)構(gòu)的研究人員開(kāi)發(fā)的自動(dòng)生成指令框架 自我指令,、由專(zhuān)家創(chuàng)建的指令基準(zhǔn) 超自然指令(有時(shí)用作微調(diào)數(shù)據(jù)),,以及由特拉維夫大學(xué)和 Meta 合作生成的自動(dòng)指令數(shù)據(jù)集 非自然指令 等,。
?? 冬 2022/2023: 一月,,來(lái)自中國(guó)多個(gè)研究機(jī)構(gòu)的研究人員共同發(fā)布了 人類(lèi) ChatGPT 指令語(yǔ)料庫(kù)(HC3),,其中包含了人類(lèi)與模型對(duì)各種問(wèn)題的回答。3 月份,發(fā)布活動(dòng)接連不斷:斯坦福大學(xué)推出了 Alpaca 模型,,這是首個(gè)遵循指令的 LLaMA 模型(7B),,以及相關(guān)的數(shù)據(jù)集,包括用大型語(yǔ)言模型生成的 52K 條指令,。非營(yíng)利開(kāi)源實(shí)驗(yàn)室 LAION 發(fā)布了 開(kāi)放指令通用數(shù)據(jù)集(OIG),,包含 4300 萬(wàn)條指令,這些指令既有通過(guò)數(shù)據(jù)增強(qiáng)創(chuàng)建的,,也有編譯自其他現(xiàn)有數(shù)據(jù)源的,。同月,,位于加州大學(xué)伯克利分校的 LMSYS 組織發(fā)布了 Vicuna,,這也是一個(gè)基于 ChatGPT 聊天數(shù)據(jù)的 LLaMA 精調(diào)模型(13B),,這些聊天數(shù)據(jù)是用戶(hù)與 ChatGPT 之間的對(duì)話(huà),,由用戶(hù)自己公開(kāi)分享在 ShareGPT 上。還發(fā)布了 Guanaco 數(shù)據(jù)集,,它是 Alpaca 數(shù)據(jù)集的擴(kuò)展版(增加了 50 萬(wàn)條多語(yǔ)言條目),以及相關(guān)的 LLaMA-7B 精調(diào)模型,。
?? 春:四月,,伯克利人工智能研究實(shí)驗(yàn)室(Berkeley AI Research lab,BAIR)發(fā)布了 Koala,,這是一個(gè)經(jīng)過(guò)聊天調(diào)優(yōu)的 LLaMA 模型,,它使用了多個(gè)先前的數(shù)據(jù)集(包括 Alpaca、HH-RLHF,、WebGPT,、ShareGPT),而 DataBricks 則發(fā)布了 Dolly 數(shù)據(jù)集,,這是一個(gè)由 15K 條人工生成的指令組成的數(shù)據(jù)集,,以及相關(guān)的 Pythia 微調(diào)模型。五月,,清華大學(xué)發(fā)布了 UltraChat,,這是一個(gè)包含 1.5M 對(duì)話(huà)指令的數(shù)據(jù)集,以及在該數(shù)據(jù)集上進(jìn)行微調(diào)的 UltraLLaMA 模型,。隨后,,微軟發(fā)布了 GPT4-LLM 數(shù)據(jù)集 / 框架,用于生成 GPT4 的指令,。六月,,微軟研究院分享了一種新方法 Orca,通過(guò)使用大型模型的推理軌跡(逐步解釋其推理過(guò)程)來(lái)構(gòu)建指令數(shù)據(jù)集,,該方法很快被社區(qū)(尤其是 Alignementlab.ai)復(fù)現(xiàn),,他們創(chuàng)建了 Open Orca 數(shù)據(jù)集,包含數(shù)百萬(wàn)條條目,,隨后用于微調(diào)多個(gè)模型(如 Llama,、Mistral 等)。五月和六月期間,,Camel-AI 發(fā)布了多個(gè)關(guān)于不同話(huà)題(物理,、生物,、化學(xué)等)的指令或聊天數(shù)據(jù)集,每個(gè)領(lǐng)域都有超過(guò) 20K 的示例,。同樣在六月,,發(fā)布了 Airoboros 框架,用于使用模型生成的數(shù)據(jù)微調(diào)模型(遵循自我指導(dǎo)方法),,以及一系列的 指令數(shù)據(jù)集,。
?? 夏:八月,由中國(guó)的非營(yíng)利組織 OpenBMB 發(fā)布了 UltraLM(一種基于 LLaMA 的高性能聊天模型微調(diào)版本),,隨后在九月,,他們又發(fā)布了相關(guān)的偏好數(shù)據(jù)集 UltraFeedback,這是一個(gè)包含與 GPT4 對(duì)比的輸入反饋數(shù)據(jù)集,,并附有注釋,。在整個(gè)夏天,一個(gè)名為 NousResearch 的集體發(fā)布了多個(gè)基于私有和公開(kāi)指導(dǎo)數(shù)據(jù)集的微調(diào)版本(特別是 Hermes 和 Capybara 系列),。九月,,清華大學(xué)的一個(gè)學(xué)生團(tuán)隊(duì)發(fā)布了 OpenChat,這是一個(gè)應(yīng)用了新的強(qiáng)化學(xué)習(xí)微調(diào)策略的 LLaMA 微調(diào)版本,。
?? 秋:十月,,Hugging Face 發(fā)布了 Zephyr 模型,這是一個(gè)在 UltraChat 和 UltraFeedback 上使用 DPO 和 AIF 技術(shù)對(duì) Mistral 模型進(jìn)行微調(diào)的產(chǎn)物,。同時(shí),,社區(qū)成員發(fā)布了 OpenHermes 2,這是一個(gè)在來(lái)自網(wǎng)絡(luò)或使用 Axolotl 生成的 900K 條目上對(duì) Mistral-7B 模型進(jìn)行微調(diào)的版本,。Lmsys 發(fā)布了 LMSYS-Chat-1M,,包含了與 25 個(gè)大型語(yǔ)言模型(LLMs)的真實(shí)用戶(hù)對(duì)話(huà)。十一月,,OpenBuddy 發(fā)布了 OpenBuddy-Zephyr,,這是一個(gè)對(duì) Zephyr 模型進(jìn)行微調(diào)的多輪對(duì)話(huà)模型。同月,,NVIDIA 發(fā)布了 HelpSteer 數(shù)據(jù)集,,這是一個(gè)對(duì)齊微調(diào)數(shù)據(jù)集,提供了提示,、相關(guān)模型回應(yīng)以及基于幾個(gè)標(biāo)準(zhǔn)對(duì)這些回答的評(píng)分,,而微軟研究院則發(fā)布了 Orca-2 模型,這是一個(gè)在新的合成推理數(shù)據(jù)集上對(duì) Llama 2 模型進(jìn)行微調(diào)的版本,。十二月,,伯克利大學(xué)發(fā)布了 Starling 模型,這是一個(gè)對(duì) Open-Chat 模型進(jìn)行 RLAIF 微調(diào)的版本,,以及相關(guān)的數(shù)據(jù)集 Nectar,,包含了 20 萬(wàn)條比較數(shù)據(jù),。
正如我們看到的,今年整個(gè)領(lǐng)域的發(fā)展既依賴(lài)于通過(guò)使用高質(zhì)量的預(yù)訓(xùn)練大型語(yǔ)言模型(LLMs)創(chuàng)建新數(shù)據(jù)集,,也依賴(lài)于社區(qū)發(fā)布的各種開(kāi)源模型,,這使得該領(lǐng)域進(jìn)步飛速!如果你現(xiàn)在在模型名稱(chēng)中看到這些名字中的任何一個(gè),,你就能夠大概了解它的來(lái)源了??,。
- 還有一些更專(zhuān)業(yè)的數(shù)據(jù)集,例如用于數(shù)學(xué)問(wèn)題微調(diào)的 MetaMath 和 MathInstruct,,以及涉及數(shù)學(xué)和代碼指令的 Evol-Instruct,,還有 CodeAlpaca 與 CodeCapybara 等代碼指令相關(guān)的數(shù)據(jù)集也已發(fā)布。雖然這些數(shù)據(jù)集同樣被用于提升模型在特定任務(wù)上的表現(xiàn),,但我們?cè)诖瞬粫?huì)詳細(xì)介紹它們,。你還可以訪問(wèn) 令人心動(dòng)的指令數(shù)據(jù)集 來(lái)查看其他相關(guān)數(shù)據(jù)集的集合。
開(kāi)啟定制模型的大門(mén)
模型融合:極致的定制化
在開(kāi)源社區(qū)的典范實(shí)踐中,,一個(gè)重要的里程碑是模型與數(shù)據(jù)的融合。隨著每一次代碼合并或提交,,追溯所使用數(shù)據(jù)的來(lái)源變得愈發(fā)復(fù)雜 —— 許多公開(kāi)的數(shù)據(jù)集本身就是其他數(shù)據(jù)集的匯編,。同樣,由于卓越性能的模型往往是在相似模型的基礎(chǔ)上經(jīng)過(guò)層層微調(diào)得來(lái)的(可參考 Mistral 的 衍生模型樹(shù)),,模型的發(fā)展歷史也變得難以梳理,。在這篇摘要中,我們尚未有足夠的篇幅深入探討這一引人入勝的技術(shù)領(lǐng)域,,但在最后,,我們將簡(jiǎn)要介紹一下它的概念。
然而,,“模型融合” 究竟是什么意思呢,?
模型融合 是一種將不同模型的權(quán)重融合到一個(gè)單一模型中的方法,其理想目標(biāo)是將每個(gè)模型的各自?xún)?yōu)勢(shì)結(jié)合在一個(gè)統(tǒng)一的模型中,。目前已有一些技術(shù)實(shí)現(xiàn)了這一目標(biāo),,這些技術(shù)大多在社區(qū)論壇中得到擴(kuò)展和發(fā)布,這是一個(gè)全球范圍內(nèi)的去中心化研究的典型案例,,涵蓋了從業(yè)者,、研究人員到業(yè)余愛(ài)好者的廣泛社區(qū)。其中一種最簡(jiǎn)單的公開(kāi)方法是平均一組具有共同架構(gòu)的模型的參數(shù)(示例 1,,示例 2),,但還存在更復(fù)雜的參數(shù)組合方法,例如確定每個(gè)模型中對(duì)特定任務(wù)最有影響力的參數(shù)(加權(quán)平均),,或者在合并前考慮模型間參數(shù)的相互干擾,,從而選擇保留哪些參數(shù)(關(guān)聯(lián)融合),。
這些技術(shù)使任何人都能輕松地生成模型的組合,而且由于大多數(shù)現(xiàn)代模型都是基于同一架構(gòu)的變體,,這一過(guò)程變得尤為簡(jiǎn)便,。這也是 Open LLM leaderboard 上一些模型名稱(chēng)如 llama2-zephyr-orca-ultra
的原因。這個(gè)特定的例子很可能是將 llama2
和 zephyr
模型合并后,,再在 orca 和 ultra 數(shù)據(jù)集上進(jìn)行微調(diào)的結(jié)果,。通常,更多的細(xì)節(jié)可以在 Hugging Face 中心的相應(yīng)模型卡片上找到,。
參數(shù)高效微調(diào):觸手可及的個(gè)性化體驗(yàn)
有時(shí)候,,你可能需要進(jìn)行更為細(xì)致的個(gè)性化調(diào)整,但受限于硬件顯存大小,,無(wú)法加載完整模型進(jìn)行微調(diào),。其實(shí),你知道嗎,?微調(diào)時(shí)并不必須要用到模型的全部,。
你或許想嘗試一種叫做 參數(shù)高效微調(diào)(Parameter-Efficient Fine-Tuning,PEFT)的方法,。這項(xiàng)技術(shù)首先會(huì)凍結(jié)你所關(guān)注的預(yù)訓(xùn)練模型中的參數(shù),,然后在其基礎(chǔ)上附加一些新的參數(shù)層,也就是我們所說(shuō)的 “適配器”,。接下來(lái),,你只需對(duì)這些專(zhuān)為你的任務(wù)設(shè)計(jì)的輕量級(jí)適配器權(quán)重進(jìn)行微調(diào),這些權(quán)重遠(yuǎn)小于原始模型的規(guī)模,。這樣,,你僅需分享你的小型適配器權(quán)重(以及底層模型)即可!你可以在 這里 探索一系列引人入勝的 PEFT 技術(shù),。
量化:模型普及于各處
我們已經(jīng)看到,,性能出色的模型現(xiàn)在形態(tài)各異…… 但即便如此,并不意味著它們對(duì)所有人都是觸手可及的,!一個(gè)擁有 300 億參數(shù)的模型僅僅加載到內(nèi)存中(還未開(kāi)始使用)就可能需要超過(guò) 66GB 的 RAM,,而并非社區(qū)中的每個(gè)人都有能力配備這樣的硬件。
這就是量化技術(shù)的用武之地,!量化是一種特殊的技術(shù),,它通過(guò)改變模型參數(shù)的精度來(lái)減少模型的大小。
量化是什么意思呢,?
在計(jì)算機(jī)中,,數(shù)字是以一定的精度存儲(chǔ)的,例如 float32
、float16
,、int8
等,。精度不僅指明了數(shù)字類(lèi)型(是浮點(diǎn)數(shù)還是整數(shù)),同時(shí)也指出了數(shù)字存儲(chǔ)所占用的內(nèi)存大?。豪?float32
是在計(jì)算機(jī)上以 32 位存儲(chǔ)的浮點(diǎn)數(shù),。要了解更深入的解釋?zhuān)?qǐng)參見(jiàn)這個(gè) 鏈接。因此,,數(shù)據(jù)的精度越高,,它所占用的物理內(nèi)存就越多,這是因?yàn)樾枰嗟奈粊?lái)存儲(chǔ)這些數(shù)據(jù),。
因此,,如果你降低精度,就會(huì)減少模型參數(shù)在存儲(chǔ)上占用的內(nèi)存,,進(jìn)而減小模型的大?。∵@也意味著你降低了計(jì)算的實(shí)際精度,,可能會(huì)降低模型的性能,。然而,我們發(fā)現(xiàn),,在較大的模型上,,這種性能下降實(shí)際上是 非常有限 的。
回到我們之前的例子中,,一個(gè)含有 300 億參數(shù)的模型,在使用 float16
格式時(shí)需要不到 66GB 的內(nèi)存,。如果采用 8bit
,,內(nèi)存需求將減半至 33GB;若使用 4bit
編碼,,則只需大約 16GB,,進(jìn)一步降低了內(nèi)存的要求,使得模型更易于部署和使用,。
精度轉(zhuǎn)換有多種方法,,涉及不同的 “轉(zhuǎn)換” 策略,每種策略都有其獨(dú)特的優(yōu)勢(shì)和局限,。目前流行的轉(zhuǎn)換方法包括 bitsandbytes,、GPTQ, 和 AWQ 等。有些開(kāi)發(fā)者,,例如 TheBloke,,甚至正在將所有流行的模型進(jìn)行轉(zhuǎn)換,以便更容易地被社區(qū)使用。所有這些方法都是相對(duì)較新并且仍在不斷發(fā)展之中,,我們期待隨著時(shí)間的推移,,這些技術(shù)能夠取得更多的進(jìn)步。
接下來(lái)呢,?
年尾尚未到來(lái),!在這最后時(shí)刻,已經(jīng)迎來(lái)了一些驚喜:新的架構(gòu)是否終將超越簡(jiǎn)單高效的 Transformer 模型呢,?
最新發(fā)布包括:
- 混合專(zhuān)家模型:
- Mixtral,,該模型由 8 個(gè)子模型(僅解碼器的 Transformer 模型)組成,對(duì)于每個(gè)輸入,,一個(gè)路由器會(huì)選擇兩個(gè)最佳子模型并將它們的輸出求和,。
- 幾種狀態(tài)空間模型(通過(guò)潛在空間將輸入映射到輸出的模型,可以根據(jù)任務(wù)需求表達(dá)為 RNN 或 CNN):
- Mamba,,增加了選擇機(jī)制的狀態(tài)空間模型
- Striped Hyena,,具有快速卷積核的狀態(tài)空間模型
目前來(lái)說(shuō),這些新方法是否會(huì)取代 Transformer 模型還為時(shí)尚早,,但狀態(tài)空間模型確實(shí)非常有前景,!
要點(diǎn)回顧
- 今年,從大型企業(yè)到初創(chuàng)公司,,再到研究實(shí)驗(yàn)室,,各種主體紛紛開(kāi)放發(fā)布模型,這極大地賦能了社區(qū),,使其以前所未有的速度開(kāi)始進(jìn)行實(shí)驗(yàn)和探索,。
- 模型公告的開(kāi)放性呈現(xiàn)出起伏變化,從年初的公開(kāi)發(fā)布(數(shù)據(jù)集組合,、權(quán)重,、架構(gòu))到年末對(duì)訓(xùn)練數(shù)據(jù)守口如瓶,導(dǎo)致無(wú)法復(fù)現(xiàn),。
- 開(kāi)源模型出現(xiàn)在包括中國(guó)在內(nèi)許多新的地方,,有幾個(gè)新的參與者將自己定位為語(yǔ)言模型競(jìng)爭(zhēng)中的強(qiáng)勁競(jìng)爭(zhēng)者。
- 個(gè)性化定制的可能性達(dá)到了前所未有的高度,,新策略的出現(xiàn)(如強(qiáng)化學(xué)習(xí)優(yōu)化的微調(diào),、適配器、合并技術(shù)),,雖然這僅僅是個(gè)開(kāi)始,。
- 更小的模型尺寸和量化升級(jí)使得大型語(yǔ)言模型對(duì)更多人來(lái)說(shuō)變得真正唾手可得!
- 新的架構(gòu)也隨之出現(xiàn) —— 它們是否最終會(huì)取代 Transformer 架構(gòu),,仍是一個(gè)值得關(guān)注的問(wèn)題,。
各位朋友們,就是這樣了!
希望你喜歡我們今年的回顧,,從中學(xué)到了一些知識(shí),,并且和我一樣,對(duì)于人工智能進(jìn)步現(xiàn)在如此依賴(lài)開(kāi)源和社區(qū)努力感到無(wú)比熱情,!??
英文原文:https://huggingface.co/blog/2023-in-llms 原文作者:Clémentine Fourrier
譯者: Xinyu Yang (楊新宇),,字節(jié)跳動(dòng)算法工程師,工作方向?yàn)橥ㄟ^(guò) SFT,、RL 提升大模型 Math,、Reasoning 能力。
免責(zé)聲明:本文來(lái)自網(wǎng)絡(luò)收錄或投稿,,觀點(diǎn)僅代表作者本人,,不代表芒果財(cái)經(jīng)贊同其觀點(diǎn)或證實(shí)其描述,版權(quán)歸原作者所有,。轉(zhuǎn)載請(qǐng)注明出處:http://lequren.com/1085913.html
溫馨提示:投資有風(fēng)險(xiǎn),,入市須謹(jǐn)慎。本資訊不作為投資理財(cái)建議,。