A欧美国产国产综合视频_最近日本中文字幕免费完整_国产乱伦一级片_久久99国产综合精品婷婷_韩国理论片在线中文字幕一区二区_亚洲AV成人影片在线观看_亚洲av无码电影网_优物视频最新网址_天天艹无码天天射_脱下丝袜的极品销魂大胸美女王馨瑶91精品美女嫩模写真套图,男男被?到喷水18禁视频,欧美久久精品一级黑人c片 ,综合在线视频精品专区

人民網(wǎng)

Hugging Face 年度回顧:2023,,開源大模型之年 – AI新智界

來源:Hugging Face

Hugging Face 年度回顧:2023,,開源大模型之年 – AI新智界

圖片來源:由無界 AI生成

在 2023 年,,大型語言模型(Large Language Models,,簡稱 LLMs)受到了公眾的廣泛關(guān)注,,許多人對(duì)這些模型的本質(zhì)及其功能有了基本的了解,。是否開源的議題同樣引起了廣泛的討論,。在 Hugging Face,我們對(duì)開源模型抱有極大熱情,。開源模型的優(yōu)勢在于,,它們不僅促進(jìn)了研究的可復(fù)制性,還鼓勵(lì)社區(qū)參與到人工智能模型的開發(fā)中來,這樣做有助于我們更容易地審視模型中可能存在的偏差和局限性,。此外,,通過重復(fù)利用已有的檢查點(diǎn),我們還能夠減少整個(gè)領(lǐng)域的碳足跡(這只是眾多優(yōu)點(diǎn)中的一部分),。

讓我們一起回顧開源 LLMs 在過去一年的發(fā)展歷程吧,!

為了確保本文篇幅適中,我們將不涉及代碼模型的相關(guān)內(nèi)容,。

?? 預(yù)訓(xùn)練大型語言模型的配方

首先,,如何獲得一個(gè)大型語言模型呢?(如果你對(duì)此已有所了解,,可以跳過這部分內(nèi)容,。)

模型的 架構(gòu)(即其代碼表示)定義了它的具體實(shí)現(xiàn)和數(shù)學(xué)結(jié)構(gòu):這包括所有的相關(guān)參數(shù),以及這些參數(shù)如何與輸入數(shù)據(jù)進(jìn)行交互,。目前,,大多數(shù)高性能的大型語言模型(LLMs)都是基于 “僅解碼器”(decoder-only)的 Transformer 架構(gòu)的衍生版本,有關(guān)原始 Transformer 的詳細(xì)信息可以參考其 發(fā)表的論文,。

訓(xùn)練數(shù)據(jù)集 是模型訓(xùn)練過程中(即參數(shù)被學(xué)習(xí)時(shí))所依賴的全部樣本和信息的集合,,它使模型能夠?qū)W習(xí)到特定的數(shù)據(jù)模式。這些數(shù)據(jù)通常包括多樣的文本材料,,既可以是各種自然語言文本,,如法語,、英語、漢語等,,也可以是各類編程語言代碼,,比如 Python,、C 語言等,,或者是任何能夠以文本形式表現(xiàn)的結(jié)構(gòu)化信息,例如 Markdown 或 LaTeX 中的表格,、公式等,。

分詞器 是定義如何將訓(xùn)練數(shù)據(jù)集中的文本轉(zhuǎn)化為數(shù)字的工具(因?yàn)槟P褪且粋€(gè)數(shù)學(xué)函數(shù),因此需要數(shù)字作為輸入),。分詞是通過將文本轉(zhuǎn)換為稱為 “詞元” 的子單元(可以是單詞,、子詞或字符,具體取決于分詞方法)來完成的,。分詞器的詞匯量大小決定了其能夠?qū)⑽谋痉指畛傻牟煌~元的種類數(shù)目,,這個(gè)數(shù)字通常介于 32,000 到 200,000 之間。數(shù)據(jù)集的規(guī)模常常用它包含的 詞元數(shù)量 來衡量,。經(jīng)過分詞后,,如今的數(shù)據(jù)集范圍從幾千億詞元到幾萬億詞元不等,這些詞元是構(gòu)成數(shù)據(jù)集的基本單元,。

訓(xùn)練超參數(shù) 定義了模型訓(xùn)練的方法,。這些參數(shù)決定了模型應(yīng)如何調(diào)整自身以適應(yīng)新的數(shù)據(jù)樣本,以及模型參數(shù)更新的速度應(yīng)該是多快,。

一旦確定了這些超參數(shù),,接下來需要的就是 1)充足的計(jì)算資源來進(jìn)行模型訓(xùn)練;2)具備專業(yè)技能的人員來執(zhí)行和監(jiān)督訓(xùn)練過程,。訓(xùn)練過程本身包括在訓(xùn)練所用的硬件上初始化模型架構(gòu),,以及依據(jù)前述超參數(shù)在訓(xùn)練數(shù)據(jù)集上應(yīng)用訓(xùn)練算法。訓(xùn)練的成果是一系列模型權(quán)重 —— 這些就是經(jīng)過學(xué)習(xí)的 模型參數(shù),,也正是人們通常所說的開放獲取的預(yù)訓(xùn)練模型,。這些權(quán)重可以用于后續(xù)的 推理過程,即對(duì)新的輸入數(shù)據(jù)進(jìn)行預(yù)測,,例如生成文本,。

預(yù)訓(xùn)練的大型語言模型(LLM)在完成初始訓(xùn)練后,還可以根據(jù)具體任務(wù)進(jìn)行定制化或進(jìn)一步調(diào)整,。特別是當(dāng)這些模型的參數(shù)被開放共享時(shí),,它們可以作為不同用例和應(yīng)用的基礎(chǔ),經(jīng)過一種稱為 “微調(diào)” 的過程進(jìn)行優(yōu)化,。微調(diào)包括在與原始預(yù)訓(xùn)練數(shù)據(jù)集不同的,、通常更小且更專業(yè)化的數(shù)據(jù)集上,,對(duì)模型執(zhí)行額外的訓(xùn)練步驟,目的是為了針對(duì)特定應(yīng)用場景優(yōu)化模型性能,。盡管微調(diào)步驟在計(jì)算資源消耗上有一定成本,,但這一成本通常遠(yuǎn)低于從零開始訓(xùn)練一個(gè)全新模型所需的財(cái)務(wù)投入和環(huán)境代價(jià)。這也是高品質(zhì)開源預(yù)訓(xùn)練模型極具吸引力的一個(gè)原因,,它們使得即便是計(jì)算預(yù)算有限的從業(yè)者也能夠自由地使用和改進(jìn)這些模型,。

??? 2022 年,從規(guī)模競賽轉(zhuǎn)向數(shù)據(jù)競賽

在 2023 年之前,,社區(qū)有哪些開源模型可用,?

直至 2022 年初,機(jī)器學(xué)習(xí)界普遍認(rèn)為,,模型的規(guī)模越大(即擁有的參數(shù)越多),,其性能也越出色。特別是,,模型一旦超過某個(gè)特定的規(guī)模閾值,,其能力似乎會(huì)實(shí)現(xiàn)質(zhì)的飛躍,這兩種現(xiàn)象分別被稱為 突現(xiàn)能力 和 規(guī)模定律,。2022 年推出的多個(gè)預(yù)訓(xùn)練開源模型家族大多遵循這種范例,。

  1. BLOOM (BigScience Large Open-science Open-access Multilingual Language Model)
    BLOOM 是由 BigScience 研究團(tuán)隊(duì)推出的 一系列模型。BigScience 是一個(gè)由 Hugging Face 協(xié)調(diào),,聯(lián)合法國的 GENCI 和 IDRIS 組織共同參與的國際合作項(xiàng)目,,涵蓋了來自 60 個(gè)國家、250 個(gè)研究機(jī)構(gòu)的 1000 名科研人員,。這些模型采用了僅包含解碼器的 transformer 架構(gòu),,并進(jìn)行了細(xì)微調(diào)整,比如引入了嵌入后歸一化和 ALiBi 位置嵌入技術(shù),。在這一系列模型中,,最大的一個(gè)擁有 1760 億個(gè)參數(shù),它接受了 46 種人類語言和 13 種編程語言的 3500 億個(gè)多語言數(shù)據(jù)詞元的訓(xùn)練,。大量的訓(xùn)練數(shù)據(jù)已經(jīng)向公眾開放,,包括數(shù)據(jù)的來源、策劃和處理過程的詳細(xì)信息,。它是目前為止發(fā)布的最大的開源多語言模型,。
  2. OPT (Open Pre-trained Transformer)
    Meta 發(fā)布的 OPT 模型 系列采用了僅包含解碼器的 Transformer 架構(gòu)。這些模型借鑒了 GPT-3 論文中的技術(shù),,如特定的權(quán)重初始化和預(yù)歸一化策略,,并對(duì)注意力機(jī)制進(jìn)行了改進(jìn),比如引入了交替的密集型與局部帶狀注意力層,。系列中最大的模型擁有 1750 億個(gè)參數(shù),,其訓(xùn)練數(shù)據(jù)涵蓋了來自公共領(lǐng)域的 1800 億個(gè)數(shù)據(jù)詞元,,包括書籍、Reddit 社交平臺(tái)數(shù)據(jù),、新聞,、維基百科以及其他多種互聯(lián)網(wǎng)來源。這一系列模型在性能上與 GPT-3 不相上下,,并且通過編碼優(yōu)化減少了計(jì)算資源的消耗,。
  3. GLM-130B (General Language Model)
    清華大學(xué)聯(lián)合智譜 AI 共同發(fā)布了 GLM-130B 模型。該模型基于完整的 Transformer 架構(gòu),,并引入了一些創(chuàng)新(如采用 DeepNorm 進(jìn)行層后歸一化,、使用旋轉(zhuǎn)式位置嵌入),。GLM-130B 擁有 1300 億參數(shù),,是在包含英文和中文的互聯(lián)網(wǎng)數(shù)據(jù)集上訓(xùn)練的,這些數(shù)據(jù)集包括 The Pile,、WuDao 語料庫以及其他中文語料庫,,共計(jì) 4000 億個(gè)詞元。在性能上,,GLM-130B 與 GPT-3 模型不相上下,。
  4. 較小或更專業(yè)的開源大語言模型
    近期,一些較小型的開源模型也相繼發(fā)布,,這些模型主要服務(wù)于科研領(lǐng)域:Meta 推出了 Galactica 系列的大型語言模型(LLM),,其中規(guī)模最大的模型擁有高達(dá) 120B 參數(shù),這些模型是在科學(xué)文獻(xiàn)中的 1060 億個(gè)詞元基礎(chǔ)上進(jìn)行預(yù)訓(xùn)練的,。EleutherAI 則發(fā)布了 GPT-NeoX-20B 模型,,這是一個(gè)完全開源的僅解碼器式 Transformer 模型(包括模型架構(gòu)、權(quán)重和數(shù)據(jù)),,在 5000 億詞元上經(jīng)過訓(xùn)練,,并采用了 RoPE 以及對(duì)注意力機(jī)制和初始化過程的若干改進(jìn),為科學(xué)研究提供了一個(gè)完整的工具集,。

這些巨大的模型令人振奮,,然而,它們的運(yùn)行成本也高得驚人,!在進(jìn)行推理計(jì)算(即從模型中得出預(yù)測結(jié)果)時(shí),,模型必須被加載到內(nèi)存中,而一個(gè)具有一千億參數(shù)的模型往往需要占用高達(dá) 220GB 的內(nèi)存空間(這個(gè)過程我們將在后文中詳細(xì)闡述),,這樣的內(nèi)存需求對(duì)于大多數(shù)機(jī)構(gòu)和專業(yè)人士來說都是難以承擔(dān)的,!

然而,2022 年 3 月,,DeepMind 發(fā)表了一篇 論文,,探討了在固定計(jì)算預(yù)算條件下,,模型參數(shù)與數(shù)據(jù)量的最優(yōu)配比。簡而言之,,如果你的模型訓(xùn)練預(yù)算有限,,應(yīng)該如何平衡模型大小和數(shù)據(jù)規(guī)模?研究者們發(fā)現(xiàn),,在平均計(jì)算預(yù)算下,,對(duì)于大型語言模型(LLMs),更高效的策略是維持一個(gè)相對(duì)較小的模型,,并在更廣泛的數(shù)據(jù)集上進(jìn)行訓(xùn)練,。他們開發(fā)的模型 Chinchilla(未公開)擁有 700 億個(gè)參數(shù),僅為某些大型模型參數(shù)總數(shù)的三分之一,,卻在高達(dá) 1.4 萬億個(gè)詞元的數(shù)據(jù)集上進(jìn)行了訓(xùn)練,,是其他模型所使用數(shù)據(jù)量的三到四倍。結(jié)果顯示,,Chinchilla 在性能上不僅媲美甚至超越了其他更大的同類型模型,,無論是開源還是非開源的。

這種范式的變化,,盡管可能已在封閉的實(shí)驗(yàn)室環(huán)境中為人所知,,但它卻讓整個(gè)開放的科學(xué)界感到措手不及。

?? 2023, 開放發(fā)布之年

小型 大語言模型的崛起

2023 年,,僅解碼器(decoder-only)式的 Transformer 模型迎來了爆發(fā)式增長,。幾乎每月都有新的預(yù)訓(xùn)練模型問世,發(fā)展速度之快以至于漸漸演變?yōu)槊恐苌踔撩咳斩加行履P偷耐瞥?。Meta 在 2 月推出了 LLaMA 模型,;Eleuther AI 在 4 月帶來了 Pythia 模型;MosaicML 在 5 月推出了 MPT 模型,;Salesforce 和 TIIUAE 則在 6 月分別發(fā)布了 X-GEN 和 Falcon 模型,。Meta 緊隨其后,在 7 月發(fā)布了 LLaMA 的升級(jí)版本 LLaMA 2,。進(jìn)入下半年,,9 月阿里巴巴發(fā)布了 Qwen 模型;Mistral.AI 推出了同名 Mistral 模型,;01-ai 在 11 月發(fā)布了 Yi 模型,;Deci 推出了 DeciLM 模型;而 Upstage 則在 12 月帶來了 Phi-2 和 SOLAR 模型,。這一系列的模型發(fā)布,,不僅展示了人工智能領(lǐng)域的快速進(jìn)步,也預(yù)示著技術(shù)的不斷迭代與革新,。

這些發(fā)布包括了:a) 模型權(quán)重(在不同程度的開源許可下),;b) 對(duì)于較小規(guī)模的模型(介于 30 億至 700 億參數(shù)之間),,它們的性能都相當(dāng)出色,因此立刻被社區(qū)采用,。這些模型幾乎都采用僅解碼器的 Transformer 架構(gòu),,并且進(jìn)行了各種調(diào)整(比如 ALiBi 或 RoPE、RMS 預(yù)歸一化,、SwiGLU),,以及對(duì)注意力函數(shù)的一些改變(如 Flash-Attention、GQA,、滑動(dòng)窗口注意力),,并且在不同的代碼庫實(shí)現(xiàn)中進(jìn)行了優(yōu)化,以提高訓(xùn)練或推理速度,。這些調(diào)整很可能在一定程度上影響模型的性能和訓(xùn)練速度,;然而,由于所有架構(gòu)都已經(jīng)連同權(quán)重一起公開發(fā)布,,剩下的核心差異主要在于訓(xùn)練數(shù)據(jù)和模型的許可方式,。

Meta AI 發(fā)布的 LLaMA 系列是該系列中的首款模型。研究團(tuán)隊(duì)的目標(biāo)是在既定的計(jì)算預(yù)算內(nèi)訓(xùn)練不同規(guī)模的模型,,以求達(dá)到最優(yōu)性能。他們首次明確將訓(xùn)練預(yù)算與推理成本(即在滿足特定性能目標(biāo)時(shí),,模型推理所需的成本)并重考慮,。基于這樣的考量,,他們選擇在更大量的數(shù)據(jù)和更多的訓(xùn)練步驟上,,訓(xùn)練規(guī)模較小的模型,以期在較小的模型尺度上獲得更高的性能(這是對(duì)訓(xùn)練計(jì)算效率的一種權(quán)衡),。在 LLaMA 系列中,,最大的模型擁有 650 億參數(shù),經(jīng)過了 1.4 萬億的詞元訓(xùn)練,,而規(guī)模較小的模型 —— 分別具有 60 億和 130 億參數(shù) —— 則在 1 萬億詞元訓(xùn)練后完成,。在大多數(shù)基準(zhǔn)測試中,130 億參數(shù)的 LLaMA 小型模型的表現(xiàn)超過了 GPT-3,,而 650 億參數(shù)的 LLaMA 大模型在發(fā)布時(shí)則代表了最先進(jìn)的技術(shù)水平,。然而,這些模型的權(quán)重是以非商業(yè)許可的形式發(fā)布的,,這限制了它們?cè)谏鐓^(qū)中的應(yīng)用范圍,。

Eleuther AI 是一個(gè)開源的非營利實(shí)驗(yàn)室,它發(fā)布了一系列名為 Pythia 的大型語言模型(LLMs),。這些模型有不同的規(guī)模,,全部采用公開數(shù)據(jù)進(jìn)行訓(xùn)練,,目的是為了幫助研究人員理解大型語言模型訓(xùn)練的不同階段。有關(guān) Pythia 模型的更多信息,,可以通過它們?cè)?Hugging Face 上的 系列合集 查看,。

MosaicML 公司在兩個(gè)月后推出了 MPT 模型,該模型的性能優(yōu)越,,并且支持商業(yè)用途,,同時(shí)公司還公開了其訓(xùn)練的具體細(xì)節(jié)。MPT 的首個(gè)版本是一個(gè) 7B 的模型,,緊接著在 6 月份,,公司發(fā)布了一個(gè)更大的 30B 版本。這兩個(gè)模型都是基于 1 萬億個(gè)英語和編程語言的詞元訓(xùn)練而成,,訓(xùn)練數(shù)據(jù)包括了 C4,、CommonCrawl、The Stack,、S2ORC 等數(shù)據(jù)集,。

MPT 模型推出后不久,TIIUAE 團(tuán)隊(duì)便發(fā)布了 Falcon 系列模型 中的 7B 和 30B 版本,。這些模型在 1 至 1.5 萬億個(gè)英文和代碼詞元上進(jìn)行了訓(xùn)練,,訓(xùn)練數(shù)據(jù)包括來自 RefinedWeb、Project Gutenberg,、Reddit,、StackOverflow、GitHub,、arXiv,、Wikipedia 等多個(gè)來源。同年晚些時(shí)候,,TIIUAE 還發(fā)布了一款更為龐大的 180B 模型,。Falcon 模型的細(xì)節(jié)、所用數(shù)據(jù)以及訓(xùn)練過程均在一份技術(shù)報(bào)告及隨后發(fā)表的 研究論文 中有詳盡的描述,。

先前的模型在公開時(shí)通常會(huì)公開其數(shù)據(jù)集,,但隨后推出的模型很少公布其訓(xùn)練過程中使用的具體信息,這使得重現(xiàn)它們的成果變得困難,。盡管如此,,這些模型通過發(fā)布它們的權(quán)重參數(shù),為研究社區(qū)提供了一個(gè)研究和進(jìn)一步開發(fā)的起點(diǎn),。

Salesforce 在夏初推出了 X-Gen 模型,,這是一款擁有 70 億參數(shù)的模型,訓(xùn)練數(shù)據(jù)包括了 15 萬億個(gè) “自然語言和代碼” 詞元,訓(xùn)練過程分為多個(gè)步驟,,并采用了數(shù)據(jù)調(diào)度系統(tǒng)(并非所有數(shù)據(jù)同時(shí)輸入模型),。

X-Gen 在 Meta 推出的更為引人注目的新的 LLaMA-2 家族的陰影下顯得有些黯然失色。LLaMA-2 是 Meta 推出的一個(gè)新的模型系列,,規(guī)模從 7B 到 70B 不等,,這些模型是在 2 萬億個(gè) “來自公開來源的詞元” 上訓(xùn)練而成的,采用了寬松的社區(qū)許可證,,并經(jīng)過了人類偏好的精細(xì)調(diào)整(RLHF),,即所謂的對(duì)齊過程。

隨后,,新興初創(chuàng)企業(yè) Mistral 推出了其首款模型 ——Mistral-7B,,該模型 是基于互聯(lián)網(wǎng)公開數(shù)據(jù)集的大量數(shù)據(jù)訓(xùn)練而成,具體數(shù)據(jù)量尚未公布,。隨著 2023 年末的臨近,,模型發(fā)布活動(dòng)日益頻繁。Mistral 緊接著發(fā)布了更為龐大的第二款模型 Mixtral 8x7B,。與此同時(shí),,Deci.AI 公司也帶來了其令人矚目的首款模型 DeciLM,upstage 公司也不甘落后,,推出了規(guī)模更大的 SOLAR 模型,。這些模型均采用了來源和數(shù)量未公開的數(shù)據(jù)進(jìn)行訓(xùn)練。在各大排行榜和公開基準(zhǔn)測試中,,這些模型均展現(xiàn)出穩(wěn)步的進(jìn)步,。

在 2023 年年底,值得關(guān)注的一大事件是中國訓(xùn)練并公開發(fā)布了多個(gè)性能顯著提升的模型,。其中,阿里巴巴推出了其雙語(英漢)模型 Qwen 系列,,其參數(shù)規(guī)模從 70 億 至 700 億不等,,經(jīng)過了 240 億詞元數(shù)據(jù)的訓(xùn)練。與此同時(shí),,01-AI 公司也發(fā)布了 Yi 系列模型,,其參數(shù)規(guī)模介于 60 億至 340 億之間,訓(xùn)練數(shù)據(jù)量達(dá)到了 300 億詞元,。這些模型在公開排行榜(如 Open LLM leaderboard)以及一些極具挑戰(zhàn)性的基準(zhǔn)測試(例如 Skill-Mix)中的表現(xiàn),,均超過了之前的模型。2023 年底的另一強(qiáng)有力的新競爭者是 DeepSeek AI,,他們推出了 “DeepSeek-Coder”,,該模型從零開始訓(xùn)練了 200 億詞元數(shù)據(jù),其中包含 87% 的代碼和 13% 的英漢混合自然語言,。

隨處可見的對(duì)話模型

2023 年,,與前一年相比,,幾乎所有新發(fā)布的預(yù)訓(xùn)練模型都配備了預(yù)訓(xùn)練版本和對(duì)話微調(diào)版本,這些版本采納了多種現(xiàn)有的調(diào)整方法,。盡管適用于聊天環(huán)境的模型調(diào)整技術(shù)在 2022 年及以前已有所開發(fā),,但這些技術(shù)在 2023 年得到了廣泛應(yīng)用并迅速興起,這突顯了聊天模型在普羅大眾中使用的快速增長,,以及通過與模型的互動(dòng)對(duì)其進(jìn)行的人工評(píng)估(即 “氛圍檢查” 評(píng)估),。本文將詳細(xì)介紹幾種著名的訓(xùn)練調(diào)整預(yù)訓(xùn)練模型以進(jìn)行聊天的方法,實(shí)際上,,相關(guān)的變體還有很多,!

基于對(duì)話的微調(diào) 是一種特殊形式的監(jiān)督式微調(diào)。在這種方法中,,我們使用的標(biāo)注數(shù)據(jù)是對(duì)話形式的,,類似于社交媒體上的多輪對(duì)話記錄。通過這種方式,,可以對(duì)模型進(jìn)行特定的微調(diào),。在這個(gè)過程中,我們可以采用與模型訓(xùn)練階段相同的技術(shù),。例如,,在處理僅解碼器 Transformer 模型時(shí),可以訓(xùn)練模型通過自回歸方法,,即逐一預(yù)測接下來的詞元,。

指令微調(diào)(Instruction-based Fine-Tuning,IFT)采用相同的方法,,但使用指令數(shù)據(jù)集,,該數(shù)據(jù)集包含一系列類似查詢的提示以及答案(如果需要,還可以包含可選的附加輸入),。這些數(shù)據(jù)集教導(dǎo)模型如何遵循指示,,并且可以是人類生成的,也可以是大型語言模型生成的,。

利用大規(guī)模模型輸出的合成數(shù)據(jù)集(由模型生成的數(shù)據(jù)集,,例如來自 GPT-4 的生成,可以是來自指示或用戶與模型之間的交互)是實(shí)現(xiàn)指導(dǎo)微調(diào)和聊天微調(diào)的一種方式,。這通常被稱為 “蒸餾”,,因?yàn)樗婕皬男阅茌^高的模型中獲取知識(shí),以訓(xùn)練或微調(diào)較小的模型,。

這兩種方法都相對(duì)容易執(zhí)行:你只需找到或創(chuàng)建相應(yīng)的數(shù)據(jù)集,,然后采用與訓(xùn)練時(shí)相同的技術(shù)對(duì)模型進(jìn)行調(diào)整即可。去年,發(fā)布了眾多指導(dǎo)性數(shù)據(jù)集,,它們有效提升了模型在對(duì)話場景中的表現(xiàn),。想要了解更多關(guān)于此主題的信息,可以參閱這篇介紹性博文的 鏈接,。然而,,盡管模型的性能有了顯著提升,但它們?nèi)晕茨芡耆_(dá)到人類的預(yù)期水平,。

從人類反饋中強(qiáng)化學(xué)習(xí)(Reinforcement Learning from Human Feedback,,RLHF)是一項(xiàng)旨在使模型輸出與人類偏好(基于特定標(biāo)準(zhǔn))相一致的特定方法。具體操作流程如下:模型根據(jù)給定的提示生成多個(gè)潛在答案,;人類評(píng)估者對(duì)這些答案進(jìn)行排序,;然后,這些排序結(jié)果用于訓(xùn)練一個(gè)偏好模型(該模型學(xué)習(xí)如何給出反映人類對(duì)答案偏好程度的評(píng)分),;最后,,利用偏好模型通過強(qiáng)化學(xué)習(xí)對(duì)語言模型進(jìn)行進(jìn)一步的微調(diào)。更詳細(xì)的信息,,請(qǐng)參閱這篇 博客文章,,原始 RLHF 論文,或者 Anthropic 關(guān)于 RLHF 的論文,。需要注意的是,,這是一種成本較高的方法(注釋 / 排名 + 訓(xùn)練新模型 + 微調(diào)的整個(gè)過程成本很高),主要用于確保模型的輸出與安全目標(biāo)相符,。為了降低成本,,人們開發(fā)了一種低成本的變體方法,即利用高質(zhì)量的語言模型來對(duì)模型輸出進(jìn)行評(píng)分,,而不是完全依賴人類評(píng)價(jià),,這種方法稱為從 人工智能反饋中學(xué)習(xí)的強(qiáng)化學(xué)習(xí)(Reinforcement Learning from AI Feedback, RLAIF)。

直接偏好優(yōu)化(Direct Preference Optimization, DPO)是 RLHF 的另一種變體,,其核心優(yōu)勢在于無需訓(xùn)練和運(yùn)用獨(dú)立的偏好模型,。這一方法同樣需要人類或人工智能生成的排序數(shù)據(jù)集,但它通過直接利用這些數(shù)據(jù)來更新模型,,即通過對(duì)比模型現(xiàn)有的策略(即預(yù)測行為)與理想的策略(即能夠預(yù)測出最優(yōu)排序答案的行為)。換言之,,模型本身即扮演了對(duì)齊和偏好模型的雙重角色,,這不僅簡化了優(yōu)化流程,而且根據(jù)報(bào)告,,還能夠?qū)崿F(xiàn)與其他方法相媲美的性能水平,。

回到來自(大多數(shù))私企的小型開放權(quán)重模型的浪潮,其中很多模型都發(fā)布了經(jīng)過精細(xì)調(diào)整的對(duì)應(yīng)版本:MPT-7B 還配備了一個(gè)指令微調(diào)和一個(gè)對(duì)話版本,F(xiàn)alcon 和 XGen 模型的指令微調(diào)版本在年底發(fā)布,,Llama-2,、Qwen 和 Yi 發(fā)布了對(duì)話版本,DeciLM 則發(fā)布了一個(gè)指令微調(diào)版本,。Llama-2 的發(fā)布尤其引人注目,,因?yàn)樗陬A(yù)訓(xùn)練和指令微調(diào)模型中都特別注重安全性。

社區(qū)的進(jìn)展如何,?

雖然隨著新模型的發(fā)布,,聊天模型和指令微調(diào)模型通常會(huì)立即推出,但社區(qū)成員和研究人員并沒有把這看作是理所應(yīng)當(dāng)?shù)?。在這些基礎(chǔ)模型提供的沃土上,,涌現(xiàn)出了一個(gè)龐大而活躍的微調(diào)愛好者社區(qū)。這些微調(diào)專家經(jīng)常會(huì)構(gòu)建新的數(shù)據(jù)集,,并對(duì)模型進(jìn)行細(xì)致的微調(diào),,以此來展現(xiàn)新發(fā)布模型的出色性能。

在 2023 年伊始,,一些專為指令交互和對(duì)話微調(diào)設(shè)計(jì)的數(shù)據(jù)集已經(jīng)被發(fā)布,。例如,代表人類偏好的數(shù)據(jù)集包括 OpenAI 的 WebGPT 數(shù)據(jù)集,、Anthropic 的 HH-RLHF 數(shù)據(jù)集以及 OpenAI 的 摘要 數(shù)據(jù)集,,它們?cè)谶@一領(lǐng)域是開拓者。指令數(shù)據(jù)集的例子包括 BigScience 的 公共提示池,、Google 的 FLAN 1 和 2(FLAN 數(shù)據(jù)集),、AllenAI 的 自然指令 數(shù)據(jù)集、由不同機(jī)構(gòu)的研究人員開發(fā)的自動(dòng)生成指令框架 自我指令,、由專家創(chuàng)建的指令基準(zhǔn) 超自然指令(有時(shí)用作微調(diào)數(shù)據(jù)),,以及由特拉維夫大學(xué)和 Meta 合作生成的自動(dòng)指令數(shù)據(jù)集 非自然指令 等。

?? 冬 2022/2023: 一月,,來自中國多個(gè)研究機(jī)構(gòu)的研究人員共同發(fā)布了 人類 ChatGPT 指令語料庫(HC3),,其中包含了人類與模型對(duì)各種問題的回答。3 月份,,發(fā)布活動(dòng)接連不斷:斯坦福大學(xué)推出了 Alpaca 模型,,這是首個(gè)遵循指令的 LLaMA 模型(7B),以及相關(guān)的數(shù)據(jù)集,,包括用大型語言模型生成的 52K 條指令,。非營利開源實(shí)驗(yàn)室 LAION 發(fā)布了 開放指令通用數(shù)據(jù)集(OIG),包含 4300 萬條指令,,這些指令既有通過數(shù)據(jù)增強(qiáng)創(chuàng)建的,,也有編譯自其他現(xiàn)有數(shù)據(jù)源的,。同月,位于加州大學(xué)伯克利分校的 LMSYS 組織發(fā)布了 Vicuna,,這也是一個(gè)基于 ChatGPT 聊天數(shù)據(jù)的 LLaMA 精調(diào)模型(13B),,這些聊天數(shù)據(jù)是用戶與 ChatGPT 之間的對(duì)話,由用戶自己公開分享在 ShareGPT 上,。還發(fā)布了 Guanaco 數(shù)據(jù)集,,它是 Alpaca 數(shù)據(jù)集的擴(kuò)展版(增加了 50 萬條多語言條目),以及相關(guān)的 LLaMA-7B 精調(diào)模型,。

?? 春:四月,,伯克利人工智能研究實(shí)驗(yàn)室(Berkeley AI Research lab,BAIR)發(fā)布了 Koala,,這是一個(gè)經(jīng)過聊天調(diào)優(yōu)的 LLaMA 模型,,它使用了多個(gè)先前的數(shù)據(jù)集(包括 Alpaca、HH-RLHF,、WebGPT,、ShareGPT),而 DataBricks 則發(fā)布了 Dolly 數(shù)據(jù)集,,這是一個(gè)由 15K 條人工生成的指令組成的數(shù)據(jù)集,,以及相關(guān)的 Pythia 微調(diào)模型。五月,,清華大學(xué)發(fā)布了 UltraChat,,這是一個(gè)包含 1.5M 對(duì)話指令的數(shù)據(jù)集,以及在該數(shù)據(jù)集上進(jìn)行微調(diào)的 UltraLLaMA 模型,。隨后,,微軟發(fā)布了 GPT4-LLM 數(shù)據(jù)集 / 框架,用于生成 GPT4 的指令,。六月,,微軟研究院分享了一種新方法 Orca,通過使用大型模型的推理軌跡(逐步解釋其推理過程)來構(gòu)建指令數(shù)據(jù)集,,該方法很快被社區(qū)(尤其是 Alignementlab.ai)復(fù)現(xiàn),,他們創(chuàng)建了 Open Orca 數(shù)據(jù)集,包含數(shù)百萬條條目,,隨后用于微調(diào)多個(gè)模型(如 Llama,、Mistral 等)。五月和六月期間,,Camel-AI 發(fā)布了多個(gè)關(guān)于不同話題(物理,、生物、化學(xué)等)的指令或聊天數(shù)據(jù)集,,每個(gè)領(lǐng)域都有超過 20K 的示例,。同樣在六月,發(fā)布了 Airoboros 框架,,用于使用模型生成的數(shù)據(jù)微調(diào)模型(遵循自我指導(dǎo)方法),,以及一系列的 指令數(shù)據(jù)集。

?? 夏:八月,,由中國的非營利組織 OpenBMB 發(fā)布了 UltraLM(一種基于 LLaMA 的高性能聊天模型微調(diào)版本),,隨后在九月,他們又發(fā)布了相關(guān)的偏好數(shù)據(jù)集 UltraFeedback,,這是一個(gè)包含與 GPT4 對(duì)比的輸入反饋數(shù)據(jù)集,,并附有注釋。在整個(gè)夏天,,一個(gè)名為 NousResearch 的集體發(fā)布了多個(gè)基于私有和公開指導(dǎo)數(shù)據(jù)集的微調(diào)版本(特別是 Hermes 和 Capybara 系列),。九月,清華大學(xué)的一個(gè)學(xué)生團(tuán)隊(duì)發(fā)布了 OpenChat,,這是一個(gè)應(yīng)用了新的強(qiáng)化學(xué)習(xí)微調(diào)策略的 LLaMA 微調(diào)版本,。

?? 秋:十月,Hugging Face 發(fā)布了 Zephyr 模型,,這是一個(gè)在 UltraChat 和 UltraFeedback 上使用 DPO 和 AIF 技術(shù)對(duì) Mistral 模型進(jìn)行微調(diào)的產(chǎn)物,。同時(shí),社區(qū)成員發(fā)布了 OpenHermes 2,,這是一個(gè)在來自網(wǎng)絡(luò)或使用 Axolotl 生成的 900K 條目上對(duì) Mistral-7B 模型進(jìn)行微調(diào)的版本,。Lmsys 發(fā)布了 LMSYS-Chat-1M,包含了與 25 個(gè)大型語言模型(LLMs)的真實(shí)用戶對(duì)話,。十一月,,OpenBuddy 發(fā)布了 OpenBuddy-Zephyr,這是一個(gè)對(duì) Zephyr 模型進(jìn)行微調(diào)的多輪對(duì)話模型,。同月,,NVIDIA 發(fā)布了 HelpSteer 數(shù)據(jù)集,這是一個(gè)對(duì)齊微調(diào)數(shù)據(jù)集,,提供了提示,、相關(guān)模型回應(yīng)以及基于幾個(gè)標(biāo)準(zhǔn)對(duì)這些回答的評(píng)分,而微軟研究院則發(fā)布了 Orca-2 模型,,這是一個(gè)在新的合成推理數(shù)據(jù)集上對(duì) Llama 2 模型進(jìn)行微調(diào)的版本,。十二月,伯克利大學(xué)發(fā)布了 Starling 模型,,這是一個(gè)對(duì) Open-Chat 模型進(jìn)行 RLAIF 微調(diào)的版本,,以及相關(guān)的數(shù)據(jù)集 Nectar,包含了 20 萬條比較數(shù)據(jù),。

正如我們看到的,,今年整個(gè)領(lǐng)域的發(fā)展既依賴于通過使用高質(zhì)量的預(yù)訓(xùn)練大型語言模型(LLMs)創(chuàng)建新數(shù)據(jù)集,,也依賴于社區(qū)發(fā)布的各種開源模型,這使得該領(lǐng)域進(jìn)步飛速,!如果你現(xiàn)在在模型名稱中看到這些名字中的任何一個(gè),,你就能夠大概了解它的來源了??。

  • 還有一些更專業(yè)的數(shù)據(jù)集,,例如用于數(shù)學(xué)問題微調(diào)的 MetaMath 和 MathInstruct,,以及涉及數(shù)學(xué)和代碼指令的 Evol-Instruct,還有 CodeAlpaca 與 CodeCapybara 等代碼指令相關(guān)的數(shù)據(jù)集也已發(fā)布,。雖然這些數(shù)據(jù)集同樣被用于提升模型在特定任務(wù)上的表現(xiàn),,但我們?cè)诖瞬粫?huì)詳細(xì)介紹它們。你還可以訪問 令人心動(dòng)的指令數(shù)據(jù)集 來查看其他相關(guān)數(shù)據(jù)集的集合,。

開啟定制模型的大門

模型融合:極致的定制化

在開源社區(qū)的典范實(shí)踐中,,一個(gè)重要的里程碑是模型與數(shù)據(jù)的融合。隨著每一次代碼合并或提交,,追溯所使用數(shù)據(jù)的來源變得愈發(fā)復(fù)雜 —— 許多公開的數(shù)據(jù)集本身就是其他數(shù)據(jù)集的匯編,。同樣,由于卓越性能的模型往往是在相似模型的基礎(chǔ)上經(jīng)過層層微調(diào)得來的(可參考 Mistral 的 衍生模型樹),,模型的發(fā)展歷史也變得難以梳理,。在這篇摘要中,我們尚未有足夠的篇幅深入探討這一引人入勝的技術(shù)領(lǐng)域,,但在最后,,我們將簡要介紹一下它的概念。

然而,,“模型融合” 究竟是什么意思呢,?

模型融合 是一種將不同模型的權(quán)重融合到一個(gè)單一模型中的方法,其理想目標(biāo)是將每個(gè)模型的各自優(yōu)勢結(jié)合在一個(gè)統(tǒng)一的模型中,。目前已有一些技術(shù)實(shí)現(xiàn)了這一目標(biāo),,這些技術(shù)大多在社區(qū)論壇中得到擴(kuò)展和發(fā)布,這是一個(gè)全球范圍內(nèi)的去中心化研究的典型案例,,涵蓋了從業(yè)者,、研究人員到業(yè)余愛好者的廣泛社區(qū)。其中一種最簡單的公開方法是平均一組具有共同架構(gòu)的模型的參數(shù)(示例 1,,示例 2),,但還存在更復(fù)雜的參數(shù)組合方法,例如確定每個(gè)模型中對(duì)特定任務(wù)最有影響力的參數(shù)(加權(quán)平均),,或者在合并前考慮模型間參數(shù)的相互干擾,,從而選擇保留哪些參數(shù)(關(guān)聯(lián)融合)。

這些技術(shù)使任何人都能輕松地生成模型的組合,,而且由于大多數(shù)現(xiàn)代模型都是基于同一架構(gòu)的變體,,這一過程變得尤為簡便,。這也是 Open LLM leaderboard 上一些模型名稱如 llama2-zephyr-orca-ultra 的原因。這個(gè)特定的例子很可能是將 llama2zephyr 模型合并后,,再在 orca 和 ultra 數(shù)據(jù)集上進(jìn)行微調(diào)的結(jié)果,。通常,更多的細(xì)節(jié)可以在 Hugging Face 中心的相應(yīng)模型卡片上找到,。

參數(shù)高效微調(diào):觸手可及的個(gè)性化體驗(yàn)

有時(shí)候,你可能需要進(jìn)行更為細(xì)致的個(gè)性化調(diào)整,,但受限于硬件顯存大小,,無法加載完整模型進(jìn)行微調(diào)。其實(shí),,你知道嗎,?微調(diào)時(shí)并不必須要用到模型的全部。

你或許想嘗試一種叫做 參數(shù)高效微調(diào)(Parameter-Efficient Fine-Tuning,,PEFT)的方法,。這項(xiàng)技術(shù)首先會(huì)凍結(jié)你所關(guān)注的預(yù)訓(xùn)練模型中的參數(shù),然后在其基礎(chǔ)上附加一些新的參數(shù)層,,也就是我們所說的 “適配器”,。接下來,你只需對(duì)這些專為你的任務(wù)設(shè)計(jì)的輕量級(jí)適配器權(quán)重進(jìn)行微調(diào),,這些權(quán)重遠(yuǎn)小于原始模型的規(guī)模,。這樣,你僅需分享你的小型適配器權(quán)重(以及底層模型)即可,!你可以在 這里 探索一系列引人入勝的 PEFT 技術(shù),。

量化:模型普及于各處

我們已經(jīng)看到,性能出色的模型現(xiàn)在形態(tài)各異…… 但即便如此,,并不意味著它們對(duì)所有人都是觸手可及的,!一個(gè)擁有 300 億參數(shù)的模型僅僅加載到內(nèi)存中(還未開始使用)就可能需要超過 66GB 的 RAM,而并非社區(qū)中的每個(gè)人都有能力配備這樣的硬件,。

這就是量化技術(shù)的用武之地,!量化是一種特殊的技術(shù),它通過改變模型參數(shù)的精度來減少模型的大小,。

量化是什么意思呢,?

在計(jì)算機(jī)中,數(shù)字是以一定的精度存儲(chǔ)的,,例如 float32,、float16int8 等,。精度不僅指明了數(shù)字類型(是浮點(diǎn)數(shù)還是整數(shù)),,同時(shí)也指出了數(shù)字存儲(chǔ)所占用的內(nèi)存大?。豪?float32 是在計(jì)算機(jī)上以 32 位存儲(chǔ)的浮點(diǎn)數(shù)。要了解更深入的解釋,,請(qǐng)參見這個(gè) 鏈接,。因此,數(shù)據(jù)的精度越高,,它所占用的物理內(nèi)存就越多,,這是因?yàn)樾枰嗟奈粊泶鎯?chǔ)這些數(shù)據(jù)。

因此,,如果你降低精度,,就會(huì)減少模型參數(shù)在存儲(chǔ)上占用的內(nèi)存,進(jìn)而減小模型的大??!這也意味著你降低了計(jì)算的實(shí)際精度,可能會(huì)降低模型的性能,。然而,,我們發(fā)現(xiàn),在較大的模型上,,這種性能下降實(shí)際上是 非常有限 的,。

回到我們之前的例子中,一個(gè)含有 300 億參數(shù)的模型,,在使用 float16 格式時(shí)需要不到 66GB 的內(nèi)存,。如果采用 8bit,內(nèi)存需求將減半至 33GB,;若使用 4bit 編碼,,則只需大約 16GB,進(jìn)一步降低了內(nèi)存的要求,,使得模型更易于部署和使用,。

精度轉(zhuǎn)換有多種方法,涉及不同的 “轉(zhuǎn)換” 策略,,每種策略都有其獨(dú)特的優(yōu)勢和局限,。目前流行的轉(zhuǎn)換方法包括 bitsandbytes、GPTQ, 和 AWQ 等,。有些開發(fā)者,,例如 TheBloke,甚至正在將所有流行的模型進(jìn)行轉(zhuǎn)換,,以便更容易地被社區(qū)使用,。所有這些方法都是相對(duì)較新并且仍在不斷發(fā)展之中,我們期待隨著時(shí)間的推移,這些技術(shù)能夠取得更多的進(jìn)步,。

接下來呢,?

年尾尚未到來!在這最后時(shí)刻,,已經(jīng)迎來了一些驚喜:新的架構(gòu)是否終將超越簡單高效的 Transformer 模型呢,?

最新發(fā)布包括:

  • 混合專家模型:
    • Mixtral,該模型由 8 個(gè)子模型(僅解碼器的 Transformer 模型)組成,,對(duì)于每個(gè)輸入,,一個(gè)路由器會(huì)選擇兩個(gè)最佳子模型并將它們的輸出求和。
  • 幾種狀態(tài)空間模型(通過潛在空間將輸入映射到輸出的模型,,可以根據(jù)任務(wù)需求表達(dá)為 RNN 或 CNN):
    • Mamba,,增加了選擇機(jī)制的狀態(tài)空間模型
    • Striped Hyena,具有快速卷積核的狀態(tài)空間模型

目前來說,,這些新方法是否會(huì)取代 Transformer 模型還為時(shí)尚早,但狀態(tài)空間模型確實(shí)非常有前景,!

要點(diǎn)回顧

  • 今年,,從大型企業(yè)到初創(chuàng)公司,再到研究實(shí)驗(yàn)室,,各種主體紛紛開放發(fā)布模型,,這極大地賦能了社區(qū),使其以前所未有的速度開始進(jìn)行實(shí)驗(yàn)和探索,。
  • 模型公告的開放性呈現(xiàn)出起伏變化,,從年初的公開發(fā)布(數(shù)據(jù)集組合、權(quán)重,、架構(gòu))到年末對(duì)訓(xùn)練數(shù)據(jù)守口如瓶,,導(dǎo)致無法復(fù)現(xiàn)。
  • 開源模型出現(xiàn)在包括中國在內(nèi)許多新的地方,,有幾個(gè)新的參與者將自己定位為語言模型競爭中的強(qiáng)勁競爭者,。
  • 個(gè)性化定制的可能性達(dá)到了前所未有的高度,新策略的出現(xiàn)(如強(qiáng)化學(xué)習(xí)優(yōu)化的微調(diào),、適配器,、合并技術(shù)),雖然這僅僅是個(gè)開始,。
  • 更小的模型尺寸和量化升級(jí)使得大型語言模型對(duì)更多人來說變得真正唾手可得,!
  • 新的架構(gòu)也隨之出現(xiàn) —— 它們是否最終會(huì)取代 Transformer 架構(gòu),仍是一個(gè)值得關(guān)注的問題,。

各位朋友們,,就是這樣了!

希望你喜歡我們今年的回顧,從中學(xué)到了一些知識(shí),,并且和我一樣,,對(duì)于人工智能進(jìn)步現(xiàn)在如此依賴開源和社區(qū)努力感到無比熱情!??

英文原文:https://huggingface.co/blog/2023-in-llms 原文作者:Clémentine Fourrier
譯者: Xinyu Yang (楊新宇),,字節(jié)跳動(dòng)算法工程師,,工作方向?yàn)橥ㄟ^ SFT、RL 提升大模型 Math,、Reasoning 能力,。

免責(zé)聲明:本文來自網(wǎng)絡(luò)收錄或投稿,觀點(diǎn)僅代表作者本人,,不代表芒果財(cái)經(jīng)贊同其觀點(diǎn)或證實(shí)其描述,,版權(quán)歸原作者所有。轉(zhuǎn)載請(qǐng)注明出處:http://lequren.com/1085913.html
溫馨提示:投資有風(fēng)險(xiǎn),,入市須謹(jǐn)慎,。本資訊不作為投資理財(cái)建議。

(0)
AI之勢的頭像AI之勢
上一篇 2024年1月3日 下午2:59
下一篇 2024年1月3日
198搶自鏈數(shù)字人

相關(guān)推薦