原文來(lái)源:深思SenseAI
圖片來(lái)源:由無(wú)界 AI生成
故事要從 11 月 23 日的感恩節(jié)前夕說(shuō)起,,路透社發(fā)文報(bào)道稱 OpenAI 的幾名研究員給董事會(huì)寫了一封信提示一個(gè)強(qiáng)大的人工智能發(fā)現(xiàn)可能會(huì)威脅人類,,這可能是奧特曼被解雇的重要原因,。隨后 OpenAI 在發(fā)給員工的內(nèi)部消息中承認(rèn)有一個(gè)名為 Q* 的項(xiàng)目,在擁有大量計(jì)算資源的情況下,,它能夠解決某些數(shù)學(xué)問(wèn)題,。只有一個(gè)名字,沒(méi)有論文,沒(méi)有產(chǎn)品,,Jim Fan 說(shuō)在他做 AI 的十年里還沒(méi)有見過(guò)一個(gè)算法能讓這么多人好奇,。
雖然 Q* 的數(shù)學(xué)能力據(jù)悉只有小學(xué)生的水平,但它標(biāo)志著 LLM 推理能力的增強(qiáng)和幻覺問(wèn)題的處理,,是實(shí)現(xiàn)通用人工智能(AGI)的關(guān)鍵突破,。目前沒(méi)有官方解釋 Q* 究竟是什么,但 Nathan Lambert 和 Jim Fan 等技術(shù)大 V 給出了最靠譜的假設(shè),,也是對(duì)于如何進(jìn)一步提升模型推理能力的方法猜想,,解讀如下。
Let's learn step by step.
01. 重溫 AlphaGo
要理解搜索與學(xué)習(xí)算法之間的強(qiáng)強(qiáng)聯(lián)手,,我們需要回到 2016 年,,重溫人工智能歷史上的輝煌時(shí)刻 AlphaGo。
它有 4 個(gè)關(guān)鍵要素:?
- 策略 NN(學(xué)習(xí)):負(fù)責(zé)選擇好的棋步,。它能估算出每一步棋獲勝的概率,。?
- 價(jià)值 NN(學(xué)習(xí)):評(píng)估棋盤并預(yù)測(cè)圍棋中任何給定可行局面的勝負(fù)。?
- MCTS(搜索):蒙特卡羅樹搜索,。它使用策略 NN 模擬從當(dāng)前位置出發(fā)的許多可能的走棋順序,,然后匯總這些模擬的結(jié)果,決定最有希望的走棋,。這是 "慢思考 "部分,,與 LLM 的快速標(biāo)記采樣形成鮮明對(duì)比。?
- 驅(qū)動(dòng)整個(gè)系統(tǒng)的地面實(shí)況信號(hào)(Groundtruth signal),。在圍棋中,,它就像二進(jìn)制標(biāo)簽 "誰(shuí)贏了 "一樣簡(jiǎn)單,由一套既定的游戲規(guī)則決定,??梢园阉醋魇蔷S持學(xué)習(xí)進(jìn)度的能量源。
那么上面四個(gè)部分如何協(xié)同,?
AlphaGo 進(jìn)行自我對(duì)弈,,即與自己的舊檢查點(diǎn)對(duì)弈。隨著自我對(duì)弈的繼續(xù),,"策略網(wǎng)絡(luò)"(Policy NN)和 "價(jià)值網(wǎng)絡(luò)"(Value NN)都會(huì)得到迭代改進(jìn):隨著策略在選擇棋步方面變得越來(lái)越好,,"價(jià)值網(wǎng)絡(luò)"(Value NN)也會(huì)獲得更好的數(shù)據(jù)來(lái)進(jìn)行學(xué)習(xí),進(jìn)而為策略提供更好的反饋,。更強(qiáng)的策略也有助于 MCTS 探索更好的策略,。
這就完成了一個(gè)巧妙的 "永動(dòng)機(jī)"。通過(guò)這種方式,,AlphaGo 能夠引導(dǎo)自己的能力,,并在 2016 年以 4 比 1 的比分擊敗人類世界冠軍李世石,。
僅靠模仿人類數(shù)據(jù),人工智能無(wú)法成為“超人”,。
02. Q* 的合理猜測(cè)
僅憑一個(gè)項(xiàng)目的名稱,,就能引發(fā)如此廣泛的猜測(cè),這還是第一次,。不過(guò),,這個(gè)簡(jiǎn)單的名字可能并不僅僅是《沙丘》宇宙中的另一個(gè)代號(hào)。
核心結(jié)論:Jim Fan 認(rèn)為 Q* 包括下面四個(gè)組成部分,。與 AlphaGo 一樣,,"策略 LLM "和 "價(jià)值 LLM "可以相互迭代改進(jìn),并隨時(shí)從人類專家的注釋中學(xué)習(xí),。更好的策略 LLM 將幫助思維樹搜索探索更好的策略,,進(jìn)而為下一輪收集更好的數(shù)據(jù)。
1. 策略 NN:這是 OpenAI 最強(qiáng)大的內(nèi)部 GPT,,負(fù)責(zé)實(shí)現(xiàn)解決數(shù)學(xué)問(wèn)題的思維軌跡,。
2. 價(jià)值 NN:另一個(gè) GPT,用于評(píng)估每個(gè)中間推理步驟的正確性,。?
3. 搜索:與 AlphaGo 的離散狀態(tài)和行為不同,,LLM 是在 "所有合理的字符串 "這一更為復(fù)雜的空間中運(yùn)行的,因此需要新的搜索程序,。
4. 地面實(shí)況信號(hào)(Groundtruth signal):可以理解為是對(duì)過(guò)程結(jié)果的打分?jǐn)?shù)據(jù),。OpenAI 可能已從現(xiàn)有的數(shù)學(xué)考試或競(jìng)賽中收集了大量語(yǔ)料,,或者使用模型本身合成數(shù)據(jù)做增強(qiáng),。
Nathan 最初的猜測(cè)是將 Q-learning 和 A* 搜索模糊地合并在一起,但隨著對(duì)這個(gè)問(wèn)題研究的深入,,可以越來(lái)越相信,,他們通過(guò)思維樹推理搜索語(yǔ)言/推理步驟的能力很強(qiáng),但這種飛躍比人們想象的要小得多,??浯笃湓~的原因在于,他們的目標(biāo)是將大型語(yǔ)言模型的訓(xùn)練和使用與 Deep RL 的核心組成部分聯(lián)系起來(lái),,而正是這些核心組成部分促成了 AlphaGo 的成功:自我博弈(Self-play)和前瞻性規(guī)劃(Look-ahead planning),。
- 自我對(duì)弈(Self-play):是指代理(agent)可以通過(guò)與略有不同的自己進(jìn)行博弈來(lái)提高自己的博弈水平,因?yàn)樗鼤?huì)逐漸遇到更具挑戰(zhàn)性的情況,。在 LLM 的空間中,,幾乎可以肯定的是,自我對(duì)弈的最大部分將看起來(lái)像人工智能反饋,,而不是競(jìng)爭(zhēng)過(guò)程,。
- 前瞻性規(guī)劃(Look-ahead planning):是指使用世界模型來(lái)推理未來(lái),,并產(chǎn)生更好的行動(dòng)或產(chǎn)出。兩種變體分別基于模型預(yù)測(cè)控制(MPC)和蒙特卡洛樹搜索(MCTS),,前者通常用于連續(xù)狀態(tài),,后者則用于離散行動(dòng)和狀態(tài)。
要了解這兩者之間的聯(lián)系,,我們需要了解 OpenAI 和其他公司最近發(fā)表的成果,,這些成果將回答兩個(gè)問(wèn)題:
1.?我們?nèi)绾螛?gòu)建可以搜索的語(yǔ)言表征?
2. 我們?cè)撊绾螛?gòu)建一種價(jià)值概念,,并將其覆蓋到分門別類且有意義的語(yǔ)言片段,,而非整個(gè)語(yǔ)篇上?
有了這些問(wèn)題的答案,,我們就可以清楚地知道如何使用用于 RLHF 的現(xiàn)有 RL 方法,。我們使用 RL 優(yōu)化器對(duì)語(yǔ)言模型進(jìn)行微調(diào),并通過(guò)模塊化獎(jiǎng)勵(lì)獲得更高質(zhì)量的生成(而不是像現(xiàn)在這樣獲得完整序列),。
03. 通過(guò) ToT 提示進(jìn)行 LLMs 模塊化推理:
提示詞里“深呼吸"(take a deep breath)和 "一步步思考 "(think step by step)等技巧的推廣,,如今已經(jīng)擴(kuò)展到了利用并行計(jì)算和啟發(fā)式(搜索的一些基本原理)進(jìn)行推理的高級(jí)方法。
思維樹 (ToT)聽起來(lái)確實(shí)如此,。這是一種促使語(yǔ)言模型創(chuàng)建推理路徑樹的方法,,推理路徑樹可能會(huì)也可能不會(huì)匯聚到正確答案。論文中對(duì)使用 LLMs 解決問(wèn)題的其他方法進(jìn)行了比較:
基礎(chǔ)模型在大規(guī)模數(shù)據(jù)集上訓(xùn)練,,可以執(zhí)行廣泛的任務(wù),。開發(fā)人員使用基礎(chǔ)模型作為強(qiáng)大的生成式AI應(yīng)用的基礎(chǔ),例如ChatGPT,。
選擇基礎(chǔ)模型時(shí)的一個(gè)關(guān)鍵考慮因素是開源與非開源,,下面概述了兩種模型各自的優(yōu)點(diǎn)和缺點(diǎn):
ToT 的創(chuàng)新之處在于將推理步驟分塊,并促使模型創(chuàng)建新的推理步驟,。這應(yīng)該是第一種用于提高推理性能的 "遞歸 "提示技術(shù),,與人工智能安全所關(guān)注的遞歸自我改進(jìn)模型非常接近。
對(duì)于推理樹,,可以采用不同的方法對(duì)每個(gè)頂點(diǎn)(節(jié)點(diǎn))進(jìn)行評(píng)分,,或?qū)ψ罱K路徑進(jìn)行采樣。它可以基于諸如到最一致答案的最短路徑,,也可以基于需要外部反饋的復(fù)雜路徑,,這又把我們引向了 RLHF 的方向。
ToT 論文地址:https://arxiv.org/abs/2305.10601
04. 細(xì)粒度獎(jiǎng)勵(lì):過(guò)程獎(jiǎng)勵(lì)模型 PRM
迄今為止,,大多數(shù) RLHF 的方法都是讓語(yǔ)言模型的整個(gè)響應(yīng)得到一個(gè)相關(guān)的分?jǐn)?shù),。對(duì)于任何具有 RL 背景的人來(lái)說(shuō),這都是令人失望的,,因?yàn)樗?strong>限制了 RL 方法將文本的每個(gè)子部分的價(jià)值聯(lián)系起來(lái)的能力,。
有人指出,,未來(lái)由于需要有人類或一些提示源在循環(huán)中,這種多步驟優(yōu)化將在多個(gè)對(duì)話回合的層面上進(jìn)行,,但這比較牽強(qiáng),。這可以很容易地?cái)U(kuò)展到自我對(duì)弈式的對(duì)話中,但很難賦予 LLMs 目標(biāo),,使其轉(zhuǎn)化為持續(xù)改進(jìn)的自我對(duì)弈動(dòng)態(tài),。我們想讓 LLMs 做的大多數(shù)事情都是重復(fù)性任務(wù),而不會(huì)像圍棋那樣對(duì)性能設(shè)置近乎無(wú)限的上限,。?
另一方面,,有一種 LLM 用例可以很自然地抽象為文本塊:逐步推理,數(shù)學(xué)問(wèn)題就是最好的例子,。
過(guò)程獎(jiǎng)勵(lì)模型(PRMs)是 Nathan 在過(guò)去 6 個(gè)月里從 RLHF 朋友那里聽到的一個(gè)非公開話題,。關(guān)于這些模型的文獻(xiàn)很多,但關(guān)于如何在 RL 中使用這些模型的文獻(xiàn)卻很少,。PRM 的核心理念是為每個(gè)推理步驟而不是完整的信息分配分?jǐn)?shù),。下面是 OpenAI 論文《讓我們一步步驗(yàn)證》( Let’s Verify Step by Step)中的一個(gè)例子:
圖 2 為同一個(gè)問(wèn)題的兩種解決方案,左邊答案是正確的,,右邊的答案錯(cuò)誤,。綠色背景表示 PRM 得分高,紅色背景表示 PRM 得分低,。PRM 可以正確識(shí)別錯(cuò)誤解決方案中的錯(cuò)誤,。對(duì)于錯(cuò)誤的解決方案,兩種方法都揭示出至少存在一個(gè)錯(cuò)誤,,但過(guò)程監(jiān)督還揭示了該錯(cuò)誤的確切位置,。
而他們使用的有趣的反饋界面(將被人工智能取代),卻很有啟發(fā)性:
這樣就可以通過(guò)對(duì)最大平均獎(jiǎng)勵(lì)或其他指標(biāo)進(jìn)行采樣,,而不是僅僅依靠一個(gè)分?jǐn)?shù)(標(biāo)準(zhǔn) RM 在該文獻(xiàn)中被稱為結(jié)果 RM),,對(duì)推理問(wèn)題的生成進(jìn)行更精細(xì)的調(diào)整,。
使用 "N最優(yōu)采樣"(Best-of-N sampling),,即生成一系列次數(shù),并使用獎(jiǎng)勵(lì)模型得分最高的一次(這是 "拒絕采樣"(Rejection Sampling)的推理方式之一,,在 Llama 2 中廣為流傳),,PRM 在推理任務(wù)中的表現(xiàn)優(yōu)于標(biāo)準(zhǔn) RM。
迄今為止,,大多數(shù) PRMs 資源只是展示了如何在推理時(shí)使用它們,。當(dāng)這種信號(hào)針對(duì)訓(xùn)練進(jìn)行優(yōu)化時(shí),才能發(fā)揮真正的威力,。要?jiǎng)?chuàng)建最豐富的優(yōu)化設(shè)置,,必須能夠生成多種推理路徑,,用于評(píng)分和學(xué)習(xí)。這就是思維樹的作用所在,。ToT 的提示為人們提供了多樣性,,可以通過(guò)訪問(wèn) PRM 來(lái)學(xué)習(xí)利用這種多樣性。
此外,,還有一種流行的公開數(shù)學(xué)模型被記錄為使用 PRMs 進(jìn)行訓(xùn)練:Wizard-LM-Math,。同時(shí),OpenAI 在今年早些時(shí)候發(fā)布了用于訓(xùn)練 PRM 的《逐步驗(yàn)證》(Verify Step by Step)論文中的細(xì)粒度獎(jiǎng)勵(lì)標(biāo)簽,。
05. 回頭來(lái)看 Q* 與模型推理
Q* 似乎是在使用 PRM 對(duì)思維樹推理數(shù)據(jù)進(jìn)行評(píng)分,,然后使用離線 RL 對(duì)其進(jìn)行優(yōu)化。這看起來(lái)與現(xiàn)有的 RLHF 工具并無(wú)太大區(qū)別,,后者使用的是 DPO 或 ILQL 等離線算法,,無(wú)需在訓(xùn)練期間從 LLM 中生成。RL 算法看到的 "軌跡 "是推理步驟的序列,,因此我們最終是在以多步驟方式而非上下文綁定的方式進(jìn)行 RLHF,。
由于有聽聞已經(jīng)表明 OpenAI 正在使用離線 RL 進(jìn)行 RLHF,這或許并不是一個(gè)大的飛躍,。這種方法的復(fù)雜之處在于:收集正確的提示,、建立模型以生成出色的推理步驟,以及最重要的一點(diǎn):對(duì)數(shù)以萬(wàn)計(jì)的完成情況進(jìn)行準(zhǔn)確評(píng)分,。?
最后一步就是傳聞中的 "龐大計(jì)算資源 "所在:用人工智能代替人類給每個(gè)步驟打分,。合成數(shù)據(jù)才是王道,用樹狀而非單寬路徑(通過(guò)思維鏈)在后面給出越來(lái)越多的選項(xiàng),,從而得出正確答案,。?
據(jù)悉有一家或幾家大型科技公司(谷歌、Anthropic,、Cohere 等)正在通過(guò)過(guò)程監(jiān)督或類似 RLAIF 的方法創(chuàng)建一個(gè)預(yù)訓(xùn)練大小的數(shù)據(jù)集,,這將快速耗費(fèi)數(shù)萬(wàn)個(gè) GPU 小時(shí)。
在這一領(lǐng)域,,公開可用模型的差距令人擔(dān)憂,。總結(jié)來(lái)看,,雖然核心理念似乎很清晰,,但實(shí)施起來(lái)卻很難。所有對(duì) ToT 和 PRM 的評(píng)估都是針對(duì)數(shù)學(xué)等推理問(wèn)題的,,而這正是所有新聞報(bào)道所說(shuō)的這種泄露方法的目的所在,。即使它不是 Q*,也會(huì)是一個(gè)有趣的實(shí)驗(yàn),。
對(duì)于超大規(guī)模人工智能反饋的數(shù)據(jù)與未來(lái):
大模型訓(xùn)練過(guò)程中數(shù)據(jù)不足,,合成數(shù)據(jù)是擴(kuò)大數(shù)據(jù)集的方式之一,。在短期內(nèi),我們是可以利用它創(chuàng)建一些有用的數(shù)據(jù),。
然而,,目前尚不清楚的是它的擴(kuò)展程度。
它是否能完全取代互聯(lián)網(wǎng)規(guī)模的數(shù)據(jù),?
Let's?verify step by step.
參考材料
- Nathan 觀點(diǎn):https://www.interconnects.ai/p/q-star?lli=1&utm_source=profile&utm_medium=reader2
- Jim 觀點(diǎn):https://x.com/DrJimFan/status/1728100123862004105?s=20
- PRM 參考論文:
https://arxiv.org/abs/2305.20050
https://arxiv.org/abs/2211.14275
https://arxiv.org/abs/2308.01825
https://arxiv.org/abs/2310.10080
免責(zé)聲明:本文來(lái)自網(wǎng)絡(luò)收錄或投稿,,觀點(diǎn)僅代表作者本人,不代表芒果財(cái)經(jīng)贊同其觀點(diǎn)或證實(shí)其描述,,版權(quán)歸原作者所有,。轉(zhuǎn)載請(qǐng)注明出處:http://lequren.com/1080673.html
溫馨提示:投資有風(fēng)險(xiǎn),入市須謹(jǐn)慎,。本資訊不作為投資理財(cái)建議,。