亚洲影视欧美国产,日日摸夜夜摸狠狠摸婷婷

原文來源：深思SenseAI

圖片來源：由無界 AI生成

故事要從 11 月 23 日的感恩節(jié)前夕說起,，路透社發(fā)文報(bào)道稱 OpenAI 的幾名研究員給董事會(huì)寫了一封信提示一個(gè)強(qiáng)大的人工智能發(fā)現(xiàn)可能會(huì)威脅人類,，這可能是奧特曼被解雇的重要原因,。隨后 OpenAI 在發(fā)給員工的內(nèi)部消息中承認(rèn)有一個(gè)名為 Q* 的項(xiàng)目，在擁有大量計(jì)算資源的情況下,，它能夠解決某些數(shù)學(xué)問題。只有一個(gè)名字,，沒有論文,，沒有產(chǎn)品，Jim Fan 說在他做 AI 的十年里還沒有見過一個(gè)算法能讓這么多人好奇,。

雖然 Q* 的數(shù)學(xué)能力據(jù)悉只有小學(xué)生的水平,，但它標(biāo)志著 LLM 推理能力的增強(qiáng)和幻覺問題的處理，是實(shí)現(xiàn)通用人工智能（AGI）的關(guān)鍵突破,。目前沒有官方解釋 Q* 究竟是什么,，但 Nathan Lambert 和 Jim Fan 等技術(shù)大 V 給出了最靠譜的假設(shè)，也是對(duì)于如何進(jìn)一步提升模型推理能力的方法猜想,，解讀如下,。

Let's learn step by step.

01. 重溫 AlphaGo

要理解搜索與學(xué)習(xí)算法之間的強(qiáng)強(qiáng)聯(lián)手，我們需要回到 2016 年,，重溫人工智能歷史上的輝煌時(shí)刻 AlphaGo,。

它有 4 個(gè)關(guān)鍵要素：?

策略 NN（學(xué)習(xí)）：負(fù)責(zé)選擇好的棋步。它能估算出每一步棋獲勝的概率,。?
價(jià)值 NN（學(xué)習(xí)）：評(píng)估棋盤并預(yù)測(cè)圍棋中任何給定可行局面的勝負(fù),。?
MCTS（搜索）：蒙特卡羅樹搜索。它使用策略 NN 模擬從當(dāng)前位置出發(fā)的許多可能的走棋順序,，然后匯總這些模擬的結(jié)果,，決定最有希望的走棋。這是 "慢思考 "部分,，與 LLM 的快速標(biāo)記采樣形成鮮明對(duì)比,。?
驅(qū)動(dòng)整個(gè)系統(tǒng)的地面實(shí)況信號(hào)（Groundtruth signal）。在圍棋中,，它就像二進(jìn)制標(biāo)簽 "誰贏了 "一樣簡(jiǎn)單,，由一套既定的游戲規(guī)則決定?？梢园阉醋魇蔷S持學(xué)習(xí)進(jìn)度的能量源,。

那么上面四個(gè)部分如何協(xié)同？

AlphaGo 進(jìn)行自我對(duì)弈,，即與自己的舊檢查點(diǎn)對(duì)弈,。隨著自我對(duì)弈的繼續(xù),，"策略網(wǎng)絡(luò)"（Policy NN）和 "價(jià)值網(wǎng)絡(luò)"（Value NN）都會(huì)得到迭代改進(jìn)：隨著策略在選擇棋步方面變得越來越好，"價(jià)值網(wǎng)絡(luò)"（Value NN）也會(huì)獲得更好的數(shù)據(jù)來進(jìn)行學(xué)習(xí),，進(jìn)而為策略提供更好的反饋,。更強(qiáng)的策略也有助于 MCTS 探索更好的策略。

這就完成了一個(gè)巧妙的 "永動(dòng)機(jī)",。通過這種方式,，AlphaGo 能夠引導(dǎo)自己的能力，并在 2016 年以 4 比 1 的比分擊敗人類世界冠軍李世石,。

僅靠模仿人類數(shù)據(jù),，人工智能無法成為“超人”。

**02. Q* 的合理猜測(cè)**

僅憑一個(gè)項(xiàng)目的名稱,，就能引發(fā)如此廣泛的猜測(cè),，這還是第一次。不過,，這個(gè)簡(jiǎn)單的名字可能并不僅僅是《沙丘》宇宙中的另一個(gè)代號(hào),。

核心結(jié)論：Jim Fan 認(rèn)為 Q* 包括下面四個(gè)組成部分。與 AlphaGo 一樣,，"策略 LLM "和 "價(jià)值 LLM "可以相互迭代改進(jìn),，并隨時(shí)從人類專家的注釋中學(xué)習(xí)。更好的策略 LLM 將幫助思維樹搜索探索更好的策略,，進(jìn)而為下一輪收集更好的數(shù)據(jù),。

1. 策略 NN：這是 OpenAI 最強(qiáng)大的內(nèi)部 GPT，負(fù)責(zé)實(shí)現(xiàn)解決數(shù)學(xué)問題的思維軌跡,。

2. 價(jià)值 NN：另一個(gè) GPT,，用于評(píng)估每個(gè)中間推理步驟的正確性。?

3. 搜索：與 AlphaGo 的離散狀態(tài)和行為不同,，LLM 是在 "所有合理的字符串 "這一更為復(fù)雜的空間中運(yùn)行的,，因此需要新的搜索程序。

4. 地面實(shí)況信號(hào)（Groundtruth signal）：可以理解為是對(duì)過程結(jié)果的打分?jǐn)?shù)據(jù),。OpenAI 可能已從現(xiàn)有的數(shù)學(xué)考試或競(jìng)賽中收集了大量語料,，或者使用模型本身合成數(shù)據(jù)做增強(qiáng)。

Nathan 最初的猜測(cè)是將 Q-learning 和 A* 搜索模糊地合并在一起,，但隨著對(duì)這個(gè)問題研究的深入,，可以越來越相信，他們通過思維樹推理搜索語言/推理步驟的能力很強(qiáng),，但這種飛躍比人們想象的要小得多,。夸大其詞的原因在于,，他們的目標(biāo)是將大型語言模型的訓(xùn)練和使用與 Deep RL 的核心組成部分聯(lián)系起來,，而正是這些核心組成部分促成了 AlphaGo 的成功：自我博弈（Self-play）和前瞻性規(guī)劃（Look-ahead planning）,。

自我對(duì)弈（Self-play）：是指代理（agent）可以通過與略有不同的自己進(jìn)行博弈來提高自己的博弈水平，因?yàn)樗鼤?huì)逐漸遇到更具挑戰(zhàn)性的情況,。在 LLM 的空間中,，幾乎可以肯定的是，自我對(duì)弈的最大部分將看起來像人工智能反饋,，而不是競(jìng)爭(zhēng)過程,。
前瞻性規(guī)劃（Look-ahead planning）：是指使用世界模型來推理未來，并產(chǎn)生更好的行動(dòng)或產(chǎn)出,。兩種變體分別基于模型預(yù)測(cè)控制（MPC）和蒙特卡洛樹搜索（MCTS）,，前者通常用于連續(xù)狀態(tài)，后者則用于離散行動(dòng)和狀態(tài),。

要了解這兩者之間的聯(lián)系，我們需要了解 OpenAI 和其他公司最近發(fā)表的成果,，這些成果將回答兩個(gè)問題：

1.?我們?nèi)绾螛?gòu)建可以搜索的語言表征,？

2. 我們?cè)撊绾螛?gòu)建一種價(jià)值概念，并將其覆蓋到分門別類且有意義的語言片段,，而非整個(gè)語篇上,？

有了這些問題的答案，我們就可以清楚地知道如何使用用于 RLHF 的現(xiàn)有 RL 方法,。我們使用 RL 優(yōu)化器對(duì)語言模型進(jìn)行微調(diào),，并通過模塊化獎(jiǎng)勵(lì)獲得更高質(zhì)量的生成（而不是像現(xiàn)在這樣獲得完整序列）。

03. 通過 ToT 提示進(jìn)行 LLMs 模塊化推理：

提示詞里“深呼吸"（take a deep breath）和 "一步步思考 "（think step by step）等技巧的推廣,，如今已經(jīng)擴(kuò)展到了利用并行計(jì)算和啟發(fā)式（搜索的一些基本原理）進(jìn)行推理的高級(jí)方法,。

思維樹（ToT）聽起來確實(shí)如此。這是一種促使語言模型創(chuàng)建推理路徑樹的方法,，推理路徑樹可能會(huì)也可能不會(huì)匯聚到正確答案,。論文中對(duì)使用 LLMs 解決問題的其他方法進(jìn)行了比較：

基礎(chǔ)模型在大規(guī)模數(shù)據(jù)集上訓(xùn)練，可以執(zhí)行廣泛的任務(wù),。開發(fā)人員使用基礎(chǔ)模型作為強(qiáng)大的生成式AI應(yīng)用的基礎(chǔ),，例如ChatGPT。

選擇基礎(chǔ)模型時(shí)的一個(gè)關(guān)鍵考慮因素是開源與非開源,，下面概述了兩種模型各自的優(yōu)點(diǎn)和缺點(diǎn)：

ToT 的創(chuàng)新之處在于將推理步驟分塊,，并促使模型創(chuàng)建新的推理步驟。這應(yīng)該是第一種用于提高推理性能的 "遞歸 "提示技術(shù),，與人工智能安全所關(guān)注的遞歸自我改進(jìn)模型非常接近,。

對(duì)于推理樹，可以采用不同的方法對(duì)每個(gè)頂點(diǎn)（節(jié)點(diǎn)）進(jìn)行評(píng)分,，或?qū)ψ罱K路徑進(jìn)行采樣,。它可以基于諸如到最一致答案的最短路徑,，也可以基于需要外部反饋的復(fù)雜路徑，這又把我們引向了 RLHF 的方向,。

ToT 論文地址：https://arxiv.org/abs/2305.10601

04. 細(xì)粒度獎(jiǎng)勵(lì)：過程獎(jiǎng)勵(lì)模型 PRM

迄今為止,，大多數(shù) RLHF 的方法都是讓語言模型的整個(gè)響應(yīng)得到一個(gè)相關(guān)的分?jǐn)?shù)。對(duì)于任何具有 RL 背景的人來說,，這都是令人失望的,，因?yàn)樗?strong>限制了 RL 方法將文本的每個(gè)子部分的價(jià)值聯(lián)系起來的能力。

有人指出,，未來由于需要有人類或一些提示源在循環(huán)中,，這種多步驟優(yōu)化將在多個(gè)對(duì)話回合的層面上進(jìn)行，但這比較牽強(qiáng),。這可以很容易地?cái)U(kuò)展到自我對(duì)弈式的對(duì)話中,，但很難賦予 LLMs 目標(biāo)，使其轉(zhuǎn)化為持續(xù)改進(jìn)的自我對(duì)弈動(dòng)態(tài),。我們想讓 LLMs 做的大多數(shù)事情都是重復(fù)性任務(wù),，而不會(huì)像圍棋那樣對(duì)性能設(shè)置近乎無限的上限。?

另一方面,，有一種 LLM 用例可以很自然地抽象為文本塊：逐步推理,，數(shù)學(xué)問題就是最好的例子。

過程獎(jiǎng)勵(lì)模型（PRMs）是 Nathan 在過去 6 個(gè)月里從 RLHF 朋友那里聽到的一個(gè)非公開話題,。關(guān)于這些模型的文獻(xiàn)很多,，但關(guān)于如何在 RL 中使用這些模型的文獻(xiàn)卻很少。PRM 的核心理念是為每個(gè)推理步驟而不是完整的信息分配分?jǐn)?shù),。下面是 OpenAI 論文《讓我們一步步驗(yàn)證》（ Let’s Verify Step by Step）中的一個(gè)例子：

圖 2 為同一個(gè)問題的兩種解決方案,，左邊答案是正確的，右邊的答案錯(cuò)誤,。綠色背景表示 PRM 得分高,，紅色背景表示 PRM 得分低。PRM 可以正確識(shí)別錯(cuò)誤解決方案中的錯(cuò)誤,。對(duì)于錯(cuò)誤的解決方案,，兩種方法都揭示出至少存在一個(gè)錯(cuò)誤，但過程監(jiān)督還揭示了該錯(cuò)誤的確切位置,。

而他們使用的有趣的反饋界面（將被人工智能取代）,，卻很有啟發(fā)性：

這樣就可以通過對(duì)最大平均獎(jiǎng)勵(lì)或其他指標(biāo)進(jìn)行采樣，而不是僅僅依靠一個(gè)分?jǐn)?shù)（標(biāo)準(zhǔn) RM 在該文獻(xiàn)中被稱為結(jié)果 RM）,，對(duì)推理問題的生成進(jìn)行更精細(xì)的調(diào)整,。

使用 "N最優(yōu)采樣"（Best-of-N sampling），即生成一系列次數(shù),，并使用獎(jiǎng)勵(lì)模型得分最高的一次（這是 "拒絕采樣"（Rejection Sampling）的推理方式之一,，在 Llama 2 中廣為流傳）,，PRM 在推理任務(wù)中的表現(xiàn)優(yōu)于標(biāo)準(zhǔn) RM。

迄今為止,，大多數(shù) PRMs 資源只是展示了如何在推理時(shí)使用它們,。當(dāng)這種信號(hào)針對(duì)訓(xùn)練進(jìn)行優(yōu)化時(shí)，才能發(fā)揮真正的威力,。要?jiǎng)?chuàng)建最豐富的優(yōu)化設(shè)置,，必須能夠生成多種推理路徑，用于評(píng)分和學(xué)習(xí),。這就是思維樹的作用所在,。ToT 的提示為人們提供了多樣性，可以通過訪問 PRM 來學(xué)習(xí)利用這種多樣性,。

此外,，還有一種流行的公開數(shù)學(xué)模型被記錄為使用 PRMs 進(jìn)行訓(xùn)練：Wizard-LM-Math。同時(shí),，OpenAI 在今年早些時(shí)候發(fā)布了用于訓(xùn)練 PRM 的《逐步驗(yàn)證》（Verify Step by Step）論文中的細(xì)粒度獎(jiǎng)勵(lì)標(biāo)簽,。

**05. 回頭來看 Q* 與模型推理**

Q* 似乎是在使用 PRM 對(duì)思維樹推理數(shù)據(jù)進(jìn)行評(píng)分，然后使用離線 RL 對(duì)其進(jìn)行優(yōu)化,。這看起來與現(xiàn)有的 RLHF 工具并無太大區(qū)別,，后者使用的是 DPO 或 ILQL 等離線算法,，無需在訓(xùn)練期間從 LLM 中生成,。RL 算法看到的 "軌跡 "是推理步驟的序列，因此我們最終是在以多步驟方式而非上下文綁定的方式進(jìn)行 RLHF,。

由于有聽聞已經(jīng)表明 OpenAI 正在使用離線 RL 進(jìn)行 RLHF,，這或許并不是一個(gè)大的飛躍。這種方法的復(fù)雜之處在于：收集正確的提示,、建立模型以生成出色的推理步驟,，以及最重要的一點(diǎn)：對(duì)數(shù)以萬計(jì)的完成情況進(jìn)行準(zhǔn)確評(píng)分。?

最后一步就是傳聞中的 "龐大計(jì)算資源 "所在：用人工智能代替人類給每個(gè)步驟打分,。合成數(shù)據(jù)才是王道,，用樹狀而非單寬路徑（通過思維鏈）在后面給出越來越多的選項(xiàng)，從而得出正確答案,。?

據(jù)悉有一家或幾家大型科技公司（谷歌,、Anthropic、Cohere 等）正在通過過程監(jiān)督或類似 RLAIF 的方法創(chuàng)建一個(gè)預(yù)訓(xùn)練大小的數(shù)據(jù)集,，這將快速耗費(fèi)數(shù)萬個(gè) GPU 小時(shí),。

在這一領(lǐng)域，公開可用模型的差距令人擔(dān)憂,?？偨Y(jié)來看,，雖然核心理念似乎很清晰，但實(shí)施起來卻很難,。所有對(duì) ToT 和 PRM 的評(píng)估都是針對(duì)數(shù)學(xué)等推理問題的,，而這正是所有新聞報(bào)道所說的這種泄露方法的目的所在。即使它不是 Q*,，也會(huì)是一個(gè)有趣的實(shí)驗(yàn),。

對(duì)于超大規(guī)模人工智能反饋的數(shù)據(jù)與未來：

大模型訓(xùn)練過程中數(shù)據(jù)不足，合成數(shù)據(jù)是擴(kuò)大數(shù)據(jù)集的方式之一,。在短期內(nèi),，我們是可以利用它創(chuàng)建一些有用的數(shù)據(jù)。

然而,，目前尚不清楚的是它的擴(kuò)展程度,。

它是否能完全取代互聯(lián)網(wǎng)規(guī)模的數(shù)據(jù)？

Let's?verify step by step.

參考材料

Nathan 觀點(diǎn)：https://www.interconnects.ai/p/q-star?lli=1&utm_source=profile&utm_medium=reader2
Jim 觀點(diǎn)：https://x.com/DrJimFan/status/1728100123862004105?s=20
PRM 參考論文：
https://arxiv.org/abs/2305.20050
https://arxiv.org/abs/2211.14275
https://arxiv.org/abs/2308.01825
https://arxiv.org/abs/2310.10080

免責(zé)聲明：本文來自網(wǎng)絡(luò)收錄或投稿,，觀點(diǎn)僅代表作者本人,，不代表芒果財(cái)經(jīng)贊同其觀點(diǎn)或證實(shí)其描述，版權(quán)歸原作者所有,。轉(zhuǎn)載請(qǐng)注明出處：http://lequren.com/1080673.html
溫馨提示：投資有風(fēng)險(xiǎn),，入市須謹(jǐn)慎。本資訊不作為投資理財(cái)建議,。