A欧美国产国产综合视频_最近日本中文字幕免费完整_国产乱伦一级片_久久99国产综合精品婷婷_韩国理论片在线中文字幕一区二区_亚洲AV成人影片在线观看_亚洲av无码电影网_优物视频最新网址_天天艹无码天天射_脱下丝袜的极品销魂大胸美女王馨瑶91精品美女嫩模写真套图,男男被?到喷水18禁视频,欧美久久精品一级黑人c片 ,综合在线视频精品专区

人民網(wǎng)

OpenAI 的神秘項(xiàng)目 Q* 與通往 AGI 的一小步 – AI新智界

原文來源:深思SenseAI

OpenAI 的神秘項(xiàng)目 Q* 與通往 AGI 的一小步 – AI新智界

圖片來源:由無界 AI生成

故事要從 11 月 23 日的感恩節(jié)前夕說起,,路透社發(fā)文報(bào)道稱 OpenAI 的幾名研究員給董事會(huì)寫了一封信提示一個(gè)強(qiáng)大的人工智能發(fā)現(xiàn)可能會(huì)威脅人類,,這可能是奧特曼被解雇的重要原因,。隨后 OpenAI 在發(fā)給員工的內(nèi)部消息中承認(rèn)有一個(gè)名為 Q* 的項(xiàng)目,在擁有大量計(jì)算資源的情況下,,它能夠解決某些數(shù)學(xué)問題。只有一個(gè)名字,,沒有論文,,沒有產(chǎn)品,Jim Fan 說在他做 AI 的十年里還沒有見過一個(gè)算法能讓這么多人好奇,。

雖然 Q* 的數(shù)學(xué)能力據(jù)悉只有小學(xué)生的水平,,但它標(biāo)志著 LLM 推理能力的增強(qiáng)和幻覺問題的處理,是實(shí)現(xiàn)通用人工智能(AGI)的關(guān)鍵突破,。目前沒有官方解釋 Q* 究竟是什么,,但 Nathan Lambert 和 Jim Fan 等技術(shù)大 V 給出了最靠譜的假設(shè),也是對(duì)于如何進(jìn)一步提升模型推理能力的方法猜想,,解讀如下,。

Let's learn step by step.

01. 重溫 AlphaGo

要理解搜索與學(xué)習(xí)算法之間的強(qiáng)強(qiáng)聯(lián)手,我們需要回到 2016 年,,重溫人工智能歷史上的輝煌時(shí)刻 AlphaGo,。

它有 4 個(gè)關(guān)鍵要素:?

  • 策略 NN(學(xué)習(xí)):負(fù)責(zé)選擇好的棋步。它能估算出每一步棋獲勝的概率,。?
  • 價(jià)值 NN(學(xué)習(xí)):評(píng)估棋盤并預(yù)測(cè)圍棋中任何給定可行局面的勝負(fù),。?
  • MCTS(搜索):蒙特卡羅樹搜索。它使用策略 NN 模擬從當(dāng)前位置出發(fā)的許多可能的走棋順序,,然后匯總這些模擬的結(jié)果,,決定最有希望的走棋。這是 "慢思考 "部分,,與 LLM 的快速標(biāo)記采樣形成鮮明對(duì)比,。?
  • 驅(qū)動(dòng)整個(gè)系統(tǒng)的地面實(shí)況信號(hào)(Groundtruth signal)。在圍棋中,,它就像二進(jìn)制標(biāo)簽 "誰贏了 "一樣簡(jiǎn)單,,由一套既定的游戲規(guī)則決定??梢园阉醋魇蔷S持學(xué)習(xí)進(jìn)度的能量源,。

那么上面四個(gè)部分如何協(xié)同?

AlphaGo 進(jìn)行自我對(duì)弈,,即與自己的舊檢查點(diǎn)對(duì)弈,。隨著自我對(duì)弈的繼續(xù),,"策略網(wǎng)絡(luò)"(Policy NN)和 "價(jià)值網(wǎng)絡(luò)"(Value NN)都會(huì)得到迭代改進(jìn):隨著策略在選擇棋步方面變得越來越好,"價(jià)值網(wǎng)絡(luò)"(Value NN)也會(huì)獲得更好的數(shù)據(jù)來進(jìn)行學(xué)習(xí),,進(jìn)而為策略提供更好的反饋,。更強(qiáng)的策略也有助于 MCTS 探索更好的策略。

這就完成了一個(gè)巧妙的 "永動(dòng)機(jī)",。通過這種方式,,AlphaGo 能夠引導(dǎo)自己的能力,并在 2016 年以 4 比 1 的比分擊敗人類世界冠軍李世石,。

僅靠模仿人類數(shù)據(jù),,人工智能無法成為“超人”。

02. Q* 的合理猜測(cè)

僅憑一個(gè)項(xiàng)目的名稱,,就能引發(fā)如此廣泛的猜測(cè),,這還是第一次。不過,,這個(gè)簡(jiǎn)單的名字可能并不僅僅是《沙丘》宇宙中的另一個(gè)代號(hào),。

核心結(jié)論:Jim Fan 認(rèn)為 Q* 包括下面四個(gè)組成部分。與 AlphaGo 一樣,,"策略 LLM "和 "價(jià)值 LLM "可以相互迭代改進(jìn),,并隨時(shí)從人類專家的注釋中學(xué)習(xí)。更好的策略 LLM 將幫助思維樹搜索探索更好的策略,,進(jìn)而為下一輪收集更好的數(shù)據(jù),。

1. 策略 NN:這是 OpenAI 最強(qiáng)大的內(nèi)部 GPT,負(fù)責(zé)實(shí)現(xiàn)解決數(shù)學(xué)問題的思維軌跡,。

2. 價(jià)值 NN:另一個(gè) GPT,,用于評(píng)估每個(gè)中間推理步驟的正確性。?

3. 搜索:與 AlphaGo 的離散狀態(tài)和行為不同,,LLM 是在 "所有合理的字符串 "這一更為復(fù)雜的空間中運(yùn)行的,,因此需要新的搜索程序。

4. 地面實(shí)況信號(hào)(Groundtruth signal):可以理解為是對(duì)過程結(jié)果的打分?jǐn)?shù)據(jù),。OpenAI 可能已從現(xiàn)有的數(shù)學(xué)考試或競(jìng)賽中收集了大量語料,,或者使用模型本身合成數(shù)據(jù)做增強(qiáng)。

Nathan 最初的猜測(cè)是將 Q-learning 和 A* 搜索模糊地合并在一起,,但隨著對(duì)這個(gè)問題研究的深入,,可以越來越相信,他們通過思維樹推理搜索語言/推理步驟的能力很強(qiáng),,但這種飛躍比人們想象的要小得多,。夸大其詞的原因在于,,他們的目標(biāo)是將大型語言模型的訓(xùn)練和使用與 Deep RL 的核心組成部分聯(lián)系起來,,而正是這些核心組成部分促成了 AlphaGo 的成功:自我博弈(Self-play)和前瞻性規(guī)劃(Look-ahead planning),。

  • 自我對(duì)弈(Self-play):是指代理(agent)可以通過與略有不同的自己進(jìn)行博弈來提高自己的博弈水平,因?yàn)樗鼤?huì)逐漸遇到更具挑戰(zhàn)性的情況,。在 LLM 的空間中,,幾乎可以肯定的是,自我對(duì)弈的最大部分將看起來像人工智能反饋,,而不是競(jìng)爭(zhēng)過程,。
  • 前瞻性規(guī)劃(Look-ahead planning):是指使用世界模型來推理未來,并產(chǎn)生更好的行動(dòng)或產(chǎn)出,。兩種變體分別基于模型預(yù)測(cè)控制(MPC)和蒙特卡洛樹搜索(MCTS),,前者通常用于連續(xù)狀態(tài),后者則用于離散行動(dòng)和狀態(tài),。

要了解這兩者之間的聯(lián)系,我們需要了解 OpenAI 和其他公司最近發(fā)表的成果,,這些成果將回答兩個(gè)問題:

1.?我們?nèi)绾螛?gòu)建可以搜索的語言表征,?

2. 我們?cè)撊绾螛?gòu)建一種價(jià)值概念,并將其覆蓋到分門別類且有意義的語言片段,,而非整個(gè)語篇上,?

有了這些問題的答案,我們就可以清楚地知道如何使用用于 RLHF 的現(xiàn)有 RL 方法,。我們使用 RL 優(yōu)化器對(duì)語言模型進(jìn)行微調(diào),,并通過模塊化獎(jiǎng)勵(lì)獲得更高質(zhì)量的生成(而不是像現(xiàn)在這樣獲得完整序列)。

03. 通過 ToT 提示進(jìn)行 LLMs 模塊化推理:

提示詞里“深呼吸"(take a deep breath)和 "一步步思考 "(think step by step)等技巧的推廣,,如今已經(jīng)擴(kuò)展到了利用并行計(jì)算和啟發(fā)式(搜索的一些基本原理)進(jìn)行推理的高級(jí)方法,。

思維樹 (ToT)聽起來確實(shí)如此。這是一種促使語言模型創(chuàng)建推理路徑樹的方法,,推理路徑樹可能會(huì)也可能不會(huì)匯聚到正確答案,。論文中對(duì)使用 LLMs 解決問題的其他方法進(jìn)行了比較:

基礎(chǔ)模型在大規(guī)模數(shù)據(jù)集上訓(xùn)練,可以執(zhí)行廣泛的任務(wù),。開發(fā)人員使用基礎(chǔ)模型作為強(qiáng)大的生成式AI應(yīng)用的基礎(chǔ),,例如ChatGPT。

選擇基礎(chǔ)模型時(shí)的一個(gè)關(guān)鍵考慮因素是開源與非開源,,下面概述了兩種模型各自的優(yōu)點(diǎn)和缺點(diǎn):

OpenAI 的神秘項(xiàng)目 Q* 與通往 AGI 的一小步 – AI新智界

ToT 的創(chuàng)新之處在于將推理步驟分塊,,并促使模型創(chuàng)建新的推理步驟。這應(yīng)該是第一種用于提高推理性能的 "遞歸 "提示技術(shù),,與人工智能安全所關(guān)注的遞歸自我改進(jìn)模型非常接近,。

對(duì)于推理樹,可以采用不同的方法對(duì)每個(gè)頂點(diǎn)(節(jié)點(diǎn))進(jìn)行評(píng)分,,或?qū)ψ罱K路徑進(jìn)行采樣,。它可以基于諸如到最一致答案的最短路徑,,也可以基于需要外部反饋的復(fù)雜路徑,這又把我們引向了 RLHF 的方向,。

ToT 論文地址:https://arxiv.org/abs/2305.10601

04. 細(xì)粒度獎(jiǎng)勵(lì):過程獎(jiǎng)勵(lì)模型 PRM

迄今為止,,大多數(shù) RLHF 的方法都是讓語言模型的整個(gè)響應(yīng)得到一個(gè)相關(guān)的分?jǐn)?shù)。對(duì)于任何具有 RL 背景的人來說,,這都是令人失望的,,因?yàn)樗?strong>限制了 RL 方法將文本的每個(gè)子部分的價(jià)值聯(lián)系起來的能力。

有人指出,,未來由于需要有人類或一些提示源在循環(huán)中,,這種多步驟優(yōu)化將在多個(gè)對(duì)話回合的層面上進(jìn)行,但這比較牽強(qiáng),。這可以很容易地?cái)U(kuò)展到自我對(duì)弈式的對(duì)話中,,但很難賦予 LLMs 目標(biāo),使其轉(zhuǎn)化為持續(xù)改進(jìn)的自我對(duì)弈動(dòng)態(tài),。我們想讓 LLMs 做的大多數(shù)事情都是重復(fù)性任務(wù),,而不會(huì)像圍棋那樣對(duì)性能設(shè)置近乎無限的上限。?

另一方面,,有一種 LLM 用例可以很自然地抽象為文本塊:逐步推理,,數(shù)學(xué)問題就是最好的例子。

過程獎(jiǎng)勵(lì)模型(PRMs)是 Nathan 在過去 6 個(gè)月里從 RLHF 朋友那里聽到的一個(gè)非公開話題,。關(guān)于這些模型的文獻(xiàn)很多,,但關(guān)于如何在 RL 中使用這些模型的文獻(xiàn)卻很少。PRM 的核心理念是為每個(gè)推理步驟而不是完整的信息分配分?jǐn)?shù),。下面是 OpenAI 論文《讓我們一步步驗(yàn)證》( Let’s Verify Step by Step)中的一個(gè)例子:

圖 2 為同一個(gè)問題的兩種解決方案,,左邊答案是正確的,右邊的答案錯(cuò)誤,。綠色背景表示 PRM 得分高,,紅色背景表示 PRM 得分低。PRM 可以正確識(shí)別錯(cuò)誤解決方案中的錯(cuò)誤,。對(duì)于錯(cuò)誤的解決方案,,兩種方法都揭示出至少存在一個(gè)錯(cuò)誤,但過程監(jiān)督還揭示了該錯(cuò)誤的確切位置,。

OpenAI 的神秘項(xiàng)目 Q* 與通往 AGI 的一小步 – AI新智界

而他們使用的有趣的反饋界面(將被人工智能取代),,卻很有啟發(fā)性:

OpenAI 的神秘項(xiàng)目 Q* 與通往 AGI 的一小步 – AI新智界

這樣就可以通過對(duì)最大平均獎(jiǎng)勵(lì)或其他指標(biāo)進(jìn)行采樣,而不是僅僅依靠一個(gè)分?jǐn)?shù)(標(biāo)準(zhǔn) RM 在該文獻(xiàn)中被稱為結(jié)果 RM),,對(duì)推理問題的生成進(jìn)行更精細(xì)的調(diào)整,。

使用 "N最優(yōu)采樣"(Best-of-N sampling),即生成一系列次數(shù),,并使用獎(jiǎng)勵(lì)模型得分最高的一次(這是 "拒絕采樣"(Rejection Sampling)的推理方式之一,,在 Llama 2 中廣為流傳),,PRM 在推理任務(wù)中的表現(xiàn)優(yōu)于標(biāo)準(zhǔn) RM。

迄今為止,,大多數(shù) PRMs 資源只是展示了如何在推理時(shí)使用它們,。當(dāng)這種信號(hào)針對(duì)訓(xùn)練進(jìn)行優(yōu)化時(shí),才能發(fā)揮真正的威力,。要?jiǎng)?chuàng)建最豐富的優(yōu)化設(shè)置,,必須能夠生成多種推理路徑,用于評(píng)分和學(xué)習(xí),。這就是思維樹的作用所在,。ToT 的提示為人們提供了多樣性,可以通過訪問 PRM 來學(xué)習(xí)利用這種多樣性,。

此外,,還有一種流行的公開數(shù)學(xué)模型被記錄為使用 PRMs 進(jìn)行訓(xùn)練:Wizard-LM-Math。同時(shí),,OpenAI 在今年早些時(shí)候發(fā)布了用于訓(xùn)練 PRM 的《逐步驗(yàn)證》(Verify Step by Step)論文中的細(xì)粒度獎(jiǎng)勵(lì)標(biāo)簽,。

05. 回頭來看 Q* 與模型推理

Q* 似乎是在使用 PRM 對(duì)思維樹推理數(shù)據(jù)進(jìn)行評(píng)分,然后使用離線 RL 對(duì)其進(jìn)行優(yōu)化,。這看起來與現(xiàn)有的 RLHF 工具并無太大區(qū)別,,后者使用的是 DPO 或 ILQL 等離線算法,,無需在訓(xùn)練期間從 LLM 中生成,。RL 算法看到的 "軌跡 "是推理步驟的序列,因此我們最終是在以多步驟方式而非上下文綁定的方式進(jìn)行 RLHF,。

由于有聽聞已經(jīng)表明 OpenAI 正在使用離線 RL 進(jìn)行 RLHF,,這或許并不是一個(gè)大的飛躍。這種方法的復(fù)雜之處在于:收集正確的提示,、建立模型以生成出色的推理步驟,,以及最重要的一點(diǎn):對(duì)數(shù)以萬計(jì)的完成情況進(jìn)行準(zhǔn)確評(píng)分。?

最后一步就是傳聞中的 "龐大計(jì)算資源 "所在:用人工智能代替人類給每個(gè)步驟打分,。合成數(shù)據(jù)才是王道,,用樹狀而非單寬路徑(通過思維鏈)在后面給出越來越多的選項(xiàng),從而得出正確答案,。?

據(jù)悉有一家或幾家大型科技公司(谷歌,、Anthropic、Cohere 等)正在通過過程監(jiān)督或類似 RLAIF 的方法創(chuàng)建一個(gè)預(yù)訓(xùn)練大小的數(shù)據(jù)集,,這將快速耗費(fèi)數(shù)萬個(gè) GPU 小時(shí),。

在這一領(lǐng)域,公開可用模型的差距令人擔(dān)憂,??偨Y(jié)來看,,雖然核心理念似乎很清晰,但實(shí)施起來卻很難,。所有對(duì) ToT 和 PRM 的評(píng)估都是針對(duì)數(shù)學(xué)等推理問題的,,而這正是所有新聞報(bào)道所說的這種泄露方法的目的所在。即使它不是 Q*,,也會(huì)是一個(gè)有趣的實(shí)驗(yàn),。

對(duì)于超大規(guī)模人工智能反饋的數(shù)據(jù)與未來:

大模型訓(xùn)練過程中數(shù)據(jù)不足,合成數(shù)據(jù)是擴(kuò)大數(shù)據(jù)集的方式之一,。在短期內(nèi),,我們是可以利用它創(chuàng)建一些有用的數(shù)據(jù)。

然而,,目前尚不清楚的是它的擴(kuò)展程度,。

它是否能完全取代互聯(lián)網(wǎng)規(guī)模的數(shù)據(jù)?

Let's?verify step by step.

參考材料

  • Nathan 觀點(diǎn):https://www.interconnects.ai/p/q-star?lli=1&utm_source=profile&utm_medium=reader2
  • Jim 觀點(diǎn):https://x.com/DrJimFan/status/1728100123862004105?s=20
  • PRM 參考論文:
    https://arxiv.org/abs/2305.20050
    https://arxiv.org/abs/2211.14275
    https://arxiv.org/abs/2308.01825
    https://arxiv.org/abs/2310.10080

免責(zé)聲明:本文來自網(wǎng)絡(luò)收錄或投稿,,觀點(diǎn)僅代表作者本人,,不代表芒果財(cái)經(jīng)贊同其觀點(diǎn)或證實(shí)其描述,版權(quán)歸原作者所有,。轉(zhuǎn)載請(qǐng)注明出處:http://lequren.com/1080673.html
溫馨提示:投資有風(fēng)險(xiǎn),,入市須謹(jǐn)慎。本資訊不作為投資理財(cái)建議,。

(0)
AGIing的頭像AGIing
上一篇 2023年11月27日
下一篇 2023年11月27日
198搶自鏈數(shù)字人

相關(guān)推薦