亚洲AV色香蕉一区二区三区蜜桃,国产精品亚洲AV人片

A欧美国产国产综合视频_最近日本中文字幕免费完整_国产乱伦一级片_久久99国产综合精品婷婷_韩国理论片在线中文字幕一区二区_亚洲AV成人影片在线观看_亚洲av无码电影网_优物视频最新网址_天天艹无码天天射_脱下丝袜的极品销魂大胸美女王馨瑶91精品美女嫩模写真套图,男男被?到喷水18禁视频,欧美久久精品一级黑人c片 ,综合在线视频精品专区

更高效的大模型調(diào)優(yōu)方法，華盛頓大學(xué)推出“代理調(diào)優(yōu)” – AI新智界

原文來源：AIGC開放社區(qū)

圖片來源：由無界 AI生成

隨著ChatGPT等生成式AI產(chǎn)品朝著多模態(tài)發(fā)展,，基礎(chǔ)模型的參數(shù)越來越高，想進行權(quán)重調(diào)優(yōu)需要耗費大量時間和AI算力,。

為了提升模型的調(diào)優(yōu)效率,，華盛頓大學(xué)和艾倫AI實驗室的研究人員推出了全新方法——Proxy Tuning（代理調(diào)優(yōu)）。

該調(diào)優(yōu)方法無需接觸模型的內(nèi)部權(quán)重,，利用一個小型調(diào)整模型和一個未調(diào)整的對應(yīng)模型,，通過對比它們的預(yù)測結(jié)果來引導(dǎo)基礎(chǔ)模型的預(yù)測。

再通過解碼時的引導(dǎo),，基礎(chǔ)模型可以朝著調(diào)優(yōu)方向進行微調(diào),，同時保留了更大規(guī)模預(yù)訓(xùn)練的優(yōu)勢。

為了驗證代理調(diào)優(yōu)的性能，研究人員對LlAMA-2的13B,、70B原始模型進行了微調(diào),。結(jié)果顯示，這兩個模型分別接近對應(yīng)的Chat模型的91.1%和88.1%的性能,。

此外,在知識量大的TruthfulQA數(shù)據(jù)集測試中,代理調(diào)優(yōu)的真實性比直接調(diào)優(yōu)的模型還高,說明在解碼時更好地保留了訓(xùn)練知識。

論文地址：https://arxiv.org/abs/2401.08565?

代理調(diào)優(yōu)的核心技術(shù)思想是,，先調(diào)優(yōu)一個小的語言模型,然后用這個小型調(diào)優(yōu)模型指導(dǎo)大型黑箱語言模型,使其具備像調(diào)優(yōu)后的模型一樣行為,、功能。

但不需要訪問其內(nèi)部權(quán)重,只需要其在輸出詞表上的預(yù)測分布,。有趣的是,，該技術(shù)與大模型中的“蒸餾”技術(shù)恰恰相反。

代理調(diào)優(yōu)的技術(shù)方法

首先,，我們需要準(zhǔn)備一個小型的預(yù)訓(xùn)練語言模型M-,，該模型與基礎(chǔ)模型M共享相同的詞匯表。M-可以是一個現(xiàn)成的模型,，也可以是通過較小規(guī)模的預(yù)訓(xùn)練得到的模型,。

接下來,，我們使用訓(xùn)練數(shù)據(jù)對M-進行調(diào)優(yōu),，得到一個調(diào)優(yōu)后的模型M+。調(diào)優(yōu)可以使用各種技術(shù),，例如,，有監(jiān)督的微調(diào)或領(lǐng)域自適應(yīng)方法，具體取決于任務(wù)的需求,。

詳細解碼流程

在解碼時,，對于給定的輸入，我們通過對基礎(chǔ)模型M的輸出預(yù)測分布和調(diào)優(yōu)模型M+的輸出預(yù)測分布之間的差異進行操作,，來引導(dǎo)基礎(chǔ)模型的預(yù)測,。

使用基礎(chǔ)模型M對輸入進行解碼，得到基礎(chǔ)模型的預(yù)測結(jié)果,。這可以通過生成模型的輸出概率分布來實現(xiàn),，通常使用一種解碼算法，例如,，貪婪搜索或束搜索來生成最優(yōu)的輸出序列,。

然后,，使用調(diào)優(yōu)模型M+對相同的輸入進行解碼,，得到調(diào)優(yōu)模型的預(yù)測結(jié)果,。

接下來，計算基礎(chǔ)模型的預(yù)測結(jié)果與調(diào)優(yōu)模型的預(yù)測結(jié)果之間的差異,?？梢允褂肒L散度或交叉熵方法，來度量兩個預(yù)測分布之間的差異,。

最后,，將預(yù)測差異應(yīng)用于基礎(chǔ)模型的預(yù)測結(jié)果，以引導(dǎo)基礎(chǔ)模型的預(yù)測朝向調(diào)優(yōu)模型的預(yù)測方向移動,。同時可以將預(yù)測差異添加到基礎(chǔ)模型的預(yù)測分布中,，以調(diào)整每個詞的概率值。

免責(zé)聲明：本文來自網(wǎng)絡(luò)收錄或投稿,，觀點僅代表作者本人,，不代表芒果財經(jīng)贊同其觀點或證實其描述，版權(quán)歸原作者所有,。轉(zhuǎn)載請注明出處：http://lequren.com/1088130.html
溫馨提示：投資有風(fēng)險,，入市須謹慎。本資訊不作為投資理財建議,。