原文來(lái)源:AIGC開(kāi)放社區(qū)
圖片來(lái)源:由無(wú)界 AI生成
隨著ChatGPT等生成式AI產(chǎn)品朝著多模態(tài)發(fā)展,,基礎(chǔ)模型的參數(shù)越來(lái)越高,想進(jìn)行權(quán)重調(diào)優(yōu)需要耗費(fèi)大量時(shí)間和AI算力,。
為了提升模型的調(diào)優(yōu)效率,,華盛頓大學(xué)和艾倫AI實(shí)驗(yàn)室的研究人員推出了全新方法——Proxy Tuning(代理調(diào)優(yōu))。
該調(diào)優(yōu)方法無(wú)需接觸模型的內(nèi)部權(quán)重,,利用一個(gè)小型調(diào)整模型和一個(gè)未調(diào)整的對(duì)應(yīng)模型,,通過(guò)對(duì)比它們的預(yù)測(cè)結(jié)果來(lái)引導(dǎo)基礎(chǔ)模型的預(yù)測(cè)。
再通過(guò)解碼時(shí)的引導(dǎo),,基礎(chǔ)模型可以朝著調(diào)優(yōu)方向進(jìn)行微調(diào),,同時(shí)保留了更大規(guī)模預(yù)訓(xùn)練的優(yōu)勢(shì)。
為了驗(yàn)證代理調(diào)優(yōu)的性能,,研究人員對(duì)LlAMA-2的13B,、70B原始模型進(jìn)行了微調(diào)。結(jié)果顯示,,這兩個(gè)模型分別接近對(duì)應(yīng)的Chat模型的91.1%和88.1%的性能,。
此外,在知識(shí)量大的TruthfulQA數(shù)據(jù)集測(cè)試中,代理調(diào)優(yōu)的真實(shí)性比直接調(diào)優(yōu)的模型還高,說(shuō)明在解碼時(shí)更好地保留了訓(xùn)練知識(shí),。
論文地址:https://arxiv.org/abs/2401.08565?
代理調(diào)優(yōu)的核心技術(shù)思想是,,先調(diào)優(yōu)一個(gè)小的語(yǔ)言模型,然后用這個(gè)小型調(diào)優(yōu)模型指導(dǎo)大型黑箱語(yǔ)言模型,使其具備像調(diào)優(yōu)后的模型一樣行為、功能,。
但不需要訪問(wèn)其內(nèi)部權(quán)重,只需要其在輸出詞表上的預(yù)測(cè)分布,。有趣的是,該技術(shù)與大模型中的“蒸餾”技術(shù)恰恰相反,。
代理調(diào)優(yōu)的技術(shù)方法
首先,,我們需要準(zhǔn)備一個(gè)小型的預(yù)訓(xùn)練語(yǔ)言模型M-,該模型與基礎(chǔ)模型M共享相同的詞匯表,。M-可以是一個(gè)現(xiàn)成的模型,,也可以是通過(guò)較小規(guī)模的預(yù)訓(xùn)練得到的模型。
接下來(lái),,我們使用訓(xùn)練數(shù)據(jù)對(duì)M-進(jìn)行調(diào)優(yōu),得到一個(gè)調(diào)優(yōu)后的模型M+,。調(diào)優(yōu)可以使用各種技術(shù),例如,有監(jiān)督的微調(diào)或領(lǐng)域自適應(yīng)方法,,具體取決于任務(wù)的需求,。
詳細(xì)解碼流程
在解碼時(shí),對(duì)于給定的輸入,,我們通過(guò)對(duì)基礎(chǔ)模型M的輸出預(yù)測(cè)分布和調(diào)優(yōu)模型M+的輸出預(yù)測(cè)分布之間的差異進(jìn)行操作,,來(lái)引導(dǎo)基礎(chǔ)模型的預(yù)測(cè)。
使用基礎(chǔ)模型M對(duì)輸入進(jìn)行解碼,,得到基礎(chǔ)模型的預(yù)測(cè)結(jié)果,。這可以通過(guò)生成模型的輸出概率分布來(lái)實(shí)現(xiàn),通常使用一種解碼算法,,例如,,貪婪搜索或束搜索來(lái)生成最優(yōu)的輸出序列。
然后,,使用調(diào)優(yōu)模型M+對(duì)相同的輸入進(jìn)行解碼,得到調(diào)優(yōu)模型的預(yù)測(cè)結(jié)果,。
接下來(lái),,計(jì)算基礎(chǔ)模型的預(yù)測(cè)結(jié)果與調(diào)優(yōu)模型的預(yù)測(cè)結(jié)果之間的差異??梢允褂肒L散度或交叉熵方法,,來(lái)度量?jī)蓚€(gè)預(yù)測(cè)分布之間的差異。
最后,,將預(yù)測(cè)差異應(yīng)用于基礎(chǔ)模型的預(yù)測(cè)結(jié)果,,以引導(dǎo)基礎(chǔ)模型的預(yù)測(cè)朝向調(diào)優(yōu)模型的預(yù)測(cè)方向移動(dòng)。同時(shí)可以將預(yù)測(cè)差異添加到基礎(chǔ)模型的預(yù)測(cè)分布中,,以調(diào)整每個(gè)詞的概率值,。
免責(zé)聲明:本文來(lái)自網(wǎng)絡(luò)收錄或投稿,觀點(diǎn)僅代表作者本人,,不代表芒果財(cái)經(jīng)贊同其觀點(diǎn)或證實(shí)其描述,,版權(quán)歸原作者所有。轉(zhuǎn)載請(qǐng)注明出處:http://lequren.com/1088130.html
溫馨提示:投資有風(fēng)險(xiǎn),,入市須謹(jǐn)慎,。本資訊不作為投資理財(cái)建議。