原文來源:量子位
圖片來源:由無界 AI?生成
HuggingFace開源大模型排行榜,,又被屠榜了,。
前排被清一色的SOLAR 10.7B微調(diào)版本占據(jù),把幾周之前的各種Mixtral 8x7B微調(diào)版本擠了下去,。
SOLAR大模型什么來頭?
相關(guān)論文剛剛上傳到ArXiv,,來自韓國(guó)公司Upstage AI,,使用了新的大模型擴(kuò)展方法depth up-scaling(DUS)。
簡(jiǎn)單來說就是兩只7B羊駝掐頭去尾,,一只砍掉前8層,一只砍掉后8層,。
剩下兩個(gè)24層縫合在一起,,第一個(gè)模型的第24層與第二個(gè)模型的第9層拼接,最后變成新的48層10.7B大模型,。
論文聲稱新方法超過傳統(tǒng)擴(kuò)展方法如MoE,而且可以與沿用基礎(chǔ)大模型完全相同的基礎(chǔ)設(shè)施,。
不需要門控網(wǎng)絡(luò)等附加模塊,,針對(duì)MoE優(yōu)化訓(xùn)練框架了,也不需要自定義CUDA內(nèi)核來快速推理,,可以無縫集成到現(xiàn)有方法中,,同時(shí)保持高效。
團(tuán)隊(duì)選擇7B規(guī)模最強(qiáng)的單體大模型Mistral 7B作為底材,,用新方法拼接起來,,再超越原版以及MoE版。
同時(shí),,經(jīng)過對(duì)齊的Instruct版本也超越對(duì)應(yīng)的MoE Instruct版本,。
將縫合進(jìn)行到底
為什么是這種拼接方式,論文中介紹來自一種直覺,。
從最簡(jiǎn)單的擴(kuò)展方式開始,,也就是把32層的基礎(chǔ)大模型重復(fù)兩次,變成64層,。
這樣做的好處是不存在異質(zhì)性,,所有層都來自基礎(chǔ)大模型,但第32層和第33層(與第1層相同)的接縫處有較大的“層距離”(layer distance),。
之前有研究表明,,Transformer不同層做不同的事,如越深的層擅長(zhǎng)處理越抽象的概念,。
團(tuán)隊(duì)認(rèn)為層距離過大可能妨礙模型有效利用預(yù)訓(xùn)練權(quán)重的能力,。
一個(gè)潛在的解決方案是犧牲中間層,從而減少接縫處的差異,,DUS方法就從這里誕生,。
根據(jù)性能與模型尺寸的權(quán)衡,團(tuán)隊(duì)選擇從每個(gè)模型中刪除8層,,接縫處從32層連第1層,,變成了24層連第9層。
簡(jiǎn)單拼接后的模型,,性能一開始還是會(huì)低于原版基礎(chǔ)模型,但經(jīng)過繼續(xù)預(yù)訓(xùn)練可以迅速恢復(fù),。
在指令微調(diào)階段,,除了使用開源數(shù)據(jù)集,還制作了數(shù)學(xué)強(qiáng)化數(shù)據(jù)集,,對(duì)齊階段使用DPO,。
最后一步,把使用不同數(shù)據(jù)集訓(xùn)練的模型版本加權(quán)平均,,也是把縫合進(jìn)行到底了,。
有網(wǎng)友質(zhì)疑測(cè)試數(shù)據(jù)泄露的可能性,。
團(tuán)隊(duì)也考慮到這一點(diǎn),在論文附錄中專門報(bào)告了數(shù)據(jù)污染測(cè)試結(jié)果,,顯示出低水平,。
最后,,SOLAR 10.7B基礎(chǔ)模型和微調(diào)模型都以Apache 2.0協(xié)議開源,。
試用過的網(wǎng)友反饋,,從JSON格式數(shù)據(jù)中提取數(shù)據(jù)表現(xiàn)不錯(cuò)。
論文地址:
https://arxiv.org/abs/2312.15166
免責(zé)聲明:本文來自網(wǎng)絡(luò)收錄或投稿,,觀點(diǎn)僅代表作者本人,不代表芒果財(cái)經(jīng)贊同其觀點(diǎn)或證實(shí)其描述,,版權(quán)歸原作者所有,。轉(zhuǎn)載請(qǐng)注明出處:http://lequren.com/1085475.html
溫馨提示:投資有風(fēng)險(xiǎn),入市須謹(jǐn)慎,。本資訊不作為投資理財(cái)建議,。