A欧美国产国产综合视频_最近日本中文字幕免费完整_国产乱伦一级片_久久99国产综合精品婷婷_韩国理论片在线中文字幕一区二区_亚洲AV成人影片在线观看_亚洲av无码电影网_优物视频最新网址_天天艹无码天天射_脱下丝袜的极品销魂大胸美女王馨瑶91精品美女嫩模写真套图,男男被?到喷水18禁视频,欧美久久精品一级黑人c片 ,综合在线视频精品专区

人民網(wǎng)

兩只羊駝掐頭去尾拼一起,,屠榜HuggingFace – AI新智界

原文來源:量子位

兩只羊駝掐頭去尾拼一起,,屠榜HuggingFace – AI新智界

圖片來源:由無界 AI?生成

HuggingFace開源大模型排行榜,,又被屠榜了。

前排被清一色的SOLAR 10.7B微調(diào)版本占據(jù),,把幾周之前的各種Mixtral 8x7B微調(diào)版本擠了下去,。

兩只羊駝掐頭去尾拼一起,屠榜HuggingFace – AI新智界

SOLAR大模型什么來頭,?

相關(guān)論文剛剛上傳到ArXiv,,來自韓國公司Upstage AI,使用了新的大模型擴展方法depth up-scaling(DUS),。

兩只羊駝掐頭去尾拼一起,,屠榜HuggingFace – AI新智界

簡單來說就是兩只7B羊駝掐頭去尾,一只砍掉前8層,,一只砍掉后8層,。

剩下兩個24層縫合在一起,第一個模型的第24層與第二個模型的第9層拼接,,最后變成新的48層10.7B大模型,。

兩只羊駝掐頭去尾拼一起,屠榜HuggingFace – AI新智界

論文聲稱新方法超過傳統(tǒng)擴展方法如MoE,,而且可以與沿用基礎(chǔ)大模型完全相同的基礎(chǔ)設(shè)施,。

不需要門控網(wǎng)絡(luò)等附加模塊,針對MoE優(yōu)化訓(xùn)練框架了,,也不需要自定義CUDA內(nèi)核來快速推理,,可以無縫集成到現(xiàn)有方法中,同時保持高效,。

團隊選擇7B規(guī)模最強的單體大模型Mistral 7B作為底材,,用新方法拼接起來,,再超越原版以及MoE版。

同時,,經(jīng)過對齊的Instruct版本也超越對應(yīng)的MoE Instruct版本,。

兩只羊駝掐頭去尾拼一起,屠榜HuggingFace – AI新智界

將縫合進行到底

為什么是這種拼接方式,,論文中介紹來自一種直覺,。

從最簡單的擴展方式開始,也就是把32層的基礎(chǔ)大模型重復(fù)兩次,,變成64層,。

這樣做的好處是不存在異質(zhì)性,所有層都來自基礎(chǔ)大模型,,但第32層和第33層(與第1層相同)的接縫處有較大的“層距離”(layer distance),。

之前有研究表明,Transformer不同層做不同的事,,如越深的層擅長處理越抽象的概念,。

團隊認為層距離過大可能妨礙模型有效利用預(yù)訓(xùn)練權(quán)重的能力。

一個潛在的解決方案是犧牲中間層,,從而減少接縫處的差異,,DUS方法就從這里誕生。

根據(jù)性能與模型尺寸的權(quán)衡,,團隊選擇從每個模型中刪除8層,,接縫處從32層連第1層,變成了24層連第9層,。

簡單拼接后的模型,,性能一開始還是會低于原版基礎(chǔ)模型,但經(jīng)過繼續(xù)預(yù)訓(xùn)練可以迅速恢復(fù),。

在指令微調(diào)階段,,除了使用開源數(shù)據(jù)集,還制作了數(shù)學強化數(shù)據(jù)集,,對齊階段使用DPO,。

最后一步,把使用不同數(shù)據(jù)集訓(xùn)練的模型版本加權(quán)平均,,也是把縫合進行到底了,。

兩只羊駝掐頭去尾拼一起,屠榜HuggingFace – AI新智界

有網(wǎng)友質(zhì)疑測試數(shù)據(jù)泄露的可能性,。

兩只羊駝掐頭去尾拼一起,,屠榜HuggingFace – AI新智界

團隊也考慮到這一點,在論文附錄中專門報告了數(shù)據(jù)污染測試結(jié)果,顯示出低水平,。

兩只羊駝掐頭去尾拼一起,,屠榜HuggingFace – AI新智界

最后,SOLAR 10.7B基礎(chǔ)模型和微調(diào)模型都以Apache 2.0協(xié)議開源,。

試用過的網(wǎng)友反饋,,從JSON格式數(shù)據(jù)中提取數(shù)據(jù)表現(xiàn)不錯。

兩只羊駝掐頭去尾拼一起,,屠榜HuggingFace – AI新智界

論文地址:
https://arxiv.org/abs/2312.15166

免責聲明:本文來自網(wǎng)絡(luò)收錄或投稿,,觀點僅代表作者本人,不代表芒果財經(jīng)贊同其觀點或證實其描述,,版權(quán)歸原作者所有,。轉(zhuǎn)載請注明出處:http://lequren.com/1085475.html
溫馨提示:投資有風險,入市須謹慎,。本資訊不作為投資理財建議,。

(0)
Model進化論的頭像Model進化論
上一篇 2023年12月29日 下午1:42
下一篇 2023年12月29日 下午2:50
198搶自鏈數(shù)字人

相關(guān)推薦