A欧美国产国产综合视频_最近日本中文字幕免费完整_国产乱伦一级片_久久99国产综合精品婷婷_韩国理论片在线中文字幕一区二区_亚洲AV成人影片在线观看_亚洲av无码电影网_优物视频最新网址_天天艹无码天天射_脱下丝袜的极品销魂大胸美女王馨瑶91精品美女嫩模写真套图,男男被?到喷水18禁视频,欧美久久精品一级黑人c片 ,综合在线视频精品专区

人民網(wǎng)

專用于手機(jī),、筆記本,,Stability.ai開源ChatGPT基因的大模型 – AI新智界

文章來(lái)源:AIGC開放社區(qū)

專用于手機(jī)、筆記本,,Stability.ai開源ChatGPT基因的大模型 – AI新智界

圖片來(lái)源:由無(wú)界 AI生成

12月8日,,著名開源生成式AI平臺(tái)stability.ai在官網(wǎng)開源了,30億參數(shù)的大語(yǔ)言模型StableLM Zephyr 3B。

Zephyr 3B專用于手機(jī),、筆記本等移動(dòng)設(shè)備,主打參數(shù)小,、性能強(qiáng),、算力消耗低的特點(diǎn),,可自動(dòng)生成文本,、總結(jié)摘要等,可與70億,、130億參數(shù)的模型相媲美,。

值得一提的是,該模型的核心架構(gòu)來(lái)自Zephyr 7B,,并進(jìn)行了精調(diào),。而Zephyr 7B是基于前幾天剛獲35億元巨額融資Mistral AI的Mistral-7B模型微調(diào)而成

同時(shí)使用了GPT-3.5生成了訓(xùn)練數(shù)據(jù)集以及GPT-4對(duì)其進(jìn)行了人工智能反饋,所以,,Zephyr 3B是有多家大廠模型基因的超級(jí)縫合怪,。

Zephyr 3B開源地址:https://huggingface.co/stabilityai/stablelm-zephyr-3b

Zephyr 7B開源地址:https://huggingface.co/HuggingFaceH4/zephyr-7b-beta

專用于手機(jī)、筆記本,,Stability.ai開源ChatGPT基因的大模型 – AI新智界

由于Stability.ai并沒(méi)有開放Zephyr 3B的論文,,只能從Zephyr 7B的技術(shù)文檔為大家解讀一下其核心架構(gòu),主要包含監(jiān)督學(xué)習(xí)優(yōu)化,、人工智能反饋和直覺優(yōu)化指導(dǎo)學(xué)習(xí)三大模塊,。

由于該模型在訓(xùn)練數(shù)據(jù)集和人工智能反饋等方面使用了GPT系列模型,有很強(qiáng)的ChatGPT基因,。

專用于手機(jī),、筆記本,,Stability.ai開源ChatGPT基因的大模型 – AI新智界

監(jiān)督學(xué)習(xí)優(yōu)化(dSFT)

研究人員通過(guò)OpenAI的GPT-3.5 模型生成了規(guī)模龐大的對(duì)話數(shù)據(jù)集“UltraChat”,超過(guò)147萬(wàn)條多輪不同主題對(duì)話示例。

然后通過(guò)該數(shù)據(jù)集對(duì)模型進(jìn)行監(jiān)督學(xué)習(xí)優(yōu)化,訓(xùn)練樣本是對(duì)話內(nèi)容和回復(fù),以最大程度降低“交叉熵”誤差,。

該流程類似傳統(tǒng)的監(jiān)督學(xué)習(xí)方法,,將模型訓(xùn)練任務(wù)指定到給定數(shù)據(jù)集上。

但與使用人工數(shù)據(jù)集略有不同,該方法直接使用了強(qiáng)大語(yǔ)言模型自主生成高質(zhì)量的訓(xùn)練數(shù)據(jù),避免了人工亂標(biāo)注難題,。

人工智能反饋(AIF)

為了進(jìn)一步提升模型的文本生成,、理解的精準(zhǔn)度,研究人員使用了第二個(gè)數(shù)據(jù)集UltraFeedback,,對(duì)4個(gè)不同的大語(yǔ)言模型,,在不同主題下的回復(fù)進(jìn)行打分評(píng)價(jià)。

專用于手機(jī),、筆記本,,Stability.ai開源ChatGPT基因的大模型 – AI新智界

具體方法是將每條對(duì)話的文本提示送入到4個(gè)模型,得到4個(gè)答案,然后再由“教師模型”GPT-4進(jìn)行打分(0—10分),。最高分答案為“優(yōu)先答案”,隨機(jī)選擇另一個(gè)作為“非優(yōu)先答案”進(jìn)行深度優(yōu)化,。

直覺優(yōu)化指導(dǎo)學(xué)習(xí)(dDPO)

通過(guò)使用前面的“UltraFeedback”收集的GPT-4對(duì)話樣本及質(zhì)量評(píng)價(jià),提取高分和低分樣本作為數(shù)據(jù)配對(duì)組。

就是按批處理對(duì)優(yōu)先和非優(yōu)先樣本計(jì)算兩種概率,并利用損失函數(shù)測(cè)量它們的差異,通過(guò)反向傳播優(yōu)化模型參數(shù),。

專用于手機(jī),、筆記本,Stability.ai開源ChatGPT基因的大模型 – AI新智界

該算法以試批方式運(yùn)行,在每輪中隨機(jī)選取樣本對(duì),計(jì)算當(dāng)前模型與基線模型在這兩個(gè)樣本上的概率誤差,。

通過(guò)這種反向傳播將誤差回溯至參數(shù),可實(shí)時(shí)地微調(diào)模型結(jié)構(gòu),。整個(gè)優(yōu)化流程非常高效,無(wú)需采樣,幾小時(shí)就能完成,并且不需任何人工標(biāo)注。

測(cè)試數(shù)據(jù)

Stability.ai表示,,Zephyr 3B在MT Bench,、AlpacaEval等平臺(tái)進(jìn)行了測(cè)試,在生成上下文相關(guān),、連貫和語(yǔ)言準(zhǔn)確等文本方面的表現(xiàn)非常優(yōu)秀,。

特別擅長(zhǎng)創(chuàng)意、個(gè)性化文本生成,,同時(shí)能根據(jù)用戶輸入的數(shù)據(jù)進(jìn)行分析,。

專用于手機(jī)、筆記本,,Stability.ai開源ChatGPT基因的大模型 – AI新智界

其性能可與Falcon-4b-Instruct,、WizardLM-13B-v1、Llama-2-70b-chat 和 Claude-V1等幾個(gè)大參數(shù)模型相媲美,。

專用于手機(jī),、筆記本,Stability.ai開源ChatGPT基因的大模型 – AI新智界

本文素材來(lái)源stability.ai官網(wǎng)、Zephyr 7B論文,,如有侵權(quán)請(qǐng)聯(lián)系刪除

免責(zé)聲明:本文來(lái)自網(wǎng)絡(luò)收錄或投稿,,觀點(diǎn)僅代表作者本人,不代表芒果財(cái)經(jīng)贊同其觀點(diǎn)或證實(shí)其描述,,版權(quán)歸原作者所有,。轉(zhuǎn)載請(qǐng)注明出處:http://lequren.com/1082625.html
溫馨提示:投資有風(fēng)險(xiǎn),入市須謹(jǐn)慎,。本資訊不作為投資理財(cái)建議,。

(0)
AIcore的頭像AIcore
上一篇 2023年12月9日 上午9:06
下一篇 2023年12月9日 上午10:43
198搶自鏈數(shù)字人

相關(guān)推薦