文章來(lái)源:AIGC開放社區(qū)
圖片來(lái)源:由無(wú)界 AI生成
12月8日,,著名開源生成式AI平臺(tái)stability.ai在官網(wǎng)開源了,30億參數(shù)的大語(yǔ)言模型StableLM Zephyr 3B。
Zephyr 3B專用于手機(jī),、筆記本等移動(dòng)設(shè)備,主打參數(shù)小,、性能強(qiáng),、算力消耗低的特點(diǎn),,可自動(dòng)生成文本,、總結(jié)摘要等,可與70億,、130億參數(shù)的模型相媲美,。
值得一提的是,該模型的核心架構(gòu)來(lái)自Zephyr 7B,,并進(jìn)行了精調(diào),。而Zephyr 7B是基于前幾天剛獲35億元巨額融資Mistral AI的Mistral-7B模型微調(diào)而成。
同時(shí)使用了GPT-3.5生成了訓(xùn)練數(shù)據(jù)集以及GPT-4對(duì)其進(jìn)行了人工智能反饋,所以,,Zephyr 3B是有多家大廠模型基因的超級(jí)縫合怪,。
Zephyr 3B開源地址:https://huggingface.co/stabilityai/stablelm-zephyr-3b
Zephyr 7B開源地址:https://huggingface.co/HuggingFaceH4/zephyr-7b-beta
由于Stability.ai并沒(méi)有開放Zephyr 3B的論文,,只能從Zephyr 7B的技術(shù)文檔為大家解讀一下其核心架構(gòu),主要包含監(jiān)督學(xué)習(xí)優(yōu)化,、人工智能反饋和直覺優(yōu)化指導(dǎo)學(xué)習(xí)三大模塊,。
由于該模型在訓(xùn)練數(shù)據(jù)集和人工智能反饋等方面使用了GPT系列模型,有很強(qiáng)的ChatGPT基因,。
監(jiān)督學(xué)習(xí)優(yōu)化(dSFT)
研究人員通過(guò)OpenAI的GPT-3.5 模型生成了規(guī)模龐大的對(duì)話數(shù)據(jù)集“UltraChat”,超過(guò)147萬(wàn)條多輪不同主題對(duì)話示例。
然后通過(guò)該數(shù)據(jù)集對(duì)模型進(jìn)行監(jiān)督學(xué)習(xí)優(yōu)化,訓(xùn)練樣本是對(duì)話內(nèi)容和回復(fù),以最大程度降低“交叉熵”誤差,。
該流程類似傳統(tǒng)的監(jiān)督學(xué)習(xí)方法,,將模型訓(xùn)練任務(wù)指定到給定數(shù)據(jù)集上。
但與使用人工數(shù)據(jù)集略有不同,該方法直接使用了強(qiáng)大語(yǔ)言模型自主生成高質(zhì)量的訓(xùn)練數(shù)據(jù),避免了人工亂標(biāo)注難題,。
人工智能反饋(AIF)
為了進(jìn)一步提升模型的文本生成,、理解的精準(zhǔn)度,研究人員使用了第二個(gè)數(shù)據(jù)集UltraFeedback,,對(duì)4個(gè)不同的大語(yǔ)言模型,,在不同主題下的回復(fù)進(jìn)行打分評(píng)價(jià)。
具體方法是將每條對(duì)話的文本提示送入到4個(gè)模型,得到4個(gè)答案,然后再由“教師模型”GPT-4進(jìn)行打分(0—10分),。最高分答案為“優(yōu)先答案”,隨機(jī)選擇另一個(gè)作為“非優(yōu)先答案”進(jìn)行深度優(yōu)化,。
直覺優(yōu)化指導(dǎo)學(xué)習(xí)(dDPO)
通過(guò)使用前面的“UltraFeedback”收集的GPT-4對(duì)話樣本及質(zhì)量評(píng)價(jià),提取高分和低分樣本作為數(shù)據(jù)配對(duì)組。
就是按批處理對(duì)優(yōu)先和非優(yōu)先樣本計(jì)算兩種概率,并利用損失函數(shù)測(cè)量它們的差異,通過(guò)反向傳播優(yōu)化模型參數(shù),。
該算法以試批方式運(yùn)行,在每輪中隨機(jī)選取樣本對(duì),計(jì)算當(dāng)前模型與基線模型在這兩個(gè)樣本上的概率誤差,。
通過(guò)這種反向傳播將誤差回溯至參數(shù),可實(shí)時(shí)地微調(diào)模型結(jié)構(gòu),。整個(gè)優(yōu)化流程非常高效,無(wú)需采樣,幾小時(shí)就能完成,并且不需任何人工標(biāo)注。
測(cè)試數(shù)據(jù)
Stability.ai表示,,Zephyr 3B在MT Bench,、AlpacaEval等平臺(tái)進(jìn)行了測(cè)試,在生成上下文相關(guān),、連貫和語(yǔ)言準(zhǔn)確等文本方面的表現(xiàn)非常優(yōu)秀,。
特別擅長(zhǎng)創(chuàng)意、個(gè)性化文本生成,,同時(shí)能根據(jù)用戶輸入的數(shù)據(jù)進(jìn)行分析,。
其性能可與Falcon-4b-Instruct,、WizardLM-13B-v1、Llama-2-70b-chat 和 Claude-V1等幾個(gè)大參數(shù)模型相媲美,。
本文素材來(lái)源stability.ai官網(wǎng)、Zephyr 7B論文,,如有侵權(quán)請(qǐng)聯(lián)系刪除
免責(zé)聲明:本文來(lái)自網(wǎng)絡(luò)收錄或投稿,,觀點(diǎn)僅代表作者本人,不代表芒果財(cái)經(jīng)贊同其觀點(diǎn)或證實(shí)其描述,,版權(quán)歸原作者所有,。轉(zhuǎn)載請(qǐng)注明出處:http://lequren.com/1082625.html
溫馨提示:投資有風(fēng)險(xiǎn),入市須謹(jǐn)慎,。本資訊不作為投資理財(cái)建議,。