文章來源:AIGC開放社區(qū)
圖片來源:由無界 AI生成
12月8日,,著名開源生成式AI平臺stability.ai在官網(wǎng)開源了,,30億參數(shù)的大語言模型StableLM Zephyr 3B。
Zephyr 3B專用于手機,、筆記本等移動設備,,主打參數(shù)小、性能強,、算力消耗低的特點,,可自動生成文本、總結摘要等,,可與70億,、130億參數(shù)的模型相媲美。
值得一提的是,,該模型的核心架構來自Zephyr 7B,,并進行了精調。而Zephyr 7B是基于前幾天剛獲35億元巨額融資Mistral AI的Mistral-7B模型微調而成,。
同時使用了GPT-3.5生成了訓練數(shù)據(jù)集以及GPT-4對其進行了人工智能反饋,所以,,Zephyr 3B是有多家大廠模型基因的超級縫合怪,。
Zephyr 3B開源地址:https://huggingface.co/stabilityai/stablelm-zephyr-3b
Zephyr 7B開源地址:https://huggingface.co/HuggingFaceH4/zephyr-7b-beta
由于Stability.ai并沒有開放Zephyr 3B的論文,,只能從Zephyr 7B的技術文檔為大家解讀一下其核心架構,主要包含監(jiān)督學習優(yōu)化,、人工智能反饋和直覺優(yōu)化指導學習三大模塊,。
由于該模型在訓練數(shù)據(jù)集和人工智能反饋等方面使用了GPT系列模型,有很強的ChatGPT基因,。
監(jiān)督學習優(yōu)化(dSFT)
研究人員通過OpenAI的GPT-3.5 模型生成了規(guī)模龐大的對話數(shù)據(jù)集“UltraChat”,超過147萬條多輪不同主題對話示例,。
然后通過該數(shù)據(jù)集對模型進行監(jiān)督學習優(yōu)化,訓練樣本是對話內(nèi)容和回復,以最大程度降低“交叉熵”誤差,。
該流程類似傳統(tǒng)的監(jiān)督學習方法,將模型訓練任務指定到給定數(shù)據(jù)集上,。
但與使用人工數(shù)據(jù)集略有不同,該方法直接使用了強大語言模型自主生成高質量的訓練數(shù)據(jù),避免了人工亂標注難題,。
人工智能反饋(AIF)
為了進一步提升模型的文本生成、理解的精準度,,研究人員使用了第二個數(shù)據(jù)集UltraFeedback,,對4個不同的大語言模型,在不同主題下的回復進行打分評價,。
具體方法是將每條對話的文本提示送入到4個模型,,得到4個答案,然后再由“教師模型”GPT-4進行打分(0—10分),。最高分答案為“優(yōu)先答案”,隨機選擇另一個作為“非優(yōu)先答案”進行深度優(yōu)化。
直覺優(yōu)化指導學習(dDPO)
通過使用前面的“UltraFeedback”收集的GPT-4對話樣本及質量評價,提取高分和低分樣本作為數(shù)據(jù)配對組,。
就是按批處理對優(yōu)先和非優(yōu)先樣本計算兩種概率,并利用損失函數(shù)測量它們的差異,通過反向傳播優(yōu)化模型參數(shù),。
該算法以試批方式運行,在每輪中隨機選取樣本對,計算當前模型與基線模型在這兩個樣本上的概率誤差,。
通過這種反向傳播將誤差回溯至參數(shù),可實時地微調模型結構,。整個優(yōu)化流程非常高效,無需采樣,幾小時就能完成,并且不需任何人工標注。
測試數(shù)據(jù)
Stability.ai表示,,Zephyr 3B在MT Bench,、AlpacaEval等平臺進行了測試,在生成上下文相關,、連貫和語言準確等文本方面的表現(xiàn)非常優(yōu)秀,。
特別擅長創(chuàng)意、個性化文本生成,,同時能根據(jù)用戶輸入的數(shù)據(jù)進行分析,。
其性能可與Falcon-4b-Instruct、WizardLM-13B-v1,、Llama-2-70b-chat 和 Claude-V1等幾個大參數(shù)模型相媲美,。
本文素材來源stability.ai官網(wǎng),、Zephyr 7B論文,如有侵權請聯(lián)系刪除
免責聲明:本文來自網(wǎng)絡收錄或投稿,,觀點僅代表作者本人,,不代表芒果財經(jīng)贊同其觀點或證實其描述,版權歸原作者所有,。轉載請注明出處:http://lequren.com/1082625.html
溫馨提示:投資有風險,,入市須謹慎。本資訊不作為投資理財建議,。