无码人妻丰满熟妇奶水区码,亚洲精品国产精品国自产观看 ,久久人妻无码久久久影院导航密码

A欧美国产国产综合视频_最近日本中文字幕免费完整_国产乱伦一级片_久久99国产综合精品婷婷_韩国理论片在线中文字幕一区二区_亚洲AV成人影片在线观看_亚洲av无码电影网_优物视频最新网址_天天艹无码天天射_脱下丝袜的极品销魂大胸美女王馨瑶91精品美女嫩模写真套图,男男被?到喷水18禁视频,欧美久久精品一级黑人c片 ,综合在线视频精品专区

專用于手機(jī),、筆記本,，Stability.ai開(kāi)源ChatGPT基因的大模型 – AI新智界

AIcore ? 2023年12月9日上午10:15 ? 人工智能 ? 閱讀 7720

文章來(lái)源：AIGC開(kāi)放社區(qū)

圖片來(lái)源：由無(wú)界 AI生成

12月8日,，著名開(kāi)源生成式AI平臺(tái)stability.ai在官網(wǎng)開(kāi)源了,，30億參數(shù)的大語(yǔ)言模型StableLM Zephyr 3B。

Zephyr 3B專用于手機(jī),、筆記本等移動(dòng)設(shè)備,，主打參數(shù)小、性能強(qiáng),、算力消耗低的特點(diǎn),，可自動(dòng)生成文本、總結(jié)摘要等,，可與70億,、130億參數(shù)的模型相媲美。

值得一提的是,，該模型的核心架構(gòu)來(lái)自Zephyr 7B,，并進(jìn)行了精調(diào)。而Zephyr 7B是基于前幾天剛獲35億元巨額融資Mistral AI的Mistral-7B模型微調(diào)而成,。

同時(shí)使用了GPT-3.5生成了訓(xùn)練數(shù)據(jù)集以及GPT-4對(duì)其進(jìn)行了人工智能反饋,，所以,，Zephyr 3B是有多家大廠模型基因的超級(jí)縫合怪。

Zephyr 3B開(kāi)源地址：https://huggingface.co/stabilityai/stablelm-zephyr-3b

Zephyr 7B開(kāi)源地址：https://huggingface.co/HuggingFaceH4/zephyr-7b-beta

由于Stability.ai并沒(méi)有開(kāi)放Zephyr 3B的論文，只能從Zephyr 7B的技術(shù)文檔為大家解讀一下其核心架構(gòu),，主要包含監(jiān)督學(xué)習(xí)優(yōu)化,、人工智能反饋和直覺(jué)優(yōu)化指導(dǎo)學(xué)習(xí)三大模塊。

由于該模型在訓(xùn)練數(shù)據(jù)集和人工智能反饋等方面使用了GPT系列模型，有很強(qiáng)的ChatGPT基因,。

監(jiān)督學(xué)習(xí)優(yōu)化（dSFT）

研究人員通過(guò)OpenAI的GPT-3.5 模型生成了規(guī)模龐大的對(duì)話數(shù)據(jù)集“UltraChat”,超過(guò)147萬(wàn)條多輪不同主題對(duì)話示例,。

然后通過(guò)該數(shù)據(jù)集對(duì)模型進(jìn)行監(jiān)督學(xué)習(xí)優(yōu)化,訓(xùn)練樣本是對(duì)話內(nèi)容和回復(fù),以最大程度降低“交叉熵”誤差,。

該流程類似傳統(tǒng)的監(jiān)督學(xué)習(xí)方法，將模型訓(xùn)練任務(wù)指定到給定數(shù)據(jù)集上,。

但與使用人工數(shù)據(jù)集略有不同,該方法直接使用了強(qiáng)大語(yǔ)言模型自主生成高質(zhì)量的訓(xùn)練數(shù)據(jù),避免了人工亂標(biāo)注難題,。

人工智能反饋（AIF）

為了進(jìn)一步提升模型的文本生成、理解的精準(zhǔn)度,，研究人員使用了第二個(gè)數(shù)據(jù)集UltraFeedback,，對(duì)4個(gè)不同的大語(yǔ)言模型，在不同主題下的回復(fù)進(jìn)行打分評(píng)價(jià),。

具體方法是將每條對(duì)話的文本提示送入到4個(gè)模型,，得到4個(gè)答案,然后再由“教師模型”GPT-4進(jìn)行打分（0—10分）。最高分答案為“優(yōu)先答案”,隨機(jī)選擇另一個(gè)作為“非優(yōu)先答案”進(jìn)行深度優(yōu)化,。

直覺(jué)優(yōu)化指導(dǎo)學(xué)習(xí)（dDPO）

通過(guò)使用前面的“UltraFeedback”收集的GPT-4對(duì)話樣本及質(zhì)量評(píng)價(jià),提取高分和低分樣本作為數(shù)據(jù)配對(duì)組,。

就是按批處理對(duì)優(yōu)先和非優(yōu)先樣本計(jì)算兩種概率,并利用損失函數(shù)測(cè)量它們的差異,通過(guò)反向傳播優(yōu)化模型參數(shù)。

該算法以試批方式運(yùn)行,在每輪中隨機(jī)選取樣本對(duì),計(jì)算當(dāng)前模型與基線模型在這兩個(gè)樣本上的概率誤差。

通過(guò)這種反向傳播將誤差回溯至參數(shù),可實(shí)時(shí)地微調(diào)模型結(jié)構(gòu),。整個(gè)優(yōu)化流程非常高效,無(wú)需采樣,幾小時(shí)就能完成,并且不需任何人工標(biāo)注,。

測(cè)試數(shù)據(jù)

Stability.ai表示，Zephyr 3B在MT Bench,、AlpacaEval等平臺(tái)進(jìn)行了測(cè)試,，在生成上下文相關(guān)、連貫和語(yǔ)言準(zhǔn)確等文本方面的表現(xiàn)非常優(yōu)秀,。

特別擅長(zhǎng)創(chuàng)意,、個(gè)性化文本生成，同時(shí)能根據(jù)用戶輸入的數(shù)據(jù)進(jìn)行分析,。

其性能可與Falcon-4b-Instruct,、WizardLM-13B-v1,、Llama-2-70b-chat 和 Claude-V1等幾個(gè)大參數(shù)模型相媲美。

本文素材來(lái)源stability.ai官網(wǎng),、Zephyr 7B論文，如有侵權(quán)請(qǐng)聯(lián)系刪除

免責(zé)聲明：本文來(lái)自網(wǎng)絡(luò)收錄或投稿,，觀點(diǎn)僅代表作者本人,，不代表芒果財(cái)經(jīng)贊同其觀點(diǎn)或證實(shí)其描述，版權(quán)歸原作者所有,。轉(zhuǎn)載請(qǐng)注明出處：http://lequren.com/1082625.html
溫馨提示：投資有風(fēng)險(xiǎn),，入市須謹(jǐn)慎。本資訊不作為投資理財(cái)建議,。