A欧美国产国产综合视频_最近日本中文字幕免费完整_国产乱伦一级片_久久99国产综合精品婷婷_韩国理论片在线中文字幕一区二区_亚洲AV成人影片在线观看_亚洲av无码电影网_优物视频最新网址_天天艹无码天天射_脱下丝袜的极品销魂大胸美女王馨瑶91精品美女嫩模写真套图,男男被?到喷水18禁视频,欧美久久精品一级黑人c片 ,综合在线视频精品专区

人民網(wǎng)

8萬億訓(xùn)練數(shù)據(jù),,性能超LLaMA-2,英偉達推出Nemotron-4 15B – AI新智界

文章來源:AIGC開放社區(qū)

8萬億訓(xùn)練數(shù)據(jù),,性能超LLaMA-2,,英偉達推出Nemotron-4 15B – AI新智界圖片來源:由無界AI生成

英偉達的研究人員推出了Nemotron-4 15B。這是一個擁有150億參數(shù)的大語言模型,并基于8萬億文本標(biāo)注數(shù)據(jù)進行了預(yù)訓(xùn)練,。

在數(shù)學(xué),、多語言分類和代碼等測試評估中,Nemotron-4 15B在7個領(lǐng)域中的4個超過了所有現(xiàn)役同類大小的開源模型,,并且在其他領(lǐng)域中也表現(xiàn)出了優(yōu)秀的性能,。

技術(shù)報告地址:https://arxiv.org/abs/2402.16819

8萬億訓(xùn)練數(shù)據(jù),,性能超LLaMA-2,,英偉達推出Nemotron-4 15B – AI新智界

Nemotron-4 15B架構(gòu)

Nemotron-4 15B使用了標(biāo)準(zhǔn)的Transformer架構(gòu),這是一種基于自注意力機制的深度神經(jīng)網(wǎng)絡(luò),。

8萬億訓(xùn)練數(shù)據(jù),,性能超LLaMA-2,英偉達推出Nemotron-4 15B – AI新智界

Transformer由多個相同的層組成,,每個層都有多頭自注意力機制和前饋神經(jīng)網(wǎng)絡(luò),。自注意力機制使模型能夠在輸入序列中捕捉到不同位置之間的依賴關(guān)系,,以及輸入序列中各個位置之間的關(guān)聯(lián)性,。前饋神經(jīng)網(wǎng)絡(luò)則通過多層感知機,對每個位置的表示進行非線性變換,。

解碼器:Nemotron-4 15B只使用了Transformer的部分解碼器,。解碼器主要負責(zé)將輸入序列轉(zhuǎn)換為輸出序列,通過自注意力機制和前饋神經(jīng)網(wǎng)絡(luò)對輸入序列進行處理,。

注意力機制:在Nemotron-4 15B中,,注意力機制被用于自注意力和全局注意力。自注意力用于學(xué)習(xí)輸入序列內(nèi)部的依賴關(guān)系,而全局注意力用于學(xué)習(xí)輸入序列與輸出序列之間的對應(yīng)關(guān)系,。

通過注意力機制,,模型能夠聚焦于輸入序列中與當(dāng)前位置相關(guān)的信息,從而更好地理解上下文,。

8萬億訓(xùn)練數(shù)據(jù),,性能超LLaMA-2,英偉達推出Nemotron-4 15B – AI新智界

多頭注意力:在Nemotron-4 15B中,,每個注意力機制都有多個注意力頭,,每個頭都可以學(xué)習(xí)到不同的關(guān)注信息。

通過使用多頭注意力,,模型能夠同時關(guān)注輸入序列中的不同方面,,從而提高了模型的表達能力和泛化能力。

位置編碼:位置編碼是一種用于為輸入序列中的每個位置添加位置信息的技術(shù),。Nemotron-4 15B使用了旋轉(zhuǎn)位置編碼,,使模型能夠在處理輸入序列時考慮到位置信息,從而更好地捕捉到序列中的順序關(guān)系,。

Nemotron-4 15B數(shù)據(jù)與訓(xùn)練流程

Nemotron-4 15B的訓(xùn)練數(shù)據(jù)集由各種類型的數(shù)據(jù)組成,,其中包括英語自然語言數(shù)據(jù)(70%)、多語言自然語言數(shù)據(jù)(15%)和源代碼數(shù)據(jù)(15%),。

為了使生成的內(nèi)容更準(zhǔn)確性,,在構(gòu)建預(yù)訓(xùn)練語料庫時移除了重復(fù)數(shù)據(jù),并對數(shù)據(jù)進行了高質(zhì)量,、精細過濾,。

8萬億訓(xùn)練數(shù)據(jù),性能超LLaMA-2,,英偉達推出Nemotron-4 15B – AI新智界

在訓(xùn)練Nemotron-4 15B的過程中,,研究人員利用了384個DGX H100節(jié)點,每個節(jié)點包含8個基于NVIDIA Hopper架構(gòu)的H100 80GB SXM5 GPU,。并采用了8路張量并行和數(shù)據(jù)并行(data parallelism)的組合,,以及分布式優(yōu)化器進行分片。

在英語,、數(shù)學(xué)推理,、多語言分類、代碼等測試任務(wù)中,,Nemotron-4 15B在英語評估領(lǐng)域優(yōu)于LLaMA-2 34B和Mistral 7B,,并與QWEN 14B和Gemma 7B達到了相近的性能。

8萬億訓(xùn)練數(shù)據(jù),,性能超LLaMA-2,,英偉達推出Nemotron-4 15B – AI新智界

此外,,Nemotron-4 15B在廣泛的代碼語言中表現(xiàn)出了更高的準(zhǔn)確率,尤其在資源稀缺的編程語言上超過了Starcoder和Mistral 7B等模型,。

本文素材來源Nemotron-4 15B技術(shù)報告,,如有侵權(quán)請聯(lián)系刪除

免責(zé)聲明:本文來自網(wǎng)絡(luò)收錄或投稿,觀點僅代表作者本人,,不代表芒果財經(jīng)贊同其觀點或證實其描述,,版權(quán)歸原作者所有。轉(zhuǎn)載請注明出處:http://lequren.com/1091395.html
溫馨提示:投資有風(fēng)險,,入市須謹(jǐn)慎,。本資訊不作為投資理財建議。

(0)
AIGC開放社區(qū)的頭像AIGC開放社區(qū)
上一篇 2024年3月7日
下一篇 2024年3月7日
198搶自鏈數(shù)字人

相關(guān)推薦