A欧美国产国产综合视频_最近日本中文字幕免费完整_国产乱伦一级片_久久99国产综合精品婷婷_韩国理论片在线中文字幕一区二区_亚洲AV成人影片在线观看_亚洲av无码电影网_优物视频最新网址_天天艹无码天天射_脱下丝袜的极品销魂大胸美女王馨瑶91精品美女嫩模写真套图,男男被?到喷水18禁视频,欧美久久精品一级黑人c片 ,综合在线视频精品专区

人民網(wǎng)

Hugging Face劇透:阿里通義千問下一代Qwen2來了,? – AI新智界

原文來源:硅星人

Hugging Face劇透:阿里通義千問下一代Qwen2來了,? – AI新智界

圖片來源:由無界 AI生成

作為全球最頂級(jí)的機(jī)器學(xué)習(xí)工具庫(kù),,Hugging Face上最近悄悄出現(xiàn)了一個(gè)新的transformers模型——Qwen2。沒錯(cuò),,正是阿里通義千問Qwen模型的第二代,。不過通義團(tuán)隊(duì)的算法同學(xué)在社交媒體上對(duì)此繼續(xù)保持神秘。

Hugging Face劇透:阿里通義千問下一代Qwen2來了,? – AI新智界

“讓它保持神秘”

也就是說,,HuggingFace上的信息相當(dāng)于一次“劇透”。而有劇透可能就說明距離正式“上映”不遠(yuǎn)了,。

這款最全尺寸的中國(guó)開源模型的一舉一動(dòng)都備受開源社區(qū)開發(fā)者們關(guān)注,,那么這次劇透都透露了哪些信息?我們也來梳理了一下,。

Hugging Face劇透:阿里通義千問下一代Qwen2來了,? – AI新智界

根據(jù)Qwen2頁(yè)面的Overview部分,這個(gè)新一代的基礎(chǔ)模型同樣包括不同參數(shù)大小的版本,。這個(gè)簡(jiǎn)短的介紹提到Qwen2是基于Transformer架構(gòu),,采用SwiGLU激活、注意力QKV偏置,、組查詢注意力,、滑動(dòng)窗口注意力和全序列注意力相混合等技術(shù),根據(jù)介紹,,Qwen2還提供了一個(gè)適應(yīng)多種自然語(yǔ)言和代碼的改進(jìn)型分詞器。

我們給大家簡(jiǎn)單講一講這些技術(shù),,首先是SwiGLU激活,。它是激活函數(shù)的一種,,全稱叫做Swish-Gated Linear Unit??催@名就能明白,SwiGLU激活函數(shù)就是縫合了Swish激活函數(shù)和門控線性單元(Gated Linear Unit, GLU)的特性,。Swish激活函數(shù)是一種非線性函數(shù),,它在輸入趨近于正無窮時(shí)接近于線性變換,這有助于緩解梯度消失問題,。GLU是一種門控激活函數(shù),,常用于序列建模任務(wù)。GLU將輸入分為兩部分,其中一部分經(jīng)過Sigmoid門,,另一部分經(jīng)過tanh門。將兩者逐元素相乘,,以產(chǎn)生最終的輸出,。這種門控機(jī)制允許網(wǎng)絡(luò)選擇性地傳遞信息,,提高建模能力。

在transformers模型中,,注意力(Attention)機(jī)制是一種計(jì)算方式,,它允許模型在處理輸入序列時(shí)考慮不同位置之間的依賴關(guān)系,并動(dòng)態(tài)地分配對(duì)輸入的不同部分的關(guān)注程度,。Transformer的核心是自注意力(Self-attention)機(jī)制,尤其在自然語(yǔ)言處理任務(wù)中發(fā)揮著關(guān)鍵作用,。

而自注意力可以被表示為每個(gè)輸入位置的詞嵌入會(huì)被映射到三個(gè)不同的向量空間:Query(查詢),、Key(鍵)和Value(值)。Query向量用于查詢相關(guān)信息,,Key向量負(fù)責(zé)與Query匹配以確定相關(guān)性,,而Value向量包含每個(gè)位置實(shí)際需要被關(guān)注的信息內(nèi)容。Qwen2提到的注意力QKV偏置,,剛好是Query,、Key和Value的首字母。那也就是說,,在自注意力機(jī)制中,,通過引入偏置項(xiàng),模型可以更靈活地捕捉輸入序列中潛在的模式或特征,,并能夠針對(duì)特定任務(wù)或數(shù)據(jù)集微調(diào)其注意力行為,。

它使用的是注意力機(jī)制的一個(gè)變體。在傳統(tǒng)的自注意力機(jī)制中,,所有的查詢通過計(jì)算與所有的Key的相似度來得到注意力權(quán)重,。而在組查詢注意力中,引入了查詢(Query)分組的概念,查詢被分為多個(gè)組,,每個(gè)組內(nèi)的查詢只與對(duì)應(yīng)組內(nèi)的鍵計(jì)算相似度,,從而獲得注意力權(quán)重。

傳統(tǒng)的自注意力機(jī)制需要計(jì)算Query和Key之間的所有相似度,,因此其計(jì)算復(fù)雜度是輸入序列長(zhǎng)度的平方級(jí)別。而滑動(dòng)窗口注意力通過引入滑動(dòng)窗口的概念,,限制每個(gè)查詢只與其周圍一定范圍內(nèi)的鍵計(jì)算相似度,,從而降低了計(jì)算復(fù)雜度。

與之相反,,全序列注意力允許模型中的每個(gè)位置對(duì)序列中的所有其他位置進(jìn)行關(guān)注,,并據(jù)此計(jì)算權(quán)重分配。這種機(jī)制能捕捉到序列間的任意距離依賴關(guān)系,,但在長(zhǎng)序列上計(jì)算成本較高,。

結(jié)合兩者形成的混合注意力機(jī)制可以在保持較低計(jì)算復(fù)雜度的同時(shí),盡可能保留并利用全局上下文信息,。例如,,在某些層使用局部的滑動(dòng)窗口注意力以節(jié)省資源,而在其他層或關(guān)鍵節(jié)點(diǎn)上使用全序列注意力來確保充分捕獲全局依賴關(guān)系,。

Hugging Face劇透:阿里通義千問下一代Qwen2來了,? – AI新智界

Qwen的能力對(duì)比

最后再讓我們看一看這個(gè)“改進(jìn)型分詞器”。所謂分詞器,,它的英文名叫做tokenizer,。這個(gè)名字叫暴露了它的本職工作,就是將原始的文本數(shù)據(jù)分割成一系列有意義的,、可管理的小單元,,這些小單元通常被叫做tokens。

根據(jù)Qwen(或者區(qū)別于Qwen2,,可以稱為Qwen1)的技術(shù)報(bào)告,,它采用了在編碼不同語(yǔ)言信息方面具有更高效率的分詞器,在多種語(yǔ)言中展示更高的壓縮率,。而根據(jù)Qwen2提交的代碼,,可以看出這個(gè)“改進(jìn)分詞器”的一些細(xì)節(jié)。

首先它依然是多語(yǔ)言支持的:分詞器通過使用Unicode字符和字節(jié)編碼,,支持多種語(yǔ)言的文本處理,,這使得它能夠處理包含多種字符集的文本數(shù)據(jù)。其次,,它使用了緩存(cache)來存儲(chǔ)已經(jīng)分詞的結(jié)果,,這有助于提高分詞效率,尤其是在處理大量文本時(shí)。而在分詞之前,,分詞器使用正則表達(dá)式(regex)對(duì)文本進(jìn)行預(yù)處理,,這有助于簡(jiǎn)化后續(xù)的分詞步驟,例如去除標(biāo)點(diǎn)符號(hào)和非字母數(shù)字字符,。

而整體的思路上,,它采用的依然是字節(jié)對(duì)編碼(BPE),這是一種有效的詞匯擴(kuò)展方法,,它通過迭代地合并最常見的字符對(duì)來構(gòu)建詞匯表,,進(jìn)而可以有助于處理未知詞匯(UNKs)。同時(shí)它還提供了多種配置選項(xiàng),,如錯(cuò)誤處理策略(errors),、未知詞標(biāo)記(unk_token)、開始序列標(biāo)記(bos_token),、結(jié)束序列標(biāo)記(eos_token)和填充標(biāo)記(pad_token),,這些選項(xiàng)允許用戶根據(jù)具體需求定制分詞器的行為。

從這些僅有的劇透中,,可以看出Qwen2繼續(xù)在對(duì)基礎(chǔ)模型層面的預(yù)訓(xùn)練方法做著改進(jìn),。而自從Qwen發(fā)布以來,整個(gè)通義家族都在以一種十分驚人的速度迭代和更新完善著,,Qwen-VL,,Qwen-Audio等相繼發(fā)布。最近Qwen-VL還剛剛推出了Qwen-VL-Plus和Max兩個(gè)升級(jí)版本,,在多模態(tài)能力上實(shí)現(xiàn)了大幅提升,。

這種全尺寸和多類目的特點(diǎn),讓Qwen系列成為開源社區(qū)最歡迎的基座模型之一,。而在此次的“劇透”代碼里,,也可以看到,Qwen2可能最先發(fā)布的是它70億參數(shù)的版本,,名字是Qwen2-7B-beta和Qwen-7B-Chat-beta,。

Hugging Face劇透:阿里通義千問下一代Qwen2來了? – AI新智界

而且,,另一個(gè)很重要的信息是,,目前它上傳的代碼還顯示,Qwen2模型開源協(xié)議依然是Apache 2.0,,也就是說,,這個(gè)目前最全尺寸的中國(guó)開源大模型將繼續(xù)是免費(fèi)可商用的。

免責(zé)聲明:本文來自網(wǎng)絡(luò)收錄或投稿,,觀點(diǎn)僅代表作者本人,,不代表芒果財(cái)經(jīng)贊同其觀點(diǎn)或證實(shí)其描述,,版權(quán)歸原作者所有。轉(zhuǎn)載請(qǐng)注明出處:http://lequren.com/1088249.html
溫馨提示:投資有風(fēng)險(xiǎn),,入市須謹(jǐn)慎,。本資訊不作為投資理財(cái)建議。

(0)
硅星人的頭像硅星人
上一篇 2024年1月25日
下一篇 2024年1月25日
198搶自鏈數(shù)字人

相關(guān)推薦