A欧美国产国产综合视频_最近日本中文字幕免费完整_国产乱伦一级片_久久99国产综合精品婷婷_韩国理论片在线中文字幕一区二区_亚洲AV成人影片在线观看_亚洲av无码电影网_优物视频最新网址_天天艹无码天天射_脱下丝袜的极品销魂大胸美女王馨瑶91精品美女嫩模写真套图,男男被?到喷水18禁视频,欧美久久精品一级黑人c片 ,综合在线视频精品专区

人民網(wǎng)

Hugging Face劇透:阿里通義千問(wèn)下一代Qwen2來(lái)了,? – AI新智界

原文來(lái)源:硅星人

Hugging Face劇透:阿里通義千問(wèn)下一代Qwen2來(lái)了,? – AI新智界

圖片來(lái)源:由無(wú)界 AI生成

作為全球最頂級(jí)的機(jī)器學(xué)習(xí)工具庫(kù),Hugging Face上最近悄悄出現(xiàn)了一個(gè)新的transformers模型——Qwen2,。沒(méi)錯(cuò),,正是阿里通義千問(wèn)Qwen模型的第二代。不過(guò)通義團(tuán)隊(duì)的算法同學(xué)在社交媒體上對(duì)此繼續(xù)保持神秘,。

Hugging Face劇透:阿里通義千問(wèn)下一代Qwen2來(lái)了,? – AI新智界

“讓它保持神秘”

也就是說(shuō),HuggingFace上的信息相當(dāng)于一次“劇透”,。而有劇透可能就說(shuō)明距離正式“上映”不遠(yuǎn)了,。

這款最全尺寸的中國(guó)開(kāi)源模型的一舉一動(dòng)都備受開(kāi)源社區(qū)開(kāi)發(fā)者們關(guān)注,那么這次劇透都透露了哪些信息,?我們也來(lái)梳理了一下,。

Hugging Face劇透:阿里通義千問(wèn)下一代Qwen2來(lái)了? – AI新智界

根據(jù)Qwen2頁(yè)面的Overview部分,,這個(gè)新一代的基礎(chǔ)模型同樣包括不同參數(shù)大小的版本,。這個(gè)簡(jiǎn)短的介紹提到Qwen2是基于Transformer架構(gòu),采用SwiGLU激活,、注意力QKV偏置,、組查詢注意力、滑動(dòng)窗口注意力和全序列注意力相混合等技術(shù),,根據(jù)介紹,,Qwen2還提供了一個(gè)適應(yīng)多種自然語(yǔ)言和代碼的改進(jìn)型分詞器。

我們給大家簡(jiǎn)單講一講這些技術(shù),,首先是SwiGLU激活,。它是激活函數(shù)的一種,全稱叫做Swish-Gated Linear Unit,??催@名就能明白,,SwiGLU激活函數(shù)就是縫合了Swish激活函數(shù)和門(mén)控線性單元(Gated Linear Unit, GLU)的特性。Swish激活函數(shù)是一種非線性函數(shù),,它在輸入趨近于正無(wú)窮時(shí)接近于線性變換,,這有助于緩解梯度消失問(wèn)題。GLU是一種門(mén)控激活函數(shù),,常用于序列建模任務(wù),。GLU將輸入分為兩部分,其中一部分經(jīng)過(guò)Sigmoid門(mén),,另一部分經(jīng)過(guò)tanh門(mén),。將兩者逐元素相乘,以產(chǎn)生最終的輸出,。這種門(mén)控機(jī)制允許網(wǎng)絡(luò)選擇性地傳遞信息,,提高建模能力。

在transformers模型中,,注意力(Attention)機(jī)制是一種計(jì)算方式,,它允許模型在處理輸入序列時(shí)考慮不同位置之間的依賴關(guān)系,并動(dòng)態(tài)地分配對(duì)輸入的不同部分的關(guān)注程度,。Transformer的核心是自注意力(Self-attention)機(jī)制,,尤其在自然語(yǔ)言處理任務(wù)中發(fā)揮著關(guān)鍵作用,。

而自注意力可以被表示為每個(gè)輸入位置的詞嵌入會(huì)被映射到三個(gè)不同的向量空間:Query(查詢),、Key(鍵)和Value(值)。Query向量用于查詢相關(guān)信息,,Key向量負(fù)責(zé)與Query匹配以確定相關(guān)性,,而Value向量包含每個(gè)位置實(shí)際需要被關(guān)注的信息內(nèi)容。Qwen2提到的注意力QKV偏置,,剛好是Query,、Key和Value的首字母。那也就是說(shuō),,在自注意力機(jī)制中,,通過(guò)引入偏置項(xiàng),模型可以更靈活地捕捉輸入序列中潛在的模式或特征,,并能夠針對(duì)特定任務(wù)或數(shù)據(jù)集微調(diào)其注意力行為,。

它使用的是注意力機(jī)制的一個(gè)變體。在傳統(tǒng)的自注意力機(jī)制中,,所有的查詢通過(guò)計(jì)算與所有的Key的相似度來(lái)得到注意力權(quán)重,。而在組查詢注意力中,引入了查詢(Query)分組的概念,,查詢被分為多個(gè)組,,每個(gè)組內(nèi)的查詢只與對(duì)應(yīng)組內(nèi)的鍵計(jì)算相似度,,從而獲得注意力權(quán)重。

傳統(tǒng)的自注意力機(jī)制需要計(jì)算Query和Key之間的所有相似度,,因此其計(jì)算復(fù)雜度是輸入序列長(zhǎng)度的平方級(jí)別,。而滑動(dòng)窗口注意力通過(guò)引入滑動(dòng)窗口的概念,限制每個(gè)查詢只與其周?chē)欢ǚ秶鷥?nèi)的鍵計(jì)算相似度,,從而降低了計(jì)算復(fù)雜度,。

與之相反,全序列注意力允許模型中的每個(gè)位置對(duì)序列中的所有其他位置進(jìn)行關(guān)注,,并據(jù)此計(jì)算權(quán)重分配,。這種機(jī)制能捕捉到序列間的任意距離依賴關(guān)系,但在長(zhǎng)序列上計(jì)算成本較高,。

結(jié)合兩者形成的混合注意力機(jī)制可以在保持較低計(jì)算復(fù)雜度的同時(shí),,盡可能保留并利用全局上下文信息。例如,,在某些層使用局部的滑動(dòng)窗口注意力以節(jié)省資源,,而在其他層或關(guān)鍵節(jié)點(diǎn)上使用全序列注意力來(lái)確保充分捕獲全局依賴關(guān)系。

Hugging Face劇透:阿里通義千問(wèn)下一代Qwen2來(lái)了,? – AI新智界

Qwen的能力對(duì)比

最后再讓我們看一看這個(gè)“改進(jìn)型分詞器”,。所謂分詞器,它的英文名叫做tokenizer,。這個(gè)名字叫暴露了它的本職工作,,就是將原始的文本數(shù)據(jù)分割成一系列有意義的、可管理的小單元,,這些小單元通常被叫做tokens,。

根據(jù)Qwen(或者區(qū)別于Qwen2,可以稱為Qwen1)的技術(shù)報(bào)告,,它采用了在編碼不同語(yǔ)言信息方面具有更高效率的分詞器,,在多種語(yǔ)言中展示更高的壓縮率。而根據(jù)Qwen2提交的代碼,,可以看出這個(gè)“改進(jìn)分詞器”的一些細(xì)節(jié),。

首先它依然是多語(yǔ)言支持的:分詞器通過(guò)使用Unicode字符和字節(jié)編碼,支持多種語(yǔ)言的文本處理,,這使得它能夠處理包含多種字符集的文本數(shù)據(jù),。其次,它使用了緩存(cache)來(lái)存儲(chǔ)已經(jīng)分詞的結(jié)果,,這有助于提高分詞效率,,尤其是在處理大量文本時(shí)。而在分詞之前,,分詞器使用正則表達(dá)式(regex)對(duì)文本進(jìn)行預(yù)處理,,這有助于簡(jiǎn)化后續(xù)的分詞步驟,,例如去除標(biāo)點(diǎn)符號(hào)和非字母數(shù)字字符。

而整體的思路上,,它采用的依然是字節(jié)對(duì)編碼(BPE),,這是一種有效的詞匯擴(kuò)展方法,它通過(guò)迭代地合并最常見(jiàn)的字符對(duì)來(lái)構(gòu)建詞匯表,,進(jìn)而可以有助于處理未知詞匯(UNKs),。同時(shí)它還提供了多種配置選項(xiàng),如錯(cuò)誤處理策略(errors),、未知詞標(biāo)記(unk_token),、開(kāi)始序列標(biāo)記(bos_token)、結(jié)束序列標(biāo)記(eos_token)和填充標(biāo)記(pad_token),,這些選項(xiàng)允許用戶根據(jù)具體需求定制分詞器的行為,。

從這些僅有的劇透中,可以看出Qwen2繼續(xù)在對(duì)基礎(chǔ)模型層面的預(yù)訓(xùn)練方法做著改進(jìn),。而自從Qwen發(fā)布以來(lái),,整個(gè)通義家族都在以一種十分驚人的速度迭代和更新完善著,Qwen-VL,,Qwen-Audio等相繼發(fā)布,。最近Qwen-VL還剛剛推出了Qwen-VL-Plus和Max兩個(gè)升級(jí)版本,在多模態(tài)能力上實(shí)現(xiàn)了大幅提升,。

這種全尺寸和多類(lèi)目的特點(diǎn),,讓Qwen系列成為開(kāi)源社區(qū)最歡迎的基座模型之一。而在此次的“劇透”代碼里,,也可以看到,,Qwen2可能最先發(fā)布的是它70億參數(shù)的版本,,名字是Qwen2-7B-beta和Qwen-7B-Chat-beta,。

Hugging Face劇透:阿里通義千問(wèn)下一代Qwen2來(lái)了? – AI新智界

而且,,另一個(gè)很重要的信息是,,目前它上傳的代碼還顯示,Qwen2模型開(kāi)源協(xié)議依然是Apache 2.0,,也就是說(shuō),,這個(gè)目前最全尺寸的中國(guó)開(kāi)源大模型將繼續(xù)是免費(fèi)可商用的。

免責(zé)聲明:本文來(lái)自網(wǎng)絡(luò)收錄或投稿,,觀點(diǎn)僅代表作者本人,,不代表芒果財(cái)經(jīng)贊同其觀點(diǎn)或證實(shí)其描述,版權(quán)歸原作者所有,。轉(zhuǎn)載請(qǐng)注明出處:http://lequren.com/1088249.html
溫馨提示:投資有風(fēng)險(xiǎn),,入市須謹(jǐn)慎,。本資訊不作為投資理財(cái)建議。

(0)
硅星人的頭像硅星人
上一篇 2024年1月25日
下一篇 2024年1月25日
198搶自鏈數(shù)字人

相關(guān)推薦