大杳焦伊人久久综合福利,中文字幕乱码久久午夜

原文來源：硅星人

圖片來源：由無界 AI生成

作為全球最頂級的機器學習工具庫,，Hugging Face上最近悄悄出現(xiàn)了一個新的transformers模型——Qwen2,。沒錯，正是阿里通義千問Qwen模型的第二代,。不過通義團隊的算法同學在社交媒體上對此繼續(xù)保持神秘,。

“讓它保持神秘”

也就是說,，HuggingFace上的信息相當于一次“劇透”,。而有劇透可能就說明距離正式“上映”不遠了。

這款最全尺寸的中國開源模型的一舉一動都備受開源社區(qū)開發(fā)者們關(guān)注,，那么這次劇透都透露了哪些信息,？我們也來梳理了一下。

根據(jù)Qwen2頁面的Overview部分，這個新一代的基礎(chǔ)模型同樣包括不同參數(shù)大小的版本,。這個簡短的介紹提到Qwen2是基于Transformer架構(gòu),，采用SwiGLU激活、注意力QKV偏置,、組查詢注意力,、滑動窗口注意力和全序列注意力相混合等技術(shù)，根據(jù)介紹,，Qwen2還提供了一個適應多種自然語言和代碼的改進型分詞器,。

我們給大家簡單講一講這些技術(shù)，首先是SwiGLU激活。它是激活函數(shù)的一種,，全稱叫做Swish-Gated Linear Unit,。看這名就能明白,，SwiGLU激活函數(shù)就是縫合了Swish激活函數(shù)和門控線性單元（Gated Linear Unit, GLU）的特性,。Swish激活函數(shù)是一種非線性函數(shù)，它在輸入趨近于正無窮時接近于線性變換,，這有助于緩解梯度消失問題,。GLU是一種門控激活函數(shù)，常用于序列建模任務,。GLU將輸入分為兩部分,，其中一部分經(jīng)過Sigmoid門，另一部分經(jīng)過tanh門,。將兩者逐元素相乘,，以產(chǎn)生最終的輸出。這種門控機制允許網(wǎng)絡選擇性地傳遞信息,，提高建模能力,。

在transformers模型中，注意力（Attention）機制是一種計算方式,，它允許模型在處理輸入序列時考慮不同位置之間的依賴關(guān)系,，并動態(tài)地分配對輸入的不同部分的關(guān)注程度。Transformer的核心是自注意力（Self-attention）機制,，尤其在自然語言處理任務中發(fā)揮著關(guān)鍵作用,。

而自注意力可以被表示為每個輸入位置的詞嵌入會被映射到三個不同的向量空間：Query（查詢）、Key（鍵）和Value（值）,。Query向量用于查詢相關(guān)信息,，Key向量負責與Query匹配以確定相關(guān)性，而Value向量包含每個位置實際需要被關(guān)注的信息內(nèi)容,。Qwen2提到的注意力QKV偏置,，剛好是Query、Key和Value的首字母,。那也就是說,，在自注意力機制中，通過引入偏置項,，模型可以更靈活地捕捉輸入序列中潛在的模式或特征,，并能夠針對特定任務或數(shù)據(jù)集微調(diào)其注意力行為。

它使用的是注意力機制的一個變體,。在傳統(tǒng)的自注意力機制中,，所有的查詢通過計算與所有的Key的相似度來得到注意力權(quán)重。而在組查詢注意力中，引入了查詢（Query）分組的概念,，查詢被分為多個組,，每個組內(nèi)的查詢只與對應組內(nèi)的鍵計算相似度，從而獲得注意力權(quán)重,。

傳統(tǒng)的自注意力機制需要計算Query和Key之間的所有相似度,，因此其計算復雜度是輸入序列長度的平方級別。而滑動窗口注意力通過引入滑動窗口的概念,，限制每個查詢只與其周圍一定范圍內(nèi)的鍵計算相似度,，從而降低了計算復雜度。

與之相反,，全序列注意力允許模型中的每個位置對序列中的所有其他位置進行關(guān)注,，并據(jù)此計算權(quán)重分配。這種機制能捕捉到序列間的任意距離依賴關(guān)系,，但在長序列上計算成本較高,。

結(jié)合兩者形成的混合注意力機制可以在保持較低計算復雜度的同時，盡可能保留并利用全局上下文信息,。例如,，在某些層使用局部的滑動窗口注意力以節(jié)省資源，而在其他層或關(guān)鍵節(jié)點上使用全序列注意力來確保充分捕獲全局依賴關(guān)系,。

Qwen的能力對比

最后再讓我們看一看這個“改進型分詞器”。所謂分詞器,，它的英文名叫做tokenizer,。這個名字叫暴露了它的本職工作，就是將原始的文本數(shù)據(jù)分割成一系列有意義的,、可管理的小單元,，這些小單元通常被叫做tokens。

根據(jù)Qwen（或者區(qū)別于Qwen2,，可以稱為Qwen1）的技術(shù)報告,，它采用了在編碼不同語言信息方面具有更高效率的分詞器，在多種語言中展示更高的壓縮率,。而根據(jù)Qwen2提交的代碼,，可以看出這個“改進分詞器”的一些細節(jié)。

首先它依然是多語言支持的：分詞器通過使用Unicode字符和字節(jié)編碼,，支持多種語言的文本處理,，這使得它能夠處理包含多種字符集的文本數(shù)據(jù),。其次,，它使用了緩存（cache）來存儲已經(jīng)分詞的結(jié)果，這有助于提高分詞效率，尤其是在處理大量文本時,。而在分詞之前,，分詞器使用正則表達式（regex）對文本進行預處理，這有助于簡化后續(xù)的分詞步驟,，例如去除標點符號和非字母數(shù)字字符,。

而整體的思路上，它采用的依然是字節(jié)對編碼（BPE）,，這是一種有效的詞匯擴展方法,，它通過迭代地合并最常見的字符對來構(gòu)建詞匯表，進而可以有助于處理未知詞匯（UNKs）,。同時它還提供了多種配置選項,，如錯誤處理策略（errors）、未知詞標記（unk_token）,、開始序列標記（bos_token）,、結(jié)束序列標記（eos_token）和填充標記（pad_token），這些選項允許用戶根據(jù)具體需求定制分詞器的行為,。

從這些僅有的劇透中,，可以看出Qwen2繼續(xù)在對基礎(chǔ)模型層面的預訓練方法做著改進。而自從Qwen發(fā)布以來,，整個通義家族都在以一種十分驚人的速度迭代和更新完善著,，Qwen-VL，Qwen-Audio等相繼發(fā)布,。最近Qwen-VL還剛剛推出了Qwen-VL-Plus和Max兩個升級版本,，在多模態(tài)能力上實現(xiàn)了大幅提升。

這種全尺寸和多類目的特點,，讓Qwen系列成為開源社區(qū)最歡迎的基座模型之一,。而在此次的“劇透”代碼里，也可以看到,，Qwen2可能最先發(fā)布的是它70億參數(shù)的版本,，名字是Qwen2-7B-beta和Qwen-7B-Chat-beta。

而且,，另一個很重要的信息是，目前它上傳的代碼還顯示,，Qwen2模型開源協(xié)議依然是Apache 2.0,，也就是說，這個目前最全尺寸的中國開源大模型將繼續(xù)是免費可商用的,。

免責聲明：本文來自網(wǎng)絡收錄或投稿,，觀點僅代表作者本人,，不代表芒果財經(jīng)贊同其觀點或證實其描述，版權(quán)歸原作者所有,。轉(zhuǎn)載請注明出處：http://lequren.com/1088249.html
溫馨提示：投資有風險,，入市須謹慎。本資訊不作為投資理財建議,。