A欧美国产国产综合视频_最近日本中文字幕免费完整_国产乱伦一级片_久久99国产综合精品婷婷_韩国理论片在线中文字幕一区二区_亚洲AV成人影片在线观看_亚洲av无码电影网_优物视频最新网址_天天艹无码天天射_脱下丝袜的极品销魂大胸美女王馨瑶91精品美女嫩模写真套图,男男被?到喷水18禁视频,欧美久久精品一级黑人c片 ,综合在线视频精品专区

人民網(wǎng)

那些挑戰(zhàn) Transformer 的模型架構(gòu)都在做些什么 – AI新智界

文章來源:硅星人pro

那些挑戰(zhàn) Transformer 的模型架構(gòu)都在做些什么 – AI新智界

圖片來源:由無界 AI生成

2017年的時候谷歌發(fā)表了一篇論文,標(biāo)題是《Attention Is All You Need》,,翻譯成中文是“你需要的只是關(guān)注”,。隱藏在這個看似不明所以的標(biāo)題下的,是造就了ChatGPT,、Gemini等多種大語言模型的transformer模型,。論文里提出了劃時代的“自注意力”機(jī)制(Self-Attention Mechanism),允許模型在處理一個元素(如一個詞)時,,同時考慮序列中的其他元素,,從而更好地理解上下文,這個機(jī)制通過計算每個元素對其他元素的“注意力分?jǐn)?shù)”來實現(xiàn),。

與此同時,,transformer模型也有比較明顯的缺點:transformer模型的自注意力機(jī)制在處理長序列時具有二次方的時間和空間復(fù)雜度。這意味著隨著輸入序列長度的增加,,所需的計算資源和時間成指數(shù)級增長,。而且由于其大量的參數(shù)和復(fù)雜的層間交互,transformer模型在訓(xùn)練和推理時還需要大量的內(nèi)存,。transformer比傳統(tǒng)的遞歸神經(jīng)網(wǎng)絡(luò)(RNN)在處理長距離依賴方面更有效,,但在非常長的序列中處理長期依賴關(guān)系仍然是一個挑戰(zhàn)。

那怎么辦呢,?transformer這么厲害的模型,,放在那里不用,豈不是暴殄天物嗎,?于是開發(fā)者們就想盡辦法,,就像transformer的另一個翻譯“變形金剛”一樣,開發(fā)者們調(diào)整transformer模型,衍生出了多個變體,,以提高最終的性能,。比如剛才說的ChatGPT,就是transformer的變體——生成式預(yù)訓(xùn)練變壓器(generative pre-trained transformer),,還有谷歌的BERT(bidirectional encoder representations from transformers)等等,。

盤古π

華為在2023年的末尾也發(fā)表了他們的“變形金剛”——盤古π。該算法旨在通過增強(qiáng)快捷方式來解決Transformer架構(gòu)中的特征塌陷問題,,提高模型處理視覺特征的多樣性和效率,。算法采用并行的增強(qiáng)快捷連接和參數(shù)化的投影,以豐富特征表示和提高特征多樣性,。算法通過線性投影和非線性激活函數(shù)的組合,,處理每個令牌并保留其特異性,,同時與MSA模塊的功能互補(bǔ),。

從原理上來解釋,盤古π其實有兩部分組成,。第一部分是論文提出的一種序列信息激活函數(shù),,以增強(qiáng)MLP(多層感知器)模塊的非線性。第二部分是,,增強(qiáng)快捷方式以改進(jìn)Transformer架構(gòu)中的多頭自注意力(MSA)模塊,。將這兩個部分組合以后就是盤古π了。

逐一來展開一哈,,看看這個合體金剛到底是什么來頭,。激活函數(shù)這個概念不稀奇,很早就有了,,它在神經(jīng)網(wǎng)絡(luò)的每個節(jié)點中都有應(yīng)用,,以引入非線性變換。激活函數(shù)的作用是決定神經(jīng)元是否應(yīng)該被激活,,即輸出信號的強(qiáng)度,。它們對輸入信號進(jìn)行一定的數(shù)學(xué)處理,然后輸出到網(wǎng)絡(luò)的下一層,。就跟生物神經(jīng)信號差不多,,有個知名度很高的醫(yī)學(xué)實驗,就是用電去刺激蛤蟆的腿,,這會導(dǎo)致蛤蟆坐立起身,,原理就來自于生物神經(jīng)信號一層一層的激活傳遞。

那些挑戰(zhàn) Transformer 的模型架構(gòu)都在做些什么 – AI新智界

蛙腿實驗

可是激活函數(shù)本來是非可學(xué)習(xí)的,,盤古π論文中則提出了一種技術(shù),,定義可學(xué)習(xí)的激活函數(shù)?i,并將其應(yīng)用于MLP的所有隱藏層。那么結(jié)果就是改進(jìn)神經(jīng)網(wǎng)絡(luò)的非線性可以通過增加非線性激活層的數(shù)量或增強(qiáng)每個激活層的非線性來實現(xiàn),。直白點說就是更聰明了,。

接著來說第二部分,純粹的注意力機(jī)制可能遭受特征塌陷問題,。典型的大型語言模型(LLM)架構(gòu)為每個多頭自注意力(MSA)模塊只配備了一個簡單的快捷連接,,即身份投影,直接將輸入特征復(fù)制到輸出,。這種簡單的公式可能無法最大化地提升特征多樣性,。

盤古π則是提供更多繞過注意力機(jī)制的替代路徑。論文用不同于直接復(fù)制輸入token到對應(yīng)輸出的身份投影,,參數(shù)化投影將輸入特征轉(zhuǎn)換到另一個特征空間,。只要它們的權(quán)重矩陣不同,投影就會對輸入特征應(yīng)用不同的轉(zhuǎn)換,,因此并行更多增強(qiáng)快捷方式有潛力豐富特征空間,。算法采用并行的增強(qiáng)快捷連接和參數(shù)化的投影,以豐富特征表示和提高特征多樣性,。旨在通過增強(qiáng)快捷方式來解決Transformer架構(gòu)中的特征塌陷問題,,提高模型處理視覺特征的多樣性和效率。

將盤古π與最先進(jìn)的LLMs進(jìn)行比較,。結(jié)果表明,,盤古π在70億參數(shù)這個量級可以實現(xiàn)與基準(zhǔn)相當(dāng)?shù)男阅埽评硭俣忍嵘s10%,,而盤古π在10億參數(shù)這個量級的準(zhǔn)確性和效率方面可以實現(xiàn)最先進(jìn)的性能,。此外,根據(jù)華為實驗室的說法,,盤古π已經(jīng)在金融和法律等高價值領(lǐng)域部署了70億參數(shù)級別的盤古π,,開發(fā)了名為云山的LLM進(jìn)行實際應(yīng)用。論文顯示,,云山可以在基準(zhǔn)測試上超越其他類似規(guī)模的模型,。

那些挑戰(zhàn) Transformer 的模型架構(gòu)都在做些什么 – AI新智界

云山和其他模型的性能比較

RWKV

2023年5月左右,同樣作為transformer的一個變體,,RWKV模型誕生了,。RWKV在理念上和盤古π很像,它也是合體金剛,,只不過走的更像是“頭領(lǐng)戰(zhàn)士”那套玩法,,代表人物是巨無霸福特。

RWKV結(jié)合了transformer的高效可并行訓(xùn)練和RNN的高效推理能力,。RWKV在處理長序列時克服了Transformer的二次方計算復(fù)雜性,,同時保持了RNN的線性記憶和計算需求,。利用線性注意力機(jī)制,相比于傳統(tǒng)Transformer的二次方復(fù)雜度,,它在處理長序列數(shù)據(jù)時的內(nèi)存和計算需求是線性增長的,。RWKV另一大特點是靈活,因為包含RNN形式,,所以可以實現(xiàn)訓(xùn)練過程中的計算并行化,,同時在推理時保持恒定的計算和內(nèi)存復(fù)雜度。正是這個原因,,讓我認(rèn)為RWKV屬于頭領(lǐng)戰(zhàn)士,,戰(zhàn)斗的時候與巨大身軀結(jié)合,體型變大戰(zhàn)斗力變強(qiáng),,平時則只保留頭部,,便于行動。

那些挑戰(zhàn) Transformer 的模型架構(gòu)都在做些什么 – AI新智界

不同模型推理隨復(fù)雜度與時間的關(guān)系

盡管RWKV提高了效率,,但是會犧牲一定的性能,,特別是在復(fù)雜的NLP任務(wù)中,其精確度和泛化能力可能與傳統(tǒng)的transformer模型有差距,。RWKV幾乎沒有非線性能力,,可是非線性是神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)復(fù)雜函數(shù)的關(guān)鍵。所以RWKV模型目前僅能擴(kuò)展到14億參數(shù),,當(dāng)參數(shù)級別進(jìn)一步增大,RWKV的表現(xiàn)就差點意思了,。

說句題外話,,RWKV的論文叫做《Reinventing RNNs for the Transformer Era》。翻譯過來是“在transformer時代重鑄RNN榮光”,,沒錯,,這句話正是英雄聯(lián)盟S10上,許秀的那句“重鑄LCK榮光,,我輩義不容辭”的英文版,。

Another one!

那些挑戰(zhàn) Transformer 的模型架構(gòu)都在做些什么 – AI新智界

下一個挑戰(zhàn)者又是誰,?

其實從transformer論文誕生的那一秒開始,,就有無數(shù)的挑戰(zhàn)者覬覦大語言模型的寶座。比如RoBERTa(Robustly Optimized BERT Approach),,它是上文提到的,,transformer變體之一BERT的再變體。從功能上來說,,RoBERTa屬于是BERT的優(yōu)化版本,,通過更大的數(shù)據(jù)集和更長時間的訓(xùn)練,,以提高性能。

在2023年的最后一天,,MosaicBERT誕生了,。通過將FlashAttention、帶線性偏置的注意力(ALiBi),、門控線性單元(GLU),、動態(tài)去除填充令牌的模塊,以及低精度LayerNorm統(tǒng)統(tǒng)塞進(jìn)transformer模型中,。再使用30%的遮蔽率(masking ratio)進(jìn)行掩碼語言建模(MLM),,并且采用bfloat16精度和為GPU吞吐量優(yōu)化的詞匯表大小,最后把RoBERTa的一些優(yōu)點也給融進(jìn)去了,??梢岳斫獬膳疗婢S克,或者嵌合超載龍那樣的存在,。

還有一個有趣的事情,,在transformer眾多挑戰(zhàn)者中,中國團(tuán)隊的數(shù)量是非常多的,。盤古π和RWKV是其中的代表,。中國團(tuán)隊的作品主打一個字:實用?;緡@70億參數(shù)做展開,,這個級別實用價值是最高的,幾乎涵蓋了所有行業(yè)的專業(yè)知識,,一定程度上滿足使用需求,。其次是圍繞10億級別展開,這個級別技巧性確實很強(qiáng),,但是實用價值遠(yuǎn)不如70億級別,。這些模型架構(gòu)似乎有一種從最終場景出發(fā)的設(shè)計思路,它們挑戰(zhàn)著transformer,,也給模型的進(jìn)一步進(jìn)化帶來著其他可能性,。

免責(zé)聲明:本文來自網(wǎng)絡(luò)收錄或投稿,觀點僅代表作者本人,,不代表芒果財經(jīng)贊同其觀點或證實其描述,,版權(quán)歸原作者所有。轉(zhuǎn)載請注明出處:http://lequren.com/1086257.html
溫馨提示:投資有風(fēng)險,,入市須謹(jǐn)慎,。本資訊不作為投資理財建議。

(0)
硅星人的頭像硅星人
上一篇 2024年1月6日 上午11:57
下一篇 2024年1月6日 下午1:52
198搶自鏈數(shù)字人

相關(guān)推薦