文章來源:硅星人pro
圖片來源:由無界 AI生成
2017年的時(shí)候谷歌發(fā)表了一篇論文,,標(biāo)題是《Attention Is All You Need》,,翻譯成中文是“你需要的只是關(guān)注”。隱藏在這個(gè)看似不明所以的標(biāo)題下的,,是造就了ChatGPT,、Gemini等多種大語言模型的transformer模型。論文里提出了劃時(shí)代的“自注意力”機(jī)制(Self-Attention Mechanism),,允許模型在處理一個(gè)元素(如一個(gè)詞)時(shí),,同時(shí)考慮序列中的其他元素,,從而更好地理解上下文,這個(gè)機(jī)制通過計(jì)算每個(gè)元素對(duì)其他元素的“注意力分?jǐn)?shù)”來實(shí)現(xiàn),。
與此同時(shí),transformer模型也有比較明顯的缺點(diǎn):transformer模型的自注意力機(jī)制在處理長序列時(shí)具有二次方的時(shí)間和空間復(fù)雜度,。這意味著隨著輸入序列長度的增加,,所需的計(jì)算資源和時(shí)間成指數(shù)級(jí)增長。而且由于其大量的參數(shù)和復(fù)雜的層間交互,,transformer模型在訓(xùn)練和推理時(shí)還需要大量的內(nèi)存,。transformer比傳統(tǒng)的遞歸神經(jīng)網(wǎng)絡(luò)(RNN)在處理長距離依賴方面更有效,但在非常長的序列中處理長期依賴關(guān)系仍然是一個(gè)挑戰(zhàn),。
那怎么辦呢,?transformer這么厲害的模型,放在那里不用,,豈不是暴殄天物嗎,?于是開發(fā)者們就想盡辦法,就像transformer的另一個(gè)翻譯“變形金剛”一樣,,開發(fā)者們調(diào)整transformer模型,,衍生出了多個(gè)變體,以提高最終的性能,。比如剛才說的ChatGPT,,就是transformer的變體——生成式預(yù)訓(xùn)練變壓器(generative pre-trained transformer),還有谷歌的BERT(bidirectional encoder representations from transformers)等等,。
盤古π
華為在2023年的末尾也發(fā)表了他們的“變形金剛”——盤古π,。該算法旨在通過增強(qiáng)快捷方式來解決Transformer架構(gòu)中的特征塌陷問題,提高模型處理視覺特征的多樣性和效率,。算法采用并行的增強(qiáng)快捷連接和參數(shù)化的投影,,以豐富特征表示和提高特征多樣性。算法通過線性投影和非線性激活函數(shù)的組合,,處理每個(gè)令牌并保留其特異性,,同時(shí)與MSA模塊的功能互補(bǔ)。
從原理上來解釋,,盤古π其實(shí)有兩部分組成,。第一部分是論文提出的一種序列信息激活函數(shù),以增強(qiáng)MLP(多層感知器)模塊的非線性,。第二部分是,,增強(qiáng)快捷方式以改進(jìn)Transformer架構(gòu)中的多頭自注意力(MSA)模塊。將這兩個(gè)部分組合以后就是盤古π了,。
逐一來展開一哈,,看看這個(gè)合體金剛到底是什么來頭,。激活函數(shù)這個(gè)概念不稀奇,很早就有了,,它在神經(jīng)網(wǎng)絡(luò)的每個(gè)節(jié)點(diǎn)中都有應(yīng)用,,以引入非線性變換。激活函數(shù)的作用是決定神經(jīng)元是否應(yīng)該被激活,,即輸出信號(hào)的強(qiáng)度,。它們對(duì)輸入信號(hào)進(jìn)行一定的數(shù)學(xué)處理,然后輸出到網(wǎng)絡(luò)的下一層,。就跟生物神經(jīng)信號(hào)差不多,,有個(gè)知名度很高的醫(yī)學(xué)實(shí)驗(yàn),就是用電去刺激蛤蟆的腿,,這會(huì)導(dǎo)致蛤蟆坐立起身,,原理就來自于生物神經(jīng)信號(hào)一層一層的激活傳遞。
蛙腿實(shí)驗(yàn)
可是激活函數(shù)本來是非可學(xué)習(xí)的,,盤古π論文中則提出了一種技術(shù),,定義可學(xué)習(xí)的激活函數(shù)?i,并將其應(yīng)用于MLP的所有隱藏層,。那么結(jié)果就是改進(jìn)神經(jīng)網(wǎng)絡(luò)的非線性可以通過增加非線性激活層的數(shù)量或增強(qiáng)每個(gè)激活層的非線性來實(shí)現(xiàn),。直白點(diǎn)說就是更聰明了。
接著來說第二部分,,純粹的注意力機(jī)制可能遭受特征塌陷問題,。典型的大型語言模型(LLM)架構(gòu)為每個(gè)多頭自注意力(MSA)模塊只配備了一個(gè)簡單的快捷連接,即身份投影,,直接將輸入特征復(fù)制到輸出,。這種簡單的公式可能無法最大化地提升特征多樣性。
盤古π則是提供更多繞過注意力機(jī)制的替代路徑,。論文用不同于直接復(fù)制輸入token到對(duì)應(yīng)輸出的身份投影,,參數(shù)化投影將輸入特征轉(zhuǎn)換到另一個(gè)特征空間。只要它們的權(quán)重矩陣不同,,投影就會(huì)對(duì)輸入特征應(yīng)用不同的轉(zhuǎn)換,,因此并行更多增強(qiáng)快捷方式有潛力豐富特征空間。算法采用并行的增強(qiáng)快捷連接和參數(shù)化的投影,,以豐富特征表示和提高特征多樣性,。旨在通過增強(qiáng)快捷方式來解決Transformer架構(gòu)中的特征塌陷問題,提高模型處理視覺特征的多樣性和效率,。
將盤古π與最先進(jìn)的LLMs進(jìn)行比較,。結(jié)果表明,盤古π在70億參數(shù)這個(gè)量級(jí)可以實(shí)現(xiàn)與基準(zhǔn)相當(dāng)?shù)男阅?,推理速度提升約10%,,而盤古π在10億參數(shù)這個(gè)量級(jí)的準(zhǔn)確性和效率方面可以實(shí)現(xiàn)最先進(jìn)的性能,。此外,根據(jù)華為實(shí)驗(yàn)室的說法,,盤古π已經(jīng)在金融和法律等高價(jià)值領(lǐng)域部署了70億參數(shù)級(jí)別的盤古π,,開發(fā)了名為云山的LLM進(jìn)行實(shí)際應(yīng)用。論文顯示,,云山可以在基準(zhǔn)測(cè)試上超越其他類似規(guī)模的模型,。
云山和其他模型的性能比較
RWKV
2023年5月左右,同樣作為transformer的一個(gè)變體,,RWKV模型誕生了,。RWKV在理念上和盤古π很像,,它也是合體金剛,,只不過走的更像是“頭領(lǐng)戰(zhàn)士”那套玩法,代表人物是巨無霸福特,。
RWKV結(jié)合了transformer的高效可并行訓(xùn)練和RNN的高效推理能力,。RWKV在處理長序列時(shí)克服了Transformer的二次方計(jì)算復(fù)雜性,同時(shí)保持了RNN的線性記憶和計(jì)算需求,。利用線性注意力機(jī)制,,相比于傳統(tǒng)Transformer的二次方復(fù)雜度,它在處理長序列數(shù)據(jù)時(shí)的內(nèi)存和計(jì)算需求是線性增長的,。RWKV另一大特點(diǎn)是靈活,,因?yàn)榘琑NN形式,所以可以實(shí)現(xiàn)訓(xùn)練過程中的計(jì)算并行化,,同時(shí)在推理時(shí)保持恒定的計(jì)算和內(nèi)存復(fù)雜度,。正是這個(gè)原因,讓我認(rèn)為RWKV屬于頭領(lǐng)戰(zhàn)士,,戰(zhàn)斗的時(shí)候與巨大身軀結(jié)合,,體型變大戰(zhàn)斗力變強(qiáng),平時(shí)則只保留頭部,,便于行動(dòng),。
不同模型推理隨復(fù)雜度與時(shí)間的關(guān)系
盡管RWKV提高了效率,但是會(huì)犧牲一定的性能,,特別是在復(fù)雜的NLP任務(wù)中,,其精確度和泛化能力可能與傳統(tǒng)的transformer模型有差距。RWKV幾乎沒有非線性能力,,可是非線性是神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)復(fù)雜函數(shù)的關(guān)鍵,。所以RWKV模型目前僅能擴(kuò)展到14億參數(shù),當(dāng)參數(shù)級(jí)別進(jìn)一步增大,,RWKV的表現(xiàn)就差點(diǎn)意思了,。
說句題外話,,RWKV的論文叫做《Reinventing RNNs for the Transformer Era》。翻譯過來是“在transformer時(shí)代重鑄RNN榮光”,,沒錯(cuò),,這句話正是英雄聯(lián)盟S10上,許秀的那句“重鑄LCK榮光,,我輩義不容辭”的英文版,。
Another one!
下一個(gè)挑戰(zhàn)者又是誰,?
其實(shí)從transformer論文誕生的那一秒開始,,就有無數(shù)的挑戰(zhàn)者覬覦大語言模型的寶座。比如RoBERTa(Robustly Optimized BERT Approach),,它是上文提到的,,transformer變體之一BERT的再變體。從功能上來說,,RoBERTa屬于是BERT的優(yōu)化版本,,通過更大的數(shù)據(jù)集和更長時(shí)間的訓(xùn)練,以提高性能,。
在2023年的最后一天,,MosaicBERT誕生了。通過將FlashAttention,、帶線性偏置的注意力(ALiBi),、門控線性單元(GLU)、動(dòng)態(tài)去除填充令牌的模塊,,以及低精度LayerNorm統(tǒng)統(tǒng)塞進(jìn)transformer模型中,。再使用30%的遮蔽率(masking ratio)進(jìn)行掩碼語言建模(MLM),并且采用bfloat16精度和為GPU吞吐量優(yōu)化的詞匯表大小,,最后把RoBERTa的一些優(yōu)點(diǎn)也給融進(jìn)去了,。可以理解成帕奇維克,,或者嵌合超載龍那樣的存在,。
還有一個(gè)有趣的事情,在transformer眾多挑戰(zhàn)者中,,中國團(tuán)隊(duì)的數(shù)量是非常多的,。盤古π和RWKV是其中的代表。中國團(tuán)隊(duì)的作品主打一個(gè)字:實(shí)用,?;緡@70億參數(shù)做展開,這個(gè)級(jí)別實(shí)用價(jià)值是最高的,,幾乎涵蓋了所有行業(yè)的專業(yè)知識(shí),,一定程度上滿足使用需求,。其次是圍繞10億級(jí)別展開,這個(gè)級(jí)別技巧性確實(shí)很強(qiáng),,但是實(shí)用價(jià)值遠(yuǎn)不如70億級(jí)別,。這些模型架構(gòu)似乎有一種從最終場(chǎng)景出發(fā)的設(shè)計(jì)思路,它們挑戰(zhàn)著transformer,,也給模型的進(jìn)一步進(jìn)化帶來著其他可能性,。
免責(zé)聲明:本文來自網(wǎng)絡(luò)收錄或投稿,觀點(diǎn)僅代表作者本人,,不代表芒果財(cái)經(jīng)贊同其觀點(diǎn)或證實(shí)其描述,,版權(quán)歸原作者所有。轉(zhuǎn)載請(qǐng)注明出處:http://lequren.com/1086257.html
溫馨提示:投資有風(fēng)險(xiǎn),,入市須謹(jǐn)慎,。本資訊不作為投資理財(cái)建議。