原文來源:新智元
圖片來源:由無界 AI生成
過度訓(xùn)練讓中度模型出現(xiàn)了結(jié)構(gòu)泛化能力,。
對于人類來說,,句子是分層的。
句子的層次結(jié)構(gòu)對于表達(dá)和理解都相當(dāng)重要,。
但是在自然語言處理中,,之前的研究認(rèn)為,,在泛化到新的結(jié)構(gòu)輸入時(shí),,以Transformer為代表的神經(jīng)序列模型似乎很難有效地捕捉到這種句子的層級結(jié)構(gòu)。
但是斯坦福和MIT的研究人員在最近的研究中發(fā)現(xiàn),。
如果對Transformer類的模型進(jìn)行長時(shí)間的訓(xùn)練之后,,它能獲得這種結(jié)構(gòu)性的泛化能力。
研究人員將這種現(xiàn)象稱為:結(jié)構(gòu)頓悟(Structural Grokking,,SG)
Grokking這個(gè)詞是一個(gè)作家在書中造出來的詞,中文大概翻譯成「頓悟」,。
微博網(wǎng)友木遙老師把這個(gè)詞解釋為:一個(gè)高度復(fù)雜的神經(jīng)網(wǎng)絡(luò)在漫長的訓(xùn)練期內(nèi)一直只能記住訓(xùn)練樣本的信息,,幾乎沒有泛化能力,但到了某一刻,,它的泛化水平忽然跳了出來,,而且非常完美。
可以想象成一個(gè)神經(jīng)網(wǎng)絡(luò)經(jīng)歷了一個(gè)「aha moment」,,像是內(nèi)部的某個(gè)齒輪忽然對上了一樣,。
論文地址:https://arxiv.org/abs/2305.18741
研究人員在不同的數(shù)據(jù)集中發(fā)現(xiàn),SG在模型的深度(Model Depth)上呈現(xiàn)倒U縮放,。
中深度模型的泛化能力比非常深和非常淺的模型都要好,。
總體上看,如果能對模型進(jìn)行更多的擴(kuò)展訓(xùn)練,,普通的Transformer能夠展現(xiàn)出層級結(jié)構(gòu),。
背景
在之前的類似研究中,研究人員認(rèn)為Transformer在分層級泛化測試中是失敗的,。
Transformer模型中的分層級結(jié)構(gòu)
為了了解給定的模型是否對獲取層次結(jié)構(gòu)有偏見,,斯坦福的研究人員按照之前的實(shí)驗(yàn)流程,,評估了模糊任務(wù)上訓(xùn)練的模型的泛化性。
在這些任務(wù)中,,訓(xùn)練數(shù)據(jù)與“層次規(guī)則”和“非層次規(guī)則”相一致的,。
為測試是否獲得了分層規(guī)則,研究人員在一個(gè)單獨(dú)的分布外測試集上測試泛化性,。
頓悟(Grokking)
之前的研究表明,,在小型算法數(shù)據(jù)集上會(huì)出現(xiàn)頓悟現(xiàn)象,他們發(fā)現(xiàn)在訓(xùn)練性能飽和后的很長時(shí)間里,,模型測試性能繼續(xù)提高,。
因此研究人員就假設(shè)存在一個(gè)類似的結(jié)構(gòu)頓悟,在域內(nèi)驗(yàn)證性能飽和后很長時(shí)間內(nèi),,模型對于分層結(jié)構(gòu)依然可以繼續(xù)頓悟,。
因此,分層泛化可以通過擴(kuò)展訓(xùn)練繼續(xù)提高,。
實(shí)驗(yàn)
數(shù)據(jù)集
研究人員的目標(biāo)是理解transformer中的分層泛化 ,, 使用了來自之前研究中的兩個(gè)數(shù)據(jù)集,并在一個(gè)簡單的括號跟蹤任務(wù)上進(jìn)行了評估,。
我們評估了Dyck20,10中結(jié)構(gòu)上未觀察到的字符串的泛化能力,,以下圖為例。
模型
研究人員訓(xùn)練了有{2,4,6,8,10}層的transformer語言模型,。
對于每個(gè)深度,,研究人員用10個(gè)隨機(jī)種子來訓(xùn)練模型,300k steps,。(Dyck為400k)
給定輸入句子(或在Dyck的情況下前綴),,研究人員在測試時(shí)從模型中解碼。
對于Dyck,,研究人員報(bào)告準(zhǔn)確性是通過在給定語言的輸入前綴的情況下,,通過對右括號進(jìn)行排名來生成正確的右括號類型。
和之前已經(jīng)進(jìn)行的研究類似,,對于Question-Formation,,研究人員報(bào)告解碼問題的第一個(gè)單詞的準(zhǔn)確性。
對于Tense-Inflection,,研究人員報(bào)告的是目標(biāo)動(dòng)詞詞形變化正確的測試輸入的分?jǐn)?shù),。
主要結(jié)果
Transformers展現(xiàn)出了結(jié)構(gòu)頓悟。
研究人員在下圖中展示了在所有數(shù)據(jù)集上使用最佳模型深度所獲得的結(jié)果,。
他們發(fā)現(xiàn)了明確的結(jié)構(gòu)頓悟證據(jù):在各個(gè)數(shù)據(jù)集上,,在分布內(nèi)準(zhǔn)確率飽和之后的訓(xùn)練步驟中,泛化性能得到改善,有時(shí)甚至接近完美的準(zhǔn)確率,。
提前停止是有害的
接下來,,研究人員將通過在域內(nèi)驗(yàn)證準(zhǔn)確率上進(jìn)行提前停止而獲得的泛化準(zhǔn)確率,與更長的訓(xùn)練流程(如下圖)的泛化準(zhǔn)確性進(jìn)行了比較,。
提前停止會(huì)導(dǎo)致泛化性能被嚴(yán)重低估,。
例如,在Question-Formation和Tense-Inflection兩個(gè)任務(wù)上,,平均泛化性能從不到40%,、不到50%提高到分別不到90%、不到80%,。
倒U形分布
在Question-Formation和Tense-Inflection任務(wù)中,,研究人員從2層到10層逐漸增加深度進(jìn)行模型訓(xùn)練。
對于每個(gè)深度,,在下圖中報(bào)告了最終泛化準(zhǔn)確率超過80%的種子數(shù)(10個(gè)種子中的比例),。
他們發(fā)現(xiàn)了一個(gè)倒U形的分布狀態(tài)——非常淺和非常深的模型效果不佳,而大多數(shù)種子在中等深度的模型中表現(xiàn)出較好的泛化性能,。
這也可以解釋為什么之前的研究要么使用非常淺的模型(1-3層的Transformer),,要么使用非常深的模型(Mueller等人論文中的12層Transformer),都無法很好地泛化,。
分析
鑒于結(jié)構(gòu)頓悟僅在一部分模型架構(gòu)中發(fā)生,,研究人員能否確定它何時(shí)發(fā)生(或預(yù)測何時(shí)會(huì)發(fā)生)?
幾個(gè)模型內(nèi)部屬性與結(jié)構(gòu)性理解或Transformer中出現(xiàn)的新興分層結(jié)構(gòu)或許有關(guān),。
Weight Norms
最近的研究將認(rèn)為參數(shù)權(quán)重的L2 norm是結(jié)構(gòu)頓悟的重要量,。
但總體上來說,訓(xùn)練過程中范數(shù)(Norms)增長被作為神經(jīng)網(wǎng)絡(luò)泛化的關(guān)鍵因素之一進(jìn)行了研究,。
注意力稀疏性
Merrill等人(2021年)證明了Transformer中的范數(shù)增長導(dǎo)致了注意力的飽和,,這是新興語言結(jié)構(gòu)的重要特性(Merrill等人,2022年),。為了衡量fLθ的注意力稀疏性,我們計(jì)算了所有分布{apk}的負(fù)均熵,。
樹結(jié)構(gòu)
之前有研究展示了樹結(jié)構(gòu)編碼器表現(xiàn)出接近完美的分層泛化,。
雖然Transformer相對較為自由,但最近的證據(jù)表明,,當(dāng)在語言數(shù)據(jù)上進(jìn)行訓(xùn)練時(shí),,它們隱含地實(shí)現(xiàn)了(近似)樹結(jié)構(gòu)計(jì)算。
而且,,之前研究中樹投影方法精確地描述了Transformer對輸入進(jìn)行的內(nèi)部計(jì)算可以用樹結(jié)構(gòu)神經(jīng)編碼近似的程度,,為任何Transformer提供了樹結(jié)構(gòu)度量分?jǐn)?shù)(tscore),并提供了一個(gè)在輸入字符串上最佳近似其計(jì)算的二叉樹。
為了評估這些樹是否與人類的句法概念相對應(yīng),,我們還將恢復(fù)的樹與黃金標(biāo)準(zhǔn)樹進(jìn)行比較,。
結(jié)果
在Question-Formation和Tense-Inflection任務(wù)中,研究人員通過每隔3k steps更新計(jì)算一次這些量的方式來描述權(quán)重范數(shù)(通過層數(shù)統(tǒng)一化來比較不同模型深度),、注意力稀疏性和樹結(jié)構(gòu)性的動(dòng)態(tài)變化情況,。
對于依賴于數(shù)據(jù)的屬性,如注意力稀疏性和樹結(jié)構(gòu)性,,我們從訓(xùn)練數(shù)據(jù)中隨機(jī)抽取了10k個(gè)樣例,。
研究人員在下圖中繪制了這些量在最小模型、最大模型(其中至少有一個(gè)運(yùn)行顯示成功的結(jié)構(gòu)頓悟)以及最佳模型深度的情況,。
樹形結(jié)構(gòu)是最佳的模型
在兩個(gè)數(shù)據(jù)集的所有模型設(shè)置中,,權(quán)重范數(shù)和注意力稀疏性都會(huì)增長。
然而,,僅憑這些屬性本身無法預(yù)測淺層和深層模型的失敗 – 淺層模型學(xué)習(xí)到了最稀疏的解以及具有最大權(quán)重范數(shù)的解,,但從未進(jìn)行分層泛化。
正如之前的研究中所指出的,,tscore隨時(shí)間的推移對于所有模型都有所改善,,表明隨著時(shí)間的推移,樹結(jié)構(gòu)性增加,。
對于這兩個(gè)數(shù)據(jù)集,,與深層和淺層模型相比,“最佳”模型學(xué)習(xí)到了最多的樹結(jié)構(gòu)解,。
在算法任務(wù)中,,結(jié)構(gòu)性理解“與嵌入中結(jié)構(gòu)的出現(xiàn)相吻合”。
類似地,,在語言任務(wù)中,,我們發(fā)現(xiàn)結(jié)構(gòu)性理解與樹狀內(nèi)部計(jì)算的出現(xiàn)相吻合。
Transformer在誘導(dǎo)結(jié)構(gòu)方面表現(xiàn)出驚人的效果
從下圖的tparseval的動(dòng)態(tài)變化中,,研究人員注意到所有模型,,無論它們是否進(jìn)行泛化,都學(xué)習(xí)到了接近于真實(shí)句法的結(jié)構(gòu),,有時(shí)表現(xiàn)優(yōu)于右分支基線,。
之前的研究認(rèn)為,只有樹結(jié)構(gòu)編碼器根據(jù)正確的句法分析樹進(jìn)行結(jié)構(gòu)化時(shí)才能進(jìn)行泛化,。
研究人員發(fā)現(xiàn)所有Transformer都學(xué)習(xí)到了正確的樹結(jié)構(gòu),,但只有最具樹結(jié)構(gòu)性的模型表現(xiàn)出最好的泛化能力。
結(jié)論
這項(xiàng)研究表明,,通過結(jié)構(gòu)頓悟機(jī)制,,Transformer能夠展現(xiàn)出對結(jié)構(gòu)敏感的“分層泛化”,。
它們的整體學(xué)習(xí)行為逐漸從記憶(領(lǐng)域內(nèi)高準(zhǔn)確率,領(lǐng)域外準(zhǔn)確率較差)向泛化(領(lǐng)域內(nèi)和領(lǐng)域外準(zhǔn)確率高)轉(zhuǎn)變,。
雖然研究人員在相對較小的數(shù)據(jù)集和小型模型上展示了這種行為,,但這些結(jié)果可能具有更廣泛的意義。
因?yàn)橐呀?jīng)證明長時(shí)間的訓(xùn)練即使對于規(guī)模龐大的語言建模和組合泛化任務(wù)也有幫助,。
結(jié)構(gòu)頓悟在“中等規(guī)?!钡哪P蜕疃茸畛0l(fā)生,而非常淺和非常深的模型則無法展現(xiàn)出這種行為,。
雖然以往與Transformer中的語言泛化相關(guān)的屬性,,如權(quán)重范數(shù)和注意力稀疏性,不能區(qū)分好的架構(gòu)和壞的架構(gòu),,但Transformer的功能性樹結(jié)構(gòu)可以很好地預(yù)測最佳模型深度,。
雖然Transformer架構(gòu)存在一些明顯的限制(例如無法實(shí)現(xiàn)無限遞歸),但研究人員的結(jié)果表明它可能具有比以前認(rèn)為的更強(qiáng)的歸納偏好:通過充分的訓(xùn)練,,Transformer能夠表示分層的句子結(jié)構(gòu)并利用這種結(jié)構(gòu)進(jìn)行正確的泛化,。
參考資料:
https://arxiv.org/abs/2305.18741?
免責(zé)聲明:本文來自網(wǎng)絡(luò)收錄或投稿,觀點(diǎn)僅代表作者本人,,不代表芒果財(cái)經(jīng)贊同其觀點(diǎn)或證實(shí)其描述,,版權(quán)歸原作者所有。轉(zhuǎn)載請注明出處:http://lequren.com/1082561.html
溫馨提示:投資有風(fēng)險(xiǎn),,入市須謹(jǐn)慎,。本資訊不作為投資理財(cái)建議。