A欧美国产国产综合视频_最近日本中文字幕免费完整_国产乱伦一级片_久久99国产综合精品婷婷_韩国理论片在线中文字幕一区二区_亚洲AV成人影片在线观看_亚洲av无码电影网_优物视频最新网址_天天艹无码天天射_脱下丝袜的极品销魂大胸美女王馨瑶91精品美女嫩模写真套图,男男被?到喷水18禁视频,欧美久久精品一级黑人c片 ,综合在线视频精品专区

人民網(wǎng)

MIT斯坦福Transformer最新研究:過度訓(xùn)練讓中度模型「涌現(xiàn)」結(jié)構(gòu)泛化能力 – AI新智界

原文來源:新智元

MIT斯坦福Transformer最新研究:過度訓(xùn)練讓中度模型「涌現(xiàn)」結(jié)構(gòu)泛化能力 – AI新智界

圖片來源:由無界 AI生成

過度訓(xùn)練讓中度模型出現(xiàn)了結(jié)構(gòu)泛化能力,。

對于人類來說,,句子是分層的。

句子的層次結(jié)構(gòu)對于表達(dá)和理解都相當(dāng)重要,。

但是在自然語言處理中,,之前的研究認(rèn)為,,在泛化到新的結(jié)構(gòu)輸入時(shí),,以Transformer為代表的神經(jīng)序列模型似乎很難有效地捕捉到這種句子的層級結(jié)構(gòu)。

但是斯坦福和MIT的研究人員在最近的研究中發(fā)現(xiàn),。

如果對Transformer類的模型進(jìn)行長時(shí)間的訓(xùn)練之后,,它能獲得這種結(jié)構(gòu)性的泛化能力。

研究人員將這種現(xiàn)象稱為:結(jié)構(gòu)頓悟(Structural Grokking,,SG)

Grokking這個(gè)詞是一個(gè)作家在書中造出來的詞,中文大概翻譯成「頓悟」,。

微博網(wǎng)友木遙老師把這個(gè)詞解釋為:一個(gè)高度復(fù)雜的神經(jīng)網(wǎng)絡(luò)在漫長的訓(xùn)練期內(nèi)一直只能記住訓(xùn)練樣本的信息,,幾乎沒有泛化能力,但到了某一刻,,它的泛化水平忽然跳了出來,,而且非常完美。

可以想象成一個(gè)神經(jīng)網(wǎng)絡(luò)經(jīng)歷了一個(gè)「aha moment」,,像是內(nèi)部的某個(gè)齒輪忽然對上了一樣,。

MIT斯坦福Transformer最新研究:過度訓(xùn)練讓中度模型「涌現(xiàn)」結(jié)構(gòu)泛化能力 – AI新智界

論文地址:https://arxiv.org/abs/2305.18741

研究人員在不同的數(shù)據(jù)集中發(fā)現(xiàn),SG在模型的深度(Model Depth)上呈現(xiàn)倒U縮放,。

中深度模型的泛化能力比非常深和非常淺的模型都要好,。

總體上看,如果能對模型進(jìn)行更多的擴(kuò)展訓(xùn)練,,普通的Transformer能夠展現(xiàn)出層級結(jié)構(gòu),。

背景

在之前的類似研究中,研究人員認(rèn)為Transformer在分層級泛化測試中是失敗的,。

Transformer模型中的分層級結(jié)構(gòu)

為了了解給定的模型是否對獲取層次結(jié)構(gòu)有偏見,,斯坦福的研究人員按照之前的實(shí)驗(yàn)流程,,評估了模糊任務(wù)上訓(xùn)練的模型的泛化性。

在這些任務(wù)中,,訓(xùn)練數(shù)據(jù)與“層次規(guī)則”和“非層次規(guī)則”相一致的,。

為測試是否獲得了分層規(guī)則,研究人員在一個(gè)單獨(dú)的分布外測試集上測試泛化性,。

頓悟(Grokking)

之前的研究表明,,在小型算法數(shù)據(jù)集上會(huì)出現(xiàn)頓悟現(xiàn)象,他們發(fā)現(xiàn)在訓(xùn)練性能飽和后的很長時(shí)間里,,模型測試性能繼續(xù)提高,。

因此研究人員就假設(shè)存在一個(gè)類似的結(jié)構(gòu)頓悟,在域內(nèi)驗(yàn)證性能飽和后很長時(shí)間內(nèi),,模型對于分層結(jié)構(gòu)依然可以繼續(xù)頓悟,。

因此,分層泛化可以通過擴(kuò)展訓(xùn)練繼續(xù)提高,。

實(shí)驗(yàn)

數(shù)據(jù)集

研究人員的目標(biāo)是理解transformer中的分層泛化 ,, 使用了來自之前研究中的兩個(gè)數(shù)據(jù)集,并在一個(gè)簡單的括號跟蹤任務(wù)上進(jìn)行了評估,。

我們評估了Dyck20,10中結(jié)構(gòu)上未觀察到的字符串的泛化能力,,以下圖為例。

MIT斯坦福Transformer最新研究:過度訓(xùn)練讓中度模型「涌現(xiàn)」結(jié)構(gòu)泛化能力 – AI新智界

模型

研究人員訓(xùn)練了有{2,4,6,8,10}層的transformer語言模型,。

對于每個(gè)深度,,研究人員用10個(gè)隨機(jī)種子來訓(xùn)練模型,300k steps,。(Dyck為400k)

給定輸入句子(或在Dyck的情況下前綴),,研究人員在測試時(shí)從模型中解碼。

對于Dyck,,研究人員報(bào)告準(zhǔn)確性是通過在給定語言的輸入前綴的情況下,,通過對右括號進(jìn)行排名來生成正確的右括號類型。

和之前已經(jīng)進(jìn)行的研究類似,,對于Question-Formation,,研究人員報(bào)告解碼問題的第一個(gè)單詞的準(zhǔn)確性。

對于Tense-Inflection,,研究人員報(bào)告的是目標(biāo)動(dòng)詞詞形變化正確的測試輸入的分?jǐn)?shù),。

主要結(jié)果

Transformers展現(xiàn)出了結(jié)構(gòu)頓悟。

研究人員在下圖中展示了在所有數(shù)據(jù)集上使用最佳模型深度所獲得的結(jié)果,。

MIT斯坦福Transformer最新研究:過度訓(xùn)練讓中度模型「涌現(xiàn)」結(jié)構(gòu)泛化能力 – AI新智界

他們發(fā)現(xiàn)了明確的結(jié)構(gòu)頓悟證據(jù):在各個(gè)數(shù)據(jù)集上,,在分布內(nèi)準(zhǔn)確率飽和之后的訓(xùn)練步驟中,泛化性能得到改善,有時(shí)甚至接近完美的準(zhǔn)確率,。

提前停止是有害的

接下來,,研究人員將通過在域內(nèi)驗(yàn)證準(zhǔn)確率上進(jìn)行提前停止而獲得的泛化準(zhǔn)確率,與更長的訓(xùn)練流程(如下圖)的泛化準(zhǔn)確性進(jìn)行了比較,。

提前停止會(huì)導(dǎo)致泛化性能被嚴(yán)重低估,。

例如,在Question-Formation和Tense-Inflection兩個(gè)任務(wù)上,,平均泛化性能從不到40%,、不到50%提高到分別不到90%、不到80%,。

倒U形分布

在Question-Formation和Tense-Inflection任務(wù)中,,研究人員從2層到10層逐漸增加深度進(jìn)行模型訓(xùn)練。

對于每個(gè)深度,,在下圖中報(bào)告了最終泛化準(zhǔn)確率超過80%的種子數(shù)(10個(gè)種子中的比例),。

MIT斯坦福Transformer最新研究:過度訓(xùn)練讓中度模型「涌現(xiàn)」結(jié)構(gòu)泛化能力 – AI新智界

他們發(fā)現(xiàn)了一個(gè)倒U形的分布狀態(tài)——非常淺和非常深的模型效果不佳,而大多數(shù)種子在中等深度的模型中表現(xiàn)出較好的泛化性能,。

這也可以解釋為什么之前的研究要么使用非常淺的模型(1-3層的Transformer),,要么使用非常深的模型(Mueller等人論文中的12層Transformer),都無法很好地泛化,。

分析

鑒于結(jié)構(gòu)頓悟僅在一部分模型架構(gòu)中發(fā)生,,研究人員能否確定它何時(shí)發(fā)生(或預(yù)測何時(shí)會(huì)發(fā)生)?

幾個(gè)模型內(nèi)部屬性與結(jié)構(gòu)性理解或Transformer中出現(xiàn)的新興分層結(jié)構(gòu)或許有關(guān),。

Weight Norms

最近的研究將認(rèn)為參數(shù)權(quán)重的L2 norm是結(jié)構(gòu)頓悟的重要量,。

但總體上來說,訓(xùn)練過程中范數(shù)(Norms)增長被作為神經(jīng)網(wǎng)絡(luò)泛化的關(guān)鍵因素之一進(jìn)行了研究,。

注意力稀疏性

Merrill等人(2021年)證明了Transformer中的范數(shù)增長導(dǎo)致了注意力的飽和,,這是新興語言結(jié)構(gòu)的重要特性(Merrill等人,2022年),。為了衡量fLθ的注意力稀疏性,我們計(jì)算了所有分布{apk}的負(fù)均熵,。

樹結(jié)構(gòu)

之前有研究展示了樹結(jié)構(gòu)編碼器表現(xiàn)出接近完美的分層泛化,。

雖然Transformer相對較為自由,但最近的證據(jù)表明,,當(dāng)在語言數(shù)據(jù)上進(jìn)行訓(xùn)練時(shí),,它們隱含地實(shí)現(xiàn)了(近似)樹結(jié)構(gòu)計(jì)算。

而且,,之前研究中樹投影方法精確地描述了Transformer對輸入進(jìn)行的內(nèi)部計(jì)算可以用樹結(jié)構(gòu)神經(jīng)編碼近似的程度,,為任何Transformer提供了樹結(jié)構(gòu)度量分?jǐn)?shù)(tscore),并提供了一個(gè)在輸入字符串上最佳近似其計(jì)算的二叉樹。

為了評估這些樹是否與人類的句法概念相對應(yīng),,我們還將恢復(fù)的樹與黃金標(biāo)準(zhǔn)樹進(jìn)行比較,。

結(jié)果

在Question-Formation和Tense-Inflection任務(wù)中,研究人員通過每隔3k steps更新計(jì)算一次這些量的方式來描述權(quán)重范數(shù)(通過層數(shù)統(tǒng)一化來比較不同模型深度),、注意力稀疏性和樹結(jié)構(gòu)性的動(dòng)態(tài)變化情況,。

對于依賴于數(shù)據(jù)的屬性,如注意力稀疏性和樹結(jié)構(gòu)性,,我們從訓(xùn)練數(shù)據(jù)中隨機(jī)抽取了10k個(gè)樣例,。

研究人員在下圖中繪制了這些量在最小模型、最大模型(其中至少有一個(gè)運(yùn)行顯示成功的結(jié)構(gòu)頓悟)以及最佳模型深度的情況,。

MIT斯坦福Transformer最新研究:過度訓(xùn)練讓中度模型「涌現(xiàn)」結(jié)構(gòu)泛化能力 – AI新智界

樹形結(jié)構(gòu)是最佳的模型

在兩個(gè)數(shù)據(jù)集的所有模型設(shè)置中,,權(quán)重范數(shù)和注意力稀疏性都會(huì)增長。

然而,,僅憑這些屬性本身無法預(yù)測淺層和深層模型的失敗 – 淺層模型學(xué)習(xí)到了最稀疏的解以及具有最大權(quán)重范數(shù)的解,,但從未進(jìn)行分層泛化。

正如之前的研究中所指出的,,tscore隨時(shí)間的推移對于所有模型都有所改善,,表明隨著時(shí)間的推移,樹結(jié)構(gòu)性增加,。

對于這兩個(gè)數(shù)據(jù)集,,與深層和淺層模型相比,“最佳”模型學(xué)習(xí)到了最多的樹結(jié)構(gòu)解,。

在算法任務(wù)中,,結(jié)構(gòu)性理解“與嵌入中結(jié)構(gòu)的出現(xiàn)相吻合”。

類似地,,在語言任務(wù)中,,我們發(fā)現(xiàn)結(jié)構(gòu)性理解與樹狀內(nèi)部計(jì)算的出現(xiàn)相吻合。

Transformer在誘導(dǎo)結(jié)構(gòu)方面表現(xiàn)出驚人的效果

從下圖的tparseval的動(dòng)態(tài)變化中,,研究人員注意到所有模型,,無論它們是否進(jìn)行泛化,都學(xué)習(xí)到了接近于真實(shí)句法的結(jié)構(gòu),,有時(shí)表現(xiàn)優(yōu)于右分支基線,。

MIT斯坦福Transformer最新研究:過度訓(xùn)練讓中度模型「涌現(xiàn)」結(jié)構(gòu)泛化能力 – AI新智界

之前的研究認(rèn)為,只有樹結(jié)構(gòu)編碼器根據(jù)正確的句法分析樹進(jìn)行結(jié)構(gòu)化時(shí)才能進(jìn)行泛化,。

研究人員發(fā)現(xiàn)所有Transformer都學(xué)習(xí)到了正確的樹結(jié)構(gòu),,但只有最具樹結(jié)構(gòu)性的模型表現(xiàn)出最好的泛化能力。

結(jié)論

這項(xiàng)研究表明,,通過結(jié)構(gòu)頓悟機(jī)制,,Transformer能夠展現(xiàn)出對結(jié)構(gòu)敏感的“分層泛化”,。

它們的整體學(xué)習(xí)行為逐漸從記憶(領(lǐng)域內(nèi)高準(zhǔn)確率,領(lǐng)域外準(zhǔn)確率較差)向泛化(領(lǐng)域內(nèi)和領(lǐng)域外準(zhǔn)確率高)轉(zhuǎn)變,。

雖然研究人員在相對較小的數(shù)據(jù)集和小型模型上展示了這種行為,,但這些結(jié)果可能具有更廣泛的意義。

因?yàn)橐呀?jīng)證明長時(shí)間的訓(xùn)練即使對于規(guī)模龐大的語言建模和組合泛化任務(wù)也有幫助,。

結(jié)構(gòu)頓悟在“中等規(guī)?!钡哪P蜕疃茸畛0l(fā)生,而非常淺和非常深的模型則無法展現(xiàn)出這種行為,。

雖然以往與Transformer中的語言泛化相關(guān)的屬性,,如權(quán)重范數(shù)和注意力稀疏性,不能區(qū)分好的架構(gòu)和壞的架構(gòu),,但Transformer的功能性樹結(jié)構(gòu)可以很好地預(yù)測最佳模型深度,。

雖然Transformer架構(gòu)存在一些明顯的限制(例如無法實(shí)現(xiàn)無限遞歸),但研究人員的結(jié)果表明它可能具有比以前認(rèn)為的更強(qiáng)的歸納偏好:通過充分的訓(xùn)練,,Transformer能夠表示分層的句子結(jié)構(gòu)并利用這種結(jié)構(gòu)進(jìn)行正確的泛化,。

參考資料:

https://arxiv.org/abs/2305.18741?

免責(zé)聲明:本文來自網(wǎng)絡(luò)收錄或投稿,觀點(diǎn)僅代表作者本人,,不代表芒果財(cái)經(jīng)贊同其觀點(diǎn)或證實(shí)其描述,,版權(quán)歸原作者所有。轉(zhuǎn)載請注明出處:http://lequren.com/1082561.html
溫馨提示:投資有風(fēng)險(xiǎn),,入市須謹(jǐn)慎,。本資訊不作為投資理財(cái)建議。

(0)
AI之勢的頭像AI之勢
上一篇 2023年12月8日 下午3:31
下一篇 2023年12月8日
數(shù)字品牌中國行

相關(guān)推薦