原文來(lái)源:機(jī)器之心
圖片來(lái)源:由無(wú)界 AI?生成
自 2017 年被提出以來(lái),Transformer 已成為 AI 大模型的主流架構(gòu),未來(lái)這種情況是一直持續(xù),,還是會(huì)有新的研究出現(xiàn),,我們不妨先聽(tīng)聽(tīng)身處 AI 圈的研究者是怎么想的,。
在大模型領(lǐng)域,,一直穩(wěn)站 C 位的 Transformer 最近似乎有被超越的趨勢(shì)。
這個(gè)挑戰(zhàn)者就是一項(xiàng)名為「Mamba」的研究,,其在語(yǔ)言,、音頻和基因組學(xué)等多種模態(tài)中都達(dá)到了 SOTA 性能。在語(yǔ)言建模方面,,無(wú)論是預(yù)訓(xùn)練還是下游評(píng)估,,Mamba-3B 模型都優(yōu)于同等規(guī)模的 Transformer 模型,并能與兩倍于其規(guī)模的 Transformer 模型相媲美,。
論文一經(jīng)發(fā)表,引起了不小的轟動(dòng),。驚嘆之余,,大家發(fā)現(xiàn)論文作者只有兩位,一位是卡內(nèi)基梅隆大學(xué)機(jī)器學(xué)習(xí)系助理教授 Albert Gu,,另一位是 Together.AI 首席科學(xué)家,、普林斯頓大學(xué)計(jì)算機(jī)科學(xué)助理教授(即將上任)Tri Dao。
這項(xiàng)研究的一個(gè)重要?jiǎng)?chuàng)新是引入了一個(gè)名為「選擇性 SSM( selective state space model)」的架構(gòu),,相比于 Transformer 中的自注意力機(jī)制的計(jì)算量會(huì)隨著上下文長(zhǎng)度的增加呈平方級(jí)增長(zhǎng),,比如上下文增加 32 倍時(shí),計(jì)算量可能會(huì)增長(zhǎng) 1000 倍,,Mamba 可以隨上下文長(zhǎng)度的增加實(shí)現(xiàn)線(xiàn)性擴(kuò)展,,其性能在實(shí)際數(shù)據(jù)中可提高到百萬(wàn) token 長(zhǎng)度序列,并實(shí)現(xiàn) 5 倍的推理吞吐量提升,。而這些,,都離不開(kāi)選擇性 SSM。
看到 Mamba 如此優(yōu)異的表現(xiàn)后,,很多研究者對(duì) SSM(state space model) 相關(guān)研究產(chǎn)生了好奇,。
在最近的一次采訪(fǎng)中,來(lái)自艾倫人工智能研究所( AI2)的機(jī)器學(xué)習(xí)研究員 Nathan Lambert 與 Mamba 論文作者之一 Tri Dao,以及同樣來(lái)自 Together.AI 的科學(xué)家 Michael Poli 進(jìn)行了深入交流,。
他們主要討論了 LLM 架構(gòu)的未來(lái),,此外,這三位研究者還探討了狀態(tài)空間模型(SSM)在新興的 LLM 市場(chǎng)中的應(yīng)用前景,。對(duì)話(huà)中涉及的知識(shí)點(diǎn)也比較密集,,比如為什么 Transformer 中的注意力機(jī)制有效、其擴(kuò)展限制是什么,、Mamba 介紹及其硬件優(yōu)化以及對(duì)未來(lái)架構(gòu)預(yù)測(cè)的討論等,。
以下是對(duì)話(huà)內(nèi)容(機(jī)器之心進(jìn)行了編譯整理)。
為什么注意力機(jī)制有效
Nathan Lambert:我們首先來(lái)討論一下,,為什么注意力機(jī)制有效,,以及注意力機(jī)制的局限性在哪里。Transformer 有多少部分是基于注意力機(jī)制構(gòu)建的,,還有沒(méi)有其他的機(jī)制在起作用,,在這方面可能會(huì)遇到哪些挑戰(zhàn)?
Tri Dao: 沒(méi)錯(cuò),,所謂 Transformer,,就是目前推動(dòng)我們看到的大多數(shù)激動(dòng)人心的應(yīng)用的架構(gòu)。如你所說(shuō),,注意力機(jī)制是其中的核心層,。其實(shí),注意力機(jī)制早在 2014 年到 2015 年就受到關(guān)注了,,隨后 Transformer 的概念出現(xiàn),,融合了注意力機(jī)制,注重多層感知機(jī)(MLP)和注意力機(jī)制的交織使用,。
我認(rèn)為它的成功很大程度上在于,,這些模型似乎能夠很好地進(jìn)行擴(kuò)展,你可以通過(guò)增加更多的參數(shù)和數(shù)據(jù)來(lái)擴(kuò)大模型規(guī)模。這就是成功的秘訣,。雖然現(xiàn)在看起來(lái)顯而易見(jiàn),,但我認(rèn)為五年前這還不是一個(gè)明確的概念。
Transformer 成功的幾個(gè)原因包括:首先,,它足夠通用,,能夠從大量數(shù)據(jù)中學(xué)到很多東西。其次,,它對(duì)硬件非常友好,。與之前的循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)不同,它沒(méi)有順序依賴(lài)性,。
因此,,它可以在 GPU、TPU 上運(yùn)行得很好,,可以進(jìn)行擴(kuò)展,,同時(shí)非常高效地利用硬件。我個(gè)人也致力于讓它更加高效地利用硬件,。所以,,這就是成功的秘訣 —— 作一個(gè)既通用又能很好地進(jìn)行擴(kuò)展的架構(gòu)。如果你是研究 NLP 的,,也許你會(huì)考慮加入一些歸納偏置來(lái)增強(qiáng)模型。就我個(gè)人而言,,我認(rèn)為 Transformer 是一個(gè)非常通用的架構(gòu),,可擴(kuò)展性很好,而且對(duì)硬件很友好,。
Nathan Lambert:是的,是的?,F(xiàn)在回想起來(lái),這一切似乎都顯得很明顯?,F(xiàn)在,在研究它的替代方案時(shí),,一個(gè)有趣的維度是上下文長(zhǎng)度。Michael,,你怎么看,?
Michael Poli:是的,,我有幾點(diǎn)想說(shuō)。首先,,目前仍然有很多優(yōu)秀的研究試圖從第一性原理出發(fā)解釋 Transformer,,為什么它能學(xué)習(xí)這些有趣的回路,?人們會(huì)拆解計(jì)算過(guò)程,比如不同的 transformer 中的 head 組合等,。
有一些工作會(huì)將 Transformer 作為一種編碼的編程語(yǔ)言來(lái)理解,。但我認(rèn)為,正如 Trey 提到的,,Transformer 中有一些非常有趣的設(shè)計(jì)選擇,。注意力和 MLP 的交織使用是相當(dāng)重要的。而且,,Transformer 一開(kāi)始之所以成功,,是因?yàn)樗捎昧艘恍┮呀?jīng)為 RNN 和其他傳統(tǒng) NLP 模型所開(kāi)發(fā)的技術(shù),比如使用門(mén)控機(jī)制來(lái)調(diào)節(jié)模型吸收哪些信息,,以及決定某些內(nèi)容在這種并行形式中被忘記的速度,。這就像是一些可以在 GPU 上進(jìn)行優(yōu)化的寶石,雖然不是很容易,,但確實(shí)可以?xún)?yōu)化,。
注意力計(jì)算量呈平方級(jí)增長(zhǎng)
Nathan Lambert:是的,這些都很棒,。我想說(shuō)的比較具體的一點(diǎn)是,注意力機(jī)制最終呈現(xiàn)出一種隨輸入序列長(zhǎng)度成二次方增長(zhǎng)的計(jì)算成本,。假設(shè)你有一個(gè)長(zhǎng)度為 L 的輸入序列,,并且你想輸出一個(gè)長(zhǎng)度也為 L 的序列。如果你深入到數(shù)學(xué)細(xì)節(jié)中去,觀察大多數(shù)庫(kù)在推理時(shí)發(fā)生的情況,你會(huì)發(fā)現(xiàn)有這樣一個(gè)上三角注意力矩陣,其中,,你只能考慮文本的過(guò)去部分,。隨著處理的進(jìn)行,,你會(huì)發(fā)現(xiàn)它形成了一個(gè) L 平方的關(guān)系,其中第一個(gè) token 只考慮一個(gè)元素,,然后每個(gè)后續(xù)的 token 需要考慮的過(guò)去 token 逐漸增多,。剛才我們已經(jīng)討論了 RNN,以及一些非注意力的方法是如何做到不去查看序列中所有文本歷史的,。當(dāng)你給聊天機(jī)器人 GPT 寫(xiě)一個(gè)長(zhǎng)長(zhǎng)的提示時(shí),,你真的希望所有那些信息都被編碼進(jìn)去嗎?除了這種密集的注意力矩陣,,我們還有什么其他的選擇,???
Tri Dao:循環(huán)神經(jīng)網(wǎng)絡(luò)可以追溯到 80 年代,也許其中一些更著名的是長(zhǎng)短期記憶網(wǎng)絡(luò)(LSTM),、門(mén)控循環(huán)單元(GRU),。大約在 2012 年到 2016 年左右,它們?cè)诜g,、語(yǔ)音識(shí)別等方面非常流行,,當(dāng)時(shí)它們是 NLP 領(lǐng)域的 SOTA 技術(shù)。
它們以一種序列方式處理文本:逐個(gè)觀察 token,,然后改變隱藏狀態(tài),,每次看到一個(gè)新 token 時(shí)都會(huì)更新隱藏狀態(tài)。我認(rèn)為從某種意義上來(lái)說(shuō),,這模仿了人腦處理信息的方式,,就像你閱讀一句話(huà)或一段話(huà),就像你在大腦中存儲(chǔ)一些信息,。當(dāng)你讀完一個(gè)文檔時(shí),,你可能能夠回答關(guān)于那個(gè)文檔的問(wèn)題,而無(wú)需再次參考該文檔,。所以,,RNN 就是這樣工作的。它們處理文本,,然后改變隱藏狀態(tài),,隱藏狀態(tài)是可以用來(lái)生成新 token 或?qū)ξ臋n進(jìn)行分類(lèi)的表示。
大約在 2016 年左右,,這些方法效果很好,。但是,,它們逐漸不受青睞,,從實(shí)驗(yàn)結(jié)果來(lái)看,,它們的表現(xiàn)并不像 Transformer 那么好。正如你提到的,,由于 Transformer 存在這種二次方擴(kuò)展特性,,每個(gè) token 都會(huì)與之前的各個(gè) token 進(jìn)行比較,這為信息傳播提供了一種非常簡(jiǎn)單的方式,。我認(rèn)為這是 Transformer 和注意力機(jī)制表現(xiàn)出色的部分原因,。
但最近,一些新的 RNN 架構(gòu)似乎表現(xiàn)得相當(dāng)不錯(cuò),,RWKV 是其中較早的一個(gè),。我非常欽佩那個(gè)項(xiàng)目,那是一位名叫 Bo Peng 的研究者主導(dǎo)研發(fā)的,。它似乎在以一己之力對(duì)抗 Transformer 統(tǒng)治地位,,證明了 RNN 可以非常強(qiáng)大。
Nathan Lambert:是的,。我之前也讀過(guò)這篇論文,。在技術(shù)層面上,他們嘗試通過(guò)兩個(gè)線(xiàn)性 RNN 來(lái)復(fù)制類(lèi)似于注意力機(jī)制中的查詢(xún)鍵值查找的東西,,本質(zhì)上是為了消除像特定注意力擴(kuò)展這樣的潛在問(wèn)題,。這兩個(gè) RNN 擁有更好的長(zhǎng)上下文行為和不同的實(shí)現(xiàn)規(guī)則。他們還訓(xùn)練了參數(shù)量高達(dá) 140 億的模型,。這也引出了我接下來(lái)想問(wèn)的一些問(wèn)題,,包括 Mamba 和 Striped Hyena。我們可以一個(gè)一個(gè)來(lái)聊,。
Striped Hyena 是個(gè)什么模型,?
Nathan Lambert:我進(jìn)入了 Together API,做了一次 Mistral 和 Striped Hyena 的對(duì)比測(cè)試,。結(jié)果顯示,,Striped Hyena 是一個(gè)不錯(cuò)的語(yǔ)言模型。它能回答大多數(shù)問(wèn)題,,沒(méi)有明顯的失敗模式,。Michael,你怎么看待這個(gè)模型,?
Michael Poli:首先我想說(shuō),,這些新方法之間有一個(gè)有趣的聯(lián)系。存在一種凸集,,它有一個(gè)中心點(diǎn),,線(xiàn)性注意力(即沒(méi)有 softmax 的注意力),、線(xiàn)性 RNN 以及基于狀態(tài)的模型(SSM)之間的關(guān)聯(lián)都在這個(gè)凸集里。在某種程度上,,這種基礎(chǔ)模型的數(shù)學(xué)表述是相同的,,我這里不是指基礎(chǔ)架構(gòu),而是指基礎(chǔ)模型,。
然后你可以朝不同的方向發(fā)展,,每個(gè)方向都有自己的權(quán)衡,比如特征映射方向,、 kernel 方向,。所以當(dāng)你分解或去除掉 softmax 時(shí),你可以在處理查詢(xún)(queries)和鍵(keys)時(shí)采取不同的方法,。這些查詢(xún)和鍵是構(gòu)成你的注意力矩陣的基本實(shí)體,。在去除 softmax 之后,你可以構(gòu)建其他類(lèi)似 kernel 的函數(shù),,或者其他你希望能夠近似實(shí)現(xiàn)注意力機(jī)制功能的函數(shù),。
你可以做一些類(lèi)似泰勒近似(Taylor approximation)或泰勒展開(kāi)(Taylor expansion)這樣的事情。你會(huì)得到一個(gè)略顯不同的視角,,但你得到的東西又非常相似,。你可以轉(zhuǎn)向 Time variance。這意味著你修改 RNN,,使其計(jì)算更多地依賴(lài)于輸入序列,。也就是說(shuō),在線(xiàn)性 RNN 中的計(jì)算是由輸入序列所決定的,。你可以使用類(lèi)似門(mén)控(gates)的東西,,我們已經(jīng)看到了很多工作,例如,,用額外的門(mén)控來(lái)更新內(nèi)部 tension,,讓你更好地利用你的固定狀態(tài)維度。第三個(gè)方向 —— 至少在我看來(lái) —— 是使用卷積形式的,,更多地使用其他類(lèi)型的線(xiàn)性運(yùn)算符,,這些運(yùn)算符仍然是可結(jié)合的,仍然允許你并行訓(xùn)練,。
所以這里的內(nèi)容包括時(shí)間不變系統(tǒng),。我可以詳細(xì)解釋這些點(diǎn),但是存在一些可以在卷積和循環(huán)之間切換的模型,,這些模型還配備了額外的門(mén)控機(jī)制,。我參與的一個(gè)項(xiàng)目,它誕生于我剛才提到的這第三類(lèi)架構(gòu),。我們真正試圖做到的是,,打造出每浮點(diǎn)運(yùn)算性能最佳的架構(gòu),。我們反復(fù)驗(yàn)證的一個(gè)原則是,似乎將不同層,、不同類(lèi)別的模塊甚至是全注意力層結(jié)合起來(lái),,得到的東西比單獨(dú)的組件要好。
因此,,我們正在試圖更深入地理解這些模型的組合方面,。這種理解有助于我們創(chuàng)造每浮點(diǎn)運(yùn)算性能更優(yōu)的預(yù)訓(xùn)練模型。使用這種模型,,我們運(yùn)行了一整套的規(guī)模擴(kuò)展法則?;旌匣步o了我們一些優(yōu)勢(shì),,因?yàn)槲覀兿胍氖且环N可以即開(kāi)即用的東西,它使得過(guò)程變得更加簡(jiǎn)單,。
在為更長(zhǎng)的上下文進(jìn)行微調(diào)時(shí),,我們可以應(yīng)用一些為 Transformers 開(kāi)發(fā)的技術(shù),而且有點(diǎn)出人意料的是,,這些技術(shù)對(duì)于混合體也同樣有效,。比如,用于旋轉(zhuǎn)嵌入的線(xiàn)性縮放等等,,你可以深入了解細(xì)節(jié),。所以這主要是一個(gè)嘗試性項(xiàng)目,試圖弄清楚,,在當(dāng)前的環(huán)境下,,我們最好能做到什么程度。
什么是 Mamba
Nathan Lambert:Striped Hyena 使用了一組新的模型移植技術(shù)(model grafting)進(jìn)行了優(yōu)化,,使我們能夠在訓(xùn)練期間更改模型架構(gòu),,對(duì)我來(lái)說(shuō),感覺(jué)好像有很多事情正在發(fā)生,,比如一些你可能不能談?wù)撎嗟膬?nèi)容如數(shù)據(jù),。
所以,我不認(rèn)為所有數(shù)據(jù)都得到了很好的解釋?zhuān)热巛^長(zhǎng)的上下文數(shù)據(jù)是什么,,你能從模型的角度解釋一下嗎,?我認(rèn)為即使只是總結(jié)一下,對(duì)人們來(lái)說(shuō)也是很好的體驗(yàn),。
該領(lǐng)域有很多很酷的工作,,因此,AI 領(lǐng)域有很多新的項(xiàng)目在展開(kāi),,例如,,有些人試圖將 Lama 模型拆解并繼續(xù)訓(xùn)練,。事實(shí)上,這種做法有點(diǎn)狂野,,人們嘗試采用強(qiáng)大的模型并試圖讓它們變得更小,,同時(shí)還想獲得媲美大模型的性能優(yōu)勢(shì)。
雖然這是個(gè)題外話(huà),,但我沒(méi)有預(yù)料到的是當(dāng)你關(guān)注社交媒體的時(shí)候,,你會(huì)看到人們會(huì)說(shuō),哦,,最終還是狀態(tài)非注意力模型贏了,。在我看來(lái),這種說(shuō)法掩蓋了很多有趣的細(xì)節(jié),。
好吧,,讓我們回到 Mamba。如果沒(méi)記錯(cuò)的話(huà),,我認(rèn)為 Mamba 套件中最大的模型是 2. 8 億參數(shù),,在 NLP 基準(zhǔn)測(cè)試中,包括 GPT J,、Pythia 模型套件給出的基準(zhǔn)分?jǐn)?shù)都非常強(qiáng),。
Tri Dao:Mamba 是我與 Albert Gu 合作完成的,當(dāng)時(shí)他是斯坦福大學(xué)的博士生,,我們就是在那里認(rèn)識(shí)的,,他現(xiàn)在是 CMU 的助理教授。所以這是一次美妙的合作,,Mamba 的成功要?dú)w功于他,。Albert 一直致力于狀態(tài)空間模型的研究,從某種意義上說(shuō),,正如前面提到的,,線(xiàn)性張量、線(xiàn)性 RNN,、卷積,、神經(jīng)網(wǎng)絡(luò)等領(lǐng)域他都有涉及。
在我過(guò)去參與的幾個(gè)項(xiàng)目中,,我還致力于空間,、狀態(tài)空間的研究,我研究的角度是如何使?fàn)顟B(tài)空間更加硬件高效,,并提高其性能,。所以和 Albert Gu 一起工作真是太棒了。我認(rèn)為參與 Mamba 的研究過(guò)程更多的是一個(gè)概念證明,狀態(tài)空間實(shí)際上可以像 NLP 領(lǐng)域的 transforme 一樣好嗎,?因此,,才有了 Mamba,這項(xiàng)研究表明狀態(tài)空間在音頻方面可能會(huì)更好,。但是,,對(duì)于狀態(tài)空間模型來(lái)說(shuō),,語(yǔ)言一直是最難獲得、最難做好的,。
而且,語(yǔ)言也是人們現(xiàn)在最關(guān)心的事情,,所以我做的更多的是一個(gè)概念驗(yàn)證,,也就是說(shuō),,我們想表明狀態(tài)空間模型也可以具有競(jìng)爭(zhēng)力,甚至可以和 Transformer 一較高下,。我們實(shí)驗(yàn)中驗(yàn)證的 token 數(shù)從 3B 到 300 B 不等。
所以從絕對(duì)意義上講,,這些都不是非常強(qiáng)大的模型,,這些還不是我們真正想要的模型,。我認(rèn)為我們正在做的更多的是進(jìn)行學(xué)術(shù)比較。比如訓(xùn)練相同數(shù)量的 token,,狀態(tài)空間模型可能比 transformer 稍微好一些。
這件事對(duì)我們來(lái)說(shuō)尤其令人興奮,,我認(rèn)為 Albert 已經(jīng)推動(dòng)這件事有一段時(shí)間了,。
結(jié)果是,,我們的研究在推理上可能會(huì)更快,,也許我們會(huì)有不同的方式來(lái)理解上下文學(xué)習(xí)是如何發(fā)生的,。我很期待未來(lái)的工作,。
Mamba 硬件優(yōu)化
Nathan Lambert:您能否談一談實(shí)現(xiàn)這些新 CUDA 內(nèi)核實(shí)際上需要做什么,?
Tri Dao:關(guān)于狀態(tài)空間的研究,它在某種意義上是循環(huán)神經(jīng)網(wǎng)絡(luò),。狀態(tài)大小是你在遍歷或處理序列時(shí),,用來(lái)存儲(chǔ)信息的緩沖區(qū),。
從某種意義上講,,Transformer 也可以這樣理解,它保存的整個(gè)歷史記錄通常稱(chēng)為 KV 緩存,,Transformer 保留歷史并不斷引用它。對(duì)于 RNN,,它們具有固定大小的狀態(tài);對(duì)于 transformer,你可以認(rèn)為狀態(tài)大小正在增加,。而且,我們的直覺(jué)是,,狀態(tài)規(guī)模越大,,模型就表現(xiàn)越好,。
所以基本上,你需要有更多的空間來(lái)存儲(chǔ)你需要記住的東西,。因此,,之前的模型(例如 S4 等)具有相當(dāng)大的隱式狀態(tài)大小,它們使用卷積視圖來(lái)避免將狀態(tài)具體化,。
我們希望在循環(huán)中加入更多的輸入依賴(lài)性,,然而,這樣做阻止了我們使用可以提高效率的卷積視圖,。
因此,,我們必須找到一種不同的方法來(lái)提高效率,所以我們把重點(diǎn)專(zhuān)注于在 GPU 上提高效率,。我們的想法是,,我們要有一個(gè)大的狀態(tài)大小,但我們不需要用到實(shí)際的 GPU 內(nèi)存,,比如 HBM,,我們可以把大的狀態(tài)保存在一個(gè)更快的內(nèi)存中,稱(chēng)之為 SRAM,,你可以把它想象成一個(gè)緩存,。如果你更熟悉 CPU,這通常是一個(gè)緩存和 RAM,。
所以,,如果你有較大的狀態(tài),你可以將它保存在緩存中,,這樣一來(lái)你不會(huì)遭受太大的損失,。
2024 年架構(gòu)預(yù)測(cè)
Nathan Lambert:我現(xiàn)在對(duì) GPU 與 TPU 最有力的洞察是,MoE 在 TPU 中效果不佳,,因?yàn)槟惚仨氃诨緦由霞尤胍恍?MoE,。
在分布式訓(xùn)練中,前饋層可能最終分布在不同的 TPU 節(jié)點(diǎn)上,,而 TPU 之間是通過(guò)鄰近節(jié)點(diǎn)進(jìn)行通信的,。因此,與 GPU 相比,,TPU 在這方面會(huì)受到較大的影響,。2024 年這個(gè)領(lǐng)域會(huì)發(fā)生什么?
Tri Dao:我認(rèn)為 Transform 仍然是一個(gè)非常強(qiáng)大的架構(gòu),,現(xiàn)在可以擴(kuò)展到一萬(wàn)億級(jí)別的參數(shù),,人們往往想要性能最好的模型,這些模型在硬件上運(yùn)行效率最高,,并且在軟件方面擁有最多的支持,。
我最近有些新想法,,比如狀態(tài)空間。我們已經(jīng)看到,,正如 Michael 提到的,,混合這些組件似乎可以提高性能,我認(rèn)為在 7B 大小的模型上得到了驗(yàn)證,,也許狀態(tài)空間模型可以在更大規(guī)模的模型上起作用,。
當(dāng)前大多數(shù)人關(guān)注的是基于 Lime 架構(gòu)的數(shù)據(jù)和基礎(chǔ)設(shè)施建設(shè),盡管現(xiàn)有的 Transformer 架構(gòu)在生產(chǎn)環(huán)境中仍然非常強(qiáng)大且得到廣泛支持,,但也存在一些邊緣領(lǐng)域,,比如長(zhǎng)上下文、音頻,、基因組學(xué)等,,研究這些領(lǐng)域中的替代架構(gòu)會(huì)非常有趣。這些領(lǐng)域提出了一些有意義的科學(xué)問(wèn)題,,例如模型是否像人類(lèi)一樣理解指令和直覺(jué),、是否能與量化方法協(xié)同工作等。
此外,,即使現(xiàn)在人們還在使用 Transformer 架構(gòu),,未來(lái)可能會(huì)融入更多的新思想和組件,例如增加更多的層和注意力機(jī)制等,,盡管它們可能仍然被稱(chēng)為 Transformer,。
簡(jiǎn)而言之,盡管目前的人工智能領(lǐng)域傾向于保守,,專(zhuān)注于現(xiàn)代架構(gòu),,但新的架構(gòu)和思想正在逐漸涌現(xiàn),這些新穎的觀點(diǎn)和方法可能會(huì)為人工智能的發(fā)展帶來(lái)新的動(dòng)力和方向,。
Michael Poli:是的,,我百分之百同意 Tri Dao 的看法,注意力機(jī)制作為計(jì)算原語(yǔ)依然很重要,。注意力機(jī)制作為一種高效便捷的方式,,可以有效增加序列處理器的狀態(tài)容量。
狀態(tài)維度與序列長(zhǎng)度之間存在權(quán)衡關(guān)系,,當(dāng)模型尺寸變大,,也就是模型變得更寬時(shí),將有效地引入更多的狀態(tài)和序列長(zhǎng)度,。這樣一來(lái),一些邊際效應(yīng)可能會(huì)消失,,而某些權(quán)衡將會(huì)發(fā)生改變,,尤其是對(duì)于那些非常大的模型,,如 14B、30B 這類(lèi)模型,。
未來(lái),,架構(gòu)設(shè)計(jì)將變得更加有趣和復(fù)雜,將會(huì)有更多的創(chuàng)新發(fā)生,。無(wú)論是混合模型還是引入新的模塊,,我們都將看到更多激動(dòng)人心的創(chuàng)新。
對(duì) AI 更多的預(yù)測(cè)
Nathan Lambert:混合專(zhuān)家模型(Mixture of Experts, MoE)和狀態(tài)空間模型在近期內(nèi)呈現(xiàn)出一種流行的趨勢(shì),。
然而,,在開(kāi)源和學(xué)術(shù)界,目前還沒(méi)有人真正嘗試在混合專(zhuān)家模型上做早期的嘗試和改進(jìn),。模型嫁接(Model Grafting)現(xiàn)在正在變得更加實(shí)用,。
跟進(jìn)這些進(jìn)展非常有趣,希望這些發(fā)展能夠?yàn)閷W(xué)術(shù)界和科學(xué)家們提供更多影響行業(yè)對(duì)話(huà)的方法,,特別是在目前行業(yè)更多關(guān)注于擴(kuò)大模型規(guī)模的情況下,。我建議開(kāi)源公司應(yīng)該在他們的語(yǔ)言模型中進(jìn)行特定的改進(jìn),以獲得商業(yè)優(yōu)勢(shì),。
你們?cè)跈C(jī)器學(xué)習(xí)方面還關(guān)注其他什么嗎,?它不一定是關(guān)于狀態(tài)空間模型的。明年最讓你們興奮的是什么,?
Tri Dao:我個(gè)人認(rèn)為數(shù)據(jù)仍然是最重要的因素,。我們正在深入研究數(shù)據(jù)如何影響模型性能,例如通過(guò)一些與模型性能高度相關(guān)的合成任務(wù)來(lái)進(jìn)行研究,。這種方法一直是我們論文和研究工作中的主要?jiǎng)恿褪纠?。未?lái)一段時(shí)間我們將專(zhuān)注于數(shù)據(jù)領(lǐng)域。
雖然所有的架構(gòu)工作都很有趣,,使其在硬件上高效運(yùn)行也很有趣,,但最終還是關(guān)于數(shù)據(jù)的。如果你了解擴(kuò)展率(scaling law),,你就會(huì)知道不同的模型架構(gòu)通常會(huì)有相同的斜率,,只是偏移量不同,似乎唯一能改變斜率的是數(shù)據(jù)質(zhì)量,。
Michael Poli:是的,,我們添加了數(shù)據(jù)。數(shù)據(jù)確實(shí)很有趣,,比如在架構(gòu)設(shè)計(jì)上的微型化,,找出并分解語(yǔ)言建模等任務(wù)所涉及的各個(gè)方面,我們?cè)噲D將它們打包成可以用來(lái)迭代的東西,,這非常令人興奮,。
我個(gè)人對(duì)新應(yīng)用,,尤其是基因組學(xué)工作感到非常興奮,但更多地是從工程角度出發(fā),,我們正看到一個(gè)轉(zhuǎn)變,。目前,語(yǔ)言仍是獲得最多點(diǎn)擊和最大興趣的領(lǐng)域,,但我認(rèn)為這將隨著時(shí)間的推移而改變,。
Nathan Lambert:是的,每個(gè)人都在談?wù)撜Z(yǔ)言,,但我覺(jué)得圖像,、視頻將會(huì)是產(chǎn)生巨大價(jià)值的東西。我不知道語(yǔ)言的上限在哪里,。我很興奮,,我已經(jīng)開(kāi)始嘗試這些了,比如我會(huì)拿博客的文本,,讓模型轉(zhuǎn)換成圖片,,然后轉(zhuǎn)換成帶有音頻的視頻,所有這些都是用一個(gè) Python 腳本完成的,,這真的很容易做到,。所以我同意你的觀點(diǎn),超越語(yǔ)言的東西很有趣,。
Tri Dao:在你的經(jīng)驗(yàn)中,,當(dāng)你將所有這些東西拼湊在一起時(shí),它們確實(shí)能夠合理地工作嗎,?
Nathan Lambert:它還不是那么完美,,DALL?E 生成的圖片比較相似,但我的做法非常簡(jiǎn)單,,就是直接把文本拿過(guò)來(lái),,然后用一個(gè)系統(tǒng)提示,讓模型生成各種各樣的圖片,,我認(rèn)為我可以做得更好,。據(jù)我知道,大概在一年內(nèi),,就會(huì)有一個(gè)文本到視頻的 API,,到時(shí)我會(huì)切換到 API,那種體驗(yàn)會(huì)很棒,。
Tri Dao:是的,,我認(rèn)為這些進(jìn)步確實(shí)產(chǎn)生了大量的經(jīng)濟(jì)價(jià)值,我們已經(jīng)看到了這一點(diǎn)。現(xiàn)在很多公司都開(kāi)始轉(zhuǎn)向使用這些技術(shù),。我認(rèn)為這將改變我們的工作方式,正如你提到的,,改變我們的工作方式和娛樂(lè)方式。所以這是一個(gè)非常令人興奮的未來(lái),。
原文鏈接:https://www.interconnects.ai/p/interviewing-tri-dao-and-michael?continueFlag=5d10d34c97637bebcfeba6470c0f0d9b
免責(zé)聲明:本文來(lái)自網(wǎng)絡(luò)收錄或投稿,,觀點(diǎn)僅代表作者本人,不代表芒果財(cái)經(jīng)贊同其觀點(diǎn)或證實(shí)其描述,,版權(quán)歸原作者所有,。轉(zhuǎn)載請(qǐng)注明出處:http://lequren.com/1085415.html
溫馨提示:投資有風(fēng)險(xiǎn),入市須謹(jǐn)慎,。本資訊不作為投資理財(cái)建議,。