編者按:前人種樹(shù),,后人摘果,。在科技圈,,科技巨頭做出創(chuàng)新技術(shù)但成果卻被初創(chuàng)企業(yè)竊取的情況屢見(jiàn)不鮮。最近的例子之一便是谷歌與OpenAI,。最近對(duì)科技圈產(chǎn)生最深遠(yuǎn)影響的論文《Attention Is All You Need》就是谷歌的人發(fā)表的,,但最終引爆市場(chǎng)的卻是OpenAI。那篇論文的所有8位作者后來(lái)均離開(kāi)了谷歌,,本文介紹了這篇論文的誕生故事,,并介紹了他們的最新動(dòng)向。也許里面最值得深思的,,是如何打造創(chuàng)新的土壤,。我們?nèi)绾尾拍艽蛟斐瞿菢拥耐寥滥兀课恼聛?lái)自編譯,。
已成傳奇
2017 年春發(fā)表的科學(xué)論文《你所需要的只是注意力》(Attention Is All You Need)共有八位作者,,他們都來(lái)自谷歌,不過(guò)當(dāng)時(shí)其中一人已經(jīng)離開(kāi)了公司,。當(dāng)其中最資深的作者諾阿·薩澤爾(NOAM SHAZEER)看到初稿時(shí),,他意外地發(fā)現(xiàn)自己的名字位列所有作者之首,這似乎表明他所做的貢獻(xiàn)最為顯著,。他說(shuō):“我可不是這么想的”,。
作者名單如何排序從來(lái)都是件需要精心權(quán)衡的事情:誰(shuí)應(yīng)該獨(dú)享第一作者的美譽(yù)?誰(shuí)又該不幸的被排在倒數(shù)第一,?當(dāng)每位參與者在真正意義上的團(tuán)隊(duì)合作都做出了顯著貢獻(xiàn)時(shí)就更難權(quán)衡了,。研究者們?cè)谕瓿烧撐牡木o張過(guò)程中,最后采取了一種“顛覆性”的做法來(lái)打破常規(guī)的作者排名,。他們給每個(gè)名字后面都標(biāo)注了一個(gè)星號(hào),,并在腳注明確指出:“各人的貢獻(xiàn)均等”,“作者排序按隨機(jī)排列”,。此舉無(wú)疑給學(xué)界慣例帶來(lái)挑戰(zhàn),。在截止日期前夕,他們將論文提交給一個(gè)聲譽(yù)卓著的人工智能會(huì)議——并進(jìn)而在該領(lǐng)域掀起了一場(chǎng)革命,。
在論文發(fā)表臨近七周年之際,,《注意力就是你的全部所需》已成為傳奇。作者們的出發(fā)點(diǎn)是一項(xiàng)日趨成熟且不斷進(jìn)步的技術(shù)——一種被稱(chēng)為神經(jīng)網(wǎng)絡(luò)的人工智能,。他們把它發(fā)展成了一種全新的系統(tǒng):這個(gè)系統(tǒng)是如此的強(qiáng)大,,以至于它的輸出仿佛來(lái)源自非人類(lèi)的智能。這種被稱(chēng)為 Transformer 的體系結(jié)構(gòu)正是 ChatGPT,、Dall-E 以及 Midjourney 等引人注目的 AI 產(chǎn)品背后的核心技術(shù),。Shazeer 如今調(diào)侃道,,如果他當(dāng)初知道這篇論文會(huì)那么出名的話,他 “可能會(huì)對(duì)作者排序更加介意”,。但現(xiàn)在,,所有的八名簽署作者都已經(jīng)小有名氣。利昂·瓊斯(Llion Jones)的名字(當(dāng)然是隨機(jī)的)恰好排在第五位,,他說(shuō):“就因?yàn)槲业拿殖霈F(xiàn)在了一篇論文上,,有人就找我合影了!”,。
杰弗里·辛頓 (Geoffrey Hinton)雖不是論文的作者之一,,但也許確實(shí)全球最卓越的人工智能科學(xué)家。他說(shuō):“要不是因?yàn)橛辛藅ransformers,,我覺(jué)得我們走不到今天這一步,。”他指的是隨著OpenAI等公司開(kāi)發(fā)出能與人類(lèi)產(chǎn)出相媲美,,甚至在某些情況下超越人類(lèi)產(chǎn)出的系統(tǒng),,我們已經(jīng)進(jìn)入到一個(gè)地動(dòng)山移的時(shí)代。
現(xiàn)如今,,所有這八位作者都已離開(kāi)谷歌,。跟成千上萬(wàn)人一樣,他們目前正以各種方式參與到由他們?cè)?2017 年所創(chuàng)造的系統(tǒng)推動(dòng)的工作當(dāng)中,。我采訪了這八位 Transformer 的發(fā)明者,,希望能揭示一項(xiàng)顛覆性成果——一次凝聚人類(lèi)智慧的努力,創(chuàng)造出一臺(tái)有可能最終主導(dǎo)話語(yǔ)權(quán)的先進(jìn)機(jī)器——的內(nèi)在結(jié)構(gòu),。
誕生故事
Transformers的故事要從這八個(gè)名字的第四個(gè)開(kāi)始:雅各布·烏斯克爾特(Jakob Uszkoreit),。
雅各布·烏斯克爾特是著名的計(jì)算語(yǔ)言學(xué)家漢斯·烏斯克爾特(Hans Uszkoreit)的兒子。 20 世紀(jì) 60 年代末,,還是高中生的漢斯因抗議蘇聯(lián)入侵捷克斯洛伐克而在自己的祖國(guó)東德被監(jiān)禁了 15 個(gè)月,。獲釋后,他逃往西德,,并開(kāi)始在柏林學(xué)習(xí)計(jì)算機(jī)和語(yǔ)言學(xué),。雅各布出生那年,他去了美國(guó),,到加州門(mén)洛帕克的一家研究機(jī)構(gòu) SRI 的人工智能實(shí)驗(yàn)室工作,。后來(lái)他們家又重新回到德國(guó),雅各布也在那里上了大學(xué),。他起初并沒(méi)計(jì)劃要專(zhuān)研語(yǔ)言學(xué),,但當(dāng)他開(kāi)始研究生學(xué)業(yè)時(shí),他拿到了到谷歌山景城總部的實(shí)習(xí)機(jī)會(huì),,并加入了公司的翻譯小組,,看來(lái)他最終還是投入到家族事業(yè)之中了,。他后來(lái)放棄了讀博的計(jì)劃,2012年,,他決定加入谷歌的一支團(tuán)隊(duì),。當(dāng)時(shí)該團(tuán)隊(duì)正在打造一個(gè)不需要將用戶(hù)重定向到其他網(wǎng)站,可以直接在搜索界面回答用戶(hù)問(wèn)題的系統(tǒng),。那時(shí)候蘋(píng)果剛剛推出了 Siri,,一個(gè)在日常交談當(dāng)中提供即時(shí)答案的虛擬助手,這讓谷歌的管理層感受到巨大的競(jìng)爭(zhēng)壓力:因?yàn)镾iri 有可能會(huì)沖擊到他們的搜索流量,。因此,,他們開(kāi)始更加關(guān)注雅各布·烏斯克爾特領(lǐng)頭的這個(gè)新團(tuán)隊(duì)。
烏斯克爾特表示:“那其實(shí)是場(chǎng)不必要的恐慌,,”事實(shí)上 Siri 從未對(duì)谷歌構(gòu)成過(guò)實(shí)質(zhì)性的威脅,。但他對(duì)此還是很高興,因?yàn)檫@是可以深入鉆研人機(jī)對(duì)話系統(tǒng)的機(jī)會(huì),。在當(dāng)時(shí),,在學(xué)術(shù)上曾被認(rèn)為一潭死水的循環(huán)神經(jīng)網(wǎng)絡(luò)(recurrent neural networks),其表現(xiàn)突然超越了其他的人工智能工程方法,,這種神經(jīng)網(wǎng)絡(luò)由多層組成,,信息可以在在這些層之間傳遞和反復(fù)傳遞,從而能識(shí)別出最佳的回應(yīng),。神經(jīng)網(wǎng)絡(luò)在圖像識(shí)別等多個(gè)領(lǐng)域取得了巨大進(jìn)展,,人工智能因此迎來(lái)了全面復(fù)興。谷歌開(kāi)始瘋狂發(fā)動(dòng)自己的員工隊(duì)伍,,要求他們采用這些新技術(shù),。他們希望能開(kāi)發(fā)出能生成類(lèi)似人類(lèi)響應(yīng)的系統(tǒng),比如可在郵件自動(dòng)補(bǔ)全句子或做出相對(duì)簡(jiǎn)單的客服聊天機(jī)器人,。
但這一領(lǐng)域后來(lái)遇到了難題,。循環(huán)神經(jīng)網(wǎng)絡(luò)在處理長(zhǎng)文本時(shí)表現(xiàn)不佳。比方說(shuō),,要想理解 “Joe 是一名棒球運(yùn)動(dòng)員,在享用了一頓豐盛的早餐之后,,他在棒球場(chǎng)上打出兩記安打,。”這句話里面的“兩記安打”,,語(yǔ)言模型就必須記住前面提到的棒球,。換言之,模型必須維持注意力,。對(duì)此業(yè)界公認(rèn)的解決方案叫做“長(zhǎng)短時(shí)記憶”(LSTM),,這種革新技術(shù)讓語(yǔ)言模型能夠處理更長(zhǎng),、更復(fù)雜的文本序列。但計(jì)算機(jī)還是嚴(yán)格按順序來(lái)處理這些序列——一個(gè)一個(gè)單詞地去處理,,乏味至極——這種做法會(huì)錯(cuò)過(guò)后續(xù)可能出現(xiàn)的上下文線索,。烏斯克爾特表示:“我們采取的做法基本上只是臨時(shí)應(yīng)急措施,并沒(méi)有找到可以真正規(guī)?;奶幚硎侄?。”
大概在 2014 年左右,,他開(kāi)始醞釀一種新的做法,,他稱(chēng)之為自注意力機(jī)制(self-attention)。這種網(wǎng)絡(luò)可以引用段落文字的任何其他部分,,借此來(lái)翻譯一個(gè)詞,。這其他部分的內(nèi)容可以明確某個(gè)詞想要表達(dá)的意思,從而幫助系統(tǒng)生成準(zhǔn)確的翻譯,。他說(shuō):“其實(shí)這種機(jī)制已經(jīng)考慮到所有因素,,提供了一種能同時(shí)高效地審視眾多輸入信息,并以相當(dāng)有選擇性的方式提取信息的方法”,。雖然人工智能科學(xué)家們都很小心,,避免將神經(jīng)網(wǎng)絡(luò)的隱喻與生物大腦的實(shí)際工作方式混為一談,但烏斯克爾特依舊認(rèn)為自注意力機(jī)制在一定程度上與人類(lèi)處理語(yǔ)言的方式有相似之處,。
烏斯克爾特相信,,自注意力模型有望比循環(huán)神經(jīng)網(wǎng)絡(luò)快得多、也更有效,。其處理信息的方式與強(qiáng)大的并行處理芯片完全匹配,,后者已經(jīng)被大規(guī)模生產(chǎn)出來(lái),用來(lái)支撐機(jī)器學(xué)習(xí)熱潮,。與線性處理方法(按順序查看每個(gè)詞)不同,,它采用了一種并行的處理方法(同時(shí)查看一批詞)。烏斯克爾特在想,,如果處理得當(dāng)?shù)脑?,或許只用自注意力模型就能收獲更出色的結(jié)果。
并不是所有人都認(rèn)同這個(gè)想法能震撼世界,,其中也包括烏斯克爾特的父親在內(nèi),。雅各布在谷歌供職期間,漢斯·烏斯克爾特獲得了兩項(xiàng)谷歌學(xué)術(shù)研究獎(jiǎng),。雅各布·烏斯克爾特表示:“大家都對(duì)此感到吃驚,,因?yàn)樗鼟仐壛怂鞋F(xiàn)有的神經(jīng)網(wǎng)絡(luò)架構(gòu)。”跟循環(huán)神經(jīng)網(wǎng)絡(luò)說(shuō)再見(jiàn),?簡(jiǎn)直是異端,!“從我跟父親吃飯時(shí)的對(duì)話情況來(lái)看,我們的觀點(diǎn)并不完全一致,?!?/p>
烏斯克爾特說(shuō)服了幾位同事對(duì)自注意力模型進(jìn)行實(shí)驗(yàn)。他們的工作成果展現(xiàn)了希望,,2016 年還發(fā)表了一篇論文,。烏斯克爾特想推動(dòng)他們進(jìn)一步研究——因?yàn)樵搱F(tuán)隊(duì)只用了非常少量的文本段落進(jìn)行試驗(yàn)——但沒(méi)有一位合作者對(duì)此感興趣。他們就像是只想小賭一把就的賭客,,拿得到一點(diǎn)獎(jiǎng)金就離場(chǎng)了,。烏斯克爾特說(shuō)“這東西確實(shí)管用。那篇文章的合作者對(duì)于將自己的研究成果運(yùn)用到谷歌的不同地方,,包括搜索引擎,,最終還有廣告系統(tǒng)等感到十分興奮。從很多方面來(lái)看這都是一個(gè)了不起的成就,,但我并不想就此打住,。”
烏斯克爾特相信自注意力能勝任更大的任務(wù),。在谷歌園區(qū)北邊查爾斯頓路 1945 號(hào)樓(用地址命名)里,,他會(huì)向任何愿意(以及不愿意)傾聽(tīng)的人講解他的設(shè)想,并在白板上勾勒出他的愿景,。
2016年的某一天,,在谷歌的一個(gè)咖啡店里,烏斯克爾特正在與一名來(lái)自烏克蘭的科學(xué)家共進(jìn)午餐,,此人名叫伊利亞·波洛蘇欣(Illia Polosukhin),,已經(jīng)在谷歌工作了近三年。波洛蘇欣被分配到的團(tuán)隊(duì)負(fù)責(zé)解答在搜索框里直接提出來(lái)的問(wèn)題,。但他們的成果并不如預(yù)期,。波洛蘇欣說(shuō):“要想在 Google.com 上提供答案,你得有一個(gè)成本低效果好的方案,。因?yàn)楸仨氃趲缀撩雰?nèi)做出響應(yīng),。”當(dāng)波洛蘇欣對(duì)此表達(dá)不滿(mǎn)時(shí),,烏斯克爾特毫不猶豫地給出了自己的解決方案,。波洛蘇欣回憶道:“他提議說(shuō),為什么不試試自注意力機(jī)制呢,?”
波洛蘇欣有時(shí)候會(huì)跟另一位同事合作。阿什什·瓦斯瓦尼(Ashish Vaswani)在印度出生,,在中東長(zhǎng)大,,曾就讀南加州大學(xué)(USC),,并在該校頂級(jí)的機(jī)器翻譯小組獲得了博士學(xué)位。然后,,他來(lái)到山景城,,加入了谷歌——具體來(lái)說(shuō)是去到谷歌新成立的Google Brain部門(mén)。在他眼里,,Google Brain是一個(gè)十分激進(jìn)的組織,,堅(jiān)信“神經(jīng)網(wǎng)絡(luò)將推動(dòng)人類(lèi)認(rèn)知的加深”。但他一直想找個(gè)值得投入進(jìn)去的大項(xiàng)目,。他的團(tuán)隊(duì)在 1965 號(hào)樓工作,,這棟建筑正好位于波洛蘇欣的語(yǔ)言團(tuán)隊(duì)所在的1945號(hào)樓旁邊,然后他聽(tīng)說(shuō)了自注意力機(jī)制的構(gòu)想,。這會(huì)是他想要的那種項(xiàng)目嗎,?他同意參與進(jìn)來(lái)。
三位研究人員共同起草了一份設(shè)計(jì)文檔,,名字叫做“Transformers:迭代自我注意力機(jī)制記各種任務(wù)的處理”,。烏斯克爾特說(shuō),他們從“零日”(day zero)中選中了“transformers”這個(gè)名字,。其想法是,,這種機(jī)制可以變換所接收的信息,讓系統(tǒng)能夠析取出盡可能多的理解,,或者至少給人以那種錯(cuò)覺(jué),。再加上烏斯克爾特對(duì)小時(shí)候玩孩之寶動(dòng)作人偶的美好時(shí)光仍歷歷在目: “我很小的時(shí)候曾經(jīng)有過(guò)兩個(gè)變形金剛小玩具”。這份文檔文件甚至還用六個(gè)變形金剛在群山之間互射激光的卡通圖片作為結(jié)束,。
論文開(kāi)頭的那句話也有點(diǎn)招搖:“我們太棒了,。”
2017年初,,波洛蘇欣離開(kāi)谷歌自主創(chuàng)業(yè),。此時(shí),新的合作者也開(kāi)始陸續(xù)加入該項(xiàng)目,。印度工程師尼基·帕爾瑪(Niki Parmar)曾在印度為一家美國(guó)軟件公司工作,,之后又移居到美國(guó)。2015年她在南加州大學(xué)(USC)獲得碩士學(xué)位后,,各大科技巨頭均向她伸出了橄欖枝,。她最后選擇了谷歌。開(kāi)始工作后,,她開(kāi)始與烏斯克爾特合作,,通過(guò)研發(fā)模型變體來(lái)增強(qiáng)谷歌搜索功能。
另一位新成員是 利昂·瓊斯(Llion Jones)。他在威爾士出生長(zhǎng)大,,熱愛(ài)計(jì)算機(jī),,“因?yàn)檫@東西不一般?!痹诓骱泊髮W(xué),,他修了一門(mén)人工智能課程,對(duì)用歷史趣事呈現(xiàn)的神經(jīng)網(wǎng)絡(luò)產(chǎn)生了興趣,。2009年7月,,他拿到了碩士學(xué)位,但由于經(jīng)濟(jì)不景氣難以找到工作,,曾靠失業(yè)救濟(jì)維持了幾個(gè)月,。之后他到一家本地公司找到了一份工作,然后用“孤注一擲”的心態(tài)去投了谷歌,。他最終得到了這份工作,進(jìn)入到Google Research,,而他的經(jīng)理正是波洛蘇欣,。某一天,瓊斯從同事Mat Kelcey那里聽(tīng)說(shuō)了自注意力的概念,,之后決定加入transformer團(tuán)隊(duì),。(后來(lái),,瓊斯碰到Kelcey時(shí)提到了transformer項(xiàng)目,,但 Kelcey 對(duì)此并不看好。現(xiàn)如今的Kelcey是這么說(shuō)的:“我跟他說(shuō),‘我不確定這能不能行得通’,,這基本上算是我這輩子錯(cuò)得最離譜的預(yù)測(cè)了”,。)
Transformer項(xiàng)目吸引了同樣致力于改進(jìn)大語(yǔ)言模型的其它Google Brain團(tuán)隊(duì)研究人員,。這第三波人包括波蘭出生的理論計(jì)算機(jī)科學(xué)家烏卡什·凱撒(?ukasz Kaiser) 以及他的實(shí)習(xí)生 艾丹·戈麥斯(Aidan Gomez),。戈麥斯在加拿大安大略的一個(gè)小農(nóng)莊長(zhǎng)大,,每年春天,他家都會(huì)采集楓木汁制作成糖漿。在多倫多大學(xué)上大三的時(shí)候,他就“深陷”在人工智能的魅力而無(wú)法自拔,并且加入了到一個(gè)機(jī)器學(xué)習(xí)小組——杰弗里·辛頓(Geoffrey Hinton)的實(shí)驗(yàn)室,。他開(kāi)始聯(lián)系谷歌那些寫(xiě)過(guò)有趣論文的人,,提出對(duì)他們的研究進(jìn)行擴(kuò)展的想法,。凱撒上鉤了,,并向他發(fā)出來(lái)實(shí)習(xí)的邀約,。直到數(shù)月之后,,戈麥斯才發(fā)現(xiàn)這些實(shí)習(xí)機(jī)會(huì)本是給博士生準(zhǔn)備的,而不是像他這樣的本科生,。
凱撒和戈麥斯很快就意識(shí)到,對(duì)于他們正在處理的問(wèn)題來(lái)說(shuō),,自注意力機(jī)制似乎是一個(gè)有前途且更為徹底的解決方案,。戈麥斯說(shuō):“我們進(jìn)行了認(rèn)真商討,,確定要要不要合并這兩個(gè)項(xiàng)目”。答案是肯定的,。
Transformer團(tuán)隊(duì)開(kāi)始著手構(gòu)建一個(gè)自注意力模型,,用于將文本從一種語(yǔ)言翻譯成另一種。他們利用了BLEU 基準(zhǔn)測(cè)試來(lái)衡量該模型的表現(xiàn),。BLEU會(huì)通過(guò)對(duì)比機(jī)器輸出與人類(lèi)翻譯者的工作來(lái)測(cè)試模型,。他們的新模型從一開(kāi)始就表現(xiàn)良好。烏斯克爾特表示:“我們從沒(méi)有概念證明走到至少有一個(gè)能與當(dāng)時(shí)最好的 LSTM 方案匹敵的東西”,。不過(guò),,跟長(zhǎng)短期記憶(LSTM)相比,“它并沒(méi)有更好表現(xiàn),?!?/p>
直至 2017 年的某一天,,諾姆·薩澤爾(Noam Shazeer)偶然聽(tīng)說(shuō)了他們的研究項(xiàng)目之后,他們的瓶頸才被打破,。薩澤爾是一名經(jīng)驗(yàn)豐富的工程師,,早在 2000 年就加入了谷歌,同時(shí)也是谷歌的一位傳奇人物,,早年因在廣告系統(tǒng)的工作而獲得了廣泛認(rèn)同,。薩澤爾研究深度學(xué)習(xí)已有五年時(shí)間,最近對(duì)大語(yǔ)言模型產(chǎn)生了濃厚興趣,。但現(xiàn)有的模型離流暢對(duì)話還差得很遠(yuǎn),,他認(rèn)為那種對(duì)話是可以實(shí)現(xiàn)的。
根據(jù)薩澤爾的回憶,,當(dāng)時(shí)他正在 1965 號(hào)樓的走廊行走,,經(jīng)過(guò)凱撒的工作區(qū)時(shí),他聽(tīng)到里面正討論得熱火朝天,。他記得阿什談到了用自注意力機(jī)制的想法,,而妮基則對(duì)此非常興奮?!拔以谙?,哇,這似乎是個(gè)很棒的想法,。看起來(lái)似乎是一群有趣的聰明人在做一件很有前途的事。”薩澤爾認(rèn)為現(xiàn)有的循環(huán)神經(jīng)網(wǎng)絡(luò)“讓人很不爽”,,于是他想:“為何不換掉它們呢,!”
薩澤爾的加盟至關(guān)重要,。烏斯克爾特表示:“這些理論性或直觀性的機(jī)制,,比如自注意力機(jī)制,,一直都要靠非常細(xì)致的實(shí)現(xiàn),,甚至有時(shí)候只有少數(shù)經(jīng)驗(yàn)豐富的‘魔法師’才能讓它呈現(xiàn)出一絲生機(jī)”,。薩澤爾馬上開(kāi)始施展他的魔法。Transformer團(tuán)隊(duì)的代碼他決定自己寫(xiě)一版。他說(shuō):“我接受了他們的基本想法,然后自己實(shí)現(xiàn)了”,。偶爾他會(huì)找凱撒尋求解答,,但大部分時(shí)候他 “都是自己折騰一番之后就‘搞定了,?!蓖ㄟ^(guò)其他團(tuán)隊(duì)成員口中的 “魔法”,、“煉金術(shù)”和“花里胡哨”的操作之后,他將這套系統(tǒng)提升到了一個(gè)新的水平。
戈麥斯說(shuō):“這拉開(kāi)沖刺的序幕”。人人都斗志昂揚(yáng),,希望在即將到來(lái)的截止日期之前搞定——5月19日是論文提交的最后期限,,如獲通過(guò),這些論文將在人工智能界一年一度的最大盛會(huì)(也就是12月舉辦的神經(jīng)信息處理系統(tǒng)大會(huì),,Neural Information Processing Systems)上發(fā)表。硅谷所謂的人工智能寒冬已漸漸逝去,,川春天正慢慢走來(lái),,實(shí)驗(yàn)的步伐也隨之加快。他們測(cè)試了兩種transformers模型:一個(gè)是經(jīng)過(guò)12小時(shí)訓(xùn)練得來(lái)的,,另一個(gè)更加強(qiáng)大的版本被命名為 Big,,經(jīng)過(guò)了三天半的訓(xùn)練,并被開(kāi)始用來(lái)執(zhí)行英語(yǔ)譯德語(yǔ)的任務(wù),。
這個(gè)基礎(chǔ)模型超越了所有對(duì)手——而 Big 拿到的BLEU評(píng)測(cè)分?jǐn)?shù)碾壓了過(guò)去的記錄,,同時(shí)計(jì)算效率也更高。帕馬說(shuō):“我們的用時(shí)比別人短。而這還僅僅是開(kāi)始,,因?yàn)閿?shù)據(jù)還在不斷提高,。”當(dāng)烏斯克爾特聽(tīng)到這個(gè)好消息時(shí),,他從自己山地探險(xiǎn)車(chē)?yán)锬贸隽艘黄筷惸晗銠墎?lái)慶祝,。
截止日期前的最后兩周,大家都忙到發(fā)瘋,。盡管有些團(tuán)隊(duì)成員的官方工位仍擺放在 1945 號(hào)樓,,但實(shí)際上他們大都在 1965 號(hào)樓辦公,因?yàn)槟抢锏囊馐娇Х葯C(jī)更好,。戈麥斯說(shuō):“大家?guī)缀醵紱](méi)怎么睡覺(jué)”,。作為實(shí)習(xí)生,他幾乎一直在緊張地進(jìn)行著調(diào)試,,同時(shí)還要為論文制作可視化內(nèi)容和圖表,。在這樣的項(xiàng)目里,做剔除實(shí)驗(yàn)是司空見(jiàn)慣的事情——也就是拿走一部分,,看看剩下的是不是足以完成任務(wù),。
戈麥斯說(shuō):“技巧或模塊的各種可能組合我們都會(huì)嘗試,去找出哪些有用,,哪些沒(méi)用,。撤掉這個(gè),然后用那個(gè)來(lái)替換,。為什么模型的機(jī)制是如此的有違直覺(jué),?原來(lái)是因?yàn)槲覀冋谏w(masking)得不對(duì)。現(xiàn)在能用了嗎,?好的,,那就繼續(xù)下一個(gè)。現(xiàn)在我們所謂的‘Transformer’的所有要素,,都是這種高速迭代,、不斷試錯(cuò)的結(jié)果。在薩澤爾所實(shí)現(xiàn)版本的支持下,,這些剔除賦予了Transformer‘極簡(jiǎn)主義’的特色,,就像瓊斯所說(shuō)那樣,‘諾姆就像一位魔法師’,?!?/p>
瓦斯瓦尼回憶道,他在團(tuán)隊(duì)寫(xiě)論文的那個(gè)晚上,,躺在辦公室的沙發(fā)上,,凝視著隔開(kāi)沙發(fā)與房間其他部分的窗簾,,突然被窗簾布料上的圖案所吸引,那些圖案在他看來(lái)像極了突觸和神經(jīng)元,。戈麥斯也在場(chǎng), 瓦斯瓦尼告訴他,,他們正在做的事情遠(yuǎn)不止機(jī)器翻譯。他說(shuō):”最終,,我們需要像人腦一樣,,將語(yǔ)音、音頻,、視覺(jué)等各種模式統(tǒng)一在一個(gè)架構(gòu)之下,。我有一種十分強(qiáng)烈的感覺(jué),那就是我們正在接觸到某種更為普遍的東西,。”
不過(guò),,在谷歌的高層看來(lái),他們的工作只不過(guò)是又一個(gè)有趣的人工智能項(xiàng)目罷了,。我曾問(wèn)過(guò)幾位參與Transformer項(xiàng)目的人,,他們的上司是不是經(jīng)常讓他們報(bào)告項(xiàng)目進(jìn)展。實(shí)際上這種情況并不多,。但是烏斯克爾特說(shuō):“我們都知道,,這東西有可能會(huì)變成一件大事。這也促使我們非常關(guān)注論文末尾對(duì)未來(lái)工作的一段評(píng)論,?!?/p>
那句話預(yù)示了接下來(lái)可能會(huì)發(fā)生的事情——transformer模型在基本上一切形式的人類(lèi)表達(dá)上面的應(yīng)用。他們寫(xiě)道: “我們對(duì)以注意力為基礎(chǔ)的模型之未來(lái)感到興奮,。我們計(jì)劃將transformer擴(kuò)展到輸入與輸出模態(tài)不是文本的問(wèn)題”,,還要研究“圖像、音頻和視頻”,。
還有幾天就到截止日期的一個(gè)晚上,, 烏斯克爾特意識(shí)到自己的論文得取個(gè)標(biāo)題。瓊斯指出,,該團(tuán)隊(duì)已經(jīng)徹底摒棄公認(rèn)的最佳實(shí)踐,,其中最突出的是 LSTM,而轉(zhuǎn)向這一項(xiàng)技術(shù):注意力機(jī)制,。瓊斯回憶道,,披頭士樂(lè)隊(duì)有首歌叫做“你所需要的只是愛(ài)”( All You Need Is Love),。為什么不把這篇論文叫做“你所需要的只是注意力”( Attention Is All You Need)呢,?
披頭士?
瓊斯說(shuō):“我是英國(guó)人,。其實(shí)我想到這個(gè)只用了五秒鐘,。我沒(méi)想到他們會(huì)采納。”
在截止日期到達(dá)之前他們都在不斷收集實(shí)驗(yàn)結(jié)果,。帕爾瑪說(shuō): “我們大概是在提交論文的五分鐘前才弄到,,英法互譯數(shù)據(jù)的。那時(shí)候我正坐在1965號(hào)樓的一個(gè)迷你廚房里,,把最后一批數(shù)字弄進(jìn)去,。”不到兩分鐘之后,,他們就把論文發(fā)出去了,。
跟幾乎所有的科技公司一樣,谷歌很快就為這項(xiàng)工作申請(qǐng)了臨時(shí)專(zhuān)利,。原因不是為了阻止其他人借鑒這些想法,,而是出于防御目的建立其專(zhuān)利組合。 (該公司的理念是“如果科技有所進(jìn)步,,谷歌就會(huì)從中受益,。”)
Transformer團(tuán)隊(duì)收到的同行評(píng)審反響不一,。 帕爾瑪說(shuō):“有一個(gè)評(píng)價(jià)是積極的,,有一個(gè)非常積極,還有一個(gè)評(píng)價(jià)是,,‘還行吧’”,。該論文被采用了,但只是被放在了晚間海報(bào)展示環(huán)節(jié),。
到 12 月開(kāi)會(huì)時(shí),,這篇論文引起了轟動(dòng)。 12 月 6 日,,他們四小時(shí)的海報(bào)展示現(xiàn)場(chǎng)已經(jīng)擠滿(mǎn)了想要了解更多信息的科學(xué)家,。作者們聊到聲音都嘶啞了。到了晚上10點(diǎn)30分會(huì)議結(jié)束時(shí),,現(xiàn)場(chǎng)仍然人頭攢動(dòng),。 烏斯克爾特說(shuō):“最后保安只能讓我們離開(kāi)”。不過(guò)對(duì)他來(lái)說(shuō)也許最滿(mǎn)意的時(shí)刻是計(jì)算機(jī)科學(xué)家塞普·霍赫賴(lài)特 (Sepp Hochreiter) 的現(xiàn)身,,后者還贊揚(yáng)了這項(xiàng)工作——鑒于霍赫賴(lài)特是長(zhǎng)短時(shí)記憶(LSTM)的共同發(fā)明者,,而transformer剛剛?cè)〈薒STM在人工智能工具包的主流地位,這算是相當(dāng)高的贊譽(yù)了,。
墻外開(kāi)花
Transformer 剛開(kāi)始并沒(méi)有馬上征服世界,,甚至連谷歌都沒(méi)有征服掉。凱撒回憶道,,在論文發(fā)表的時(shí)候,,薩澤爾曾建議公司高層徹底拋棄搜索索引,,而是用 Transformer 訓(xùn)練一個(gè)龐大網(wǎng)絡(luò)——也就是基本上徹底改變谷歌組織信息的方式。那時(shí)候,,即便是凱撒也覺(jué)得這個(gè)想法很荒謬,。而現(xiàn)在的共識(shí)是,這只是時(shí)間問(wèn)題,。
但有家初創(chuàng)公司的反應(yīng)就要迅速許多,。論文發(fā)布后不久,OpenAI 的首席研究員伊爾亞·蘇茨克維(Ilya Sutskever,,此前在谷歌任職時(shí)他就知道 Transformer 團(tuán)隊(duì)了)建議由自己的科學(xué)家亞歷克·雷福德(Alec Radford) 研究這個(gè)想法,。其結(jié)果便是最早期的 GPT 產(chǎn)品。就像 OpenAI 的 CEO 山姆·阿爾特曼(Sam Altman)去年所說(shuō)那樣:“Transformer 的論文發(fā)表時(shí),,我覺(jué)得谷歌沒(méi)人意識(shí)到它會(huì)產(chǎn)生什么樣的深遠(yuǎn)影響,。”
但從內(nèi)部看情況更為復(fù)雜,。烏斯克爾特說(shuō):“我們很清楚 Transformer 能做出很神奇的事情,。放在今天你可能會(huì)問(wèn),為什么谷歌 2018年不能退出像 ChatGPT 這樣的產(chǎn)品,?說(shuō)實(shí)話,, 2019 ,或許 2020 年我們就能有 GPT-3 或甚至 GPT-3.5這樣的產(chǎn)品,。問(wèn)題不在于他們有沒(méi)有意識(shí)到,,而在于為什么我們看到之后沒(méi)有采取行動(dòng)。這個(gè)答案很復(fù)雜,?!?/p>
許多技術(shù)評(píng)論人士指出,谷歌已經(jīng)從原先的創(chuàng)新中心慢慢變成更注重利潤(rùn)和效率的官僚機(jī)構(gòu),。戈麥斯在接受《金融時(shí)報(bào)》采訪時(shí)指出,,“他們沒(méi)有跟上現(xiàn)代化的腳步,沒(méi)有采納這項(xiàng)新技術(shù),?!辈贿^(guò),對(duì)一個(gè)領(lǐng)導(dǎo)行業(yè)并攫取巨額利潤(rùn)數(shù)十年的企業(yè)巨頭來(lái)說(shuō),,冒險(xiǎn)采用全新技術(shù)確實(shí)是一大挑戰(zhàn),。谷歌的確在2018年開(kāi)始往產(chǎn)品整合了 Transformer,首當(dāng)其沖的是翻譯工具,。同樣在那一年,,它還推出了一個(gè)基于 Transformer 的新型語(yǔ)言模型BERT,并在第二年開(kāi)始將其應(yīng)用于搜索服務(wù),。
但是,,跟 OpenAI 的巨大飛躍與微軟將基于 Transformer 的系統(tǒng)大膽集成到其產(chǎn)品線相比,谷歌這些內(nèi)部技術(shù)調(diào)整就顯得比較保守了,。去年當(dāng)我詢(xún)問(wèn)首席執(zhí)行官桑達(dá)爾·皮查伊(Sundar Pichai)為什么率先推出像 ChatGPT 這樣的大語(yǔ)言模型的不是谷歌時(shí),,他認(rèn)為在這種情況下,讓別人先走一步對(duì)谷歌是有好處的,。他回答說(shuō):“對(duì)于這樣做會(huì)不會(huì)一樣成功還不是完全明朗,。事實(shí)上,在人們看到它的工作原理之后,,我們有能力做得更多,。”
一個(gè)不可否認(rèn)的事實(shí)是,,這篇論文八位作者全都已離開(kāi)谷歌,。波洛蘇欣的公司 Near打造出一種市值約達(dá) 40 億美元的區(qū)塊鏈代幣,。帕爾馬與瓦斯瓦尼在 2021 年開(kāi)始搭檔創(chuàng)業(yè),,成立了 Adept (估值約 10 億美元),現(xiàn)在兩人又合伙創(chuàng)辦了第二家公司 Essential AI(已獲得 800 萬(wàn)美元融資),。利昂·瓊斯在東京設(shè)立的 Sakana AI 的目前估值約為 2 億美元,。薩澤爾 于 2021 年 10 月離職,與人聯(lián)合創(chuàng)辦了 Character AI (估值為 50 億美元),。艾丹·戈麥斯 是團(tuán)隊(duì)里面的實(shí)習(xí)生,,2019 年,他回到多倫多與人共同創(chuàng)立了 Cohere(估值約 22 億美元),。雅各布·烏斯克爾特的生物科技公司 Inceptive估值為 3 億美元,。除了 Near 以外,這些公司的安身立命之基都是 Transformer 技術(shù),。
凱撒是唯一沒(méi)有出來(lái)創(chuàng)業(yè)的人,。他加入了 OpenAI,是一個(gè)叫做 Q* 的新技術(shù)的發(fā)明者之一,,阿爾特曼去年曾表示,,這項(xiàng)技術(shù)將“揭開(kāi)無(wú)知的面紗,,推動(dòng)發(fā)現(xiàn)的前沿”。 (當(dāng)我在采訪中試圖就此問(wèn)題詢(xún)問(wèn)凱撒時(shí),,OpenAI 的公關(guān)幾乎是蹦起來(lái)讓他馬上閉嘴,。)
谷歌會(huì)想念這些逃亡者嗎?當(dāng)然會(huì),,也包括其他從谷歌出走創(chuàng)辦人工智能初創(chuàng)公司的那些人,。(當(dāng)我問(wèn)皮查伊有關(guān) Transformer 技術(shù)人員離職的問(wèn)題時(shí),他提醒我,,被業(yè)界人士熱捧的 OpenAI也不是鐵板一塊,,也有人出走。他表示:“人工智能這個(gè)領(lǐng)域瞬息萬(wàn)變”,。)但谷歌可以很自豪地宣告,,他們已經(jīng)打造出一個(gè)支持非常規(guī)思想探索的環(huán)境。帕爾馬表示:“從很多方面來(lái)看,,谷歌一直都走在前列——他們投資到合適的腦袋,,并創(chuàng)造出讓我們可以隨心所欲地探索和挑戰(zhàn)極限的環(huán)境。他們需要時(shí)間去接納新事物并不奇怪,,畢竟谷歌所承擔(dān)的風(fēng)險(xiǎn)要大得多,。”,。
如果沒(méi)有那種環(huán)境的話,,Transformer就不會(huì)出現(xiàn)。這些論文作者不僅都是谷歌的員工,,而且還在同一間辦公室工作,。走廊的偶遇與午餐時(shí)的閑聊有時(shí)候也會(huì)擦出思想的火花。這個(gè)團(tuán)隊(duì)在文化上十分的多元化,。其中有六位作者出生在美國(guó)以外的地方,,而另外兩位,一個(gè)是兩個(gè)獲得綠卡,,曾在加州短暫停留的德國(guó)人的孩子,,還有一個(gè)是為了逃避迫害才來(lái)到美國(guó)的第一代美國(guó)人的后代。
烏斯克爾特在柏林的辦公室里說(shuō)道,,創(chuàng)新就是打造合適的土壤,。他說(shuō):“有對(duì)某件事情充滿(mǎn)激情,正好又處在人生合適時(shí)候的人,。有了這些之后,,如果在做的過(guò)程中能感受到樂(lè)趣,同時(shí)研究的又是合適的問(wèn)題的話——再加上一點(diǎn)運(yùn)氣——那么奇跡就會(huì)出現(xiàn)?!?/p>
在烏斯克爾特跟他那位出名的老爸之間,,也發(fā)生了一件不可思議的事。在無(wú)數(shù)次的餐桌辯論之后,,兒子報(bào)告說(shuō),,漢斯·烏斯克爾特現(xiàn)在也開(kāi)始跟人共同創(chuàng)立了一家致力于開(kāi)發(fā)大語(yǔ)言模型的公司了。當(dāng)然了,,用的也是 Transformer 技術(shù)。
譯者:boxi,。
免責(zé)聲明:本文來(lái)自網(wǎng)絡(luò)收錄或投稿,,觀點(diǎn)僅代表作者本人,不代表芒果財(cái)經(jīng)贊同其觀點(diǎn)或證實(shí)其描述,,版權(quán)歸原作者所有,。轉(zhuǎn)載請(qǐng)注明出處:http://lequren.com/1094939.html
溫馨提示:投資有風(fēng)險(xiǎn),入市須謹(jǐn)慎,。本資訊不作為投資理財(cái)建議,。