編者按:前人種樹,,后人摘果,。在科技圈,科技巨頭做出創(chuàng)新技術(shù)但成果卻被初創(chuàng)企業(yè)竊取的情況屢見不鮮,。最近的例子之一便是谷歌與OpenAI,。最近對科技圈產(chǎn)生最深遠(yuǎn)影響的論文《Attention Is All You Need》就是谷歌的人發(fā)表的,但最終引爆市場的卻是OpenAI,。那篇論文的所有8位作者后來均離開了谷歌,,本文介紹了這篇論文的誕生故事,并介紹了他們的最新動向,。也許里面最值得深思的,是如何打造創(chuàng)新的土壤。我們?nèi)绾尾拍艽蛟斐瞿菢拥耐寥滥兀课恼聛碜跃幾g。
已成傳奇
2017 年春發(fā)表的科學(xué)論文《你所需要的只是注意力》(Attention Is All You Need)共有八位作者,,他們都來自谷歌,,不過當(dāng)時其中一人已經(jīng)離開了公司。當(dāng)其中最資深的作者諾阿·薩澤爾(NOAM SHAZEER)看到初稿時,,他意外地發(fā)現(xiàn)自己的名字位列所有作者之首,,這似乎表明他所做的貢獻(xiàn)最為顯著。他說:“我可不是這么想的”,。
作者名單如何排序從來都是件需要精心權(quán)衡的事情:誰應(yīng)該獨享第一作者的美譽,?誰又該不幸的被排在倒數(shù)第一?當(dāng)每位參與者在真正意義上的團(tuán)隊合作都做出了顯著貢獻(xiàn)時就更難權(quán)衡了,。研究者們在完成論文的緊張過程中,,最后采取了一種“顛覆性”的做法來打破常規(guī)的作者排名,。他們給每個名字后面都標(biāo)注了一個星號,,并在腳注明確指出:“各人的貢獻(xiàn)均等”,“作者排序按隨機(jī)排列”,。此舉無疑給學(xué)界慣例帶來挑戰(zhàn),。在截止日期前夕,他們將論文提交給一個聲譽卓著的人工智能會議——并進(jìn)而在該領(lǐng)域掀起了一場革命,。
在論文發(fā)表臨近七周年之際,,《注意力就是你的全部所需》已成為傳奇。作者們的出發(fā)點是一項日趨成熟且不斷進(jìn)步的技術(shù)——一種被稱為神經(jīng)網(wǎng)絡(luò)的人工智能,。他們把它發(fā)展成了一種全新的系統(tǒng):這個系統(tǒng)是如此的強(qiáng)大,以至于它的輸出仿佛來源自非人類的智能,。這種被稱為 Transformer 的體系結(jié)構(gòu)正是 ChatGPT,、Dall-E 以及 Midjourney 等引人注目的 AI 產(chǎn)品背后的核心技術(shù)。Shazeer 如今調(diào)侃道,,如果他當(dāng)初知道這篇論文會那么出名的話,,他 “可能會對作者排序更加介意”。但現(xiàn)在,,所有的八名簽署作者都已經(jīng)小有名氣,。利昂·瓊斯(Llion Jones)的名字(當(dāng)然是隨機(jī)的)恰好排在第五位,他說:“就因為我的名字出現(xiàn)在了一篇論文上,,有人就找我合影了,!”。
杰弗里·辛頓 (Geoffrey Hinton)雖不是論文的作者之一,,但也許確實全球最卓越的人工智能科學(xué)家,。他說:“要不是因為有了transformers,我覺得我們走不到今天這一步,?!彼傅氖请S著OpenAI等公司開發(fā)出能與人類產(chǎn)出相媲美,甚至在某些情況下超越人類產(chǎn)出的系統(tǒng),,我們已經(jīng)進(jìn)入到一個地動山移的時代,。
現(xiàn)如今,所有這八位作者都已離開谷歌,。跟成千上萬人一樣,,他們目前正以各種方式參與到由他們在 2017 年所創(chuàng)造的系統(tǒng)推動的工作當(dāng)中。我采訪了這八位 Transformer 的發(fā)明者,,希望能揭示一項顛覆性成果——一次凝聚人類智慧的努力,,創(chuàng)造出一臺有可能最終主導(dǎo)話語權(quán)的先進(jìn)機(jī)器——的內(nèi)在結(jié)構(gòu)。
誕生故事
Transformers的故事要從這八個名字的第四個開始:雅各布·烏斯克爾特(Jakob Uszkoreit),。
雅各布·烏斯克爾特是著名的計算語言學(xué)家漢斯·烏斯克爾特(Hans Uszkoreit)的兒子,。 20 世紀(jì) 60 年代末,還是高中生的漢斯因抗議蘇聯(lián)入侵捷克斯洛伐克而在自己的祖國東德被監(jiān)禁了 15 個月,。獲釋后,,他逃往西德,并開始在柏林學(xué)習(xí)計算機(jī)和語言學(xué),。雅各布出生那年,,他去了美國,到加州門洛帕克的一家研究機(jī)構(gòu) SRI 的人工智能實驗室工作,。后來他們家又重新回到德國,,雅各布也在那里上了大學(xué),。他起初并沒計劃要專研語言學(xué),但當(dāng)他開始研究生學(xué)業(yè)時,,他拿到了到谷歌山景城總部的實習(xí)機(jī)會,,并加入了公司的翻譯小組,看來他最終還是投入到家族事業(yè)之中了,。他后來放棄了讀博的計劃,,2012年,他決定加入谷歌的一支團(tuán)隊,。當(dāng)時該團(tuán)隊正在打造一個不需要將用戶重定向到其他網(wǎng)站,,可以直接在搜索界面回答用戶問題的系統(tǒng)。那時候蘋果剛剛推出了 Siri,,一個在日常交談當(dāng)中提供即時答案的虛擬助手,,這讓谷歌的管理層感受到巨大的競爭壓力:因為Siri 有可能會沖擊到他們的搜索流量。因此,,他們開始更加關(guān)注雅各布·烏斯克爾特領(lǐng)頭的這個新團(tuán)隊,。
烏斯克爾特表示:“那其實是場不必要的恐慌,”事實上 Siri 從未對谷歌構(gòu)成過實質(zhì)性的威脅,。但他對此還是很高興,,因為這是可以深入鉆研人機(jī)對話系統(tǒng)的機(jī)會。在當(dāng)時,,在學(xué)術(shù)上曾被認(rèn)為一潭死水的循環(huán)神經(jīng)網(wǎng)絡(luò)(recurrent neural networks),,其表現(xiàn)突然超越了其他的人工智能工程方法,這種神經(jīng)網(wǎng)絡(luò)由多層組成,,信息可以在在這些層之間傳遞和反復(fù)傳遞,從而能識別出最佳的回應(yīng),。神經(jīng)網(wǎng)絡(luò)在圖像識別等多個領(lǐng)域取得了巨大進(jìn)展,,人工智能因此迎來了全面復(fù)興。谷歌開始瘋狂發(fā)動自己的員工隊伍,,要求他們采用這些新技術(shù),。他們希望能開發(fā)出能生成類似人類響應(yīng)的系統(tǒng),比如可在郵件自動補(bǔ)全句子或做出相對簡單的客服聊天機(jī)器人,。
但這一領(lǐng)域后來遇到了難題,。循環(huán)神經(jīng)網(wǎng)絡(luò)在處理長文本時表現(xiàn)不佳。比方說,,要想理解 “Joe 是一名棒球運動員,,在享用了一頓豐盛的早餐之后,他在棒球場上打出兩記安打,?!边@句話里面的“兩記安打”,,語言模型就必須記住前面提到的棒球。換言之,,模型必須維持注意力,。對此業(yè)界公認(rèn)的解決方案叫做“長短時記憶”(LSTM),這種革新技術(shù)讓語言模型能夠處理更長,、更復(fù)雜的文本序列,。但計算機(jī)還是嚴(yán)格按順序來處理這些序列——一個一個單詞地去處理,乏味至極——這種做法會錯過后續(xù)可能出現(xiàn)的上下文線索,。烏斯克爾特表示:“我們采取的做法基本上只是臨時應(yīng)急措施,,并沒有找到可以真正規(guī)模化的處理手段,?!?/p>
大概在 2014 年左右,他開始醞釀一種新的做法,,他稱之為自注意力機(jī)制(self-attention),。這種網(wǎng)絡(luò)可以引用段落文字的任何其他部分,借此來翻譯一個詞,。這其他部分的內(nèi)容可以明確某個詞想要表達(dá)的意思,,從而幫助系統(tǒng)生成準(zhǔn)確的翻譯。他說:“其實這種機(jī)制已經(jīng)考慮到所有因素,,提供了一種能同時高效地審視眾多輸入信息,,并以相當(dāng)有選擇性的方式提取信息的方法”。雖然人工智能科學(xué)家們都很小心,,避免將神經(jīng)網(wǎng)絡(luò)的隱喻與生物大腦的實際工作方式混為一談,,但烏斯克爾特依舊認(rèn)為自注意力機(jī)制在一定程度上與人類處理語言的方式有相似之處。
烏斯克爾特相信,,自注意力模型有望比循環(huán)神經(jīng)網(wǎng)絡(luò)快得多,、也更有效。其處理信息的方式與強(qiáng)大的并行處理芯片完全匹配,,后者已經(jīng)被大規(guī)模生產(chǎn)出來,,用來支撐機(jī)器學(xué)習(xí)熱潮。與線性處理方法(按順序查看每個詞)不同,,它采用了一種并行的處理方法(同時查看一批詞),。烏斯克爾特在想,如果處理得當(dāng)?shù)脑?,或許只用自注意力模型就能收獲更出色的結(jié)果,。
并不是所有人都認(rèn)同這個想法能震撼世界,其中也包括烏斯克爾特的父親在內(nèi)。雅各布在谷歌供職期間,,漢斯·烏斯克爾特獲得了兩項谷歌學(xué)術(shù)研究獎,。雅各布·烏斯克爾特表示:“大家都對此感到吃驚,因為它拋棄了所有現(xiàn)有的神經(jīng)網(wǎng)絡(luò)架構(gòu),?!备h(huán)神經(jīng)網(wǎng)絡(luò)說再見?簡直是異端,!“從我跟父親吃飯時的對話情況來看,,我們的觀點并不完全一致?!?/p>
烏斯克爾特說服了幾位同事對自注意力模型進(jìn)行實驗,。他們的工作成果展現(xiàn)了希望,2016 年還發(fā)表了一篇論文,。烏斯克爾特想推動他們進(jìn)一步研究——因為該團(tuán)隊只用了非常少量的文本段落進(jìn)行試驗——但沒有一位合作者對此感興趣,。他們就像是只想小賭一把就的賭客,拿得到一點獎金就離場了,。烏斯克爾特說“這東西確實管用,。那篇文章的合作者對于將自己的研究成果運用到谷歌的不同地方,包括搜索引擎,,最終還有廣告系統(tǒng)等感到十分興奮,。從很多方面來看這都是一個了不起的成就,但我并不想就此打住,?!?/p>
烏斯克爾特相信自注意力能勝任更大的任務(wù)。在谷歌園區(qū)北邊查爾斯頓路 1945 號樓(用地址命名)里,,他會向任何愿意(以及不愿意)傾聽的人講解他的設(shè)想,,并在白板上勾勒出他的愿景。
2016年的某一天,,在谷歌的一個咖啡店里,,烏斯克爾特正在與一名來自烏克蘭的科學(xué)家共進(jìn)午餐,此人名叫伊利亞·波洛蘇欣(Illia Polosukhin),,已經(jīng)在谷歌工作了近三年。波洛蘇欣被分配到的團(tuán)隊負(fù)責(zé)解答在搜索框里直接提出來的問題,。但他們的成果并不如預(yù)期,。波洛蘇欣說:“要想在 Google.com 上提供答案,你得有一個成本低效果好的方案,。因為必須在幾毫秒內(nèi)做出響應(yīng),。”當(dāng)波洛蘇欣對此表達(dá)不滿時,,烏斯克爾特毫不猶豫地給出了自己的解決方案,。波洛蘇欣回憶道:“他提議說,,為什么不試試自注意力機(jī)制呢?”
波洛蘇欣有時候會跟另一位同事合作,。阿什什·瓦斯瓦尼(Ashish Vaswani)在印度出生,,在中東長大,曾就讀南加州大學(xué)(USC),,并在該校頂級的機(jī)器翻譯小組獲得了博士學(xué)位,。然后,他來到山景城,,加入了谷歌——具體來說是去到谷歌新成立的Google Brain部門,。在他眼里,Google Brain是一個十分激進(jìn)的組織,,堅信“神經(jīng)網(wǎng)絡(luò)將推動人類認(rèn)知的加深”,。但他一直想找個值得投入進(jìn)去的大項目。他的團(tuán)隊在 1965 號樓工作,,這棟建筑正好位于波洛蘇欣的語言團(tuán)隊所在的1945號樓旁邊,,然后他聽說了自注意力機(jī)制的構(gòu)想。這會是他想要的那種項目嗎,?他同意參與進(jìn)來,。
三位研究人員共同起草了一份設(shè)計文檔,名字叫做“Transformers:迭代自我注意力機(jī)制記各種任務(wù)的處理”,。烏斯克爾特說,,他們從“零日”(day zero)中選中了“transformers”這個名字。其想法是,,這種機(jī)制可以變換所接收的信息,,讓系統(tǒng)能夠析取出盡可能多的理解,或者至少給人以那種錯覺,。再加上烏斯克爾特對小時候玩孩之寶動作人偶的美好時光仍歷歷在目: “我很小的時候曾經(jīng)有過兩個變形金剛小玩具”,。這份文檔文件甚至還用六個變形金剛在群山之間互射激光的卡通圖片作為結(jié)束。
論文開頭的那句話也有點招搖:“我們太棒了,?!?/p>
2017年初,波洛蘇欣離開谷歌自主創(chuàng)業(yè),。此時,,新的合作者也開始陸續(xù)加入該項目。印度工程師尼基·帕爾瑪(Niki Parmar)曾在印度為一家美國軟件公司工作,,之后又移居到美國,。2015年她在南加州大學(xué)(USC)獲得碩士學(xué)位后,各大科技巨頭均向她伸出了橄欖枝。她最后選擇了谷歌,。開始工作后,,她開始與烏斯克爾特合作,通過研發(fā)模型變體來增強(qiáng)谷歌搜索功能,。
另一位新成員是 利昂·瓊斯(Llion Jones),。他在威爾士出生長大,熱愛計算機(jī),,“因為這東西不一般,。”在伯明翰大學(xué),,他修了一門人工智能課程,,對用歷史趣事呈現(xiàn)的神經(jīng)網(wǎng)絡(luò)產(chǎn)生了興趣。2009年7月,,他拿到了碩士學(xué)位,,但由于經(jīng)濟(jì)不景氣難以找到工作,曾靠失業(yè)救濟(jì)維持了幾個月,。之后他到一家本地公司找到了一份工作,,然后用“孤注一擲”的心態(tài)去投了谷歌。他最終得到了這份工作,,進(jìn)入到Google Research,,而他的經(jīng)理正是波洛蘇欣。某一天,,瓊斯從同事Mat Kelcey那里聽說了自注意力的概念,,之后決定加入transformer團(tuán)隊。(后來,,瓊斯碰到Kelcey時提到了transformer項目,,但 Kelcey 對此并不看好。現(xiàn)如今的Kelcey是這么說的:“我跟他說,,‘我不確定這能不能行得通’,,這基本上算是我這輩子錯得最離譜的預(yù)測了”。)
Transformer項目吸引了同樣致力于改進(jìn)大語言模型的其它Google Brain團(tuán)隊研究人員,。這第三波人包括波蘭出生的理論計算機(jī)科學(xué)家烏卡什·凱撒(?ukasz Kaiser) 以及他的實習(xí)生 艾丹·戈麥斯(Aidan Gomez),。戈麥斯在加拿大安大略的一個小農(nóng)莊長大,每年春天,,他家都會采集楓木汁制作成糖漿,。在多倫多大學(xué)上大三的時候,他就“深陷”在人工智能的魅力而無法自拔,,并且加入了到一個機(jī)器學(xué)習(xí)小組——杰弗里·辛頓(Geoffrey Hinton)的實驗室。他開始聯(lián)系谷歌那些寫過有趣論文的人,提出對他們的研究進(jìn)行擴(kuò)展的想法,。凱撒上鉤了,,并向他發(fā)出來實習(xí)的邀約。直到數(shù)月之后,,戈麥斯才發(fā)現(xiàn)這些實習(xí)機(jī)會本是給博士生準(zhǔn)備的,,而不是像他這樣的本科生。
凱撒和戈麥斯很快就意識到,,對于他們正在處理的問題來說,,自注意力機(jī)制似乎是一個有前途且更為徹底的解決方案。戈麥斯說:“我們進(jìn)行了認(rèn)真商討,,確定要要不要合并這兩個項目”,。答案是肯定的。
Transformer團(tuán)隊開始著手構(gòu)建一個自注意力模型,,用于將文本從一種語言翻譯成另一種,。他們利用了BLEU 基準(zhǔn)測試來衡量該模型的表現(xiàn)。BLEU會通過對比機(jī)器輸出與人類翻譯者的工作來測試模型,。他們的新模型從一開始就表現(xiàn)良好,。烏斯克爾特表示:“我們從沒有概念證明走到至少有一個能與當(dāng)時最好的 LSTM 方案匹敵的東西”。不過,,跟長短期記憶(LSTM)相比,,“它并沒有更好表現(xiàn)?!?/p>
直至 2017 年的某一天,,諾姆·薩澤爾(Noam Shazeer)偶然聽說了他們的研究項目之后,他們的瓶頸才被打破,。薩澤爾是一名經(jīng)驗豐富的工程師,,早在 2000 年就加入了谷歌,同時也是谷歌的一位傳奇人物,,早年因在廣告系統(tǒng)的工作而獲得了廣泛認(rèn)同,。薩澤爾研究深度學(xué)習(xí)已有五年時間,最近對大語言模型產(chǎn)生了濃厚興趣,。但現(xiàn)有的模型離流暢對話還差得很遠(yuǎn),,他認(rèn)為那種對話是可以實現(xiàn)的。
根據(jù)薩澤爾的回憶,,當(dāng)時他正在 1965 號樓的走廊行走,,經(jīng)過凱撒的工作區(qū)時,他聽到里面正討論得熱火朝天,。他記得阿什談到了用自注意力機(jī)制的想法,,而妮基則對此非常興奮,。“我在想,,哇,,這似乎是個很棒的想法??雌饋硭坪跏且蝗河腥さ穆斆魅嗽谧鲆患苡星巴镜氖?。”薩澤爾認(rèn)為現(xiàn)有的循環(huán)神經(jīng)網(wǎng)絡(luò)“讓人很不爽”,,于是他想:“為何不換掉它們呢,!”
薩澤爾的加盟至關(guān)重要。烏斯克爾特表示:“這些理論性或直觀性的機(jī)制,,比如自注意力機(jī)制,,一直都要靠非常細(xì)致的實現(xiàn),甚至有時候只有少數(shù)經(jīng)驗豐富的‘魔法師’才能讓它呈現(xiàn)出一絲生機(jī)”,。薩澤爾馬上開始施展他的魔法,。Transformer團(tuán)隊的代碼他決定自己寫一版。他說:“我接受了他們的基本想法,,然后自己實現(xiàn)了”,。偶爾他會找凱撒尋求解答,但大部分時候他 “都是自己折騰一番之后就‘搞定了,?!蓖ㄟ^其他團(tuán)隊成員口中的 “魔法”、“煉金術(shù)”和“花里胡哨”的操作之后,,他將這套系統(tǒng)提升到了一個新的水平,。
戈麥斯說:“這拉開沖刺的序幕”。人人都斗志昂揚,,希望在即將到來的截止日期之前搞定——5月19日是論文提交的最后期限,,如獲通過,這些論文將在人工智能界一年一度的最大盛會(也就是12月舉辦的神經(jīng)信息處理系統(tǒng)大會,,Neural Information Processing Systems)上發(fā)表,。硅谷所謂的人工智能寒冬已漸漸逝去,川春天正慢慢走來,,實驗的步伐也隨之加快,。他們測試了兩種transformers模型:一個是經(jīng)過12小時訓(xùn)練得來的,另一個更加強(qiáng)大的版本被命名為 Big,,經(jīng)過了三天半的訓(xùn)練,,并被開始用來執(zhí)行英語譯德語的任務(wù)。
這個基礎(chǔ)模型超越了所有對手——而 Big 拿到的BLEU評測分?jǐn)?shù)碾壓了過去的記錄,,同時計算效率也更高,。帕馬說:“我們的用時比別人短,。而這還僅僅是開始,因為數(shù)據(jù)還在不斷提高,?!碑?dāng)烏斯克爾特聽到這個好消息時,他從自己山地探險車?yán)锬贸隽艘黄筷惸晗銠墎響c祝,。
截止日期前的最后兩周,大家都忙到發(fā)瘋,。盡管有些團(tuán)隊成員的官方工位仍擺放在 1945 號樓,,但實際上他們大都在 1965 號樓辦公,因為那里的意式咖啡機(jī)更好,。戈麥斯說:“大家?guī)缀醵紱]怎么睡覺”,。作為實習(xí)生,他幾乎一直在緊張地進(jìn)行著調(diào)試,,同時還要為論文制作可視化內(nèi)容和圖表,。在這樣的項目里,做剔除實驗是司空見慣的事情——也就是拿走一部分,,看看剩下的是不是足以完成任務(wù),。
戈麥斯說:“技巧或模塊的各種可能組合我們都會嘗試,去找出哪些有用,,哪些沒用,。撤掉這個,然后用那個來替換,。為什么模型的機(jī)制是如此的有違直覺,?原來是因為我們遮蓋(masking)得不對。現(xiàn)在能用了嗎,?好的,,那就繼續(xù)下一個。現(xiàn)在我們所謂的‘Transformer’的所有要素,,都是這種高速迭代,、不斷試錯的結(jié)果。在薩澤爾所實現(xiàn)版本的支持下,,這些剔除賦予了Transformer‘極簡主義’的特色,,就像瓊斯所說那樣,‘諾姆就像一位魔法師’,?!?/p>
瓦斯瓦尼回憶道,他在團(tuán)隊寫論文的那個晚上,,躺在辦公室的沙發(fā)上,,凝視著隔開沙發(fā)與房間其他部分的窗簾,,突然被窗簾布料上的圖案所吸引,那些圖案在他看來像極了突觸和神經(jīng)元,。戈麥斯也在場, 瓦斯瓦尼告訴他,,他們正在做的事情遠(yuǎn)不止機(jī)器翻譯。他說:”最終,,我們需要像人腦一樣,,將語音、音頻,、視覺等各種模式統(tǒng)一在一個架構(gòu)之下,。我有一種十分強(qiáng)烈的感覺,那就是我們正在接觸到某種更為普遍的東西,。”
不過,,在谷歌的高層看來,他們的工作只不過是又一個有趣的人工智能項目罷了,。我曾問過幾位參與Transformer項目的人,,他們的上司是不是經(jīng)常讓他們報告項目進(jìn)展。實際上這種情況并不多,。但是烏斯克爾特說:“我們都知道,,這東西有可能會變成一件大事。這也促使我們非常關(guān)注論文末尾對未來工作的一段評論,?!?/p>
那句話預(yù)示了接下來可能會發(fā)生的事情——transformer模型在基本上一切形式的人類表達(dá)上面的應(yīng)用。他們寫道: “我們對以注意力為基礎(chǔ)的模型之未來感到興奮,。我們計劃將transformer擴(kuò)展到輸入與輸出模態(tài)不是文本的問題”,,還要研究“圖像、音頻和視頻”,。
還有幾天就到截止日期的一個晚上,, 烏斯克爾特意識到自己的論文得取個標(biāo)題。瓊斯指出,,該團(tuán)隊已經(jīng)徹底摒棄公認(rèn)的最佳實踐,,其中最突出的是 LSTM,而轉(zhuǎn)向這一項技術(shù):注意力機(jī)制,。瓊斯回憶道,,披頭士樂隊有首歌叫做“你所需要的只是愛”( All You Need Is Love)。為什么不把這篇論文叫做“你所需要的只是注意力”( Attention Is All You Need)呢,?
披頭士,?
瓊斯說:“我是英國人。其實我想到這個只用了五秒鐘,。我沒想到他們會采納,?!?/p>
在截止日期到達(dá)之前他們都在不斷收集實驗結(jié)果。帕爾瑪說: “我們大概是在提交論文的五分鐘前才弄到,,英法互譯數(shù)據(jù)的,。那時候我正坐在1965號樓的一個迷你廚房里,把最后一批數(shù)字弄進(jìn)去,?!辈坏絻煞昼娭螅麄兙桶颜撐陌l(fā)出去了,。
跟幾乎所有的科技公司一樣,,谷歌很快就為這項工作申請了臨時專利。原因不是為了阻止其他人借鑒這些想法,,而是出于防御目的建立其專利組合。 (該公司的理念是“如果科技有所進(jìn)步,,谷歌就會從中受益,。”)
Transformer團(tuán)隊收到的同行評審反響不一,。 帕爾瑪說:“有一個評價是積極的,,有一個非常積極,還有一個評價是,,‘還行吧’”,。該論文被采用了,但只是被放在了晚間海報展示環(huán)節(jié),。
到 12 月開會時,,這篇論文引起了轟動。 12 月 6 日,,他們四小時的海報展示現(xiàn)場已經(jīng)擠滿了想要了解更多信息的科學(xué)家,。作者們聊到聲音都嘶啞了。到了晚上10點30分會議結(jié)束時,,現(xiàn)場仍然人頭攢動,。 烏斯克爾特說:“最后保安只能讓我們離開”。不過對他來說也許最滿意的時刻是計算機(jī)科學(xué)家塞普·霍赫賴特 (Sepp Hochreiter) 的現(xiàn)身,,后者還贊揚了這項工作——鑒于霍赫賴特是長短時記憶(LSTM)的共同發(fā)明者,,而transformer剛剛?cè)〈薒STM在人工智能工具包的主流地位,這算是相當(dāng)高的贊譽了,。
墻外開花
Transformer 剛開始并沒有馬上征服世界,,甚至連谷歌都沒有征服掉。凱撒回憶道,,在論文發(fā)表的時候,,薩澤爾曾建議公司高層徹底拋棄搜索索引,,而是用 Transformer 訓(xùn)練一個龐大網(wǎng)絡(luò)——也就是基本上徹底改變谷歌組織信息的方式。那時候,,即便是凱撒也覺得這個想法很荒謬,。而現(xiàn)在的共識是,這只是時間問題,。
但有家初創(chuàng)公司的反應(yīng)就要迅速許多,。論文發(fā)布后不久,OpenAI 的首席研究員伊爾亞·蘇茨克維(Ilya Sutskever,,此前在谷歌任職時他就知道 Transformer 團(tuán)隊了)建議由自己的科學(xué)家亞歷克·雷福德(Alec Radford) 研究這個想法,。其結(jié)果便是最早期的 GPT 產(chǎn)品。就像 OpenAI 的 CEO 山姆·阿爾特曼(Sam Altman)去年所說那樣:“Transformer 的論文發(fā)表時,,我覺得谷歌沒人意識到它會產(chǎn)生什么樣的深遠(yuǎn)影響,。”
但從內(nèi)部看情況更為復(fù)雜,。烏斯克爾特說:“我們很清楚 Transformer 能做出很神奇的事情,。放在今天你可能會問,,為什么谷歌 2018年不能退出像 ChatGPT 這樣的產(chǎn)品,?說實話, 2019 ,,或許 2020 年我們就能有 GPT-3 或甚至 GPT-3.5這樣的產(chǎn)品,。問題不在于他們有沒有意識到,而在于為什么我們看到之后沒有采取行動,。這個答案很復(fù)雜,。”
許多技術(shù)評論人士指出,,谷歌已經(jīng)從原先的創(chuàng)新中心慢慢變成更注重利潤和效率的官僚機(jī)構(gòu),。戈麥斯在接受《金融時報》采訪時指出,“他們沒有跟上現(xiàn)代化的腳步,,沒有采納這項新技術(shù),。”不過,,對一個領(lǐng)導(dǎo)行業(yè)并攫取巨額利潤數(shù)十年的企業(yè)巨頭來說,,冒險采用全新技術(shù)確實是一大挑戰(zhàn)。谷歌的確在2018年開始往產(chǎn)品整合了 Transformer,,首當(dāng)其沖的是翻譯工具,。同樣在那一年,它還推出了一個基于 Transformer 的新型語言模型BERT,并在第二年開始將其應(yīng)用于搜索服務(wù),。
但是,,跟 OpenAI 的巨大飛躍與微軟將基于 Transformer 的系統(tǒng)大膽集成到其產(chǎn)品線相比,谷歌這些內(nèi)部技術(shù)調(diào)整就顯得比較保守了,。去年當(dāng)我詢問首席執(zhí)行官桑達(dá)爾·皮查伊(Sundar Pichai)為什么率先推出像 ChatGPT 這樣的大語言模型的不是谷歌時,,他認(rèn)為在這種情況下,讓別人先走一步對谷歌是有好處的,。他回答說:“對于這樣做會不會一樣成功還不是完全明朗,。事實上,在人們看到它的工作原理之后,,我們有能力做得更多,。”
一個不可否認(rèn)的事實是,,這篇論文八位作者全都已離開谷歌,。波洛蘇欣的公司 Near打造出一種市值約達(dá) 40 億美元的區(qū)塊鏈代幣,。帕爾馬與瓦斯瓦尼在 2021 年開始搭檔創(chuàng)業(yè),成立了 Adept (估值約 10 億美元),,現(xiàn)在兩人又合伙創(chuàng)辦了第二家公司 Essential AI(已獲得 800 萬美元融資),。利昂·瓊斯在東京設(shè)立的 Sakana AI 的目前估值約為 2 億美元。薩澤爾 于 2021 年 10 月離職,,與人聯(lián)合創(chuàng)辦了 Character AI (估值為 50 億美元),。艾丹·戈麥斯 是團(tuán)隊里面的實習(xí)生,2019 年,,他回到多倫多與人共同創(chuàng)立了 Cohere(估值約 22 億美元),。雅各布·烏斯克爾特的生物科技公司 Inceptive估值為 3 億美元。除了 Near 以外,,這些公司的安身立命之基都是 Transformer 技術(shù),。
凱撒是唯一沒有出來創(chuàng)業(yè)的人。他加入了 OpenAI,是一個叫做 Q* 的新技術(shù)的發(fā)明者之一,,阿爾特曼去年曾表示,,這項技術(shù)將“揭開無知的面紗,推動發(fā)現(xiàn)的前沿”,。 (當(dāng)我在采訪中試圖就此問題詢問凱撒時,,OpenAI 的公關(guān)幾乎是蹦起來讓他馬上閉嘴。)
谷歌會想念這些逃亡者嗎,?當(dāng)然會,,也包括其他從谷歌出走創(chuàng)辦人工智能初創(chuàng)公司的那些人。(當(dāng)我問皮查伊有關(guān) Transformer 技術(shù)人員離職的問題時,,他提醒我,,被業(yè)界人士熱捧的 OpenAI也不是鐵板一塊,也有人出走,。他表示:“人工智能這個領(lǐng)域瞬息萬變”,。)但谷歌可以很自豪地宣告,他們已經(jīng)打造出一個支持非常規(guī)思想探索的環(huán)境,。帕爾馬表示:“從很多方面來看,,谷歌一直都走在前列——他們投資到合適的腦袋,并創(chuàng)造出讓我們可以隨心所欲地探索和挑戰(zhàn)極限的環(huán)境,。他們需要時間去接納新事物并不奇怪,,畢竟谷歌所承擔(dān)的風(fēng)險要大得多?!?。
如果沒有那種環(huán)境的話,Transformer就不會出現(xiàn),。這些論文作者不僅都是谷歌的員工,,而且還在同一間辦公室工作。走廊的偶遇與午餐時的閑聊有時候也會擦出思想的火花,。這個團(tuán)隊在文化上十分的多元化,。其中有六位作者出生在美國以外的地方,而另外兩位,,一個是兩個獲得綠卡,,曾在加州短暫停留的德國人的孩子,還有一個是為了逃避迫害才來到美國的第一代美國人的后代,。
烏斯克爾特在柏林的辦公室里說道,,創(chuàng)新就是打造合適的土壤。他說:“有對某件事情充滿激情,,正好又處在人生合適時候的人,。有了這些之后,如果在做的過程中能感受到樂趣,同時研究的又是合適的問題的話——再加上一點運氣——那么奇跡就會出現(xiàn),?!?/p>
在烏斯克爾特跟他那位出名的老爸之間,也發(fā)生了一件不可思議的事,。在無數(shù)次的餐桌辯論之后,,兒子報告說,漢斯·烏斯克爾特現(xiàn)在也開始跟人共同創(chuàng)立了一家致力于開發(fā)大語言模型的公司了,。當(dāng)然了,,用的也是 Transformer 技術(shù)。
譯者:boxi,。
免責(zé)聲明:本文來自網(wǎng)絡(luò)收錄或投稿,,觀點僅代表作者本人,不代表芒果財經(jīng)贊同其觀點或證實其描述,,版權(quán)歸原作者所有,。轉(zhuǎn)載請注明出處:http://lequren.com/1094939.html
溫馨提示:投資有風(fēng)險,入市須謹(jǐn)慎,。本資訊不作為投資理財建議,。