无码丰满熟妇一区二区,欧美高清va在线视频独播

編者按：前人種樹(shù)，后人摘果,。在科技圈，科技巨頭做出創(chuàng)新技術(shù)但成果卻被初創(chuàng)企業(yè)竊取的情況屢見(jiàn)不鮮,。最近的例子之一便是谷歌與OpenAI,。最近對(duì)科技圈產(chǎn)生最深遠(yuǎn)影響的論文《Attention Is All You Need》就是谷歌的人發(fā)表的，但最終引爆市場(chǎng)的卻是OpenAI,。那篇論文的所有8位作者后來(lái)均離開(kāi)了谷歌,，本文介紹了這篇論文的誕生故事，并介紹了他們的最新動(dòng)向,。也許里面最值得深思的,，是如何打造創(chuàng)新的土壤。我們?nèi)绾尾拍艽蛟斐瞿菢拥耐寥滥?？文章?lái)自編譯,。

已成傳奇

2017 年春發(fā)表的科學(xué)論文《你所需要的只是注意力》（Attention Is All You Need）共有八位作者,，他們都來(lái)自谷歌,，不過(guò)當(dāng)時(shí)其中一人已經(jīng)離開(kāi)了公司。當(dāng)其中最資深的作者諾阿·薩澤爾（NOAM SHAZEER）看到初稿時(shí),，他意外地發(fā)現(xiàn)自己的名字位列所有作者之首,，這似乎表明他所做的貢獻(xiàn)最為顯著。他說(shuō)：“我可不是這么想的”,。

作者名單如何排序從來(lái)都是件需要精心權(quán)衡的事情：誰(shuí)應(yīng)該獨(dú)享第一作者的美譽(yù),？誰(shuí)又該不幸的被排在倒數(shù)第一？當(dāng)每位參與者在真正意義上的團(tuán)隊(duì)合作都做出了顯著貢獻(xiàn)時(shí)就更難權(quán)衡了,。研究者們?cè)谕瓿烧撐牡木o張過(guò)程中,，最后采取了一種“顛覆性”的做法來(lái)打破常規(guī)的作者排名。他們給每個(gè)名字后面都標(biāo)注了一個(gè)星號(hào),，并在腳注明確指出：“各人的貢獻(xiàn)均等”,，“作者排序按隨機(jī)排列”。此舉無(wú)疑給學(xué)界慣例帶來(lái)挑戰(zhàn),。在截止日期前夕,，他們將論文提交給一個(gè)聲譽(yù)卓著的人工智能會(huì)議——并進(jìn)而在該領(lǐng)域掀起了一場(chǎng)革命。

在論文發(fā)表臨近七周年之際,，《注意力就是你的全部所需》已成為傳奇,。作者們的出發(fā)點(diǎn)是一項(xiàng)日趨成熟且不斷進(jìn)步的技術(shù)——一種被稱為神經(jīng)網(wǎng)絡(luò)的人工智能,。他們把它發(fā)展成了一種全新的系統(tǒng)：這個(gè)系統(tǒng)是如此的強(qiáng)大,，以至于它的輸出仿佛來(lái)源自非人類的智能。這種被稱為 Transformer 的體系結(jié)構(gòu)正是 ChatGPT,、Dall-E 以及 Midjourney 等引人注目的 AI 產(chǎn)品背后的核心技術(shù),。Shazeer 如今調(diào)侃道，如果他當(dāng)初知道這篇論文會(huì)那么出名的話,，他 “可能會(huì)對(duì)作者排序更加介意”,。但現(xiàn)在，所有的八名簽署作者都已經(jīng)小有名氣,。利昂·瓊斯（Llion Jones）的名字（當(dāng)然是隨機(jī)的）恰好排在第五位，他說(shuō)：“就因?yàn)槲业拿殖霈F(xiàn)在了一篇論文上,，有人就找我合影了,！”。

杰弗里·辛頓 (Geoffrey Hinton)雖不是論文的作者之一,，但也許確實(shí)全球最卓越的人工智能科學(xué)家,。他說(shuō)：“要不是因?yàn)橛辛藅ransformers，我覺(jué)得我們走不到今天這一步,?！彼傅氖请S著OpenAI等公司開(kāi)發(fā)出能與人類產(chǎn)出相媲美，甚至在某些情況下超越人類產(chǎn)出的系統(tǒng),，我們已經(jīng)進(jìn)入到一個(gè)地動(dòng)山移的時(shí)代,。

現(xiàn)如今，所有這八位作者都已離開(kāi)谷歌,。跟成千上萬(wàn)人一樣,，他們目前正以各種方式參與到由他們?cè)?2017 年所創(chuàng)造的系統(tǒng)推動(dòng)的工作當(dāng)中,。我采訪了這八位 Transformer 的發(fā)明者，希望能揭示一項(xiàng)顛覆性成果——一次凝聚人類智慧的努力,，創(chuàng)造出一臺(tái)有可能最終主導(dǎo)話語(yǔ)權(quán)的先進(jìn)機(jī)器——的內(nèi)在結(jié)構(gòu),。

誕生故事

Transformers的故事要從這八個(gè)名字的第四個(gè)開(kāi)始：雅各布·烏斯克爾特（Jakob Uszkoreit）。

雅各布·烏斯克爾特是著名的計(jì)算語(yǔ)言學(xué)家漢斯·烏斯克爾特（Hans Uszkoreit）的兒子,。 20 世紀(jì) 60 年代末,，還是高中生的漢斯因抗議蘇聯(lián)入侵捷克斯洛伐克而在自己的祖國(guó)東德被監(jiān)禁了 15 個(gè)月。獲釋后,，他逃往西德,，并開(kāi)始在柏林學(xué)習(xí)計(jì)算機(jī)和語(yǔ)言學(xué)。雅各布出生那年,，他去了美國(guó),，到加州門洛帕克的一家研究機(jī)構(gòu) SRI 的人工智能實(shí)驗(yàn)室工作。后來(lái)他們家又重新回到德國(guó),，雅各布也在那里上了大學(xué),。他起初并沒(méi)計(jì)劃要專研語(yǔ)言學(xué)，但當(dāng)他開(kāi)始研究生學(xué)業(yè)時(shí),，他拿到了到谷歌山景城總部的實(shí)習(xí)機(jī)會(huì),，并加入了公司的翻譯小組，看來(lái)他最終還是投入到家族事業(yè)之中了,。他后來(lái)放棄了讀博的計(jì)劃,，2012年，他決定加入谷歌的一支團(tuán)隊(duì),。當(dāng)時(shí)該團(tuán)隊(duì)正在打造一個(gè)不需要將用戶重定向到其他網(wǎng)站,，可以直接在搜索界面回答用戶問(wèn)題的系統(tǒng)。那時(shí)候蘋(píng)果剛剛推出了 Siri,，一個(gè)在日常交談當(dāng)中提供即時(shí)答案的虛擬助手,，這讓谷歌的管理層感受到巨大的競(jìng)爭(zhēng)壓力：因?yàn)镾iri 有可能會(huì)沖擊到他們的搜索流量。因此,，他們開(kāi)始更加關(guān)注雅各布·烏斯克爾特領(lǐng)頭的這個(gè)新團(tuán)隊(duì),。

烏斯克爾特表示：“那其實(shí)是場(chǎng)不必要的恐慌，”事實(shí)上 Siri 從未對(duì)谷歌構(gòu)成過(guò)實(shí)質(zhì)性的威脅,。但他對(duì)此還是很高興,，因?yàn)檫@是可以深入鉆研人機(jī)對(duì)話系統(tǒng)的機(jī)會(huì)。在當(dāng)時(shí),，在學(xué)術(shù)上曾被認(rèn)為一潭死水的循環(huán)神經(jīng)網(wǎng)絡(luò)（recurrent neural networks）,，其表現(xiàn)突然超越了其他的人工智能工程方法，這種神經(jīng)網(wǎng)絡(luò)由多層組成,，信息可以在在這些層之間傳遞和反復(fù)傳遞,，從而能識(shí)別出最佳的回應(yīng),。神經(jīng)網(wǎng)絡(luò)在圖像識(shí)別等多個(gè)領(lǐng)域取得了巨大進(jìn)展，人工智能因此迎來(lái)了全面復(fù)興,。谷歌開(kāi)始瘋狂發(fā)動(dòng)自己的員工隊(duì)伍,，要求他們采用這些新技術(shù)。他們希望能開(kāi)發(fā)出能生成類似人類響應(yīng)的系統(tǒng),，比如可在郵件自動(dòng)補(bǔ)全句子或做出相對(duì)簡(jiǎn)單的客服聊天機(jī)器人,。

但這一領(lǐng)域后來(lái)遇到了難題。循環(huán)神經(jīng)網(wǎng)絡(luò)在處理長(zhǎng)文本時(shí)表現(xiàn)不佳,。比方說(shuō),，要想理解 “Joe 是一名棒球運(yùn)動(dòng)員，在享用了一頓豐盛的早餐之后,，他在棒球場(chǎng)上打出兩記安打,。”這句話里面的“兩記安打”,，語(yǔ)言模型就必須記住前面提到的棒球,。換言之，模型必須維持注意力,。對(duì)此業(yè)界公認(rèn)的解決方案叫做“長(zhǎng)短時(shí)記憶”（LSTM）,，這種革新技術(shù)讓語(yǔ)言模型能夠處理更長(zhǎng)、更復(fù)雜的文本序列,。但計(jì)算機(jī)還是嚴(yán)格按順序來(lái)處理這些序列——一個(gè)一個(gè)單詞地去處理,，乏味至極——這種做法會(huì)錯(cuò)過(guò)后續(xù)可能出現(xiàn)的上下文線索。烏斯克爾特表示：“我們采取的做法基本上只是臨時(shí)應(yīng)急措施,，并沒(méi)有找到可以真正規(guī)?；奶幚硎侄巍,！?/p>

大概在 2014 年左右,，他開(kāi)始醞釀一種新的做法，他稱之為自注意力機(jī)制（self-attention）,。這種網(wǎng)絡(luò)可以引用段落文字的任何其他部分,，借此來(lái)翻譯一個(gè)詞,。這其他部分的內(nèi)容可以明確某個(gè)詞想要表達(dá)的意思,，從而幫助系統(tǒng)生成準(zhǔn)確的翻譯。他說(shuō)：“其實(shí)這種機(jī)制已經(jīng)考慮到所有因素,，提供了一種能同時(shí)高效地審視眾多輸入信息,，并以相當(dāng)有選擇性的方式提取信息的方法”。雖然人工智能科學(xué)家們都很小心,，避免將神經(jīng)網(wǎng)絡(luò)的隱喻與生物大腦的實(shí)際工作方式混為一談,，但烏斯克爾特依舊認(rèn)為自注意力機(jī)制在一定程度上與人類處理語(yǔ)言的方式有相似之處,。

烏斯克爾特相信，自注意力模型有望比循環(huán)神經(jīng)網(wǎng)絡(luò)快得多,、也更有效,。其處理信息的方式與強(qiáng)大的并行處理芯片完全匹配，后者已經(jīng)被大規(guī)模生產(chǎn)出來(lái),，用來(lái)支撐機(jī)器學(xué)習(xí)熱潮,。與線性處理方法（按順序查看每個(gè)詞）不同，它采用了一種并行的處理方法（同時(shí)查看一批詞）,。烏斯克爾特在想,，如果處理得當(dāng)?shù)脑挘蛟S只用自注意力模型就能收獲更出色的結(jié)果,。

并不是所有人都認(rèn)同這個(gè)想法能震撼世界,，其中也包括烏斯克爾特的父親在內(nèi)。雅各布在谷歌供職期間,，漢斯·烏斯克爾特獲得了兩項(xiàng)谷歌學(xué)術(shù)研究獎(jiǎng),。雅各布·烏斯克爾特表示：“大家都對(duì)此感到吃驚，因?yàn)樗鼟仐壛怂鞋F(xiàn)有的神經(jīng)網(wǎng)絡(luò)架構(gòu),?！备h(huán)神經(jīng)網(wǎng)絡(luò)說(shuō)再見(jiàn)？簡(jiǎn)直是異端,！“從我跟父親吃飯時(shí)的對(duì)話情況來(lái)看,，我們的觀點(diǎn)并不完全一致?！?/p>

烏斯克爾特說(shuō)服了幾位同事對(duì)自注意力模型進(jìn)行實(shí)驗(yàn),。他們的工作成果展現(xiàn)了希望，2016 年還發(fā)表了一篇論文,。烏斯克爾特想推動(dòng)他們進(jìn)一步研究——因?yàn)樵搱F(tuán)隊(duì)只用了非常少量的文本段落進(jìn)行試驗(yàn)——但沒(méi)有一位合作者對(duì)此感興趣,。他們就像是只想小賭一把就的賭客，拿得到一點(diǎn)獎(jiǎng)金就離場(chǎng)了,。烏斯克爾特說(shuō)“這東西確實(shí)管用,。那篇文章的合作者對(duì)于將自己的研究成果運(yùn)用到谷歌的不同地方，包括搜索引擎,，最終還有廣告系統(tǒng)等感到十分興奮,。從很多方面來(lái)看這都是一個(gè)了不起的成就，但我并不想就此打住,?！?/p>

烏斯克爾特相信自注意力能勝任更大的任務(wù)。在谷歌園區(qū)北邊查爾斯頓路 1945 號(hào)樓（用地址命名）里,，他會(huì)向任何愿意（以及不愿意）傾聽(tīng)的人講解他的設(shè)想,，并在白板上勾勒出他的愿景,。

2016年的某一天，在谷歌的一個(gè)咖啡店里,，烏斯克爾特正在與一名來(lái)自烏克蘭的科學(xué)家共進(jìn)午餐,，此人名叫伊利亞·波洛蘇欣（Illia Polosukhin），已經(jīng)在谷歌工作了近三年,。波洛蘇欣被分配到的團(tuán)隊(duì)負(fù)責(zé)解答在搜索框里直接提出來(lái)的問(wèn)題,。但他們的成果并不如預(yù)期。波洛蘇欣說(shuō)：“要想在 Google.com 上提供答案,，你得有一個(gè)成本低效果好的方案,。因?yàn)楸仨氃趲缀撩雰?nèi)做出響應(yīng)?！碑?dāng)波洛蘇欣對(duì)此表達(dá)不滿時(shí),，烏斯克爾特毫不猶豫地給出了自己的解決方案。波洛蘇欣回憶道：“他提議說(shuō),，為什么不試試自注意力機(jī)制呢,？”

波洛蘇欣有時(shí)候會(huì)跟另一位同事合作。阿什什·瓦斯瓦尼（Ashish Vaswani）在印度出生,，在中東長(zhǎng)大,，曾就讀南加州大學(xué)（USC），并在該校頂級(jí)的機(jī)器翻譯小組獲得了博士學(xué)位,。然后,，他來(lái)到山景城，加入了谷歌——具體來(lái)說(shuō)是去到谷歌新成立的Google Brain部門,。在他眼里,，Google Brain是一個(gè)十分激進(jìn)的組織，堅(jiān)信“神經(jīng)網(wǎng)絡(luò)將推動(dòng)人類認(rèn)知的加深”,。但他一直想找個(gè)值得投入進(jìn)去的大項(xiàng)目,。他的團(tuán)隊(duì)在 1965 號(hào)樓工作，這棟建筑正好位于波洛蘇欣的語(yǔ)言團(tuán)隊(duì)所在的1945號(hào)樓旁邊,，然后他聽(tīng)說(shuō)了自注意力機(jī)制的構(gòu)想,。這會(huì)是他想要的那種項(xiàng)目嗎？他同意參與進(jìn)來(lái),。

三位研究人員共同起草了一份設(shè)計(jì)文檔,，名字叫做“Transformers：迭代自我注意力機(jī)制記各種任務(wù)的處理”。烏斯克爾特說(shuō),，他們從“零日”（day zero）中選中了“transformers”這個(gè)名字,。其想法是,，這種機(jī)制可以變換所接收的信息,，讓系統(tǒng)能夠析取出盡可能多的理解,，或者至少給人以那種錯(cuò)覺(jué)。再加上烏斯克爾特對(duì)小時(shí)候玩孩之寶動(dòng)作人偶的美好時(shí)光仍歷歷在目： “我很小的時(shí)候曾經(jīng)有過(guò)兩個(gè)變形金剛小玩具”,。這份文檔文件甚至還用六個(gè)變形金剛在群山之間互射激光的卡通圖片作為結(jié)束,。

論文開(kāi)頭的那句話也有點(diǎn)招搖：“我們太棒了?！?/p>

2017年初,，波洛蘇欣離開(kāi)谷歌自主創(chuàng)業(yè)。此時(shí),，新的合作者也開(kāi)始陸續(xù)加入該項(xiàng)目,。印度工程師尼基·帕爾瑪（Niki Parmar）曾在印度為一家美國(guó)軟件公司工作，之后又移居到美國(guó),。2015年她在南加州大學(xué)（USC）獲得碩士學(xué)位后,，各大科技巨頭均向她伸出了橄欖枝。她最后選擇了谷歌,。開(kāi)始工作后,，她開(kāi)始與烏斯克爾特合作，通過(guò)研發(fā)模型變體來(lái)增強(qiáng)谷歌搜索功能,。

另一位新成員是利昂·瓊斯（Llion Jones）,。他在威爾士出生長(zhǎng)大，熱愛(ài)計(jì)算機(jī),，“因?yàn)檫@東西不一般,。”在伯明翰大學(xué),，他修了一門人工智能課程,，對(duì)用歷史趣事呈現(xiàn)的神經(jīng)網(wǎng)絡(luò)產(chǎn)生了興趣。2009年7月,，他拿到了碩士學(xué)位,，但由于經(jīng)濟(jì)不景氣難以找到工作，曾靠失業(yè)救濟(jì)維持了幾個(gè)月,。之后他到一家本地公司找到了一份工作,，然后用“孤注一擲”的心態(tài)去投了谷歌。他最終得到了這份工作,，進(jìn)入到Google Research,，而他的經(jīng)理正是波洛蘇欣。某一天,，瓊斯從同事Mat Kelcey那里聽(tīng)說(shuō)了自注意力的概念,，之后決定加入transformer團(tuán)隊(duì)。（后來(lái)，瓊斯碰到Kelcey時(shí)提到了transformer項(xiàng)目,，但 Kelcey 對(duì)此并不看好?，F(xiàn)如今的Kelcey是這么說(shuō)的：“我跟他說(shuō)，‘我不確定這能不能行得通’,，這基本上算是我這輩子錯(cuò)得最離譜的預(yù)測(cè)了”,。）

Transformer項(xiàng)目吸引了同樣致力于改進(jìn)大語(yǔ)言模型的其它Google Brain團(tuán)隊(duì)研究人員。這第三波人包括波蘭出生的理論計(jì)算機(jī)科學(xué)家烏卡什·凱撒（?ukasz Kaiser）以及他的實(shí)習(xí)生艾丹·戈麥斯（Aidan Gomez）,。戈麥斯在加拿大安大略的一個(gè)小農(nóng)莊長(zhǎng)大,，每年春天，他家都會(huì)采集楓木汁制作成糖漿,。在多倫多大學(xué)上大三的時(shí)候,，他就“深陷”在人工智能的魅力而無(wú)法自拔，并且加入了到一個(gè)機(jī)器學(xué)習(xí)小組——杰弗里·辛頓（Geoffrey Hinton）的實(shí)驗(yàn)室,。他開(kāi)始聯(lián)系谷歌那些寫(xiě)過(guò)有趣論文的人,，提出對(duì)他們的研究進(jìn)行擴(kuò)展的想法。凱撒上鉤了,，并向他發(fā)出來(lái)實(shí)習(xí)的邀約,。直到數(shù)月之后，戈麥斯才發(fā)現(xiàn)這些實(shí)習(xí)機(jī)會(huì)本是給博士生準(zhǔn)備的,，而不是像他這樣的本科生,。

凱撒和戈麥斯很快就意識(shí)到，對(duì)于他們正在處理的問(wèn)題來(lái)說(shuō),，自注意力機(jī)制似乎是一個(gè)有前途且更為徹底的解決方案,。戈麥斯說(shuō)：“我們進(jìn)行了認(rèn)真商討，確定要要不要合并這兩個(gè)項(xiàng)目”,。答案是肯定的,。

Transformer團(tuán)隊(duì)開(kāi)始著手構(gòu)建一個(gè)自注意力模型，用于將文本從一種語(yǔ)言翻譯成另一種,。他們利用了BLEU 基準(zhǔn)測(cè)試來(lái)衡量該模型的表現(xiàn),。BLEU會(huì)通過(guò)對(duì)比機(jī)器輸出與人類翻譯者的工作來(lái)測(cè)試模型。他們的新模型從一開(kāi)始就表現(xiàn)良好,。烏斯克爾特表示：“我們從沒(méi)有概念證明走到至少有一個(gè)能與當(dāng)時(shí)最好的 LSTM 方案匹敵的東西”,。不過(guò)，跟長(zhǎng)短期記憶（LSTM）相比,，“它并沒(méi)有更好表現(xiàn),。”

直至 2017 年的某一天,，諾姆·薩澤爾（Noam Shazeer）偶然聽(tīng)說(shuō)了他們的研究項(xiàng)目之后,，他們的瓶頸才被打破,。薩澤爾是一名經(jīng)驗(yàn)豐富的工程師，早在 2000 年就加入了谷歌,，同時(shí)也是谷歌的一位傳奇人物,，早年因在廣告系統(tǒng)的工作而獲得了廣泛認(rèn)同。薩澤爾研究深度學(xué)習(xí)已有五年時(shí)間,，最近對(duì)大語(yǔ)言模型產(chǎn)生了濃厚興趣。但現(xiàn)有的模型離流暢對(duì)話還差得很遠(yuǎn),，他認(rèn)為那種對(duì)話是可以實(shí)現(xiàn)的,。

根據(jù)薩澤爾的回憶，當(dāng)時(shí)他正在 1965 號(hào)樓的走廊行走,，經(jīng)過(guò)凱撒的工作區(qū)時(shí),，他聽(tīng)到里面正討論得熱火朝天。他記得阿什談到了用自注意力機(jī)制的想法,，而妮基則對(duì)此非常興奮,。“我在想,，哇,，這似乎是個(gè)很棒的想法?？雌饋?lái)似乎是一群有趣的聰明人在做一件很有前途的事,。”薩澤爾認(rèn)為現(xiàn)有的循環(huán)神經(jīng)網(wǎng)絡(luò)“讓人很不爽”,，于是他想：“為何不換掉它們呢,！”

薩澤爾的加盟至關(guān)重要。烏斯克爾特表示：“這些理論性或直觀性的機(jī)制,，比如自注意力機(jī)制,，一直都要靠非常細(xì)致的實(shí)現(xiàn)，甚至有時(shí)候只有少數(shù)經(jīng)驗(yàn)豐富的‘魔法師’才能讓它呈現(xiàn)出一絲生機(jī)”,。薩澤爾馬上開(kāi)始施展他的魔法,。Transformer團(tuán)隊(duì)的代碼他決定自己寫(xiě)一版。他說(shuō)：“我接受了他們的基本想法,，然后自己實(shí)現(xiàn)了”,。偶爾他會(huì)找凱撒尋求解答，但大部分時(shí)候他 “都是自己折騰一番之后就‘搞定了,?！蓖ㄟ^(guò)其他團(tuán)隊(duì)成員口中的 “魔法”、“煉金術(shù)”和“花里胡哨”的操作之后,，他將這套系統(tǒng)提升到了一個(gè)新的水平,。

戈麥斯說(shuō)：“這拉開(kāi)沖刺的序幕”。人人都斗志昂揚(yáng)，希望在即將到來(lái)的截止日期之前搞定——5月19日是論文提交的最后期限,，如獲通過(guò),，這些論文將在人工智能界一年一度的最大盛會(huì)（也就是12月舉辦的神經(jīng)信息處理系統(tǒng)大會(huì)，Neural Information Processing Systems）上發(fā)表,。硅谷所謂的人工智能寒冬已漸漸逝去,，川春天正慢慢走來(lái)，實(shí)驗(yàn)的步伐也隨之加快,。他們測(cè)試了兩種transformers模型：一個(gè)是經(jīng)過(guò)12小時(shí)訓(xùn)練得來(lái)的,，另一個(gè)更加強(qiáng)大的版本被命名為 Big，經(jīng)過(guò)了三天半的訓(xùn)練,，并被開(kāi)始用來(lái)執(zhí)行英語(yǔ)譯德語(yǔ)的任務(wù),。

這個(gè)基礎(chǔ)模型超越了所有對(duì)手——而 Big 拿到的BLEU評(píng)測(cè)分?jǐn)?shù)碾壓了過(guò)去的記錄，同時(shí)計(jì)算效率也更高,。帕馬說(shuō)：“我們的用時(shí)比別人短,。而這還僅僅是開(kāi)始，因?yàn)閿?shù)據(jù)還在不斷提高,?！碑?dāng)烏斯克爾特聽(tīng)到這個(gè)好消息時(shí)，他從自己山地探險(xiǎn)車?yán)锬贸隽艘黄筷惸晗銠墎?lái)慶祝,。

截止日期前的最后兩周,，大家都忙到發(fā)瘋。盡管有些團(tuán)隊(duì)成員的官方工位仍擺放在 1945 號(hào)樓,，但實(shí)際上他們大都在 1965 號(hào)樓辦公,，因?yàn)槟抢锏囊馐娇Х葯C(jī)更好。戈麥斯說(shuō)：“大家?guī)缀醵紱](méi)怎么睡覺(jué)”,。作為實(shí)習(xí)生,，他幾乎一直在緊張地進(jìn)行著調(diào)試，同時(shí)還要為論文制作可視化內(nèi)容和圖表,。在這樣的項(xiàng)目里,，做剔除實(shí)驗(yàn)是司空見(jiàn)慣的事情——也就是拿走一部分，看看剩下的是不是足以完成任務(wù),。

戈麥斯說(shuō)：“技巧或模塊的各種可能組合我們都會(huì)嘗試,，去找出哪些有用，哪些沒(méi)用,。撤掉這個(gè),，然后用那個(gè)來(lái)替換。為什么模型的機(jī)制是如此的有違直覺(jué),？原來(lái)是因?yàn)槲覀冋谏w（masking）得不對(duì)?，F(xiàn)在能用了嗎,？好的，那就繼續(xù)下一個(gè)?，F(xiàn)在我們所謂的‘Transformer’的所有要素,，都是這種高速迭代、不斷試錯(cuò)的結(jié)果,。在薩澤爾所實(shí)現(xiàn)版本的支持下,，這些剔除賦予了Transformer‘極簡(jiǎn)主義’的特色，就像瓊斯所說(shuō)那樣,，‘諾姆就像一位魔法師’,。”

瓦斯瓦尼回憶道,，他在團(tuán)隊(duì)寫(xiě)論文的那個(gè)晚上,，躺在辦公室的沙發(fā)上,，凝視著隔開(kāi)沙發(fā)與房間其他部分的窗簾,，突然被窗簾布料上的圖案所吸引，那些圖案在他看來(lái)像極了突觸和神經(jīng)元,。戈麥斯也在場(chǎng), 瓦斯瓦尼告訴他,，他們正在做的事情遠(yuǎn)不止機(jī)器翻譯。他說(shuō)：”最終,，我們需要像人腦一樣,，將語(yǔ)音、音頻,、視覺(jué)等各種模式統(tǒng)一在一個(gè)架構(gòu)之下,。我有一種十分強(qiáng)烈的感覺(jué)，那就是我們正在接觸到某種更為普遍的東西,。”

不過(guò),，在谷歌的高層看來(lái)，他們的工作只不過(guò)是又一個(gè)有趣的人工智能項(xiàng)目罷了,。我曾問(wèn)過(guò)幾位參與Transformer項(xiàng)目的人,，他們的上司是不是經(jīng)常讓他們報(bào)告項(xiàng)目進(jìn)展。實(shí)際上這種情況并不多,。但是烏斯克爾特說(shuō)：“我們都知道,，這東西有可能會(huì)變成一件大事。這也促使我們非常關(guān)注論文末尾對(duì)未來(lái)工作的一段評(píng)論,?！?/p>

那句話預(yù)示了接下來(lái)可能會(huì)發(fā)生的事情——transformer模型在基本上一切形式的人類表達(dá)上面的應(yīng)用。他們寫(xiě)道： “我們對(duì)以注意力為基礎(chǔ)的模型之未來(lái)感到興奮,。我們計(jì)劃將transformer擴(kuò)展到輸入與輸出模態(tài)不是文本的問(wèn)題”,，還要研究“圖像,、音頻和視頻”。

還有幾天就到截止日期的一個(gè)晚上,，烏斯克爾特意識(shí)到自己的論文得取個(gè)標(biāo)題,。瓊斯指出，該團(tuán)隊(duì)已經(jīng)徹底摒棄公認(rèn)的最佳實(shí)踐,，其中最突出的是 LSTM,，而轉(zhuǎn)向這一項(xiàng)技術(shù)：注意力機(jī)制。瓊斯回憶道,，披頭士樂(lè)隊(duì)有首歌叫做“你所需要的只是愛(ài)”（ All You Need Is Love）,。為什么不把這篇論文叫做“你所需要的只是注意力”（ Attention Is All You Need）呢？

披頭士,？

瓊斯說(shuō)：“我是英國(guó)人,。其實(shí)我想到這個(gè)只用了五秒鐘。我沒(méi)想到他們會(huì)采納,?！?/p>

在截止日期到達(dá)之前他們都在不斷收集實(shí)驗(yàn)結(jié)果。帕爾瑪說(shuō)： “我們大概是在提交論文的五分鐘前才弄到,，英法互譯數(shù)據(jù)的,。那時(shí)候我正坐在1965號(hào)樓的一個(gè)迷你廚房里，把最后一批數(shù)字弄進(jìn)去,?！辈坏絻煞昼娭螅麄兙桶颜撐陌l(fā)出去了,。

跟幾乎所有的科技公司一樣,，谷歌很快就為這項(xiàng)工作申請(qǐng)了臨時(shí)專利。原因不是為了阻止其他人借鑒這些想法,，而是出于防御目的建立其專利組合,。（該公司的理念是“如果科技有所進(jìn)步，谷歌就會(huì)從中受益,?！保?/p>

Transformer團(tuán)隊(duì)收到的同行評(píng)審反響不一。帕爾瑪說(shuō)：“有一個(gè)評(píng)價(jià)是積極的,，有一個(gè)非常積極,，還有一個(gè)評(píng)價(jià)是，‘還行吧’”,。該論文被采用了,，但只是被放在了晚間海報(bào)展示環(huán)節(jié)。

到 12 月開(kāi)會(huì)時(shí),，這篇論文引起了轟動(dòng),。 12 月 6 日,，他們四小時(shí)的海報(bào)展示現(xiàn)場(chǎng)已經(jīng)擠滿了想要了解更多信息的科學(xué)家。作者們聊到聲音都嘶啞了,。到了晚上10點(diǎn)30分會(huì)議結(jié)束時(shí),，現(xiàn)場(chǎng)仍然人頭攢動(dòng)。烏斯克爾特說(shuō)：“最后保安只能讓我們離開(kāi)”,。不過(guò)對(duì)他來(lái)說(shuō)也許最滿意的時(shí)刻是計(jì)算機(jī)科學(xué)家塞普·霍赫賴特 (Sepp Hochreiter) 的現(xiàn)身,，后者還贊揚(yáng)了這項(xiàng)工作——鑒于霍赫賴特是長(zhǎng)短時(shí)記憶（LSTM）的共同發(fā)明者，而transformer剛剛?cè)〈薒STM在人工智能工具包的主流地位,，這算是相當(dāng)高的贊譽(yù)了,。

墻外開(kāi)花

Transformer 剛開(kāi)始并沒(méi)有馬上征服世界，甚至連谷歌都沒(méi)有征服掉,。凱撒回憶道,，在論文發(fā)表的時(shí)候，薩澤爾曾建議公司高層徹底拋棄搜索索引,，而是用 Transformer 訓(xùn)練一個(gè)龐大網(wǎng)絡(luò)——也就是基本上徹底改變谷歌組織信息的方式,。那時(shí)候，即便是凱撒也覺(jué)得這個(gè)想法很荒謬,。而現(xiàn)在的共識(shí)是,，這只是時(shí)間問(wèn)題,。

但有家初創(chuàng)公司的反應(yīng)就要迅速許多,。論文發(fā)布后不久，OpenAI 的首席研究員伊爾亞·蘇茨克維（Ilya Sutskever,，此前在谷歌任職時(shí)他就知道 Transformer 團(tuán)隊(duì)了）建議由自己的科學(xué)家亞歷克·雷福德（Alec Radford）研究這個(gè)想法,。其結(jié)果便是最早期的 GPT 產(chǎn)品。就像 OpenAI 的 CEO 山姆·阿爾特曼（Sam Altman）去年所說(shuō)那樣：“Transformer 的論文發(fā)表時(shí),，我覺(jué)得谷歌沒(méi)人意識(shí)到它會(huì)產(chǎn)生什么樣的深遠(yuǎn)影響,。”

但從內(nèi)部看情況更為復(fù)雜,。烏斯克爾特說(shuō)：“我們很清楚 Transformer 能做出很神奇的事情,。放在今天你可能會(huì)問(wèn)，為什么谷歌 2018年不能退出像 ChatGPT 這樣的產(chǎn)品,？說(shuō)實(shí)話,， 2019 ，或許 2020 年我們就能有 GPT-3 或甚至 GPT-3.5這樣的產(chǎn)品,。問(wèn)題不在于他們有沒(méi)有意識(shí)到,，而在于為什么我們看到之后沒(méi)有采取行動(dòng)。這個(gè)答案很復(fù)雜,?！?/p>

許多技術(shù)評(píng)論人士指出,，谷歌已經(jīng)從原先的創(chuàng)新中心慢慢變成更注重利潤(rùn)和效率的官僚機(jī)構(gòu)。戈麥斯在接受《金融時(shí)報(bào)》采訪時(shí)指出,，“他們沒(méi)有跟上現(xiàn)代化的腳步,，沒(méi)有采納這項(xiàng)新技術(shù)?！辈贿^(guò),，對(duì)一個(gè)領(lǐng)導(dǎo)行業(yè)并攫取巨額利潤(rùn)數(shù)十年的企業(yè)巨頭來(lái)說(shuō)，冒險(xiǎn)采用全新技術(shù)確實(shí)是一大挑戰(zhàn),。谷歌的確在2018年開(kāi)始往產(chǎn)品整合了 Transformer,，首當(dāng)其沖的是翻譯工具。同樣在那一年,，它還推出了一個(gè)基于 Transformer 的新型語(yǔ)言模型BERT,，并在第二年開(kāi)始將其應(yīng)用于搜索服務(wù)。

但是,，跟 OpenAI 的巨大飛躍與微軟將基于 Transformer 的系統(tǒng)大膽集成到其產(chǎn)品線相比,，谷歌這些內(nèi)部技術(shù)調(diào)整就顯得比較保守了。去年當(dāng)我詢問(wèn)首席執(zhí)行官桑達(dá)爾·皮查伊（Sundar Pichai）為什么率先推出像 ChatGPT 這樣的大語(yǔ)言模型的不是谷歌時(shí),，他認(rèn)為在這種情況下,，讓別人先走一步對(duì)谷歌是有好處的。他回答說(shuō)：“對(duì)于這樣做會(huì)不會(huì)一樣成功還不是完全明朗,。事實(shí)上,，在人們看到它的工作原理之后，我們有能力做得更多,?！?/p>

一個(gè)不可否認(rèn)的事實(shí)是，這篇論文八位作者全都已離開(kāi)谷歌,。波洛蘇欣的公司 Near打造出一種市值約達(dá) 40 億美元的區(qū)塊鏈代幣。帕爾馬與瓦斯瓦尼在 2021 年開(kāi)始搭檔創(chuàng)業(yè),，成立了 Adept （估值約 10 億美元）,，現(xiàn)在兩人又合伙創(chuàng)辦了第二家公司 Essential AI（已獲得 800 萬(wàn)美元融資）,。利昂·瓊斯在東京設(shè)立的 Sakana AI 的目前估值約為 2 億美元。薩澤爾于 2021 年 10 月離職,，與人聯(lián)合創(chuàng)辦了 Character AI （估值為 50 億美元）,。艾丹·戈麥斯是團(tuán)隊(duì)里面的實(shí)習(xí)生，2019 年,，他回到多倫多與人共同創(chuàng)立了 Cohere（估值約 22 億美元）,。雅各布·烏斯克爾特的生物科技公司 Inceptive估值為 3 億美元。除了 Near 以外,，這些公司的安身立命之基都是 Transformer 技術(shù),。

凱撒是唯一沒(méi)有出來(lái)創(chuàng)業(yè)的人。他加入了 OpenAI,，是一個(gè)叫做 Q* 的新技術(shù)的發(fā)明者之一,，阿爾特曼去年曾表示，這項(xiàng)技術(shù)將“揭開(kāi)無(wú)知的面紗,，推動(dòng)發(fā)現(xiàn)的前沿”,。（當(dāng)我在采訪中試圖就此問(wèn)題詢問(wèn)凱撒時(shí)，OpenAI 的公關(guān)幾乎是蹦起來(lái)讓他馬上閉嘴,。）

谷歌會(huì)想念這些逃亡者嗎,？當(dāng)然會(huì)，也包括其他從谷歌出走創(chuàng)辦人工智能初創(chuàng)公司的那些人,。（當(dāng)我問(wèn)皮查伊有關(guān) Transformer 技術(shù)人員離職的問(wèn)題時(shí),，他提醒我，被業(yè)界人士熱捧的 OpenAI也不是鐵板一塊,，也有人出走,。他表示：“人工智能這個(gè)領(lǐng)域瞬息萬(wàn)變”,。）但谷歌可以很自豪地宣告,，他們已經(jīng)打造出一個(gè)支持非常規(guī)思想探索的環(huán)境。帕爾馬表示：“從很多方面來(lái)看,，谷歌一直都走在前列——他們投資到合適的腦袋,，并創(chuàng)造出讓我們可以隨心所欲地探索和挑戰(zhàn)極限的環(huán)境。他們需要時(shí)間去接納新事物并不奇怪,，畢竟谷歌所承擔(dān)的風(fēng)險(xiǎn)要大得多,。”,。

如果沒(méi)有那種環(huán)境的話,，Transformer就不會(huì)出現(xiàn)。這些論文作者不僅都是谷歌的員工,，而且還在同一間辦公室工作,。走廊的偶遇與午餐時(shí)的閑聊有時(shí)候也會(huì)擦出思想的火花,。這個(gè)團(tuán)隊(duì)在文化上十分的多元化。其中有六位作者出生在美國(guó)以外的地方,，而另外兩位,，一個(gè)是兩個(gè)獲得綠卡，曾在加州短暫停留的德國(guó)人的孩子,，還有一個(gè)是為了逃避迫害才來(lái)到美國(guó)的第一代美國(guó)人的后代,。

烏斯克爾特在柏林的辦公室里說(shuō)道，創(chuàng)新就是打造合適的土壤,。他說(shuō)：“有對(duì)某件事情充滿激情,，正好又處在人生合適時(shí)候的人。有了這些之后,，如果在做的過(guò)程中能感受到樂(lè)趣,，同時(shí)研究的又是合適的問(wèn)題的話——再加上一點(diǎn)運(yùn)氣——那么奇跡就會(huì)出現(xiàn)?！?/p>

在烏斯克爾特跟他那位出名的老爸之間,，也發(fā)生了一件不可思議的事。在無(wú)數(shù)次的餐桌辯論之后,，兒子報(bào)告說(shuō),，漢斯·烏斯克爾特現(xiàn)在也開(kāi)始跟人共同創(chuàng)立了一家致力于開(kāi)發(fā)大語(yǔ)言模型的公司了。當(dāng)然了,，用的也是 Transformer 技術(shù),。

譯者：boxi。

免責(zé)聲明：本文來(lái)自網(wǎng)絡(luò)收錄或投稿,，觀點(diǎn)僅代表作者本人,，不代表芒果財(cái)經(jīng)贊同其觀點(diǎn)或證實(shí)其描述，版權(quán)歸原作者所有,。轉(zhuǎn)載請(qǐng)注明出處：http://lequren.com/1094939.html
溫馨提示：投資有風(fēng)險(xiǎn),，入市須謹(jǐn)慎。本資訊不作為投資理財(cái)建議,。

8 名谷歌員工發(fā)明了現(xiàn)代人工智能,，這是那篇論文的內(nèi)幕故事

已成傳奇

誕生故事

墻外開(kāi)花

相關(guān)推薦