原文來源:硅基立場
圖片來源:由無界 AI生成
每次Google在生成式人工智能領(lǐng)域祭出大招,,都能讓人感到一種隱秘且巨大的情緒力量:隱忍,、不甘與較量。
在5月的Google I/O上,,Google發(fā)布PaLM系列模型,,即被視為是對彼時風(fēng)頭正盛的GPT-4的強勁挑戰(zhàn)。年底毫無預(yù)警地祭出Gemini系列大語言模型(包含移動版Nano,、基礎(chǔ)版Pro和高級版Ultra),,在關(guān)鍵性能和基準評測指標上針對GPT的意圖更加直接。
Google官方聲稱:在被大型語言模型研究和開發(fā)廣泛使用的 32 項學(xué)術(shù)基準中,Gemini Ultra 的性能有 30 項超越了目前GPT–4代表的最先進水平,。Gemini標榜“原生多模態(tài)”,,這讓它一開始就在文本、圖像,、音頻,、視頻和代碼等組合模態(tài)上進行預(yù)訓(xùn)練,故而可能在復(fù)雜理解和推理方面有更強表現(xiàn),,特別是解決數(shù)學(xué)和物理問題,。
Google不遺余力地強調(diào)上述優(yōu)勢——OpenAI走的是“漸進式多模態(tài)”的路,先基于文本語料,,代碼跟進,,再圖像視頻音頻,最后把這些能力組合在一起訓(xùn)練,。而Gemini從一開始就在多模態(tài)語料上訓(xùn)練,,再用多模態(tài)數(shù)據(jù)調(diào)優(yōu),比OpenAI訓(xùn)練GPT的方法“先進”一些,。
“先進”的多模態(tài)訓(xùn)練,,理論上能帶來更強勁的性能。公布的Gemini Ultra學(xué)術(shù)基準評測結(jié)果大面積超越GPT-4的細節(jié)似可說明,。但學(xué)術(shù)基準測試本身就是理論的一部分,,并不能真正體現(xiàn)應(yīng)用的效果。不少人擠兌中國一些大語言模型熱衷于基準測試“刷分”,,我們該一視同仁,Google的做法與國內(nèi)大模型沖著超越GPT刷分,,本質(zhì)上沒有什么不同,。
目前社交平臺X上實測Gemini Pro(Bard聊天機器人目前只支持Pro版)的用戶已經(jīng)貢獻了不少吐槽。比如它混淆了2023年和2022年的奧斯卡獎獲得者,,也不會用Python寫入兩個多邊形的交集這種簡單函數(shù),。我們還發(fā)現(xiàn)它識別不出葉子的數(shù)量,以及做不對簡單的求銳角幾何題,。即便Gemini Pro對標的是GPT-3.5,,它也還是差了點意思。
被人們指出的另一個突出問題是Gemini的宣傳視頻“造假”:Gemini Ultra對一組手勢動作很快做出反應(yīng),,說這是一個石頭剪子布的游戲,,但它未被視頻顯示的功能文檔卻給出了至少兩條提示:“我在做什么?”,,“提示,,這是一個游戲”。其它的一些測試甚至需要更多的提示問題輔助生成結(jié)果,但這個過程在Gemini的官方視頻里被省略掉了,。以至于大多數(shù)不太較真的人高估Gemini的理解能力和反應(yīng)速度,,這不能不說是個誤導(dǎo)。
我到現(xiàn)在都記得2017年我在Google I/O的現(xiàn)場,,臺上的Google員工演示如何通過Google Assistant語音助手直接預(yù)訂一家餐廳,,下面掌聲雷動,我也跟著拍巴掌,,覺得太棒了,。但一個月后即傳出這是一個事先準備好的橋段。Google沒有造假,,但它通常太希望展示其AI能力的無與倫比,,太急切地呈現(xiàn)自己的AI樂觀主義,以至于經(jīng)??s略呈現(xiàn)了背后的過程,,也就事實上夸大了效果。
說白了,,Gemini視頻的夸張呈現(xiàn),,只是說明Google太在意Gemini比GPT強了。它很著急,,加上人們對任何跟ChatGPT較勁的任何大模型,,特別是巨頭的“杰作”,通常都比較苛刻,。當(dāng)然,,人們對Google是最苛刻的——畢竟OpenAI選擇用Google發(fā)明的Transformer架構(gòu)搞出了劃時代的GPT模型,動機之一就是擺脫Google無所不在的AI壓制,,那誰還不希望看見Google露怯呢,。
某種程度上,Google是OpenAI在這個星球上唯一的孿生,。包括Meta的LLamA架構(gòu)都是開源的,,以馬斯克老師對開源的偏愛,Grok未來大概率也得開源,。中國的大語言模型也在不同程度上都走了開源道路,。只有OpenAI和Google是堅定閉源的,這就讓Google在大語言模型上的進展,,本能地與OpenAI形成了強綁定關(guān)系,。
還有一個戲劇性的張力:每次OpenAI有圍繞GPT的大動作,輿論都會喊Google出來挨一回落后就要挨的打,。然后Google差不多一定會在OpenAI出招之后的一到兩個月,,祭出一個新的大招,,證明一下你大爺還是你大爺。然后再憋幾個月,,OpenAI再出招,,Google再被喊出來挨打。格局真就會因此改變么,?
某種程度看,,Google在生態(tài)建設(shè)上還是比OpenAI落后了一個身位。畢竟這個世界上已經(jīng)有幾百萬個開發(fā)者自己做的GPTs了,。而Google最早要到明年初才能向開發(fā)者和企業(yè)客戶提供強化訓(xùn)練反饋后的Gemini Ultra,,讓人們在上面開發(fā)自己的應(yīng)用。到那時恐怕GPT Store都已經(jīng)正式推出來了,。我一直有點困惑,,Google當(dāng)年難道不是靠Android的開源奪得蘋果半壁江山的么?這次怎么把這個角色讓給Meta了,?
我真的不是要怪Google,,我更期待Google證明自己。我們這群在1990年代末接觸互聯(lián)網(wǎng)的人,,對Google是有一些很微妙的特殊感情的,。而Google也必須證明自己的AI First戰(zhàn)略能結(jié)出真正的果實。只是GPT的幽靈在Google徘徊,,是一個事實,。誰都可以試圖擺脫這個幽靈,唯獨Google不行,,這是它無可選擇的對手,。
其實Google今天圍繞Gemini所做的一切,某種程度上能讓我們中國的大語言模型開發(fā)者心有共鳴:大家的頭頂上都徘徊著GPT的幽靈,,這就讓大家都試圖通過某些努力,,證明自己在某些方面比GPT做得更好。
Google在Gemini基準測試中采用了一切小“技巧”(采用更復(fù)雜的思維鏈提示和結(jié)果選優(yōu),,而測試GPT只用5次反饋且無提示詞)獲得了碾壓GPT的成績,類似的測試方法我們是不是聽起來很熟悉,?中國的大語言模型研發(fā)者有沒有一種老鄉(xiāng)見到了老鄉(xiāng)的戚戚然的感覺,?
我們經(jīng)常喜歡將智譜、百度和Minimax的努力與OpenAI做對比,,但換一個思路,,其實大語言模型的較量,何嘗不是百度,、智譜,、Minimax,、Google、Meta,、Anthropic和Grox們一起在圍攻OpenAI的光明頂,?從這個意義上,中國大模型和美國除OpenAI之外的大模型在一個陣營一個戰(zhàn)壕里,,是報團也是互相學(xué)習(xí)的對象,。大模型的百草我們這些神農(nóng)嘗多了,就發(fā)現(xiàn)我們中國的大模型不是比美國的大模型差,,只是不如ChatGPT,,就這樣。
Google這次訓(xùn)練Gemini另一個值得圈點的地方,,是它完全采用了自家的芯片集群——TPU進行的訓(xùn)練,。Google官宣TPUs v4和 v5e在通過AI優(yōu)化過的基礎(chǔ)設(shè)施上實現(xiàn)了這一大規(guī)模訓(xùn)練,可擴展性強且推理最高效,。這恐怕是我們聽說的一款性能還算強勁的大語言模型,,不依賴英偉達的算力和軟硬件架構(gòu)而修成正果的。當(dāng)然人家TPU是自產(chǎn)自銷的,,但我看到了“替代英偉達”這件事在大模型訓(xùn)練實操上的可能性和可行性,。這對中國的大語言模型訓(xùn)練意味著什么,不言自明,。
此外,,Gemini Nano也是一個亮點,這是一款尺寸最小的Gemini模型,,優(yōu)先用于G家自產(chǎn)的Pixel 8手機上,。“端側(cè)大模型”是近期的一個話題,,其實它更接近“小模型”,。中國智能手機廠商OPPO、vivo和小米近期都有發(fā)布自己的端側(cè)模型,,聯(lián)想則從AI PC的維度也切進了事實上的同一個領(lǐng)域,。這次Google加入了這個陣營,應(yīng)該是一個信號,,這件事值得努力,,有的做。
其實很神奇,。從Google這次Gemini模型的發(fā)布,,我看到了Google與一眾我們熟悉的中國大語言模型開發(fā)者同樣的境遇和努力:那種隱忍、不甘和較量,,那種偶爾展露的在一些基準測試關(guān)鍵指標上跟OpenAI較勁的小手段和小心思,,那些試圖建立自己生態(tài)的步步為營,,那種試圖擺脫英偉達算力的嘗試,以及基于移動優(yōu)勢在端側(cè)模型的努力……面對OpenAI,,大家都是一樣的,。
一個GPT的幽靈,在Gemini的上空徘徊,,也在我們每一個中國大語言模型的上空徘徊,。
免責(zé)聲明:本文來自網(wǎng)絡(luò)收錄或投稿,觀點僅代表作者本人,,不代表芒果財經(jīng)贊同其觀點或證實其描述,,版權(quán)歸原作者所有。轉(zhuǎn)載請注明出處:http://lequren.com/1082693.html
溫馨提示:投資有風(fēng)險,,入市須謹慎,。本資訊不作為投資理財建議。