国产欧美日韩A片免费软件,超碰免费人人干网站

“我正在臺上給大家做現(xiàn)場演示呢,，有點緊張怎么辦？”

“你在臺上做演示嗎？那真是太棒了,！深呼吸一下吧,，要記得你可是專家！”

圖/視覺中國

邏輯清晰,，語調(diào)幽默，感情飽滿,，很難想象這是現(xiàn)實中人類與AI間的對話,。北京時間5月14日凌晨，美國人工智能公司OpenAI的春季發(fā)布會上線,，發(fā)布了重磅產(chǎn)品,，也就是人工智能大模型ChatGPT-4的升級版GPT-4o,。前述對話就發(fā)生在發(fā)布會現(xiàn)場，這位提問的研發(fā)負(fù)責(zé)人在得到GPT-4o的回應(yīng)后,，隨即故意大喘幾口氣,，這一動作成功被手機上的GPT-4o捕捉到，并給出了“放松點,，你可不是吸塵器”的回應(yīng),。

5月14日,，OpenAI發(fā)布會現(xiàn)場,，GPT-4o正在告訴工作人員“放松點，你可不是吸塵器”,。圖/OpenAI官網(wǎng)視頻截圖

“GPT-4o可以綜合利用語音、文本和視覺信息進行推理?！監(jiān)penAI首席技術(shù)官穆里·穆拉蒂在隨后舉行的主題演講中表示,，GPT-4是OpenAI此前的旗艦?zāi)Ｐ停梢蕴幚韴D像和文本的混合信息,，而GPT-4o則在此基礎(chǔ)上新增了語音處理能力,。最關(guān)鍵的是，其反應(yīng)速度平均為320毫秒,，完全做到了與人類在正常對話中同頻,。多位業(yè)內(nèi)人士指出，這是此前GPT-4或任何智能語音助手都未曾達到的水平,。

就在OpenAI發(fā)布會24小時后,，5月15日凌晨，谷歌在“I/O開發(fā)者大會”上發(fā)布了大模型Gemini加持下的個人數(shù)字助理Project Astra,，用于對標(biāo)GPT-4o,。谷歌稱其為“通用AI智能體”，其視覺識別和語音交互效果與GPT-4o不相上下,。不少業(yè)內(nèi)人士感嘆,，曾幾何時由蘋果發(fā)布會主導(dǎo)的“科技春晚”，如今已被AI大模型徹底接手,。

邁向通用語音助手

OpenAI創(chuàng)始人,、CEO薩姆·奧爾特曼并未參加此次OpenAI發(fā)布會，而是在會后于社交平臺X上發(fā)表了一個單詞“她”作為回應(yīng),。在2013年的美國電影《她》中,，男主結(jié)識了一個可以不斷適應(yīng)環(huán)境的AI系統(tǒng)，并與其墜入愛河,。這個AI系統(tǒng)所擁有的迷人聲線,、幽默風(fēng)趣和善解人意，如今GPT-4o似乎都可以實現(xiàn)了,。

01:07

測試人員與GPT-4o對話,，內(nèi)容是為一場工作面試做準(zhǔn)備。視頻/OpenAI官網(wǎng)

GPT-4o中的“o”源自詞綴“omni-”,，有“全知全能”之義,。對AI大模型而言，要做到全知全能,、無障礙與人交流,，首先要快。OpenAI官網(wǎng)顯示,，GPT-4o在英文文本和代碼處理上與此前最新的GPT-4 Turbo的性能不相上下,，但在非英文文本,、視覺和音頻理解方面都更為高效。此前,，若使用語音模式對話,，GPT-3.5的平均延遲為2.8秒，GPT-4則為5.4秒,。人類的平均反應(yīng)時間一般為100毫秒到400毫秒,，而GPT-4o最低可達232毫秒，因此后者可以提供幾乎無延遲的順暢交互體驗,。

OpenAI此次未放出任何具體的技術(shù)文件,，僅在主頁上用一段話介紹了GPT-4o的技術(shù)突破。普通的智能語音模型由多個獨立模型組成,，分別實現(xiàn)音頻轉(zhuǎn)文本,，文本吞吐和處理，以及文本再轉(zhuǎn)音頻等功能,。ChatGPT就是負(fù)責(zé)文本吞吐和處理的核心,，也就是智能核心。據(jù)OpenAI介紹,，GPT-4o一改這種流水線模式,，可以同時吞吐文本、畫面和音頻數(shù)據(jù),，這意味著所有輸入和輸出都由這一個核心來處理,，再加上其在視頻和音頻理解方面的升級，其處理速度顯著加快,。這一模式被稱為“端到端的多模態(tài)模型”,。

多模態(tài)還意味著AI可以識別和表現(xiàn)情感。目前,，市面上的語音助手常被用戶詬病為冷漠,、機械、一成不變,，這是AI語音交互的一大阻礙,。這是因為，此前的流水線模式會讓智能核心丟失很多信息,，它很難探測語調(diào),、識別多個說話者、排除背景噪聲,，也無法歌唱或用語氣表達情感,。端到端模式下，文字和音視頻都可以成為訓(xùn)練智能核心的數(shù)據(jù),，從而讓其真正明白語言所承載的情感,。

OpenAI發(fā)布會上,，演示者要求GPT-4o調(diào)整說話時語氣，在說話和唱歌之間快速切換,，甚至用堪比莎士比亞戲劇的夸張聲調(diào)來講一個睡前故事,，GPT-4o都能完成任務(wù)。在被人類打斷時,，其也能耐心等待、快速理解新指令,。在聽到讓自己唱歌的要求時,，GPT-4o甚至輕微嘆了口氣。

清華大學(xué)智能產(chǎn)業(yè)研究院首席研究員聶再清對《中國新聞周刊》稱,，從現(xiàn)場和官方視頻來看,，GPT-4o確實做到了即時回應(yīng)、準(zhǔn)確理解并執(zhí)行指令,，以及合時宜的語調(diào)情感,。如果這確實是現(xiàn)場隨機的結(jié)果，而非為了演示而設(shè)定好的流程,，那么GPT-4o的能力的確令人震驚,。在他看來，由于缺乏技術(shù)文件,，一個GPT-4性能水平的處理核心如何完成如此復(fù)雜的任務(wù),，還未可知，但“這一定是大數(shù)據(jù)喂養(yǎng)的結(jié)果”,。

除了現(xiàn)場演示,，發(fā)布會還有網(wǎng)友提問環(huán)節(jié)。按照網(wǎng)友要求,，GPT-4o展示了同聲傳譯,、情緒識別的能力。在識別一位工作人員的面部情緒時,，GPT-4o說“我好像在看一個木質(zhì)表面的東西”,，疑似“翻車”，但該工作人員立刻調(diào)整提問策略,，聲明自己“不是一張桌子”,。之后，GPT-4o給出了合乎情理的答案,。

GPT-4o并不是第一個多模態(tài)模型,。去年12月，谷歌Gemini Ultra模型發(fā)布,，用于完成任務(wù)語言理解,、數(shù)學(xué)推理等高度復(fù)雜的任務(wù),，被業(yè)內(nèi)認(rèn)為可叫板當(dāng)時的GPT-4，也是市面上最先發(fā)布的多模態(tài)模型,。在谷歌官方公布的視頻中,，測試員和Gemini做了一些小游戲，Gemini能夠用圖片設(shè)計智力問答,，或者找出紙團被扣在哪個紙杯底下,。整個過程中，Gemini的反應(yīng)速度都非?？?，還會生成音頻和圖片來輔助回答。但發(fā)布會后僅數(shù)日,，谷歌發(fā)言人便公開承認(rèn),，該演示視頻不是實時錄制， Gemini實際上只能對靜態(tài)圖像做出反應(yīng),。

因此,，GPT-4o的發(fā)布被業(yè)內(nèi)人士看作是OpenAI對谷歌的“貼臉開大”。谷歌則緊隨其后,，在15日的發(fā)布會上予以還擊,。相比于OpenAI不足半小時的“輕聲細語”，谷歌用長達近兩小時,、包含數(shù)十款A(yù)I產(chǎn)品的大轟炸叫板OpenAI,，包括文生視頻領(lǐng)域?qū)?biāo)Sora 的Veo，以及對標(biāo)ChatGPT但文本吞吐量遠超前者的Gemini 1.5 Pro,。

5月15日，谷歌首席執(zhí)行官孫達爾·皮柴在谷歌I/O開發(fā)者大會上發(fā)表主題演講,。圖/視覺中國

谷歌發(fā)布的視頻中,，Project Astra能識別各種物體，說出代碼的功用,，并與人類實時溝通,，延遲上與GPT-4o沒有明顯差異。Project Astra還能與谷歌AR原型眼鏡“夢幻聯(lián)動”,，為佩戴者描述周圍場景,，并根據(jù)佩戴者的反饋補充細節(jié)。這一應(yīng)用有可能力壓OpenAI,，在未來成為視覺障礙患者的福音,。有業(yè)內(nèi)人士分析，除了搜索引擎,，谷歌在AI大模型領(lǐng)域還在拉平與OpenAI差距的過程中,。

在聶再清看來,，兩家公司接連發(fā)布多模態(tài)語音助手，在易用性方面邁出了一大步,，讓人窺見了未來通用語音助手的樣貌,。通用語音助手就是人類在數(shù)字世界里的代理或管家，可以幫人解決一切數(shù)字事務(wù),，包括安排日程,、整理和調(diào)用文件、利用知識指導(dǎo)學(xué)習(xí),、利用記憶推薦可能喜歡的產(chǎn)品等,。未來隨著模型吸納的信息越來越多，語音助手會更加人性化,、更加智能，做到真正的自然交互,。隨著視頻能力的加入,，除語音外，表情,、肢體動作等也能夠被模型解讀,，作為其決策的依據(jù)。有網(wǎng)友評論稱,，無論是GPT-4o還是Project Astra,，其身手足以秒殺蘋果的語音助手Siri。

距離用戶越來越近

OpenAI在發(fā)布會上表示,， GPT-4o將在未來幾周內(nèi)分階段集成至OpenAI的各項服務(wù)之中,，包括還未面世的ChatGPT搜索引擎。許多業(yè)內(nèi)人士對此次發(fā)布會上GPT-5的缺席表示惋惜,，由于OpenAI在2022年底推出ChatGPT的時候,，實際上已做出了GPT-4，因此有業(yè)內(nèi)人士預(yù)測,，帶搜索引擎的GPT-5也許已“在路上”,。英偉達高級科學(xué)家Jim Fan在X上表示，GPT-4o已經(jīng)接近GPT-5,，或許是后者的一次早期試水,。據(jù)聶再清觀察，目前還沒有看到模型迭代的瓶頸,，大模型的迭代速度有可能還會加快,。

奧爾特曼在X上表示，OpenAI致力于將GPT-4o免費提供給所有用戶使用,。以往,，OpenAI發(fā)布新版ChatGPT模型時,，通常會將其置于付費墻之后。如今,，免費用戶已經(jīng)可以訪問GPT-4o加持下的多項功能,，例如分析數(shù)據(jù)、創(chuàng)建圖表,、撰寫文件總結(jié)等,，但不能使用圖片生成功能。付費用戶則可以享受5倍調(diào)用額度,。谷歌在發(fā)布會中沒有公布Project Astra的具體上線時間,，預(yù)計很快會登錄到安卓、iOS等平臺使用,。

對開發(fā)者來說,，GPT-4o的定價也更友好。OpenAI官網(wǎng)顯示,，從GPT-4開始,，輸入單位文本的價格一直在下降，相較GPT-4 Turbo,，GPT-4o收費降低50%,，調(diào)用速度卻提升了兩倍。這使其在商業(yè)應(yīng)用上有了更大吸引力,。聶再清表示,，大模型控制價格的方式之一是提升模型性能，用更少的資源做更多的事,；另一個方式則是通過類似搜索引擎的商業(yè)模式,，對用戶免費，但可以收取廣告商的贊助,。

至于未來OpenAI和谷歌的大模型有沒有開源的可能性,，聶再清表示，參考iOS和安卓,，一個閉源一個開源,，未來的大模型市場也極有可能出現(xiàn)開源和閉源的巨頭。用戶體驗最好的行業(yè)領(lǐng)先者傾向于閉源,，而開源的好處在于可以集體將模型“做大做強”,，二者在市場都有自己的位置。谷歌在發(fā)布會中推出了其首個視覺語言開源模型PaliGemma,，針對圖像標(biāo)注,、視覺問答、圖像標(biāo)簽化等方面進行了優(yōu)化。此外,，谷歌還將在6月推出更大規(guī)模的開源模型Gemma 2 27B,。

OpenAI也同步發(fā)布了適用于macOS的ChatGPT桌面應(yīng)用程序，使用戶調(diào)用的體驗更絲滑,。

GPT-4o加持下的通用語音助手在未來將有廣泛應(yīng)用,，例如健康管理、醫(yī)療咨詢,、教育教輔等領(lǐng)域,。聶再清認(rèn)為，所有開放領(lǐng)域用到的語音智能,，例如購物App中的導(dǎo)購等,，都可以加裝類似GPT-4o的智能核心，增強用戶體驗,。這類語音助手將離用戶越來越近,。

作者：周游

編輯：杜瑋

免責(zé)聲明：本文來自網(wǎng)絡(luò)收錄或投稿，觀點僅代表作者本人,，不代表芒果財經(jīng)贊同其觀點或證實其描述,，版權(quán)歸原作者所有。轉(zhuǎn)載請注明出處：http://lequren.com/1104389.html
溫馨提示：投資有風(fēng)險,，入市須謹(jǐn)慎。本資訊不作為投資理財建議,。

AI可以“做個人了”，怎么辦

相關(guān)推薦