央廣網(wǎng)北京5月15日消息(記者 牛谷月)北京時間15日凌晨1點,,谷歌召開年度I/O開發(fā)者大會,。根據(jù)谷歌官方統(tǒng)計,,在這場110分鐘演講中,,谷歌CEO桑達爾·皮查伊(Sundar Pichai)提及AI的次數(shù)高達121次,,同時推出了一系列以AI為核心的產(chǎn)品和服務(wù),。而就在前一天,ChatGPT的開發(fā)公司OpenAI的首席技術(shù)官米拉·穆拉提(Mira Murati)進入直播室,,發(fā)布了OpenAI的春季大更新,,包括桌面版本的ChatGPT,以及可實時進行音頻,、視覺和文本推理的最新旗艦大模型GPT-4o,。Google新發(fā)布的“AI全家桶”,更被視作是對GPT-4o的回擊和“叫板”,。人類對AI的探索如火如荼,,人機交互再次大邁步,打破了傳統(tǒng)“語音助手”的桎梏,。大模型就像給AI裝上了“眼睛耳朵嘴巴”,,從此你的快樂傷悲它都能“體會”。未來已經(jīng)來臨了嗎,?“讀取人類情緒”——向更自然的人機交互邁進一步在OpenAI的春季發(fā)布會上,,雖然大家沒能見到GPT-5,但GPT-4o的出現(xiàn)仍然驚艷,。據(jù)OpenAI官網(wǎng)介紹,,GPT-4o中的“o”代表“Omni”,這是一個基于GPT-4之上的多模態(tài)大模型,。OpenAI稱,,它向更自然的人機交互邁進了一步,因為它接受文本,、音頻和圖像的任意組合作為輸入內(nèi)容,,并生成文本、音頻和圖像的任意組合輸出內(nèi)容,。值得注意的是,,GPT-4o能夠與用戶進行多樣化的語氣交互,并精準捕捉到用戶的情緒變化,。發(fā)布會上,OpenAI前沿研究部門主管陳信翰(Mark Chen)讓GPT-4o聆聽他的呼吸,,聊天機器人偵測到他急促的呼吸,,并且建議他不要“像吸塵器那樣呼吸”,,要放慢速度。隨后Mark深呼吸一次,,GPT-4o表示這才是正確的呼吸方式,。同時,研究員巴雷特·佐夫(Barret Zoph)還演示了GPT-4o是如何通過前置攝像頭觀察用戶的面部表情,,分析其情緒的,。“GPT-4o不僅能夠理解用戶的語氣,,還能做到恰到好處的反應(yīng),。”DCCI互聯(lián)網(wǎng)研究院院長劉興亮感慨道,,“想象一下,,GPT-4o在你緊張的時候能夠安慰你,讓你深呼吸,,甚至開個小玩笑緩解你的壓力,。這種情感識別能力使得人機交互變得更加自然和親切,仿佛我們身邊有了一個懂我們心情的貼心朋友,?!倍谝惶旌蟮墓雀鐸/O開發(fā)者大會上,谷歌緊跟其后,,發(fā)布了一款名為Project Astra的谷歌AI助手,。這款通用模型通過智能手機的攝像頭捕捉并分析周圍環(huán)境,還能與用戶進行實時對話,。在演示視頻中,,用戶手持手機,將攝像頭對準辦公室的不同角落,,并通過語言與系統(tǒng)進行交互,。例如,當(dāng)用戶發(fā)出指令“請告訴我智能眼鏡在哪里”時,,Astra能夠迅速識別物體,,并與用戶進行實時的語音交流。同時,,當(dāng)用戶看向窗外,,智能助手立刻就說出了用戶的詳細地址:“這兒顯然是倫敦的國王十字路口區(qū)域?!彼部梢岳斫饫L畫和圖像,,如可以對一個寫在白板上的系統(tǒng)流程圖給出意見“在服務(wù)器和數(shù)據(jù)庫間添加緩存可以提高速度”。DeepMind聯(lián)合創(chuàng)始人兼首席執(zhí)行官德米斯·哈薩比斯(Demis Hassabis)稱,,Project Astra是自己期待了幾十年的AI助手的雛形,,是通用AI的未來,,“AI個人助理可以通過連續(xù)編碼視頻幀、將視頻和語音輸入組合到事件時間線中,,并緩存這些信息以進行有效回憶,,從而更快地處理信息?!眲⑴d亮指出:“雖然OpenAI的GPT-4o在自然語言處理能力上表現(xiàn)強大,,但谷歌在多模態(tài)理解、數(shù)據(jù)豐富性和開發(fā)者支持方面也展現(xiàn)了強勁的競爭力,。兩者在各自擅長的領(lǐng)域均有顯著優(yōu)勢,,并不斷推動人工智能技術(shù)的發(fā)展?!笨焖夙憫?yīng),!——接近人類對話時的響應(yīng)時間從“你的快樂傷悲它能體會”到“你的快樂傷悲它能體會并給出及時回應(yīng)”,人工智能大模型的響應(yīng)時間的縮短讓人機交互更加絲滑。在OpenAI發(fā)布會上,,人們見到了GPT-4o更快的響應(yīng)速度:能夠在短至232毫秒內(nèi)響應(yīng)音頻輸入,,平均響應(yīng)時間為320毫秒,與人類在對話中的反應(yīng)速度幾乎一致,?!拔覀兛梢哉fGPT-4o是AI界的‘閃電俠’,速度快到令人發(fā)指,?!眲⑴d亮分析,“相比之下,傳統(tǒng)語音助手如Siri,、Alexa以及各種‘同學(xué)們’在處理語音輸入時,,需要經(jīng)過繁瑣的音頻轉(zhuǎn)文本再轉(zhuǎn)回音頻的過程。而GPT-4o通過端到端的訓(xùn)練,,直接處理所有輸入和輸出,實現(xiàn)了真正的毫秒級響應(yīng),?!庇浾吡私獾剑贕PT-4o之前,,使用ChatGPT的語音模式時,,需要多個模型的接力處理:先將音頻轉(zhuǎn)換為文本,再進行“輸入并輸出文本”的處理,,最后再將文本轉(zhuǎn)換回音頻,。這種處理方式常導(dǎo)致信息的大量丟失,例如無法捕捉到語調(diào),、識別多個說話者或背景噪音,,也無法生成笑聲、歌唱或其他情感表達,。而GPT-4o是OpenAI的首個整合文本,、視覺和音頻多模態(tài)輸入與輸出的模型。通過端到端地訓(xùn)練一個統(tǒng)一的新模型,,實現(xiàn)了所有輸入和輸出的處理都由同一個神經(jīng)網(wǎng)絡(luò)完成,。360集團創(chuàng)始人、董事長周鴻祎在其發(fā)表的視頻中感慨:“這就帶來了一個全新的體驗,,時延大概只有300毫秒左右,,達到了人類和人類談話的響應(yīng)速度,這樣不僅能聽得懂你話里的情緒,,在輸出回答的時候也可以伴隨著高興,、悲傷、失望,、興奮或者是更復(fù)雜的感情,。”國泰君安15日研報表示,,GPT-4o作為基礎(chǔ)性工具為更多創(chuàng)新應(yīng)用提供了生長土壤,。研報認為,對圖像和視頻的理解和高效的實時互動,,一定程度對其他單一功能的AI軟件有替代的可能性,,GPTStore有望推出更多便捷應(yīng)用,豐富應(yīng)用商城生態(tài)。同時隨著GPT在桌面端和移動端的持續(xù)滲透,,AI助理應(yīng)用有望更快普及,,新型商業(yè)模式或?qū)⒅鸩酵瞥觥8嗑寿Y訊請在應(yīng)用市場下載“央廣網(wǎng)”客戶端,。歡迎提供新聞線索,,24小時報料熱線400-800-0088;消費者也可通過央廣網(wǎng)“啄木鳥消費者投訴平臺”線上投訴,。版權(quán)聲明:本文章版權(quán)歸屬央廣網(wǎng)所有,,未經(jīng)授權(quán)不得轉(zhuǎn)載。轉(zhuǎn)載請聯(lián)系:[email protected],,不尊重原創(chuàng)的行為我們將追究責(zé)任,。
免責(zé)聲明:本文來自網(wǎng)絡(luò)收錄或投稿,觀點僅代表作者本人,,不代表芒果財經(jīng)贊同其觀點或證實其描述,,版權(quán)歸原作者所有。轉(zhuǎn)載請注明出處:http://lequren.com/1102345.html
溫馨提示:投資有風(fēng)險,,入市須謹慎,。本資訊不作為投資理財建議。