A欧美国产国产综合视频_最近日本中文字幕免费完整_国产乱伦一级片_久久99国产综合精品婷婷_韩国理论片在线中文字幕一区二区_亚洲AV成人影片在线观看_亚洲av无码电影网_优物视频最新网址_天天艹无码天天射_脱下丝袜的极品销魂大胸美女王馨瑶91精品美女嫩模写真套图,男男被?到喷水18禁视频,欧美久久精品一级黑人c片 ,综合在线视频精品专区

人民網(wǎng)

OpenAI發(fā)布實(shí)時(shí)API AI實(shí)時(shí)語(yǔ)音時(shí)代加速到來(lái)

本報(bào)記者 吳清 北京報(bào)道

OpenAI實(shí)時(shí)API(應(yīng)用程序接口)公開(kāi)測(cè)試版發(fā)布,,推動(dòng)AI應(yīng)用的加速落地,。

近日,,OpenAI發(fā)布了其實(shí)時(shí)API公開(kāi)測(cè)試版,為開(kāi)發(fā)者提供了構(gòu)建基于GPT-4大型語(yǔ)言模型的高交互性AI應(yīng)用程序的機(jī)會(huì),。業(yè)內(nèi)人士認(rèn)為,,該API允許開(kāi)發(fā)者在應(yīng)用程序中創(chuàng)建低延遲、多模態(tài)的實(shí)時(shí)交互體驗(yàn),,是AI應(yīng)用領(lǐng)域的一次重大革新,。

同時(shí),OpenAI宣布與三家語(yǔ)音API合作伙伴合作,,分別為:LiveKit,、Agora和Twilio。三家都是實(shí)時(shí)音視頻(RTC)領(lǐng)域的全球龍頭企業(yè),其中Twilio,、LiveKit都是美國(guó)本土企業(yè),,之前與OpenAI有較多聯(lián)系,而Agora在中國(guó)市場(chǎng)擁有兄弟公司聲網(wǎng),,兩家公司在2023年5月拆分,,聲網(wǎng)專注于中國(guó)市場(chǎng),總部位于上海,,Agora則面向美國(guó)和國(guó)際市場(chǎng),。

《中國(guó)經(jīng)營(yíng)報(bào)》記者注意到,隨著各平臺(tái)公司紛紛發(fā)布旗下AI大模型產(chǎn)品,,大模型領(lǐng)域的競(jìng)爭(zhēng)也在加劇。10月2日,,OpenAI發(fā)布了其實(shí)時(shí)API公開(kāi)測(cè)試版,,10月4日,Meta公布了名為Movie Gen的全新AI模型,。國(guó)內(nèi)巨頭也紛紛推出并更新了性能直追甚至部分超越GPT-4的產(chǎn)品,。

同時(shí),RTC作為AI語(yǔ)音,、音視頻互動(dòng)等AI落地強(qiáng)應(yīng)用場(chǎng)景的關(guān)鍵技術(shù),,得到了更多的關(guān)注和應(yīng)用,吸引了巨頭們的紛紛布局,。除了OpenAI,,近日微軟AI CEO Mustafa Suleyman也表示,今年年底,,微軟的AI將擁有實(shí)時(shí)的語(yǔ)音界面,,允許完全動(dòng)態(tài)的交互。

人與AI的實(shí)時(shí)音視頻互動(dòng)正在變成現(xiàn)實(shí),。多為業(yè)內(nèi)人士接受記者采訪時(shí)表示,,實(shí)時(shí)API的發(fā)布標(biāo)志著OpenAI在AI應(yīng)用領(lǐng)域向前跨了一大步,通過(guò)降低語(yǔ)音交互延時(shí)并增強(qiáng)AI對(duì)人類語(yǔ)音及情感的理解,,為開(kāi)發(fā)者創(chuàng)造了構(gòu)建更具沉浸性和動(dòng)態(tài)性的AI應(yīng)用程序的機(jī)遇,。

實(shí)時(shí)語(yǔ)音互動(dòng):多模態(tài)大模型交互的終極形態(tài)?

日常生活中人與人的溝通就是以語(yǔ)音為主,,視覺(jué)其次,,視覺(jué)的價(jià)值主要在于信息的豐富度,但想要提升信息濃度和溝通效率還得靠語(yǔ)音,。如今綜合文字,、圖像、視頻等的多模態(tài)大模型的出現(xiàn),推動(dòng)了人與AI交互方式的變革,,而語(yǔ)音多模態(tài)將是其中的必經(jīng)之路,。

在生成式人工智能領(lǐng)域,大模型多模態(tài)交互能力的升級(jí)正掀起一股新的AI浪潮,,在RTC 能力的加持下,,人與AI的交互不再局限于文字,也可以通過(guò)語(yǔ)音通話進(jìn)行生動(dòng),、流暢的低延時(shí)交互,,這也成為當(dāng)下國(guó)內(nèi)外大模型廠商新的發(fā)力點(diǎn)。

實(shí)際上,,引領(lǐng)此輪AI革命浪潮的OpenAI深刻地理解這點(diǎn),,并在此領(lǐng)域深耕已久。

今年3月,,OpenAI就宣布了一項(xiàng)革命性的聲音克隆技術(shù)——“語(yǔ)音引擎”,。該技術(shù)作為其現(xiàn)有文本轉(zhuǎn)語(yǔ)音API的擴(kuò)展,僅需15秒的音頻樣本,,便能模仿任何說(shuō)話者的聲音,。

記者注意到,GPT-4o算是開(kāi)創(chuàng)了AI實(shí)時(shí)語(yǔ)音對(duì)話的先河,。自GPT-4o發(fā)布以來(lái),,支持端到端實(shí)時(shí)多模態(tài)成為國(guó)內(nèi)外大模型廠商紛紛跟進(jìn)的新方向,先是AI初創(chuàng)公司Character.AI推出一項(xiàng)通話功能,,允許用戶與其人工智能角色語(yǔ)音對(duì)話,,并支持多種語(yǔ)言,。此后巨頭們紛紛跟進(jìn),。

一般來(lái)說(shuō),GPT-4o能支持實(shí)時(shí)語(yǔ)音對(duì)話,。一方面得益于自身大模型能力的進(jìn)化,,端到端實(shí)時(shí)多模態(tài)模型能夠直接處理語(yǔ)音,這與傳統(tǒng)的三步驟處理方法(語(yǔ)音識(shí)別,、語(yǔ)音轉(zhuǎn)文字,、文字轉(zhuǎn)語(yǔ)音)相比,響應(yīng)更加及時(shí),。另一方面,,通過(guò)應(yīng)用RTC技術(shù),實(shí)現(xiàn)了語(yǔ)音的實(shí)時(shí)傳輸,,進(jìn)一步降低了語(yǔ)音交互的延時(shí),,RTC也成為人與AI交互的重要一環(huán)。

聲網(wǎng)在實(shí)踐中發(fā)現(xiàn),,傳統(tǒng)的三步驟處理方法在應(yīng)用RTC后,,響應(yīng)延時(shí)可從4—5秒降低到1—2秒,而在具備端到端實(shí)時(shí)多模態(tài)處理能力后,,通過(guò)RTC技術(shù),大模型實(shí)時(shí)語(yǔ)音對(duì)話的延時(shí)可降到幾百毫秒內(nèi),。

從體驗(yàn)上看,,RTC技術(shù)的應(yīng)用讓對(duì)話式大模型的交互更智能,更具真實(shí)感,。一方面,,低延時(shí)的快速響應(yīng)讓人與AI的互動(dòng)更接近人與人之間的實(shí)時(shí)對(duì)話更自然。另一方面,,語(yǔ)音還能識(shí)別說(shuō)話人的情緒,、語(yǔ)調(diào),視頻能識(shí)別人的表情與所處的環(huán)境,,最終輸出更精準(zhǔn),、更智能的回答。

“基于RTC的超低延遲方法可實(shí)現(xiàn)更為逼真的對(duì)話,,并使AI能夠理解人類的情感,,從而提供更自然的對(duì)話體驗(yàn)?!币晃辉品?wù)廠商的技術(shù)負(fù)責(zé)人對(duì)記者表示,,可以預(yù)見(jiàn)的是,未來(lái)基于AI的人機(jī)界面從鍵盤(pán),、鼠標(biāo),、觸屏到實(shí)時(shí)對(duì)話的變革,語(yǔ)音將是必須走過(guò)的進(jìn)化過(guò)程,實(shí)時(shí)語(yǔ)音互動(dòng)或?qū)⒊蔀槲磥?lái)對(duì)話式多模態(tài)大模型交互的終極形態(tài),。

大模型實(shí)時(shí)語(yǔ)音落地RTC成關(guān)鍵 推動(dòng)AI應(yīng)用場(chǎng)景爆發(fā)

不過(guò),,多模態(tài)大模型實(shí)時(shí)語(yǔ)音對(duì)話想要落地,背后依然面臨著一系列的技術(shù)難點(diǎn),。首先,,對(duì)于大模型廠商而言,具備端到端實(shí)時(shí)語(yǔ)音處理的能力是關(guān)鍵,,端到端模型的訓(xùn)練成本很高,,尤其是處理語(yǔ)音與視頻數(shù)據(jù),面臨大量計(jì)算,,而計(jì)算過(guò)程往往會(huì)造成延遲,,這對(duì)實(shí)時(shí)交互的需求形成了挑戰(zhàn),需要邊接收語(yǔ)音邊處理和解析,,對(duì)于很多大模型廠商而言,,這意味著需要研發(fā)更高效的模型或者優(yōu)化現(xiàn)有模型的運(yùn)行效率。

同時(shí),,多模態(tài)大模型在接入RTC后如何保障低延時(shí),、流暢的語(yǔ)音交互體驗(yàn)更為關(guān)鍵。除了低延時(shí)問(wèn)題外,,大模型實(shí)時(shí)語(yǔ)音對(duì)話中還面臨著噪音,、終端適配等一系列問(wèn)題,需要專業(yè)的RTC廠商來(lái)優(yōu)化,。

記者注意到GPT-4o的發(fā)布會(huì)的一個(gè)細(xì)節(jié),,工程師演示GPT-4o的手機(jī)上插著一根網(wǎng)線,這也反映了一個(gè)現(xiàn)實(shí),,GPT-4o的演示是在固定設(shè)備,、固定網(wǎng)絡(luò)和固定物理環(huán)境下進(jìn)行的,以確保低延時(shí),。而在實(shí)際應(yīng)用場(chǎng)景中,,用戶的設(shè)備通常無(wú)法一直插著網(wǎng)線,這就對(duì)大模型實(shí)時(shí)語(yǔ)音對(duì)話中的低延時(shí)傳輸,、網(wǎng)絡(luò)優(yōu)化等提出了考驗(yàn),。

而在RTC的加持下,隨著多模態(tài)大模型能力的進(jìn)化,,AIGC應(yīng)用場(chǎng)景迎來(lái)新一輪爆發(fā),,AI智能助手、AI情感陪伴,、AI口語(yǔ)老師,、AI客服的AI交互體驗(yàn)進(jìn)一步升級(jí),,學(xué)生的學(xué)習(xí)效率更高,社交陪聊場(chǎng)景的娛樂(lè)性與沉浸感也進(jìn)一步增強(qiáng),。同時(shí),,在游戲社交、AI分身,、實(shí)時(shí)語(yǔ)音翻譯等場(chǎng)景,,對(duì)話式多模態(tài)大模型也大有可為。

量子位智庫(kù)發(fā)布的AI智能助手用戶數(shù)據(jù)報(bào)告顯示,,截至今年8月,,國(guó)內(nèi)市場(chǎng)的AI智能助手App已超過(guò)64款。在AI情感陪伴領(lǐng)域也涌現(xiàn)了Soul,、星野,、Wow等一系列人氣社交App。

業(yè)內(nèi)人士認(rèn)為,,人工智能技術(shù)的快速發(fā)展,,推動(dòng)實(shí)時(shí)互動(dòng)行業(yè)持續(xù)進(jìn)化,讓實(shí)時(shí)互動(dòng)場(chǎng)景變得更豐富,、更有趣,、更高效,相關(guān)市場(chǎng)的應(yīng)用空間廣闊,。

以全球移動(dòng)應(yīng)用第一大市場(chǎng)美國(guó)為例,,相關(guān)應(yīng)用市場(chǎng)廣闊,應(yīng)用收入也在持續(xù)增長(zhǎng),。公開(kāi)數(shù)據(jù)顯示,,2023年泛娛樂(lè)應(yīng)用收入規(guī)模達(dá)到74億美元,,是第二大市場(chǎng)日本的4.6倍,,且同比增長(zhǎng)12.6%,市場(chǎng)規(guī)模仍在穩(wěn)定增長(zhǎng),。

“美國(guó)本土開(kāi)發(fā)者依然把持著泛娛樂(lè)頭部市場(chǎng),,中國(guó)出海App目前仍以短劇為主,盡管在頭部App中,,中國(guó)出海應(yīng)用較少,,但是出海美國(guó)的優(yōu)點(diǎn)在于中長(zhǎng)尾App時(shí)長(zhǎng)占比較高,且用戶付費(fèi)能力較強(qiáng),,中小型App也能在美國(guó)取得不錯(cuò)的收入,。”國(guó)內(nèi)一家短劇出海App的運(yùn)營(yíng)負(fù)責(zé)人向記者稱,。

據(jù)Ookla的最新數(shù)據(jù),,美國(guó)的移動(dòng)網(wǎng)絡(luò)平均網(wǎng)速略低于中國(guó),,在測(cè)試環(huán)境下,美國(guó)手機(jī)移動(dòng)網(wǎng)絡(luò)下載速度113Mbp/s(中國(guó)為135.7Mbp/s),。在這樣的背景下,,要實(shí)現(xiàn)真實(shí)無(wú)障礙的AI互動(dòng),RTC就成為一個(gè)關(guān)鍵,,也給相關(guān)業(yè)內(nèi)企業(yè)帶來(lái)了大的發(fā)展機(jī)遇,。

財(cái)報(bào)顯示,今年第二季度,,聲網(wǎng)和Agora分別在中國(guó)和海外市場(chǎng)實(shí)現(xiàn)了營(yíng)收增長(zhǎng),。聲網(wǎng)和Agora的創(chuàng)始人兼CEO趙斌表示:“我很高興看到聲網(wǎng)和Agora在面對(duì)極具挑戰(zhàn)的宏觀環(huán)境下,本季度雙雙實(shí)現(xiàn)收入同比增長(zhǎng),。這一成果得益于我們不斷推動(dòng)新應(yīng)用場(chǎng)景落地,,另一方面也提升成熟場(chǎng)景方案的質(zhì)量和價(jià)值。我們最近幫助客戶在多個(gè)應(yīng)用場(chǎng)景中推出了對(duì)話式AI應(yīng)用,,如AI陪伴,、AI助理、AI語(yǔ)言陪練和AI客服,,并看到了不錯(cuò)的用戶和用量增長(zhǎng),。我相信,實(shí)時(shí)互動(dòng)與對(duì)話式AI的結(jié)合將成為我們未來(lái)業(yè)務(wù)發(fā)展的關(guān)鍵驅(qū)動(dòng)力,?!?/p>

在這樣的背景下,聲網(wǎng)在近期推出了Linux Server SDK,,支持當(dāng)下大模型編程最主流的兩類語(yǔ)言Python與Go,,能夠幫助開(kāi)發(fā)者快速構(gòu)建AI陪伴、AI助理,、AI語(yǔ)言陪練等實(shí)時(shí)AI應(yīng)用場(chǎng)景,。

不過(guò),聲網(wǎng)在2024年第二季度仍處于虧損狀態(tài),,凈虧損仍為920萬(wàn)美元,,上年同期的凈虧損為4530萬(wàn)美元。聲網(wǎng)預(yù)計(jì)2024年第三季度營(yíng)收為3150萬(wàn)美元到3350萬(wàn)美元,。

可以預(yù)見(jiàn)的是,,AI、5G,、云計(jì)算等成為新時(shí)代的基礎(chǔ)設(shè)施,,將會(huì)給企業(yè)變革與發(fā)展帶來(lái)更多新機(jī)會(huì)。未來(lái),,科技巨頭將會(huì)在大模型和AI產(chǎn)品上不斷推陳出新,,RTC則將帶來(lái)人與AI交互的重要變革,,也將加速AI應(yīng)用場(chǎng)景的新一輪爆發(fā)。

(編輯:張靖超 審核:李正豪 校對(duì):顏京寧)

免責(zé)聲明:本文來(lái)自網(wǎng)絡(luò)收錄或投稿,,觀點(diǎn)僅代表作者本人,,不代表芒果財(cái)經(jīng)贊同其觀點(diǎn)或證實(shí)其描述,版權(quán)歸原作者所有,。轉(zhuǎn)載請(qǐng)注明出處:http://lequren.com/1124157.html
溫馨提示:投資有風(fēng)險(xiǎn),,入市須謹(jǐn)慎。本資訊不作為投資理財(cái)建議,。

(0)
中國(guó)經(jīng)營(yíng)報(bào)的頭像中國(guó)經(jīng)營(yíng)報(bào)
上一篇 2024年10月11日 下午5:40
下一篇 2024年10月11日 下午10:22
198搶自鏈數(shù)字人

相關(guān)推薦