A欧美国产国产综合视频_最近日本中文字幕免费完整_国产乱伦一级片_久久99国产综合精品婷婷_韩国理论片在线中文字幕一区二区_亚洲AV成人影片在线观看_亚洲av无码电影网_优物视频最新网址_天天艹无码天天射_脱下丝袜的极品销魂大胸美女王馨瑶91精品美女嫩模写真套图,男男被?到喷水18禁视频,欧美久久精品一级黑人c片 ,综合在线视频精品专区

人民網(wǎng)

OpenAI發(fā)布實(shí)時(shí)API AI實(shí)時(shí)語音時(shí)代加速到來

本報(bào)記者 吳清 北京報(bào)道

OpenAI實(shí)時(shí)API(應(yīng)用程序接口)公開測試版發(fā)布,推動(dòng)AI應(yīng)用的加速落地。

近日,,OpenAI發(fā)布了其實(shí)時(shí)API公開測試版,,為開發(fā)者提供了構(gòu)建基于GPT-4大型語言模型的高交互性AI應(yīng)用程序的機(jī)會(huì)。業(yè)內(nèi)人士認(rèn)為,,該API允許開發(fā)者在應(yīng)用程序中創(chuàng)建低延遲、多模態(tài)的實(shí)時(shí)交互體驗(yàn),是AI應(yīng)用領(lǐng)域的一次重大革新,。

同時(shí),,OpenAI宣布與三家語音API合作伙伴合作,分別為:LiveKit,、Agora和Twilio,。三家都是實(shí)時(shí)音視頻(RTC)領(lǐng)域的全球龍頭企業(yè),其中Twilio,、LiveKit都是美國本土企業(yè),,之前與OpenAI有較多聯(lián)系,而Agora在中國市場擁有兄弟公司聲網(wǎng),,兩家公司在2023年5月拆分,,聲網(wǎng)專注于中國市場,總部位于上海,,Agora則面向美國和國際市場,。

《中國經(jīng)營報(bào)》記者注意到,隨著各平臺公司紛紛發(fā)布旗下AI大模型產(chǎn)品,,大模型領(lǐng)域的競爭也在加劇,。10月2日,OpenAI發(fā)布了其實(shí)時(shí)API公開測試版,,10月4日,,Meta公布了名為Movie Gen的全新AI模型。國內(nèi)巨頭也紛紛推出并更新了性能直追甚至部分超越GPT-4的產(chǎn)品,。

同時(shí),,RTC作為AI語音、音視頻互動(dòng)等AI落地強(qiáng)應(yīng)用場景的關(guān)鍵技術(shù),,得到了更多的關(guān)注和應(yīng)用,,吸引了巨頭們的紛紛布局。除了OpenAI,,近日微軟AI CEO Mustafa Suleyman也表示,,今年年底,微軟的AI將擁有實(shí)時(shí)的語音界面,,允許完全動(dòng)態(tài)的交互,。

人與AI的實(shí)時(shí)音視頻互動(dòng)正在變成現(xiàn)實(shí)。多為業(yè)內(nèi)人士接受記者采訪時(shí)表示,,實(shí)時(shí)API的發(fā)布標(biāo)志著OpenAI在AI應(yīng)用領(lǐng)域向前跨了一大步,,通過降低語音交互延時(shí)并增強(qiáng)AI對人類語音及情感的理解,為開發(fā)者創(chuàng)造了構(gòu)建更具沉浸性和動(dòng)態(tài)性的AI應(yīng)用程序的機(jī)遇,。

實(shí)時(shí)語音互動(dòng):多模態(tài)大模型交互的終極形態(tài),?

日常生活中人與人的溝通就是以語音為主,視覺其次,,視覺的價(jià)值主要在于信息的豐富度,,但想要提升信息濃度和溝通效率還得靠語音,。如今綜合文字,、圖像,、視頻等的多模態(tài)大模型的出現(xiàn),推動(dòng)了人與AI交互方式的變革,,而語音多模態(tài)將是其中的必經(jīng)之路,。

在生成式人工智能領(lǐng)域,大模型多模態(tài)交互能力的升級正掀起一股新的AI浪潮,,在RTC 能力的加持下,,人與AI的交互不再局限于文字,也可以通過語音通話進(jìn)行生動(dòng),、流暢的低延時(shí)交互,,這也成為當(dāng)下國內(nèi)外大模型廠商新的發(fā)力點(diǎn)。

實(shí)際上,,引領(lǐng)此輪AI革命浪潮的OpenAI深刻地理解這點(diǎn),,并在此領(lǐng)域深耕已久。

今年3月,,OpenAI就宣布了一項(xiàng)革命性的聲音克隆技術(shù)——“語音引擎”,。該技術(shù)作為其現(xiàn)有文本轉(zhuǎn)語音API的擴(kuò)展,僅需15秒的音頻樣本,,便能模仿任何說話者的聲音,。

記者注意到,GPT-4o算是開創(chuàng)了AI實(shí)時(shí)語音對話的先河,。自GPT-4o發(fā)布以來,,支持端到端實(shí)時(shí)多模態(tài)成為國內(nèi)外大模型廠商紛紛跟進(jìn)的新方向,先是AI初創(chuàng)公司Character.AI推出一項(xiàng)通話功能,,允許用戶與其人工智能角色語音對話,并支持多種語言,。此后巨頭們紛紛跟進(jìn),。

一般來說,GPT-4o能支持實(shí)時(shí)語音對話,。一方面得益于自身大模型能力的進(jìn)化,,端到端實(shí)時(shí)多模態(tài)模型能夠直接處理語音,這與傳統(tǒng)的三步驟處理方法(語音識別,、語音轉(zhuǎn)文字,、文字轉(zhuǎn)語音)相比,響應(yīng)更加及時(shí),。另一方面,,通過應(yīng)用RTC技術(shù),實(shí)現(xiàn)了語音的實(shí)時(shí)傳輸,,進(jìn)一步降低了語音交互的延時(shí),,RTC也成為人與AI交互的重要一環(huán)。

聲網(wǎng)在實(shí)踐中發(fā)現(xiàn),,傳統(tǒng)的三步驟處理方法在應(yīng)用RTC后,,響應(yīng)延時(shí)可從4—5秒降低到1—2秒,而在具備端到端實(shí)時(shí)多模態(tài)處理能力后,,通過RTC技術(shù),,大模型實(shí)時(shí)語音對話的延時(shí)可降到幾百毫秒內(nèi)。

從體驗(yàn)上看,,RTC技術(shù)的應(yīng)用讓對話式大模型的交互更智能,,更具真實(shí)感。一方面,,低延時(shí)的快速響應(yīng)讓人與AI的互動(dòng)更接近人與人之間的實(shí)時(shí)對話更自然,。另一方面,語音還能識別說話人的情緒,、語調(diào),,視頻能識別人的表情與所處的環(huán)境,最終輸出更精準(zhǔn),、更智能的回答,。

“基于RTC的超低延遲方法可實(shí)現(xiàn)更為逼真的對話,并使AI能夠理解人類的情感,,從而提供更自然的對話體驗(yàn),。”一位云服務(wù)廠商的技術(shù)負(fù)責(zé)人對記者表示,可以預(yù)見的是,,未來基于AI的人機(jī)界面從鍵盤,、鼠標(biāo)、觸屏到實(shí)時(shí)對話的變革,,語音將是必須走過的進(jìn)化過程,,實(shí)時(shí)語音互動(dòng)或?qū)⒊蔀槲磥韺υ捠蕉嗄B(tài)大模型交互的終極形態(tài)。

大模型實(shí)時(shí)語音落地RTC成關(guān)鍵 推動(dòng)AI應(yīng)用場景爆發(fā)

不過,,多模態(tài)大模型實(shí)時(shí)語音對話想要落地,,背后依然面臨著一系列的技術(shù)難點(diǎn)。首先,,對于大模型廠商而言,具備端到端實(shí)時(shí)語音處理的能力是關(guān)鍵,,端到端模型的訓(xùn)練成本很高,,尤其是處理語音與視頻數(shù)據(jù),面臨大量計(jì)算,,而計(jì)算過程往往會(huì)造成延遲,,這對實(shí)時(shí)交互的需求形成了挑戰(zhàn),需要邊接收語音邊處理和解析,,對于很多大模型廠商而言,,這意味著需要研發(fā)更高效的模型或者優(yōu)化現(xiàn)有模型的運(yùn)行效率。

同時(shí),,多模態(tài)大模型在接入RTC后如何保障低延時(shí),、流暢的語音交互體驗(yàn)更為關(guān)鍵。除了低延時(shí)問題外,,大模型實(shí)時(shí)語音對話中還面臨著噪音,、終端適配等一系列問題,需要專業(yè)的RTC廠商來優(yōu)化,。

記者注意到GPT-4o的發(fā)布會(huì)的一個(gè)細(xì)節(jié),,工程師演示GPT-4o的手機(jī)上插著一根網(wǎng)線,這也反映了一個(gè)現(xiàn)實(shí),,GPT-4o的演示是在固定設(shè)備,、固定網(wǎng)絡(luò)和固定物理環(huán)境下進(jìn)行的,以確保低延時(shí),。而在實(shí)際應(yīng)用場景中,,用戶的設(shè)備通常無法一直插著網(wǎng)線,這就對大模型實(shí)時(shí)語音對話中的低延時(shí)傳輸,、網(wǎng)絡(luò)優(yōu)化等提出了考驗(yàn),。

而在RTC的加持下,隨著多模態(tài)大模型能力的進(jìn)化,,AIGC應(yīng)用場景迎來新一輪爆發(fā),,AI智能助手,、AI情感陪伴、AI口語老師,、AI客服的AI交互體驗(yàn)進(jìn)一步升級,,學(xué)生的學(xué)習(xí)效率更高,社交陪聊場景的娛樂性與沉浸感也進(jìn)一步增強(qiáng),。同時(shí),,在游戲社交、AI分身,、實(shí)時(shí)語音翻譯等場景,,對話式多模態(tài)大模型也大有可為。

量子位智庫發(fā)布的AI智能助手用戶數(shù)據(jù)報(bào)告顯示,,截至今年8月,,國內(nèi)市場的AI智能助手App已超過64款。在AI情感陪伴領(lǐng)域也涌現(xiàn)了Soul,、星野,、Wow等一系列人氣社交App。

業(yè)內(nèi)人士認(rèn)為,,人工智能技術(shù)的快速發(fā)展,,推動(dòng)實(shí)時(shí)互動(dòng)行業(yè)持續(xù)進(jìn)化,讓實(shí)時(shí)互動(dòng)場景變得更豐富,、更有趣,、更高效,相關(guān)市場的應(yīng)用空間廣闊,。

以全球移動(dòng)應(yīng)用第一大市場美國為例,,相關(guān)應(yīng)用市場廣闊,應(yīng)用收入也在持續(xù)增長,。公開數(shù)據(jù)顯示,,2023年泛娛樂應(yīng)用收入規(guī)模達(dá)到74億美元,是第二大市場日本的4.6倍,,且同比增長12.6%,,市場規(guī)模仍在穩(wěn)定增長。

“美國本土開發(fā)者依然把持著泛娛樂頭部市場,,中國出海App目前仍以短劇為主,,盡管在頭部App中,中國出海應(yīng)用較少,,但是出海美國的優(yōu)點(diǎn)在于中長尾App時(shí)長占比較高,,且用戶付費(fèi)能力較強(qiáng),中小型App也能在美國取得不錯(cuò)的收入?!眹鴥?nèi)一家短劇出海App的運(yùn)營負(fù)責(zé)人向記者稱,。

據(jù)Ookla的最新數(shù)據(jù),美國的移動(dòng)網(wǎng)絡(luò)平均網(wǎng)速略低于中國,,在測試環(huán)境下,,美國手機(jī)移動(dòng)網(wǎng)絡(luò)下載速度113Mbp/s(中國為135.7Mbp/s)。在這樣的背景下,,要實(shí)現(xiàn)真實(shí)無障礙的AI互動(dòng),,RTC就成為一個(gè)關(guān)鍵,也給相關(guān)業(yè)內(nèi)企業(yè)帶來了大的發(fā)展機(jī)遇,。

財(cái)報(bào)顯示,,今年第二季度,聲網(wǎng)和Agora分別在中國和海外市場實(shí)現(xiàn)了營收增長,。聲網(wǎng)和Agora的創(chuàng)始人兼CEO趙斌表示:“我很高興看到聲網(wǎng)和Agora在面對極具挑戰(zhàn)的宏觀環(huán)境下,,本季度雙雙實(shí)現(xiàn)收入同比增長。這一成果得益于我們不斷推動(dòng)新應(yīng)用場景落地,,另一方面也提升成熟場景方案的質(zhì)量和價(jià)值。我們最近幫助客戶在多個(gè)應(yīng)用場景中推出了對話式AI應(yīng)用,,如AI陪伴,、AI助理、AI語言陪練和AI客服,,并看到了不錯(cuò)的用戶和用量增長,。我相信,實(shí)時(shí)互動(dòng)與對話式AI的結(jié)合將成為我們未來業(yè)務(wù)發(fā)展的關(guān)鍵驅(qū)動(dòng)力,?!?/p>

在這樣的背景下,聲網(wǎng)在近期推出了Linux Server SDK,,支持當(dāng)下大模型編程最主流的兩類語言Python與Go,,能夠幫助開發(fā)者快速構(gòu)建AI陪伴、AI助理,、AI語言陪練等實(shí)時(shí)AI應(yīng)用場景,。

不過,聲網(wǎng)在2024年第二季度仍處于虧損狀態(tài),,凈虧損仍為920萬美元,,上年同期的凈虧損為4530萬美元。聲網(wǎng)預(yù)計(jì)2024年第三季度營收為3150萬美元到3350萬美元,。

可以預(yù)見的是,,AI、5G、云計(jì)算等成為新時(shí)代的基礎(chǔ)設(shè)施,,將會(huì)給企業(yè)變革與發(fā)展帶來更多新機(jī)會(huì),。未來,科技巨頭將會(huì)在大模型和AI產(chǎn)品上不斷推陳出新,,RTC則將帶來人與AI交互的重要變革,,也將加速AI應(yīng)用場景的新一輪爆發(fā)。

(編輯:張靖超 審核:李正豪 校對:顏京寧)

免責(zé)聲明:本文來自網(wǎng)絡(luò)收錄或投稿,,觀點(diǎn)僅代表作者本人,,不代表芒果財(cái)經(jīng)贊同其觀點(diǎn)或證實(shí)其描述,版權(quán)歸原作者所有,。轉(zhuǎn)載請注明出處:http://lequren.com/1124157.html
溫馨提示:投資有風(fēng)險(xiǎn),,入市須謹(jǐn)慎。本資訊不作為投資理財(cái)建議,。

(0)
中國經(jīng)營報(bào)的頭像中國經(jīng)營報(bào)
上一篇 2024年10月11日 下午5:40
下一篇 2024年10月11日 下午10:22
198搶自鏈數(shù)字人

相關(guān)推薦