本報(bào)記者 吳清 北京報(bào)道
OpenAI實(shí)時(shí)API(應(yīng)用程序接口)公開測(cè)試版發(fā)布,,推動(dòng)AI應(yīng)用的加速落地,。
近日,OpenAI發(fā)布了其實(shí)時(shí)API公開測(cè)試版,,為開發(fā)者提供了構(gòu)建基于GPT-4大型語言模型的高交互性AI應(yīng)用程序的機(jī)會(huì),。業(yè)內(nèi)人士認(rèn)為,該API允許開發(fā)者在應(yīng)用程序中創(chuàng)建低延遲,、多模態(tài)的實(shí)時(shí)交互體驗(yàn),,是AI應(yīng)用領(lǐng)域的一次重大革新。
同時(shí),,OpenAI宣布與三家語音API合作伙伴合作,,分別為:LiveKit、Agora和Twilio,。三家都是實(shí)時(shí)音視頻(RTC)領(lǐng)域的全球龍頭企業(yè),,其中Twilio、LiveKit都是美國本土企業(yè),,之前與OpenAI有較多聯(lián)系,,而Agora在中國市場(chǎng)擁有兄弟公司聲網(wǎng),兩家公司在2023年5月拆分,,聲網(wǎng)專注于中國市場(chǎng),總部位于上海,,Agora則面向美國和國際市場(chǎng),。
《中國經(jīng)營報(bào)》記者注意到,隨著各平臺(tái)公司紛紛發(fā)布旗下AI大模型產(chǎn)品,,大模型領(lǐng)域的競(jìng)爭(zhēng)也在加劇,。10月2日,OpenAI發(fā)布了其實(shí)時(shí)API公開測(cè)試版,,10月4日,,Meta公布了名為Movie Gen的全新AI模型。國內(nèi)巨頭也紛紛推出并更新了性能直追甚至部分超越GPT-4的產(chǎn)品,。
同時(shí),,RTC作為AI語音、音視頻互動(dòng)等AI落地強(qiáng)應(yīng)用場(chǎng)景的關(guān)鍵技術(shù),,得到了更多的關(guān)注和應(yīng)用,,吸引了巨頭們的紛紛布局,。除了OpenAI,近日微軟AI CEO Mustafa Suleyman也表示,,今年年底,,微軟的AI將擁有實(shí)時(shí)的語音界面,允許完全動(dòng)態(tài)的交互,。
人與AI的實(shí)時(shí)音視頻互動(dòng)正在變成現(xiàn)實(shí),。多為業(yè)內(nèi)人士接受記者采訪時(shí)表示,實(shí)時(shí)API的發(fā)布標(biāo)志著OpenAI在AI應(yīng)用領(lǐng)域向前跨了一大步,,通過降低語音交互延時(shí)并增強(qiáng)AI對(duì)人類語音及情感的理解,,為開發(fā)者創(chuàng)造了構(gòu)建更具沉浸性和動(dòng)態(tài)性的AI應(yīng)用程序的機(jī)遇。
實(shí)時(shí)語音互動(dòng):多模態(tài)大模型交互的終極形態(tài),?
日常生活中人與人的溝通就是以語音為主,,視覺其次,視覺的價(jià)值主要在于信息的豐富度,,但想要提升信息濃度和溝通效率還得靠語音,。如今綜合文字、圖像,、視頻等的多模態(tài)大模型的出現(xiàn),,推動(dòng)了人與AI交互方式的變革,而語音多模態(tài)將是其中的必經(jīng)之路,。
在生成式人工智能領(lǐng)域,,大模型多模態(tài)交互能力的升級(jí)正掀起一股新的AI浪潮,在RTC 能力的加持下,,人與AI的交互不再局限于文字,,也可以通過語音通話進(jìn)行生動(dòng)、流暢的低延時(shí)交互,,這也成為當(dāng)下國內(nèi)外大模型廠商新的發(fā)力點(diǎn),。
實(shí)際上,引領(lǐng)此輪AI革命浪潮的OpenAI深刻地理解這點(diǎn),,并在此領(lǐng)域深耕已久,。
今年3月,OpenAI就宣布了一項(xiàng)革命性的聲音克隆技術(shù)——“語音引擎”,。該技術(shù)作為其現(xiàn)有文本轉(zhuǎn)語音API的擴(kuò)展,,僅需15秒的音頻樣本,便能模仿任何說話者的聲音,。
記者注意到,,GPT-4o算是開創(chuàng)了AI實(shí)時(shí)語音對(duì)話的先河。自GPT-4o發(fā)布以來,支持端到端實(shí)時(shí)多模態(tài)成為國內(nèi)外大模型廠商紛紛跟進(jìn)的新方向,,先是AI初創(chuàng)公司Character.AI推出一項(xiàng)通話功能,,允許用戶與其人工智能角色語音對(duì)話,,并支持多種語言。此后巨頭們紛紛跟進(jìn),。
一般來說,,GPT-4o能支持實(shí)時(shí)語音對(duì)話。一方面得益于自身大模型能力的進(jìn)化,,端到端實(shí)時(shí)多模態(tài)模型能夠直接處理語音,,這與傳統(tǒng)的三步驟處理方法(語音識(shí)別、語音轉(zhuǎn)文字,、文字轉(zhuǎn)語音)相比,,響應(yīng)更加及時(shí)。另一方面,,通過應(yīng)用RTC技術(shù),,實(shí)現(xiàn)了語音的實(shí)時(shí)傳輸,進(jìn)一步降低了語音交互的延時(shí),,RTC也成為人與AI交互的重要一環(huán)。
聲網(wǎng)在實(shí)踐中發(fā)現(xiàn),,傳統(tǒng)的三步驟處理方法在應(yīng)用RTC后,,響應(yīng)延時(shí)可從4—5秒降低到1—2秒,而在具備端到端實(shí)時(shí)多模態(tài)處理能力后,,通過RTC技術(shù),,大模型實(shí)時(shí)語音對(duì)話的延時(shí)可降到幾百毫秒內(nèi)。
從體驗(yàn)上看,RTC技術(shù)的應(yīng)用讓對(duì)話式大模型的交互更智能,,更具真實(shí)感,。一方面,低延時(shí)的快速響應(yīng)讓人與AI的互動(dòng)更接近人與人之間的實(shí)時(shí)對(duì)話更自然,。另一方面,,語音還能識(shí)別說話人的情緒,、語調(diào),,視頻能識(shí)別人的表情與所處的環(huán)境,最終輸出更精準(zhǔn),、更智能的回答,。
“基于RTC的超低延遲方法可實(shí)現(xiàn)更為逼真的對(duì)話,并使AI能夠理解人類的情感,,從而提供更自然的對(duì)話體驗(yàn),。”一位云服務(wù)廠商的技術(shù)負(fù)責(zé)人對(duì)記者表示,,可以預(yù)見的是,,未來基于AI的人機(jī)界面從鍵盤、鼠標(biāo),、觸屏到實(shí)時(shí)對(duì)話的變革,,語音將是必須走過的進(jìn)化過程,實(shí)時(shí)語音互動(dòng)或?qū)⒊蔀槲磥韺?duì)話式多模態(tài)大模型交互的終極形態(tài),。
大模型實(shí)時(shí)語音落地RTC成關(guān)鍵 推動(dòng)AI應(yīng)用場(chǎng)景爆發(fā)
不過,,多模態(tài)大模型實(shí)時(shí)語音對(duì)話想要落地,,背后依然面臨著一系列的技術(shù)難點(diǎn),。首先,對(duì)于大模型廠商而言,,具備端到端實(shí)時(shí)語音處理的能力是關(guān)鍵,端到端模型的訓(xùn)練成本很高,,尤其是處理語音與視頻數(shù)據(jù),面臨大量計(jì)算,,而計(jì)算過程往往會(huì)造成延遲,這對(duì)實(shí)時(shí)交互的需求形成了挑戰(zhàn),,需要邊接收語音邊處理和解析,,對(duì)于很多大模型廠商而言,,這意味著需要研發(fā)更高效的模型或者優(yōu)化現(xiàn)有模型的運(yùn)行效率,。
同時(shí),多模態(tài)大模型在接入RTC后如何保障低延時(shí),、流暢的語音交互體驗(yàn)更為關(guān)鍵,。除了低延時(shí)問題外,大模型實(shí)時(shí)語音對(duì)話中還面臨著噪音,、終端適配等一系列問題,,需要專業(yè)的RTC廠商來優(yōu)化。
記者注意到GPT-4o的發(fā)布會(huì)的一個(gè)細(xì)節(jié),,工程師演示GPT-4o的手機(jī)上插著一根網(wǎng)線,,這也反映了一個(gè)現(xiàn)實(shí),GPT-4o的演示是在固定設(shè)備,、固定網(wǎng)絡(luò)和固定物理環(huán)境下進(jìn)行的,,以確保低延時(shí)。而在實(shí)際應(yīng)用場(chǎng)景中,,用戶的設(shè)備通常無法一直插著網(wǎng)線,,這就對(duì)大模型實(shí)時(shí)語音對(duì)話中的低延時(shí)傳輸,、網(wǎng)絡(luò)優(yōu)化等提出了考驗(yàn),。
而在RTC的加持下,隨著多模態(tài)大模型能力的進(jìn)化,,AIGC應(yīng)用場(chǎng)景迎來新一輪爆發(fā),,AI智能助手、AI情感陪伴,、AI口語老師,、AI客服的AI交互體驗(yàn)進(jìn)一步升級(jí),學(xué)生的學(xué)習(xí)效率更高,,社交陪聊場(chǎng)景的娛樂性與沉浸感也進(jìn)一步增強(qiáng),。同時(shí),在游戲社交,、AI分身,、實(shí)時(shí)語音翻譯等場(chǎng)景,對(duì)話式多模態(tài)大模型也大有可為,。
量子位智庫發(fā)布的AI智能助手用戶數(shù)據(jù)報(bào)告顯示,,截至今年8月,國內(nèi)市場(chǎng)的AI智能助手App已超過64款,。在AI情感陪伴領(lǐng)域也涌現(xiàn)了Soul、星野、Wow等一系列人氣社交App,。
業(yè)內(nèi)人士認(rèn)為,,人工智能技術(shù)的快速發(fā)展,推動(dòng)實(shí)時(shí)互動(dòng)行業(yè)持續(xù)進(jìn)化,,讓實(shí)時(shí)互動(dòng)場(chǎng)景變得更豐富,、更有趣、更高效,,相關(guān)市場(chǎng)的應(yīng)用空間廣闊,。
以全球移動(dòng)應(yīng)用第一大市場(chǎng)美國為例,相關(guān)應(yīng)用市場(chǎng)廣闊,,應(yīng)用收入也在持續(xù)增長,。公開數(shù)據(jù)顯示,2023年泛娛樂應(yīng)用收入規(guī)模達(dá)到74億美元,,是第二大市場(chǎng)日本的4.6倍,,且同比增長12.6%,市場(chǎng)規(guī)模仍在穩(wěn)定增長,。
“美國本土開發(fā)者依然把持著泛娛樂頭部市場(chǎng),,中國出海App目前仍以短劇為主,盡管在頭部App中,,中國出海應(yīng)用較少,,但是出海美國的優(yōu)點(diǎn)在于中長尾App時(shí)長占比較高,且用戶付費(fèi)能力較強(qiáng),,中小型App也能在美國取得不錯(cuò)的收入,。”國內(nèi)一家短劇出海App的運(yùn)營負(fù)責(zé)人向記者稱,。
據(jù)Ookla的最新數(shù)據(jù),,美國的移動(dòng)網(wǎng)絡(luò)平均網(wǎng)速略低于中國,在測(cè)試環(huán)境下,,美國手機(jī)移動(dòng)網(wǎng)絡(luò)下載速度113Mbp/s(中國為135.7Mbp/s),。在這樣的背景下,要實(shí)現(xiàn)真實(shí)無障礙的AI互動(dòng),,RTC就成為一個(gè)關(guān)鍵,,也給相關(guān)業(yè)內(nèi)企業(yè)帶來了大的發(fā)展機(jī)遇。
財(cái)報(bào)顯示,,今年第二季度,,聲網(wǎng)和Agora分別在中國和海外市場(chǎng)實(shí)現(xiàn)了營收增長。聲網(wǎng)和Agora的創(chuàng)始人兼CEO趙斌表示:“我很高興看到聲網(wǎng)和Agora在面對(duì)極具挑戰(zhàn)的宏觀環(huán)境下,,本季度雙雙實(shí)現(xiàn)收入同比增長,。這一成果得益于我們不斷推動(dòng)新應(yīng)用場(chǎng)景落地,,另一方面也提升成熟場(chǎng)景方案的質(zhì)量和價(jià)值。我們最近幫助客戶在多個(gè)應(yīng)用場(chǎng)景中推出了對(duì)話式AI應(yīng)用,,如AI陪伴,、AI助理、AI語言陪練和AI客服,,并看到了不錯(cuò)的用戶和用量增長,。我相信,實(shí)時(shí)互動(dòng)與對(duì)話式AI的結(jié)合將成為我們未來業(yè)務(wù)發(fā)展的關(guān)鍵驅(qū)動(dòng)力,?!?/p>
在這樣的背景下,聲網(wǎng)在近期推出了Linux Server SDK,,支持當(dāng)下大模型編程最主流的兩類語言Python與Go,,能夠幫助開發(fā)者快速構(gòu)建AI陪伴、AI助理,、AI語言陪練等實(shí)時(shí)AI應(yīng)用場(chǎng)景,。
不過,聲網(wǎng)在2024年第二季度仍處于虧損狀態(tài),,凈虧損仍為920萬美元,,上年同期的凈虧損為4530萬美元。聲網(wǎng)預(yù)計(jì)2024年第三季度營收為3150萬美元到3350萬美元,。
可以預(yù)見的是,,AI、5G,、云計(jì)算等成為新時(shí)代的基礎(chǔ)設(shè)施,,將會(huì)給企業(yè)變革與發(fā)展帶來更多新機(jī)會(huì)。未來,,科技巨頭將會(huì)在大模型和AI產(chǎn)品上不斷推陳出新,,RTC則將帶來人與AI交互的重要變革,也將加速AI應(yīng)用場(chǎng)景的新一輪爆發(fā),。
(編輯:張靖超 審核:李正豪 校對(duì):顏京寧)
免責(zé)聲明:本文來自網(wǎng)絡(luò)收錄或投稿,,觀點(diǎn)僅代表作者本人,不代表芒果財(cái)經(jīng)贊同其觀點(diǎn)或證實(shí)其描述,,版權(quán)歸原作者所有,。轉(zhuǎn)載請(qǐng)注明出處:http://lequren.com/1124157.html
溫馨提示:投資有風(fēng)險(xiǎn),入市須謹(jǐn)慎,。本資訊不作為投資理財(cái)建議,。