女友荡乳欲伦交换小说,大尺度做爰啪啪高潮床戏电视剧 ,日韩专区91无码人妻精品

本報(bào)記者吳清北京報(bào)道

OpenAI實(shí)時(shí)API（應(yīng)用程序接口）公開測試版發(fā)布，推動(dòng)AI應(yīng)用的加速落地。

近日,，OpenAI發(fā)布了其實(shí)時(shí)API公開測試版,，為開發(fā)者提供了構(gòu)建基于GPT-4大型語言模型的高交互性AI應(yīng)用程序的機(jī)會(huì)。業(yè)內(nèi)人士認(rèn)為,，該API允許開發(fā)者在應(yīng)用程序中創(chuàng)建低延遲、多模態(tài)的實(shí)時(shí)交互體驗(yàn)，是AI應(yīng)用領(lǐng)域的一次重大革新,。

同時(shí),，OpenAI宣布與三家語音API合作伙伴合作，分別為：LiveKit,、Agora和Twilio,。三家都是實(shí)時(shí)音視頻（RTC）領(lǐng)域的全球龍頭企業(yè)，其中Twilio,、LiveKit都是美國本土企業(yè),，之前與OpenAI有較多聯(lián)系，而Agora在中國市場擁有兄弟公司聲網(wǎng),，兩家公司在2023年5月拆分,，聲網(wǎng)專注于中國市場，總部位于上海,，Agora則面向美國和國際市場,。

《中國經(jīng)營報(bào)》記者注意到，隨著各平臺公司紛紛發(fā)布旗下AI大模型產(chǎn)品,，大模型領(lǐng)域的競爭也在加劇,。10月2日，OpenAI發(fā)布了其實(shí)時(shí)API公開測試版,，10月4日,，Meta公布了名為Movie Gen的全新AI模型。國內(nèi)巨頭也紛紛推出并更新了性能直追甚至部分超越GPT-4的產(chǎn)品,。

同時(shí),，RTC作為AI語音、音視頻互動(dòng)等AI落地強(qiáng)應(yīng)用場景的關(guān)鍵技術(shù),，得到了更多的關(guān)注和應(yīng)用,，吸引了巨頭們的紛紛布局。除了OpenAI,，近日微軟AI CEO Mustafa Suleyman也表示,，今年年底，微軟的AI將擁有實(shí)時(shí)的語音界面,，允許完全動(dòng)態(tài)的交互,。

人與AI的實(shí)時(shí)音視頻互動(dòng)正在變成現(xiàn)實(shí)。多為業(yè)內(nèi)人士接受記者采訪時(shí)表示,，實(shí)時(shí)API的發(fā)布標(biāo)志著OpenAI在AI應(yīng)用領(lǐng)域向前跨了一大步,，通過降低語音交互延時(shí)并增強(qiáng)AI對人類語音及情感的理解，為開發(fā)者創(chuàng)造了構(gòu)建更具沉浸性和動(dòng)態(tài)性的AI應(yīng)用程序的機(jī)遇,。

實(shí)時(shí)語音互動(dòng)：多模態(tài)大模型交互的終極形態(tài),？

日常生活中人與人的溝通就是以語音為主，視覺其次,，視覺的價(jià)值主要在于信息的豐富度,，但想要提升信息濃度和溝通效率還得靠語音,。如今綜合文字,、圖像,、視頻等的多模態(tài)大模型的出現(xiàn)，推動(dòng)了人與AI交互方式的變革,，而語音多模態(tài)將是其中的必經(jīng)之路,。

在生成式人工智能領(lǐng)域，大模型多模態(tài)交互能力的升級正掀起一股新的AI浪潮,，在RTC 能力的加持下,，人與AI的交互不再局限于文字，也可以通過語音通話進(jìn)行生動(dòng),、流暢的低延時(shí)交互,，這也成為當(dāng)下國內(nèi)外大模型廠商新的發(fā)力點(diǎn)。

實(shí)際上,，引領(lǐng)此輪AI革命浪潮的OpenAI深刻地理解這點(diǎn),，并在此領(lǐng)域深耕已久。

今年3月,，OpenAI就宣布了一項(xiàng)革命性的聲音克隆技術(shù)——“語音引擎”,。該技術(shù)作為其現(xiàn)有文本轉(zhuǎn)語音API的擴(kuò)展，僅需15秒的音頻樣本,，便能模仿任何說話者的聲音,。

記者注意到，GPT-4o算是開創(chuàng)了AI實(shí)時(shí)語音對話的先河,。自GPT-4o發(fā)布以來,，支持端到端實(shí)時(shí)多模態(tài)成為國內(nèi)外大模型廠商紛紛跟進(jìn)的新方向，先是AI初創(chuàng)公司Character.AI推出一項(xiàng)通話功能,，允許用戶與其人工智能角色語音對話，并支持多種語言,。此后巨頭們紛紛跟進(jìn),。

一般來說，GPT-4o能支持實(shí)時(shí)語音對話,。一方面得益于自身大模型能力的進(jìn)化,，端到端實(shí)時(shí)多模態(tài)模型能夠直接處理語音，這與傳統(tǒng)的三步驟處理方法（語音識別,、語音轉(zhuǎn)文字,、文字轉(zhuǎn)語音）相比，響應(yīng)更加及時(shí),。另一方面,，通過應(yīng)用RTC技術(shù)，實(shí)現(xiàn)了語音的實(shí)時(shí)傳輸,，進(jìn)一步降低了語音交互的延時(shí),，RTC也成為人與AI交互的重要一環(huán)。

聲網(wǎng)在實(shí)踐中發(fā)現(xiàn),，傳統(tǒng)的三步驟處理方法在應(yīng)用RTC后,，響應(yīng)延時(shí)可從4—5秒降低到1—2秒，而在具備端到端實(shí)時(shí)多模態(tài)處理能力后,，通過RTC技術(shù),，大模型實(shí)時(shí)語音對話的延時(shí)可降到幾百毫秒內(nèi)。

從體驗(yàn)上看,，RTC技術(shù)的應(yīng)用讓對話式大模型的交互更智能,，更具真實(shí)感。一方面,，低延時(shí)的快速響應(yīng)讓人與AI的互動(dòng)更接近人與人之間的實(shí)時(shí)對話更自然,。另一方面，語音還能識別說話人的情緒,、語調(diào),，視頻能識別人的表情與所處的環(huán)境，最終輸出更精準(zhǔn),、更智能的回答,。

“基于RTC的超低延遲方法可實(shí)現(xiàn)更為逼真的對話，并使AI能夠理解人類的情感,，從而提供更自然的對話體驗(yàn),。”一位云服務(wù)廠商的技術(shù)負(fù)責(zé)人對記者表示，可以預(yù)見的是,，未來基于AI的人機(jī)界面從鍵盤,、鼠標(biāo)、觸屏到實(shí)時(shí)對話的變革,，語音將是必須走過的進(jìn)化過程,，實(shí)時(shí)語音互動(dòng)或?qū)⒊蔀槲磥韺υ捠蕉嗄B(tài)大模型交互的終極形態(tài)。

大模型實(shí)時(shí)語音落地RTC成關(guān)鍵推動(dòng)AI應(yīng)用場景爆發(fā)

不過,，多模態(tài)大模型實(shí)時(shí)語音對話想要落地,，背后依然面臨著一系列的技術(shù)難點(diǎn)。首先,，對于大模型廠商而言，具備端到端實(shí)時(shí)語音處理的能力是關(guān)鍵,，端到端模型的訓(xùn)練成本很高,，尤其是處理語音與視頻數(shù)據(jù)，面臨大量計(jì)算,，而計(jì)算過程往往會(huì)造成延遲,，這對實(shí)時(shí)交互的需求形成了挑戰(zhàn)，需要邊接收語音邊處理和解析,，對于很多大模型廠商而言,，這意味著需要研發(fā)更高效的模型或者優(yōu)化現(xiàn)有模型的運(yùn)行效率。

同時(shí),，多模態(tài)大模型在接入RTC后如何保障低延時(shí),、流暢的語音交互體驗(yàn)更為關(guān)鍵。除了低延時(shí)問題外,，大模型實(shí)時(shí)語音對話中還面臨著噪音,、終端適配等一系列問題，需要專業(yè)的RTC廠商來優(yōu)化,。

記者注意到GPT-4o的發(fā)布會(huì)的一個(gè)細(xì)節(jié),，工程師演示GPT-4o的手機(jī)上插著一根網(wǎng)線，這也反映了一個(gè)現(xiàn)實(shí),，GPT-4o的演示是在固定設(shè)備,、固定網(wǎng)絡(luò)和固定物理環(huán)境下進(jìn)行的，以確保低延時(shí),。而在實(shí)際應(yīng)用場景中,，用戶的設(shè)備通常無法一直插著網(wǎng)線，這就對大模型實(shí)時(shí)語音對話中的低延時(shí)傳輸,、網(wǎng)絡(luò)優(yōu)化等提出了考驗(yàn),。

而在RTC的加持下，隨著多模態(tài)大模型能力的進(jìn)化,，AIGC應(yīng)用場景迎來新一輪爆發(fā),，AI智能助手,、AI情感陪伴、AI口語老師,、AI客服的AI交互體驗(yàn)進(jìn)一步升級,，學(xué)生的學(xué)習(xí)效率更高，社交陪聊場景的娛樂性與沉浸感也進(jìn)一步增強(qiáng),。同時(shí),，在游戲社交、AI分身,、實(shí)時(shí)語音翻譯等場景,，對話式多模態(tài)大模型也大有可為。

量子位智庫發(fā)布的AI智能助手用戶數(shù)據(jù)報(bào)告顯示,，截至今年8月,，國內(nèi)市場的AI智能助手App已超過64款。在AI情感陪伴領(lǐng)域也涌現(xiàn)了Soul,、星野,、Wow等一系列人氣社交App。

業(yè)內(nèi)人士認(rèn)為,，人工智能技術(shù)的快速發(fā)展,，推動(dòng)實(shí)時(shí)互動(dòng)行業(yè)持續(xù)進(jìn)化，讓實(shí)時(shí)互動(dòng)場景變得更豐富,、更有趣,、更高效，相關(guān)市場的應(yīng)用空間廣闊,。

以全球移動(dòng)應(yīng)用第一大市場美國為例,，相關(guān)應(yīng)用市場廣闊，應(yīng)用收入也在持續(xù)增長,。公開數(shù)據(jù)顯示,，2023年泛娛樂應(yīng)用收入規(guī)模達(dá)到74億美元，是第二大市場日本的4.6倍,，且同比增長12.6%,，市場規(guī)模仍在穩(wěn)定增長。

“美國本土開發(fā)者依然把持著泛娛樂頭部市場,，中國出海App目前仍以短劇為主,，盡管在頭部App中，中國出海應(yīng)用較少,，但是出海美國的優(yōu)點(diǎn)在于中長尾App時(shí)長占比較高,，且用戶付費(fèi)能力較強(qiáng)，中小型App也能在美國取得不錯(cuò)的收入?！眹鴥?nèi)一家短劇出海App的運(yùn)營負(fù)責(zé)人向記者稱,。

據(jù)Ookla的最新數(shù)據(jù)，美國的移動(dòng)網(wǎng)絡(luò)平均網(wǎng)速略低于中國,，在測試環(huán)境下,，美國手機(jī)移動(dòng)網(wǎng)絡(luò)下載速度113Mbp/s（中國為135.7Mbp/s）。在這樣的背景下,，要實(shí)現(xiàn)真實(shí)無障礙的AI互動(dòng),，RTC就成為一個(gè)關(guān)鍵，也給相關(guān)業(yè)內(nèi)企業(yè)帶來了大的發(fā)展機(jī)遇,。

財(cái)報(bào)顯示,，今年第二季度，聲網(wǎng)和Agora分別在中國和海外市場實(shí)現(xiàn)了營收增長,。聲網(wǎng)和Agora的創(chuàng)始人兼CEO趙斌表示：“我很高興看到聲網(wǎng)和Agora在面對極具挑戰(zhàn)的宏觀環(huán)境下,，本季度雙雙實(shí)現(xiàn)收入同比增長。這一成果得益于我們不斷推動(dòng)新應(yīng)用場景落地,，另一方面也提升成熟場景方案的質(zhì)量和價(jià)值。我們最近幫助客戶在多個(gè)應(yīng)用場景中推出了對話式AI應(yīng)用,，如AI陪伴,、AI助理、AI語言陪練和AI客服,，并看到了不錯(cuò)的用戶和用量增長,。我相信，實(shí)時(shí)互動(dòng)與對話式AI的結(jié)合將成為我們未來業(yè)務(wù)發(fā)展的關(guān)鍵驅(qū)動(dòng)力,?！?/p>

在這樣的背景下，聲網(wǎng)在近期推出了Linux Server SDK,，支持當(dāng)下大模型編程最主流的兩類語言Python與Go,，能夠幫助開發(fā)者快速構(gòu)建AI陪伴、AI助理,、AI語言陪練等實(shí)時(shí)AI應(yīng)用場景,。

不過，聲網(wǎng)在2024年第二季度仍處于虧損狀態(tài),，凈虧損仍為920萬美元,，上年同期的凈虧損為4530萬美元。聲網(wǎng)預(yù)計(jì)2024年第三季度營收為3150萬美元到3350萬美元,。

可以預(yù)見的是,，AI、5G、云計(jì)算等成為新時(shí)代的基礎(chǔ)設(shè)施,，將會(huì)給企業(yè)變革與發(fā)展帶來更多新機(jī)會(huì),。未來，科技巨頭將會(huì)在大模型和AI產(chǎn)品上不斷推陳出新,，RTC則將帶來人與AI交互的重要變革,，也將加速AI應(yīng)用場景的新一輪爆發(fā)。

（編輯：張靖超審核：李正豪校對：顏京寧）

免責(zé)聲明：本文來自網(wǎng)絡(luò)收錄或投稿,，觀點(diǎn)僅代表作者本人,，不代表芒果財(cái)經(jīng)贊同其觀點(diǎn)或證實(shí)其描述，版權(quán)歸原作者所有,。轉(zhuǎn)載請注明出處：http://lequren.com/1124157.html
溫馨提示：投資有風(fēng)險(xiǎn),，入市須謹(jǐn)慎。本資訊不作為投資理財(cái)建議,。

OpenAI發(fā)布實(shí)時(shí)API AI實(shí)時(shí)語音時(shí)代加速到來

相關(guān)推薦