圖說:用央視聽大模型生成流暢、高清,、帶有故事情節(jié)的視頻 采訪對象供圖
新民晚報訊(記者 郜陽)在由中央廣播電視總臺,、上海市人民政府聯(lián)合主辦的第二屆全球媒體創(chuàng)新論壇上,,上海人工智能實驗室、中央廣播電視總臺聯(lián)合發(fā)布“央視聽媒體大模型”,。雙方將“以原創(chuàng)技術(shù),,促內(nèi)容原創(chuàng)”,攜手推動視聽媒體編創(chuàng)范式變革,,以科技創(chuàng)新加速賦能視聽產(chǎn)業(yè)應(yīng)用,。
上海人工智能實驗室繼兩周前聯(lián)合商湯科技等發(fā)布全新升級的“書生通用大模型體系”后,,又將大模型的應(yīng)用探索拓展到視聽媒體領(lǐng)域。本次聯(lián)合中央廣播電視總臺發(fā)布的央視聽大模型為首個專注于視聽媒體內(nèi)容生產(chǎn)的AI大模型,,集合了中央廣播電視總臺的海量視聽數(shù)據(jù)與上海AI實驗室的原創(chuàng)先進算法,、大模型訓(xùn)練基礎(chǔ)設(shè)施優(yōu)勢?;凇皶ㄓ么竽P腕w系”,,央視聽大模型將拓展視聽媒體的創(chuàng)意空間、提高創(chuàng)作效率并帶來交互方式的變革,。
“當我們談?wù)摯竽P蜁r,,不應(yīng)只關(guān)注對話聊天功能,更應(yīng)看到它在提高生產(chǎn)效率方面的作用,?!鄙虾I實驗室主任助理喬宇表示,上海AI實驗室將與學(xué)術(shù)界,、產(chǎn)業(yè)界緊密合作,,共同推動大模型落地應(yīng)用,使之成為推動生產(chǎn)力變革的技術(shù)基礎(chǔ)設(shè)施和社會發(fā)展的重要基石,。
據(jù)悉,,以大模型的多模態(tài)理解,、交互和生成能力為基礎(chǔ),媒體工作者將來有望在“聊天”中完成工作,。目前,,央視聽大模型具備了強大的視頻理解能力和視聽媒體問答能力,,AI相當于擁有了感知真實世界的“眼睛”和“耳朵”,。同時,央視聽大模型可根據(jù)提供的視頻,,創(chuàng)作諸如主持詞,、新聞稿件,甚至詩歌等文字,。媒體編輯可在大模型的協(xié)助下,,一鍵為視頻生成風格各異的解說詞,當前生成內(nèi)容已覆蓋美食,、文化和科技等多個領(lǐng)域,。
央視聽大模型可通過逐步呈現(xiàn)的視覺元素,理解并分析視頻,。用戶通過與AI聊天對話的形式,,深挖視頻蘊含信息,進一步完善輸出的內(nèi)容——當它“看”到央視節(jié)目《中國詩詞大會》中“看圖猜詩詞”環(huán)節(jié)視頻,,便可理解視頻內(nèi)容并生成出李白的《望廬山瀑布》,。
央視聽大模型同樣了解最新的科技進展——當“看”到我國空間站模型的相關(guān)視頻,即能生成視頻鏡頭腳本及旁白,。
央視聽大模型還為用戶提供了強大的交互式圖像,、視頻編輯與創(chuàng)作能力,使得新的內(nèi)容生產(chǎn)方式變成可能,。在央視聽大模型的界面中,,用戶僅需使用簡單的光標和文字指令,即可快速修改或編輯圖像,,實現(xiàn)“指哪改哪,,畫隨口出”。
上海人工智能實驗室科研團隊介紹,,央視聽大模型具備的視覺理解能力,,源于跨模態(tài)互動技術(shù)的最新突破,將圖像/視頻視為另一種“語言”,,并將視覺與語言對齊,,降低人工智能視覺任務(wù)的門檻?;趯Χ嗄B(tài)數(shù)據(jù)的建模,,央視聽大模型可感知圖像的風格與紋理筆觸,,通過將用戶輸入的文本指令與圖像對齊,實現(xiàn)按照用戶需求生成畫面及風格一致的其他內(nèi)容,。
除了視頻內(nèi)容,,央視聽大模型還具備快速生成“數(shù)字人主播”的能力。使用較短的真人采集視頻即可生成對應(yīng)的數(shù)字人,。AI生成的數(shù)字人主播以“真人”形象呈現(xiàn),,不僅能根據(jù)既定文案和背景場景快速生成播報視頻,還可自動學(xué)習真人的語言及動作習慣,,做到形象更逼真,,表情更自然。
免責聲明:本文來自網(wǎng)絡(luò)收錄或投稿,,觀點僅代表作者本人,不代表芒果財經(jīng)贊同其觀點或證實其描述,,版權(quán)歸原作者所有,。轉(zhuǎn)載請注明出處:http://lequren.com/1060304.html
溫馨提示:投資有風險,入市須謹慎,。本資訊不作為投資理財建議,。