文章來(lái)源:AI鯨選社
作者:到底哥
圖片來(lái)源:由無(wú)界AI生成
在Sora難產(chǎn)卻爆??的這幾天中,,每個(gè)人都有點(diǎn)望梅不止渴的心態(tài),。
未來(lái)是什么,ChatGPT形成的共識(shí)可能用了3月,,Sora形成共識(shí)可能也就3天,。大家也不用焦慮,從而被割韭菜,。以下這個(gè)網(wǎng)站能排隊(duì)提前申請(qǐng)測(cè)試資格,,也可以看到Sora目前生成的視頻Demo和對(duì)應(yīng)提示詞,并且支持漢語(yǔ)在內(nèi)的多語(yǔ)言,。
當(dāng)然,,這個(gè)網(wǎng)站也是個(gè)套殼網(wǎng)站,,繳費(fèi)還是等Sora上線后,去官網(wǎng)繳費(fèi)比較靠譜,。
這里給大家潑一盆冷水,,Sora上線后,能AI生成的場(chǎng)景肯定有限,,并且復(fù)雜度不會(huì)太高,,價(jià)格也肯定很貴(ChatGPT4一個(gè)月20美元,Sora肯定更貴),,所以早期幾乎不會(huì)有什么實(shí)際用途,。
當(dāng)然,,未來(lái)迭代幾代后,,殺死剪輯工具剪映肯定不在話下,,就像剪映讓Adobe Pr買斷費(fèi)大幅降低一樣。
這其中就出現(xiàn)了一個(gè)問(wèn)題,,在Sora難實(shí)用化和剪映不夠智能的中間態(tài),,還有沒(méi)有可用智能的AI視頻制作工具,?
這時(shí)候,,Meta 發(fā)布了一個(gè)可以利用 AI 自動(dòng)剪輯視頻的 Agents LAVE。
這是我翻譯的LAVE官方宣傳文檔,大家對(duì)這個(gè)產(chǎn)品可以有一個(gè)清晰的認(rèn)知,。
我們提供了LAVE產(chǎn)品,一個(gè)視頻編輯工具,,是由LLM提供的語(yǔ)言增強(qiáng)。LAVE引入了一個(gè)基于LLM的執(zhí)行Agents,,能夠理解用戶的自然語(yǔ)言命令,、計(jì)劃和執(zhí)行相關(guān)操作,以實(shí)現(xiàn)用戶的編輯目標(biāo),。
這些動(dòng)作包括概念化協(xié)助,,如頭腦風(fēng)暴和描述視頻料庫(kù),包括基于語(yǔ)義的視頻檢索,、故事板(將視頻排序以形成敘事)和修剪剪輯,,為了啟用這些代理動(dòng)作,LAVE使用視覺(jué)語(yǔ)言模型(VLMs)自動(dòng)生成視頻的視覺(jué)效果,。
我們從產(chǎn)品界面看LAVE的布局:
從LAVE的視頻生成界面可以看到,,左邊是自然語(yǔ)言描述視頻內(nèi)容的窗口,可以輸入提示詞以及展示 LLM 詳細(xì)的剪輯邏輯,。
右邊是AI直接生成的視頻,,可以鼠標(biāo)點(diǎn)擊后獲得 LLM, 幫你總結(jié)的這段視頻的內(nèi)容,,不需要播放,, AI 也會(huì)自動(dòng)生成的素材標(biāo)題。
底下是視頻自動(dòng)剪輯的可視軸,,視頻就在這里自動(dòng)和手動(dòng)剪輯,。
實(shí)際上,LAVE產(chǎn)品化也沒(méi)那么完整,,更多還是Agents模式跑程序,。
具體是LAVE根據(jù)你指令的角色分配之后,,描述Agents可以執(zhí)行的一系列動(dòng)作,。LAVE從行動(dòng)計(jì)劃中解析每個(gè)行動(dòng)描述,并將其轉(zhuǎn)化為相應(yīng)的后端函數(shù)調(diào)用,。
可調(diào)用5種內(nèi)容:1)素材概覽,,2)創(chuàng)意頭腦風(fēng)暴,3)視頻檢索,,4)故事板,,5)剪輯修剪。前四種功能可通過(guò)Agents訪問(wèn),,第5種直接操作,。
其中,基于語(yǔ)言的視頻檢索是通過(guò)向量存儲(chǔ)數(shù)據(jù)庫(kù)實(shí)現(xiàn)的,,而其余功能則是通過(guò)LLM提示工程實(shí)現(xiàn)的,。LAVE以每秒一幀的速率對(duì)視頻幀進(jìn)行采樣。然后使用大模型對(duì)每幀進(jìn)行標(biāo)題標(biāo)注,。
LAVE到底好不好用,,官網(wǎng)說(shuō)法是LAVE為視頻編輯提供了兩種交互模式:代理輔助和直接操作。這種雙重模式為用戶提供了靈活性,,并允許他們根據(jù)需要細(xì)化代理操作,。
其中8名試驗(yàn)者說(shuō)非常好用,8名人士中有新手也有成熟的視頻剪輯師,。
其實(shí)到底好不好用,,可能在于LLM對(duì)視頻每幀的理解能力,這就需要產(chǎn)品正式發(fā)布時(shí)才可用,。
不過(guò)從現(xiàn)在來(lái)看,,Sora的世界模型、物理引擎,,被很多技術(shù)大牛評(píng)論并不可能,,只是將訓(xùn)練的數(shù)據(jù)壓縮權(quán)重。
而剪映是通過(guò)視頻庫(kù)中給視頻打標(biāo)簽,然后合成相應(yīng)內(nèi)容,,對(duì)視頻的每一幀理解不到位,,所以合成的只是粗略符合,而且現(xiàn)在抖音會(huì)給剪映AI生成的視頻限流,。
LAVE的中間態(tài)是深刻了解視頻每一幀,,然后自動(dòng)剪輯成符合每一句文案的畫(huà)面,。未來(lái)配合Sora使用,可能對(duì)短視頻和廣告制作行業(yè),,都將快速產(chǎn)生影響,。
其實(shí)國(guó)內(nèi)也有創(chuàng)業(yè)者做過(guò)類似的產(chǎn)品Demo,甚至設(shè)計(jì)了視頻自動(dòng)發(fā)布的部分,只是這款復(fù)雜的產(chǎn)品沒(méi)能最終面市,。
只能說(shuō)現(xiàn)在視頻為王的時(shí)代,,字節(jié)跳動(dòng)的張楠都去親自負(fù)責(zé)剪映,類似產(chǎn)品確實(shí)有機(jī)會(huì),。最終比拼的是,,用戶手中使用的效果。
免責(zé)聲明:本文來(lái)自網(wǎng)絡(luò)收錄或投稿,,觀點(diǎn)僅代表作者本人,,不代表芒果財(cái)經(jīng)贊同其觀點(diǎn)或證實(shí)其描述,版權(quán)歸原作者所有,。轉(zhuǎn)載請(qǐng)注明出處:http://lequren.com/1089248.html
溫馨提示:投資有風(fēng)險(xiǎn),入市須謹(jǐn)慎,。本資訊不作為投資理財(cái)建議,。