文章來源：騰訊科技

作者：翟尤《AIGC未來已來》作者

圖片來源：由無界AI生成

在中國農(nóng)歷新年假期,，OpenAI又展開了一次超乎所有人想象的發(fā)布，其首款文生視頻模型Sora正式對外亮相,。

Sora的效果已經(jīng)在科技圈內(nèi)不斷刷屏,，不僅能夠根據(jù)文字創(chuàng)造出以假亂真的場景，而且生成的視頻時(shí)長達(dá)到60秒,。以至于很多人對于OpenAI新技術(shù)的發(fā)布,，如同期待蘋果喬布斯時(shí)代的發(fā)布一樣，總有超乎預(yù)期的技術(shù)讓人眼前一亮,。

從ChatGPT,、DALL-E3,，再到Sora，如果用一句話來總結(jié)OpenAI的與眾不同之處,，那就是：技術(shù)想象力和工程能力,，要遠(yuǎn)比技術(shù)路線或者黑科技重要。同時(shí),，曾經(jīng)大火的一眾AI視頻創(chuàng)業(yè)公司直接被降維碾壓,，先拋開底層技術(shù)，從用戶端的直接感知來談,，他們的產(chǎn)品大部分最多支持4s的視頻生成長度,，與Sora的60s完全沒有可比性。類似于OpenAI,、Google之類的科技大廠“人間才一日,，AI已千年的迭代速度”，真的感覺分分鐘碾壓AI創(chuàng)業(yè),。也不禁讓人感嘆,，AI創(chuàng)業(yè)好難，所謂的“技術(shù)護(hù)城河”,、“產(chǎn)品護(hù)城河”是否還存在,？是否一夜之間就被突飛猛進(jìn)的大廠技術(shù)所顛覆？

01、想象力和工程化的爆發(fā),，生成視頻技術(shù)逐漸收斂

在Sora之前,，我們看到的大量文生視頻技術(shù)尚未實(shí)現(xiàn)技術(shù)收斂，主要技術(shù)路徑是通過各種辦法讓單幀的圖片“動”起來,，類似定格動畫,。而從用戶實(shí)際需求來看：視頻每一幀之間的連貫性與自然度是體現(xiàn)視頻價(jià)值的關(guān)鍵，也就是視頻每幀語義信息的無縫銜接才是核心,。

從Sora在業(yè)內(nèi)關(guān)注和討論的熱度上也能看出,，圍繞需求提供對應(yīng)的技術(shù)解決方案或者產(chǎn)品，要遠(yuǎn)遠(yuǎn)好于通過技術(shù)可實(shí)現(xiàn)的角度來創(chuàng)造產(chǎn)品,。

讓OpenAI公布Sora的全部技術(shù)細(xì)節(jié)已經(jīng)不現(xiàn)實(shí),，開源只能寄希望于其他團(tuán)隊(duì)。但是OpenAI官網(wǎng)上介紹指出,，Sora與之前的文生視頻思路并不一樣,，是讓模型一次預(yù)測多幀畫面，并且確保視頻主體保持不變,。

單從技術(shù)創(chuàng)新度來看,，Sora的技術(shù)和方法并非石破驚天,，也談不上從0到1的創(chuàng)新，其他機(jī)構(gòu)也有相關(guān)研究,，但是整體工程呈現(xiàn)的效果非常好,。而這也是Sora在技術(shù)上的巧妙之處：在視頻幀上做突破，巧妙地提升了生成視頻的使用上限,。

這其中與文生視頻技術(shù)難收斂,，工程難落地有著密切關(guān)系。而把Transformer引入到文生視頻的擴(kuò)散模型中,，實(shí)現(xiàn)視頻幀之間的語義信息預(yù)測,，就可以讓語言模型在其中發(fā)揮出巨大的價(jià)值。也就是說：Transformer+Diffusion?Model,，終于在2024年初實(shí)現(xiàn)了融合,，不再是獨(dú)立兩條發(fā)展路徑。這也就是為何Sora一出現(xiàn),，就引發(fā)用戶的點(diǎn)贊和肯定的原因：文本模型的連貫性和可擴(kuò)展性,，可以在視頻模型的基礎(chǔ)上把用戶的感知效果提升多個(gè)層次，讓文生視頻可以進(jìn)一步接近商用奇點(diǎn),。

在這方面,，OpenAI已經(jīng)在ChatGPT、DALLE-3的工程化上實(shí)現(xiàn)突破,，這次更是把以上模型成果有機(jī)融合起來,，把工程化能力發(fā)揮到極致。

02、好萊塢式的大片,，離素人越來越近

2023年及以前，文生視頻的模型雖然出現(xiàn)了Runway,、Pika等現(xiàn)象級產(chǎn)品,，但從整個(gè)行業(yè)來看，把擴(kuò)散模型和語言模型相結(jié)合的工作并沒有被業(yè)內(nèi)放在“最高優(yōu)先級”,。

可以預(yù)見的未來,，隨著文生視頻技術(shù)的收斂，生成視頻技術(shù)的使用門檻降進(jìn)一步降低,，將幫助人們完成大量工程化的工作,，可以媲美好萊塢水準(zhǔn)的視頻解決方案將會出現(xiàn)。

具體來看,，從過去視頻制作前期設(shè)計(jì),、中期拍攝,、后期制作的傳統(tǒng)流程中，逐步向后期制作進(jìn)行傾斜,，尤其是不斷生成新的視頻元素會導(dǎo)致前期設(shè)計(jì)和中期拍攝的工作流產(chǎn)生極大的變化,，出現(xiàn)新的工具和工作流。

最終將在多個(gè)C端消費(fèi)場景中得到應(yīng)用,，比如商品廣告,、劇情片等等。尤其是對于視覺藝術(shù),、設(shè)計(jì)師,、電影制作等工作，可以幫助這些專業(yè)人士快速原型化和可視化,，節(jié)省一定時(shí)間和成本,。

這其中，尤其是對短視頻行業(yè)帶來巨大想象,，普通用戶可能無法通過Sora制作好萊塢大片,，但是制作一個(gè)60秒的高質(zhì)量短視頻，似乎近在咫尺,。尤其是對于內(nèi)容邏輯性要求不高,，在探索科幻等方面，可以協(xié)助個(gè)性化內(nèi)容的制作,。

03,、與其期待Sora,，不如期待AI視頻剪輯軟件的普及

對于OpenAI來講，更像是前鋒,，開山辟路是它的強(qiáng)項(xiàng),，開枝散葉搞應(yīng)用的事情并不關(guān)注。

從單點(diǎn)的突破來看,，Sora具有里程碑意義,。但是從商業(yè)化需求和混剪工作流效率提升來看，Sora本身的價(jià)值還有待商榷,。

想靠60秒生成的視頻成為下一個(gè)董宇輝,、李佳琪并不現(xiàn)實(shí)，更別說制作長視頻或者電影,、電視劇了,，距離真正落地還有漫長的路要走。

還是以短視頻為例,，是通過一遍遍修改提示詞（Prompt）更加有效率,，還是在視頻剪輯軟件里調(diào)整素材更快,？

很顯然，我們期待Sora,，不如期待視頻剪輯軟件中盡早更新增加AI工具,，從而在商業(yè)上追求效率真正的提升。同時(shí),，通過提示詞來進(jìn)行視頻生成一直存在理解偏差的問題,，這一問題不僅困擾文生視頻，在ChatGPT使用過程中依舊沒有解決,。

即使Sora全面放開使用,，普通用戶也難以做出如當(dāng)前演示案例般的Demo。最終決定Sora是否能夠普及的關(guān)鍵,，是工具本身是否能夠提升人們的工作效率,。

是買家秀，還是賣家秀,，仍需要時(shí)間的檢驗(yàn),。

04、生成視頻領(lǐng)域,，其他企業(yè)沒有機(jī)會了嗎,？

顯然并不是。

生成式人工智能領(lǐng)域,，科技企業(yè)都在不斷發(fā)力：

Meta在幾乎同一時(shí)間發(fā)布了V-JEPA,，可以不進(jìn)行微調(diào)就能夠應(yīng)用各種需要世界知識的任務(wù)中。而且V-JEPA是在特征空間進(jìn)行自監(jiān)督學(xué)習(xí),，效率更高,。至于哪條路會通往最終的通用人工智能,，目前尚未可知。

谷歌也在相近的時(shí)間上線了Gemini 1.5,，可以支持10000K token的上下文,，使得大模型的輸出更加連貫、實(shí)用,。多模態(tài)變得更加流暢,，工程化不輸OpenAI。

Runway和Pika等之前的文生視頻產(chǎn)品,，依舊可以在人工智能時(shí)代獲得一席之地,。Sora應(yīng)用的是Transformer+Diffusion，從模型架構(gòu)來看：如果以Transformer為基準(zhǔn),，那么文生視頻依舊是龍頭科技企業(yè)更有優(yōu)先權(quán),，但是如果生成式視頻架構(gòu)依舊圍繞Diffusion展開的話，創(chuàng)業(yè)企業(yè)機(jī)會更大一些,。

沒有一騎絕塵的技術(shù),，只有螺旋式上升的產(chǎn)業(yè)繁榮。

Sora雖然可以一次性生成幾十秒的視頻,，但是真正在應(yīng)用階段,，如果產(chǎn)品沒有提供足夠多的微操空間，確保用戶能夠通過微操將其整合到自己的工作流中,，那么大概率Sora仍是效果越來越炸裂,，距離用戶越來越遠(yuǎn)。

即使是ChatGPT已經(jīng)問世一年多的今天,，還有大量用戶沒有使用過聊天機(jī)器人,。這也為開源社區(qū)迎頭趕上創(chuàng)造了窗口期，同時(shí),，文生文,、文生視頻這些模型的模塊化組合，是否會有類似IPhone一樣的專有智能設(shè)備問世,？讓更多用戶可以在端側(cè)使用模型,，構(gòu)建起開源+小參數(shù)模型+移動端的思路，把智能手機(jī)的形態(tài)也做一次革新,。

永遠(yuǎn)有新產(chǎn)品出現(xiàn),，技術(shù)的擴(kuò)散才剛剛開始，不會有任何一家公司“猝死”在新技術(shù)的出現(xiàn)上,。

05,、AI爆發(fā)時(shí)代，普通人也可以做“領(lǐng)航員”

對于普通人來講，不被“遙遙領(lǐng)先”和“王炸”之類的詞洗腦已經(jīng)實(shí)屬不易,，如果還能再清醒一些就顯得更加彌足珍貴,。Sora爆發(fā)的當(dāng)下，普通人要做的事情可以歸結(jié)為三件事：

1.? 應(yīng)用到你熟悉的場景中

焦慮的反面是具體,。只有把Sora等人工智能新應(yīng)用用起來,，融入到具體的場景和工作中去，我們才能夠切身體會人工智能到底會取代自己的哪些工作內(nèi)容,，以及取代的程度有多深,。同時(shí)還能真切的發(fā)現(xiàn)人工智能在哪些方面可以真正落地并解決我們的問題。對于新技術(shù)和新應(yīng)用,，早期使用者的最大優(yōu)勢在于,，可以更早的發(fā)揮出先進(jìn)科技的價(jià)值，來提高生產(chǎn)力和生產(chǎn)效率,。如果你只是嘗鮮,，用人工智能問問腦筋急轉(zhuǎn)彎、看看人工智能是真聰明還是智障,，找找優(yōu)越感的話,，那么只能沉浸在短暫的舒適區(qū)而已。

2.? 探索屬于你的新模式

蒸汽機(jī)是瓦特改良的,，但是真正發(fā)揮價(jià)值的是使用蒸汽機(jī)進(jìn)行生產(chǎn)的企業(yè)家,；汽車讓運(yùn)輸行業(yè)效率大增，但是電商行業(yè)把運(yùn)輸行業(yè)升級到物流體系,，以至于次日達(dá)成為諸多電商平臺的標(biāo)配,。

Sora在當(dāng)下展示出了各種超能力，但還需要一個(gè)真正的伯樂,。伯樂不但理解人工智能工具的各種優(yōu)勢和不足,，還要對自身業(yè)務(wù)體系有著深刻的理解和洞察，通過使用人工智能技術(shù)來整合重塑業(yè)務(wù)流程,。未來將出現(xiàn)更多整合了人工智能的全新方案,，來“侵入”到各行各業(yè)之中。

3.? 成為規(guī)則的“領(lǐng)航員”

適應(yīng)變化才是王道,。

回顧工業(yè)革命,，機(jī)器的出現(xiàn)導(dǎo)致失業(yè)的并非普通紡織工人，而是有經(jīng)驗(yàn)的高端紡織工人,。這其中的原因就是工業(yè)革命把專家經(jīng)驗(yàn)固化到系統(tǒng)之中,，使得沒有經(jīng)驗(yàn)的人通過機(jī)器或者系統(tǒng)，就能夠做出比有經(jīng)驗(yàn)的人更好的產(chǎn)品,。同樣的,，最近波士頓咨詢公司將咨詢顧問分為高底兩個(gè)組,，同時(shí)使用GPT-4，最終結(jié)果是低水平顧問的結(jié)果質(zhì)量提高43%,，高水平顧問僅提高17%。高底兩個(gè)對比組的績效結(jié)果之差從22%縮小到了4%,。

與其在不久的將來去適應(yīng)別人制定的新規(guī)則,、新體系，倒不如利用先發(fā)優(yōu)勢適應(yīng)變化,、擁抱變化,，成為規(guī)則“領(lǐng)航員”。梳理了Sora出現(xiàn)之后,，大家討論如何做“創(chuàng)新”的一些思路,，供大家參考：

免責(zé)聲明：本文來自網(wǎng)絡(luò)收錄或投稿,，觀點(diǎn)僅代表作者本人，不代表芒果財(cái)經(jīng)贊同其觀點(diǎn)或證實(shí)其描述,，版權(quán)歸原作者所有,。轉(zhuǎn)載請注明出處：http://lequren.com/1089112.html
溫馨提示：投資有風(fēng)險(xiǎn)，入市須謹(jǐn)慎,。本資訊不作為投資理財(cái)建議,。