自2023年以Stable Diffusion為主的開源圖像生成AI以來,,AI在圖像和視頻兩個(gè)方向均有了質(zhì)的突破。從語音AI到成為創(chuàng)新前沿的AI視頻大模型,,經(jīng)歷了六十年風(fēng)雨的人工智能逐漸迎來了產(chǎn)業(yè)化的臨界點(diǎn),。季嘯白目前在全球頭部互聯(lián)網(wǎng)社交媒體公司工作,,同時(shí)也是長期的圖像生成AI方向創(chuàng)業(yè)者。從全球頂級(jí)名校碩士畢業(yè)后,,季嘯白一直投身于圖像生成AI產(chǎn)品化的研究和創(chuàng)業(yè),,作品也多次獲獎(jiǎng)。AI如何轉(zhuǎn)化為新質(zhì)生產(chǎn)力,?紫牛新聞?dòng)浾卟稍L了人機(jī)交互專家季嘯白,。揚(yáng)子晚報(bào)/紫牛新聞?dòng)浾咄跞?noscript>圖源:視覺中國一紫牛新聞:無論是蘋果手機(jī)的Siri,,還是小愛同學(xué)、天貓精靈,,語音助手從一出生開始就被人們視作AI技術(shù)的落地產(chǎn)品,,但它為何沒被多數(shù)用戶高頻使用?季嘯白:我覺得主要有兩大原因:使用場景有限和效率不高,。語音AI最早可以追溯到20世紀(jì)50年代,,很長的時(shí)間段里,它是依賴人類維護(hù)來回答問題,。近幾年語音AI實(shí)現(xiàn)了質(zhì)的飛躍,,比如ChatGPT所提供的語音AI不僅能夠回答用戶的問題,還能引導(dǎo)對(duì)話向更有價(jià)值的方向發(fā)展,。但作為信息傳遞的載體,,語音的信息密度常常低于圖像,在很多場景下,,單憑語音很難完整表達(dá)復(fù)雜的信息,。此外,語音AI個(gè)性化能力有著先天不足,它很難從你的語氣和用詞中感知你的喜好,,無法獲得你的使用數(shù)據(jù),,也無法高效向你推薦內(nèi)容。圖形化界面的先天優(yōu)勢(shì)在于,,無論是淘寶還是抖音,,你點(diǎn)進(jìn)去看了多久,查看哪一類商品比較多,,這些數(shù)據(jù)都能作為推薦給你視頻和商品的依據(jù),。紫牛新聞:但語音AI仍然是人工智能競逐的重要戰(zhàn)場,,比如2024北京車展,車內(nèi)AI語音交互便是很多新能源車的亮點(diǎn),。語音AI還有哪些發(fā)展方向,?季嘯白:如今基于大模型智駕技術(shù)的企業(yè)非常多,但即便是業(yè)界領(lǐng)先的語音識(shí)別算法,,在嘈雜環(huán)境,、口音差異、速度變化等情況下,,轉(zhuǎn)錄準(zhǔn)確率很難達(dá)到100%,。但人類在機(jī)器時(shí)代已養(yǎng)成了這樣的慣性:對(duì)人類犯錯(cuò)習(xí)以為常,但不能接受機(jī)器犯錯(cuò),,這正是車內(nèi)AI語音交互發(fā)展的限制。此外,,在車內(nèi)場景下,,用戶對(duì)語音AI的訴求不算高頻需求,變現(xiàn)方式也頗為單一,大多打包在車機(jī)訂閱服務(wù)中,。對(duì)于普通AI創(chuàng)業(yè)者來說,,成功的機(jī)會(huì)很小。相比之下,,語音AI在情感陪伴方面,,賽道更寬。獨(dú)居老人常常缺乏人際交流,,情感陪伴型語音助手可以通過自然對(duì)話,,為老人提供情感支持;陪伴兒童時(shí),,語音助手可以與孩子進(jìn)行有趣的互動(dòng)游戲,;有些年輕人希望和喜歡的動(dòng)漫角色談戀愛,和自己崇拜的偶像交流,,和喜歡的虛擬角色交流,,這些都是語音AI可能應(yīng)用的空間。二紫牛新聞:去年底英國《自然》雜志刊文預(yù)測(cè)的2024年十大科學(xué)進(jìn)展中,,人工智能的進(jìn)步和ChatGPT人工智能占據(jù)前兩位,。人類如何對(duì)待可能擁有意識(shí)的人工智能,也成了關(guān)注的話題,。季嘯白:有研究者預(yù)測(cè),,人工智能產(chǎn)生意識(shí)將在5-20年內(nèi)實(shí)現(xiàn)。但我知道的是,,2023年沒有一項(xiàng)資助是用于“研究人工智能產(chǎn)生意識(shí)”的,。我認(rèn)為,AI的發(fā)展仍然在早期,。在當(dāng)下,,人們仿佛對(duì)AI有些不切實(shí)際的幻想,總認(rèn)為AI已經(jīng)進(jìn)化出了人類的思維,,有感情,、有思考,能代替人類寫論文,,甚至能和人類談戀愛,。這有些一廂情愿了。紫牛新聞:2023年1月,,美國多名藝術(shù)家集體起訴三家生成式AI商業(yè)應(yīng)用公司作圖軟件以他們作品的風(fēng)格生成圖像,,法院審理認(rèn)為AI生成后的圖片本來就不享有著作權(quán),并不違反著作權(quán)法,。今年,,谷歌又面臨著三位漫畫家和一位攝影師提出的集體訴訟,。你如何看待這些訴訟?季嘯白:這也印證了當(dāng)下AI是沒有人類思維的,。目前,,你讓AI寫生物醫(yī)藥論文、畫一幅抽象主義繪畫,,而AI本質(zhì)上只是學(xué)習(xí)過去人們寫過的論文,、畫過的繪畫,然后按照人類當(dāng)下的需求重新雜糅并輸出,。AI是沒有創(chuàng)造性的,,特別是圖像領(lǐng)域。圖像生成AI經(jīng)常出現(xiàn)的版權(quán)糾紛,,是因?yàn)槿祟悓?duì)AI的輸出結(jié)果不能很好地控制,。由此可見,探索更有效的人機(jī)交互方式,,空間很大,。紫牛新聞:當(dāng)下,越來越多的創(chuàng)業(yè)者涌入AI領(lǐng)域,,在圖像生成方面,,可謂是老中青三代齊上陣,但進(jìn)去后卻發(fā)現(xiàn)并不輕松,。你如何看待,?季嘯白:當(dāng)前圖像生成AI的人機(jī)交互方式,從渠道上來說分為用文字生成圖像,、用“文字+圖像”生成圖像,、用“文字+圖像+風(fēng)格傾向”生成圖像、用“文字+圖像+標(biāo)注重點(diǎn)部位”生成圖像,;從輪次上來說也分為單次和多次,。設(shè)計(jì)合理且簡化的人機(jī)交互,更能幫助面向普通用戶的C端產(chǎn)品獲得成功,。如何幫圖像生成式AI做好人機(jī)交互體驗(yàn),,幫助人們合理準(zhǔn)確表達(dá)訴求的同時(shí),降低上手難度和門檻,,是創(chuàng)業(yè)者和普通用戶的需求,,也是我重點(diǎn)研究的方向。紫牛新聞:很多創(chuàng)業(yè)者認(rèn)為,,C端(個(gè)人用戶端)需求大,,尋求C端擴(kuò)張更容易成功。季嘯白:美國硅谷早期的一些圖像生成AI都是面向普通消費(fèi)者的,,用戶按次付費(fèi),,或通過訂閱制包月使用,。大部分消費(fèi)者抱著嘗鮮的目的而來,用戶增長很快,,但留存和付費(fèi)轉(zhuǎn)化很低,本質(zhì)上是因?yàn)橥ㄓ眯蛨D像生成AI的天花板太低,。當(dāng)下,,圖像生成AI的重點(diǎn)正在從 C端向著面向企業(yè)的B端轉(zhuǎn)移。紫牛新聞:面向B端的產(chǎn)品,,和面向C端的產(chǎn)品,,有什么明顯不同?季嘯白:B端消費(fèi)者不喜歡隨機(jī),,無法接受太高的自由度,。B端用戶是要生成圖片拿來干活的,不能天馬行空的任由AI發(fā)揮,。因此,,對(duì)B端產(chǎn)品需要深入淺出地提供更豐富的多輪生成調(diào)優(yōu)能力,這一點(diǎn)在人機(jī)交互的設(shè)計(jì)上一定要考慮到,。紫牛新聞:那C端產(chǎn)品的落地方向在哪,?季嘯白:C端產(chǎn)品的商業(yè)空間肯定存在。短期內(nèi)圖像生成AI在C端產(chǎn)品的落地方向,,是低客單價(jià)的普遍需求,。千萬不能陷入追求高客單價(jià),AI的本質(zhì)是替代人類的重復(fù)勞動(dòng)和昂貴勞動(dòng)力,,追求高客單價(jià)是個(gè)誤區(qū),。AI無法創(chuàng)造奢侈品,也很難觸及高頻需求,,我們的日常生活中,,出門吃飯買菜,回家刷短視頻睡覺,,很少需要?jiǎng)?chuàng)造圖像,,因此傳統(tǒng)商業(yè)意義的高客單價(jià)和高頻都是不可取的。C端創(chuàng)業(yè)者,,一定要著眼普遍的多個(gè)需求,,比如做AI圖像集成工具,連帶AI美妝,,AI一鍵換背景,,AI一鍵改光線,AI生成證件照,、藝術(shù)照,,雖然對(duì)單個(gè)用戶而言不算高頻需求,,但對(duì)于整個(gè)社會(huì)而言,累計(jì)使用次數(shù)會(huì)相當(dāng)可觀,。紫牛新聞:B端用戶中,,電商是龐大的群體,也是普通AI創(chuàng)業(yè)者重點(diǎn)關(guān)注的對(duì)象,。面向電商的AI創(chuàng)業(yè),,你有什么建議?季嘯白:電商行業(yè)其實(shí)是最早開始接觸圖片生成AI技術(shù)的行業(yè),,因?yàn)樾袠I(yè)本身信息敏感度高,,也有大量圖片處理需求。我們工作中也經(jīng)常有電商行業(yè)的從業(yè)者來聊,,他們的需求太大了,,無論是圖像生成、圖像批量后期處理,,還是一鍵換衣等需求,,本質(zhì)上就是用AI的低成本去換重拍圖片的成本。但是,,他們的需求非常雜,,相當(dāng)定制化,具體到每一類需求量,,其實(shí)不大,,所以圖片生成AI反而服務(wù)不好這個(gè)行業(yè)。之前有個(gè)老板來找我們,,希望把帽子,、圍巾、手套等物品的平鋪圖能直接生成到模特的身上,。從技術(shù)角度,,我們要對(duì)物品做定制化的開發(fā),有一定人工成本,。電商核算后,,發(fā)現(xiàn)找模特快速拍一下效率更高,成本更低,。這一個(gè)項(xiàng)目最終沒有成功,,但能管中窺豹一個(gè)行業(yè)。三紫牛新聞:2月15日,, OpenAI發(fā)布了“文生視頻”大模型Sora,,并附帶發(fā)布了由它生成的48段視頻,引發(fā)了社會(huì)高度關(guān)注,。從中長期看,,圖像生成AI的發(fā)展方向是什么,?季嘯白:我認(rèn)為視頻生成正處于破曉時(shí)分。視頻的商業(yè)前景比圖片大得多,,這也是抖音,、TikTok等產(chǎn)品成功的原因。經(jīng)過互聯(lián)網(wǎng)20年的發(fā)展,,人們對(duì)消費(fèi)視頻已經(jīng)習(xí)以為常,,使用習(xí)慣也從閱讀靜態(tài)媒體向消費(fèi)動(dòng)態(tài)內(nèi)容轉(zhuǎn)變。視頻生成大約在2025年達(dá)到可商用的成熟度,。視頻生成技術(shù)一旦成熟,OpenAI可能會(huì)建立自己的視頻平臺(tái),,和抖音,、TikTok直接競爭視頻消費(fèi)者,同時(shí)給影視行業(yè)帶來變革,。影視行業(yè)不一定喜歡從0開始生成視頻,,但會(huì)對(duì)修復(fù)拍攝的穿幫細(xì)節(jié)、虛擬布景AI生成宏大背景,、生成無法拍攝的視覺效果等感興趣,。影視行業(yè)的付費(fèi)意愿高,和影視行業(yè)緊密合作,,會(huì)是這個(gè)10年下半場的重要機(jī)會(huì),。紫牛新聞:AI會(huì)取代人類的攝影和圖像創(chuàng)作嗎?季嘯白:從長期來說,,圖像生成AI一定是和人類大腦協(xié)作,,而不是取代人類的攝影和圖像創(chuàng)作。攝影是對(duì)客觀事物的捕捉,,也是拍攝者情緒和思考的表達(dá),。我很喜歡畫畫和攝影,AI技術(shù)雖然在不斷演進(jìn),,但人類主動(dòng)創(chuàng)作的主觀表達(dá)是永遠(yuǎn)無法替代的,。
免責(zé)聲明:本文來自網(wǎng)絡(luò)收錄或投稿,觀點(diǎn)僅代表作者本人,,不代表芒果財(cái)經(jīng)贊同其觀點(diǎn)或證實(shí)其描述,,版權(quán)歸原作者所有。轉(zhuǎn)載請(qǐng)注明出處:http://lequren.com/1104042.html
溫馨提示:投資有風(fēng)險(xiǎn),,入市須謹(jǐn)慎,。本資訊不作為投資理財(cái)建議。