隨著大模型元宇宙熱潮日漸高漲,,虛擬主播,、虛擬客服等數(shù)字人已從科幻走進現(xiàn)實,。他們的語言,、動作、表情等都十分接近真人,。這樣的虛擬數(shù)字人是如何打造出來的?5月19日舉行的全國首個高校大模型元宇宙科創(chuàng)大賽——第四屆“天馬杯”全國高??萍紕?chuàng)新大賽(簡稱“天馬杯”)決賽將為大家揭秘。
據(jù)大賽主辦方馬上消費金融股份有限公司(下稱“馬上消費”) 副總經(jīng)理兼首席信息官蔣寧介紹,,本次大賽將賽道集中在前沿科技領(lǐng)域,,以元宇宙為核心,設(shè)置了2D數(shù)字人驅(qū)動,、3D數(shù)字人驅(qū)動,、NLP(自然語言處理,屬于人工智能的一個子領(lǐng)域) 三個賽道,。
其中,2D數(shù)字人驅(qū)動賽道的賽題為“語音驅(qū)動數(shù)字人口型生成”,,3D數(shù)字人驅(qū)動賽題為“視頻驅(qū)動人臉生成”,,NLP賽道賽題為“數(shù)字人播報資訊內(nèi)容生成”。在前期的預(yù)賽中,,參賽團隊圍繞這三大賽題進行開發(fā),,取得了讓數(shù)字人具備“人的行為模式”的創(chuàng)新成果。決賽中,,他們將通過現(xiàn)場演示,、答辯,展示這些創(chuàng)新成果,。
譬如,,在2D數(shù)字人驅(qū)動賽道中,主辦方提供了一系列真人錄制的音畫同步的短視頻,,以及對應(yīng)的其中人臉的3DMM參數(shù)(這個參數(shù)用來表示人臉關(guān)鍵點位的空間坐標(biāo)和形變),。有賽隊基于這些數(shù)據(jù)開展建模訓(xùn)練,實現(xiàn)了通過分析語音信號中的語調(diào),、語速,、情感等信息來預(yù)測說話人的面部表情。據(jù)此,,可以一張圖片和通過語音生成的表情參數(shù)作為輸入,,生成與輸入語音同步的說話人人臉視頻。
在3D數(shù)字人驅(qū)動賽道中,,主辦方提供了一系列真人錄制的人臉短視頻,,以及對應(yīng)的其中人臉的BlendShape參數(shù)(用于描述人體表面形狀變化的參數(shù))。有賽隊基于這些數(shù)據(jù),,根據(jù)輸入人臉提取的關(guān)鍵點信息與基準(zhǔn)的人臉關(guān)鍵點計算差值,,然后用差值加上額外計算參數(shù)輸入模型去預(yù)測人臉表情變化,。據(jù)此,僅通過攝像頭就能捕捉面部表情并構(gòu)建3D人臉模型,。
在NLP賽道中,,主辦方提供了一系列基于真實新聞得到的素材——新聞以及與之相關(guān)的訓(xùn)練數(shù)據(jù)和測試數(shù)據(jù)。有賽隊基于其中的訓(xùn)練數(shù)據(jù),,探索多種可行的預(yù)訓(xùn)練模型并最終選定一種模型,,打造出了數(shù)字人新聞播音員。該數(shù)字人新聞播音員能夠基于關(guān)鍵新聞素材(如時間,、地點,、人物、事件等)生成一段通暢,、易讀的資訊新聞,。
蔣寧表示,隨著大模型概念火爆,,各種虛擬數(shù)字人如潮水般涌現(xiàn),。而另一方面,元宇宙又對虛擬數(shù)字人的語言,、動作,、表情等提出了更高的要求,需要虛擬數(shù)字人像真人一樣“動起來”,。在此背景下,,“天馬杯”決賽設(shè)置上述三大賽道,旨在以比賽促進數(shù)字人技術(shù)創(chuàng)新發(fā)展,,探索讓數(shù)字人能真實還原真人表情,、語言和動作的新方法、新路徑,。
“參加本次比賽之前,,我們團隊也在研究數(shù)字人,但往往更偏重理論,,實用性不大,。而本次比賽和我們平時的研究有一定的相關(guān)性,有利于我們將所學(xué)理論知識與實踐相結(jié)合,,提高團隊開發(fā)數(shù)字人的技術(shù)水平?!眳①愱牬鞺STC-Qingbo賽隊隊長李弘毅說,。
免責(zé)聲明:本文來自網(wǎng)絡(luò)收錄或投稿,,觀點僅代表作者本人,,不代表芒果財經(jīng)贊同其觀點或證實其描述,,版權(quán)歸原作者所有,。轉(zhuǎn)載請注明出處:http://lequren.com/1028795.html
溫馨提示:投資有風(fēng)險,,入市須謹慎,。本資訊不作為投資理財建議,。