欧美精品亚洲精品日韩专区,在线观看黄A片免费AV软件

清華AI技術(shù)走出實(shí)驗(yàn)室,，走進(jìn)元宇宙,。

文｜許璧端

ChatGPT帶來了2023年第一個(gè)大爆的風(fēng)口。無論是強(qiáng)大的寫詩、撰文、編碼等內(nèi)容生成能力，抑或是語義推理,、情緒分析、識別非法與偏見等對話能力,，都讓大眾眼前一亮,，也給ChatGPT所代表的AIGC技術(shù)應(yīng)用帶來無限想象空間。

時(shí)隔幾個(gè)月,，更新迭代的ChatGPT4.0面世,，在原有的文本層面交互上，新增了接受圖像輸入和輸出圖像,、音樂,、視頻回答的功能，開啟了人機(jī)交互新時(shí)代,。這背后涉及的“多模態(tài)技術(shù)”是人工智能行業(yè)近年來的研究熱點(diǎn)。

多模態(tài)指的是多種模態(tài)的信息,，包括文本,、圖像、視頻,、音頻等，多模態(tài)技術(shù)就是將這些不同形式的數(shù)據(jù)融合在一起進(jìn)行分析和處理的技術(shù),。以前的媒體信息處理模型往往只針對某種單一形式的媒體數(shù)據(jù)進(jìn)行推理分析,，但人類的感知是多模態(tài)的，“就像與人面對面進(jìn)行交談時(shí),，我們既聽到他的聲音,、觀測他的表情，同時(shí)也看他的手勢,。那么通過這樣的多模態(tài)識別,，就可以傳遞更多的信息?！?/p>

在清華大學(xué)電子系教授王生進(jìn)看來,，要想實(shí)現(xiàn)真正的人工智能，讓人機(jī)交互還原人與人般自然的互動(dòng),，就需要機(jī)器具備視覺,、聽覺和觸覺等強(qiáng)大的感知能力，可以說多模態(tài)交互是未來AI技術(shù)的一大發(fā)展趨勢,。

專攻多模態(tài)交互技術(shù),，讓人機(jī)交互跨越感官

王生進(jìn)1985年畢業(yè)于清華大學(xué)無線電電子學(xué)系，1997年在東京工業(yè)大學(xué)獲博士學(xué)位,，2003年回國至今在清華大學(xué)電子工程系任教,，現(xiàn)任清華大學(xué)媒體智能與自主系統(tǒng)研究中心主任、北京信息科學(xué)與技術(shù)國家研究中心跨媒體智能創(chuàng)新團(tuán)隊(duì)負(fù)責(zé)人,，先后參與了十多項(xiàng)國家縱向項(xiàng)目和數(shù)十項(xiàng)企業(yè)橫向項(xiàng)目的研究和開發(fā)工作,，多次獲得國家及省部級和學(xué)會獎(jiǎng),，2020-2022連續(xù)3年入選“愛思唯爾中國高被引學(xué)者”。

王生進(jìn)教授（圖源：「紫為云」）

王生進(jìn)所帶領(lǐng)的清華AI實(shí)驗(yàn)室團(tuán)隊(duì)主要研究方向定位為人工智能,、計(jì)算機(jī)視覺和機(jī)器學(xué)習(xí)，具體包括媒體大數(shù)據(jù)認(rèn)知計(jì)算,、跨媒體智能和多模態(tài)協(xié)作機(jī)器人三大方面,。而多模態(tài)融合就是跨媒體智能研究中的一項(xiàng)重要技術(shù)。

在跨媒體智能方面,，清華AI實(shí)驗(yàn)室主要研究面向新一代人工智能的跨媒體數(shù)據(jù)認(rèn)知計(jì)算,，對文字、圖像,、語音等多種媒體進(jìn)行統(tǒng)一的協(xié)同感知和計(jì)算,，最終實(shí)現(xiàn)獲得媒體所承載信息的識別和分析更加準(zhǔn)確的結(jié)果。

細(xì)看當(dāng)下較為普及的人工智能產(chǎn)品,，其感知能力較為單一,，即使具備多種感知能力也無法互通。例如智能音箱只能實(shí)現(xiàn)語音層面的交互,，人臉支付在圖像層面進(jìn)行信息采集與識別,，掃地機(jī)器人則通過機(jī)器視覺感知到環(huán)境信息。“對于智能機(jī)器來說,，提高視覺,、聽覺、觸覺等多種生物感官復(fù)合能力與信息復(fù)用能力,，是增強(qiáng)智能化水平的一個(gè)重要研究方向,，跨媒體智能便是其中的一項(xiàng)重要技術(shù)?！?/strong>早在2017年國務(wù)院發(fā)布的新一代人工智能發(fā)展規(guī)劃中,，“跨媒體協(xié)同處理”就已經(jīng)是人工智能五大發(fā)展重點(diǎn)之一。

王生進(jìn)介紹,，經(jīng)過多年深耕,，目前團(tuán)隊(duì)突破了跨媒體信息的高效特征學(xué)習(xí)和統(tǒng)一語義表達(dá)，例如輸入一段包含視覺信息,、語音信息,、字幕信息的視頻，智能機(jī)器能夠把這些信息統(tǒng)一表達(dá)出來,。相比單一媒體,，智能機(jī)器利用這三種媒體信息去理解同一事件或內(nèi)容，提高了信息理解的準(zhǔn)確性,。

“跨媒體智能不僅僅是讓智能機(jī)器擁有更多的感官能力,，更是打破這些能力之間的物理隔離,，讓信息在更高維度層面進(jìn)行融合和復(fù)用，真正讓機(jī)器的感官能力‘動(dòng)起來’,?！币虼耍?strong>如何讓多模態(tài)信息之間的融合互通成為多模態(tài)交互智能的難點(diǎn),，“即怎么把智能機(jī)器看到的和聽到的關(guān)聯(lián)起來”,。

通過機(jī)器學(xué)習(xí)的方法，清華AI實(shí)驗(yàn)室讓智能機(jī)器能夠在海量,、復(fù)雜的多元異構(gòu)跨媒體數(shù)據(jù)里,，準(zhǔn)確即時(shí)地感知環(huán)境、推理信息并做出決策,。“例如我對機(jī)器說一句‘請把桌子上的杯子遞給我們’,，機(jī)器能夠聽懂，并通過視覺識別技術(shù)看到桌子、找到桌子上的杯子，自主決策拿杯子的姿態(tài),、位置，像人一樣握住把手遞給我,。”

然而受到復(fù)雜環(huán)境的制約,，多模態(tài)交互技術(shù)目前無法達(dá)到100%的識別準(zhǔn)確性，這也是清華AI實(shí)驗(yàn)室未來的研究重點(diǎn)：進(jìn)一步提升識別性能和環(huán)境適應(yīng)能力,，“讓機(jī)器能聽懂方言,，在弱光線環(huán)境下也能看清目標(biāo)物”。

同時(shí),，清華AI實(shí)驗(yàn)室將視覺感知,、語音識別、融合理解,、動(dòng)作交互等媒體大數(shù)據(jù)認(rèn)知算法和跨媒體智能能力放到機(jī)器人身上,，相當(dāng)于為其安裝一個(gè)智能大腦。王生進(jìn)希望這樣的多模態(tài)協(xié)作機(jī)器人實(shí)體未來能夠面向家庭服務(wù),、醫(yī)院護(hù)理,、戰(zhàn)場救護(hù)，或是太空實(shí)驗(yàn)等特殊場景提供技術(shù)支撐,。

基于自主研發(fā)的多模態(tài)感知一體化的智能機(jī)器人平臺,，清華AI實(shí)驗(yàn)室開發(fā)了面向老年人的喂飯機(jī)器人。就在3月23日,，實(shí)驗(yàn)室團(tuán)隊(duì)剛剛帶著這一項(xiàng)目在英特爾中國研究院發(fā)起的室內(nèi)機(jī)器人學(xué)習(xí)全球挑戰(zhàn)賽中奪得一等獎(jiǎng),。

清華教授成立智能交互公司,，讓AI技術(shù)走出實(shí)驗(yàn)室

在深耕科研的同時(shí)，王生進(jìn)也花費(fèi)不少力氣讓AI技術(shù)走出實(shí)驗(yàn)室,。除了清華大學(xué)教授外,，王生進(jìn)還有一個(gè)重要身份：廣州紫為云科技有限公司（以下簡稱「紫為云」）的首席科學(xué)家。基于跨媒體智能研究成果,，清華AI實(shí)驗(yàn)室在多模態(tài)智能人機(jī)交互以及元宇宙系統(tǒng)等方面展開應(yīng)用研究,，并通過技術(shù)產(chǎn)業(yè)化公司「紫為云」落地產(chǎn)品。

2017年,，作為清華大學(xué)首批人工智能產(chǎn)業(yè)化孵化項(xiàng)目的「紫為云」正式成立,，這是王生進(jìn)及其團(tuán)隊(duì)實(shí)現(xiàn)跨媒體智能科研成果邁向產(chǎn)業(yè)化的重要一步。自此,，清華AI實(shí)驗(yàn)室和「紫為云」開始協(xié)同合作,，向著虛實(shí)智能交互的方向進(jìn)軍，專注交互式人工智能技術(shù),，打造AR虛實(shí)交互的技術(shù)底座,。王生進(jìn)負(fù)責(zé)從未來技術(shù)發(fā)展方向的角度出發(fā)，確定公司未來的技術(shù)路線,，將高?？茖W(xué)研究和企業(yè)產(chǎn)品研發(fā)緊密地結(jié)合在一起。

成立之時(shí),，王生進(jìn)就提出打造一個(gè)連接虛實(shí)世界的沉浸式AI引擎,。“要能夠感知到人的行為意圖,、語言動(dòng)作等等,，然后還要讓人能與虛擬世界里的物品、場景進(jìn)行互動(dòng),，就需要一個(gè)沉浸式的AI引擎,。”基于王生進(jìn)及清華AI實(shí)驗(yàn)室團(tuán)隊(duì)近30年的技術(shù)沉淀,，「紫為云」很快打造出連接虛實(shí)世界的“新一代人機(jī)交互智能技術(shù)引擎”,。

新一代的人機(jī)交互智能要求強(qiáng)大的多模態(tài)信息感知能力，隨著要處理的模態(tài)增多,，對算力的要求也在提高,，在算力有限的情況下，算力優(yōu)化成為多模態(tài)交互技術(shù)的關(guān)鍵之一,。此外,，新一代人機(jī)交互智能技術(shù)體系的一大特點(diǎn)在于利用大數(shù)據(jù)和算法去驅(qū)動(dòng)虛擬場景的生成，“虛擬空間里所有的驅(qū)動(dòng)都是靠數(shù)據(jù)”。

“新一代人機(jī)交互智能技術(shù)引擎”相當(dāng)于一個(gè)多技術(shù)集成站,，將多模態(tài),、算力優(yōu)化、虛擬引擎,、數(shù)據(jù)智能,、人機(jī)交互等技術(shù)賦能給機(jī)器，機(jī)器成為有感官,、能思考的智能體,，讓人和虛擬世界的交互體驗(yàn)更自然、真實(shí),、溫暖,。

同時(shí)，清華AI實(shí)驗(yàn)室團(tuán)隊(duì)持續(xù)攻關(guān)前瞻性核心技術(shù),，例如三維姿態(tài)的識別技術(shù),、通用的人工智能內(nèi)容生成技術(shù)，以及小樣本的處理技術(shù)等等,。王生進(jìn)介紹,，成立至今，「紫為云」經(jīng)過兩次技術(shù)迭代：從多模態(tài)算法向交互智能算法發(fā)展,，這屬于算法側(cè)的結(jié)構(gòu)升級,；此外，清華AI實(shí)驗(yàn)室團(tuán)隊(duì)還實(shí)現(xiàn)了識別技術(shù)從二維向三維的躍遷,，尤其是基于單目的二維手勢識別和三維交互手勢識別,。

將相關(guān)技術(shù)融入到產(chǎn)品后，「紫為云」目前已推出AR元宇宙交互智能終端,、AR元宇宙互動(dòng)屏和互動(dòng)平板等硬件產(chǎn)品,，以及AR交互平臺與AI應(yīng)用系統(tǒng)、元宇宙虛擬云應(yīng)用系統(tǒng)平臺等軟件產(chǎn)品,。

一項(xiàng)前沿科技走出實(shí)驗(yàn)室，能否為用戶和企業(yè)帶來真正效益,，還需要市場的驗(yàn)證,。目前，「紫為云」產(chǎn)品已廣泛應(yīng)用于數(shù)字鄉(xiāng)村,、數(shù)字教育,、數(shù)字醫(yī)療、數(shù)字文旅等場景中,，為客戶提供基于AR真實(shí)世界的元宇宙技術(shù)型解決方案,。

以數(shù)字體育場景為例，「紫為云」和豪群煉盟（林書豪-李群籃球?qū)W校）正在合作開發(fā)“AR原地空手投籃動(dòng)作糾偏”專用程序,，解決籃球?qū)W員在校外練習(xí)投籃動(dòng)作的標(biāo)準(zhǔn)化難題,。學(xué)員在家訓(xùn)練時(shí),，通過手機(jī)攝像頭采集其身體姿勢圖像，投屏到家用電視機(jī)作為體育教學(xué)的輔助工具,。學(xué)員能看到全身各關(guān)節(jié)的夾角是否在高命中率的標(biāo)準(zhǔn)范圍內(nèi),、動(dòng)作是否變形偏差；教練則可基于采集的數(shù)據(jù)分析來給學(xué)員更科學(xué)的指導(dǎo),，糾正不規(guī)范動(dòng)作,，提高了在家訓(xùn)練的效率和質(zhì)量。

在去年6月,，「紫為云」更是和國際屏顯巨頭「京東方」合作,，聯(lián)合開發(fā)“AR元宇宙互動(dòng)屏”，將「紫為云」輕量化算法模型和虛實(shí)交互內(nèi)容移植到成熟的智能硬件系統(tǒng)上,。在廣州市黃埔區(qū),，借助這塊AR元宇宙互動(dòng)屏，農(nóng)業(yè)農(nóng)村局為逕下村打造了一個(gè)AR元宇宙互動(dòng)宣傳窗口,，互動(dòng)屏可以捕捉真人的手勢和身體動(dòng)作,，映射到屏幕中，村民可以在互動(dòng)屏上體驗(yàn)擬真的3D虛擬體育內(nèi)容,，與3D麒麟共舞,，或者咨詢虛擬醫(yī)生線上問診。

廣州市黃埔區(qū)逕下村AR元宇宙互動(dòng)宣傳窗口（圖源：「紫為云」）

使能萬千企業(yè),，放大人工智能的想象空間

人所處的現(xiàn)實(shí)世界是有限的，我們難以親臨每一個(gè)想去的真實(shí)場景,，但無論是出于科研還是娛樂需求,，我們又希望能接觸這些遙遠(yuǎn)的現(xiàn)實(shí)世界，因此人們希望構(gòu)建一個(gè)隨時(shí)能在眼前展開的虛擬世界,，體驗(yàn)遙不可及或是新奇的場景,。這也是為什么人類甘愿投入巨大成本創(chuàng)造一個(gè)可以產(chǎn)生互動(dòng)的虛擬世界。

在王生進(jìn)看來,，未來一段時(shí)間內(nèi)虛實(shí)交互技術(shù)的研究熱點(diǎn)仍會是利用多模態(tài)技術(shù)提高機(jī)器感知和認(rèn)知人類意圖的準(zhǔn)確度,，同時(shí)構(gòu)建一個(gè)更加真實(shí)的虛擬空間，連接真實(shí)世界進(jìn)行即時(shí),、多感官互動(dòng),。而要實(shí)現(xiàn)極致沉浸體驗(yàn)的虛實(shí)交互，除了感知識別技術(shù),，實(shí)時(shí)通信,、高仿真顯示、人機(jī)交互等相關(guān)技術(shù)也必不可少。

基于這一人機(jī)交互發(fā)展方向,，王生進(jìn)介紹,，未來「紫為云」將持續(xù)聚焦開發(fā)基于自然交互的新一代人機(jī)交互智能技術(shù)，不僅僅關(guān)注AIGC的通用內(nèi)容生成,，還研究支撐通用內(nèi)容生成的底層算法和算力,；同時(shí)重點(diǎn)開發(fā)數(shù)據(jù)智能技術(shù)和平臺技術(shù)，“因?yàn)榛谠钪鎴鼍暗臄?shù)據(jù)要素是非常重要的,，我們是把研究重點(diǎn)放在數(shù)據(jù)智能上,，希望構(gòu)建類腦的智能系統(tǒng)，讓智能躍遷為智慧,?！?/p>

AlGC高清圖片內(nèi)容生成技術(shù)（圖源：「紫為云」）

人機(jī)交互是元宇宙的重要入口,。新一代人機(jī)交互智能技術(shù)體系將算法算力,、渲染引擎、數(shù)據(jù)通訊等技術(shù)深度融合后,，試圖打造一個(gè)開放的元宇宙使能平臺,，將清華大學(xué)多年來積累的科研成果進(jìn)行開放共享，使能合作伙伴打造低成本,、低算力,、低延時(shí)的高性價(jià)比元宇宙產(chǎn)品，加速各行業(yè)人工智能的研究,，放大元宇宙的想象空間,。

實(shí)際上，在人工智能產(chǎn)業(yè)鏈上的眾多企業(yè)當(dāng)中,，真正具有從研發(fā)到應(yīng)用的技術(shù)鏈條的并不多,，甚至說只有大廠有能力去構(gòu)建自己的技術(shù)團(tuán)隊(duì)，研發(fā)算法等核心技術(shù),。人工智能中小企業(yè)迫切需要這些智能化技術(shù),，但是他們很難去構(gòu)建一個(gè)自己的團(tuán)隊(duì)。王生進(jìn)分析,，這背后的主要原因在于人工智能領(lǐng)域人才的短缺,，“一方面是人數(shù)不多，另一方面人力成本還是很高的”,。「紫為云」希望能為中小企業(yè)提供AI底層技術(shù)的使能,。

在「紫為云」董事長顧友良看來,，“「紫為云」做的虛擬場景應(yīng)用，它不是獨(dú)立于現(xiàn)實(shí)世界的，而是回歸便捷,、輕量化技術(shù),，讓元宇宙飛入尋常百姓家”。懷著使能,、開放,、合作共贏的理念，「紫為云」通過新一代人機(jī)交互智能技術(shù)引擎,，牽引“元宇宙GPT新基建”高速列車,，使能萬千企業(yè),，探索場景落地，讓元宇宙不再只是金字塔少數(shù)人才能享受的“黑科技”,。

免責(zé)聲明：本文來自網(wǎng)絡(luò)收錄或投稿，觀點(diǎn)僅代表作者本人,，不代表芒果財(cái)經(jīng)贊同其觀點(diǎn)或證實(shí)其描述,，版權(quán)歸原作者所有。轉(zhuǎn)載請注明出處：http://lequren.com/1009308.html
溫馨提示：投資有風(fēng)險(xiǎn),，入市須謹(jǐn)慎,。本資訊不作為投資理財(cái)建議。

清華領(lǐng)銜多模態(tài)人機(jī)交互與AIGC，讓“元宇宙GPT”落地千行百業(yè)

專攻多模態(tài)交互技術(shù),，讓人機(jī)交互跨越感官

清華教授成立智能交互公司,，讓AI技術(shù)走出實(shí)驗(yàn)室

使能萬千企業(yè),，放大人工智能的想象空間

相關(guān)推薦