国产精品91资源在线,亚洲欧美中文字幕图

其實(shí),，在很多日常的體育鍛煉和健身場景中，已經(jīng)有了人工智能的技術(shù)作為輔助,，比如說,，“智能教練”能夠基于人們的動(dòng)作和姿態(tài),，進(jìn)行科學(xué)的分析和判斷,，從而幫助人們矯正身姿和動(dòng)作等等,。

動(dòng)作識別已“落地開花”

其實(shí),，在“智能教練”的背后，正是我們這期想要討論的出發(fā)點(diǎn)——基于計(jì)算機(jī)視覺的動(dòng)作識別算法,。

從字面意思也很容易理解,，動(dòng)作識別（Action Recognition）是指識別視頻和圖像中的人體動(dòng)作行為。

目前,，動(dòng)作識別方法,，已經(jīng)具有非常廣泛的應(yīng)用。

比如用于安防領(lǐng)域,，在動(dòng)作識別算法的加成下,，安防攝像頭可以及時(shí)發(fā)現(xiàn)問題并發(fā)出“系統(tǒng)警報(bào)”，比如在一些嚴(yán)禁煙火的園區(qū),，及時(shí)發(fā)現(xiàn)違規(guī)吸煙人群,；比如針對高危職業(yè)的勞動(dòng)者,，可以輔助識別其是否正確穿戴防護(hù)設(shè)備或操作流程是否規(guī)范，保護(hù)他們的人身安全,；或者幫助社區(qū)養(yǎng)老機(jī)構(gòu),，及時(shí)發(fā)現(xiàn)老人摔倒等情況。

這些看上去毫無關(guān)聯(lián)的場景,，其實(shí)都是借助AI領(lǐng)域的動(dòng)作識別算法實(shí)現(xiàn)的,。

一分鐘了解動(dòng)作識別“三大難題”

雖然動(dòng)作識別的“用武之地”很多，但是因?yàn)閯?dòng)作識別需要人工智能同時(shí)對空間表觀、時(shí)間變化的雙重理解,，其難度相比于當(dāng)前人工智能領(lǐng)域比較成熟的圖片識別算法,，可以說難度系數(shù)提升了許多。

具體來說,，不同于簡單的圖像,，視頻內(nèi)容和背景更加復(fù)雜多變，這主要體現(xiàn)在以下這些問題：

首先,，動(dòng)作種類的定義本身就十分困難,，多大的差異可以算是不同的動(dòng)作？我們在日常生活中,，同樣一個(gè)動(dòng)作,，每個(gè)人的表現(xiàn)可能有極大的差異。拿最簡單的比心動(dòng)作來舉例,，有人會(huì)先抬起一只胳膊,，再抬起另一只，但是有人習(xí)慣同時(shí)舉起雙臂,，與圖像只呈現(xiàn)動(dòng)作的結(jié)果不同,，視頻記錄了一個(gè)動(dòng)作的全過程,，不同的人甚至同一個(gè)人做同樣的動(dòng)作，每一次都可能不一樣,。如何定義這些是否是同一個(gè)動(dòng)作,，如何準(zhǔn)確識別并判斷2個(gè)動(dòng)作屬于同樣的動(dòng)作,，是我們需要解決的首個(gè)課題,。

其次，視頻環(huán)境差異大,，如何隨機(jī)應(yīng)變,？在真實(shí)場景中，視頻中的背景復(fù)雜度及出現(xiàn)突發(fā)情況的概率要遠(yuǎn)高于圖片,，我們可能會(huì)遇到遮擋,、多視角、光照,、低分辨率,、動(dòng)態(tài)背景等各種情況，比如光照變化,，突然的強(qiáng)光,；或者突然出現(xiàn)在畫面中的遮擋物；鏡頭突然翻轉(zhuǎn)或者傾斜等角度變化……這些都是動(dòng)作識別算法落地過程繞不開的難題,。

第三,，動(dòng)作隨時(shí)出現(xiàn), 如何有始有終？不同的人在做動(dòng)作時(shí)的速度變化很大,，而且不會(huì)在一個(gè)動(dòng)作開始前發(fā)出提示,，如何確定動(dòng)作的起始點(diǎn)，對視頻提取動(dòng)作特征十分關(guān)鍵,。就拿摔倒這個(gè)動(dòng)作舉例,，假如摔倒的判斷是由一個(gè)人從“站立-滑倒-倒下”的完整過程，我們將其判斷為摔倒,，我們需要準(zhǔn)確找到動(dòng)作變化的起點(diǎn)和終點(diǎn),，形成完整的動(dòng)作閉環(huán)。與圖像識別只有一個(gè)靜態(tài)畫面不同,，視頻中的動(dòng)作識別是一段時(shí)間以內(nèi)的視頻流信息,，如何在一段視頻中準(zhǔn)確找到動(dòng)作的起點(diǎn)，以及判斷出動(dòng)作結(jié)束點(diǎn),，對于人工智能算法都是一個(gè)現(xiàn)實(shí)的挑戰(zhàn),。

動(dòng)作識別算法道路千萬條，曠視選了哪一條,？

業(yè)內(nèi)關(guān)于視頻動(dòng)作識別常用的技術(shù)可以大致分為如下幾類：基于人工特征的視頻動(dòng)作識別,；融合時(shí)序信息的視頻信息識別方法,；基于骨骼關(guān)鍵點(diǎn)信息的動(dòng)作識別方法；其他一些未被普遍使用的算法,。

但是,，目前這些技術(shù)主要是為了解決在已知類別的情況下的動(dòng)作識別問題，這極大地限制了我們方便快速地將動(dòng)作識別方法應(yīng)用到實(shí)際生活中成千上萬種不斷變化的動(dòng)作需求當(dāng)中去,。

所以曠視另辟蹊徑,，選擇了動(dòng)作識別與檢索算法相互融合。即使面對全新的動(dòng)作,，我們也可以通過對特征之間的相似程度來判斷動(dòng)作的類別,。

相比其他的動(dòng)作識別算法，動(dòng)作識別與檢索算法的優(yōu)勢主要體現(xiàn)在兩個(gè)方面：

首先是簡單易用,、快速上手,、定制服務(wù)。動(dòng)作識別算法需要采集并標(biāo)注大量的數(shù)據(jù),，然后訓(xùn)練模型,。這里面有兩個(gè)難點(diǎn)，一個(gè)是需要龐大的數(shù)據(jù)量,，這需要耗費(fèi)大量的人工和時(shí)間,，另外就是需要大量的時(shí)間和算力來訓(xùn)練模型。

而曠視提出的算法模型是一個(gè)泛化能力強(qiáng)的通用模型,，用戶可以自定義其關(guān)注的動(dòng)作形態(tài),，只需提供少量樣本且模型無需長時(shí)間的訓(xùn)練就可以進(jìn)行識別，實(shí)現(xiàn)功能的快速上線,。

“只需要2段短視頻,，每段3秒鐘，就可以讓機(jī)器學(xué)會(huì)一個(gè)動(dòng)作,，并在測試者做出相同動(dòng)作后,，準(zhǔn)確地檢索出相同的動(dòng)作?！薄?021安博會(huì)現(xiàn)場,，曠視演示動(dòng)作識別與檢索demo。

其次是識別精度高,，有效降低誤報(bào)率,。曠視將動(dòng)作的時(shí)序變化與其外觀表征信息解耦，這樣即使是同一個(gè)人穿不同衣服或者不同的人（在不同的場景）做相同動(dòng)作都可以得到相近的動(dòng)作特征,，這有利于我們在現(xiàn)實(shí)應(yīng)用中免除不斷變化的人群影響,，關(guān)注于動(dòng)作變化本身的識別。

同時(shí),，面對時(shí)間維度如何判斷起終的技術(shù)難點(diǎn),，我們選擇了多尺度連續(xù)判斷一段時(shí)間內(nèi)變化的姿勢動(dòng)作,，從而不需要確定視頻中行為的開始時(shí)間和結(jié)束時(shí)間，這種新的思路,，有效地降低了動(dòng)作識別的誤報(bào)率,。

其實(shí)，去年的曠視技術(shù)開放日上,，曠視已經(jīng)展示了動(dòng)作識別與檢索demo,，在同年12月底的安博會(huì)現(xiàn)場，再次向大家展示了動(dòng)作識別與檢索demo的最新進(jìn)展,，經(jīng)過5個(gè)月的打磨,，demo在多個(gè)方面都有顯著的優(yōu)化,，同時(shí)整個(gè)系統(tǒng)實(shí)現(xiàn)加速和體驗(yàn)升級,，做到實(shí)時(shí)反饋結(jié)果。

動(dòng)作識別與檢索也有花式玩法

除了我們前面提到的安防,、體育等領(lǐng)域的應(yīng)用,，動(dòng)作識別與檢索算法還可以有一些花式玩法，比如用于智能家居：借助動(dòng)作識別,，用戶可以自定義動(dòng)作控制相應(yīng)的智能硬件,，比如揮手控制智能電視開關(guān)和調(diào)臺等，在追求個(gè)性化的時(shí)代,，用戶可以設(shè)置自己的“動(dòng)作開關(guān)“,，享受定制化的智慧生活。

又比如,，在人機(jī)交互/娛樂的場景中,，可以通過這個(gè)算法檢測游戲中任意動(dòng)作的相似度匹配等，減少游戲開發(fā)成本的同時(shí)增加游戲的可玩性,?；蛘呤怯糜谝曨l推薦領(lǐng)域，用戶可以“以視頻”找“視頻”,，找到相似動(dòng)作的舞蹈視頻推薦等,。

更重要的是，動(dòng)作識別與檢索算法的持續(xù)優(yōu)化與探索,，可以讓當(dāng)前普及的安防攝像頭及持續(xù)增加的視頻數(shù)據(jù),，發(fā)揮出更大價(jià)值。比如實(shí)時(shí)檢索視頻畫面并“預(yù)警”,，在危險(xiǎn)發(fā)生前,，就采取相應(yīng)措施；比如依靠人工無法實(shí)現(xiàn)的海量視頻資料的檢索工作,，借助動(dòng)作識別與檢索,，就可以快速識別出某一“指定”動(dòng)作,。

“技術(shù)信仰、價(jià)值務(wù)實(shí)”始終是曠視發(fā)展的基因,，對動(dòng)作識別與檢索算法的持續(xù)研究和實(shí)踐,，讓更多算法與實(shí)際生產(chǎn)和生活結(jié)合，也正是曠視堅(jiān)持的AI 走向?qū)崢I(yè)的發(fā)展之路,，人工智能技術(shù),，正在讓更多美好如約而至。

大家可以開腦洞想想,，動(dòng)作識別和檢索還能用于哪些方面,，說不定下一個(gè)曠視黑科技的“產(chǎn)品經(jīng)理”就是你。

免責(zé)聲明：本文來自網(wǎng)絡(luò)收錄或投稿,，觀點(diǎn)僅代表作者本人,，不代表芒果財(cái)經(jīng)贊同其觀點(diǎn)或證實(shí)其描述，版權(quán)歸原作者所有,。轉(zhuǎn)載請注明出處：http://lequren.com/1116071.html
溫馨提示：投資有風(fēng)險(xiǎn),，入市須謹(jǐn)慎。本資訊不作為投資理財(cái)建議,。

曠視科技：動(dòng)作識別與檢索帶你體驗(yàn)視頻時(shí)代“人工智能”新玩

相關(guān)推薦