其實(shí),,在很多日常的體育鍛煉和健身場(chǎng)景中,,已經(jīng)有了人工智能的技術(shù)作為輔助,比如說,,“智能教練”能夠基于人們的動(dòng)作和姿態(tài),,進(jìn)行科學(xué)的分析和判斷,,從而幫助人們矯正身姿和動(dòng)作等等,。
動(dòng)作識(shí)別已“落地開花”
其實(shí),,在“智能教練”的背后,,正是我們這期想要討論的出發(fā)點(diǎn)——基于計(jì)算機(jī)視覺的動(dòng)作識(shí)別算法,。
從字面意思也很容易理解,動(dòng)作識(shí)別(Action Recognition)是指識(shí)別視頻和圖像中的人體動(dòng)作行為,。
目前,,動(dòng)作識(shí)別方法,已經(jīng)具有非常廣泛的應(yīng)用,。
比如用于安防領(lǐng)域,,在動(dòng)作識(shí)別算法的加成下,安防攝像頭可以及時(shí)發(fā)現(xiàn)問題并發(fā)出“系統(tǒng)警報(bào)”,,比如在一些嚴(yán)禁煙火的園區(qū),,及時(shí)發(fā)現(xiàn)違規(guī)吸煙人群;比如針對(duì)高危職業(yè)的勞動(dòng)者,可以輔助識(shí)別其是否正確穿戴防護(hù)設(shè)備或操作流程是否規(guī)范,,保護(hù)他們的人身安全,;或者幫助社區(qū)養(yǎng)老機(jī)構(gòu),及時(shí)發(fā)現(xiàn)老人摔倒等情況,。
這些看上去毫無關(guān)聯(lián)的場(chǎng)景,,其實(shí)都是借助AI領(lǐng)域的動(dòng)作識(shí)別算法實(shí)現(xiàn)的。
一分鐘了解動(dòng)作識(shí)別“三大難題”
雖然動(dòng)作識(shí)別的“用武之地”很多,,但是因?yàn)閯?dòng)作識(shí)別需要人工智能同時(shí)對(duì)空間表觀,、時(shí)間變化的雙重理解,,其難度相比于當(dāng)前人工智能領(lǐng)域比較成熟的圖片識(shí)別算法,可以說難度系數(shù)提升了許多,。
具體來說,,不同于簡(jiǎn)單的圖像,視頻內(nèi)容和背景更加復(fù)雜多變,,這主要體現(xiàn)在以下這些問題:
首先,,動(dòng)作種類的定義本身就十分困難,多大的差異可以算是不同的動(dòng)作,?我們?cè)谌粘I钪?,同樣一個(gè)動(dòng)作,每個(gè)人的表現(xiàn)可能有極大的差異,。拿最簡(jiǎn)單的比心動(dòng)作來舉例,,有人會(huì)先抬起一只胳膊,再抬起另一只,,但是有人習(xí)慣同時(shí)舉起雙臂,,與圖像只呈現(xiàn)動(dòng)作的結(jié)果不同,,視頻記錄了一個(gè)動(dòng)作的全過程,不同的人甚至同一個(gè)人做同樣的動(dòng)作,,每一次都可能不一樣,。如何定義這些是否是同一個(gè)動(dòng)作,如何準(zhǔn)確識(shí)別并判斷2個(gè)動(dòng)作屬于同樣的動(dòng)作,,是我們需要解決的首個(gè)課題,。
其次,視頻環(huán)境差異大,,如何隨機(jī)應(yīng)變,?在真實(shí)場(chǎng)景中,視頻中的背景復(fù)雜度及出現(xiàn)突發(fā)情況的概率要遠(yuǎn)高于圖片,,我們可能會(huì)遇到遮擋,、多視角、光照,、低分辨率,、動(dòng)態(tài)背景等各種情況,比如光照變化,,突然的強(qiáng)光,;或者突然出現(xiàn)在畫面中的遮擋物;鏡頭突然翻轉(zhuǎn)或者傾斜等角度變化……這些都是動(dòng)作識(shí)別算法落地過程繞不開的難題,。
第三,,動(dòng)作隨時(shí)出現(xiàn), 如何有始有終?不同的人在做動(dòng)作時(shí)的速度變化很大,,而且不會(huì)在一個(gè)動(dòng)作開始前發(fā)出提示,,如何確定動(dòng)作的起始點(diǎn),對(duì)視頻提取動(dòng)作特征十分關(guān)鍵,。就拿摔倒這個(gè)動(dòng)作舉例,,假如摔倒的判斷是由一個(gè)人從“站立-滑倒-倒下”的完整過程,我們將其判斷為摔倒,,我們需要準(zhǔn)確找到動(dòng)作變化的起點(diǎn)和終點(diǎn),,形成完整的動(dòng)作閉環(huán)。與圖像識(shí)別只有一個(gè)靜態(tài)畫面不同,,視頻中的動(dòng)作識(shí)別是一段時(shí)間以內(nèi)的視頻流信息,,如何在一段視頻中準(zhǔn)確找到動(dòng)作的起點(diǎn),,以及判斷出動(dòng)作結(jié)束點(diǎn),,對(duì)于人工智能算法都是一個(gè)現(xiàn)實(shí)的挑戰(zhàn)。
動(dòng)作識(shí)別算法道路千萬條,, 曠視選了哪一條,?
業(yè)內(nèi)關(guān)于視頻動(dòng)作識(shí)別常用的技術(shù)可以大致分為如下幾類:基于人工特征的視頻動(dòng)作識(shí)別,;融合時(shí)序信息的視頻信息識(shí)別方法;基于骨骼關(guān)鍵點(diǎn)信息的動(dòng)作識(shí)別方法,;其他一些未被普遍使用的算法,。
但是,目前這些技術(shù)主要是為了解決在已知類別的情況下的動(dòng)作識(shí)別問題,,這極大地限制了我們方便快速地將動(dòng)作識(shí)別方法應(yīng)用到實(shí)際生活中成千上萬種不斷變化的動(dòng)作需求當(dāng)中去,。
所以曠視另辟蹊徑,選擇了動(dòng)作識(shí)別與檢索算法相互融合,。即使面對(duì)全新的動(dòng)作,,我們也可以通過對(duì)特征之間的相似程度來判斷動(dòng)作的類別。
相比其他的動(dòng)作識(shí)別算法,,動(dòng)作識(shí)別與檢索算法的優(yōu)勢(shì)主要體現(xiàn)在兩個(gè)方面:
首先是簡(jiǎn)單易用,、快速上手、定制服務(wù),。動(dòng)作識(shí)別算法需要采集并標(biāo)注大量的數(shù)據(jù),,然后訓(xùn)練模型。這里面有兩個(gè)難點(diǎn),,一個(gè)是需要龐大的數(shù)據(jù)量,,這需要耗費(fèi)大量的人工和時(shí)間,另外就是需要大量的時(shí)間和算力來訓(xùn)練模型,。
而曠視提出的算法模型是一個(gè)泛化能力強(qiáng)的通用模型,,用戶可以自定義其關(guān)注的動(dòng)作形態(tài),只需提供少量樣本且模型無需長(zhǎng)時(shí)間的訓(xùn)練就可以進(jìn)行識(shí)別,,實(shí)現(xiàn)功能的快速上線,。
“只需要2段短視頻,每段3秒鐘,,就可以讓機(jī)器學(xué)會(huì)一個(gè)動(dòng)作,,并在測(cè)試者做出相同動(dòng)作后,準(zhǔn)確地檢索出相同的動(dòng)作,?!薄?021安博會(huì)現(xiàn)場(chǎng),曠視演示動(dòng)作識(shí)別與檢索demo,。
其次是識(shí)別精度高,,有效降低誤報(bào)率。曠視將動(dòng)作的時(shí)序變化與其外觀表征信息解耦,,這樣即使是同一個(gè)人穿不同衣服或者不同的人(在不同的場(chǎng)景)做相同動(dòng)作都可以得到相近的動(dòng)作特征,,這有利于我們?cè)诂F(xiàn)實(shí)應(yīng)用中免除不斷變化的人群影響,關(guān)注于動(dòng)作變化本身的識(shí)別,。
同時(shí),,面對(duì)時(shí)間維度如何判斷起終的技術(shù)難點(diǎn),,我們選擇了多尺度連續(xù)判斷一段時(shí)間內(nèi)變化的姿勢(shì)動(dòng)作,從而不需要確定視頻中行為的開始時(shí)間和結(jié)束時(shí)間,,這種新的思路,,有效地降低了動(dòng)作識(shí)別的誤報(bào)率。
其實(shí),,去年的曠視技術(shù)開放日上,,曠視已經(jīng)展示了動(dòng)作識(shí)別與檢索demo,在同年12月底的安博會(huì)現(xiàn)場(chǎng),,再次向大家展示了動(dòng)作識(shí)別與檢索demo的最新進(jìn)展,,經(jīng)過5個(gè)月的打磨,demo在多個(gè)方面都有顯著的優(yōu)化,,同時(shí)整個(gè)系統(tǒng)實(shí)現(xiàn)加速和體驗(yàn)升級(jí),,做到實(shí)時(shí)反饋結(jié)果。
動(dòng)作識(shí)別與檢索也有花式玩法
除了我們前面提到的安防,、體育等領(lǐng)域的應(yīng)用,,動(dòng)作識(shí)別與檢索算法還可以有一些花式玩法,比如用于智能家居:借助動(dòng)作識(shí)別,,用戶可以自定義動(dòng)作控制相應(yīng)的智能硬件,,比如揮手控制智能電視開關(guān)和調(diào)臺(tái)等,在追求個(gè)性化的時(shí)代,,用戶可以設(shè)置自己的“動(dòng)作開關(guān)“,,享受定制化的智慧生活。
又比如,,在人機(jī)交互/娛樂的場(chǎng)景中,,可以通過這個(gè)算法檢測(cè)游戲中任意動(dòng)作的相似度匹配等,減少游戲開發(fā)成本的同時(shí)增加游戲的可玩性,?;蛘呤怯糜谝曨l推薦領(lǐng)域,用戶可以“以視頻”找“視頻”,,找到相似動(dòng)作的舞蹈視頻推薦等,。
更重要的是,動(dòng)作識(shí)別與檢索算法的持續(xù)優(yōu)化與探索,,可以讓當(dāng)前普及的安防攝像頭及持續(xù)增加的視頻數(shù)據(jù),,發(fā)揮出更大價(jià)值。比如實(shí)時(shí)檢索視頻畫面并“預(yù)警”,,在危險(xiǎn)發(fā)生前,,就采取相應(yīng)措施;比如依靠人工無法實(shí)現(xiàn)的海量視頻資料的檢索工作,借助動(dòng)作識(shí)別與檢索,,就可以快速識(shí)別出某一“指定”動(dòng)作。
“技術(shù)信仰 ,、價(jià)值務(wù)實(shí)”始終是曠視發(fā)展的基因,,對(duì)動(dòng)作識(shí)別與檢索算法的持續(xù)研究和實(shí)踐,讓更多算法與實(shí)際生產(chǎn)和生活結(jié)合,,也正是曠視堅(jiān)持的AI 走向?qū)崢I(yè)的發(fā)展之路,,人工智能技術(shù),正在讓更多美好如約而至,。
大家可以開腦洞想想,,動(dòng)作識(shí)別和檢索還能用于哪些方面,說不定下一個(gè)曠視黑科技的“產(chǎn)品經(jīng)理”就是你,。
免責(zé)聲明:本文來自網(wǎng)絡(luò)收錄或投稿,,觀點(diǎn)僅代表作者本人,不代表芒果財(cái)經(jīng)贊同其觀點(diǎn)或證實(shí)其描述,,版權(quán)歸原作者所有,。轉(zhuǎn)載請(qǐng)注明出處:http://lequren.com/1116071.html
溫馨提示:投資有風(fēng)險(xiǎn),入市須謹(jǐn)慎,。本資訊不作為投資理財(cái)建議,。