來源:媒體滾動
在人工智能頂級會議NeurIPS 2022(第36屆神經(jīng)信息處理系統(tǒng)大會)上,,由北京大學(xué)人工智能研究院楊耀東助理教授、計(jì)算機(jī)學(xué)院前沿計(jì)算研究中心董豪助理教授共同指導(dǎo),,北京大學(xué)信息科學(xué)技術(shù)學(xué)院2020級圖靈班本科生耿逸然和安博施作為共同第一作者獲得MyoChallenge挑戰(zhàn)賽Die Reorientation賽道冠軍,。
國際會議報(bào)告截圖
挑戰(zhàn)賽提供了一套高逼真度的肌肉-骨骼靈巧手模型以及交互環(huán)境,參賽者需要設(shè)計(jì)一套科學(xué)有效的訓(xùn)練方法,,培養(yǎng)出一個通用的人工智能算法,,來控制仿生靈巧手完成隨機(jī)的抓取、轉(zhuǎn)動骰子等既定任務(wù),,最終成功率最高,、需要肌肉施加力最小的團(tuán)隊(duì)將獲勝,。該挑戰(zhàn)吸引了來自全球十多個國家的40個頂尖隊(duì)伍參加,共產(chǎn)生了340余份有效方案,。
怎樣教會人工智能認(rèn)識骰子,?怎樣指導(dǎo)它用手靠近并抓取骰子?怎樣訓(xùn)練它轉(zhuǎn)動骰子到指定角度,?看似有趣的比賽背后是一系列的挑戰(zhàn),。
?
不同于只能控制每個獨(dú)立關(guān)節(jié)的靈巧手,此次比賽采用的基于肌肉的仿生靈巧手具有“牽一發(fā)而動全身”的特點(diǎn),,如果控制指尖的肌肉收縮,,整根手指的所有關(guān)節(jié)都會受到影響;控制一個關(guān)節(jié)向不同方向轉(zhuǎn)動也將涉及到不同的肌肉,。此外,,MyoChallenge的手部模型還引入了肌減少癥、肌肉疲勞和肌腱轉(zhuǎn)移等異常情況,,再加上挑戰(zhàn)環(huán)境包含了物體初始位置隨機(jī)化,、任務(wù)目標(biāo)隨機(jī)化以及物體的物理屬性(如物體大小和摩擦力)的隨機(jī)化等許多隨機(jī)參數(shù),意味著一個更接近人類手部條件的復(fù)雜仿生手和一個隨機(jī)變化的未知環(huán)境,,這既考驗(yàn)人工智能從一無所知到熟能生巧的學(xué)習(xí)能力,,也考驗(yàn)作為“老師”的參賽者們的訓(xùn)練策略。
?
比賽的核心競爭集中在尋找一個能夠適應(yīng)特殊手部控制模型以及參數(shù)隨機(jī)化的策略,,也就是說,,因材施教地指導(dǎo)人工智能自主學(xué)習(xí)。對耿逸然和安博施來說,,在特定的問題背景中選取合適的方法成為最大的挑戰(zhàn),。在經(jīng)歷了幾次嘗試的失敗后,他們決定采用強(qiáng)化學(xué)習(xí)框架來在模擬器里訓(xùn)練他們的策略,,通過獎勵塑造(Reward Shaping),、課程學(xué)習(xí)(Curriculum Learning)和多目標(biāo)訓(xùn)練(Multi-target Training)等技巧來提高訓(xùn)練后的策略的性能。
這一方法就好比訓(xùn)練動物完成一些特殊動作的過程,。水族館中飼養(yǎng)員在海豚完成高難度動作后用作獎勵的小魚類似于強(qiáng)化學(xué)習(xí)框架下的獎勵函數(shù),,在算法有希望完成目標(biāo)動作的時候加大獎勵函數(shù),從而激勵算法逐漸掌握目標(biāo)動作,。
這與人類從易到難學(xué)習(xí)一門知識的過程相似,。如果一次性完成骰子重定向任務(wù)很難,那就拆分成三個課程分別學(xué)習(xí):拿穩(wěn)骰子,、90°以內(nèi)的重定向,、180°以內(nèi)的重定向。算法將先從最簡單的拿穩(wěn)骰子學(xué)起,,最后完成最困難的180°重定向任務(wù),,在逐步增加課程難度的過程中使算法的性能穩(wěn)定上升,。
相比于課程學(xué)習(xí)通過改變環(huán)境難度逐步完成任務(wù),多目標(biāo)學(xué)習(xí)則是在不變的環(huán)境難度下將一個課程分解成多個子任務(wù),,這與體操比賽中的組合動作練習(xí)類似,。在體操中,,運(yùn)動員需要連續(xù)地完成一系列不同的動作,。多目標(biāo)學(xué)習(xí)過程要求算法控制仿生靈巧手連續(xù)地完成多個重定向任務(wù),從而提高對物體的掌控能力,。
方法概覽
與之相伴的問題是,,訓(xùn)練策略的過程中需要大量算力支持,耿逸然打了一個形象的比方:“我們面臨的算力需求大概是日常使用的‘游戲本’電腦的10倍甚至30倍,,在此基礎(chǔ)上訓(xùn)練一個有競爭力的智能體需要的訓(xùn)練時間大致為3到5天,。”學(xué)院及時為他們提供了硬件上的支持,,在指導(dǎo)老師楊耀東和董豪的幫助之下,,算力問題得到有效解決,這也為團(tuán)隊(duì)的研發(fā)打下良好的基礎(chǔ),。最終,,這些方法共同產(chǎn)生的成功率比MyoChallenge中給出的基線算法有了明顯的改善(在挑戰(zhàn)的第一階段提升為70%,第二階段為11%),。
經(jīng)過MyoChallenge提供的仿生靈巧手控制算法測試平臺的驗(yàn)證,,在本次的挑戰(zhàn)中,耿逸然和安博施團(tuán)隊(duì)采用的強(qiáng)化學(xué)習(xí)框架下基礎(chǔ)而有效的方法,,證明了強(qiáng)化學(xué)習(xí)算法進(jìn)行復(fù)雜的骨骼-肌肉模型的運(yùn)動控制以及與物體交互的可行性,。
北大2020級圖靈班第一次班會合影
在RLAfford中,作者利用強(qiáng)化學(xué)習(xí)過程中的接觸信息,,結(jié)合三維視覺表達(dá)可操作性信息,,可以統(tǒng)一描述各類操作任務(wù)(如開關(guān)門,抓取物體等任務(wù)),,并具有即插即用的特點(diǎn),。
在這次比賽的基礎(chǔ)上,他與合作者繼續(xù)探索著人工智能與環(huán)境交互的問題,,從機(jī)械臂到靈巧手,,從簡單環(huán)境到復(fù)雜場景,從虛擬引擎到真實(shí)世界,,不斷探索人工智能的無限可能性,。
機(jī)械臂與靈巧手在虛擬環(huán)境和真實(shí)世界中進(jìn)行訓(xùn)練與測試
免責(zé)聲明:本文來自網(wǎng)絡(luò)收錄或投稿,,觀點(diǎn)僅代表作者本人,,不代表芒果財(cái)經(jīng)贊同其觀點(diǎn)或證實(shí)其描述,版權(quán)歸原作者所有,。轉(zhuǎn)載請注明出處:http://lequren.com/989154.html
溫馨提示:投資有風(fēng)險(xiǎn),,入市須謹(jǐn)慎。本資訊不作為投資理財(cái)建議,。