A欧美国产国产综合视频_最近日本中文字幕免费完整_国产乱伦一级片_久久99国产综合精品婷婷_韩国理论片在线中文字幕一区二区_亚洲AV成人影片在线观看_亚洲av无码电影网_优物视频最新网址_天天艹无码天天射_脱下丝袜的极品销魂大胸美女王馨瑶91精品美女嫩模写真套图,男男被?到喷水18禁视频,欧美久久精品一级黑人c片 ,综合在线视频精品专区

人民網(wǎng)

人工智能國(guó)際頂級(jí)會(huì)議比賽,北大學(xué)生奪冠!

來(lái)源:媒體滾動(dòng)

人工智能頂級(jí)會(huì)議NeurIPS 2022(第36屆神經(jīng)信息處理系統(tǒng)大會(huì))上,,由北京大學(xué)人工智能研究院楊耀東助理教授,、計(jì)算機(jī)學(xué)院前沿計(jì)算研究中心董豪助理教授共同指導(dǎo),,北京大學(xué)信息科學(xué)技術(shù)學(xué)院2020級(jí)圖靈班本科生耿逸然和安博施作為共同第一作者獲得MyoChallenge挑戰(zhàn)賽Die Reorientation賽道冠軍。

國(guó)際會(huì)議報(bào)告截圖

挑戰(zhàn)賽提供了一套高逼真度的肌肉-骨骼靈巧手模型以及交互環(huán)境,,參賽者需要設(shè)計(jì)一套科學(xué)有效的訓(xùn)練方法,,培養(yǎng)出一個(gè)通用的人工智能算法,來(lái)控制仿生靈巧手完成隨機(jī)的抓取,、轉(zhuǎn)動(dòng)骰子等既定任務(wù),,最終成功率最高、需要肌肉施加力最小的團(tuán)隊(duì)將獲勝,。該挑戰(zhàn)吸引了來(lái)自全球十多個(gè)國(guó)家的40個(gè)頂尖隊(duì)伍參加,,共產(chǎn)生了340余份有效方案。

怎樣教會(huì)人工智能認(rèn)識(shí)骰子,?怎樣指導(dǎo)它用手靠近并抓取骰子,?怎樣訓(xùn)練它轉(zhuǎn)動(dòng)骰子到指定角度?看似有趣的比賽背后是一系列的挑戰(zhàn),。

?

不同于只能控制每個(gè)獨(dú)立關(guān)節(jié)的靈巧手,,此次比賽采用的基于肌肉的仿生靈巧手具有“牽一發(fā)而動(dòng)全身”的特點(diǎn),如果控制指尖的肌肉收縮,,整根手指的所有關(guān)節(jié)都會(huì)受到影響,;控制一個(gè)關(guān)節(jié)向不同方向轉(zhuǎn)動(dòng)也將涉及到不同的肌肉。此外,,MyoChallenge的手部模型還引入了肌減少癥,、肌肉疲勞和肌腱轉(zhuǎn)移等異常情況,再加上挑戰(zhàn)環(huán)境包含了物體初始位置隨機(jī)化,、任務(wù)目標(biāo)隨機(jī)化以及物體的物理屬性(如物體大小和摩擦力)的隨機(jī)化等許多隨機(jī)參數(shù),,意味著一個(gè)更接近人類手部條件的復(fù)雜仿生手和一個(gè)隨機(jī)變化的未知環(huán)境,這既考驗(yàn)人工智能從一無(wú)所知到熟能生巧的學(xué)習(xí)能力,,也考驗(yàn)作為“老師”的參賽者們的訓(xùn)練策略,。

?

比賽的核心競(jìng)爭(zhēng)集中在尋找一個(gè)能夠適應(yīng)特殊手部控制模型以及參數(shù)隨機(jī)化的策略,也就是說(shuō),,因材施教地指導(dǎo)人工智能自主學(xué)習(xí),。對(duì)耿逸然和安博施來(lái)說(shuō),在特定的問(wèn)題背景中選取合適的方法成為最大的挑戰(zhàn),。在經(jīng)歷了幾次嘗試的失敗后,,他們決定采用強(qiáng)化學(xué)習(xí)框架來(lái)在模擬器里訓(xùn)練他們的策略,,通過(guò)獎(jiǎng)勵(lì)塑造(Reward Shaping)、課程學(xué)習(xí)(Curriculum Learning)和多目標(biāo)訓(xùn)練(Multi-target Training)等技巧來(lái)提高訓(xùn)練后的策略的性能,。

這一方法就好比訓(xùn)練動(dòng)物完成一些特殊動(dòng)作的過(guò)程,。水族館中飼養(yǎng)員在海豚完成高難度動(dòng)作后用作獎(jiǎng)勵(lì)的小魚(yú)類似于強(qiáng)化學(xué)習(xí)框架下的獎(jiǎng)勵(lì)函數(shù),在算法有希望完成目標(biāo)動(dòng)作的時(shí)候加大獎(jiǎng)勵(lì)函數(shù),,從而激勵(lì)算法逐漸掌握目標(biāo)動(dòng)作,。

這與人類從易到難學(xué)習(xí)一門知識(shí)的過(guò)程相似。如果一次性完成骰子重定向任務(wù)很難,,那就拆分成三個(gè)課程分別學(xué)習(xí):拿穩(wěn)骰子、90°以內(nèi)的重定向,、180°以內(nèi)的重定向,。算法將先從最簡(jiǎn)單的拿穩(wěn)骰子學(xué)起,最后完成最困難的180°重定向任務(wù),,在逐步增加課程難度的過(guò)程中使算法的性能穩(wěn)定上升,。

相比于課程學(xué)習(xí)通過(guò)改變環(huán)境難度逐步完成任務(wù),多目標(biāo)學(xué)習(xí)則是在不變的環(huán)境難度下將一個(gè)課程分解成多個(gè)子任務(wù),,這與體操比賽中的組合動(dòng)作練習(xí)類似,。在體操中,運(yùn)動(dòng)員需要連續(xù)地完成一系列不同的動(dòng)作,。多目標(biāo)學(xué)習(xí)過(guò)程要求算法控制仿生靈巧手連續(xù)地完成多個(gè)重定向任務(wù),,從而提高對(duì)物體的掌控能力。

方法概覽

與之相伴的問(wèn)題是,,訓(xùn)練策略的過(guò)程中需要大量算力支持,,耿逸然打了一個(gè)形象的比方:“我們面臨的算力需求大概是日常使用的‘游戲本’電腦的10倍甚至30倍,在此基礎(chǔ)上訓(xùn)練一個(gè)有競(jìng)爭(zhēng)力的智能體需要的訓(xùn)練時(shí)間大致為3到5天,?!睂W(xué)院及時(shí)為他們提供了硬件上的支持,在指導(dǎo)老師楊耀東和董豪的幫助之下,,算力問(wèn)題得到有效解決,,這也為團(tuán)隊(duì)的研發(fā)打下良好的基礎(chǔ)。最終,,這些方法共同產(chǎn)生的成功率比MyoChallenge中給出的基線算法有了明顯的改善(在挑戰(zhàn)的第一階段提升為70%,,第二階段為11%)。

經(jīng)過(guò)MyoChallenge提供的仿生靈巧手控制算法測(cè)試平臺(tái)的驗(yàn)證,,在本次的挑戰(zhàn)中,,耿逸然和安博施團(tuán)隊(duì)采用的強(qiáng)化學(xué)習(xí)框架下基礎(chǔ)而有效的方法,證明了強(qiáng)化學(xué)習(xí)算法進(jìn)行復(fù)雜的骨骼-肌肉模型的運(yùn)動(dòng)控制以及與物體交互的可行性,。

北大2020級(jí)圖靈班第一次班會(huì)合影

在RLAfford中,,作者利用強(qiáng)化學(xué)習(xí)過(guò)程中的接觸信息,,結(jié)合三維視覺(jué)表達(dá)可操作性信息,可以統(tǒng)一描述各類操作任務(wù)(如開(kāi)關(guān)門,,抓取物體等任務(wù)),,并具有即插即用的特點(diǎn)。

在這次比賽的基礎(chǔ)上,,他與合作者繼續(xù)探索著人工智能與環(huán)境交互的問(wèn)題,,從機(jī)械臂到靈巧手,從簡(jiǎn)單環(huán)境到復(fù)雜場(chǎng)景,,從虛擬引擎到真實(shí)世界,,不斷探索人工智能的無(wú)限可能性。

機(jī)械臂與靈巧手在虛擬環(huán)境和真實(shí)世界中進(jìn)行訓(xùn)練與測(cè)試

人工智能國(guó)際頂級(jí)會(huì)議比賽,,北大學(xué)生奪冠,!

免責(zé)聲明:本文來(lái)自網(wǎng)絡(luò)收錄或投稿,觀點(diǎn)僅代表作者本人,,不代表芒果財(cái)經(jīng)贊同其觀點(diǎn)或證實(shí)其描述,,版權(quán)歸原作者所有。轉(zhuǎn)載請(qǐng)注明出處:http://lequren.com/989154.html
溫馨提示:投資有風(fēng)險(xiǎn),,入市須謹(jǐn)慎,。本資訊不作為投資理財(cái)建議。

(0)
新浪科技的頭像新浪科技
上一篇 2023年2月14日 下午2:20
下一篇 2023年2月14日 下午2:37
198搶自鏈數(shù)字人

相關(guān)推薦