原文來(lái)源:學(xué)術(shù)頭條
圖片來(lái)源:由無(wú)界 AI生成
為了教會(huì) AI Agent 新技能,,比如打開(kāi)廚房櫥柜,,研究者通常采用強(qiáng)化學(xué)習(xí)方法。這是一種試錯(cuò)過(guò)程,,AI Agent 通過(guò)采取正確的行動(dòng)接近目標(biāo)而獲得獎(jiǎng)勵(lì),。
在大多數(shù)情況下,人類(lèi)專家需要精心設(shè)計(jì)獎(jiǎng)勵(lì)函數(shù),,從而鼓勵(lì) AI Agent 進(jìn)行更多探索,。隨著 AI Agent 的探索和嘗試,人類(lèi)專家需要不斷更新這個(gè)獎(jiǎng)勵(lì)函數(shù),。這一過(guò)程既耗時(shí)又低效,,特別是在任務(wù)復(fù)雜,、步驟繁多時(shí),擴(kuò)展起來(lái)更是十分困難,。
日前,,麻省理工學(xué)院(MIT)、哈佛大學(xué)和華盛頓大學(xué)的研究團(tuán)隊(duì)開(kāi)發(fā)了一種新型強(qiáng)化學(xué)習(xí)方法,,這種方法不依賴專家設(shè)計(jì)的獎(jiǎng)勵(lì)函數(shù),,而是利用來(lái)自許多非專家用戶的眾包反饋(crowdsourced feedback),來(lái)指導(dǎo) AI Agent 達(dá)成學(xué)習(xí)目標(biāo),。
盡管用戶眾包數(shù)據(jù)常常存在錯(cuò)誤,,這種新方法依然能夠讓 AI Agent 更快速地學(xué)習(xí),這與其他嘗試使用非專家反饋的方法有所不同,,而這些噪聲數(shù)據(jù)通常會(huì)讓其他方法失效,。
此外,這種新方法支持異步收集反饋,,使得全球各地的非專家用戶都可以參與到教導(dǎo) AI Agent 的過(guò)程中,。
MIT 電氣工程與計(jì)算機(jī)科學(xué)系助理教授、Improbable AI Lab 主任 Pulkit Agrawal 表示:“在設(shè)計(jì) AI Agent 時(shí),,最耗時(shí)且具挑戰(zhàn)性的部分之一就是設(shè)定獎(jiǎng)勵(lì)函數(shù),。當(dāng)前,,獎(jiǎng)勵(lì)函數(shù)主要由專家設(shè)計(jì),,如果我們想讓機(jī)器人學(xué)習(xí)多種任務(wù),這種方式是難以擴(kuò)展的,。我們的研究提出了一種方案,,通過(guò)眾包來(lái)設(shè)計(jì)獎(jiǎng)勵(lì)函數(shù),并讓非專家參與提供有效反饋,,從而擴(kuò)大機(jī)器人的學(xué)習(xí)范圍,。”
未來(lái),,這種方法可以幫助機(jī)器人在人們家中快速學(xué)習(xí)特定任務(wù),,而無(wú)需人們親自示范每項(xiàng)任務(wù)。機(jī)器人可以獨(dú)立探索,,由眾包的非專家反饋引導(dǎo)其探索方向,。
“在我們的方法中,獎(jiǎng)勵(lì)函數(shù)不是直接告訴 AI Agent怎樣完成任務(wù),,而是指導(dǎo)它應(yīng)該探索的方向,。因此,即便人類(lèi)監(jiān)督存在一定的不準(zhǔn)確性和噪聲,,AI Agent仍然能夠進(jìn)行有效探索,,從而更好地學(xué)習(xí),”Improbable AI Lab 研究助理、論文主要作者之一 Marcel Torne 解釋說(shuō),。
即使接收的答案有誤,,也能完成任務(wù)
一種收集強(qiáng)化學(xué)習(xí)用戶反饋的方法是向用戶展示 AI Agent 達(dá)到的兩種狀態(tài)的照片,并詢問(wèn)哪種狀態(tài)更接近目標(biāo),。例如,,設(shè)想一個(gè)機(jī)器人的目標(biāo)是打開(kāi)廚房櫥柜,其中一張照片可能顯示它成功打開(kāi)了櫥柜,,另一張則可能顯示它打開(kāi)了微波爐,。用戶需要選擇表現(xiàn)更佳狀態(tài)的照片。
有些早期方法嘗試使用這種眾包形式的二元反饋,,來(lái)優(yōu)化 AI Agent 用以學(xué)習(xí)任務(wù)的獎(jiǎng)勵(lì)函數(shù),。但問(wèn)題在于,非專業(yè)人士容易出錯(cuò),,這會(huì)導(dǎo)致獎(jiǎng)勵(lì)函數(shù)變得極為混亂,,以至于 AI Agent 可能無(wú)法達(dá)成目標(biāo)。
Torne 指出:“實(shí)際上,,AI Agent 會(huì)過(guò)分認(rèn)真地對(duì)待獎(jiǎng)勵(lì)函數(shù),,努力完美符合這一函數(shù)。因此,,我們不直接優(yōu)化獎(jiǎng)勵(lì)函數(shù),,而是用它來(lái)指導(dǎo)機(jī)器人應(yīng)探索的區(qū)域?!?/p>
研究團(tuán)隊(duì)將這一過(guò)程分成兩個(gè)獨(dú)立部分,,每部分由各自的算法驅(qū)動(dòng)。他們將這種新型增強(qiáng)學(xué)習(xí)方法命名為人類(lèi)引導(dǎo)探索(Human Guided Exploration,,HuGE),。
一方面,,目標(biāo)選擇算法會(huì)持續(xù)接收眾包的人類(lèi)反饋并進(jìn)行更新,。這些反饋并非用作獎(jiǎng)勵(lì)函數(shù),而是用于指引 AI Agent 的探索方向,。簡(jiǎn)而言之,,非專業(yè)用戶提供的指引就像一路撒下的“面包屑”,逐漸引導(dǎo) AI Agent 接近目標(biāo),。
另一方面,,AI Agent 自己也會(huì)進(jìn)行探索,,這一過(guò)程是自我監(jiān)督的,由目標(biāo)選擇器進(jìn)行指導(dǎo),。它會(huì)收集自己嘗試的動(dòng)作的圖像或視頻,,隨后發(fā)送給人類(lèi),用于更新目標(biāo)選擇器,。
這樣做有助于縮小 AI Agent 需要探索的范圍,,引導(dǎo)它前往更接近目標(biāo)的有希望的區(qū)域。但如果暫時(shí)沒(méi)有反饋,,或反饋遲遲未到,,AI Agent 仍會(huì)繼續(xù)自行學(xué)習(xí),盡管速度較慢,。這種方式允許反饋的收集不那么頻繁,,也可以異步進(jìn)行。
Torne 補(bǔ)充道:“探索過(guò)程可以自主,、持續(xù)進(jìn)行,,因?yàn)樗鼤?huì)不斷探索并學(xué)習(xí)新知識(shí)。當(dāng)接收到更準(zhǔn)確的信號(hào)時(shí),,它會(huì)以更明確的方式進(jìn)行探索,。它們可以按照各自的節(jié)奏運(yùn)轉(zhuǎn)。”
由于反饋只是輕微地引導(dǎo) AI Agent 的行為,,即使用戶提供的答案有誤,,AI Agent 最終也能學(xué)會(huì)如何完成任務(wù)。
更快的學(xué)習(xí)
研究團(tuán)隊(duì)在一系列模擬和真實(shí)環(huán)境的任務(wù)中測(cè)試了這種方法,。
例如,,在模擬環(huán)境中,,他們利用 HuGE 高效學(xué)習(xí)一系列復(fù)雜動(dòng)作,,比如按特定順序堆積積木或在迷宮中導(dǎo)航。
在真實(shí)環(huán)境的測(cè)試中,,他們用 HuGE 訓(xùn)練機(jī)器人手臂來(lái)繪制字母“U”和拾取放置物體。這些測(cè)試匯集了來(lái)自三大洲 13 個(gè)國(guó)家的 109 名非專業(yè)用戶的數(shù)據(jù),。
無(wú)論是在真實(shí)世界還是模擬實(shí)驗(yàn)中,,HuGE 都使得 AI Agent學(xué)習(xí)完成任務(wù)的速度比其他方法更快。
此外,,與制作和標(biāo)注的合成數(shù)據(jù)相比,非專家眾包的數(shù)據(jù)表現(xiàn)更佳,。對(duì)非專家用戶而言,,標(biāo)注 30 張圖片或視頻不到兩分鐘就能完成?!斑@展示了這種方法在擴(kuò)展應(yīng)用方面的巨大潛力,,”Torne 補(bǔ)充說(shuō)。
在一項(xiàng)相關(guān)的研究中,,研究團(tuán)隊(duì)在最近的機(jī)器人學(xué)習(xí)會(huì)議上展示了他們?nèi)绾胃倪M(jìn) HuGE,,使得 AI Agent 不僅能學(xué)習(xí)完成任務(wù),還能自主地重置環(huán)境繼續(xù)學(xué)習(xí),。例如,,如果 AI Agent 學(xué)會(huì)了打開(kāi)櫥柜,這種方法還能指導(dǎo)它關(guān)閉櫥柜,。
“現(xiàn)在我們能讓它在沒(méi)有人工干預(yù)的情況下完全自主學(xué)習(xí),,”他說(shuō)。
研究團(tuán)隊(duì)還強(qiáng)調(diào),,在這種以及其他學(xué)習(xí)方法中,,確保 AI Agent與人類(lèi)價(jià)值觀保持一致是至關(guān)重要的。
未來(lái),,研究團(tuán)隊(duì)計(jì)劃進(jìn)一步完善 HuGE,,讓 AI Agent 能夠通過(guò)自然語(yǔ)言和與機(jī)器人的物理交互等更多方式學(xué)習(xí)。他們還對(duì)將這種方法應(yīng)用于同時(shí)訓(xùn)練多個(gè) AI Agent 表示出了興趣,。
參考鏈接
- https://news.mit.edu/2023/method-uses-crowdsourced-feedback-help-train-robots-1127?
- https://arxiv.org/pdf/2307.11049.pdf?
- https://human-guided-exploration.github.io/HuGE/?
免責(zé)聲明:本文來(lái)自網(wǎng)絡(luò)收錄或投稿,,觀點(diǎn)僅代表作者本人,不代表芒果財(cái)經(jīng)贊同其觀點(diǎn)或證實(shí)其描述,,版權(quán)歸原作者所有,。轉(zhuǎn)載請(qǐng)注明出處:http://lequren.com/1081018.html
溫馨提示:投資有風(fēng)險(xiǎn),入市須謹(jǐn)慎,。本資訊不作為投資理財(cái)建議,。