原文來源:學(xué)術(shù)頭條
圖片來源:由無界 AI生成
為了教會 AI Agent 新技能,比如打開廚房櫥柜,,研究者通常采用強化學(xué)習(xí)方法,。這是一種試錯過程,AI Agent 通過采取正確的行動接近目標(biāo)而獲得獎勵,。
在大多數(shù)情況下,,人類專家需要精心設(shè)計獎勵函數(shù),從而鼓勵 AI Agent 進行更多探索,。隨著 AI Agent 的探索和嘗試,,人類專家需要不斷更新這個獎勵函數(shù),。這一過程既耗時又低效,特別是在任務(wù)復(fù)雜,、步驟繁多時,,擴展起來更是十分困難。
日前,,麻省理工學(xué)院(MIT),、哈佛大學(xué)和華盛頓大學(xué)的研究團隊開發(fā)了一種新型強化學(xué)習(xí)方法,這種方法不依賴專家設(shè)計的獎勵函數(shù),,而是利用來自許多非專家用戶的眾包反饋(crowdsourced feedback),,來指導(dǎo) AI Agent 達成學(xué)習(xí)目標(biāo)。
盡管用戶眾包數(shù)據(jù)常常存在錯誤,,這種新方法依然能夠讓 AI Agent 更快速地學(xué)習(xí),,這與其他嘗試使用非專家反饋的方法有所不同,而這些噪聲數(shù)據(jù)通常會讓其他方法失效,。
此外,,這種新方法支持異步收集反饋,使得全球各地的非專家用戶都可以參與到教導(dǎo) AI Agent 的過程中,。
MIT 電氣工程與計算機科學(xué)系助理教授,、Improbable AI Lab 主任 Pulkit Agrawal 表示:“在設(shè)計 AI Agent 時,最耗時且具挑戰(zhàn)性的部分之一就是設(shè)定獎勵函數(shù),。當(dāng)前,,獎勵函數(shù)主要由專家設(shè)計,如果我們想讓機器人學(xué)習(xí)多種任務(wù),,這種方式是難以擴展的,。我們的研究提出了一種方案,通過眾包來設(shè)計獎勵函數(shù),,并讓非專家參與提供有效反饋,,從而擴大機器人的學(xué)習(xí)范圍?!?/p>
未來,,這種方法可以幫助機器人在人們家中快速學(xué)習(xí)特定任務(wù),而無需人們親自示范每項任務(wù),。機器人可以獨立探索,,由眾包的非專家反饋引導(dǎo)其探索方向。
“在我們的方法中,,獎勵函數(shù)不是直接告訴 AI Agent怎樣完成任務(wù),,而是指導(dǎo)它應(yīng)該探索的方向。因此,即便人類監(jiān)督存在一定的不準(zhǔn)確性和噪聲,,AI Agent仍然能夠進行有效探索,,從而更好地學(xué)習(xí),”Improbable AI Lab 研究助理,、論文主要作者之一 Marcel Torne 解釋說,。
即使接收的答案有誤,也能完成任務(wù)
一種收集強化學(xué)習(xí)用戶反饋的方法是向用戶展示 AI Agent 達到的兩種狀態(tài)的照片,,并詢問哪種狀態(tài)更接近目標(biāo),。例如,設(shè)想一個機器人的目標(biāo)是打開廚房櫥柜,,其中一張照片可能顯示它成功打開了櫥柜,,另一張則可能顯示它打開了微波爐。用戶需要選擇表現(xiàn)更佳狀態(tài)的照片,。
有些早期方法嘗試使用這種眾包形式的二元反饋,,來優(yōu)化 AI Agent 用以學(xué)習(xí)任務(wù)的獎勵函數(shù)。但問題在于,,非專業(yè)人士容易出錯,,這會導(dǎo)致獎勵函數(shù)變得極為混亂,以至于 AI Agent 可能無法達成目標(biāo),。
Torne 指出:“實際上,,AI Agent 會過分認真地對待獎勵函數(shù),努力完美符合這一函數(shù),。因此,,我們不直接優(yōu)化獎勵函數(shù),而是用它來指導(dǎo)機器人應(yīng)探索的區(qū)域,?!?/p>
研究團隊將這一過程分成兩個獨立部分,每部分由各自的算法驅(qū)動,。他們將這種新型增強學(xué)習(xí)方法命名為人類引導(dǎo)探索(Human Guided Exploration,,HuGE)。
一方面,,目標(biāo)選擇算法會持續(xù)接收眾包的人類反饋并進行更新。這些反饋并非用作獎勵函數(shù),,而是用于指引 AI Agent 的探索方向,。簡而言之,,非專業(yè)用戶提供的指引就像一路撒下的“面包屑”,,逐漸引導(dǎo) AI Agent 接近目標(biāo),。
另一方面,AI Agent 自己也會進行探索,,這一過程是自我監(jiān)督的,,由目標(biāo)選擇器進行指導(dǎo)。它會收集自己嘗試的動作的圖像或視頻,,隨后發(fā)送給人類,,用于更新目標(biāo)選擇器。
這樣做有助于縮小 AI Agent 需要探索的范圍,,引導(dǎo)它前往更接近目標(biāo)的有希望的區(qū)域,。但如果暫時沒有反饋,或反饋遲遲未到,,AI Agent 仍會繼續(xù)自行學(xué)習(xí),,盡管速度較慢。這種方式允許反饋的收集不那么頻繁,,也可以異步進行,。
Torne 補充道:“探索過程可以自主、持續(xù)進行,,因為它會不斷探索并學(xué)習(xí)新知識,。當(dāng)接收到更準(zhǔn)確的信號時,它會以更明確的方式進行探索,。它們可以按照各自的節(jié)奏運轉(zhuǎn),。”
由于反饋只是輕微地引導(dǎo) AI Agent 的行為,即使用戶提供的答案有誤,,AI Agent 最終也能學(xué)會如何完成任務(wù),。
更快的學(xué)習(xí)
研究團隊在一系列模擬和真實環(huán)境的任務(wù)中測試了這種方法。
例如,,在模擬環(huán)境中,,他們利用 HuGE 高效學(xué)習(xí)一系列復(fù)雜動作,比如按特定順序堆積積木或在迷宮中導(dǎo)航,。
在真實環(huán)境的測試中,他們用 HuGE 訓(xùn)練機器人手臂來繪制字母“U”和拾取放置物體,。這些測試匯集了來自三大洲 13 個國家的 109 名非專業(yè)用戶的數(shù)據(jù),。
無論是在真實世界還是模擬實驗中,HuGE 都使得 AI Agent學(xué)習(xí)完成任務(wù)的速度比其他方法更快,。
此外,與制作和標(biāo)注的合成數(shù)據(jù)相比,,非專家眾包的數(shù)據(jù)表現(xiàn)更佳,。對非專家用戶而言,標(biāo)注 30 張圖片或視頻不到兩分鐘就能完成,?!斑@展示了這種方法在擴展應(yīng)用方面的巨大潛力,”Torne 補充說,。
在一項相關(guān)的研究中,,研究團隊在最近的機器人學(xué)習(xí)會議上展示了他們?nèi)绾胃倪M HuGE,使得 AI Agent 不僅能學(xué)習(xí)完成任務(wù),,還能自主地重置環(huán)境繼續(xù)學(xué)習(xí),。例如,如果 AI Agent 學(xué)會了打開櫥柜,,這種方法還能指導(dǎo)它關(guān)閉櫥柜,。
“現(xiàn)在我們能讓它在沒有人工干預(yù)的情況下完全自主學(xué)習(xí),”他說,。
研究團隊還強調(diào),,在這種以及其他學(xué)習(xí)方法中,確保 AI Agent與人類價值觀保持一致是至關(guān)重要的,。
未來,,研究團隊計劃進一步完善 HuGE,讓 AI Agent 能夠通過自然語言和與機器人的物理交互等更多方式學(xué)習(xí),。他們還對將這種方法應(yīng)用于同時訓(xùn)練多個 AI Agent 表示出了興趣,。
參考鏈接
- https://news.mit.edu/2023/method-uses-crowdsourced-feedback-help-train-robots-1127?
- https://arxiv.org/pdf/2307.11049.pdf?
- https://human-guided-exploration.github.io/HuGE/?
免責(zé)聲明:本文來自網(wǎng)絡(luò)收錄或投稿,觀點僅代表作者本人,,不代表芒果財經(jīng)贊同其觀點或證實其描述,,版權(quán)歸原作者所有。轉(zhuǎn)載請注明出處:http://lequren.com/1081018.html
溫馨提示:投資有風(fēng)險,,入市須謹(jǐn)慎,。本資訊不作為投資理財建議,。