原文來(lái)源:AIGC開(kāi)放社區(qū)
圖片來(lái)源:由無(wú)界 AI生成
東京大學(xué)的研究人員將GPT-4模型,集成在實(shí)體機(jī)器人Alter3中,,可將文本、語(yǔ)言直接轉(zhuǎn)化成機(jī)器人動(dòng)作,,例如,,做一個(gè)自拍動(dòng)作;裝一個(gè)“鬼樣”,;做一個(gè)搖滾音樂(lè)動(dòng)作等,,就連微笑、眨眼這樣的面部表情動(dòng)作也沒(méi)問(wèn)題,。
在GPT-4的幫助下,,Alter3建立了語(yǔ)言反饋系統(tǒng),可通過(guò)語(yǔ)言指令優(yōu)化機(jī)器人的運(yùn)動(dòng),而無(wú)需修改任何代碼,在傳統(tǒng)機(jī)器人領(lǐng)域是很難做不到,。
也就是說(shuō),,Alter3突破了傳統(tǒng)的硬件編碼限制,可以實(shí)現(xiàn)知識(shí)存儲(chǔ),、動(dòng)作優(yōu)化和0樣本學(xué)習(xí)等,。在不需要為機(jī)器人的每個(gè)身體部位進(jìn)行編程的情況下,可自動(dòng)生成新的動(dòng)作序列,完成自我迭代,。
簡(jiǎn)單來(lái)說(shuō),,可以把GPT-4看成是Alter3的“大腦”。大語(yǔ)言模型的海量知識(shí)的能力可以使Alter3,,完成很多之前需要特定代碼才能完成的動(dòng)作,。怎么感覺(jué)有點(diǎn)像施瓦辛格的“終結(jié)者”呢?
論文地址:https://arxiv.org/abs/2312.06571
Alter3簡(jiǎn)單介紹
Alter3是Alter系列的第3代實(shí)體機(jī)器人,,整體結(jié)構(gòu)采用前后分離式設(shè)計(jì)。主控制部分包含43個(gè)微調(diào)關(guān)節(jié)和馬達(dá),可實(shí)現(xiàn)細(xì)膩流暢的各部位動(dòng)作控制,。
Alter3采用了空氣驅(qū)動(dòng)技術(shù)來(lái)控制每個(gè)關(guān)節(jié)來(lái)執(zhí)行指定運(yùn)動(dòng),,刷新率為100—150毫秒。
相比電動(dòng)馬達(dá),空氣驅(qū)動(dòng)能保證動(dòng)作流暢平穩(wěn),響應(yīng)更快速,。同時(shí)也提高了可靠性和維修保養(yǎng)便利性,。例如,當(dāng)馬達(dá)出問(wèn)題時(shí),只需更換單獨(dú)部件而不影響整體性能,。
表情部分對(duì)應(yīng)人臉部位,包括眼睛、眉毛,、嘴巴等,也由馬達(dá)驅(qū)動(dòng)實(shí)現(xiàn)豐富的面部表情變化,。面部組件可以單獨(dú)拆裝,實(shí)現(xiàn)靈活配置,。
Alter3視覺(jué)系統(tǒng)采用4個(gè)高清攝像頭,分別安裝在頭部?jī)蓚?cè)和眼部?jī)?nèi)部。頭部攝像頭主要用于人體姿態(tài)跟蹤和面部識(shí)別分析等任務(wù),。
眼部?jī)?nèi)置攝像頭可以模擬眼神等動(dòng)作,為Alter3提供了與人類視覺(jué)系統(tǒng)等效的感知能力,。
GPT-4在Alter3的作用
Alter3通過(guò)與GPT-4語(yǔ)言模型的結(jié)合,能夠根據(jù)給定的文本描述自主生成動(dòng)作,,同時(shí)GPT-4承擔(dān)了動(dòng)作描述生成和代碼映射轉(zhuǎn)換兩大重要功能,。
在第一階段, GPT-4能夠根據(jù)簡(jiǎn)短的語(yǔ)言提示,產(chǎn)生豐富生動(dòng)的動(dòng)作描述:
1)GPT-4會(huì)描述出各種面部表情和身體語(yǔ)言;2)各動(dòng)作應(yīng)獨(dú)立成段,流暢連貫;3)根據(jù)人體關(guān)節(jié)可行性給出具體的執(zhí)行細(xì)節(jié),。
GPT-4可以生成動(dòng)作細(xì)節(jié)和豐富的情感表達(dá),為下一步代碼轉(zhuǎn)化提供了重要基礎(chǔ)。
在第二階段,GPT-4會(huì)將提示文本語(yǔ)言轉(zhuǎn)換為,,控制Alter3機(jī)器人實(shí)際動(dòng)作的Python代碼。
GPT-4采用類似寫(xiě)論文的結(jié)構(gòu)性表達(dá),,首先導(dǎo)入Alter3模塊,然后針對(duì)每個(gè)動(dòng)作描述一步一步寫(xiě)出設(shè)置各關(guān)節(jié)值的Python代碼,。
例如,軸1值設(shè)為255,表示憤怒表情等,。Alter3接收到轉(zhuǎn)換后的代碼后,,可以執(zhí)行具體的動(dòng)作。
簡(jiǎn)單來(lái)說(shuō),,Alter3借助了GPT-4強(qiáng)大的編程、轉(zhuǎn)換,、理解,、存儲(chǔ)等智能化能力,極大節(jié)省了開(kāi)發(fā)時(shí)間和成本,,同時(shí)將這些能力注入到Alter3中,。
為了測(cè)試GPT-4在Alter3上發(fā)揮的能力,研究人員對(duì)9個(gè)不同機(jī)器人動(dòng)作的視頻進(jìn)行了評(píng)估,每個(gè)視頻由100多名參與者按5分制給出評(píng)分。
結(jié)果顯示,GPT-4生成的動(dòng)作視頻評(píng)分,,顯著高于原生動(dòng)作視頻,這說(shuō)明GPT-4生成的動(dòng)作能真實(shí)還原人體動(dòng)作細(xì)節(jié),。
此外,研究人員通過(guò)反饋強(qiáng)化對(duì)Alter3生成的動(dòng)作進(jìn)行微調(diào),達(dá)到了更流暢的效果。
同時(shí),研究人員采取了模擬社會(huì)大腦理論中的多個(gè)代理人模式,讓Alter3與6種不同人格進(jìn)行對(duì)話,以增強(qiáng)其與人交流能力,。
免責(zé)聲明:本文來(lái)自網(wǎng)絡(luò)收錄或投稿,,觀點(diǎn)僅代表作者本人,,不代表芒果財(cái)經(jīng)贊同其觀點(diǎn)或證實(shí)其描述,版權(quán)歸原作者所有,。轉(zhuǎn)載請(qǐng)注明出處:http://lequren.com/1087648.html
溫馨提示:投資有風(fēng)險(xiǎn),,入市須謹(jǐn)慎。本資訊不作為投資理財(cái)建議,。