Sign In

Commanding Humanoid by Free-form Language: A Large Language Action Model with Unified Motion Vocabulary

Created by
  • Haebom
Category
Empty

์ €์ž

Zhirui Liu, Kaiyang Ji, Ke Yang, Jingyi Yu, Ye Shi, Jingya Wang

๐Ÿ’ก ๊ฐœ์š”

์ด ๋…ผ๋ฌธ์€ ์ž์œ  ํ˜•์‹์˜ ์–ธ์–ด ๋ช…๋ น์„ ์ดํ•ดํ•˜๊ณ  ์‹คํ–‰ํ•  ์ˆ˜ ์žˆ๋Š” ํœด๋จธ๋…ธ์ด๋“œ ๋กœ๋ด‡์„ ์œ„ํ•œ ๋Œ€๊ทœ๋ชจ ์–ธ์–ด ํ–‰๋™ ๋ชจ๋ธ์ธ Humanoid-LLA๋ฅผ ์ œ์•ˆํ•ฉ๋‹ˆ๋‹ค. Humanoid-LLA๋Š” ์ธ๊ฐ„๊ณผ ํœด๋จธ๋…ธ์ด๋“œ์˜ ๋™์ž‘์„ ํ†ตํ•ฉํ•˜๋Š” ํ†ต์ผ๋œ ๋™์ž‘ ์–ดํœ˜, ๋ฌผ๋ฆฌ์  ์‹คํ–‰ ๊ฐ€๋Šฅ์„ฑ์„ ๋ณด์žฅํ•˜๋Š” ์ •์ฑ… ์ฆ๋ฅ˜, ๋ฌผ๋ฆฌ ์ •๋ณด ๊ธฐ๋ฐ˜ ๊ฐ•ํ™” ํ•™์Šต์„ ํ†ตํ•ด ๋ณต์žกํ•˜๊ณ  ์ž์—ฐ์Šค๋Ÿฌ์šด ๋™์ž‘ ์ƒ์„ฑ์„ ๋ชฉํ‘œ๋กœ ํ•ฉ๋‹ˆ๋‹ค. ์‹œ๋ฎฌ๋ ˆ์ด์…˜ ๋ฐ ์‹ค์ œ ํœด๋จธ๋…ธ์ด๋“œ ๋กœ๋ด‡์—์„œ์˜ ํ‰๊ฐ€ ๊ฒฐ๊ณผ, Humanoid-LLA๋Š” ๋›ฐ์–ด๋‚œ ์–ธ์–ด ์ผ๋ฐ˜ํ™” ๋Šฅ๋ ฅ๊ณผ ๋†’์€ ๋ฌผ๋ฆฌ์  ์ถฉ์‹ค๋„๋ฅผ ๋ณด์—ฌ ๊ธฐ์กด ๋ฐฉ๋ฒ•๋ก ์„ ๋Šฅ๊ฐ€ํ•˜๋Š” ์„ฑ๋Šฅ์„ ์ž…์ฆํ–ˆ์Šต๋‹ˆ๋‹ค.

๐Ÿ”‘ ์‹œ์‚ฌ์  ๋ฐ ํ•œ๊ณ„

โ€ข
ํœด๋จธ๋…ธ์ด๋“œ ๋กœ๋ด‡์ด ๋ณต์žกํ•˜๊ณ  ํ‘œํ˜„๋ ฅ์ด ํ’๋ถ€ํ•œ ์–ธ์–ด ๋ช…๋ น์„ ์ดํ•ดํ•˜๊ณ  ์ด๋ฅผ ๋ฌผ๋ฆฌ์ ์œผ๋กœ ์‹คํ–‰ ๊ฐ€๋Šฅํ•œ ์ „์‹  ๋™์ž‘์œผ๋กœ ๋ณ€ํ™˜ํ•  ์ˆ˜ ์žˆ์Œ์„ ๋ณด์—ฌ์ฃผ์—ˆ์Šต๋‹ˆ๋‹ค.
โ€ข
ํ†ต์ผ๋œ ๋™์ž‘ ์–ดํœ˜์™€ ๋ฌผ๋ฆฌ ์ •๋ณด ๊ธฐ๋ฐ˜ ์ œ์–ด ์„ค๊ณ„๋ฅผ ํ†ตํ•ด ๋™์ž‘์˜ ์ž์—ฐ์Šค๋Ÿฌ์›€, ์•ˆ์ •์„ฑ, ์‹คํ–‰ ์„ฑ๊ณต๋ฅ ์„ ํฌ๊ฒŒ ํ–ฅ์ƒ์‹œ์ผฐ์Šต๋‹ˆ๋‹ค.
โ€ข
์ œ์•ˆ๋œ ๋ชจ๋ธ์€ ๋‹ค์–‘ํ•œ ์‹ค์ œ ์‹œ๋‚˜๋ฆฌ์˜ค์—์„œ ์ธ๊ฐ„-๋กœ๋ด‡ ์ƒํ˜ธ์ž‘์šฉ ๋ฐ ํ˜‘์—… ์ž‘์—… ์ˆ˜ํ–‰์— ๊ธฐ์—ฌํ•  ์ˆ˜ ์žˆ์„ ๊ฒƒ์œผ๋กœ ๊ธฐ๋Œ€๋ฉ๋‹ˆ๋‹ค.
โ€ข
์•„์ง ํƒ์ƒ‰๋˜์ง€ ์•Š์€ ๋” ๋‹ค์–‘ํ•œ ๋ช…๋ น ์œ ํ˜•์— ๋Œ€ํ•œ ์ผ๋ฐ˜ํ™” ์„ฑ๋Šฅ ํ–ฅ์ƒ ๋ฐ ์‹ค์ œ ํ™˜๊ฒฝ์—์„œ์˜ ๊ฐ•๊ฑด์„ฑ ํ™•๋ณด๊ฐ€ ํ–ฅํ›„ ๊ณผ์ œ๋กœ ๋‚จ์•„์žˆ์Šต๋‹ˆ๋‹ค.
๐Ÿ‘