Sign In

AnyMo: Scaling Any-Modality Conditional Motion Generation with Masked Modeling

์ž‘์„ฑ์ž
  • Haebom
์นดํ…Œ๊ณ ๋ฆฌ
Empty

์ €์ž

Yiheng Li, Zhuo Li, Ruibing Hou, Yingjie Chen, Hong Chang, Hao Liu, Shiguang Shan

๐Ÿ’ก ๊ฐœ์š”

๋ณธ ์—ฐ๊ตฌ๋Š” ๋‹ค์–‘ํ•œ ์กฐ๊ฑด(ํ…์ŠคํŠธ, ์Œ์„ฑ, ์Œ์•…, ๊ถค์  ๋“ฑ)์— ๋”ฐ๋ผ ์ธ๊ฐ„์˜ ์›€์ง์ž„์„ ์ƒ์„ฑํ•˜๋Š” ๋ฌธ์ œ๋ฅผ ๋‹ค๋ฃน๋‹ˆ๋‹ค. ์ด๋ฅผ ์œ„ํ•ด ๋Œ€๊ทœ๋ชจ์˜ ๊ณ ํ’ˆ์งˆ ๋‹ค์ค‘ ๋ชจ๋‹ฌ๋ฆฌํ‹ฐ ์ •๋ ฌ ๋ฐ์ดํ„ฐ์…‹์ธ OmniHuMo๋ฅผ ๊ตฌ์ถ•ํ•˜๊ณ , ์ด๋ฅผ ๊ธฐ๋ฐ˜์œผ๋กœ ํ•˜๋Š” AnyMo๋ผ๋Š” ํ†ตํ•ฉ ํ”„๋ ˆ์ž„์›Œํฌ๋ฅผ ์ œ์•ˆํ•ฉ๋‹ˆ๋‹ค. AnyMo๋Š” ์ž”์ฐจ FSQ ๊ธฐ๋ฐ˜ ๋ชจ์…˜ ํ† ํฌ๋‚˜์ด์ €์™€ ํ™•์žฅ ๊ฐ€๋Šฅํ•œ ๋งˆ์Šคํฌ๋“œ ๋ชจ๋ธ๋ง ํŠธ๋žœ์Šคํฌ๋จธ๋ฅผ ๊ฒฐํ•ฉํ•˜์—ฌ, ์ž„์˜์˜ ๋ชจ๋‹ฌ๋ฆฌํ‹ฐ ์กฐํ•ฉ ํ•˜์—์„œ๋„ ๋†’์€ ํ’ˆ์งˆ์˜ ์›€์ง์ž„์„ ์ƒ์„ฑํ•ฉ๋‹ˆ๋‹ค.

๐Ÿ”‘ ์‹œ์‚ฌ์  ๋ฐ ํ•œ๊ณ„

โ€ข
๋Œ€๊ทœ๋ชจ ๋‹ค์ค‘ ๋ชจ๋‹ฌ๋ฆฌํ‹ฐ ๋ฐ์ดํ„ฐ์…‹์˜ ์ค‘์š”์„ฑ: OmniHuMo์™€ ๊ฐ™์€ ๋Œ€๊ทœ๋ชจ, ๊ณ ํ’ˆ์งˆ์˜ ์ •๋ ฌ๋œ ๋ฐ์ดํ„ฐ์…‹ ๊ตฌ์ถ•์ด ๋‹ค์–‘ํ•œ ์กฐ๊ฑด ๊ธฐ๋ฐ˜ ์›€์ง์ž„ ์ƒ์„ฑ ์—ฐ๊ตฌ์˜ ๋ฐœ์ „์— ํ•„์ˆ˜์ ์ž„์„ ๋ณด์—ฌ์ค๋‹ˆ๋‹ค.
โ€ข
ํ†ตํ•ฉ๋œ ๋‹ค์ค‘ ๋ชจ๋‹ฌ๋ฆฌํ‹ฐ ํ”„๋ ˆ์ž„์›Œํฌ์˜ ๊ฐ€๋Šฅ์„ฑ: AnyMo๋Š” ๋‹จ์ผ ํ”„๋ ˆ์ž„์›Œํฌ๋กœ ๋‹ค์–‘ํ•œ ๋ชจ๋‹ฌ๋ฆฌํ‹ฐ๋ฅผ ํ™œ์šฉํ•˜์—ฌ ์œ ์—ฐํ•˜๊ณ  ๋†’์€ ํ’ˆ์งˆ์˜ ์›€์ง์ž„ ์ƒ์„ฑ์ด ๊ฐ€๋Šฅํ•จ์„ ์ž…์ฆํ•ฉ๋‹ˆ๋‹ค.
โ€ข
๋ฐ์ดํ„ฐ ํฌ์†Œ์„ฑ๊ณผ ๋ชจ๋ธ ๋ณต์žก์„ฑ: ๋ณธ ์—ฐ๊ตฌ๋Š” ๋ฐ์ดํ„ฐ์…‹ ๊ตฌ์ถ•๊ณผ ๋ชจ๋ธ ์„ค๊ณ„์— ์ƒ๋‹นํ•œ ๋…ธ๋ ฅ์„ ๊ธฐ์šธ์˜€์ง€๋งŒ, ์—ฌ์ „ํžˆ ๋‹ค์–‘ํ•œ ๋ชจ๋‹ฌ๋ฆฌํ‹ฐ์™€ ๋ณต์žกํ•œ ์ƒํ˜ธ์ž‘์šฉ์„ ๋‹ค๋ฃจ๊ธฐ ์œ„ํ•œ ๋” ๋งŽ์€ ๋ฐ์ดํ„ฐ์™€ ๋”์šฑ ์ •๊ตํ•œ ๋ชจ๋ธ ๊ตฌ์กฐ๊ฐ€ ํ•„์š”ํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.
๐Ÿ‘