haebom
Sign In

SnapFlow: One-Step Action Generation for Flow-Matching VLAs via Progressive Self-Distillation

์ž‘์„ฑ์ž
  • Haebom
์นดํ…Œ๊ณ ๋ฆฌ
Empty

์ €์ž

Wuyang Luan, Junhui Li, Weiguang Zhao, Wenjian Zhang, Tieru Wu, Rui Ma

๐Ÿ’ก ๊ฐœ์š”

๋ณธ ๋…ผ๋ฌธ์€ ๊ธฐ์กด Vision-Language-Action (VLA) ๋ชจ๋ธ์—์„œ ๋ฐœ์ƒํ•˜๋Š” ๋†’์€ ์ถ”๋ก  ์ง€์—ฐ ์‹œ๊ฐ„์„ ํ•ด๊ฒฐํ•˜๊ธฐ ์œ„ํ•ด ์ œ์•ˆ๋œ SnapFlow๋ฅผ ์†Œ๊ฐœํ•ฉ๋‹ˆ๋‹ค. SnapFlow๋Š” ํ”Œ๋Ÿฌ๊ทธ ์•ค ํ”Œ๋ ˆ์ด ๋ฐฉ์‹์˜ ์ž๊ธฐ ์ฆ๋ฅ˜ ๊ธฐ๋ฒ•์„ ํ†ตํ•ด ๋‹ค๋‹จ๊ณ„ ๋””๋…ธ์ด์ง• ๊ณผ์ •์„ ๋‹จ์ผ ์ˆœ๋ฐฉํ–ฅ ์—ฐ์‚ฐ์œผ๋กœ ์••์ถ•ํ•˜์—ฌ ์†๋„๋ฅผ ํฌ๊ฒŒ ํ–ฅ์ƒ์‹œํ‚ต๋‹ˆ๋‹ค. ์ œ์•ˆ๋œ ๋ฐฉ๋ฒ•์€ ์ด๋ก ์  ๋ถ„์„์„ ๊ธฐ๋ฐ˜์œผ๋กœ ๊ถค์  ๋“œ๋ฆฌํ”„ํŠธ๋ฅผ ๋ฐฉ์ง€ํ•˜๋ฉฐ, ๋ณ„๋„์˜ ๊ต์‚ฌ ๋ชจ๋ธ์ด๋‚˜ ์•„ํ‚คํ…์ฒ˜ ๋ณ€๊ฒฝ ์—†์ด ํ•™์Šต์ด ๊ฐ€๋Šฅํ•ฉ๋‹ˆ๋‹ค.

๐Ÿ”‘ ์‹œ์‚ฌ์  ๋ฐ ํ•œ๊ณ„

โ€ข
์—„์ฒญ๋‚œ ์ถ”๋ก  ์†๋„ ํ–ฅ์ƒ: SnapFlow๋Š” VLA ๋ชจ๋ธ์˜ ๋””๋…ธ์ด์ง• ์†๋„๋ฅผ ํš๊ธฐ์ ์œผ๋กœ ๊ฐœ์„ ํ•˜์—ฌ, ๊ธฐ์กด 10๋‹จ๊ณ„ ๋””๋…ธ์ด์ง• ๋Œ€๋น„ 9.6๋ฐฐ์˜ ์†๋„ ํ–ฅ์ƒ๊ณผ ์ด ์ถ”๋ก  ์ง€์—ฐ ์‹œ๊ฐ„์„ 274ms์—์„œ 83ms๋กœ ๋‹จ์ถ•์‹œ์ผฐ์Šต๋‹ˆ๋‹ค.
โ€ข
์„ฑ๋Šฅ ์œ ์ง€ ๋˜๋Š” ํ–ฅ์ƒ: ์†๋„ ํ–ฅ์ƒ์—๋„ ๋ถˆ๊ตฌํ•˜๊ณ , SnapFlow๋Š” ์›๋ž˜ ๋ชจ๋ธ๊ณผ ๋™๋“ฑํ•˜๊ฑฐ๋‚˜ ๊ทธ ์ด์ƒ์˜ ์ž‘์—… ์„ฑ๊ณต๋ฅ ์„ ๋‹ฌ์„ฑํ•˜๋ฉฐ, ํŠนํžˆ ์žฅ๊ธฐ ํ˜ธ๋ผ์ด์ฆŒ ์ž‘์—…์—์„œ๋„ ์šฐ์ˆ˜ํ•œ ์„ฑ๋Šฅ์„ ์œ ์ง€ํ•ฉ๋‹ˆ๋‹ค.
โ€ข
๋ชจ๋“ˆ์„ฑ ๋ฐ ํ™•์žฅ์„ฑ: SnapFlow๋Š” ๊ธฐ์กด VLA ์•„ํ‚คํ…์ฒ˜์— ์‰ฝ๊ฒŒ ํ†ตํ•ฉ๋  ์ˆ˜ ์žˆ์œผ๋ฉฐ, ๋‹ค๋ฅธ ์ตœ์ ํ™” ๊ธฐ๋ฒ•(๋ ˆ์ด์–ด ์ฆ๋ฅ˜, ํ† ํฐ ๊ฐ€์ง€์น˜๊ธฐ ๋“ฑ)๊ณผ ํ•จ๊ป˜ ์‚ฌ์šฉํ•˜์—ฌ ์ถ”๊ฐ€์ ์ธ ์„ฑ๋Šฅ ํ–ฅ์ƒ์„ ์–ป์„ ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.
โ€ข
ํ•œ๊ณ„์ : ์ œ์•ˆ๋œ ๊ธฐ๋ฒ•์€ ์ฃผ๋กœ ์†๋„ ๊ฐœ์„ ์— ์ดˆ์ ์„ ๋งž์ถ”๊ณ  ์žˆ์œผ๋ฉฐ, ๊ทน๋„๋กœ ๋ณต์žกํ•˜๊ฑฐ๋‚˜ ์ƒˆ๋กœ์šด ์œ ํ˜•์˜ ์ž‘์—…์— ๋Œ€ํ•œ ์„ฑ๋Šฅ์€ ์ถ”๊ฐ€์ ์ธ ์—ฐ๊ตฌ๊ฐ€ ํ•„์š”ํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. ๋˜ํ•œ, ์ž๊ธฐ ์ฆ๋ฅ˜ ๊ณผ์ •์—์„œ ๋ฐœ์ƒํ•˜๋Š” ์ž ์žฌ์ ์ธ ์ •๋ณด ์†์‹ค์ด๋‚˜ ๋ถˆ์•ˆ์ •์„ฑ์— ๋Œ€ํ•œ ์‹ฌ์ธต์ ์ธ ๋ถ„์„์€ ํ–ฅํ›„ ๊ณผ์ œ๋กœ ๋‚จ์Šต๋‹ˆ๋‹ค.
PDF ๋ณด๊ธฐ
๐Ÿ‘
Made with Slashpage