๋ณธ ๋
ผ๋ฌธ์ ๋ก๋ด ์ ์ด์์ ๋ฐ์ํ๋ ์ฅ๊ธฐ ๊ณผ์ ์์์ ํ๋ ์์ฑ ๋ถ์์ ๋ฌธ์ ๋ฅผ ํด๊ฒฐํ๊ธฐ ์ํด ๋น๋๊ธฐ ํ๋ฆ ๋งค์นญ(Asynchronous Flow Matching, AFM)์ ํ์ฉํ๋ ์๋ก์ด Vision-Language-Action (VLA) ๋ชจ๋ธ์ธ AsyncVLA๋ฅผ ์ ์ํฉ๋๋ค. AsyncVLA๋ ํ๋ ํ ํฐ ์์ฑ์ ์๊ฐ์ ์ ์ฐ์ฑ์ ๋ถ์ฌํ๊ณ , ์ด๊ธฐ ์์ฑ๋ ํ๋์ ์ ๋ขฐ๋๋ฅผ ํ๊ฐํ์ฌ ๋ถ์ ํํ ํ ํฐ์ ์ ํ์ ์ผ๋ก ์์ ํ๋ ์๊ธฐ ๊ต์ ๊ธฐ๋ฅ์ ๋์
ํฉ๋๋ค. ์ด๋ฅผ ํตํด ๋ฐ์ดํฐ ํจ์จ์ฑ์ ๋์ด๊ณ ์๋ฎฌ๋ ์ด์
๋ฐ ์ค์ ๋ก๋ด ํ๊ฒฝ์์ ๊ธฐ์กด ๋ชจ๋ธ ๋๋น ์ฐ์ํ ์ฑ๋ฅ์ ์
์ฆํฉ๋๋ค.