haebom
Sign In
CF-VLA: Efficient Coarse-to-Fine Action Generation for Vision-Language-Action Policies
Created by
Haebom
Category
Empty
์ ์
Fan Du, Feng Yan, Jianxiong Wu, Xinrun Xu, Weiye Zhang, Weinong Wang, Yu Guo, Bin Qian, Zhihai He, Fei Wang, Heng Yang
๐ก ๊ฐ์
๋ณธ ์ฐ๊ตฌ๋ ๊ธฐ์กด ํ๋ฆ ๊ธฐ๋ฐ VLA(Vision-Language-Action) ์ ์ฑ ์ ๋นํจ์จ์ ์ธ ์ถ๋ก ๊ณผ์ ์ ๊ฐ์ ํ๊ธฐ ์ํด ์ ์๋์๋ค. CF-VLA๋ Gaussian ๋ ธ์ด์ฆ์์ ์ง์ ํ๋ ๊ตฌ์กฐ๋ฅผ ๋ณต์ํ๋ ๋์ , ํ๋ ์ธ์ ์ด๊ธฐ์ ์ ์์ฑํ๋ coarse ๋จ๊ณ์ ์์ฌ ์ค์ฐจ๋ฅผ ๋ณด์ ํ๋ fine ๋จ๊ณ๋ก ์ด์ํํ์ฌ ํจ์จ์ฑ๊ณผ ์ฑ๋ฅ์ ๋์์ ๋์๋ค. ์ด๋ฅผ ํตํด ๋ฎ์ NFE(Number of Function Evaluations) ํ๊ฒฝ์์ ๊ธฐ์กด ๋ฐฉ๋ฒ๋ก ๋ณด๋ค ์ฐ์ํ ์ฑ๋ฅ๊ณผ ๋น ๋ฅธ ์ถ๋ก ์๋๋ฅผ ๋ฌ์ฑํ๋ค.
๐ ์์ฌ์ ๋ฐ ํ๊ณ
โข
๊ตฌ์กฐํ๋ ์ด๊ธฐ์ ์ ์ค์์ฑ:
ํ๋ฆ ๊ธฐ๋ฐ ๋ชจ๋ธ์์ ์ด๊ธฐ์ ์ ๊ตฌ์กฐํ๊ฐ ์ถ๋ก ํจ์จ์ฑ๊ณผ ์ฑ๋ฅ ํฅ์์ ๊ฒฐ์ ์ ์ธ ์ญํ ์ ํจ์ ์ ์ฆํ๋ค.
โข
์ค์๊ฐ ์ ์ฝ ์กฐ๊ฑด ํ์์์ ํจ์จ์ฑ:
๋ฎ์ NFE ํ๊ฒฝ์์ ๊ธฐ์กด ์ต๊ณ ์ฑ๋ฅ ๋ชจ๋ธ๊ณผ ๋๋ฑํ๊ฑฐ๋ ๋ ๋์ ์ฑ๋ฅ์ ๋ณด์ด๋ฉด์๋ ์ถ๋ก ์ง์ฐ ์๊ฐ์ ํ๊ธฐ์ ์ผ๋ก ๋จ์ถํ์ฌ ์ค์๊ฐ ๋ก๋ด ์์ฉ์ ์ ํฉํจ์ ๋ณด์ฌ์ค๋ค.
โข
ํ๋ จ ์์ ํ ์ ๋ต:
๋จ๊ณ๋ณ ํ๋ จ ์ ๋ต์ ํตํด coarse ์์ธก๊ธฐ๋ฅผ ๋จผ์ ํ์ต์ํจ ํ ๊ณต๋ ์ต์ ํ๋ฅผ ์ํํจ์ผ๋ก์จ ํ๋ จ์ ์์ ์ฑ์ ํ๋ณดํ๋ค.
โข
ํ๊ณ์ /ํฅํ ๊ณผ์ :
์ ์๋ coarse-to-fine ๋ฐฉ์์ด ๋ค์ํ ๋ก๋ด ์์ ๋ฐ ํ๊ฒฝ์ ์ผ๋ง๋ ์ผ๋ฐํ๋ ์ ์๋์ง์ ๋ํ ์ถ๊ฐ์ ์ธ ์ฐ๊ตฌ๊ฐ ํ์ํ๋ฉฐ, coarse ๋จ๊ณ์ ์ ํ๋๊ฐ fine ๋จ๊ณ์ ์ฑ๋ฅ์ ๋ฏธ์น๋ ์ํฅ์ ๋ํ ์ฌ์ธต ๋ถ์์ด ์๊ตฌ๋๋ค.
PDF ๋ณด๊ธฐ
Made with Slashpage