haebom
Sign In
Lang2Act: Fine-Grained Visual Reasoning through Self-Emergent Linguistic Toolchains
Created by
Haebom
Category
Empty
์ ์
Yuqi Xiong, Chunyi Peng, Zhipeng Xu, Zhenghao Liu, Zulong Chen, Yukun Yan, Shuo Wang, Yu Gu, Ge Yu
๐ก ๊ฐ์
๋ณธ ๋ ผ๋ฌธ์ ์ธ๋ถ ์๊ฐ ๋ฌธ์๋ฅผ ํ์ฉํ๋ VRAG ํ๋ ์์ํฌ์ ํ๊ณ๋ฅผ ๊ทน๋ณตํ๊ธฐ ์ํด, ๊ณ ์ ๋ ์ธ๋ถ ๋๊ตฌ ๋์ ์์ฒด์ ์ผ๋ก ์์ฑ๋๋ ์ธ์ด์ ๋๊ตฌ ์ฒด์ธ์ ํตํด ๋ฏธ์ธํ ์๊ฐ์ ์ถ๋ก ์ ๊ฐ๋ฅํ๊ฒ ํ๋ Lang2Act๋ฅผ ์ ์ํฉ๋๋ค. Lang2Act๋ ์๊ฐ ์ธ์๊ณผ ์ถ๋ก ๊ณผ์ ์ ๋ถ๋ฆฌํ์ง ์๊ณ , RL ๊ธฐ๋ฐ์ 2๋จ๊ณ ํ์ต ํ๋ ์์ํฌ๋ฅผ ํตํด ๊ณ ํ์ง์ ์ธ์ด์ ๋๊ตฌ๋ฅผ ์ค์ค๋ก ํ์ํ๊ณ ์ด๋ฅผ ํจ๊ณผ์ ์ผ๋ก ํ์ฉํฉ๋๋ค. ์คํ ๊ฒฐ๊ณผ, Lang2Act๋ VLMs์ ์๊ฐ ์ธ์ ๋ฅ๋ ฅ์ ํฌ๊ฒ ํฅ์์์ผ 4% ์ด์์ ์ฑ๋ฅ ๊ฐ์ ์ ๋ฌ์ฑํ์ต๋๋ค.
๐ ์์ฌ์ ๋ฐ ํ๊ณ
โข
๊ธฐ์กด VRAG์ ๊ณ ์ ๋ ์ธ๋ถ ๋๊ตฌ ์ฌ์ฉ ๋ฐ ์๊ฐ ์ ๋ณด ์์ค ๋ฌธ์ ๋ฅผ ํด๊ฒฐํ๋ ์๋ก์ด ์ ๊ทผ ๋ฐฉ์์ ์ ์ํฉ๋๋ค.
โข
์๊ฐ ์ธ์๊ณผ ์ถ๋ก ๊ณผ์ ์ ํตํฉํ๊ณ , ํ์ต ๊ณผ์ ์์ ๋์ ์ผ๋ก ๋๊ตฌ๋ฅผ ์์ฑ ๋ฐ ํ์ฉํ๋ ์ ์ฐ์ฑ์ ํ๋ณดํ์ต๋๋ค.
โข
๋ ๋จ๊ณ์ RL ํ์ต ๋ฐฉ์์ด ๋ชจ๋ธ์ ํจ๊ณผ์ ์ธ ์ธ์ด์ ๋๊ตฌ ์์ฑ ๋ฐ ํ์ฉ์ ๊ธฐ์ฌํฉ๋๋ค.
โข
ํน์ ๋ณต์กํ ์๊ฐ์ ์ถ๋ก ์์ ์ ๋ํ ์ถ๊ฐ์ ์ธ ๊ฒ์ฆ ๋ฐ ๋ค์ํ ์๊ฐ ๋๋ฉ์ธ์์์ ์ผ๋ฐํ ๊ฐ๋ฅ์ฑ์ ๋ํ ์ฐ๊ตฌ๊ฐ ํ์ํฉ๋๋ค.
PDF ๋ณด๊ธฐ
Made with Slashpage