haebom
Sign In
SpotAgent: Grounding Visual Geo-localization in Large Vision-Language Models through Agentic Reasoning
Created by
Haebom
Category
Empty
์ ์
Furong Jia, Ling Dai, Wenjin Deng, Fan Zhang, Chen Hu, Daxin Jiang, Yu Liu
๐ก ๊ฐ์
๋ณธ ๋ ผ๋ฌธ์ ์๊ฐ ์ ๋ณด๊ฐ ๋ถ์กฑํ๊ณ ๋ชจํธํ ์ค์ ํ๊ฒฝ์์์ ์ง๋ฆฌ ์์น ์ถ์ (geo-localization) ๋ฌธ์ ๋ฅผ ํด๊ฒฐํ๊ธฐ ์ํด SpotAgent๋ผ๋ ์๋ก์ด ํ๋ ์์ํฌ๋ฅผ ์ ์ํ๋ค. SpotAgent๋ ๋๊ท๋ชจ ์๊ฐ-์ธ์ด ๋ชจ๋ธ(LVLM)์ด ์ธ๋ถ ๋๊ตฌ(์น ๊ฒ์, ์ง๋ ๋ฑ)๋ฅผ ํ์ฉํ์ฌ ์๊ฐ ๋จ์๋ฅผ ๋ฅ๋์ ์ผ๋ก ํ์ํ๊ณ ๊ฒ์ฆํ๋ ์์ด์ ํธ ๊ธฐ๋ฐ ์ถ๋ก ๋ฐฉ์์ ๋์ ํ๋ค. ์ด๋ฅผ ํตํด ๊ธฐ์กด ๋ชจ๋ธ์ ํ๊ฐ(hallucination) ๋ฌธ์ ๋ฅผ ์ํํ๊ณ ์ ํํ๋ฉฐ ๊ฒ์ฆ ๊ฐ๋ฅํ ์ง๋ฆฌ ์์น ์ถ์ ์ฑ๋ฅ์ ๋ฌ์ฑํ๋ค.
๐ ์์ฌ์ ๋ฐ ํ๊ณ
โข
LVLM์ ์ง๋ฆฌ ์์น ์ถ์ ์ฑ๋ฅ์ ์ค์ ํ๊ฒฝ์ ์ ํฉํ๋๋ก ํฅ์์ํค๊ธฐ ์ํด ์ธ๋ถ ๋๊ตฌ ์ฐ๋ ๋ฐ ์์ด์ ํธ ๊ธฐ๋ฐ ์ถ๋ก ์ด ํจ๊ณผ์ ์์ ๋ณด์ฌ์ค๋ค.
โข
SFT, ๋ฉํฐ ์์ด์ ํธ ๊ธฐ๋ฐ ํด ์ฌ์ฉ ํ์ต, RL ๋จ๊ณ๋ฅผ ๊ฑฐ์น๋ 3๋จ๊ณ ํํ์ต ํ์ดํ๋ผ์ธ์ด ๋ชจ๋ธ์ ํด ํธ์ถ ๋ฅ๋ ฅ๊ณผ ์ถ๋ก ๋ฅ๋ ฅ์ ์ฒด๊ณ์ ์ผ๋ก ๋ฐ์ ์ํจ๋ค.
โข
Spatially-Aware Dynamic Filtering ์ ๋ต์ RL ํ์ต ํจ์จ์ฑ์ ๋์ด๊ณ ๊ณต๊ฐ์ ์ด๋ ค์์ ๊ธฐ๋ฐํ์ฌ ํ์ต ์ํ์ ์ฐ์ ์์ํํจ์ผ๋ก์จ ๋ชจ๋ธ ์ฑ๋ฅ ํฅ์์ ๊ธฐ์ฌํ๋ค.
โข
์ ์๋ SpotAgent๋ ํ๊ฐ์ ์ค์ด๊ณ ์ ํํ ๊ฒ์ฆ ๊ฐ๋ฅํ ๊ฒฐ๊ณผ๋ฅผ ์ ๊ณตํ์ง๋ง, ๋ณต์กํ๊ณ ์์์น ๋ชปํ ์๋๋ฆฌ์ค์์์ ์ถ๊ฐ์ ์ธ ๊ฐ๊ฑด์ฑ ํ ์คํธ ๋ฐ ์ผ๋ฐํ ๋ฅ๋ ฅ์ ๋ํ ํ๊ตฌ๊ฐ ํ์ํ ์ ์๋ค.
PDF ๋ณด๊ธฐ
Made with Slashpage