본 논문은 대규모 시각-언어 모델(LLVMs)의 에이전트 능력 향상을 위한 Visual Agentic Reinforcement Fine-Tuning (Visual-ARFT) 기법을 제시한다. Visual-ARFT는 LLVMs이 웹 검색을 통해 실시간 정보를 획득하고, 이미지 자르기, 회전 등의 이미지 처리 기술을 위한 코드를 작성 및 실행하는 등 이미지를 활용하여 사고하는 다중 모달 에이전트 능력을 부여한다. 또한, LLVMs의 에이전트 검색 및 코딩 능력을 평가하기 위한 다중 모달 에이전트 도구 벤치마크(MAT: Multi-modal Agentic Tool Bench)를 제안한다. 실험 결과, Visual-ARFT는 기존 방식보다 MAT-Coding에서 +18.6% F1 / +13.0% EM, MAT-Search에서 +10.3% F1 / +8.7% EM 향상을 보였으며, GPT-4o를 능가하는 성능을 달성했다. 2Wiki 및 HotpotQA와 같은 기존 다단계 질의응답 벤치마크에서도 상당한 성능 향상을 보이며 일반화 능력이 뛰어남을 입증했다.
시사점, 한계점
•
시사점:
◦
Visual-ARFT는 오픈소스 LLVMs의 다중 모달 에이전트 능력을 효과적으로 향상시키는 기법임을 제시한다.