Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

DeepEyesV2: Toward Agentic Multimodal Model

Created by
  • Haebom
Category
Empty

저자

Jack Hong, Chenxiao Zhao, ChengLin Zhu, Weiheng Lu, Guohai Xu, Xing Yu

개요

본 연구는 텍스트 및 이미지를 이해할 뿐만 아니라 코드 실행 환경 및 웹 검색과 같은 외부 도구를 적극적으로 호출하고 이러한 작업을 추론에 통합하는 에이전트형 멀티모달 모델인 DeepEyesV2를 소개합니다. 데이터 구성, 학습 방법 및 모델 평가 관점에서 DeepEyesV2 구축 방법을 탐구하며, 직접 강화 학습만으로는 견고한 도구 사용 동작을 유도하는 데 실패함을 관찰했습니다. 따라서 도구 사용 패턴을 확립하기 위한 초기 단계와 도구 호출을 추가로 개선하기 위한 강화 학습 단계로 구성된 2단계 학습 파이프라인을 제안합니다. 또한, 지각, 검색 및 추론을 포함한 여러 기능을 통합해야 하는 실제 멀티모달 추론을 평가하기 위해 설계된 종합적인 벤치마크인 RealX-Bench를 개발했습니다. DeepEyesV2는 RealX-Bench 및 기타 대표적인 벤치마크에서 효과를 입증했으며, 작업 적응형 도구 호출을 보여줍니다.

시사점, 한계점

시사점:
에이전트형 멀티모달 모델 개발에 대한 가이드라인 제시.
2단계 학습 파이프라인(cold-start + 강화 학습)의 효과 입증.
작업 적응형 도구 호출 능력 입증.
RealX-Bench를 통한 실제 멀티모달 추론 능력 평가.
한계점:
논문에서 구체적인 한계점 언급 없음.
👍