Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

DeepEyesV2: Toward Agentic Multimodal Model

Created by
  • Haebom
Category
Empty

저자

Jack Hong, Chenxiao Zhao, ChengLin Zhu, Weiheng Lu, Guohai Xu, Xing Yu

DeepEyesV2: 에이전트형 멀티모달 모델 구축

개요

본 연구는 텍스트와 이미지 이해뿐만 아니라 코드 실행 환경 및 웹 검색과 같은 외부 도구를 적극적으로 활용하여 추론에 통합하는 에이전트형 멀티모달 모델인 DeepEyesV2를 소개합니다. 데이터 구성, 훈련 방법, 모델 평가 측면에서 DeepEyesV2 구축 과정을 탐구합니다. 특히, 직접적인 강화 학습만으로는 견고한 도구 사용 행동을 유도하는 데 실패한다는 점을 발견하고, 콜드 스타트 단계와 강화 학습 단계를 포함하는 2단계 훈련 파이프라인을 제안합니다. 또한, 실제 멀티모달 추론을 평가하기 위한 RealX-Bench를 개발하고, DeepEyesV2를 통해 실제 이해, 수학적 추론, 검색 기반 작업 등에서 효과를 입증했습니다.

시사점, 한계점

시사점:
에이전트형 멀티모달 모델 개발을 위한 DeepEyesV2 모델 제안
2단계 훈련 파이프라인 (콜드 스타트 + 강화 학습)의 효과 입증
실제 멀티모달 추론 평가를 위한 RealX-Bench 벤치마크 개발
작업 적응형 도구 호출 및 복잡한 도구 조합 가능성 제시
한계점:
논문에 제시된 한계점은 명시적으로 언급되지 않음.
👍