본 연구는 텍스트와 이미지 이해뿐만 아니라 코드 실행 환경 및 웹 검색과 같은 외부 도구를 적극적으로 활용하여 추론에 통합하는 에이전트형 멀티모달 모델인 DeepEyesV2를 소개합니다. 데이터 구성, 훈련 방법, 모델 평가 측면에서 DeepEyesV2 구축 과정을 탐구합니다. 특히, 직접적인 강화 학습만으로는 견고한 도구 사용 행동을 유도하는 데 실패한다는 점을 발견하고, 콜드 스타트 단계와 강화 학습 단계를 포함하는 2단계 훈련 파이프라인을 제안합니다. 또한, 실제 멀티모달 추론을 평가하기 위한 RealX-Bench를 개발하고, DeepEyesV2를 통해 실제 이해, 수학적 추론, 검색 기반 작업 등에서 효과를 입증했습니다.