본 연구는 텍스트 및 이미지를 이해할 뿐만 아니라 코드 실행 환경 및 웹 검색과 같은 외부 도구를 적극적으로 호출하고 이러한 작업을 추론에 통합하는 에이전트형 멀티모달 모델인 DeepEyesV2를 소개합니다. 데이터 구성, 학습 방법 및 모델 평가 관점에서 DeepEyesV2 구축 방법을 탐구하며, 직접 강화 학습만으로는 견고한 도구 사용 동작을 유도하는 데 실패함을 관찰했습니다. 따라서 도구 사용 패턴을 확립하기 위한 초기 단계와 도구 호출을 추가로 개선하기 위한 강화 학습 단계로 구성된 2단계 학습 파이프라인을 제안합니다. 또한, 지각, 검색 및 추론을 포함한 여러 기능을 통합해야 하는 실제 멀티모달 추론을 평가하기 위해 설계된 종합적인 벤치마크인 RealX-Bench를 개발했습니다. DeepEyesV2는 RealX-Bench 및 기타 대표적인 벤치마크에서 효과를 입증했으며, 작업 적응형 도구 호출을 보여줍니다.