본 논문은 대규모 다중 모달 모델에서 이미지 기반 도구와 강화 학습을 활용한 시각적 문제 해결의 한계를 다룹니다. 기존 오픈소스 접근 방식은 단조로운 추론 패턴과 제한된 상호 작용 턴 수로 인해 시행착오 탐색이 필요한 어려운 작업에는 부적합합니다. 이를 해결하기 위해 본 연구는 도구 기반 상호 작용을 확장한 Mini-o3 시스템을 제시합니다. Mini-o3는 수십 단계에 걸친 심층적이고 다중 턴 추론을 실행하여 까다로운 시각적 검색 작업에서 최첨단 성능을 달성합니다. OpenAI o3 스타일의 동작을 재현하기 위한 세 가지 핵심 구성 요소는 다음과 같습니다. 첫째, 탐색적 추론을 위해 설계된 수천 개의 어려운 시각적 검색 문제 모음인 Visual Probe Dataset을 구성합니다. 둘째, 깊이 우선 탐색, 시행착오, 목표 유지 등 다양한 추론 패턴을 보이는 콜드 스타트 경로를 얻기 위한 반복적인 데이터 수집 파이프라인을 개발합니다. 셋째, 강화 학습 중에 과도한 턴 응답(최대 턴 수에 도달한 응답)에 대한 패널티를 방지하는 과도한 턴 마스킹 전략을 제안하여 훈련 시간 효율성과 테스트 시간 확장성 간의 균형을 맞춥니다. 단 6번의 상호 작용 턴 상한선으로 훈련되었음에도 불구하고, 본 모델은 추론 시 자연스럽게 수십 턴으로 확장되는 경로를 생성하며, 정확도는 턴 수가 증가함에 따라 향상됩니다. 광범위한 실험을 통해 Mini-o3가 풍부한 추론 패턴과 심층적인 사고 경로를 생성하여 어려운 시각적 검색 문제를 효과적으로 해결함을 보여줍니다.