본 논문은 고급 AI 추론 능력을 평가하기 위한 새로운 벤치마크인 ChemO를 소개합니다. ChemO는 2025년 국제 화학 올림피아드(IChO)를 기반으로 구축되었으며, 시각적 출력을 계산 가능한 형식으로 변환하는 Assessment-Equivalent Reformulation (AER)과 모델의 시각적 인식 능력과 핵심 화학적 추론을 분리하는 Structured Visual Enhancement (SVE)를 특징으로 합니다. ChemO 해결을 위해, 문제 분해, 인식, 추론 및 감사를 위한 전문 에이전트를 통해 인간 전문가 협업을 모방하는 계층적 멀티 에이전트 프레임워크인 ChemLabs를 제안합니다. 최첨단 멀티모달 모델에 대한 실험 결과, SVE와 멀티 에이전트 시스템을 결합하여 획기적인 성능 향상을 얻었으며, 최고 구성은 93.6/100 점을 달성하여 인간 금메달 기준을 넘어섰습니다.