본 논문은 시각, 텍스트, 기호적 양식을 통합하는 화학적 추론 능력을 평가하기 위해 설계된 도메인 기반 벤치마크인 ChemVTS-Bench를 소개합니다. 이 벤치마크는 유기 분자, 무기 물질, 3D 결정 구조 등 다양한 화학 문제를 포함하며, 시각-단독, 시각-텍스트 혼합, SMILES 기반 기호 입력 등 세 가지 입력 모드를 제공합니다. MLLM의 모드 의존적 추론 행동 및 상호 모드 통합을 분석하고 추론, 정답 확인, 실패 모드 진단을 위한 자동화된 에이전트 기반 워크플로우를 개발합니다. 최첨단 MLLM에 대한 실험 결과, 시각적 입력이 여전히 어렵고 구조 화학이 가장 어려운 도메인이며, 멀티모달 융합이 시각적, 지식 기반 또는 논리적 오류를 완화하지만 완전히 제거하지 못한다는 것을 보여줍니다. ChemVTS-Bench는 멀티모달 화학적 추론 연구 발전을 위한 엄격하고 도메인에 충실한 테스트베드로 활용될 것입니다.