본 논문은 대규모 다중 모달 모델(LMMs)의 과학적 문제 해결 능력을 종합적으로 평가하기 위한 다중 모달 과학 평가 벤치마크인 SciVerse를 제시합니다. SciVerse는 5가지 버전으로 나뉘어 총 5,735개의 테스트 인스턴스를 통해 LMMs의 과학적 지식 이해, 다중 모달 콘텐츠 해석, 그리고 사고 연쇄(CoT) 추론 능력을 평가합니다. 각 문제는 지식 요구 수준에 따라 지식-없음, 지식-간략, 지식-풍부 버전으로 나뉘며, 시각 정보 활용 정도에 따라 시각-풍부, 시각-전용 버전으로도 나뉩니다. 또한, 모델 출력의 지식 및 논리적 오류에 대한 단계별 평가를 수행하는 새로운 과학적 CoT 평가 전략을 제시합니다. 다양한 LMMs에 대한 SciVerse 상의 광범위한 평가는 LMMs의 과학적 숙련도에 대한 중요한 한계를 밝히고 향후 발전에 대한 새로운 통찰력을 제공합니다.