본 논문은 정량적 화학 문제 해결 능력을 평가하기 위한 새로운 벤치마크인 QCBench를 제안합니다. QCBench는 분석 화학, 생화학/유기화학, 일반 화학, 무기화학, 물리화학, 고분자 화학, 양자화학 등 7개 화학 하위 분야에 걸쳐 350개의 계산 화학 문제를 포함하고 있으며, 기본, 중급, 전문가 수준으로 계층화되어 있습니다. 각 문제는 실제 화학 분야에 뿌리를 둔 순수 계산에 중점을 두고 있으며, 단계적인 수치적 추론을 강조하여 지름길을 최소화하도록 설계되었습니다. 19개의 LLM을 평가한 결과, 과제의 복잡성이 증가함에 따라 성능이 일관되게 저하되는 것을 보여주었으며, 언어 유창성과 과학적 계산 정확도 사이의 현재 격차를 강조합니다. QCBench는 계산상의 약점을 세밀하게 진단하고, 난이도 수준에 따른 모델별 한계를 드러내며, 도메인 적응적 미세 조정이나 다중 모드 통합과 같은 향후 개선을 위한 기반을 마련합니다.