CSVQA: A Chinese Multimodal Benchmark for Evaluating STEM Reasoning Capabilities of VLMs
Created by
Haebom
저자
Ai Jian, Weijie Qiu, Xiaokun Wang, Peiyu Wang, Yunzhuo Hao, Jiangbo Pei, Yichen Wei, Yi Peng, Xuchen Song
개요
본 논문은 과학적 추론 능력 평가를 위한 새로운 다중 모달 벤치마크인 CSVQA를 제시합니다. 기존의 다중 모달 벤치마크들이 일반적인 이미지 이해나 텍스트 기반 추론에 초점을 맞춘 것과 달리, CSVQA는 다양한 STEM 분야를 아우르는 1,378개의 질문-답변 쌍을 통해 도메인 특화 지식과 시각적 증거 분석을 통합한 고차원 추론 능력을 평가합니다. 실제 과학적 콘텐츠와 복잡한 추론에 중점을 두고 있으며, 검증된 중간 추론 단계를 기반으로 모델 예측의 타당성을 체계적으로 평가하는 엄격한 평가 프로토콜을 제안합니다. 15개의 VLM을 대상으로 한 실험 결과, 최고 성능 모델조차도 49.6%의 정확도에 그쳐 VLM의 과학적 추론 능력 향상의 필요성을 강조합니다. CSVQA 데이터셋은 Hugging Face에서 공개됩니다.
시사점, 한계점
•
시사점: 과학적 추론 능력 평가를 위한 새로운 벤치마크 CSVQA 제시. 기존 벤치마크의 한계를 극복하고 실제 과학적 맥락에서의 VLM 성능 평가 가능. VLM의 과학적 추론 능력의 현 수준과 향상의 필요성을 제시. 다양한 STEM 분야를 포함하는 풍부한 데이터셋 제공.
•
한계점: 최고 성능 모델의 정확도가 50% 미만으로, VLM의 과학적 추론 능력이 아직 미흡함을 보여줌. 벤치마크의 범위가 특정 STEM 분야에 국한될 수 있음. 평가 프로토콜의 엄격성에도 불구하고, 인간 수준의 과학적 추론을 완벽하게 반영하지 못할 가능성 존재.