CSVQA: A Chinese Multimodal Benchmark for Evaluating STEM Reasoning Capabilities of VLMs
Created by
Haebom
저자
Ai Jian, Weijie Qiu, Xiaokun Wang, Peiyu Wang, Yunzhuo Hao, Jiangbo Pei, Yichen Wei, Yi Peng, Xuchen Song
개요
본 논문은 과학적 추론 능력 평가를 위한 새로운 다중 모드 벤치마크인 CSVQA를 제시합니다. 기존의 다중 모드 벤치마크가 일반적인 이미지 이해나 텍스트 기반 추론에 집중하는 것과 달리, CSVQA는 다양한 STEM 분야를 아우르는 1,378개의 질문-답변 쌍을 통해 도메인 특화 지식과 시각적 증거 분석을 통합한 고차원 추론 능력을 평가합니다. 실제 과학적 내용과 복잡한 추론에 중점을 두고 있으며, 검증된 중간 추론 단계를 기반으로 모델 예측을 체계적으로 평가하는 엄격한 평가 프로토콜을 제안합니다. 15개의 VLM에 대한 종합적인 평가 결과, 최고 성능 모델조차도 49.6%의 정확도에 그쳐, VLM의 과학적 추론 능력 향상의 필요성을 강조합니다. CSVQA 데이터셋은 Hugging Face에서 공개됩니다.
시사점, 한계점
•
시사점: 과학적 추론 능력 평가를 위한 새로운 벤치마크 CSVQA 제시. 기존 벤치마크의 한계를 극복하고 실제 과학적 맥락에서의 VLM 성능 평가 가능. VLM의 과학적 추론 능력 향상 필요성을 실증적으로 제시. 다양한 STEM 분야를 아우르는 풍부한 데이터셋 제공.
•
한계점: 최고 성능 모델의 정확도가 50% 미만으로, VLM의 과학적 추론 능력이 아직 미흡함을 보여줌. 벤치마크의 질문-답변 쌍이 1,378개로 상대적으로 적을 수 있음. 평가 프로토콜의 엄격성에도 불구하고, 모델의 추론 과정의 완벽한 검증은 어려울 수 있음.