The Role of Visual Modality in Multimodal Mathematical Reasoning: Challenges and Insights
Created by
Haebom
Category
Empty
저자
Yufang Liu, Yao Du, Tao Ji, Jianing Wang, Yang Liu, Yuanbin Wu, Aimin Zhou, Mengdi Zhang, Xunliang Cai
개요
본 논문은 다중 모드 수학 추론에서 시각 정보의 역할이 과소평가되었다는 점을 지적하며, 기존 다중 모드 수학 모델들이 시각 정보를 최소한으로 활용하고 이미지의 변경이나 제거에도 성능 변화가 거의 없음을 밝힙니다. 이는 주로 텍스트 정보와 답변 옵션이 모델을 정답으로 유도하기 때문이라고 분석합니다. 이러한 문제를 해결하기 위해, 문제 해결에 이미지 의존성이 필수적이고, 미묘한 시각적 차이가 정답을 바꾸는 유사하지만 다른 이미지들을 포함하는 HC-M3D 데이터셋을 제시합니다. 주요 모델들을 테스트한 결과, 이러한 미묘한 시각적 차이를 감지하지 못하는 한계를 보였으며, 다양한 이미지 인코더 결합을 통한 일반적인 VQA 성능 향상이 수학 추론 성능에는 기여하지 못함을 확인했습니다. 본 연구는 향상된 평가 방법과 HC-M3D 데이터셋을 제공하며, GitHub에서 코드를 공개합니다.