Sign In

Why Vision Language Models Struggle with Visual Arithmetic? Towards Enhanced Chart and Geometry Understanding

Created by
  • Haebom
Category
Empty

저자

Kung-Hsiang Huang, Can Qin, Haoyi Qiu, Philippe Laban, Shafiq Joty, Caiming Xiong, Chien-Sheng Wu

개요

본 논문은 시각 언어 모델(VLMs)이 시각적 산술 능력(객체 계산, 길이 비교 등)에서 어려움을 겪는 원인을 조사하고, 이를 해결하기 위한 새로운 사후 훈련 전략인 CogAlign을 제안합니다. CogAlign은 피아제의 인지 발달 이론에서 영감을 받아 시각적 변환에 불변하는 속성을 인식하도록 VLMs를 훈련시킵니다. 실험 결과, CogAlign은 세 가지 다양한 VLMs의 시각적 산술 능력을 향상시키고, CHOCOLATE 및 MATH-VISION 데이터셋에서 기존 방법들보다 우수하거나 동등한 성능을 보이며, 훈련 데이터를 60% 적게 사용함을 보여줍니다.

시사점, 한계점

시사점:
VLMs의 시각적 산술 능력 부족의 원인을 분석하고, 이를 개선하는 효과적인 방법인 CogAlign을 제시했습니다.
CogAlign은 기존의 지도 학습 방식보다 적은 데이터로도 우수한 성능을 달성합니다.
CogAlign은 다양한 VLMs에 적용 가능하며, downstream task의 성능 향상에도 기여합니다.
피아제의 인지 발달 이론을 VLMs 훈련에 적용하여 새로운 관점을 제시했습니다.
한계점:
CogAlign의 효과가 모든 종류의 시각적 산술 문제에 일반화되는지 추가적인 연구가 필요합니다.
제안된 probing task의 종류와 범위가 충분한지 검토가 필요합니다.
더욱 복잡하고 다양한 downstream task에 대한 성능 평가가 필요합니다.
👍