본 논문은 시각 언어 모델(VLMs)이 시각적 산술 능력(객체 계산, 길이 비교 등)에서 어려움을 겪는 원인을 조사하고, 이를 해결하기 위한 새로운 사후 훈련 전략인 CogAlign을 제안합니다. CogAlign은 피아제의 인지 발달 이론에서 영감을 받아 시각적 변환에 불변하는 속성을 인식하도록 VLMs를 훈련시킵니다. 실험 결과, CogAlign은 세 가지 다양한 VLMs의 시각적 산술 능력을 향상시키고, CHOCOLATE 및 MATH-VISION 데이터셋에서 기존 방법들보다 우수하거나 동등한 성능을 보이며, 훈련 데이터를 60% 적게 사용함을 보여줍니다.