멀티모달 대규모 언어 모델(MLLM)은 기하 추론에서 여전히 어려움을 겪고 있다. 텍스트 추론 능력이 뛰어난 최첨단 시스템조차 기하 문제를 신뢰성 있게 해결하는 데 어려움을 겪는다는 점은 시각적 이해가 병목 현상임을 시사한다. 본 논문에서는 시각적 콘텐츠를 캡션으로 변환하는 캡션 지원 추론 프레임워크 CapGeo를 소개한다. 실험 결과, 캡션을 사용했을 때 Qwen2.5-VL-72B는 8.6%에서 59.0%로, Claude-Opus-4는 44.8%에서 73.0%로 성능이 향상되었다. 또한, 4,641개의 엄선된 그림-캡션 쌍으로 구성된 CapGeo-Bench 데이터셋과 다운스트림 CapGeo 성능과 강한 상관관계를 보이는 키포인트 기반 평가 지표를 제안한다.