Vision-Language Models (VLMs)의 공간적 추론 및 기하학적 이해 부족 문제를 해결하기 위해, 2D 외관, 3D 기하, 공간 배치, 에지 구조 등 다양한 시각적 정보를 담은 연속적인 시각 토큰을 활용하는 Chain-of-Visual-Thought (COVT) 프레임워크를 제안합니다. COVT는 소수의 토큰으로 경량 시각 전문가의 지식을 추출하고, 이를 통해 VLM이 단어뿐 아니라 시각적 토큰 공간에서 추론할 수 있도록 하여, 다양한 시각적 벤치마크에서 기존 VLM의 성능을 향상시켰습니다.