GPT-5, Grok 4와 같은 최첨단 모델조차 최소한의 예시로부터 구조화된 변환 규칙을 추론하는 데 실패하는 문제를 해결하기 위해, 본 논문은 시각적 추상화와 언어적 추론의 시너지를 활용하는 새로운 접근 방식을 제시한다. Abstraction and Reasoning Corpus for Artificial General Intelligence (ARC-AGI)를 연구 대상으로 삼아, 시각 정보가 전반적인 패턴 추상화와 검증에, 언어 정보가 기호적 규칙 공식화와 정확한 실행에 강점을 가짐을 발견했다. Vision-Language Synergy Reasoning (VLSR)과 Modality-Switch Self-Correction (MSSC) 전략을 통해, 텍스트 기반 접근 방식 대비 최대 4.33% 성능 향상을 달성했다.