본 논문은 비전 트랜스포머(ViT)가 추상적 추론 코퍼스(ARC) 벤치마크에서 저조한 성능을 보이는 이유를 분석하고, 이를 개선한 ViTARC 모델을 제시한다. 기존 ViT는 ARC 과제에서 백만 개의 예제로 학습하더라도 대부분의 과제에서 실패하는데, 이는 ViT 아키텍처의 표현 능력 부족 때문이다. 이에 연구진은 픽셀 단위 입력 표현, 공간 인식 토큰화 기법, 자동 분할을 활용한 객체 기반 위치 인코딩 등을 도입한 ViTARC를 제안한다. ViTARC는 지도 학습만으로 400개의 공개 ARC 과제 중 절반 이상에서 100%에 가까운 해결률을 달성하며, 풍부한 데이터와 잡음 없는 매핑에도 추상적 시각 추론을 위한 적절한 귀납적 편향이 중요함을 시사한다.