ARC-AGI와 ARC-AGI-2는 색상 양자화된 작은 그리드에서 구성적 일반화를 측정하며, 경쟁을 통해 체계적 일반화의 발전을 이끌어낸다. 본 논문에서는 그리드를 자연어 또는 DSL 규칙으로 변환하는 instruction-first 시스템의 인코딩 방식이 모델의 인식에 미치는 영향과, instruction 오류와 execution 오류를 분리하는 방법을 연구한다. 텍스트는 2D 구조를 1D 토큰으로, 이미지는 레이아웃을 보존하지만 패치 크기 aliasing을 유발하는 modality가 지각적 병목 현상을 유발한다고 가정하고, 가중치 집합 불일치 메트릭과 2단계 추론 파이프라인을 사용하여 9가지 텍스트 및 이미지 modality에서 인식과 추론을 분리했다. 그 결과, 구조화된 텍스트는 희소한 특징에 대해 정확한 좌표를 제공하고, 이미지는 2D 모양을 포착하지만 해상도에 민감하며, 이들을 결합하면 실행이 개선된다는 것을 발견했다.