본 논문은 Transformer 기반 모델이 시스템 2 추론에서 여전히 부족하며, 인간-AI 조율에 필요한 일반성과 적응성이 부족함을 지적한다. ARC-AGI 과제에서의 약점을 조사하여 구성적 일반화 및 새로운 규칙 적응의 차이점을 밝히고, 이러한 차이점을 해소하려면 추론 파이프라인과 그 평가를 개편해야 한다고 주장한다. 구성적 일반성을 위한 기호 표현 파이프라인, 적응성을 위한 상호 작용 피드백 기반 추론 루프, 그리고 두 가지 특성을 모두 균형 있게 고려하는 테스트 시간 과제 증강이라는 세 가지 연구 방향을 제시한다. 마지막으로, ARC-AGI의 평가 도구를 사용하여 기호적 일반성, 피드백 기반 적응성 및 과제 수준의 강건성에서의 진전을 추적하여 강력한 인간-AI 조율에 대한 향후 연구를 안내하는 방법을 보여준다.