COGITAO는 시각 영역에서 구성성과 일반화를 체계적으로 연구하기 위해 설계된 모듈식이고 확장 가능한 데이터 생성 프레임워크이자 벤치마크입니다. ARC-AGI의 문제 설정에서 영감을 얻어, 격자 환경에서 객체에 변환 집합을 적용하는 규칙 기반 작업을 구성합니다. 28개의 상호 운용 가능한 변환에 대해 조정 가능한 깊이로 구성을 지원하며, 격자 매개변수 및 객체 속성에 대한 광범위한 제어 기능을 제공합니다. 이러한 유연성을 통해 수백만 개의 고유한 작업 규칙(기존 데이터셋보다 몇 배 더 많음)을 다양한 난이도로 생성하고, 규칙당 사실상 무제한의 샘플 생성을 허용합니다. 최첨단 비전 모델을 사용한 기준 실험을 통해, 우수한 도메인 내 성능에도 불구하고 익숙한 요소의 새로운 조합으로 일반화하는 데 지속적으로 실패하는 것을 보여줍니다. COGITAO는 모든 코드와 데이터셋을 포함하여 완전히 오픈소스로 제공되어 이 분야의 지속적인 연구를 지원합니다.