본 논문은 적은 데이터와 분포 변화 환경에서 AI 추론 능력을 평가하기 위한 실험적인 테스트베드인 CausalARC를 소개한다. CausalARC는 Abstraction and Reasoning Corpus (ARC)를 모델로 하며, 구조적 인과 모델로 표현된 완전하게 명시된 인과 세계 모델에서 각 추론 작업을 샘플링한다. 소수 샷, 문맥 내 학습 시연 형태로 관찰, 개입, 반사실적 피드백을 제공하는 데이터 증강 기법을 사용한다. 본 연구는 CausalARC를 활용하여 (1) 테스트 시간 훈련을 통한 추상적 추론, (2) 문맥 내 학습을 통한 반사실적 추론, (3) 프로그램 합성, (4) 논리적 추론을 통한 인과 관계 발견 등 네 가지 언어 모델 평가 설정을 예시로 제시한다.