본 논문은 Civilization V를 모티브로 한 강화 학습 연구를 위한 새로운 종합 과제 환경(CCE)인 Terra Nova를 소개합니다. CCE는 부분 관찰, 신용 할당, 표현 학습, 방대한 행동 공간 등 여러 일반적인 강화 학습 과제가 동시에 발생하는 단일 환경입니다. 따라서 Terra Nova에서의 숙달은 상호 작용하는 많은 변수 전반에 걸쳐 통합적이고 장기적인 이해를 요구합니다. 이 정의는 독립적이고 병렬적인 스트림에서 관련 없는 작업을 집계하는 과제는 포함하지 않습니다. 이러한 집계된 다중 작업 벤치마크는 주로 에이전트가 관련 없는 정책을 카탈로그화하고 전환할 수 있는지 평가하는 반면, 여러 상호 작용하는 과제에 걸쳐 에이전트의 깊이 있는 추론 능력을 테스트하지는 않습니다.