인공지능의 급속한 발전에도 불구하고, 현재 시스템은 실제 의사 결정에 필요한 상호 연결된 과제에 어려움을 겪고 있습니다. 비즈니스 관리와 같은 실제 영역에서는 개방적이고 다면적인 목표 최적화, 희소한 경험으로부터 환경 역학 학습, 확률적 환경에서의 장기간 계획, 공간 정보 추론 등이 필요합니다. 그러나 기존의 인간-AI 벤치마크는 이러한 능력의 하위 집합을 분리하여 전체적인 의사 결정 능력을 평가하는 데 한계가 있습니다. 본 논문에서는 에이전트가 환경을 모델링하고, 불확실성 속에서 장기적인 결과를 예측하며, 복잡한 비즈니스를 전략적으로 운영하는 능력을 평가하기 위해 설계된 놀이공원 시뮬레이터인 Mini Amusement Parks (MAPs)를 소개합니다. 인간 기준선을 제공하고 최첨단 LLM 에이전트에 대한 포괄적인 평가를 수행한 결과, 인간이 쉬움 모드에서 6.5배, 중간 모드에서 9.8배 더 나은 성과를 보였습니다. 분석 결과, 장기간 최적화, 샘플 효율적인 학습, 공간 추론 및 세계 모델링에 지속적인 약점이 나타났습니다. MAPs는 이러한 과제를 단일 환경 내에서 통합함으로써 적응형 의사 결정을 수행할 수 있는 에이전트를 벤치마킹하기 위한 새로운 기반을 제공합니다.