본 논문은 고정밀 시뮬레이터와 강화학습(RL)을 사용하는 최근 로봇 학습 연구와 달리, 추상적인 정신 모델을 사용하여 복잡한 작업을 수행하는 사람들의 팀 협업에 주목합니다. 추상적 시뮬레이터를 사용한 다중 에이전트 강화 학습(MARL)의 가능성과 실제 로봇 팀에 성공적으로 적용될 수 있는 정책을 연구합니다. 추상적 시뮬레이터는 로봇의 목표 작업을 고차원적으로 모델링하고 최적 의사 결정에 영향을 미칠 수 있는 많은 세부 사항을 생략합니다. 정책은 추상적 시뮬레이터에서 훈련되고, 별도로 얻은 저수준 인지 및 동작 제어 모듈을 사용하여 실제 로봇에 전달됩니다. 정책 전달을 가능하게 하는 추상적 시뮬레이터의 세 가지 주요 수정 사항(시뮬레이션 충실도 향상, 훈련 최적화, 시뮬레이션 확률성)을 제시하고, 협력 로봇 축구 작업에서 각 수정 사항의 가치를 결정하기 위해 광범위한 절제 연구를 수행합니다. 또한, 제안된 방법으로 생성된 정책의 성능을 연례 로보컵 대회의 잘 조정된 비학습 기반 행동 아키텍처와 비교하여, 제안된 접근 방식이 유사한 수준의 성능을 달성함을 보여줍니다. 결론적으로, 본 논문은 고도로 추상적인 세계 모델을 사용하여 협력적인 실제 로봇 행동을 훈련하는 데 MARL을 사용할 수 있음을 보여줍니다.