POPGym Arcade는 단일 관측 및 행동 공간을 사용하는 3가지 난이도의 7가지 픽셀 기반 환경으로 구성된 벤치마크입니다. 각 환경은 완전히 관찰 가능한 변형과 부분적으로 관찰 가능한 변형을 모두 제공하여 부분 관찰 가능성에 대한 반사실적 연구를 가능하게 합니다. POPGym Arcade는 하드웨어 가속기에서 JIT 컴파일을 사용하여 CPU 기반 환경보다 상당한 속도 향상을 달성합니다. 또한, 이를 통해 Podracer 스타일 아키텍처를 사용하여 하드웨어 활용률과 학습 속도를 더욱 높일 수 있습니다. 본 논문에서는 Podracer 변형 Q 학습을 사용하여 환경에서 메모리 모델을 평가하고 결과를 검토합니다. 마지막으로, 메모리 중요도 맵을 생성하여 메모리가 정책을 통해 전파되는 방식을 밝힙니다. 소스 코드는 https://github.com/bolt-research/popgym_arcade 에서 이용 가능합니다.