POPGym Arcade는 단일 관측 및 행동 공간을 사용하는 3가지 난이도의 7가지 픽셀 기반 환경으로 구성된 벤치마크입니다. 각 환경은 완전 관측 가능 및 부분 관측 가능 변형을 제공하여 부분 관측 가능성에 대한 반실험적 연구를 가능하게 합니다. 하드웨어 가속기를 이용한 JIT 컴파일을 통해 CPU 기반 환경보다 상당한 속도 향상을 달성합니다. 또한, Podracer 스타일 아키텍처를 통해 하드웨어 활용률과 학습 속도를 더욱 높일 수 있습니다. Podracer 변형 Q 학습을 사용하여 환경에서 메모리 모델을 평가하고 결과를 검토하며, 메모리 중요도 맵을 생성하여 정책을 통해 메모리가 어떻게 전파되는지 밝힙니다. GitHub에서 이용 가능합니다.