NGU 알고리즘은 에피소드적 참신함과 내적 동기를 결합하여 희소 보상 환경에서 효과적인 것으로 입증되었습니다. 본 연구에서는 NGU를 다중 에이전트 환경으로 확장하고 PettingZoo의 simple_tag 환경에서 성능을 평가했습니다. 다중 에이전트 DQN 기반 모델과 비교하여 NGU는 약간 높은 반환값과 더 안정적인 학습 역학을 달성했습니다. 세 가지 설계 선택 사항을 조사했습니다: (1) 공유 리플레이 버퍼 대 개별 리플레이 버퍼, (2) 서로 다른 k 임계값을 사용하여 에이전트 간 에피소드적 참신함 공유, (3) 이질적인 베타 값 사용.