본 논문은 기존 강화학습(Reinforcement Learning, RL) 알고리즘이 데이터 분포를 균일하다고 가정하는 한계를 지적하며, 실제 자율주행이나 동물의 자연 서식과 같이 Zipfian 분포를 따르는 데이터에 대한 학습을 개선하는 새로운 아키텍처를 제안합니다. Zipfian 분포란 빈번한 경험과 드문 경험이 공존하는 분포를 의미합니다. 제안된 아키텍처는 중요한 긴 꼬리(long tail) 궤적을 비지도 학습 방식으로 발견하는 보조 기억 장치(episodic memory buffer)와 우선 순위 메모리 모듈을 포함합니다. 이를 통해 드문 중요 궤적을 오랫동안 보존하여 표본 효율적인 크레딧 할당을 가능하게 합니다. 경험은 보조 기억 장치에서 재현되어 가중치가 부여되고, 이를 통해 궤적이 실행됩니다. 모듈식 설계로 기존 RL 아키텍처에 통합 가능하며, 여러 Zipfian 작업에서 기존 아키텍처보다 성능이 향상됩니다. 특히 IMPALA보다 세 가지 작업과 세 가지 평가 지표(Zipfian, Uniform, Rare Accuracy) 모두에서 상당한 성능 향상을 보였으며, 어려운 Atari 환경에서도 성능 개선을 보였습니다.