본 논문은 희소 심층 강화 학습 에이전트가 밀집 에이전트와 경쟁력을 갖는다는 최근 연구 결과를 바탕으로, 추론 시간 및 메모리 요구사항이 비용에 민감하거나 하드웨어에 의해 제한되는 분야에서 강화 학습 응용 프로그램의 기회를 제시합니다. 기존의 밀집-희소 방법은 에이전트의 학습 속도와 동기화되지 않은 수동으로 설계된 희소성 일정에 의존하며, 최종 희소성 수준은 하이퍼파라미터로 선택되어 세심한 조정이 필요했습니다. 본 논문에서는 Eau De $Q$-Network (EauDeQN)이라는 밀집-희소 알고리즘을 제시하여 이러한 단점을 해결합니다. 에이전트의 학습 속도에 맞춰 희소성을 높이기 위해, 서로 다른 희소성 수준을 갖는 여러 개의 온라인 네트워크를 사용하며, 각 온라인 네트워크는 공유 목표 네트워크로부터 학습합니다. 각 목표 업데이트에서 손실이 가장 작은 온라인 네트워크가 다음 목표 네트워크로 선택되고, 다른 네트워크는 선택된 네트워크의 가지치기된 버전으로 대체됩니다. Atari 2600 벤치마크와 MuJoCo 물리 시뮬레이터에서 제안된 방법을 평가하여 EauDeQN이 높은 희소성 수준을 달성하면서도 높은 성능을 유지함을 보여줍니다.