본 논문은 분포 강화 학습(distributional RL) 알고리즘에서 사용되는 기존의 파라메트릭 분포로의 투영 단계가 신경망과 경사 하강법과 결합될 때 강한 귀납적 편향을 초래하여 일반화 성능에 영향을 미친다는 점을 지적합니다. 이를 해결하기 위해, 다양한 투영과 표현을 결합한 분포 앙상블을 제안합니다. 이 앙상블의 이론적 특성을 밝히고, 평균 1-Wasserstein 거리로 측정된 앙상블 불일치를 심층 탐색에 대한 보상으로 사용하는 알고리즘을 제시합니다. Behavior Suite 벤치마크와 VizDoom 환경에서의 실험을 통해 제안된 알고리즘이 기존 방법보다 다양한 작업에서 성능 향상을 보이며, 특히 목표 지향적 탐색 문제에서 현저한 성능 개선을 보임을 확인했습니다.