본 논문은 강화학습에서 제로샷 정책 전이 설정 하에, 훈련 환경에서 학습된 에이전트가 유사하지만 미지의 테스트 환경에 일반화될 수 있도록 하는 것을 목표로 합니다. 기존 연구는 훈련 후 정책 증류가 테스트 환경에서 원래 정책보다 성능이 향상되는 경우가 있음을 보였지만, 그 이유와 정책 증류에 사용해야 하는 데이터에 대한 명확한 설명은 부족했습니다. 본 논문에서는 특정 가정 하에 훈련 후 정책 증류에 대한 일반화 경계를 증명합니다. 이론적으로는 일반화 개선을 위해 1) 증류된 정책의 앙상블을 훈련하고, 2) 훈련 환경의 가능한 한 많은 데이터를 사용하여 증류해야 함을 시사합니다. 실험적으로 이러한 통찰력이 이론적 가정이 더 이상 성립하지 않는 일반적인 설정에서도 유지됨을 확인했습니다. 마지막으로, 다양한 데이터셋에서 증류된 정책 앙상블이 원래 에이전트보다 훨씬 더 나은 일반화 성능을 보임을 보여줍니다.