본 논문은 새로운 정책 증류 방법인 근접 정책 증류(Proximal Policy Distillation, PPD)를 제안합니다. PPD는 학생 주도 증류와 근접 정책 최적화(Proximal Policy Optimization, PPO)를 통합하여 표본 효율을 높이고 증류 과정에서 학생 정책이 추가적으로 수집하는 보상을 활용합니다. ATARI, MuJoCo, Procgen 등 다양한 강화 학습 환경(이산 행동 및 연속 제어 포함)에서 기존의 학생-증류 및 교사-증류 방법과 PPD를 비교 평가했습니다. 교사 네트워크보다 작거나, 동일하거나, 큰 다양한 크기의 학생 신경망을 대상으로 증류를 수행했습니다. 실험 결과, PPD는 기존 정책 증류 방법보다 표본 효율이 높고 성능이 우수한 학생 정책을 생성하며, 불완전한 데모로부터 정책을 증류할 때 더욱 강건함을 보였습니다. sb3-distill이라는 새로운 파이썬 라이브러리를 통해 코드를 공개했습니다.