본 논문은 단일 전문가 정책 학습의 한계를 극복하고 다양하고 견고한 행동을 학습하기 위해, Quality Diversity (QD) 최적화를 역강화 학습(IRL) 방법과 통합한 새로운 프레임워크인 Quality Diversity Inverse Reinforcement Learning (QD-IRL)을 제시합니다. 특히, 외적 행동 호기심(Extrinsic Behavioral Curiosity, EBC)을 도입하여, 기존 행동 아카이브와 비교하여 얼마나 새로운 행동인지에 따라 추가적인 호기심 보상을 제공합니다. 여러 로봇 이동 작업에 대한 실험을 통해 EBC가 GAIL, VAIL, DiffAIL과 같은 QD-IRL의 성능을 최대 185%까지 향상시키고, Humanoid 환경에서는 전문가 성능을 20%까지 능가함을 보여줍니다. 또한, EBC가 Gradient-Arborescence 기반 QD 강화 학습 알고리즘에도 적용 가능하며, 성능을 크게 향상시키는 일반적인 기술임을 증명합니다. 소스 코드는 GitHub에서 공개됩니다.