Este artículo presenta el Aprendizaje por Refuerzo Inverso de Diversidad de Calidad (QD-IRL), un novedoso marco que integra la optimización de Diversidad de Calidad (QD) con el Aprendizaje por Refuerzo Inverso (IRL) para superar las limitaciones del aprendizaje de políticas de un solo experto y aprender comportamientos diversos y robustos. Específicamente, presentamos la Curiosidad Conductual Extrínseca (EBC), que proporciona recompensas adicionales por curiosidad basadas en la novedad de un comportamiento en comparación con el archivo de comportamiento existente. Experimentos en diversas tareas de locomoción robótica demuestran que el EBC mejora el rendimiento de algoritmos QD-IRL como GAIL, VAIL y DiffAIL hasta en un 185%, y supera el rendimiento de expertos hasta en un 20% en un entorno humanoide. Además, demostramos que el EBC es aplicable a algoritmos de aprendizaje por refuerzo QD basados en arborescencia de gradiente y es una técnica general que mejora significativamente el rendimiento. El código fuente está disponible en GitHub.