Este artículo propone un nuevo marco de generación de datos que promueve el pensamiento exploratorio para abordar el problema del sesgo de género en modelos lingüísticos a gran escala (LLM). Este método genera pares de escenarios moralmente ambiguos, estructuralmente idénticos, con protagonistas masculinos y femeninos, compara sus juicios morales y guía al modelo para generar juicios equilibrados y neutrales en cuanto al género cuando surgen discrepancias. Estos pares de historia-juicio se utilizan para ajustar u optimizar el modelo mediante la Optimización de Preferencias Directas (OPD). Los resultados experimentales demuestran que el método propuesto reduce significativamente el sesgo de género, a la vez que mantiene o mejora el rendimiento general del modelo. El código y los datos generados están disponibles públicamente.