Daily Arxiv

Esta página recopila y organiza artículos sobre inteligencia artificial publicados en todo el mundo.
La información aquí presentada se resume utilizando Google Gemini y el sitio se gestiona sin fines de lucro.
Los derechos de autor de los artículos pertenecen a sus autores y a las instituciones correspondientes; al compartir el contenido, basta con citar la fuente.

Mitigación del sesgo de género mediante el fomento del pensamiento exploratorio en los LLM

Created by
  • Haebom

Autor

Kangda Wei, Hasnat Md Abdullah, Ruihong Huang

Describir

Este artículo propone un nuevo marco de generación de datos que promueve el pensamiento exploratorio para abordar el problema del sesgo de género en modelos lingüísticos a gran escala (LLM). Este método genera pares de escenarios moralmente ambiguos, estructuralmente idénticos, con protagonistas masculinos y femeninos, compara sus juicios morales y guía al modelo para generar juicios equilibrados y neutrales en cuanto al género cuando surgen discrepancias. Estos pares de historia-juicio se utilizan para ajustar u optimizar el modelo mediante la Optimización de Preferencias Directas (OPD). Los resultados experimentales demuestran que el método propuesto reduce significativamente el sesgo de género, a la vez que mantiene o mejora el rendimiento general del modelo. El código y los datos generados están disponibles públicamente.

Takeaways, Limitations

Takeaways:
Un nuevo enfoque para abordar el sesgo de género en los LLM
Presentamos una estrategia de generación de datos y entrenamiento de modelos utilizando el pensamiento exploratorio.
Aprovechar la DPO para reducir el sesgo de género y mejorar el rendimiento del modelo
Garantizar la reproducibilidad y capacidad de expansión de la investigación mediante la divulgación de los datos y códigos generados.
Limitations:
Se necesitan más investigaciones para determinar la generalización del método propuesto.
Es necesario verificar la eficacia de la mitigación del sesgo entre los diversos géneros y orígenes culturales.
Se necesitan más investigaciones sobre la aplicabilidad de este estudio a otros tipos de sesgo (raza, religión, etc.).
El DPO necesita mejorar su coste computacional y su eficiencia.
👍