Daily Arxiv

Esta página recopila y organiza artículos sobre inteligencia artificial publicados en todo el mundo.
La información aquí presentada se resume utilizando Google Gemini y el sitio se gestiona sin fines de lucro.
Los derechos de autor de los artículos pertenecen a sus autores y a las instituciones correspondientes; al compartir el contenido, basta con citar la fuente.

FairPO: Optimización robusta de preferencias para un aprendizaje justo de múltiples etiquetas

Created by
  • Haebom

Autor

Soumen Kumar Mondal, Akshit Varmora, Prateek Chanda, Ganesh Ramakrishnan

Describir

FairPO es un novedoso marco que optimiza directamente las señales de preferencia desde una perspectiva robusta a grupos para mejorar la equidad en la clasificación multietiqueta. Divide el conjunto de etiquetas en grupos privilegiados y no privilegiados y utiliza una pérdida basada en preferencias, inspirada en la Optimización Directa de Preferencias (OPD), para distinguir con mayor eficacia las etiquetas positivas verdaderas de las negativas confusas dentro de los grupos privilegiados, manteniendo al mismo tiempo el rendimiento de clasificación base para las etiquetas no privilegiadas. Al estructurar el problema de aprendizaje como una optimización robusta a grupos, ajusta dinámicamente el énfasis del entrenamiento en los grupos de bajo rendimiento para mitigar el sesgo y garantizar un tratamiento más justo en las diferentes categorías de etiquetas. En el futuro, planeamos explorar formulaciones de pérdida alternativas, como la Optimización Simple de Preferencias (SimPO) y la Optimización Contrastiva de Preferencias (CPO), para aprovechar fórmulas de recompensa sin referencia y señales de entrenamiento contrastivas, y para añadir capacidades de generación multietiqueta para generar dinámicamente conjuntos de etiquetas diversos y consistentes para entradas ambiguas.

Takeaways, Limitations

Takeaways: Se presenta un nuevo marco para mejorar la equidad intergrupal en la clasificación multietiqueta. Utiliza una función de pérdida basada en preferencias para abordar el desequilibrio entre grupos privilegiados y no privilegiados. Utiliza una optimización robusta para enfocar el aprendizaje en grupos de bajo rendimiento. También sugiere posibles extensiones como SimPO y CPO. Se planean capacidades adicionales de generación multietiqueta.
Limitations: Los resultados experimentales del marco propuesto no están disponibles actualmente. Las funciones SimPO, CPO y de generación de etiquetas múltiples se encuentran en fase de planificación. Es posible que falten los criterios para separar grupos privilegiados de los no privilegiados y la definición de robustez de grupo.
👍