FairPO es un novedoso marco que optimiza directamente las señales de preferencia desde una perspectiva robusta a grupos para mejorar la equidad en la clasificación multietiqueta. Divide el conjunto de etiquetas en grupos privilegiados y no privilegiados y utiliza una pérdida basada en preferencias, inspirada en la Optimización Directa de Preferencias (OPD), para distinguir con mayor eficacia las etiquetas positivas verdaderas de las negativas confusas dentro de los grupos privilegiados, manteniendo al mismo tiempo el rendimiento de clasificación base para las etiquetas no privilegiadas. Al estructurar el problema de aprendizaje como una optimización robusta a grupos, ajusta dinámicamente el énfasis del entrenamiento en los grupos de bajo rendimiento para mitigar el sesgo y garantizar un tratamiento más justo en las diferentes categorías de etiquetas. En el futuro, planeamos explorar formulaciones de pérdida alternativas, como la Optimización Simple de Preferencias (SimPO) y la Optimización Contrastiva de Preferencias (CPO), para aprovechar fórmulas de recompensa sin referencia y señales de entrenamiento contrastivas, y para añadir capacidades de generación multietiqueta para generar dinámicamente conjuntos de etiquetas diversos y consistentes para entradas ambiguas.