[공지사항]을 빙자한 안부와 근황 
Show more

Daily Arxiv

Esta página recopila y organiza artículos sobre inteligencia artificial publicados en todo el mundo.
La información aquí presentada se resume utilizando Google Gemini y el sitio se gestiona sin fines de lucro.
Los derechos de autor de los artículos pertenecen a sus autores y a las instituciones correspondientes; al compartir el contenido, basta con citar la fuente.

IOPO: Capacitar a los LLM con el seguimiento de instrucciones complejas mediante la optimización de preferencias de entrada-salida

Created by
  • Haebom

Autor

Xinghua Zhang, Haiyang Yu, Cheng Fu, Fei Huang, Yongbin Li

Describir

En este artículo, proponemos un método de referencia TRACE para mejorar la capacidad de seguimiento de instrucciones complejas de los modelos de lenguaje a gran escala (LLM), así como un método de alineación IOPO que considera tanto las instrucciones como las preferencias de respuesta. TRACE consta de 120 000 datos de entrenamiento y 1000 datos de evaluación, e IOPO utiliza pares de preferencias de entrada y salida para que los LLM se adapten rápidamente a las preferencias de respuesta, a la vez que exploran con precisión las preferencias de instrucción. Los resultados experimentales muestran que IOPO mejora el rendimiento en un 8,15 % y un 2,18 % con datos dentro del dominio, y en un 6,29 % y un 3,13 % con datos fuera del dominio, en comparación con los métodos SFT y DPO existentes.

Takeaways, Limitations

Takeaways:
TRACE, un nuevo punto de referencia para evaluar y mejorar la capacidad de seguir instrucciones complejas
Proponer un método de clasificación eficaz IOPO que considere tanto las preferencias de entrada como las de salida
Verificar experimentalmente el rendimiento superior de IOPO (confirmando la mejora del rendimiento en datos dentro y fuera del dominio)
Limitations:
TRACE aún puede tener una escala limitada (120 000 datos de entrenamiento, 1000 datos de evaluación)
Se necesita más investigación sobre el rendimiento de generalización de IOPO.
Posible falta de evaluación exhaustiva de los distintos tipos de instrucciones complejas
👍