Esta página recopila y organiza artículos sobre inteligencia artificial publicados en todo el mundo. La información aquí presentada se resume utilizando Google Gemini y el sitio se gestiona sin fines de lucro. Los derechos de autor de los artículos pertenecen a sus autores y a las instituciones correspondientes; al compartir el contenido, basta con citar la fuente.
ROSE: Un marco de selección de datos orientado a recompensas para el ajuste de instrucciones específicas de tareas LLM
Created by
Haebom
Autor
Yang Wu, Huayi Zhang, Yizheng Jiao, Lin Ma, Xiaozhong Liu, Jinhong Yu, Dongyu Zhang, Dezhi Yu, Wei Xu
Describir
Este artículo se centra en el problema de la selección de datos para el ajuste fino de instrucciones específicas de la tarea en modelos de lenguaje a gran escala (LLM). Los métodos existentes se basan principalmente en medidas de similitud construidas para seleccionar datos de entrenamiento que coincidan con la distribución de los datos de prueba. Sin embargo, observamos que la pérdida de ajuste fino de instrucciones (pérdida de entropía cruzada para la predicción del siguiente token) en LLM no muestra una relación monótona con el rendimiento real de la tarea. Para abordar esta discrepancia, presentamos la Selección de Datos de Instrucción Orientada a la Recompensa (ROSE), un novedoso método que optimiza la selección de datos para el ajuste fino de instrucciones específicas de la tarea utilizando la pérdida de preferencia por pares como señal de recompensa. ROSE selecciona los puntos de datos de entrenamiento más relevantes aplicando una fórmula de influencia para aproximar la influencia de los puntos de datos de entrenamiento en unos pocos conjuntos de validación de preferencias. Los resultados experimentales demuestran que ROSE logra resultados competitivos en comparación con el ajuste fino con todo el conjunto de datos de entrenamiento, superando a los métodos de selección de datos de vanguardia existentes, incluso al seleccionar solo el 5% de los datos de entrenamiento. El análisis cualitativo confirma la sólida generalización del método en múltiples conjuntos de datos de referencia y diversas arquitecturas de modelos.
Takeaways, Limitations
•
Takeaways:
◦
Presentamos ROSE, un método de selección de datos eficiente para el ajuste fino de directivas específicas de cada tarea.
◦
Abordar la discrepancia entre la pérdida de ajuste fino de la directiva del método existente Limitations y el rendimiento real de la tarea.
◦
Logre un rendimiento similar al ajuste fino utilizando el conjunto de datos completo con solo una pequeña cantidad de datos.
◦
Rendimiento sólido demostrado en diversos conjuntos de datos y arquitecturas de modelos.
•
Limitations:
◦
El rendimiento de ROSE puede depender de la calidad del conjunto de validación de preferencias.
◦
Es necesario validar de manera más amplia el rendimiento de la generalización para tareas específicas o arquitecturas de modelos.
◦
Se necesitan más investigaciones para determinar si el uso de la pérdida de preferencia bidireccional como señal de recompensa es siempre óptimo.