Daily Arxiv

Esta página recopila y organiza artículos sobre inteligencia artificial publicados en todo el mundo.
La información aquí presentada se resume utilizando Google Gemini y el sitio se gestiona sin fines de lucro.
Los derechos de autor de los artículos pertenecen a sus autores y a las instituciones correspondientes; al compartir el contenido, basta con citar la fuente.

Impulsando la escritura creativa en modelos de lenguaje pequeños: LLM como juez versus recompensas refinadas con múltiples agentes

Created by
  • Haebom

Autor

Xiaolong Wei, Bo Lu, Xingyu Zhang, Zhejun Zhao, Dongdong Shen, Long Xia, Dawei Yin

Describir

Este artículo presenta un enfoque basado en el aprendizaje por refuerzo para mejorar la capacidad de escritura creativa de modelos lingüísticos a pequeña escala (SLM). Estudiamos dos estrategias de recompensa basadas en IA dentro del marco de aprendizaje por refuerzo con inteligencia (RLAIF), dirigidas a la generación de saludos en chino mediante un SLM de 7 mil millones de parámetros. La primera estrategia utiliza un RM entrenado con datos de preferencia de alta calidad generados mediante un marco de muestreo de rechazo multiagente, mientras que la segunda utiliza un LLM como juez basado en principios, optimizado mediante entrenamiento adversarial y un mecanismo reflexivo. Los resultados experimentales muestran que ambos enfoques mejoran significativamente la producción creativa en comparación con los modelos de referencia, pero el LLM como juez basado en principios ofrece una calidad de generación superior y beneficios en términos de eficiencia de entrenamiento y menor dependencia de los datos de anotación humana. Un método de evaluación automatizado demuestra una alta concordancia con el juicio humano.

Takeaways, Limitations

Takeaways:
Se presenta un marco RLAIF eficiente para mejorar la capacidad de escritura creativa de modelos lingüísticos de pequeña escala.
Presentamos un método de entrenamiento SLM escalable y creativo que reduce la dependencia de datos humanos.
Validar la excelencia y demostrar la eficacia de una estrategia de LLM como juez basada en principios.
Las métricas de evaluación automatizadas muestran una alta correlación con las evaluaciones humanas.
Limitations:
Actualmente, está especializado en generar saludos chinos, por lo que se necesita más investigación para determinar su generalización a otros idiomas o tareas.
Dado que los resultados corresponden a un SLM de 7 mil millones de parámetros, es necesario verificar su generalización a SLM de diferentes tamaños.
Es difícil garantizar la completa objetividad de los indicadores de evaluación automática utilizados.
👍