Daily Arxiv

Esta página recopila y organiza artículos sobre inteligencia artificial publicados en todo el mundo.
La información aquí presentada se resume utilizando Google Gemini y el sitio se gestiona sin fines de lucro.
Los derechos de autor de los artículos pertenecen a sus autores y a las instituciones correspondientes; al compartir el contenido, basta con citar la fuente.

RLMR: Aprendizaje de refuerzo con recompensas mixtas para la escritura creativa

Created by
  • Haebom

Autor

Jianxing Liao, Tian Zhang, Xiao Feng, Yusong Zhang, Rui Yang, Haorui Wang, Bosi Wen, Ziying Wang, Runzhi Shi

Describir

Este artículo propone el Aprendizaje por Refuerzo con Recompensas Mixtas (RLMR), un novedoso método basado en el aprendizaje por refuerzo para la escritura creativa que equilibra la calidad subjetiva de la escritura (p. ej., literatura, expresión emocional) con la adherencia a restricciones objetivas (p. ej., requisitos formales, límites de conteo de palabras) utilizando modelos de lenguaje a gran escala. RLMR utiliza un sistema de recompensa mixta dinámica que consiste en un modelo de recompensa de escritura que evalúa la calidad subjetiva de la escritura y un modelo de verificación de restricciones que evalúa la adherencia a las restricciones objetivas. Específicamente, ajusta dinámicamente los pesos de recompensa por cumplimiento de restricciones en función de la calidad de escritura de un grupo muestreado, penalizando las muestras que violan las restricciones durante el entrenamiento. Los experimentos se llevan a cabo utilizando evaluaciones automatizadas y manuales de varias familias de modelos con parámetros que van desde 8B a 72B, así como el punto de referencia de escritura del mundo real WriteEval, demostrando un rendimiento mejorado tanto en el cumplimiento de comandos como en la calidad de escritura.

Takeaways, Limitations

Takeaways:
Este es el primer estudio que combina preferencias subjetivas y validación objetiva en el entrenamiento de aprendizaje de refuerzo en línea.
Ofrecemos soluciones efectivas para optimizar la escritura creativa multidimensional.
Se mejoró el rendimiento tanto en el cumplimiento de los comandos como en la calidad de escritura (IFEval 83,36 % → 86,65 %, evaluación por pares de expertos del manual WriteEval 72,75 % de tasa de éxito).
Limitations:
Se necesita más investigación para evaluar el rendimiento de generalización del método propuesto.
Es necesario ampliar aún más el alcance de los puntos de referencia de evaluación, incluido WriteEval.
Se necesita una mayor validación de su aplicabilidad a diferentes tipos de tareas de escritura creativa.
👍