Daily Arxiv

Esta página recopila y organiza artículos sobre inteligencia artificial publicados en todo el mundo.
La información aquí presentada se resume utilizando Google Gemini y el sitio se gestiona sin fines de lucro.
Los derechos de autor de los artículos pertenecen a sus autores y a las instituciones correspondientes; al compartir el contenido, basta con citar la fuente.

Rúbricas como recompensas: aprendizaje por refuerzo más allá de los dominios verificables

Created by
  • Haebom

Autor

Anisha Gunjal, Anthony Wang, Elaine Lau, Vaskar Nath, Bing Liu, Sean Hendryx

Describir

Este artículo aborda el reto de equilibrar los criterios de evaluación objetivos y subjetivos al aplicar el aprendizaje por refuerzo (AR) a tareas del mundo real. En particular, resulta difícil definir una señal de recompensa fiable para un modelo de lenguaje posterior al entrenamiento en tareas que carecen de una verdad fundamental clara. Los métodos existentes basados en preferencias ofrecen una solución, pero se basan en funciones de recompensa opacas, difíciles de interpretar y susceptibles a correlaciones espurias. En este artículo, presentamos un marco, $\textbf{Rúbricas como Recompensas}$ (RaR), que utiliza rúbricas de evaluación estructuradas tipo lista de verificación como señales de recompensa interpretables. Se aplica al entrenamiento según políticas con GRPO y demuestra una mejora relativa del rendimiento de hasta un 28 % con respecto a los enfoques ingenuos basados en Likert existentes en HealthBench-1k, logrando un rendimiento igual o superior al de las señales de recompensa derivadas de referencias de autores expertos. Al tratar las rúbricas de evaluación como señales de recompensa estructuradas, RaR permite que los modelos de juicio a pequeña escala se ajusten mejor a las preferencias humanas y mantengan un rendimiento robusto en todas las escalas del modelo.

Takeaways, Limitations

Takeaways:
Presentamos un método novedoso para generar señales de recompensa interpretables y confiables utilizando criterios de evaluación estructurados.
Muestra un rendimiento mejorado con respecto a los métodos existentes basados en preferencias (hasta un 28 % de mejora en HealthBench-1k).
Lograr un rendimiento equivalente o superior en comparación con las señales de recompensa basadas en la opinión de expertos.
Mejorar el rendimiento de los modelos de juicio a pequeña escala y garantizar la robustez a escala del modelo.
Limitations:
Se necesita más investigación sobre el rendimiento de generalización del método propuesto.
Es necesario verificar la aplicabilidad a diversas tareas del mundo real.
Tal vez se necesite orientación adicional sobre el diseño y la composición de los criterios de evaluación.
Los resultados corresponden a un conjunto de datos específico (HealthBench-1k) y el rendimiento en otros conjuntos de datos requiere mayor validación.
👍