Daily Arxiv

Esta página recopila y organiza artículos sobre inteligencia artificial publicados en todo el mundo.
La información aquí presentada se resume utilizando Google Gemini y el sitio se gestiona sin fines de lucro.
Los derechos de autor de los artículos pertenecen a sus autores y a las instituciones correspondientes; al compartir el contenido, basta con citar la fuente.

Del texto a la trayectoria: exploración de la representación y descomposición de restricciones complejas en el aprendizaje por refuerzo seguro

Created by
  • Haebom

Autor

Pusen Dong, Tianchen Zhu, Yue Qiu, Haoyi Zhou, Jianxin Li

Describir

Este artículo presenta un método para realizar aprendizaje de refuerzo seguro bajo restricciones expresadas en lenguaje natural. Los métodos existentes presentan la limitación de requerir el diseño manual de funciones de costo para cada restricción. En este artículo, proponemos el Traductor de Restricciones Textuales a Nivel de Trayectoria (TTCT), que genera automáticamente funciones de costo utilizando restricciones de lenguaje natural. TTCT aprende combinando restricciones de lenguaje natural con trayectorias, y los resultados experimentales demuestran que aprende políticas con tasas de incumplimiento más bajas que las funciones de costo diseñadas manualmente. Además, demostramos la capacidad de transferencia de disparo cero, aplicable a entornos con restricciones cambiantes.

Takeaways, Limitations

Takeaways:
Presentamos un método novedoso para comprender eficazmente las restricciones en el lenguaje natural y entrenar agentes de aprendizaje de refuerzo seguros.
El aprendizaje es posible únicamente con las restricciones del lenguaje natural, sin la necesidad de diseñar manualmente una función de costos.
Demostración de aplicabilidad a diversos entornos a través de la capacidad de transferencia de disparo cero.
Lograr índices de violación más bajos que los métodos existentes.
Limitations:
Se necesitan más investigaciones sobre el rendimiento de generalización de TTCT.
Necesidad de evaluar la capacidad de manejar restricciones de lenguaje natural complejas o ambiguas.
Se necesita una validación adicional para la aplicación en el mundo real.
👍