[공지사항]을 빙자한 안부와 근황 
Show more

Daily Arxiv

Esta página recopila y organiza artículos sobre inteligencia artificial publicados en todo el mundo.
La información aquí presentada se resume utilizando Google Gemini y el sitio se gestiona sin fines de lucro.
Los derechos de autor de los artículos pertenecen a sus autores y a las instituciones correspondientes; al compartir el contenido, basta con citar la fuente.

Limitación de retorno: Optimización del gradiente de política CVaR con eficiencia de muestra

Created by
  • Haebom

Autor

Harry Mead, Clarissa Costen, Bruno Lacerda, Nick Hawes

Describir

Al optimizar el valor en riesgo condicional (CVaR) mediante gradientes de política (PG), los métodos existentes presentan problemas de eficiencia muestral debido al descarte de un gran número de trayectorias. En este artículo, reformulamos el problema de optimización del CVaR limitando el retorno total de las trayectorias utilizadas en el entrenamiento y demostramos que establecer este límite adecuadamente lo hace equivalente al problema original. Los resultados experimentales en diversos entornos muestran que esta reformulación del problema mejora consistentemente el rendimiento en comparación con la versión base. Todos los códigos están disponibles en https://github.com/HarryMJMead/cvar-return-capping .

Takeaways, Limitations

Takeaways: Una reformulación del problema de optimización CVaR que limita el ingreso total de las trayectorias mejora significativamente la eficiencia de la muestra con respecto a los métodos existentes. Muestra mejoras consistentes en el rendimiento en una amplia gama de entornos.
Limitations: Podría faltar una guía clara para establecer las restricciones óptimas del método propuesto. Las restricciones óptimas para un entorno específico podrían requerir una determinación empírica. Se requiere investigación adicional sobre el rendimiento de la generalización en diversos entornos.
👍