Daily Arxiv

Esta página recopila y organiza artículos sobre inteligencia artificial publicados en todo el mundo.
La información aquí presentada se resume utilizando Google Gemini y el sitio se gestiona sin fines de lucro.
Los derechos de autor de los artículos pertenecen a sus autores y a las instituciones correspondientes; al compartir el contenido, basta con citar la fuente.

Resolución de ecuaciones no convexas de Hamilton-Jacobi-Isaacs con iteración de políticas basada en PINN

Created by
  • Haebom

Autor

Hee Jun Yang, Minjung Gim, Yeoneung Kim

Describir

Este artículo propone un nuevo marco de iteración de políticas sin malla para resolver ecuaciones de Hamilton-Jacobi-Isaacs (HJI) no convexas de alta dimensión. El marco combina programación dinámica clásica con redes neuronales de información física (PINN) para resolver problemas que surgen en juegos diferenciales estocásticos y control robusto. Comienza resolviendo ecuaciones diferenciales parciales lineales de segundo orden bajo políticas de retroalimentación fijas e itera mediante optimización mínima-máxima puntual con diferenciación automática para actualizar el control. Bajo condiciones estándar de Lipschitz y condiciones elípticas uniformes, se demuestra que la iteración de la función de valor converge local y uniformemente a la solución viscosa única de las ecuaciones HJI. El análisis establece la regularidad iso-Lipschitz de la iteración, lo que permite resultados demostrablemente estables y convergentes sin requerir la convexidad del hamiltoniano. Los experimentos numéricos demuestran la precisión y escalabilidad del método. En un juego bidimensional de planificación de rutas estocásticas con obstáculos móviles, el método cumple con los parámetros de referencia de diferencias finitas con un error L² relativo inferior al 10⁻² %. En juegos diferenciales de publicador-suscriptor de 5 y 10 dimensiones con ruido anisotrópico, el enfoque propuesto supera consistentemente al solucionador PINN directo, generando funciones de valor más suaves y residuos más bajos. Los resultados sugieren que la combinación de PINN con la iteración de políticas es una forma práctica y teóricamente sólida de resolver ecuaciones HJI no convexas de alta dimensión, con posibles aplicaciones en robótica, finanzas y aprendizaje por refuerzo multiagente.

Takeaways, Limitations

Takeaways:
Soluciones eficientes y precisas para ecuaciones HJI no convexas de alta dimensión.
Demostrando la eficacia de un enfoque novedoso que combina PINN e iteración de políticas.
Sugiere aplicaciones potenciales en diversos campos como la robótica, las finanzas y el aprendizaje de refuerzo de múltiples agentes.
Garantizar la fiabilidad del método mediante pruebas teóricas de convergencia.
Limitations:
Se requieren ciertas suposiciones, como la condición de Lipschitz y la condición de elipticidad uniforme.
La convergencia se limita a la convergencia localmente uniforme.
Todavía puede haber costos computacionales para problemas de alta dimensión.
Se necesitan experimentos adicionales y validación para aplicaciones en el mundo real.
👍