Este artículo propone un nuevo marco de iteración de políticas sin malla para resolver ecuaciones de Hamilton-Jacobi-Isaacs (HJI) no convexas de alta dimensión. El marco combina programación dinámica clásica con redes neuronales de información física (PINN) para resolver problemas que surgen en juegos diferenciales estocásticos y control robusto. Comienza resolviendo ecuaciones diferenciales parciales lineales de segundo orden bajo políticas de retroalimentación fijas e itera mediante optimización mínima-máxima puntual con diferenciación automática para actualizar el control. Bajo condiciones estándar de Lipschitz y condiciones elípticas uniformes, se demuestra que la iteración de la función de valor converge local y uniformemente a la solución viscosa única de las ecuaciones HJI. El análisis establece la regularidad iso-Lipschitz de la iteración, lo que permite resultados demostrablemente estables y convergentes sin requerir la convexidad del hamiltoniano. Los experimentos numéricos demuestran la precisión y escalabilidad del método. En un juego bidimensional de planificación de rutas estocásticas con obstáculos móviles, el método cumple con los parámetros de referencia de diferencias finitas con un error L² relativo inferior al 10⁻² %. En juegos diferenciales de publicador-suscriptor de 5 y 10 dimensiones con ruido anisotrópico, el enfoque propuesto supera consistentemente al solucionador PINN directo, generando funciones de valor más suaves y residuos más bajos. Los resultados sugieren que la combinación de PINN con la iteración de políticas es una forma práctica y teóricamente sólida de resolver ecuaciones HJI no convexas de alta dimensión, con posibles aplicaciones en robótica, finanzas y aprendizaje por refuerzo multiagente.