Bài báo này đề xuất một khuôn khổ lặp chính sách không lưới mới để giải các phương trình Hamilton-Jacobi-Isaacs (HJI) không lồi có chiều cao. Khuôn khổ này kết hợp lập trình động cổ điển với mạng nơ-ron thông tin vật lý (PINN) để giải các vấn đề phát sinh trong trò chơi vi phân ngẫu nhiên và điều khiển mạnh mẽ. Nó bắt đầu bằng cách giải các phương trình vi phân riêng phần bậc hai tuyến tính theo các chính sách phản hồi cố định và lặp qua tối ưu hóa min-max từng điểm với đạo hàm tự động để cập nhật điều khiển. Trong các điều kiện Lipschitz tiêu chuẩn và điều kiện elliptic đồng đều, người ta đã chứng minh rằng phép lặp hàm giá trị hội tụ cục bộ và đồng đều đến nghiệm nhớt duy nhất của các phương trình HJI. Phân tích thiết lập tính đều đặn iso-Lipschitz của phép lặp, cho phép chứng minh các kết quả ổn định và hội tụ mà không yêu cầu tính lồi của Hamilton. Các thí nghiệm số chứng minh độ chính xác và khả năng mở rộng của phương pháp. Trong trò chơi lập kế hoạch đường đi ngẫu nhiên hai chiều với chướng ngại vật di chuyển, phương pháp này khớp các chuẩn sai phân hữu hạn với sai số L² tương đối nhỏ hơn 10⁻²%. Trong trò chơi vi phân nhà xuất bản-người đăng ký 5 và 10 chiều với nhiễu dị hướng, phương pháp đề xuất luôn vượt trội hơn bộ giải PINN trực tiếp, tạo ra các hàm giá trị mượt mà hơn và giá trị dư thấp hơn. Kết quả cho thấy việc kết hợp PINN với lặp chính sách là một cách thực tế và hợp lý về mặt lý thuyết để giải các phương trình HJI không lồi nhiều chiều, với các ứng dụng tiềm năng trong robot, tài chính và học tăng cường đa tác tử.