[공지사항]을 빙자한 안부와 근황 
Show more

Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Solving nonconvex Hamilton--Jacobi--Isaacs equations with PINN-based policy iteration

Created by
  • Haebom

저자

Hee Jun Yang, Min Jung Kim, Yeoneung Kim

개요

본 논문은 고차원 비볼록 Hamilton-Jacobi-Isaacs (HJI) 방정식을 푸는 새로운 방법을 제안합니다. 이 방법은 고전적인 동적 계획법과 물리 정보 신경망(PINNs)을 결합한 메쉬 프리 정책 반복 프레임워크를 사용합니다. 확률적 미분 게임 및 강인 제어에서 발생하는 HJI 방정식에 적용 가능하며, 고정된 피드백 정책 하에서 2차 선형 편미분 방정식을 풀고 자동 미분을 사용한 점별 최소-최대 최적화를 통해 제어를 업데이트하는 과정을 반복합니다. 표준 Lipschitz 조건과 균일 타원형 조건 하에서 값 함수 반복이 HJI 방정식의 고유한 점성 해에 국소적으로 균등하게 수렴함을 증명합니다. 해밀토니안의 볼록성을 요구하지 않고도 반복의 등-Lipschitz 정칙성을 확립하여 증명 가능한 안정성과 수렴성을 보장합니다. 2차원 이동 장애물이 있는 확률 경로 계획 게임과 5차원 및 10차원 이방성 잡음이 있는 게시자-구독자 미분 게임에 대한 수치 실험을 통해 정확성과 확장성을 입증합니다. 제안된 방법은 직접적인 PINN 솔버보다 우수한 성능을 보이며, 보다 부드러운 값 함수와 낮은 잔차를 제공합니다.

시사점, 한계점

시사점:
고차원 비볼록 HJI 방정식에 대한 효율적이고 정확한 해결책 제시
PINNs와 정책 반복의 결합을 통한 새로운 접근 방식 제시 및 이론적 근거 마련
로보틱스, 금융, 다중 에이전트 강화 학습 등 다양한 분야에 적용 가능성 제시
기존 방법(유한 차분법) 대비 높은 차원 문제에서 우수한 성능 및 확장성을 보임
한계점:
Lipschitz 조건과 균일 타원형 조건과 같은 표준 가정에 대한 의존성
수렴성 증명이 국소적 균등 수렴에 국한됨
실험 결과는 특정 문제에 국한되어 더욱 광범위한 문제에 대한 일반화 필요
👍