# FP-IRL: Fokker--Planck Inverse Reinforcement Learning -- A Physics-Constrained Approach to Markov Decision Processes

### 저자

Chengyang Huang, Siddhartha Srivastava, Kenneth K. Y. Ho, Kathy E. Luker, Gary D. Luker, Xun Huan, Krishna Garikipati

### 💡 개요

본 논문은 마르코프 결정 과정(MDP)에서 에이전트의 행동을 유발하는 보상 함수를 추론하는 역 강화 학습(IRL)의 한계를 극복하는 새로운 프레임워크인 Fokker-Planck Inverse Reinforcement Learning (FP-IRL)을 제안한다. FP-IRL은 시스템의 역학이 알려지지 않거나 관찰하기 어려운 경우에도, Fokker-Planck(FP) 동역학으로 설명 가능한 시스템에 대해 보상 함수와 전이 함수를 동시에 추론하며, 샘플 전이 데이터에 대한 접근 없이 궤적 데이터로부터 직접 이를 수행한다.

### 🔑 시사점 및 한계

- FP-IRL은 알 수 없는 시스템 동역학 하에서 IRL을 수행하는 새로운 방법을 제시하여, 기존 IRL 방법론의 제약을 완화한다.

- MDP와 FP 방정식 간의 연관성을 활용하여 물리적 해석이 가능하고 계산 효율적인 방식으로 보상, 전이, 정책을 복구할 수 있다.

- 제안된 방법론은 합성 벤치마크 및 Mountain Car 문제 변형에서 효과성을 입증했지만, 복잡하거나 비정상적인 시스템 동역학에 대한 일반화 가능성에 대한 추가 연구가 필요하다.

[PDF 보기](https://arxiv.org/pdf/2306.10407)

For the site tree, see the [root Markdown](https://slashpage.com/haebom.md).