Sign In

On Generating Explanations for Reinforcement Learning Policies: An Empirical Study

Created by
  • Haebom
Category
Empty

저자

Mikihisa Yuasa, Huy T. Tran, Ramavarapu S. Sreenivas

개요

본 논문은 강화학습 정책의 설명 가능성을 높이기 위해 선형 시간 논리(LTL) 공식을 이용한 새로운 방법을 제시합니다. 강화학습 정책은 보상을 극대화하기 위해 상태-행동 매핑을 안내하지만, 사람이 이해하기에는 어려울 수 있습니다. 본 논문에서 제안하는 방법은 정책이 달성하는 궁극적인 목표와 실행 과정에서 유지하는 전제 조건을 모두 설명하는 LTL 공식을 찾는 알고리즘을 통해 정책을 설명합니다. 캡쳐 더 플래그 시뮬레이션 게임과 자동차 주차 환경에서 제안된 방법의 효과를 보여줍니다.

시사점, 한계점

시사점:
강화학습 정책의 설명 가능성을 향상시키는 새로운 방법 제시
LTL 공식을 이용하여 정책의 목표와 전제 조건을 명확하게 설명
시뮬레이션 환경에서의 효과 검증
한계점:
제안된 방법의 실제 세계 적용 가능성에 대한 추가 연구 필요
복잡한 환경에서의 LTL 공식 검색의 효율성 개선 필요
다른 설명 가능성 기법과의 비교 분석 필요
👍