Do It for HER: First-Order Temporal Logic Reward Specification in Reinforcement Learning (Extended Version)

Created by

Haebom

저자

Pierriccardo Olivieri, Fausto Lasca, Alessandro Gianola, Matteo Papini

💡 개요

본 연구는 대규모 상태 공간을 가진 마르코프 결정 과정(MDP)에서 비-마르코프적 보상을 논리적으로 명세하기 위한 새로운 프레임워크를 제안합니다. 제안된 방법론은 술어(predicate)를 단순히 참/거짓 변수가 아닌 임의의 1차 이론에 대한 1차 공식으로 표현할 수 있는 LTLfMT(Linear Temporal Logic Modulo Theories over finite traces)를 활용합니다. 이를 통해 복잡한 태스크를 비정형 및 이종 데이터 도메인에서 통합적이고 재사용 가능한 방식으로 명세할 수 있습니다.

🔑 시사점 및 한계

•

기존 LTLf보다 뛰어난 표현력으로 복잡하고 이질적인 데이터 기반의 태스크를 효과적으로 명세 가능합니다.

•

1차 논리 명세를 보상 머신과 HER(Hindsight Experience Replay)을 결합하여 보상 희소성 문제를 해결하고 효율적인 학습을 가능하게 합니다.

•

LTLfMT의 표현력 증가로 인한 이론적, 계산적 복잡성 증가가 존재하며, 이를 해결하기 위한 tractable한 LTLfMT 조각을 식별했습니다.

•

비선형 산술 이론을 활용한 연속 제어 환경에서의 평가를 통해 복잡한 목표를 가진 태스크 해결에 HER의 맞춤형 구현이 중요함을 입증했습니다.

PDF 보기

Made with Slashpage