Composing Reinforcement Learning Policies, with Formal Guarantees
Created by
Haebom
Category
Empty
저자
Florent Delgrange, Guy Avni, Anna Lukina, Christian Schilling, Ann Nowe, Guillermo A. Perez
개요
본 논문은 두 수준의 구조(알려진 상위 수준 그래프(맵)와 각 정점에 마르코프 결정 과정(방)이 있는 구조)를 갖는 환경에서 제어기를 설계하기 위한 새로운 프레임워크를 제안합니다. 상위 수준 작업과 하위 수준 작업에 대해 서로 다른 설계 기법을 사용하여 문제를 분리합니다. 상위 수준 작업에는 반응형 합성을 적용하여 상위 수준 그래프에 대한 논리 공식으로 표현된 명세와 "간결한" 잠재 구조와 함께 얻어진 하위 수준 정책 집합을 사용하여 각 방에서 어떤 하위 수준 정책을 적용할지 선택하는 "계획자"를 구성합니다. 기존의 접근 방식과 달리 모델 증류 단계를 피하면서 잠재 구조에서 하위 수준 정책을 훈련시키기 위한 강화 학습 절차를 개발합니다. 정책의 성능과 추상화 품질에 대한 확률적으로 근사적으로 정확한 보장을 제공하고 이러한 보장을 상위 수준 작업으로 끌어올립니다. 이러한 형식적 보장은 프레임워크의 주요 장점입니다. 확장성(방은 크고 동역학은 알려지지 않음)과 하위 수준 정책의 재사용성도 다른 장점입니다. 움직이는 장애물과 시각적 입력이 있는 환경에서 에이전트가 이동하는 어려운 사례 연구에서 실행 가능성을 보여줍니다.