Sign In

Composing Reinforcement Learning Policies, with Formal Guarantees

Created by
  • Haebom
Category
Empty

저자

Florent Delgrange, Guy Avni, Anna Lukina, Christian Schilling, Ann Nowe, Guillermo A. Perez

개요

본 논문은 두 수준의 구조(알려진 상위 수준 그래프(맵)와 각 정점에 마르코프 결정 과정(방)이 있는 구조)를 갖는 환경에서 제어기를 설계하기 위한 새로운 프레임워크를 제안합니다. 상위 수준 작업과 하위 수준 작업에 대해 서로 다른 설계 기법을 사용하여 문제를 분리합니다. 상위 수준 작업에는 반응형 합성을 적용하여 상위 수준 그래프에 대한 논리 공식으로 표현된 명세와 "간결한" 잠재 구조와 함께 얻어진 하위 수준 정책 집합을 사용하여 각 방에서 어떤 하위 수준 정책을 적용할지 선택하는 "계획자"를 구성합니다. 기존의 접근 방식과 달리 모델 증류 단계를 피하면서 잠재 구조에서 하위 수준 정책을 훈련시키기 위한 강화 학습 절차를 개발합니다. 정책의 성능과 추상화 품질에 대한 확률적으로 근사적으로 정확한 보장을 제공하고 이러한 보장을 상위 수준 작업으로 끌어올립니다. 이러한 형식적 보장은 프레임워크의 주요 장점입니다. 확장성(방은 크고 동역학은 알려지지 않음)과 하위 수준 정책의 재사용성도 다른 장점입니다. 움직이는 장애물과 시각적 입력이 있는 환경에서 에이전트가 이동하는 어려운 사례 연구에서 실행 가능성을 보여줍니다.

시사점, 한계점

시사점:
두 수준의 환경 제어 문제에 대한 새로운 프레임워크 제시
상위 수준 계획과 하위 수준 정책 학습의 분리된 설계
모델 증류 단계를 생략하여 효율성 증대
하위 수준 정책의 성능과 추상화 품질에 대한 형식적 보장 제공
확장성과 하위 수준 정책의 재사용성 확보
움직이는 장애물 및 시각적 입력 환경에서의 실험적 검증
한계점:
제안된 프레임워크의 적용 가능한 환경의 범위 제한 (두 수준 구조로 모델링 가능한 환경)
상위 수준 그래프의 구조가 알려져 있어야 함
잠재 구조의 "간결성"에 대한 정의 및 측정의 명확성 부족
실험적 검증의 범위 제한 (더욱 다양하고 복잡한 환경에서의 추가 실험 필요)
형식적 보장의 실제 적용 가능성 및 계산 비용에 대한 추가 연구 필요
👍