Boosting deep Reinforcement Learning using pretraining with Logical Options

Created by

Haebom

저자

Zihan Ye, Phil Chau, Raban Emunds, Jannis Bluml, Cedric Derstroff, Quentin Delfosse, Oleg Arenz, Kristian Kersting

💡 개요

본 연구는 딥 강화학습 에이전트가 초반 보상 신호에 과도하게 집중하는 문제를 해결하기 위해 논리적 옵션을 활용한 사전 학습을 제안합니다. 제안하는 하이브리드 계층 강화학습(H^2RL)은 신경망 기반 강화학습에 상징적 구조를 통합하여 단기 보상 루프에서 벗어나 목표 지향적 행동을 유도하며, 최종 정책은 환경과의 상호작용을 통해 정제됩니다. 실험 결과, 이 접근 방식은 장기 의사결정을 지속적으로 개선하고 기존 신경망, 상징적, 신경-상징적 기반 모델을 능가하는 에이전트를 생성함을 보여줍니다.

🔑 시사점 및 한계

•

딥 강화학습의 단기 보상 편향 문제를 완화하고 장기적인 목표 달성을 촉진하는 효과적인 사전 학습 방법을 제시합니다.

•

기존의 순수 상징적 접근 방식의 확장성 및 연속적인 환경 적용의 어려움을 극복하는 하이브리드 신경-상징적 구조의 가능성을 보여줍니다.

•

제안된 방법론의 효율성을 입증하기 위해 다양한 벤치마크 환경에서의 추가적인 검증 및 일반화 능력 평가가 필요합니다.

PDF 보기

Made with Slashpage