Neuro-symbolic Action Masking for Deep Reinforcement Learning

Created by

Haebom

저자

Shuai Han, Mehdi Dastani, Shihan Wang

💡 개요

본 논문은 딥 강화 학습(DRL)에서 발생하는 비현실적인 행동 탐색 문제를 해결하기 위해 신경-기호적 행동 마스킹(NSAM) 프레임워크를 제안한다. NSAM은 고차원 상태에 대한 기호 모델을 최소한의 지도 학습으로 자동 학습하고, 이를 기반으로 비현실적인 행동을 배제하는 행동 마스크를 학습한다. 이를 통해 기호 추론과 딥 정책 최적화를 종단 간 통합하여 샘플 효율성을 높이고 제약 위반을 줄인다.

🔑 시사점 및 한계

•

DRL에서 비현실적인 행동 탐색 문제를 해결하기 위한 신경-기호적 접근 방식을 제시하여 샘플 효율성을 크게 향상시키고 제약 위반을 감소시켰다.

•

고차원 상태에 대한 기호 모델을 자동 학습하고 행동 마스킹에 활용함으로써 기존 수동적인 기법의 한계를 극복했다.

•

기호 모델 학습과 정책 학습 간의 상호 강화 메커니즘은 DRL 성능 향상에 대한 새로운 가능성을 보여준다.

•

향후 연구에서는 복잡하고 동적인 제약 조건이 있는 환경에서의 NSAM의 성능을 평가하고, 학습된 기호 모델의 해석 가능성을 높이는 방안을 탐구할 필요가 있다.

PDF 보기

Made with Slashpage