BASIL (Best-Action Symbolic Interpretable Learning)은 안전이 중요한 응용 분야에서 자율 의사결정 시스템의 배포를 위한 해결 과제인 해석 가능한 강화 학습을 위한 체계적인 접근 방식입니다. BASIL은 상태 변수에 대한 심볼릭 술어의 순서화된 목록으로 정책을 나타내어 완전한 해석성과 다루기 쉬운 정책 복잡성을 보장합니다. 품질-다양성(QD) 최적화를 사용하는 온라인 진화적 검색을 통해 심볼릭하고 규칙 기반의 정책을 생성합니다. QD 아카이브를 사용하여 최고 성능의 솔루션 간의 행동적 및 구조적 다양성을 장려하고, 복잡성을 고려한 적합도는 간결한 표현의 합성을 장려합니다. CartPole-v1, MountainCar-v0, Acrobot-v1 세 가지 벤치마크 작업에 대한 실험적 비교를 통해 BASIL이 심층 강화 학습 기준과 비교할 만한 간결한 표현으로 해석 가능한 제어기를 일관되게 합성함을 보여줍니다. 심볼릭 표현성, 진화적 다양성, 온라인 학습을 통합 프레임워크를 통해 결합하는 새로운 해석 가능한 정책 합성 방법을 소개합니다.