Roko Parac, Lorenzo Nodari, Leo Ardon, Daniel Furelos-Blanco, Federico Cerutti, Alessandra Russo
개요
본 논문은 잡음이 많은 실행 추적 데이터로부터 강화학습(RL) 에이전트를 위한 강건한 보상 기계(RM)를 학습하는 방법인 PROB-IRM을 제시합니다. RM 기반 RL의 핵심은 에이전트의 작업을 여러 하위 작업으로 분해하는 유한 상태 기계를 활용하는 것입니다. PROB-IRM은 잡음이 많은 예시에 강건한 최첨단 귀납 논리 프로그래밍 프레임워크를 사용하여 베이지안 사후 확률을 이용해 잡음이 많은 추적 데이터로부터 RM을 학습하여 불일치에 대한 강건성을 보장합니다. 결과에 중요한 것은 RM 학습과 정책 학습의 상호 작용입니다. RL 에이전트가 현재 RM이 받아들이지 않을 것이라고 믿는 추적을 생성할 때마다 새로운 RM이 학습됩니다. RL 에이전트의 학습 속도를 높이기 위해 PROB-IRM은 추적에서 파생된 사후 베이지안 확률을 사용하는 보상 형성의 확률적 공식을 사용합니다. 실험 분석 결과, PROB-IRM은 잡음이 많은 추적 데이터로부터 (완벽하지 않을 수 있는) RM을 학습하고 이를 활용하여 RL 에이전트가 작업을 성공적으로 해결하도록 훈련할 수 있음을 보여줍니다. 잡음이 많은 추적 데이터로부터 RM을 학습하는 복잡성에도 불구하고, PROB-IRM으로 훈련된 에이전트는 수작업으로 만든 RM을 제공받은 에이전트와 비슷한 성능을 보입니다.
시사점, 한계점
•
시사점:
◦
잡음이 많은 데이터에서도 강건한 보상 기계를 학습하는 새로운 방법론 제시.
◦
베이지안 사후 확률 기반의 확률적 보상 형성을 통해 RL 에이전트 학습 속도 향상.
◦
수작업으로 설계된 RM과 비교하여 비슷한 성능을 보이는 RL 에이전트 학습 성공.
◦
RM 학습과 정책 학습의 효과적인 상호 작용 전략 제시.
•
한계점:
◦
RM 학습의 복잡성으로 인한 계산 비용 증가 가능성.
◦
실험 결과가 특정 환경에 국한될 가능성. 더욱 다양한 환경에서의 성능 검증 필요.
◦
완벽하지 않은 RM 학습에 대한 추가적인 분석 필요. RM의 불완전성이 에이전트 성능에 미치는 영향에 대한 심층적인 연구 필요.