Interpretable Failure Analysis in Multi-Agent Reinforcement Learning Systems

Created by

Haebom

저자

Risal Shahriar Shefin, Debashis Gupta, Thai Le, Sarra Alqahtani

💡 개요

본 논문은 안전이 중요한 다중 에이전트 강화 학습(MARL) 시스템에서 발생하는 예측 불가능한 실패를 진단하기 위한 해석 가능한 프레임워크를 제안합니다. 제안된 방법은 정책 그래디언트 비용의 테일러 나머지 분석과 비평가 도함수의 기하학적 분석을 활용하여 실패의 근원(Patient-0)을 탐지하고, 도미노 효과로 인해 비공격 에이전트가 먼저 탐지되는 이유를 검증하며, 실패가 학습된 협력 경로를 통해 어떻게 전파되는지를 추적합니다. 이를 통해 블랙박스 탐지를 넘어선 해석 가능한 실패 분석을 제공합니다.

🔑 시사점 및 한계

•

안전이 중요한 MARL 시스템에서 발생하는 복잡한 연쇄 실패를 근본적인 원인부터 추적하고 설명할 수 있는 해석 가능한 진단 도구를 제공합니다.

•

정책 그래디언트 및 비평가 도함수의 기하학적 특성을 활용하여 "다운스트림 우선" 탐지 이상 현상을 명확하게 설명하고, 실패 확산 경로를 시각화할 수 있습니다.

•

제안된 방법론은 실제 MARL 시스템에서 높은 Patient-0 탐지 정확도를 달성했으며, 이는 시스템의 신뢰성과 안전성 확보에 기여할 수 있습니다.

•

향후 과제로는 다양한 MARL 알고리즘 및 복잡한 환경에 대한 일반화 성능 검증과 함께, 탐지 및 진단 과정의 실시간 적용 가능성을 높이기 위한 효율성 개선 연구가 필요합니다.

PDF 보기

Made with Slashpage