Woosung Koh, Wonbeen Oh, Siyeol Kim, Suhin Shin, Hyeongjin Kim, Jaein Jang, Junghyun Lee, Se-Young Yun
개요
본 논문은 다수 에이전트 강화 학습(MARL)에서 훈련과 추론 사이에 에이전트 수가 동적으로 변하는 상황, 즉 추론 과정 중 에이전트가 추가되거나 제거되는 상황을 다룹니다. 기존 MARL 방법들은 에이전트 수가 일정하다는 제약적인 가정에 의존하지만, 실제 환경(예: 수색 구조, 동적 전투 상황)에서는 이러한 가정이 성립하지 않습니다. 본 논문에서는 이러한 제로샷 외부 영역(OOD) 일반화 문제를 해결하기 위해, 관측 공간의 일부를 확률적으로 제거하여 OOD 상황에서도 도메인 내 상황처럼 작동하도록 하는 새로운 OOD 일반화 방법인 FlickerFusion을 제안합니다. 실험 결과, FlickerFusion은 기존 방법보다 우수한 추론 보상을 달성하고 불확실성을 감소시키는 것을 보여줍니다. 구현과 모델 가중치는 공개되었습니다.
시사점, 한계점
•
시사점:
◦
다수 에이전트 강화 학습에서 동적 에이전트 구성 문제를 효과적으로 해결하는 FlickerFusion 방법 제시.