MO-MIX: Multi-Objective Multi-Agent Cooperative Decision-Making With Deep Reinforcement Learning

Created by

Haebom

저자

Tianmeng Hu, Biao Luo, Chunhua Yang, Tingwen Huang

💡 개요

본 논문은 여러 목표를 동시에 만족시키면서 협력해야 하는 복잡한 문제(다중 목표 다중 에이전트 협력 의사결정)를 해결하기 위한 심층 강화학습 방법론인 MO-MIX를 제안합니다. MO-MIX는 중앙 집중식 학습 및 분산 실행(CTDE) 프레임워크를 기반으로 하며, 에이전트 네트워크에 목표별 선호도를 나타내는 가중치 벡터를 입력하여 지역적 행동-가치 함수를 추정하고, 병렬 구조의 믹싱 네트워크를 통해 전체 행동-가치 함수를 추정합니다. 또한, 탐색 가이드 방식을 도입하여 최종 비지배 해 집합의 균일성을 높이고, 실험을 통해 MO-MIX가 파레토 집합의 근사치를 효과적으로 생성하며 기존 방법론보다 우수한 성능과 낮은 계산 비용을 보임을 입증했습니다.

🔑 시사점 및 한계

•

복수의 에이전트가 상충되는 여러 목표를 동시에 달성해야 하는 실제 문제에 대한 효과적인 심층 강화학습 해결책을 제시합니다.

•

목표 선호도 가중치 벡터를 통해 각 에이전트가 특정 목표에 더 집중하도록 유도할 수 있으며, 이는 다양한 시나리오에 대한 유연한 적용을 가능하게 합니다.

•

파레토 집합의 근사치를 생성하여 다양한 균형점을 탐색할 수 있는 가능성을 열어줍니다.

•

탐색 가이드 방식의 효율성과 확장성, 그리고 복잡한 환경에서 발생할 수 있는 비정상적인 상황에 대한 강건성 개선이 향후 과제로 남아있습니다.

PDF 보기

Made with Slashpage