Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

MOMA-AC: A preference-driven actor-critic framework for continuous multi-objective multi-agent reinforcement learning

Created by
  • Haebom
Category
Empty

저자

Adam Callaghan, Karl Mason, Patrick Mannion

개요

본 논문은 연속 상태 및 행동 공간을 위한 최초의 전용 내부 루프 액터-크리틱 프레임워크인 Multi-Objective Multi-Agent Actor-Critic (MOMA-AC)를 도입하여 Multi-Objective Multi-Agent Reinforcement Learning (MOMARL)의 중요한 격차를 해결합니다. MOMA-AC는 Twin Delayed Deep Deterministic Policy Gradient (TD3) 및 Deep Deterministic Policy Gradient (DDPG)를 사용하여 구현되었으며, MOMA-TD3 및 MOMA-DDPG를 생성합니다. 이 프레임워크는 다중 헤드 액터 네트워크, 중앙 집중형 비평가 및 목적 선호도 조건부 아키텍처를 결합하여 단일 신경망이 연속 MOMARL 설정에서 모든 에이전트에 대한 최적의 절충 정책의 Pareto front를 인코딩할 수 있도록 합니다. 또한 기존의 다중 에이전트 단일 목적 물리 시뮬레이터와 다중 목적 단일 에이전트 대응물을 결합하여 연속 MOMARL을 위한 자연스러운 테스트 스위트를 개략적으로 설명합니다. 협력적 운동 작업을 평가한 결과, 프레임워크가 외부 루프 및 독립적인 교육 기준선에 비해 예상 유틸리티 및 하이퍼볼륨에서 통계적으로 유의미한 개선을 달성했으며, 에이전트 수가 증가함에 따라 안정적인 확장성을 보여주었습니다.

시사점, 한계점

MOMARL을 위한 최초의 전용 내부 루프 액터-크리틱 프레임워크인 MOMA-AC를 제시함.
MOMA-TD3 및 MOMA-DDPG를 포함한 구체적인 구현을 제공함.
연속 MOMARL을 위한 자연스러운 테스트 스위트를 개발함.
협력적 운동 작업에서 기존 방법론 대비 유의미한 성능 향상을 보임.
에이전트 수 증가에 따라 안정적인 확장성을 입증함.
한계점은 논문에 명시적으로 언급되지 않음. (제시된 프레임워크의 일반적인 한계점 및 특정 응용 분야에서의 제약은 추가 연구가 필요함)
👍