본 논문은 연속 상태 및 행동 공간을 위한 최초의 전용 내부 루프 액터-크리틱 프레임워크인 Multi-Objective Multi-Agent Actor-Critic (MOMA-AC)를 도입하여 Multi-Objective Multi-Agent Reinforcement Learning (MOMARL)의 중요한 격차를 해결합니다. MOMA-AC는 Twin Delayed Deep Deterministic Policy Gradient (TD3) 및 Deep Deterministic Policy Gradient (DDPG)를 사용하여 구현되었으며, MOMA-TD3 및 MOMA-DDPG를 생성합니다. 이 프레임워크는 다중 헤드 액터 네트워크, 중앙 집중형 비평가 및 목적 선호도 조건부 아키텍처를 결합하여 단일 신경망이 연속 MOMARL 설정에서 모든 에이전트에 대한 최적의 절충 정책의 Pareto front를 인코딩할 수 있도록 합니다. 또한 기존의 다중 에이전트 단일 목적 물리 시뮬레이터와 다중 목적 단일 에이전트 대응물을 결합하여 연속 MOMARL을 위한 자연스러운 테스트 스위트를 개략적으로 설명합니다. 협력적 운동 작업을 평가한 결과, 프레임워크가 외부 루프 및 독립적인 교육 기준선에 비해 예상 유틸리티 및 하이퍼볼륨에서 통계적으로 유의미한 개선을 달성했으며, 에이전트 수가 증가함에 따라 안정적인 확장성을 보여주었습니다.