본 논문은 다중 로봇 SLAM에서 정확한 궤적 추정에 필수적인 분산 포즈-그래프 최적화(PGO) 문제를 다룹니다. 기존의 반복적인 접근 방식은 비볼록 최적화 목표를 선형화하여 지역 최솟값으로 수렴하고 최적 이하의 추정치를 생성합니다. 본 논문에서는 Multi-Agent Reinforcement Learning (MARL)을 사용하여 확장 가능하고 이상치에 강한 분산 평면 PGO 프레임워크를 제안합니다. 각 에이전트가 단일 에지의 포즈 추정을 개선하는 부분 관측 Markov 게임으로 PGO를 캐스팅합니다. 그래프 분할기는 글로벌 포즈 그래프를 분해하고, 각 로봇은 잡음이 있는 에지를 제거하기 위해 적응형 에지-게이팅을 갖춘 반복 에지-조건화 Graph Neural Network (GNN) 인코더를 실행합니다. 로봇은 사전 작업 메모리와 그래프 임베딩을 활용하는 하이브리드 정책을 통해 포즈를 순차적으로 개선합니다. 로컬 그래프 수정 후, 합의 방식을 통해 로봇 간의 불일치를 조정하여 전역적으로 일관된 추정치를 생성합니다.