오프라인 다중 에이전트 강화 학습(MARL)은 분포 밖(OOD) 결합 행동 평가의 어려움으로 인해 심각한 제약을 받습니다. 본 논문의 핵심 발견은 행동 정책이 분해 가능한 경우, 즉 에이전트가 데이터 수집 중 완전히 또는 부분적으로 독립적으로 행동하는 일반적인 시나리오에서 부분 행동 대체(PAR) 전략이 이 문제를 상당히 완화할 수 있다는 것입니다. PAR은 전체 결합 행동 업데이트에 비해 분포 이동을 줄이면서 다른 에이전트의 행동을 고정된 채로 둔 상태에서 단일 또는 일부 에이전트의 행동을 업데이트합니다. 이를 기반으로, OOD 문제를 완화하고 가치 추정의 불확실성에 따라 다양한 PAR 전략의 가중치를 동적으로 부여하는 Soft-Partial Conservative Q-Learning (SPaCQL)을 개발했습니다. 이 접근 방식에 대한 엄격한 이론적 기반을 제공하며, 분해 가능한 행동 정책 하에서 유도된 분포 이동은 결합 행동 공간에 대해 기하급수적으로 증가하는 대신, 이탈하는 에이전트의 수에 따라 선형적으로 증가함을 증명합니다. 이는 오프라인 MARL 문제의 중요한 클래스에 대해 더 좁은 가치 오차 범위를 제공합니다. SPaCQL이 불확실성에 기반한 가중치를 사용하여 분포 이동에 적응적으로 대처한다는 것을 이론적 결과로 보여줍니다. 실험 결과는 SPaCQL이 더욱 효과적인 정책 학습을 가능하게 하며, 오프라인 데이터 세트가 독립 구조를 나타낼 때 기준 알고리즘에 비해 뛰어난 성능을 보임을 보여줍니다.