본 논문은 다중 에이전트 협력 환경에서의 오프라인 모방 학습(IL)을 연구합니다. 데이터셋에 전문가 수준과 비전문가 수준의 경로가 섞여 있는 상황에서, 두 단계로 구성된 해결책을 제시합니다. 첫 번째 단계는 대규모 언어 모델과 선호도 기반 강화 학습을 결합하여 전문가 수준의 경로를 구분하는 점진적 레이블링 파이프라인을 구축합니다. 두 번째 단계에서는 새로운 값 분해 및 믹싱 아키텍처를 사용하여 다중 에이전트 환경에 기존 DICE 프레임워크를 확장한 MisoDICE 알고리즘을 제시합니다. MisoDICE는 볼록한 정책 최적화 목표를 생성하고 전역 및 지역 정책 간의 일관성을 보장합니다. 다양한 다중 에이전트 강화 학습 벤치마크에서 평가하여, 특히 전문가 데이터가 부족할 때 우수한 성능을 보임을 입증합니다.