본 논문은 Multi-Agent Imitation Learning (MAIL) 분야의 열린 이론적 격차를 좁히는 것을 목표로 한다. 비상호작용 MAIL의 한계를 규명하고, 거의 최적의 샘플 복잡성을 가진 최초의 상호작용 알고리즘을 제시한다. 비상호작용 환경에서, 모든 정책 편차 집중도 계수를 근본적인 복잡성 척도로 식별하는 통계적 하한을 증명하고, Behavior Cloning (BC)이 속도 최적임을 보인다. 상호작용 환경에서는, 무보상 강화 학습과 상호작용 MAIL을 결합한 프레임워크를 도입하고, MAIL-WARM 알고리즘을 통해 구현한다. 이 알고리즘은 이전까지 알려진 최상의 샘플 복잡성을 $\mathcal{O}(\varepsilon^{-8})$에서 $\mathcal{O}(\varepsilon^{-2})$로 개선하여, 하한에서 유추된 $\varepsilon$에 대한 의존성과 일치시킨다. 또한, 격자 세계와 같은 환경에서 Behavior Cloning이 학습에 실패하는 사례를 통해 이론을 뒷받침하는 수치적 결과를 제공한다.