본 논문은 전문가의 시범과 명시적으로 바람직하지 않은 행동 모두를 포함하는 데이터셋을 사용하여 대조적인 행동으로부터 오프라인 모방 학습을 연구합니다. 전문가와 바람직하지 않은 데이터의 상태-행동 방문 분포에 대한 KL 발산 차이를 최적화하는 새로운 공식을 제안합니다. 결과적인 목적 함수는 DC(Difference-of-Convex) 프로그래밍이지만, 전문가 시범이 바람직하지 않은 시범보다 많을 때 볼록해짐을 증명하여 실용적이고 안정적인 비대립적 훈련 목적 함수를 가능하게 합니다. 이 방법은 대립적 훈련을 피하고 긍정적 및 부정적 시범 모두를 통합된 프레임워크에서 처리합니다. 표준 오프라인 모방 학습 벤치마크에 대한 광범위한 실험을 통해 제안된 접근 방식이 최첨단 기준 모델보다 일관되게 우수한 성능을 보임을 보여줍니다.