본 논문은 전문가의 시범을 통해 일련의 의사결정을 학습하는 강력한 패러다임인 대화형 모방 학습(IL)을 다룹니다. 기존의 효율적인 모방 학습 연구는 전문가의 정책이 학습자의 정책 클래스 내에 존재하는 실현 가능한 설정에 초점을 맞춰왔습니다(즉, 학습자는 모든 상태에서 전문가를 완벽하게 모방할 수 있음). 그러나 실제로는 상태 정보와 행동 공간의 표현력 차이(예: 로봇과 인간의 형태학적 차이)로 인해 전문가를 완벽하게 모방하는 것이 불가능한 경우가 많습니다. 본 논문에서는 전문가 정책의 실현 가능성에 대한 가정을 하지 않는 보다 일반적인 오류 지정 설정을 고려합니다. 본 논문은 새로운 구조적 조건인 보상-무관 정책 완전성을 제시하고, 이 조건이 대화형 IL 알고리즘이 오프라인 접근 방식(예: 행동 복제)을 방해하는 이차적으로 복합적인 오류를 효율적으로 피하는 데 충분함을 증명합니다. 또한 전문가 데이터가 제한적인 실제적 제약을 해결하고, 대화형 IL 알고리즘의 샘플 효율성을 더욱 향상시키기 위해 추가적인 오프라인 데이터를 사용하는 원칙적인 방법을 제안합니다. 마지막으로, 오류 지정 하에서 효율적인 IL의 최적 재설정 분포를 연속 제어 작업 모음을 사용하여 실험적으로 조사합니다.