본 논문은 로봇의 다양한 행동을 학습시키는 모방 학습에서, 대규모 데이터셋의 품질 저하 문제를 해결하기 위해 자기 지도 학습 기반의 데이터 정제 프레임워크인 SCIZOR를 제안합니다. SCIZOR는 최적이 아닌 데이터(task progression 부족)와 중복 데이터(redundant patterns)라는 두 가지 저품질 데이터 원인을 다룹니다. 최적이 아닌 데이터는 자기 지도 학습 기반의 작업 진행 예측기를 사용하여 제거하고, 중복 데이터는 joint state-action 표현에 대한 중복 제거 모듈을 사용하여 제거합니다. 실험 결과, SCIZOR는 여러 벤치마크에서 평균 15.4%의 성능 향상을 보이며, 적은 데이터로도 높은 성능의 모방 학습 정책을 달성함을 보여줍니다.