본 논문은 다양한 질적 수준의 이기종 데모 데이터셋을 포함하는 많은 로봇 데모 데이터셋의 문제점을 다룹니다. 이러한 이기종성은 정책 사전 훈련에는 도움이 될 수 있지만, 최종 모방 학습 목표에 사용될 때 로봇 성능을 저해할 수 있습니다. 특히, 데이터 내 일부 전략은 다른 전략보다 신뢰성이 떨어지거나 데이터 내에서 과소표현될 수 있어, 테스트 시 해당 전략이 샘플링될 때 성능이 저하될 수 있습니다. 더욱이, 이러한 신뢰할 수 없거나 과소표현된 전략은 사람이 식별하기 어려울 수 있으며, 데모 데이터셋을 조사하는 것은 시간이 많이 걸리고 비용이 많이 듭니다. 반면, 이러한 데모로 훈련된 정책의 성능은 다양한 전략의 신뢰성을 반영할 수 있습니다. 따라서 본 논문은 온라인 로봇 경험을 기반으로 로봇이 스스로 데이터를 선별하는 Demo-SCORE를 제안합니다. 구체적으로, 성공적인 정책 롤아웃과 실패한 정책 롤아웃을 식별하는 분류기를 훈련하고 교차 검증하여 이기종 데모 데이터셋을 필터링하는 데 사용합니다. 시뮬레이션 및 실제 환경에서의 실험 결과, Demo-SCORE는 수동으로 선별하지 않고도 최적이 아닌 데모를 효과적으로 식별할 수 있음을 보여줍니다. 특히, Demo-SCORE는 모든 원래 데모로 훈련된 기본 정책에 비해 최종 정책의 성공률을 15~35% 이상 높였습니다.