본 논문은 로봇 학습에서 확장 가능하고 재현 가능한 정책 평가의 어려움을 해결하기 위해 AutoEval 시스템을 제안합니다. AutoEval은 최소한의 인간 개입으로 24시간 내내 일반적인 로봇 정책을 자동으로 평가하는 시스템입니다. 사용자는 클러스터 스케줄링 시스템처럼 AutoEval 큐에 평가 작업을 제출하고, AutoEval은 자동 성공 감지 및 자동 장면 재설정 프레임워크 내에서 정책 평가를 스케줄링합니다. 실험 결과, AutoEval이 인간의 개입을 거의 완전히 제거하고 24시간 평가를 가능하게 하며, 평가 결과가 수동으로 수행된 실제 평가 결과와 거의 일치함을 보여줍니다. WidowX 로봇 팔을 사용하는 BridgeData 로봇 설정에서 여러 AutoEval 장면에 대한 공개 액세스를 제공하여 일반적인 정책 평가를 용이하게 합니다. 향후 다양하고 분산된 평가 네트워크를 구축하기 위해 여러 기관에서 AutoEval 장면을 설정할 수 있기를 기대합니다.