본 논문은 로봇에게 자연어로 작업을 지시하는 방식에 대한 연구를 다룹니다. 기존의 방법은 각 로봇에 대해 방대한 양의 언어 주석이 달린 데모 데이터를 필요로 하는 반면, 본 논문에서는 "무엇을 달성할 것인가"와 "어떻게 달성할 것인가"를 분리하는 접근 방식을 제시합니다. "무엇을 달성할 것인가"는 외부 관찰 데이터를 활용할 수 있고, "어떻게 달성할 것인가"는 특정 로봇의 형태에 의존합니다. 이를 위해, 대조 학습과 시간적 순위 매기기를 사용하여 다양한 로봇 데이터로 학습 가능한 Video-Language Critic이라는 보상 모델을 제안합니다. Open X-Embodiment 데이터로 학습된 보상 모델은 Meta-World 작업에서 스파스 보상만 사용하는 경우보다 2배 더 높은 샘플 효율성을 보였으며, 도메인 간격이 큰 경우에도 효과적임을 보여줍니다. 또한, Meta-World의 어려운 작업 일반화 설정에서 기존의 언어 조건부 보상 모델보다 더 높은 샘플 효율성을 달성했습니다. 기존 모델과의 차이점은 이진 분류를 사용하거나, 정적 이미지를 사용하거나, 비디오 데이터의 시간 정보를 활용하지 않는다는 점입니다.