본 논문은 인터넷 규모의 제어 데이터 부족으로 인해 강화학습 에이전트의 일반화가 어려운 점을 해결하기 위해, 비전-언어 모델(VLMs)의 이미지 이해 능력을 활용하여 강화학습에서 피드백을 제공하는 방법을 제시한다. VLMs가 행동 조건화 학습 데이터가 없어 제어 작업 해결에는 한계가 있지만, 성공적인 결과를 인식하는 능력을 통해 강화학습(RL) 과제에 귀중한 피드백을 제공할 수 있다는 점에 착안했다. 본 논문에서는 오프라인 RL 환경에서 VLM 유도 신호를 학습 과정에 통합하는 방법으로, 서브-트래젝토리 필터링 최적화(sub-trajectory filtered optimization)라는 새로운 방법론을 제안한다. 특히 전체 트래젝토리 선호도 학습이 이음매 문제(stitching problem)를 악화시키므로 서브-트래젝토리를 사용해야 하고, 마르코프 환경에서도 VLM이 제어 행동을 해석하지 못하고 시각적 단서에 의존하기 때문에 비-마르코프 보상 신호가 필요하며, 필터링 및 가중 행동 복제(filtered and weighted behavior cloning)가 효과적이라는 세 가지 주요 통찰력을 제시한다. 마지막으로, 서브-트래젝토리에 대한 VLM 피드백을 활용하고 실패 이전의 서브-트래젝토리를 제거하는 역추적 필터링 메커니즘을 통합하여 강건성을 높이고 불안정성을 방지하는 서브-트래젝토리 필터링 행동 복제(sub-trajectory filtered behavior cloning) 방법을 제안하며, 간단한 토이 제어 도메인에서의 초기 실험 결과를 제시한다.