본 논문은 인터넷 규모의 제어 데이터 부족으로 인해 강화학습 에이전트의 일반화가 어려운 점을 해결하기 위해, 비전-언어 모델(VLM)의 이미지 이해 능력을 활용하여 강화학습에서 AI 피드백을 활용하는 방법(RLAIF)을 제시한다. 특히 오프라인 강화학습 환경에서 VLM으로부터 얻은 신호를 효과적으로 통합하는 방법으로 '부분 경로 필터링 최적화(sub-trajectory filtered optimization)'라는 새로운 방법론을 제안한다. 핵심 아이디어는 전체 경로가 아닌 부분 경로를 사용하여 VLM의 피드백을 활용하고, 실패 이전의 부분 경로를 제거하는 후행 필터링 메커니즘을 통해 강건성을 높이는 것이다. 단순하지만 효과적인 필터링 및 가중치 부여 행동 복제(filtered and weighted behavior cloning) 기법이 복잡한 인간 피드백 기반 강화학습 방법보다 성능이 우수함을 보여주는 초기 결과를 토이 제어 도메인 실험을 통해 제시한다. 이는 전체 경로 학습의 문제점(stitching problem)을 해결하고, 비마르코프 보상 신호를 통해 VLM이 행동을 직접 해석하지 않고도 시각적 단서를 이용하여 경로 개선 여부를 평가할 수 있도록 한다는 점을 강조한다.