본 논문은 인터넷 규모의 제어 데이터 부족으로 인해 강화학습 에이전트의 일반화가 어려운 점을 해결하기 위해, 비전-언어 모델(VLM)의 이미지 이해 능력을 활용하여 강화학습 피드백(RLAIF)을 제시합니다. VLM이 행동 조건화 학습 데이터가 없어 제어 작업 해결에는 제한적이지만, 성공적인 결과를 인식하여 강화학습 과제에 귀중한 피드백을 제공할 수 있다는 점에 착안했습니다. 특히 오프라인 강화학습 환경에서 VLM 유도 신호를 학습 과정에 통합하는 방법으로, 서브-트래젝토리 필터링 최적화라는 새로운 방법론을 제시합니다. 이 방법론은 서브-트래젝토리 사용의 중요성, 비마르코프 보상 신호의 필요성, 그리고 필터링 및 가중치 부여 행동 복제의 효과성 등 세 가지 주요 통찰력을 제시하며, 특히 서브-트래젝토리 필터링 행동 복제 기법을 통해 실패 이전의 서브-트래젝토리를 제거하여 강건성을 높이고 불안정성을 방지합니다. 현재는 간단한 제어 도메인에서의 초기 평가 결과를 제시하는 예비 연구 단계입니다.