본 논문은 사전 수집된, 최적이 아닌 데이터셋으로부터 온라인 상호작용 없이 정책 학습을 가능하게 하는 오프라인 강화학습(Offline Reinforcement Learning)에 대해 다룹니다. 특히, 실세계 로봇이나 안전이 중요한 시나리오에서 온라인 데이터 수집이나 전문가 데모 수집이 느리고 비용이 많이 들며 위험한 경우에 적합합니다. 기존의 대부분의 오프라인 강화학습 연구는 데이터셋이 이미 작업 보상으로 라벨링되어 있다고 가정하지만, 특히 실세계처럼 지상 진실 상태를 알아내기 어려운 경우에는 상당한 노력이 필요합니다. 본 논문에서는 RL-VLM-F를 기반으로, 비전-언어 모델의 선호도 피드백과 작업에 대한 텍스트 설명을 사용하여 오프라인 데이터셋에 대한 보상 라벨을 자동으로 생성하는 새로운 시스템을 제안합니다. 이 방법을 통해 보상 라벨이 지정된 데이터셋으로 오프라인 강화학습을 사용하여 정책을 학습합니다. 실제 로봇이 옷을 입히는 복잡한 작업에 대한 적용성을 보여주며, 비전-언어 모델을 사용하여 최적이 아닌 오프라인 데이터셋에서 보상 함수를 먼저 학습한 다음, 학습된 보상을 사용하여 암시적 Q 학습(Implicit Q learning)을 통해 효과적인 옷 입히기 정책을 개발합니다. 강체 및 변형 가능한 물체 조작이 포함된 시뮬레이션 작업에서도 좋은 성능을 보이며, 행동 복제(behavior cloning) 및 역 강화학습(inverse RL)과 같은 기준선보다 성능이 훨씬 우수합니다. 요약하자면, 라벨이 지정되지 않은 최적이 아닌 오프라인 데이터셋으로부터 자동 보상 라벨링 및 정책 학습을 가능하게 하는 새로운 시스템을 제안합니다.