본 논문은 강화 학습(RL) 기반 로봇이 보상 신호만으로 다양한 기술을 학습할 수 있는 잠재력을 가지고 있지만, 일반적인 조작 작업에 대한 강력하고 밀집된 보상 신호를 얻는 것이 어려운 점을 지적합니다. 기존의 학습 기반 접근 방식은 작업 특정 보상 함수를 학습하기 위해 성공과 실패에 대한 인간 시범과 같은 상당한 데이터를 필요로 합니다. 본 논문에서는 시각 언어 모델(VLMs)에 의해 형성된 보상을 활용하는 방법인 KAGI(Keypoint-based Affordance Guidance for Improvements)를 제시합니다. 최첨단 VLMs는 제로샷에서 키포인트를 통한 적응성에 대한 인상적인 추론을 보여주며, 이를 사용하여 자율 로봇 학습을 안내하는 밀집된 보상을 정의합니다. 자연어 설명으로 지정된 실제 조작 작업에서 KAGI는 자율 RL의 샘플 효율성을 향상시키고 30K 온라인 미세 조정 단계에서 작업을 성공적으로 완료할 수 있게 합니다. 또한, 사전 훈련에 사용되는 도메인 내 데모 수 감소에 대한 KAGI의 강력성을 보여주며, 45K 온라인 미세 조정 단계에서 유사한 성능에 도달합니다.