본 논문은 강화학습(RL) 기반 로봇이 보상 신호만으로 다양한 기술을 학습할 수 있는 잠재력을 가지고 있지만, 일반적인 조작 작업에 대한 강력하고 밀도 높은 보상 신호를 얻는 것이 어렵다는 점을 지적합니다. 기존 학습 기반 접근 방식은 작업 특정 보상 함수를 학습하기 위해 성공 및 실패에 대한 사람의 시범과 같은 상당한 데이터를 필요로 합니다. 본 논문에서는 시각-언어 모델(VLMs)에 의해 형성된 보상을 활용하는 방법인 Keypoint-based Affordance Guidance for Improvements (KAGI)를 제시합니다. 최첨단 VLMs는 제로샷에서 주요 지점을 통한 여유 공간에 대한 인상적인 추론을 보여주었으며, 이를 사용하여 자율 로봇 학습을 안내하는 밀도 높은 보상을 정의합니다. 자연어 설명으로 지정된 실제 조작 작업에서 KAGI는 자율 RL의 샘플 효율성을 향상시키고 20K 온라인 미세 조정 단계에서 작업을 성공적으로 완료할 수 있도록 합니다. 또한, 사전 훈련에 사용되는 도메인 내 데모 수 감소에 대한 KAGI의 강력함을 보여주며, 35K 온라인 미세 조정 단계에서 유사한 성능에 도달합니다.