Sign In

Affordance-Guided Reinforcement Learning via Visual Prompting

Created by
  • Haebom
Category
Empty

저자

Olivia Y. Lee, Annie Xie, Kuan Fang, Karl Pertsch, Chelsea Finn

개요

본 논문은 강화학습(RL) 기반 로봇이 보상 신호만으로 다양한 기술을 학습할 수 있는 잠재력을 가지고 있지만, 일반적인 조작 작업에 대한 강력하고 밀도 높은 보상 신호를 얻는 것이 어렵다는 점을 지적합니다. 기존 학습 기반 접근 방식은 작업 특정 보상 함수를 학습하기 위해 성공 및 실패에 대한 사람의 시범과 같은 상당한 데이터를 필요로 합니다. 본 논문에서는 시각-언어 모델(VLMs)에 의해 형성된 보상을 활용하는 방법인 Keypoint-based Affordance Guidance for Improvements (KAGI)를 제시합니다. 최첨단 VLMs는 제로샷에서 주요 지점을 통한 여유 공간에 대한 인상적인 추론을 보여주었으며, 이를 사용하여 자율 로봇 학습을 안내하는 밀도 높은 보상을 정의합니다. 자연어 설명으로 지정된 실제 조작 작업에서 KAGI는 자율 RL의 샘플 효율성을 향상시키고 20K 온라인 미세 조정 단계에서 작업을 성공적으로 완료할 수 있도록 합니다. 또한, 사전 훈련에 사용되는 도메인 내 데모 수 감소에 대한 KAGI의 강력함을 보여주며, 35K 온라인 미세 조정 단계에서 유사한 성능에 도달합니다.

시사점, 한계점

시사점:
시각-언어 모델(VLMs)을 활용하여 강화학습(RL)의 샘플 효율성을 향상시키는 새로운 방법 제시.
자연어 설명으로 지정된 실제 조작 작업에서 성공적인 작업 완료 가능성 증명.
도메인 내 데모 수 감소에도 강력한 성능 유지.
VLMs의 제로샷 능력을 활용하여 밀도 높은 보상 함수 생성.
한계점:
KAGI의 성능이 VLMs의 성능에 의존적일 수 있음. VLMs의 한계가 KAGI의 성능에도 영향을 미칠 수 있음.
실제 세계의 다양한 조작 작업에 대한 일반화 성능에 대한 추가적인 연구 필요.
20K 또는 35K 온라인 미세 조정 단계는 여전히 상당한 양의 학습 데이터를 필요로 함. 더욱 향상된 샘플 효율성을 위한 추가 연구 필요.
사용된 VLMs의 특정 종류에 대한 의존성 및 다른 VLMs로의 일반화 가능성에 대한 추가 분석 필요.
👍