Sign In

RoboRefer: Towards Spatial Referring with Reasoning in Vision-Language Models for Robotics

Created by
  • Haebom
Category
Empty

저자

Enshen Zhou, Jingkun An, Cheng Chi, Yi Han, Shanyu Rong, Chi Zhang, Pengwei Wang, Zhongyuan Wang, Tiejun Huang, Lu Sheng, Shanghang Zhang

개요

본 논문은 3D 환경에서 로봇의 공간 이해 및 상호 작용 능력을 향상시키기 위해 개발된 RoboRefer라는 3D-aware 시각 언어 모델(VLM)을 제시합니다. RoboRefer는 분리된 깊이 인코더를 통합하여 정확한 공간 이해를 달성하고, 강화 학습을 통해 일반화된 다단계 공간 추론을 수행합니다. 이를 위해, 2000만 개의 질문-응답 쌍을 포함하는 RefSpatial 대규모 데이터 세트와 RefSpatial-Bench라는 새로운 벤치마크를 도입하여 모델의 성능을 평가합니다. RoboRefer는 SFT (supervised fine-tuning)를 통해 최첨단 공간 이해를 달성하고, RFT (reinforcement fine-tuning)를 통해 여러 경쟁 모델들을 뛰어넘는 성능을 보여주었습니다. 또한, 다양한 로봇 및 복잡한 실제 환경에서 장기적인 동적 작업 수행 능력을 입증했습니다.

시사점, 한계점

시사점:
RoboRefer는 3D 공간 이해와 다단계 공간 추론 능력을 모두 향상시켜 로봇의 실제 환경 상호 작용 능력을 크게 개선했습니다.
새로운 데이터 세트 RefSpatial과 벤치마크 RefSpatial-Bench의 도입은 공간 추론 연구의 발전에 기여할 것입니다.
다양한 로봇 및 실제 환경에서 RoboRefer의 적용 가능성을 보여주었습니다.
한계점:
논문에서 구체적인 한계점에 대한 언급은 없습니다. (논문 요약 정보에 한함)
👍