RoboRefer: Towards Spatial Referring with Reasoning in Vision-Language Models for Robotics
Created by
Haebom
Category
Empty
저자
Enshen Zhou, Jingkun An, Cheng Chi, Yi Han, Shanyu Rong, Chi Zhang, Pengwei Wang, Zhongyuan Wang, Tiejun Huang, Lu Sheng, Shanghang Zhang
개요
본 논문은 3D 환경에서 로봇의 공간 이해 및 상호 작용 능력을 향상시키기 위해 개발된 RoboRefer라는 3D-aware 시각 언어 모델(VLM)을 제시합니다. RoboRefer는 분리된 깊이 인코더를 통합하여 정확한 공간 이해를 달성하고, 강화 학습을 통해 일반화된 다단계 공간 추론을 수행합니다. 이를 위해, 2000만 개의 질문-응답 쌍을 포함하는 RefSpatial 대규모 데이터 세트와 RefSpatial-Bench라는 새로운 벤치마크를 도입하여 모델의 성능을 평가합니다. RoboRefer는 SFT (supervised fine-tuning)를 통해 최첨단 공간 이해를 달성하고, RFT (reinforcement fine-tuning)를 통해 여러 경쟁 모델들을 뛰어넘는 성능을 보여주었습니다. 또한, 다양한 로봇 및 복잡한 실제 환경에서 장기적인 동적 작업 수행 능력을 입증했습니다.
시사점, 한계점
•
시사점:
◦
RoboRefer는 3D 공간 이해와 다단계 공간 추론 능력을 모두 향상시켜 로봇의 실제 환경 상호 작용 능력을 크게 개선했습니다.
◦
새로운 데이터 세트 RefSpatial과 벤치마크 RefSpatial-Bench의 도입은 공간 추론 연구의 발전에 기여할 것입니다.