Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

HiFi-CS: Towards Open Vocabulary Visual Grounding For Robotic Grasping Using Vision-Language Models

Created by
  • Haebom
Category
Empty

저자

Vineet Bhat, Prashanth Krishnamurthy, Ramesh Karri, Farshad Khorrami

개요

본 논문은 자연어를 통해 인간과 상호 작용하는 로봇의 응용 분야 중 하나인 Referring Grasp Synthesis (RGS)에 초점을 맞추고 있습니다. RGS는 텍스트 질의를 받아 로봇 작업 공간에서 지시된 물체를 조작하기 위한 안정적인 그립 자세를 결정하는 과정입니다. 이를 위해 시각적 기반 설정과 그립 자세 추정 두 단계를 거치며, 본 논문에서는 복잡하고 어지러운 환경에서 여러 개의 동일한 물체가 존재하는 경우의 비교가 부족하다는 점을 지적합니다. 따라서 본 논문은 계층적 Featurewise Linear Modulation (FiLM)을 적용하여 이미지와 텍스트 임베딩을 융합함으로써 복잡한 속성이 풍부한 텍스트 질의에 대한 시각적 기반 설정을 향상시키는 HiFi-CS 모델을 제시합니다. HiFi-CS는 경량 디코더와 고정된 VLM을 결합하여 폐쇄형 어휘 설정에서 경쟁 기준 모델보다 성능이 우수하며, 크기는 100배 작습니다. 또한 GroundedSAM과 같은 열린 집합 객체 검출기를 효과적으로 안내하여 개방형 어휘 성능을 향상시킬 수 있습니다. 7자유도 로봇 팔을 사용한 실제 RGS 실험을 통해 15개의 테이블톱 장면에서 90.33%의 시각적 기반 설정 정확도를 달성했습니다.

시사점, 한계점

시사점:
복잡하고 어지러운 환경에서 다수의 동일한 물체 존재 시에도 높은 정확도의 시각적 기반 설정 달성 (90.33%).
경량 모델(경쟁 모델 대비 100배 작음)임에도 불구하고 우수한 성능을 보임.
폐쇄형 어휘뿐 아니라 개방형 어휘 설정에서도 성능 향상 가능성 제시.
실제 로봇 팔을 이용한 실험을 통해 실용성 검증.
공개된 코드베이스를 통해 재현성 확보.
한계점:
실험 환경이 테이블톱 장면으로 제한됨. 다양한 환경에서의 일반화 성능 검증 필요.
개방형 어휘 설정에서의 성능 향상은 GroundedSAM과의 결합을 통해 이루어졌으므로, HiFi-CS 자체의 개방형 어휘 처리 능력에 대한 추가적인 연구 필요.
특정 유형의 그립(안정적인 그립)에 국한된 연구. 다양한 그립 유형에 대한 확장 필요.
👍