Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

TIGeR: Tool-Integrated Geometric Reasoning in Vision-Language Models for Robotics

Created by
  • Haebom

저자

Yi Han, Cheng Chi, Enshen Zhou, Shanyu Rong, Jingkun An, Pengwei Wang, Zhongyuan Wang, Lu Sheng, Shanghang Zhang

개요

Vision-Language Models (VLMs)의 한계점을 극복하기 위해, TIGeR (Tool-Integrated Geometric Reasoning) 프레임워크를 제안합니다. TIGeR는 VLMs가 외부 도구를 통해 정확한 기하학적 계산을 생성하고 실행하도록 하여, 기존의 패턴 인식 방식의 한계를 넘어 실제 로봇 공학에 필요한 정밀도를 제공합니다. TIGeR는 기하학적 추론 요구 사항을 인식하고, 적절한 계산 코드를 합성하며, 전문 라이브러리를 호출합니다. TIGeR-300K 데이터셋과 2단계 훈련 파이프라인을 통해 기하학적 추론 벤치마크에서 SOTA 성능을 달성하고, 실제 로봇 조작 작업에서 센티미터 수준의 정밀도를 보여줍니다.

시사점, 한계점

시사점:
VLMs의 기하학적 추론 능력을 향상시켜 로봇 공학의 실용성을 높임.
외부 도구를 활용하여 복잡한 기하학적 계산을 정확하게 수행.
센티미터 수준의 정밀도를 통해 실질적인 로봇 조작 가능성을 제시.
TIGeR-300K 데이터셋 및 2단계 훈련 파이프라인을 통해 SOTA 달성.
한계점:
구체적인 모델 구조 및 도구의 종류에 대한 정보 부족.
외부 도구의 의존성으로 인한 계산 속도 및 외부 환경 변화에 대한 취약성 가능성.
훈련 데이터셋의 규모 및 다양성에 따른 일반화 성능 제한 가능성.
복잡한 환경에서의 TIGeR의 성능 검증에 대한 추가적인 연구 필요.
👍