TIGeR: Tool-Integrated Geometric Reasoning in Vision-Language Models for Robotics
Created by
Haebom
저자
Yi Han, Cheng Chi, Enshen Zhou, Shanyu Rong, Jingkun An, Pengwei Wang, Zhongyuan Wang, Lu Sheng, Shanghang Zhang
개요
Vision-Language Models (VLMs)의 한계점을 극복하기 위해, TIGeR (Tool-Integrated Geometric Reasoning) 프레임워크를 제안합니다. TIGeR는 VLMs가 외부 도구를 통해 정확한 기하학적 계산을 생성하고 실행하도록 하여, 기존의 패턴 인식 방식의 한계를 넘어 실제 로봇 공학에 필요한 정밀도를 제공합니다. TIGeR는 기하학적 추론 요구 사항을 인식하고, 적절한 계산 코드를 합성하며, 전문 라이브러리를 호출합니다. TIGeR-300K 데이터셋과 2단계 훈련 파이프라인을 통해 기하학적 추론 벤치마크에서 SOTA 성능을 달성하고, 실제 로봇 조작 작업에서 센티미터 수준의 정밀도를 보여줍니다.