Sign In

TRACE: Textual Reasoning for Affordance Coordinate Extraction

Created by
  • Haebom
Category
Empty

저자

Sangyun Park, Jin Kim, Yuchen Cui, Matthew S. Brown

개요

본 논문은 Vision-Language Models (VLMs)이 로봇 조작에 필요한 정밀한 공간적 어포던스를 고차원적인 지침으로 변환하는 데 어려움을 겪는 문제를 해결하고자, 텍스트 기반 Chain of Reasoning (CoR)을 어포던스 예측 과정에 통합하는 TRACE (Textual Reasoning for Affordance Coordinate Extraction) 방법론을 제시한다. TRACE는 지침과 명시적인 텍스트 기반의 설명을 쌍으로 묶는 자동화된 파이프라인을 통해 대규모 TRACE 데이터 세트를 생성하고, 이를 통해 VLM을 미세 조정하여 공간적 추론을 수행하도록 학습시킨다. 실험 결과, TRACE 기반 모델은 Where2Place (W2P) 벤치마크에서 48.1% 정확도를 달성하여 기존 대비 9.6% 향상된 성능을 보였고, W2P(h) 하위 집합에서는 55.0%를 기록했다. 또한, 어블레이션 연구를 통해 추론 데이터의 양이 성능에 직접적인 영향을 미침을 확인했으며, 모델의 어텐션 맵 분석을 통해 해석 가능한 추론 과정을 보여주었다.

시사점, 한계점

시사점:
VLM 기반 로봇 제어의 정확성, 신뢰성, 해석 가능성을 향상시키는 효과적인 전략 제시.
텍스트 기반 Chain of Reasoning (CoR)의 중요성 입증.
대규모 TRACE 데이터 세트 및 코드 공개를 통한 연구 기여.
W2P 벤치마크에서 state-of-the-art 달성.
어텐션 맵 분석을 통한 해석 가능한 추론 과정 제시.
한계점:
구체적인 한계점은 논문에 명시되지 않음. (논문 요약 내용만으로는 파악 불가)
👍