Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Robo2VLM: Visual Question Answering from Large-Scale In-the-Wild Robot Manipulation Datasets

Created by
  • Haebom

저자

Kaiyuan Chen, Shuangyu Xie, Zehan Ma, Ken Goldberg

개요

본 논문은 로봇의 다중 모달리티(시각, 힘 센서, 그리퍼 개방 정도 등) 트레이젝토리 데이터를 활용하여 Vision-Language Model(VLM)을 향상시키고 평가하는 새로운 패러다임을 제시합니다. Robo2VLM이라는 VQA(Visual Question Answering) 데이터셋 생성 프레임워크를 제안하며, 이는 실제 로봇 트레이젝토리를 단계별 조작 단계로 분할하고, 각 단계에 대한 시각적 질문과 답변 쌍을 생성합니다. 특히, 공간적, 목표 조건부, 상호 작용 추론 질문 템플릿을 기반으로 다양한 질문을 생성하여 VLM의 성능을 평가하고 향상시키는 데 초점을 맞춥니다. 실제 로봇 트레이젝토리 176,000개를 기반으로 463개의 서로 다른 장면과 3,396개의 로봇 조작 작업을 포함하는 대규모 VQA 데이터셋 Robo2VLM-1 (684,710개 질문)을 공개합니다. 실험 결과는 Robo2VLM-1이 VLM의 공간 및 상호 작용 추론 능력을 벤치마킹하고 향상시키는 데 효과적임을 보여줍니다.

시사점, 한계점

시사점:
실제 로봇 상호작용 데이터를 활용하여 VLM의 성능을 향상시키고 평가하는 새로운 접근 방식 제시
대규모 실제 환경 기반 VQA 데이터셋 Robo2VLM-1 공개
VLM의 공간 및 상호작용 추론 능력 향상에 기여
로봇 제어 및 인공지능 분야의 발전에 기여
한계점:
Robo2VLM-1 데이터셋의 다양성 및 일반화 성능에 대한 추가적인 연구 필요
특정 로봇 플랫폼 및 작업에 편향될 가능성 존재
데이터셋 생성 과정의 복잡성 및 비용 문제
다른 모달리티 데이터 (예: 음성, 텍스트)와의 통합에 대한 추가 연구 필요
👍