본 논문은 로봇의 다중 모달리티(시각, 힘 센서, 그리퍼 개방 정도 등) 트레이젝토리 데이터를 활용하여 Vision-Language Model(VLM)을 향상시키고 평가하는 새로운 패러다임을 제시합니다. Robo2VLM이라는 VQA(Visual Question Answering) 데이터셋 생성 프레임워크를 제안하며, 이는 실제 로봇 트레이젝토리를 단계별 조작 단계로 분할하고, 각 단계에 대한 시각적 질문과 답변 쌍을 생성합니다. 특히, 공간적, 목표 조건부, 상호 작용 추론 질문 템플릿을 기반으로 다양한 질문을 생성하여 VLM의 성능을 평가하고 향상시키는 데 초점을 맞춥니다. 실제 로봇 트레이젝토리 176,000개를 기반으로 463개의 서로 다른 장면과 3,396개의 로봇 조작 작업을 포함하는 대규모 VQA 데이터셋 Robo2VLM-1 (684,710개 질문)을 공개합니다. 실험 결과는 Robo2VLM-1이 VLM의 공간 및 상호 작용 추론 능력을 벤치마킹하고 향상시키는 데 효과적임을 보여줍니다.