Towards Embodied Cognition in Robots via Spatially Grounded Synthetic Worlds
Created by
Haebom
저자
Joel Currie, Gioele Migno, Enrico Piacenti, Maria Elena Giannaccini, Patric Bach, Davide De Tommaso, Agnieszka Wykowska
개요
본 논문은 인간-로봇 상호작용(HRI)에 필수적인 구현된 인지 능력인 시각적 관점 취득(VPT)을 수행하도록 비전-언어 모델(VLM)을 훈련하기 위한 개념적 프레임워크를 제시합니다. 이 목표를 향한 첫 단계로, 공간 추론 작업에 대한 지도 학습을 가능하게 하는 NVIDIA Omniverse에서 생성된 합성 데이터셋을 소개합니다. 각 인스턴스에는 RGB 이미지, 자연어 설명, 그리고 객체 자세를 나타내는 기준 4x4 변환 행렬이 포함됩니다. 본 연구는 기본적인 기술로 Z축 거리 추론에 중점을 두고 있으며, 향후에는 6자유도(DOF) 추론을 목표로 확장할 계획입니다. 데이터셋은 공개적으로 이용 가능하여 추가 연구를 지원합니다. 이 연구는 상호작용적인 인간-로봇 시나리오에서 공간적 이해가 가능한 구현된 AI 시스템을 향한 기초적인 단계로서 기능합니다.