RoboSpatial은 로봇의 공간 이해 능력 향상을 위해 제작된 대규모 데이터셋입니다. 기존의 일반적인 이미지 데이터셋은 공간적 추론에 필요한 다양한 관점(ego-, world-, object-centric)을 충분히 반영하지 못하는 한계가 있었는데, RoboSpatial은 실내 및 테이블 위의 실제 환경을 3D 스캔과 시점 이미지로 캡처하고, 로봇에 관련된 풍부한 공간 정보를 주석으로 달아 이 문제를 해결합니다. 1백만 장의 이미지, 5천 개의 3D 스캔, 3백만 개의 주석이 달린 공간 관계를 포함하며, 2D 시점 이미지와 3D 스캔의 조합으로 2D 및 3D 작업 모두에 활용 가능합니다. 실험 결과, RoboSpatial로 학습된 모델은 공간적 기능 예측, 공간 관계 예측, 로봇 조작과 같은 후속 작업에서 기존 모델보다 성능이 우수함을 보였습니다.