Sign In

RobotArena $\infty$: Scalable Robot Benchmarking via Real-to-Sim Translation

Created by
  • Haebom
Category
Empty

저자

Yash Jangir, Yidi Zhang, Kashu Yamazaki, Chenyu Zhang, Kuan-Hsun Tu, Tsung-Wei Ke, Lei Ke, Yonatan Bisk, Katerina Fragkiadaki

로봇 범용성 평가를 위한 새로운 벤치마킹 프레임워크

개요

본 논문은 다양한 환경에서 다양한 작업을 수행할 수 있는 로봇 범용성 평가를 위한 새로운 벤치마킹 프레임워크를 소개한다. 실제 로봇 테스트의 한계점(노동 집약적, 느림, 안전 문제, 재현 어려움)과 기존 시뮬레이션 벤치마크의 한계를 극복하고자, 온라인 인간 피드백을 활용한 대규모 시뮬레이션 환경에서의 VLA(Vision-Language Agent) 평가를 제안한다. 2D-to-3D 생성 모델링, 차별적 렌더링을 활용하여 실제 로봇 데이터셋의 비디오 시연을 시뮬레이션 환경으로 자동 변환하고, VLM(Vision-Language Model) 기반 자동 점수 매기기와 크라우드 워커의 인간 선호도 판단을 통해 VLA 정책을 평가한다. 또한, 텍스처 및 객체 배치 등의 환경을 체계적으로 변화시켜 정책의 일반화 성능을 측정한다.

시사점, 한계점

시사점:
실제 로봇 데이터셋을 활용한 시뮬레이션 환경 구축을 통해 실제 환경에서의 정책 성능 평가 가능.
자동 점수 매기기와 인간 선호도 판단의 결합을 통해 확장 가능한 평가 시스템 구축.
환경 변화를 통한 정책의 견고성(robustness) 평가.
실제 훈련된 로봇 조작 정책에 대한 지속적으로 진화하는 재현 가능하고 확장 가능한 벤치마크 제공.
한계점:
VLA 모델 의존성 및 성능에 따른 평가 정확도 변동 가능성.
시뮬레이션 환경의 실제 환경과의 격차 (Sim-to-Real gap) 문제.
크라우드 워커의 주관적 판단에 따른 평가 결과의 편향 가능성.
2D-to-3D 변환 및 렌더링 과정에서의 기술적 한계.
👍