본 논문은 다양한 환경에서 다양한 작업을 수행할 수 있는 로봇 범용성 평가를 위한 새로운 벤치마킹 프레임워크를 소개한다. 실제 로봇 테스트의 한계점(노동 집약적, 느림, 안전 문제, 재현 어려움)과 기존 시뮬레이션 벤치마크의 한계를 극복하고자, 온라인 인간 피드백을 활용한 대규모 시뮬레이션 환경에서의 VLA(Vision-Language Agent) 평가를 제안한다. 2D-to-3D 생성 모델링, 차별적 렌더링을 활용하여 실제 로봇 데이터셋의 비디오 시연을 시뮬레이션 환경으로 자동 변환하고, VLM(Vision-Language Model) 기반 자동 점수 매기기와 크라우드 워커의 인간 선호도 판단을 통해 VLA 정책을 평가한다. 또한, 텍스처 및 객체 배치 등의 환경을 체계적으로 변화시켜 정책의 일반화 성능을 측정한다.