비전-언어-행동 (VLA) 모델은 시각적 인식, 언어 이해, 제어 생성을 통합하여 로봇 조작을 위한 통합 프레임워크를 제공한다. E0는 양자화된 행동 토큰에 대한 반복적인 노이즈 제거를 통해 행동 생성을 공식화하는 연속적인 이산 확산 프레임워크이다. 이산 행동 토큰은 사전 학습된 VLM/VLA 백본의 기호 구조와 자연스럽게 정렬되고, 이산 확산은 실제 로봇 제어의 양자화된 특성과 일치하여 더 나은 일반화를 이룬다. E0는 더 크고 세분화된 행동 어휘를 지원하며, 마스크 기반 부패로 인한 분포 불일치를 방지한다. 추가 데이터 없이 카메라 시프트에 대한 견고성을 향상시키기 위해 구형 뷰포인트 섭동 증강 방법을 도입했다. LIBERO, VLABench, ManiSkill에서 14개의 다양한 환경에서 실험한 결과, E0는 평균 10.7% 더 높은 성능을 보였다. Franka 팔에 대한 실제 평가를 통해 E0는 정확하고 견고하며 이전 가능한 조작을 제공하여 일반화 가능한 VLA 정책 학습에 대한 유망한 방향을 제시한다.
시사점, 한계점
•
시사점:
◦
이산 확산 프레임워크를 사용하여 VLA 모델의 일반화 성능을 향상시켰다.
◦
이산 행동 토큰과 실제 로봇 제어의 양자화된 특성을 활용하여 정확한 액션 제어를 가능하게 했다.