Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

$\mathcal{E}_0$: Enhancing Generalization and Fine-Grained Control in VLA Models via Continuized Discrete Diffusion

Created by
  • Haebom
Category
Empty

저자

Zhihao Zhan, Jiaying Zhou, Likui Zhang, Qinhan Lv, Hao Liu, Jusheng Zhang, Weizheng Li, Ziliang Chen, Tianshui Chen, Keze Wang, Liang Lin, Guangrun Wang

개요

비전-언어-행동 (VLA) 모델은 시각적 인식, 언어 이해, 제어 생성을 통합하여 로봇 조작을 위한 통합 프레임워크를 제공한다. E0는 양자화된 행동 토큰에 대한 반복적인 노이즈 제거를 통해 행동 생성을 공식화하는 연속적인 이산 확산 프레임워크이다. 이산 행동 토큰은 사전 학습된 VLM/VLA 백본의 기호 구조와 자연스럽게 정렬되고, 이산 확산은 실제 로봇 제어의 양자화된 특성과 일치하여 더 나은 일반화를 이룬다. E0는 더 크고 세분화된 행동 어휘를 지원하며, 마스크 기반 부패로 인한 분포 불일치를 방지한다. 추가 데이터 없이 카메라 시프트에 대한 견고성을 향상시키기 위해 구형 뷰포인트 섭동 증강 방법을 도입했다. LIBERO, VLABench, ManiSkill에서 14개의 다양한 환경에서 실험한 결과, E0는 평균 10.7% 더 높은 성능을 보였다. Franka 팔에 대한 실제 평가를 통해 E0는 정확하고 견고하며 이전 가능한 조작을 제공하여 일반화 가능한 VLA 정책 학습에 대한 유망한 방향을 제시한다.

시사점, 한계점

시사점:
이산 확산 프레임워크를 사용하여 VLA 모델의 일반화 성능을 향상시켰다.
이산 행동 토큰과 실제 로봇 제어의 양자화된 특성을 활용하여 정확한 액션 제어를 가능하게 했다.
구형 뷰포인트 섭동 증강을 통해 카메라 시프트에 대한 견고성을 높였다.
여러 환경에서 SOTA 성능을 달성했으며, 실제 로봇 조작에서도 효과를 입증했다.
한계점:
논문에서 구체적인 한계점은 명시되지 않음.
👍