Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

VITA: Vision-to-Action Flow Matching Policy

Created by
  • Haebom

저자

Dechen Gao, Boqi Zhao, Andrew Lee, Ian Chuang, Hanchu Zhou, Hang Wang, Zhe Zhao, Junshan Zhang, Iman Soltani

VITA: Vision-To-Action Policy

개요

본 논문은 시각 정보를 행동으로 직접 매핑하는 노이즈 없는, 조건 없는 정책 학습 프레임워크인 VITA (VIsion-To-Action policy)를 제시합니다. VITA는 흐름 매칭을 사용하여 잠재 시각 표현을 흐름의 소스로 처리함으로써 조건화 메커니즘을 제거하고 시간 및 메모리 오버헤드를 줄입니다. 행동은 시각 표현보다 차원이 낮고 구조화되지 않으며 희소하기 때문에, 행동 자동 인코더를 도입하여 원시 행동을 시각 잠재와 정렬된 구조화된 잠재 공간으로 매핑합니다. 또한, 잠재 공간 붕괴를 방지하기 위해 흐름 매칭 ODE 단계를 통해 행동 재구성 손실을 역전파하는 흐름 잠재 디코딩을 제안합니다. VITA는 ALOHA 및 Robomimic의 시뮬레이션 및 실제 환경에서 기존 생성 정책보다 우수한 성능을 보이면서, 조건화를 사용하는 기존 방식보다 1.5~2.3배 빠른 추론 속도를 달성했습니다.

시사점, 한계점

시사점:
시각 정보를 행동으로 직접 매핑하는 새로운 접근 방식을 제시하여 조건화의 필요성을 제거하고, 기존 방법보다 빠른 추론 속도를 달성.
행동 자동 인코더 및 흐름 잠재 디코딩을 통해 시각-행동 간의 차이를 극복하는 방법을 제시.
시뮬레이션 및 실제 환경에서 state-of-the-art 성능을 입증.
한계점:
논문에서 구체적인 한계점은 명시적으로 언급되지 않음. (논문 초록 기반)
👍