Dechen Gao, Boqi Zhao, Andrew Lee, Ian Chuang, Hanchu Zhou, Hang Wang, Zhe Zhao, Junshan Zhang, Iman Soltani
VITA: Vision-To-Action Policy
개요
본 논문은 시각 정보를 행동으로 직접 매핑하는 노이즈 없는, 조건 없는 정책 학습 프레임워크인 VITA (VIsion-To-Action policy)를 제시합니다. VITA는 흐름 매칭을 사용하여 잠재 시각 표현을 흐름의 소스로 처리함으로써 조건화 메커니즘을 제거하고 시간 및 메모리 오버헤드를 줄입니다. 행동은 시각 표현보다 차원이 낮고 구조화되지 않으며 희소하기 때문에, 행동 자동 인코더를 도입하여 원시 행동을 시각 잠재와 정렬된 구조화된 잠재 공간으로 매핑합니다. 또한, 잠재 공간 붕괴를 방지하기 위해 흐름 매칭 ODE 단계를 통해 행동 재구성 손실을 역전파하는 흐름 잠재 디코딩을 제안합니다. VITA는 ALOHA 및 Robomimic의 시뮬레이션 및 실제 환경에서 기존 생성 정책보다 우수한 성능을 보이면서, 조건화를 사용하는 기존 방식보다 1.5~2.3배 빠른 추론 속도를 달성했습니다.
시사점, 한계점
•
시사점:
◦
시각 정보를 행동으로 직접 매핑하는 새로운 접근 방식을 제시하여 조건화의 필요성을 제거하고, 기존 방법보다 빠른 추론 속도를 달성.
◦
행동 자동 인코더 및 흐름 잠재 디코딩을 통해 시각-행동 간의 차이를 극복하는 방법을 제시.