Mantis: A Versatile Vision-Language-Action Model with Disentangled Visual Foresight
Created by
Haebom
Category
Empty
저자
Yi Yang, Xueqi Li, Yiyang Chen, Jin Song, Yihan Wang, Zipeng Xiao, Jiadi Su, You Qiaoben, Pengfei Liu, Zhijie Deng
개요
Mantis는 시각 신호와 희소한 행동 지시를 효과적으로 결합하는 Vision-Language-Action (VLA) 모델의 한계를 해결하기 위해 제안된 새로운 프레임워크입니다. Mantis는 분리된 시각적 예측(DVF)을 통해 모델의 용량 분산을 줄이고, 압축으로 인한 정보 병목 현상을 방지하며, 언어 지침을 통해 이해력과 추론 능력을 향상시킵니다. Mantis는 메타 쿼리와 확산 변환기(DiT) 헤드를 사용하여 시각적 예측을 백본에서 분리합니다. 현 시각 상태를 DiT에 제공하고 다음 상태 예측 목표를 사용하여 메타 쿼리가 시각적 궤적을 정의하는 잠재적 행동을 자동으로 캡처하여 명시적 행동 학습을 향상시킵니다. Mantis는 LIBERO 벤치마크에서 96.7%의 성공률을 달성하고, 지도 따르기, 보이지 않는 지침에 대한 일반화, 추론 능력에서 뛰어난 성능을 보입니다.