Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Mantis: A Versatile Vision-Language-Action Model with Disentangled Visual Foresight

Created by
  • Haebom
Category
Empty

저자

Yi Yang, Xueqi Li, Yiyang Chen, Jin Song, Yihan Wang, Zipeng Xiao, Jiadi Su, You Qiaoben, Pengfei Liu, Zhijie Deng

개요

Mantis는 시각 신호와 희소한 행동 지시를 효과적으로 결합하는 Vision-Language-Action (VLA) 모델의 한계를 해결하기 위해 제안된 새로운 프레임워크입니다. Mantis는 분리된 시각적 예측(DVF)을 통해 모델의 용량 분산을 줄이고, 압축으로 인한 정보 병목 현상을 방지하며, 언어 지침을 통해 이해력과 추론 능력을 향상시킵니다. Mantis는 메타 쿼리와 확산 변환기(DiT) 헤드를 사용하여 시각적 예측을 백본에서 분리합니다. 현 시각 상태를 DiT에 제공하고 다음 상태 예측 목표를 사용하여 메타 쿼리가 시각적 궤적을 정의하는 잠재적 행동을 자동으로 캡처하여 명시적 행동 학습을 향상시킵니다. Mantis는 LIBERO 벤치마크에서 96.7%의 성공률을 달성하고, 지도 따르기, 보이지 않는 지침에 대한 일반화, 추론 능력에서 뛰어난 성능을 보입니다.

시사점, 한계점

시사점:
분리된 시각적 예측(DVF)을 통해 VLA 모델의 성능 향상.
메타 쿼리와 확산 변환기(DiT) 헤드를 활용한 새로운 프레임워크 제시.
언어 지침을 통해 이해력과 추론 능력 향상.
LIBERO 벤치마크에서 기존 모델 대비 높은 성공률 달성.
실제 환경에서 지도 따르기, 일반화, 추론 능력 우수성 입증.
코드 및 가중치 공개를 통한 오픈소스 커뮤니티 지원.
한계점:
논문에서 구체적인 한계점에 대한 언급은 없음.
👍