A Survey on Efficient Vision-Language-Action Models
Created by
Haebom
Category
Empty
저자
Zhaoshu Yu, Bo Wang, Pengpeng Zeng, Haonan Zhang, Ji Zhang, Lianli Gao, Jingkuan Song, Nicu Sebe, Heng Tao Shen
개요
본 논문은 실세계 상호작용을 위한 Vision-Language-Action 모델(VLAs)의 효율성을 개선하는 데 초점을 맞춘다. 대규모 모델의 높은 계산 및 데이터 요구 사항으로 인한 배포 문제를 해결하기 위해, 데이터-모델-훈련 과정을 포괄적으로 다루는 Efficient VLAs에 대한 첫 번째 종합적인 검토를 제시한다. Efficient Model Design(효율적인 아키텍처 및 모델 압축), Efficient Training(모델 학습 중 계산 부담 감소), Efficient Data Collection(로봇 데이터 수집 및 활용 병목 현상 해결)의 세 가지 핵심 기둥으로 분류하여, 최신 기술을 비판적으로 검토하고, 응용 사례, 주요 과제 및 향후 연구 로드맵을 제시한다.
시사점, 한계점
•
시사점:
◦
Vision-Language-Action 모델의 효율성 향상을 위한 체계적인 분류 및 분석 제공.
◦
Efficient VLAs 분야의 연구 방향 제시 및 핵심 과제 식별.
◦
Efficient Model Design, Efficient Training, Efficient Data Collection의 세 가지 핵심 기둥을 통한 효율성 개선 방법 제시.