MoLe-VLA: Dynamic Layer-skipping Vision Language Action Model via Mixture-of-Layers for Efficient Robot Manipulation
Created by
Haebom
Category
Empty
저자
Rongyu Zhang, Menghang Dong, Yuan Zhang, Liang Heng, Xiaowei Chi, Gaole Dai, Li Du, Dan Wang, Yuan Du, Shanghang Zhang
개요
본 논문은 다중 모달 대규모 언어 모델(MLLM)의 높은 계산 및 저장 요구량으로 인한 실세계 배치의 어려움을 해결하기 위해, 신경과학의 Shallow Brain Hypothesis(SBH)와 전문가 혼합 모델 희소화 기법에 착안하여 새로운 아키텍처 MoLe-VLA를 제안합니다. MoLe-VLA는 각 LLM 레이어를 전문가로 간주하고, Spatial-Temporal Aware Router(STAR)를 통해 로봇의 현재 상태에 따라 레이어의 일부만 선택적으로 활성화하여 효율성을 높입니다. 또한, MoLe에서 손실된 LLMs의 인지 능력을 보완하기 위해 Cognition Self-Knowledge Distillation(CogKD) 프레임워크를 제시합니다. RLBench 시뮬레이션 및 실제 환경에서의 실험 결과, MoLe-VLA는 기존 LLM에 비해 평균 성공률을 8% 향상시키면서 계산 비용을 최대 5.6배까지 줄이는 효율성과 성능을 보여줍니다.