DriveMoE: Mixture-of-Experts for Vision-Language-Action Model in End-to-End Autonomous Driving
Created by
Haebom
저자
Zhenjie Yang, Yilin Chai, Xiaosong Jia, Qifeng Li, Yuqian Shao, Xuekai Zhu, Haisheng Su, Junchi Yan
개요
본 논문은 다양하고 복잡한 주행 상황, 특히 공격적인 턴과 같은 드문 조작을 포함하여 다중 뷰 감각 데이터를 효과적으로 처리하고 견고하게 처리해야 하는 엔드투엔드 자율 주행(E2E-AD)에 대해 다룹니다. 대규모 언어 모델(LLM)에서 Mixture-of-Experts(MoE) 아키텍처의 최근 성공은 매개변수의 특수화가 강력한 확장성을 가능하게 함을 보여줍니다. 이 연구는 장면 특화 비전 MoE와 기술 특화 액션 MoE를 갖춘 새로운 MoE 기반 E2E-AD 프레임워크인 DriveMoE를 제안합니다. DriveMoE는 구현 AI 분야에서 유래한 $\pi_0$ Vision-Language-Action(VLA) 기준 모델인 Drive-$\pi_0$을 기반으로 구축됩니다. 구체적으로, 주행 컨텍스트에 따라 관련 카메라를 동적으로 선택하는 라우터를 훈련하여 Drive-$\pi_0$에 비전 MoE를 추가합니다. 이 설계는 운전자가 모든 시각 정보를 철저히 처리하는 대신 중요한 시각적 단서에 선택적으로 주의를 기울이는 인간 주행 인지 과정을 반영합니다. 또한, 서로 다른 주행 행동에 대해 전문가 모듈을 활성화하는 또 다른 라우터를 훈련하여 액션 MoE를 추가합니다. 명시적인 행동 특수화를 통해 DriveMoE는 기존 모델과 같은 모드 평균화 문제 없이 다양한 시나리오를 처리할 수 있습니다. Bench2Drive 폐루프 평가 실험에서 DriveMoE는 최첨단(SOTA) 성능을 달성하여 자율 주행 작업에서 비전 및 액션 MoE를 결합하는 효과를 보여줍니다. 본 논문에서는 DriveMoE와 Drive-$\pi_0$의 코드와 모델을 공개할 예정입니다.
시사점, 한계점
•
시사점:
◦
MoE 아키텍처를 활용하여 E2E-AD에서 다양한 주행 시나리오에 대한 견고성과 확장성을 향상시켰습니다.
◦
비전 MoE와 액션 MoE를 결합하여 인간의 주행 인지 과정을 모방함으로써 효율적인 정보 처리를 구현했습니다.
◦
Bench2Drive에서 SOTA 성능을 달성하여 제안된 방법의 효과를 입증했습니다.
◦
코드와 모델을 공개하여 연구의 재현성과 발전을 촉진합니다.
•
한계점:
◦
Bench2Drive 데이터셋에 대한 평가 결과만 제시되어 다른 데이터셋으로의 일반화 성능은 아직 불확실합니다.
◦
MoE 아키텍처의 복잡성으로 인해 계산 비용이 높을 수 있습니다.
◦
실제 도로 환경에서의 성능 평가가 부족합니다.
◦
라우터의 성능이 전체 시스템 성능에 큰 영향을 미치므로 라우터의 안정성 및 신뢰성에 대한 추가적인 연구가 필요합니다.