Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

DriveMoE: Mixture-of-Experts for Vision-Language-Action Model in End-to-End Autonomous Driving

Created by
  • Haebom

저자

Zhenjie Yang, Yilin Chai, Xiaosong Jia, Qifeng Li, Yuqian Shao, Xuekai Zhu, Haisheng Su, Junchi Yan

개요

본 논문은 다양하고 복잡한 주행 상황, 특히 공격적인 턴과 같은 드문 조작을 포함하여 다중 뷰 감각 데이터를 효과적으로 처리하고 견고하게 처리해야 하는 엔드투엔드 자율 주행(E2E-AD)에 대해 다룹니다. 대규모 언어 모델(LLM)에서 Mixture-of-Experts(MoE) 아키텍처의 최근 성공은 매개변수의 특수화가 강력한 확장성을 가능하게 함을 보여줍니다. 이 연구는 장면 특화 비전 MoE와 기술 특화 액션 MoE를 갖춘 새로운 MoE 기반 E2E-AD 프레임워크인 DriveMoE를 제안합니다. DriveMoE는 구현 AI 분야에서 유래한 $\pi_0$ Vision-Language-Action(VLA) 기준 모델인 Drive-$\pi_0$을 기반으로 구축됩니다. 구체적으로, 주행 컨텍스트에 따라 관련 카메라를 동적으로 선택하는 라우터를 훈련하여 Drive-$\pi_0$에 비전 MoE를 추가합니다. 이 설계는 운전자가 모든 시각 정보를 철저히 처리하는 대신 중요한 시각적 단서에 선택적으로 주의를 기울이는 인간 주행 인지 과정을 반영합니다. 또한, 서로 다른 주행 행동에 대해 전문가 모듈을 활성화하는 또 다른 라우터를 훈련하여 액션 MoE를 추가합니다. 명시적인 행동 특수화를 통해 DriveMoE는 기존 모델과 같은 모드 평균화 문제 없이 다양한 시나리오를 처리할 수 있습니다. Bench2Drive 폐루프 평가 실험에서 DriveMoE는 최첨단(SOTA) 성능을 달성하여 자율 주행 작업에서 비전 및 액션 MoE를 결합하는 효과를 보여줍니다. 본 논문에서는 DriveMoE와 Drive-$\pi_0$의 코드와 모델을 공개할 예정입니다.

시사점, 한계점

시사점:
MoE 아키텍처를 활용하여 E2E-AD에서 다양한 주행 시나리오에 대한 견고성과 확장성을 향상시켰습니다.
비전 MoE와 액션 MoE를 결합하여 인간의 주행 인지 과정을 모방함으로써 효율적인 정보 처리를 구현했습니다.
Bench2Drive에서 SOTA 성능을 달성하여 제안된 방법의 효과를 입증했습니다.
코드와 모델을 공개하여 연구의 재현성과 발전을 촉진합니다.
한계점:
Bench2Drive 데이터셋에 대한 평가 결과만 제시되어 다른 데이터셋으로의 일반화 성능은 아직 불확실합니다.
MoE 아키텍처의 복잡성으로 인해 계산 비용이 높을 수 있습니다.
실제 도로 환경에서의 성능 평가가 부족합니다.
라우터의 성능이 전체 시스템 성능에 큰 영향을 미치므로 라우터의 안정성 및 신뢰성에 대한 추가적인 연구가 필요합니다.
👍