Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

EMMA: End-to-End Multimodal Model for Autonomous Driving

Created by
  • Haebom

저자

Jyh-Jing Hwang, Runsheng Xu, Hubert Lin, Wei-Chih Hung, Jingwei Ji, Kristy Choi, Di Huang, Tong He, Paul Covington, Benjamin Sapp, Yin Zhou, James Guo, Dragomir Anguelov, Mingxing Tan

개요

EMMA는 Gemini와 같은 다중 모드 거대 언어 모델을 기반으로 하는 자율 주행을 위한 엔드투엔드 다중 모달 모델입니다. EMMA는 원시 카메라 센서 데이터를 계획자 경로, 인식 객체, 도로 그래프 요소 등 다양한 주행 관련 출력으로 직접 매핑합니다. 내비게이션 지침 및 자차 상태와 같은 비센서 입력과 경로 및 3D 위치와 같은 출력을 모두 자연어 텍스트로 표현하여 사전 훈련된 거대 언어 모델의 세계 지식 활용도를 극대화합니다. 이를 통해 EMMA는 통합된 언어 공간에서 다양한 주행 작업을 공동으로 처리하고 작업별 프롬프트를 사용하여 각 작업에 대한 출력을 생성합니다. nuScenes에서의 동작 계획과 WOMD에서의 경쟁력 있는 결과, 그리고 WOD에서의 카메라 기반 3D 객체 탐지에서 경쟁력 있는 결과를 달성함으로써 효과를 실험적으로 입증했습니다. 계획자 경로, 객체 탐지 및 도로 그래프 작업으로 EMMA를 공동 훈련하면 세 가지 영역 모두에서 성능이 향상되는 것을 보여주며, 자율 주행 애플리케이션을 위한 일반화 모델로서의 EMMA의 잠재력을 강조합니다.

시사점, 한계점

시사점:
다중 모달 거대 언어 모델을 기반으로 자율 주행의 다양한 작업을 통합적으로 처리하는 새로운 아키텍처를 제시.
nuScenes 및 WOMD에서 최첨단 또는 경쟁력 있는 성능을 달성.
다양한 작업의 공동 훈련을 통해 전반적인 성능 향상을 확인.
자율 주행 모델 아키텍처 발전에 대한 새로운 연구 방향 제시.
한계점:
구체적인 한계점에 대한 언급이 논문에 부족함.
실제 도로 환경에서의 일반화 성능에 대한 추가적인 검증 필요.
에너지 효율성 및 실시간 처리 성능에 대한 평가 부족.
👍