Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

S4-Driver: Scalable Self-Supervised Driving Multimodal Large Language Modelwith Spatio-Temporal Visual Representation

Created by
  • Haebom

저자

Yichen Xie, Runsheng Xu, Tong He, Jyh-Jing Hwang, Katie Luo, Jingwei Ji, Hubert Lin, Letian Chen, Yiren Lu, Zhaoqi Leng, Dragomir Anguelov, Mingxing Tan

개요

본 논문은 자율 주행을 위한 엔드-투-엔드 모션 플래닝 접근 방식에 대한 최근의 관심 증가를 다룹니다. 기존의 엔드-투-엔드 방식들은 중간 단계의 인지 및 예측 작업에 대한 사람의 주석에 의존하는 반면, 순수하게 자가 지도 학습 방식은 성능이 떨어지는 경향이 있습니다. 본 논문에서는 자율 주행 차량이 계획을 수립하는 기본 공간인 3D 공간이 아닌 2D 이미지 공간에서 추론 작업으로 사전 훈련된 MLLM 기반 엔드-투-엔드 접근 방식의 입력 표현 공간에 핵심적인 차이점이 있음을 관찰합니다. 이를 해결하기 위해, 본 논문은 인기 있는 PaLI 다중 모드 대규모 언어 모델을 기반으로 시공간적 시각적 표현을 갖는 확장 가능한 자가 지도 학습 모션 플래닝 알고리즘인 S4-Driver를 제안합니다. S4-Driver는 새로운 스파스 볼륨 전략을 사용하여 비전 인코더를 미세 조정할 필요 없이 MLLM의 강력한 시각적 표현을 원근법적 뷰에서 3D 공간으로 원활하게 변환합니다. 이 표현은 다중 뷰 및 다중 프레임 시각적 입력을 집계하여 3D 공간에서 계획 경로의 예측을 향상시킵니다. nuScenes 및 Waymo Open Motion Dataset (사내 카메라 데이터 포함)에서 실험을 수행하여 S4-Driver가 사람의 주석 없이도 기존의 지도 학습 다중 작업 접근 방식보다 우수한 성능을 보이며, 주석이 없는 대량의 운전 로그로 사전 훈련될 때 뛰어난 확장성을 보임을 확인했습니다.

시사점, 한계점

시사점:
사람의 주석 없이도 우수한 성능을 달성하는 자가 지도 학습 기반의 엔드-투-엔드 모션 플래닝 알고리즘을 제시.
MLLM의 강력한 시각적 표현을 3D 공간으로 효과적으로 변환하는 새로운 스파스 볼륨 전략 제안.
대량의 비주석 데이터를 활용한 확장성 있는 학습 가능성을 입증.
기존의 지도 학습 기반 다중 작업 접근 방식보다 우수한 성능을 보임.
한계점:
제안된 방법의 일반화 성능에 대한 추가적인 연구가 필요.
다양한 환경 및 상황에 대한 로버스트성 평가가 추가적으로 필요.
사내 카메라 데이터의 사용으로 인한 외부 데이터셋에 대한 일반화 성능 저하 가능성.
PaLI 모델에 대한 의존성으로 인한 다른 MLLM으로의 확장성 문제.
👍