본 논문은 자율 주행을 위한 엔드-투-엔드 모션 플래닝 접근 방식에 대한 최근의 관심 증가를 다룹니다. 기존의 엔드-투-엔드 방식들은 중간 단계의 인지 및 예측 작업에 대한 사람의 주석에 의존하는 반면, 순수하게 자가 지도 학습 방식은 성능이 떨어지는 경향이 있습니다. 본 논문에서는 자율 주행 차량이 계획을 수립하는 기본 공간인 3D 공간이 아닌 2D 이미지 공간에서 추론 작업으로 사전 훈련된 MLLM 기반 엔드-투-엔드 접근 방식의 입력 표현 공간에 핵심적인 차이점이 있음을 관찰합니다. 이를 해결하기 위해, 본 논문은 인기 있는 PaLI 다중 모드 대규모 언어 모델을 기반으로 시공간적 시각적 표현을 갖는 확장 가능한 자가 지도 학습 모션 플래닝 알고리즘인 S4-Driver를 제안합니다. S4-Driver는 새로운 스파스 볼륨 전략을 사용하여 비전 인코더를 미세 조정할 필요 없이 MLLM의 강력한 시각적 표현을 원근법적 뷰에서 3D 공간으로 원활하게 변환합니다. 이 표현은 다중 뷰 및 다중 프레임 시각적 입력을 집계하여 3D 공간에서 계획 경로의 예측을 향상시킵니다. nuScenes 및 Waymo Open Motion Dataset (사내 카메라 데이터 포함)에서 실험을 수행하여 S4-Driver가 사람의 주석 없이도 기존의 지도 학습 다중 작업 접근 방식보다 우수한 성능을 보이며, 주석이 없는 대량의 운전 로그로 사전 훈련될 때 뛰어난 확장성을 보임을 확인했습니다.
시사점, 한계점
•
시사점:
◦
사람의 주석 없이도 우수한 성능을 달성하는 자가 지도 학습 기반의 엔드-투-엔드 모션 플래닝 알고리즘을 제시.
◦
MLLM의 강력한 시각적 표현을 3D 공간으로 효과적으로 변환하는 새로운 스파스 볼륨 전략 제안.