MTA: Multimodal Task Alignment for BEV Perception and Captioning
Created by
Haebom
저자
Yunsheng Ma, Burhaneddin Yaman, Xin Ye, Jingru Luo, Feng Tao, Abhirup Mallik, Ziran Wang, Liu Ren
개요
본 논문은 자율주행에서 중요한 역할을 하는 조감도(BEV) 기반 3D 인지와 객체 행동 이해를 위한 BEV 기반 캡션 생성을 다룹니다. 기존 연구들이 두 작업을 분리하여 처리하는 한계를 극복하고자, 모달 간 정렬을 강화하는 새로운 다중 모달 작업 정렬 프레임워크 MTA를 제안합니다. MTA는 BEV 장면 표현과 언어 표현을 정렬하는 BEV-언어 정렬(BLA)과 탐지 및 캡션 생성 결과를 정렬하는 탐지-캡션 정렬(DCA) 두 가지 구성 요소로 이루어져 있습니다. 실험 결과, nuScenes 및 TOD3Cap 데이터셋에서 기존 최고 성능 모델보다 BEV 인지 및 캡션 생성 작업 모두에서 성능 향상을 보였으며, 특히 희귀한 인지 시나리오에서 10.7%, 캡션 생성에서 9.2% 향상을 달성했습니다.