Enhancing Vision-Language Models for Autonomous Driving through Task-Specific Prompting and Spatial Reasoning
Created by
Haebom
Category
Empty
저자
Aodi Wu, Xubo Luo
개요
본 논문은 IROS 2025 RoboSense Challenge에서 Vision-Language Models (VLMs)의 자율 주행 상황 이해 능력을 평가하기 위한 솔루션을 제시한다. 4가지 핵심 구성 요소로 구축된 체계적인 프레임워크를 제안하며, Qwen2.5-VL-72B 모델을 사용하여 Phase-1 (clean data)에서 70.87%, Phase-2 (corrupted data)에서 72.85%의 평균 정확도를 달성했다.
시사점, 한계점
•
시사점:
◦
질문 분류 및 태스크별 프롬프트 분배를 통해 다양한 질문 유형 간의 간섭을 제거함.
◦
명시적인 좌표계, 공간 추론 규칙, 역할 연기, Chain-of-Thought/Tree-of-Thought 추론 및 소수의 예시를 포함하는 태스크별 프롬프트를 활용하여 성능을 향상시킴.
◦
다중 뷰 이미지, 객체 크롭, 마젠타 마커 및 적응형 히스토리 프레임을 결합하는 시각적 어셈블리 모듈을 사용함.
◦
태스크별 모델 추론 매개변수 설정을 통해 출력 품질을 최적화함.
◦
구조화된 프롬프트와 공간적 기반 지식이 안전에 중요한 자율 주행 태스크에서 VLM 성능을 크게 향상시킴을 입증함.