Sign In

Enhancing Vision-Language Models for Autonomous Driving through Task-Specific Prompting and Spatial Reasoning

Created by
  • Haebom
Category
Empty

저자

Aodi Wu, Xubo Luo

개요

본 논문은 IROS 2025 RoboSense Challenge에서 Vision-Language Models (VLMs)의 자율 주행 상황 이해 능력을 평가하기 위한 솔루션을 제시한다. 4가지 핵심 구성 요소로 구축된 체계적인 프레임워크를 제안하며, Qwen2.5-VL-72B 모델을 사용하여 Phase-1 (clean data)에서 70.87%, Phase-2 (corrupted data)에서 72.85%의 평균 정확도를 달성했다.

시사점, 한계점

시사점:
질문 분류 및 태스크별 프롬프트 분배를 통해 다양한 질문 유형 간의 간섭을 제거함.
명시적인 좌표계, 공간 추론 규칙, 역할 연기, Chain-of-Thought/Tree-of-Thought 추론 및 소수의 예시를 포함하는 태스크별 프롬프트를 활용하여 성능을 향상시킴.
다중 뷰 이미지, 객체 크롭, 마젠타 마커 및 적응형 히스토리 프레임을 결합하는 시각적 어셈블리 모듈을 사용함.
태스크별 모델 추론 매개변수 설정을 통해 출력 품질을 최적화함.
구조화된 프롬프트와 공간적 기반 지식이 안전에 중요한 자율 주행 태스크에서 VLM 성능을 크게 향상시킴을 입증함.
한계점:
논문에서 구체적인 한계점은 명시되지 않음.
👍