Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Descriptor: Distance-Annotated Traffic Perception Question Answering (DTPQA)

Created by
  • Haebom
Category
Empty

저자

Nikos Theodoridis, Tim Brophy, Reenu Mohandas, Ganesh Sistu, Fiachra Collins, Anthony Scanlan, Ciaran Eising

개요

Vision-Language Model (VLM)의 자율주행 적용 가능성을 평가하기 위해, 거리 정보가 포함된 교통 상황 인식 Visual Question Answering (VQA) 벤치마크인 DTPQA (Distance-Annotated Traffic Perception Question Answering)를 제안합니다. DTPQA는 시뮬레이터를 사용하여 생성된 합성 데이터셋 (DTP-Synthetic)과 실제 교통 상황 이미지로 구축된 실제 데이터셋 (DTP-Real)으로 구성됩니다. 각 샘플은 이미지, 질문, 정답, 그리고 질문 대상 객체의 거리를 포함하여, VLM의 성능 저하를 객체 거리에 따라 분석할 수 있도록 합니다. 이 논문에서는 데이터셋과 데이터 생성에 사용된 Python 스크립트를 제공합니다.

시사점, 한계점

시사점:
자율주행 분야에서 VLM의 안전성을 평가하기 위한 구체적인 방법론 제시.
VLM의 원거리 객체 인식 능력 평가에 초점을 맞춘 새로운 벤치마크 (DTPQA) 개발.
합성 및 실제 데이터셋을 모두 활용하여 벤치마크의 실용성 및 일반화 가능성 확보.
거리 정보를 포함하여 VLM의 성능 저하를 객체 거리에 따라 분석할 수 있는 기반 마련.
추가 데이터 생성에 사용될 수 있는 Python 스크립트 제공.
한계점:
벤치마크가 특정 VQA task에 국한되어, VLM의 모든 측면을 포괄적으로 평가하지 못할 수 있음.
합성 데이터의 경우, 실제 환경과의 차이로 인해 VLM의 성능이 과대평가될 수 있음.
실제 데이터의 경우, 데이터의 양이 제한적일 수 있으며, 특정 교통 상황에 편향될 수 있음.
VLM의 reasoning 능력이나 세계 지식과 같은 다른 능력들은 평가 대상에서 제외됨.
👍