Vision-Language Model (VLM)의 자율주행 적용 가능성을 평가하기 위해, 거리 정보가 포함된 교통 상황 인식 Visual Question Answering (VQA) 벤치마크인 DTPQA (Distance-Annotated Traffic Perception Question Answering)를 제안합니다. DTPQA는 시뮬레이터를 사용하여 생성된 합성 데이터셋 (DTP-Synthetic)과 실제 교통 상황 이미지로 구축된 실제 데이터셋 (DTP-Real)으로 구성됩니다. 각 샘플은 이미지, 질문, 정답, 그리고 질문 대상 객체의 거리를 포함하여, VLM의 성능 저하를 객체 거리에 따라 분석할 수 있도록 합니다. 이 논문에서는 데이터셋과 데이터 생성에 사용된 Python 스크립트를 제공합니다.