본 논문은 지능형 교통 시스템과 자율 주행을 위한 교통 상황 이해의 중요성을 강조하며, Bird's Eye View (BEV) 맵을 활용한 Vision-Language Model (VLM)의 적용을 중점적으로 다룹니다. 기존 방법들의 제한적인 과제 설계와 데이터 부족 문제를 해결하고자, 13만 개 이상의 질문을 포함하는 새로운 BEV VQA 벤치마크인 ChatBEV-QA를 제시합니다. ChatBEV-QA는 전역적 장면 이해, 차량-차선 상호작용, 차량-차량 상호작용 등 다양한 과제를 포함하며, 확장 가능하고 정보가 풍부한 VQA 데이터를 생성하는 새로운 데이터 수집 파이프라인을 통해 구축되었습니다. 또한, 다양한 질문 프롬프트를 해석하고 BEV 맵에서 관련 정보를 추출할 수 있도록 특수화된 Vision-Language Model인 ChatBEV를 미세 조정하고, ChatBEV를 활용하여 현실적이고 일관된 교통 시나리오 생성을 향상시키는 언어 기반 교통 시나리오 생성 파이프라인을 제안합니다. 데이터셋, 코드, 그리고 미세 조정된 모델을 공개할 예정입니다.