본 논문은 지능형 교통 시스템과 자율 주행을 위한 교통 장면 이해의 중요성을 강조하며, Bird's Eye View (BEV) 맵을 사용하는 비전-언어 모델(VLM)의 적용을 중점적으로 다룹니다. 기존 방법들의 제한적인 작업 설계와 부족한 데이터 양으로 인한 한계를 극복하고자, 13만 개 이상의 질문을 포함하는 새로운 BEV VQA 벤치마크인 ChatBEV-QA를 제시합니다. 이 벤치마크는 전역 장면 이해, 차량-차선 상호 작용, 차량-차량 상호 작용 등 다양한 작업을 포함하도록 설계되었으며, 확장 가능하고 유익한 VQA 데이터를 생성하는 새로운 데이터 수집 파이프라인을 사용하여 구성되었습니다. 또한, 다양한 질문 프롬프트를 해석하고 BEV 맵에서 관련 정보를 추출할 수 있도록 특수화된 비전-언어 모델인 ChatBEV를 미세 조정하였습니다. 마지막으로, ChatBEV가 맵 이해와 텍스트 정렬된 탐색 안내를 용이하게 함으로써 현실적이고 일관성 있는 교통 시나리오 생성을 크게 향상시키는 언어 기반 교통 장면 생성 파이프라인을 제안합니다. 데이터셋, 코드 및 미세 조정된 모델은 공개될 예정입니다.