본 논문은 자율 주행 환경에서 교통 제스처(TGs)의 정확한 해석의 중요성을 강조하며, 최첨단 비전-언어 모델(VLMs)의 제로샷 교통 제스처 해석 능력을 평가합니다. 연구진은 다양한 형식의 교통 제스처를 포함하는 두 개의 새로운 데이터셋(Acted TG (ATG) 와 Instructive TG In-The-Wild (ITGI))을 제작하여 공개하고, 세 가지 평가 방법(캡션 유사도, 제스처 분류, 포즈 시퀀스 재구성 유사도)을 통해 VLMs의 성능을 측정합니다. 실험 결과, 최첨단 VLMs는 제로샷 교통 제스처 이해에 어려움을 겪고 있으며, 정확도와 안정성이 자율 주행에 적용하기에는 부족함을 보입니다.