본 논문은 자율 주행 분야의 Vision-Language-Action (VLA) 모델 평가를 위한 새로운 벤치마크인 DriveAction을 소개합니다. DriveAction은 다양한 시나리오, 신뢰할 수 있는 액션 수준의 주석, 인간의 선호도에 맞는 평가 프로토콜의 부재라는 기존 벤치마크의 한계를 극복하고자 설계되었습니다. DriveAction은 실제 자율 주행 데이터를 기반으로 16,185개의 QA 쌍과 2,610개의 주행 시나리오를 포함하며, 드라이버의 실제 운전 동작에서 직접 수집한 고수준 이산 액션 레이블을 사용합니다. 또한 시각, 언어, 액션 간의 명확한 연결을 위한 액션 기반 트리 구조 평가 프레임워크를 구현합니다. 실험 결과는 최신 VLMs이 정확한 액션 예측을 위해 시각 및 언어 지침 모두 필요하며, 시각 입력이 없을 경우 3.3%, 언어 입력이 없을 경우 4.1%, 둘 다 없을 경우 8.0%의 정확도 감소를 보임을 보여줍니다.