본 논문은 자율주행 자동차에 실험적으로 배포되기 시작한 다중 모달 기초 모델이 특정 운전 상황(특히 분포 밖 상황)에서 사람과 얼마나 유사하게 반응하는지 연구합니다. 이를 위해 페루의 대시캠 비디오 데이터를 사용하여 Robusto-1 데이터셋을 생성했습니다. 페루는 공격적인 운전자, 높은 교통량 지수, 훈련에서 본 적 없는 기이한 도로 물체의 높은 비율을 가지고 있습니다. 기초 시각 언어 모델(VLMs)과 인간의 운전 능력을 인지 수준에서 비교하기 위해, 바운딩 박스, 분할 맵, 점유 맵 또는 궤적 추정 대신 다중 모달 시각적 질의응답(VQA)을 사용하고, 시스템 신경과학에서 널리 사용되는 표상 유사성 분석(RSA)을 통해 인간과 기계를 비교합니다. VLMs와 인간의 응답을 비교 분석하여, 질문 유형에 따라 VLMs와 인간의 반응이 일치하거나 불일치하는 경우를 보여주고, 인지적 정렬 정도를 조사합니다. 그 결과, 질문 유형에 따라 VLMs와 인간의 정렬 정도가 크게 다르다는 것을 발견하여, 두 시스템 간의 정렬 차이를 강조합니다.