Sign In

Robusto-1 Dataset: Comparing Humans and VLMs on real out-of-distribution Autonomous Driving VQA from Peru

Created by
  • Haebom
Category
Empty

저자

Dunant Cusipuma, David Ortega, Victor Flores-Benites, Arturo Deza

개요

본 논문은 자율주행 자동차에 실험적으로 배포되기 시작한 다중 모달 기초 모델이 특정 운전 상황(특히 분포 밖 상황)에서 사람과 얼마나 유사하게 반응하는지 연구합니다. 이를 위해 페루의 대시캠 비디오 데이터를 사용하여 Robusto-1 데이터셋을 생성했습니다. 페루는 공격적인 운전자, 높은 교통량 지수, 훈련에서 본 적 없는 기이한 도로 물체의 높은 비율을 가지고 있습니다. 기초 시각 언어 모델(VLMs)과 인간의 운전 능력을 인지 수준에서 비교하기 위해, 바운딩 박스, 분할 맵, 점유 맵 또는 궤적 추정 대신 다중 모달 시각적 질의응답(VQA)을 사용하고, 시스템 신경과학에서 널리 사용되는 표상 유사성 분석(RSA)을 통해 인간과 기계를 비교합니다. VLMs와 인간의 응답을 비교 분석하여, 질문 유형에 따라 VLMs와 인간의 반응이 일치하거나 불일치하는 경우를 보여주고, 인지적 정렬 정도를 조사합니다. 그 결과, 질문 유형에 따라 VLMs와 인간의 정렬 정도가 크게 다르다는 것을 발견하여, 두 시스템 간의 정렬 차이를 강조합니다.

시사점, 한계점

시사점:
페루의 다양하고 어려운 운전 환경을 반영한 Robusto-1 데이터셋을 제시하여, 다중 모달 기초 모델의 실제 환경 적용 가능성에 대한 연구를 위한 기반을 마련했습니다.
RSA를 활용하여 VLMs와 인간의 인지적 정렬 수준을 비교 분석하는 새로운 접근 방식을 제시했습니다.
질문 유형에 따라 VLMs와 인간의 반응 차이를 규명하여, 향후 다중 모달 모델 개발 및 개선 방향을 제시했습니다.
한계점:
Robusto-1 데이터셋은 페루의 특정 환경에 국한되어, 다른 지역의 운전 환경에는 일반화되지 않을 수 있습니다.
VQA와 RSA를 사용한 분석 방법은 질문의 설계 및 해석에 따라 결과가 영향을 받을 수 있습니다.
본 연구는 예비적인 성격을 지니며, 더욱 심도 있는 분석과 추가적인 연구가 필요합니다.
👍