Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

DriveAction: A Benchmark for Exploring Human-like Driving Decisions in VLA Models

Created by
  • Haebom

저자

Yuhan Hao, Zhengning Li, Lei Sun, Weilong Wang, Naixin Yi, Sheng Song, Caihong Qin, Mofan Zhou, Yifei Zhan, Xianpeng Lang

개요

본 논문은 자율 주행 분야의 Vision-Language-Action (VLA) 모델 평가를 위한 새로운 벤치마크인 DriveAction을 소개합니다. DriveAction은 다양한 시나리오, 신뢰할 수 있는 액션 수준의 주석, 인간의 선호도에 맞는 평가 프로토콜의 부재라는 기존 벤치마크의 한계를 극복하고자 설계되었습니다. DriveAction은 실제 자율 주행 데이터를 기반으로 16,185개의 QA 쌍과 2,610개의 주행 시나리오를 포함하며, 드라이버의 실제 운전 동작에서 직접 수집한 고수준 이산 액션 레이블을 사용합니다. 또한 시각, 언어, 액션 간의 명확한 연결을 위한 액션 기반 트리 구조 평가 프레임워크를 구현합니다. 실험 결과는 최신 VLMs이 정확한 액션 예측을 위해 시각 및 언어 지침 모두 필요하며, 시각 입력이 없을 경우 3.3%, 언어 입력이 없을 경우 4.1%, 둘 다 없을 경우 8.0%의 정확도 감소를 보임을 보여줍니다.

시사점, 한계점

시사점:
자율 주행 VLA 모델 평가를 위한 새로운 벤치마크 DriveAction 제시
광범위하고 대표적인 시나리오를 보장하기 위해 실제 주행 데이터 활용
드라이버의 실제 운전 동작에서 직접 수집한 고수준 액션 레이블 사용
시각, 언어, 액션 간의 명확한 연결을 위한 액션 기반 트리 구조 평가 프레임워크 구현
최신 VLMs의 성능 분석을 통해 모델 개선 방향 제시
한계점:
논문에서 구체적인 한계점 언급은 없음
👍