Sign In

Evaluation of Safety Cognition Capability in Vision-Language Models for Autonomous Driving

Created by
  • Haebom
Category
Empty

저자

Enming Zhang, Peizhe Gong, Xingyuan Dai, Yisheng Lv, Qinghai Miao

개요

본 논문은 자율 주행 시스템 내 상호 작용적 구성 요소로서의 Vision-Language Model (VLM)의 안전성 평가를 위한 새로운 평가 방법인 Safety Cognitive Driving Benchmark (SCD-Bench)를 제안합니다. 대규모 어노테이션의 어려움을 해결하기 위해 Autonomous Driving Image-Text Annotation System (ADA)을 개발하고, 전문가의 수동 검증을 통해 데이터 품질을 확보했습니다. 또한, 대규모 언어 모델(LLM) 기반의 자동 평가 방법을 개발하여 전문가 평가와 99.74%의 일치율을 달성했습니다. 실험 결과, 기존 오픈소스 모델들은 GPT-4o에 비해 안전 인식 능력이 부족하며, 특히 경량 모델(1B-4B)의 안전 인식 능력은 매우 낮은 것으로 나타났습니다. 이는 자율 주행 시스템에 VLM을 통합하는 데 있어 중요한 과제를 제시합니다.

시사점, 한계점

시사점:
자율 주행 VLM의 안전성 평가를 위한 새로운 벤치마크 SCD-Bench 제시
대규모 데이터 어노테이션 문제 해결을 위한 ADA 시스템 개발
LLM 기반 자동 평가 방법의 효율성 검증 (99.74% 전문가 평가 일치율)
기존 오픈소스 VLM의 안전 인식 능력 부족 및 경량 모델의 심각한 안전성 문제 확인
한계점:
SCD-Bench의 일반화 가능성에 대한 추가 연구 필요
경량 모델의 안전 인식 능력 향상을 위한 구체적인 방안 제시 부족
ADA 시스템의 확장성 및 유지보수에 대한 고려 필요
👍