본 논문은 자율 주행 시스템의 안전성과 신뢰성을 보장하기 위해 코너 케이스 이해를 향상시키는 데 초점을 맞춘 새로운 프레임워크인 RAC3를 제안합니다. RAC3는 빈도-공간 융합(FSF) 이미지 인코더, 하드 및 세미-하드 네거티브 마이닝을 통한 교차 모달 정렬 훈련 방법, K-Means 클러스터링 및 계층적 탐색 가능한 소규모 세계(HNSW) 인덱싱 기반의 빠른 쿼리 및 검색 파이프라인을 통합합니다. 또한 유추 추론을 안내하고 추론 중 환각을 줄이기 위한 다중 모달 사고의 연쇄(CoT) 프롬프트 전략이 도입되었습니다. 지속적인 학습을 보장하기 위한 업데이트 메커니즘도 통합되었습니다.
시사점, 한계점
•
시사점:
◦
코너 케이스 이해를 위한 비전-언어 모델(VLM)의 성능을 효과적으로 향상시킴.
◦
빈도-공간 융합(FSF) 이미지 인코더, 교차 모달 정렬 훈련, 빠른 쿼리 및 검색 파이프라인, CoT 프롬프트 전략 및 업데이트 메커니즘의 통합을 통해 성능 향상.
◦
CODA-LM 벤치마크에서 최고 점수를 달성하고, DriveLM과 같은 종단 간 프레임워크와의 통합에서도 일관된 성능 향상을 보임.