본 논문은 자율 주행 시스템의 안전성과 신뢰성을 확보하기 위해 까다로운 상황(corner cases)을 이해하고 해결하는 것을 목표로 합니다. 기존 Vision-Language Model (VLM)의 한계인 환각(hallucination) 및 현실 세계 기반 부족 문제를 해결하기 위해, RAC3라는 새로운 프레임워크를 제안합니다. RAC3는 주파수-공간 융합(FSF) 이미지 인코더, 하드 및 세미-하드 네거티브 마이닝을 사용한 크로스-모달 정렬 학습 방법, K-Means 클러스터링 및 HNSW 인덱싱 기반의 빠른 질의 및 검색 파이프라인, 그리고 유추 추론을 안내하고 환각을 줄이는 다중 모달 연쇄적 사고(CoT) 프롬프팅 전략을 통합합니다. 또한, 지속적인 학습을 위한 업데이트 메커니즘을 포함합니다. CODA와 nuScenes 데이터셋에서의 광범위한 실험 결과, RAC3는 여러 하위 작업에서 까다로운 상황 이해 능력을 크게 향상시키며, CODA-LM 벤치마크에서 74.46의 최고 점수를 달성하고 DriveLM과 같은 엔드투엔드 프레임워크와 통합될 때 일관된 성능 향상을 보입니다. 이 결과는 검색 증강 전략과 크로스-모달 정렬이 자율 주행의 안전성과 해석성을 높이는 데 효과적임을 보여줍니다.