본 논문은 자율 주행 시스템의 안전하고 신뢰할 수 있는 운영을 위해 고차원 메타 행동의 정확한 이해 및 결정이 필수적임을 강조합니다. 시각-언어 모델(VLMs)이 다양한 자율 주행 과제에서 잠재력을 보여주지만, 공간 인식 부족과 환각과 같은 한계로 인해 복잡한 자율 주행 시나리오에서 효율성이 떨어지는 문제점을 지적합니다. 이를 해결하기 위해, 본 논문은 VLMs의 메타 행동 생성 능력을 향상시키는 새로운 아키텍처인 검색 증강 의사 결정(RAD) 프레임워크를 제안합니다. RAD는 임베딩 흐름, 검색 흐름, 생성 흐름의 세 단계로 구성된 검색 증강 생성(RAG) 파이프라인을 활용하여 의사 결정 정확도를 동적으로 향상시킵니다. 또한, NuScenes 데이터셋에서 특별히 선별된 데이터셋으로 VLMs를 미세 조정하여 공간 인식 및 조감도 이미지 이해 능력을 향상시킵니다. 선별된 NuScenes 기반 데이터셋에서의 광범위한 실험 평가는 RAD가 일치 정확도, F1 점수 및 자체 정의된 종합 점수를 포함한 주요 평가 지표에서 기준 방법을 능가함을 보여주며, 자율 주행 과제에 대한 메타 행동 의사 결정 개선의 효과를 강조합니다.