DrivingVQA라는, 운전면허 시험 문제를 기반으로 한 새로운 시각-언어 질의응답(VQA) 데이터셋을 제시합니다. 이 데이터셋은 전문가가 작성한 설명과 추론 과정에 관련된 실체 정보를 포함하는 3,931개의 객관식 문제로 구성됩니다. 본 논문에서는 시각적 단서와 암기된 지식에 과도하게 의존하는 기존 사고과정(CoT) 프롬프팅의 한계를 극복하기 위해, 관련 실체에 해당하는 시각적 자르기 이미지를 활용하는 검색 기반 교차 시각적 사고과정(RIV-CoT) 방법을 제안합니다. 실험 결과, RIV-CoT는 기존 CoT 프롬프팅에 비해 정답률을 3.1%, 추론 정확도를 4.6% 향상시켰으며, 자동 생성된 의사 레이블을 활용하여 대규모 A-OKVQA 데이터셋에서도 효과적으로 확장됨을 보였습니다.