본 논문은 대규모 언어 모델(LLM)의 질의응답(QA) 능력 평가 시, 기억(memorization)과 검색(retrieval) 의존도를 측정하는 지표가 부족하다는 점을 지적하며, 특히 다중 모달 검색 증강 VLM(Visual Language Model)에서 미세조정(finetuning)이 기억에 미치는 영향을 분석합니다. WebQA 벤치마크를 사용하여 미세조정된 모델과 기준 VLM을 비교 분석하고, 검색 실패에도 QA가 성공하는 경우를 조사하여 기억을 정량화하는 프록시 지표를 제안합니다. 실험 결과, 미세조정된 모델이 검색 증강 VLM보다 기억에 더 많이 의존하며(WebQA 테스트 세트에서 72% 대 52%), 정확도가 더 높다는 것을 확인했습니다. 또한, 텍스트 기반 질문보다 이미지 기반 질문의 응답률이 15-25% 더 높다는 것을 최초로 실증적으로 비교 분석하여 제시합니다. 이러한 결과는 다양한 모달 간 모델 기억 차이를 설명하고, 검색-QA 작업에서 기억과 일반화를 조정하는 미래 연구에 대한 과제를 제시합니다.